Computations54

Содержание

Open source решения для обработки и анализа данных

Сейчас на рынке существует множество open source решений для обработки и анализа данных, которые позволяют выполнять сложные расчеты, решать самые разнообразные задачи от составления оперативных отчётов до обработки больших объёмов данных. В основном их функционал схож, но также можно выбрать решение для выполнения определенных функций.

Например, Jupyter хорошо использовать для экспериментальных расчетов и интерактивных вычислений, Apache Airflow подходит для планирования и мониторинга статичных циклических процессов обработки данных.

Такая платформа как Knime позволяет выполнять полный цикл анализа данных. Но Knime не дает достаточной гибкости разработки, это слишком жесткая платформа и она тяжело интегрируется в инфраструктуру.

Чего нам не хватало?

Наша компания 54origins выполняет большое количество исследований в области анализа данных для разных компаний в различных сферах. И в какой-то момент все эти проекты после 1-2 года разработки стали превращаться в хаос и было очень тяжело добиться функционирования проекта в рабочем режиме, особенно для систем с критичностью получаемых результатов (например биржевые роботы). Кроме того нам не хватало кастомных интерфейсов, уровней разделения логики, возможности масштабирования вычислительных мощностей и гибкости системы. Для организации стабильной работы и решения стандартных проблем мы разработали специализированный фреймворк для нас и наших клиентов, который мы назвали Computations54.

Computations54 - фреймворк на языке Python, который позволяет обрабатывать большие массивы данных, проводить различные сложные расчеты, собирать их в отчеты и на основе этого делать точные прогнозы с постоянным мониторингом целостности получаемых результатов.

Мы сделали в Computations54 три уровня логики:

  • общее ядро
  • субъядро для конкретных задач
  • ядро для расчетов

Фреймворк обеспечивает надежность необходимую для критичных вычислений, таких как биржевые расчеты и анализ медицинских данных. Вы можете перейти сразу от экспериментальной деятельности к практике на основе выполненных расчетов. Computations54 используется для ответственных расчетов, где необходима уверенность в надежности получаемых результатов.

Так как фреймворк основан на языке программирования Python, он позволяет использовать все преимущества Python и все доступные в Python библиотеки для машинного обучения и обработки данных, такие как:

  • Pandas
  • Open CV
  • Tesseract
  • Keras
  • NLTK и многие другие.

Jupyter очень хорош! Но что не может Jupyter?

Jupyter абсолютно потрясающий инструмент для черновиков расчетов и экспериментов. Но Jupyter нельзя использовать в реальных системах, особенно в таких критичных вещах как биржевые расчеты и медицинская аналитика, из-за того, что ошибка в настройке системы может привести к катастрофическим результатам и ее надежность оставляет желать лучшего.

Jupyter подходит для экспериментальной деятельности, а в Computations54 можно запускать стабильные вычисления и быть уверенным в результате. Computations54 - фреймворк, позволяющий выводить эксперименты, которые были проведены в Jupyter, в продакшн.

Основные функции и преимущества Computations54

computation54 интеллектуальный анализ текста

Основная функция Computations54 - это интеллектуальная обработка и анализ больших объемов данных с последующим выявлением моделей и тенденций, которые позволят принять правильные управленческие решения.

Computations54 обрабатывает различные виды данных: текстовые, числовые и прочие. Преобразовывая данные в структурированный вид, сервис сделает любую информацию доступной для анализа. Вам необходимо только загрузить данные в Computations54 и он начнет их автоматическую обработку: структуризацию, сортировку, анализ и построение прогноза. Computations54 поддерживает различные методы вычислений и разные подходы к выполнению анализа.

Большое количество внимания было уделено удобству разработки, то есть возможно обсуждение Computations, выдача задач, сохранение результатов.

выполнение вычислений

Преимущества Computations54:

  1. Высокий потенциал кастомизации и масштабируемость. Вы можете настроить методы вычислений для конкретных задач, для анализа и структурирования огромных объемов текстовых или числовых данных и выводить обработанную информацию в выбранном формате.
  2. Система мультипроцессинга - то есть если 50 000 файлов обрабатываются 40 часов, с мультипроцессингом это файлы будут обрабатываться параллельно в 5 потоков, что значительно сэкономит временные ресурсы.
  3. Внутренний мониторинг, который позволяет анализировать достоверность результатов.
  4. Несколько уровней логики.
  5. Адаптирование для разного типа расчетов (GPU, intel MKL).
  6. Кластерные вычисления с расширяемым кластером.
  7. Предельная гибкость в программировании.
  8. Контроль целостности данных.
  9. Возможность создания контрольных расчетов, на которые будет ориентироваться система.
  10. Возможность клонирования Computations и создание на их базе различных решений.
  11. Встроенная функция с возможностью GPU расчетов.
  12. Подключение множество баз данных из разных источников.
  13. Возможность взаимодействия Computations между собой через API и выстраивание каскадов.
  14. Создание управляющих computations для построения сложных вычислительных систем и разделения команд.

мониторинг вычислений

Использование Computations54 сводит к минимуму влияние человеческого фактора на процессы компании, следовательно, значительно уменьшается вероятность ошибок.

Альтернатива Apache Airflow

Computations54 является альтернативой Apache Airflow и может использоваться для обработки любых данных внутри организации. С помощью Computations54 вы можете разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов гораздо динамичнее и быстрее, чем в AirFlow.

Предельно важная функция - возможность запуска графового анализа данных и создания рабочих процессов в виде направленных ациклических графов (DAG) задач как в Apache Airflow.

ориентированный ациклический граф

Computations54 на данном этапе поддерживает только язык Python, но скорость выполнения задач выше, чем в AirFlow за счет оптимизированного контроллера вычислений. Поэтому наш фреймворк подходит для очень быстрых, изменяемых, в том числе и метапрограммируемых процессов, в то время когда Apache Airflow подходит для гораздо более статичных задач.

Выводы и сфера применения

Интеллектуальный анализ больших данных может использоваться в различных областях, поэтому сфера применения Computations54 очень широкая. Этот сервис можно применять в любой деятельности, где необходимо анализировать данные, производить расчеты любой сложности и делать на основе этого прогнозы.

Computations54 применяется в инвестиционных фондах, которые занимаются торговлей на бирже.
Computations54 также использовался Школой бизнеса им. Бута в Чикаго для анализа и выявления проблем у банков на основании открытой отчетности.

В медицинских учреждениях хранится и генерируется большой объем данных с важной информацией о пациентах в структурированной и неструктурированной форме. И с помощью интеллектуальной обработки этих массивов данных можно повысить эффективность медицинского обслуживания, автоматизируя решение различных задач (прогнозирование развития заболеваний, постановка диагноза, назначение лечения и пр.).
Также Computations54 может использоваться в экономических исследованиях, в предпринимательской деятельности, банковской сфере, в области оценки недвижимости.

Использование Computations54 дает вам полную уверенность в правильности конечного результата ваших расчетов. Наш инструмент предназначен не только для проведения научных экспериментов, он также доказал свою эффективность в применении на практике.