- OPEN SOURCE РЕШЕНИЯ ДЛЯ ОБРАБОТКИ И АНАЛИЗА ДАННЫХ
- ЧЕГО НАМ НЕ ХВАТАЛО?
- JUPYTER ОЧЕНЬ ХОРОШ! НО ЧТО НЕ МОЖЕТ JUPYTER?
- ОСНОВНЫЕ ФУНКЦИИ И ПРЕИМУЩЕСТВА COMPUTATIONS54
- АЛЬТЕРНАТИВА APACHE AIRFLOW
- ВЫВОДЫ И ОБЛАСТИ ПРИМЕНЕНИЯ
OPEN SOURCE РЕШЕНИЯ ДЛЯ ОБРАБОТКИ И АНАЛИЗА ДАННЫХ
Сейчас на рынке существует множество open source решений для обработки и анализа данных, которые позволяют выполнять сложные расчеты, решать самые разнообразные задачи от составления оперативных отчётов до обработки больших объёмов данных. В основном их функционал схож, но также можно выбрать решение для выполнения определенных функций.
Например, Jupyter хорошо использовать для экспериментальных расчетов и интерактивных вычислений, Apache Airflow подходит для планирования и мониторинга статичных циклических процессов обработки данных.
Такая платформа, как Knime, позволяет выполнять полный цикл анализа данных. Но Knime не дает достаточной гибкости разработки, это слишком жесткая платформа, и она тяжело интегрируется в инфраструктуру.
ЧЕГО НАМ НЕ ХВАТАЛО?
Наша компания 54origins выполняет большое количество исследований в области анализа данных для разных компаний в различных сферах. И в какой-то момент все эти проекты после 1-2 года разработки стали превращаться в хаос, и было очень тяжело добиться функционирования проекта в рабочем режиме, особенно для систем с критичностью получаемых результатов (например, биржевые роботы). Кроме того, нам не хватало кастомных интерфейсов, уровней разделения логики, возможности масштабирования вычислительных мощностей и гибкости системы. Для организации стабильной работы и решения стандартных проблем мы разработали специализированный фреймворк для нас и наших клиентов, который мы назвали Computations54.
Computations54 - фреймворк на языке Python, который позволяет обрабатывать большие массивы данных, проводить различные сложные расчеты, собирать их в отчеты и на основе этого делать точные прогнозы с постоянным мониторингом целостности получаемых результатов.
Мы сделали в Computations54 три уровня логики:
- общее ядро
- субъядро для конкретных задач
- ядро для расчетов
Фреймворк обеспечивает надежность, необходимую для критичных вычислений, таких как биржевые расчеты и анализ медицинских данных. Вы можете перейти сразу от экспериментальной деятельности к практике на основе выполненных расчетов. Computations54 используется для ответственных расчетов, где необходима уверенность в надежности получаемых результатов.
Так как фреймворк основан на языке программирования Python, он позволяет использовать все преимущества Python и все доступные в Python библиотеки для машинного обучения и обработки данных, такие как:
- Pandas
- Open CV
- Tesseract
- Keras
- NLTK и многие другие.
JUPYTER ОЧЕНЬ ХОРОШ! НО ЧТО НЕ МОЖЕТ JUPYTER?
Jupyter абсолютно потрясающий инструмент для черновиков расчетов и экспериментов. Но Jupyter нельзя использовать в реальных системах, особенно в таких критичных вещах, как биржевые расчеты и медицинская аналитика, из-за того, что ошибка в настройке системы может привести к катастрофическим результатам и ее надежность оставляет желать лучшего.
Jupyter подходит для экспериментальной деятельности, а в Computations54 можно запускать стабильные вычисления и быть уверенным в результате. Computations54 - фреймворк, позволяющий выводить эксперименты, которые были проведены в Jupyter, в продакшн.
ОСНОВНЫЕ ФУНКЦИИ И ПРЕИМУЩЕСТВА COMPUTATIONS54
Основная функция Computations54 - это интеллектуальная обработка и анализ больших объемов данных с последующим выявлением моделей и тенденций, которые позволят принять правильные управленческие решения.
Computations54 обрабатывает различные виды данных: текстовые, числовые и прочие. Преобразовывая данные в структурированный вид, сервис сделает любую информацию доступной для анализа. Вам необходимо только загрузить данные в Computations54, и он начнет их автоматическую обработку: структуризацию, сортировку, анализ и построение прогноза. Computations54 поддерживает различные методы вычислений и разные подходы к выполнению анализа.
Большое количество внимания было уделено удобству разработки, то есть возможно обсуждение Computations, выдача задач, сохранение результатов.
Преимущества Computations54:
- Высокий потенциал кастомизации и масштабируемость. Вы можете настроить методы вычислений для конкретных задач, для анализа и структурирования огромных объемов текстовых или числовых данных и выводить обработанную информацию в выбранном формате.
- Система мультипроцессинга - то есть если 50 000 файлов обрабатываются 40 часов, с мультипроцессингом эти файлы будут обрабатываться параллельно в 5 потоков, что значительно сэкономит временные ресурсы.
- Внутренний мониторинг, который позволяет анализировать достоверность результатов.
- Несколько уровней логики.
- Адаптирование для разного типа расчетов (GPU, intel MKL).
- Кластерные вычисления с расширяемым кластером.
- Предельная гибкость в программировании.
- Контроль целостности данных.
- Возможность создания контрольных расчетов, на которые будет ориентироваться система.
- Возможность клонирования Computations и создание на их базе различных решений.
- Встроенная функция с возможностью GPU расчетов.
- Подключение множество баз данных из разных источников.
- Возможность взаимодействия Computations между собой через API и выстраивание каскадов.
- Создание управляющих computations для построения сложных вычислительных систем и разделения команд.
Использование Computations54 сводит к минимуму влияние человеческого фактора на процессы компании, следовательно, значительно уменьшается вероятность ошибок.
АЛЬТЕРНАТИВА APACHE AIRFLOW
Computations54 является альтернативой Apache Airflow и может использоваться для обработки любых данных внутри организации. С помощью Computations54 вы можете разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов гораздо динамичнее и быстрее, чем в AirFlow.
Предельно важная функция - возможность запуска графового анализа данных и создания рабочих процессов в виде направленных ациклических графов (DAG) задач, как в Apache Airflow.
Computations54 на данном этапе поддерживает только язык Python, но скорость выполнения задач выше, чем в AirFlow, за счет оптимизированного контроллера вычислений. Поэтому наш фреймворк подходит для очень быстрых, изменяемых, в том числе и метапрограммируемых процессов, в то время когда Apache Airflow подходит для гораздо более статичных задач.
ВЫВОДЫ И ОБЛАСТИ ПРИМЕНЕНИЯ
Интеллектуальный анализ больших данных может использоваться в различных сферах деятельности, поэтому Computations54 имеет широкий спектр областей применения. Этот сервис можно применять в любой деятельности, где необходимо анализировать данные, производить расчеты любой сложности и делать на основе этого прогнозы.
Computations54 применяется в инвестиционных фондах, которые занимаются торговлей на бирже.
Computations54 также использовался Школой бизнеса им. Бута в Чикаго для анализа и выявления проблем у банков на основании открытой отчетности.
В медицинских учреждениях хранится и генерируется большой объем данных с важной информацией о пациентах в структурированной и неструктурированной форме. И с помощью интеллектуальной обработки этих массивов данных можно повысить эффективность медицинского обслуживания, автоматизируя решение различных задач (прогнозирование развития заболеваний, постановка диагноза, назначение лечения и пр.).
Также Computations54 может использоваться в экономических исследованиях, в предпринимательской деятельности, банковской сфере, в области оценки недвижимости.
Использование Computations54 дает вам полную уверенность в правильности конечного результата ваших расчетов. Наш инструмент предназначен не только для проведения научных экспериментов, он также доказал свою эффективность в применении на практике.