Лучшие технологии больших данных, которые вам нужно знать

Технологии больших данных, Модное слово, которое вы часто слышите в последние дни. В этой статье мы обсудим новаторские технологии, которые сделали Большие данные раскинуть свои ветви, чтобы достичь больших высот.

Что такое технология больших данных?

Большие данные Технологию можно определить как программную утилиту, предназначенную для Анализировать , Процесс а также Извлекать информацию из чрезвычайно сложных и больших наборов данных, которые Традиционное программное обеспечение для обработки данных никогда не мог справиться.

Картинка1-1-364x300.jpg

Нам нужны технологии обработки больших данных, чтобы анализировать этот огромный объем данных в режиме реального времени и делать выводы и прогнозы, чтобы снизить риски в будущем.

Теперь давайте посмотрим на Категории в которой Технологии больших данных классифицируются:

Виды технологий больших данных:

Технологии больших данных в основном подразделяются на два типа:

  1. Операционные технологии больших данных
  2. Аналитические технологии больших данных

444444444444-361x300.png

Во-первых, Операционные большие данные — это обычные повседневные данные, которые мы генерируем. Это может быть Онлайн-транзакции, социальные сети, или данные из Особый Организация и т. д. Вы даже можете рассматривать это как своего рода необработанные данные, которые используются для подачи аналитический Технологии больших данных.

Несколько примеров Оперативный Большой Технологии данных являются следующими:

Операционные-Большие-Данные-Технологии-1.png

  • Онлайн-бронирование билетов, включая ваши железнодорожные билеты, авиабилеты, билеты в кино и т. д.
  • Онлайн-покупки, которые являются вашим предложением Amazon, Flipkart, Walmart, Snap и многими другими.
  • Данные из социальных сетей, таких как Facebook, Instagram, what’s app и многих других.
  • Сведения о сотрудниках любой транснациональной компании.

Итак, с этим давайте перейдем к Аналитические технологии больших данных.

Аналитические большие данные похож на продвинутую версию технологий больших данных. Это немного сложнее, чем операционные большие данные. Короче говоря, аналитические большие данные — это то место, где фактическая часть производительности выходит на сцену, а важные бизнес-решения в режиме реального времени принимаются на основе анализа операционных больших данных.

Несколько примеров Аналитические технологии больших данных являются следующими:

22222222222222.png

  • Биржевой маркетинг
  • Выполнение космических миссий, где важен каждый бит информации.
  • Информация о прогнозе погоды.
  • Медицинские области, где можно контролировать состояние здоровья конкретного пациента.

Давайте посмотрим на лучшие технологии больших данных, используемые в ИТ-индустрии.

Лучшие технологии больших данных

Основные технологии больших данных делятся на 4 области, которые классифицируются следующим образом:

  • Хранилище данных
  • Сбор данных
  • Аналитика данных
  • Визуализация данных

33333333333.png

Теперь давайте разберемся с технологиями, подпадающими под каждую из этих категорий, с их фактами и возможностями, а также с компаниями, которые их используют.

Давайте начнем с Технологии больших данных в хранении данных.

Хранилище данных

Хадуп

Хадуп Фреймворк предназначен для хранения и обработки данных в Распределенная среда обработки данных с товарным оборудованием с простой моделью программирования. Он может хранить и анализировать данные, присутствующие на разных машинах, с высокой скоростью и низкими затратами.

Разработано: Apache Software Foundation в 2011 году 10 декабря.
Написано на: JAVA
Текущая стабильная версия: Hadoop 3.11.

Компании, использующие Hadoop:

технологии больших данных-hadoop.png

MongoDB

NoSQL Базы данных документов, такие как монгодб, предлагают прямую альтернативу жесткой схеме, используемой в реляционных базах данных. Это позволяет MongoDB предложить гибкость при работе с широким спектром Типы данных при больших объемах и по Распределенные архитектуры.

Разработано: MongoDB в 2009 году 11 февраля
Написано на: C++, Go, JavaScript, Python
Текущая стабильная версия: MongoDB 4.0.10.

Компании, использующие MongoDB:

технологии больших данных-mongodb.png

Рейнстор

РейнСтор — компания-разработчик программного обеспечения, разработавшая одноименную систему управления базами данных, предназначенную для управления и анализа больших данных для крупных предприятий. Оно использует Методы дедупликации организовать процесс хранения больших объемов данных для справок.

Разработано: компанией RainStor Software в 2004 году.
Работает как: SQL
Текущая стабильная версия: RainStor 5.5

Компании, использующие RainStor:

технологии больших данных-rainstor.png

красавчик

красавчик позволяет вам получать доступ к данным в удаленных кластерах Hadoop через виртуальные индексы и позволяет использовать язык обработки поиска Splunk для анализа ваших данных. С помощью Hunk вы можете создавать отчеты и визуализировать большие объемы данных из источников данных Hadoop и NoSQL.

Разработано: Splunk INC в 2013 году.
Написано на: JAVA
Текущая стабильная версия: Splunk Hunk 6.2.

Теперь давайте перейдем к Технологии больших данных, используемые в Data Mining.

Сбор данных

Престо

Престо является открытым исходным кодом Распределенный механизм запросов SQL для бега Интерактивные аналитические запросы против источников данных любого размера, от гигабайт до петабайт. Presto позволяет запрашивать данные в Улей, Кассандра, Реляционные базы данных а также Собственные хранилища данных.

Разработано: Apache Foundation в 2013 году.
Написано на: JAVA
Текущая стабильная версия: Presto 0.22

Компании, использующие Престо :

технологии больших данных-presto.png

Быстрый майнер

РапидМайнер — это централизованное решение с очень мощным и надежным графическим пользовательским интерфейсом, которое позволяет пользователям создавать, доставлять и поддерживать прогнозную аналитику. Это позволяет создавать очень продвинутые рабочие процессы, поддержку сценариев на нескольких языках.

Разработано: RapidMiner в 2001 году.
Написано на: JAVA
Текущая стабильная версия: RapidMiner 9.2

Компании, использующие РапидМайнер :

технологии больших данных-rapidminer.png

Эластичный поиск

Эластичный поиск — это поисковая система, основанная на библиотеке Lucene. Он предоставляет распределенную, многопользовательскую, полнотекстовую поисковую систему с веб-интерфейсом HTTP и документами JSON без схемы.

Разработано: Elastic NV в 2012 году.
Написано на: JAVA
Текущая стабильная версия: ElasticSearch 7.1.

Компании, использующие Эластичный поиск :

big-data-technologies-elasticsearch.png

Теперь мы можем перейти к Технологии больших данных, используемые в аналитике данных.

Аналитика данных

Кафка

Апачи Кафка является распределенной потоковой платформой. Потоковая платформа имеет три ключевые возможности, а именно:

    - Publisher
    - Subscriber
    - Consumer

Это похоже на очередь сообщений или корпоративную систему обмена сообщениями.

  • Развитый по : Apache Software Foundation в 2011 году.
  • Написано в : Скала, ЯВА
  • Текущий стабильный версия : Апач Кафка 2.2.0

Компании, использующие Кафка :

технологии больших данных-kafka.png

Splunk

Splunk собирает, индексирует и сопоставляет данные в режиме реального времени в репозитории с возможностью поиска, из которого он может создавать графики, отчеты, предупреждения, информационные панели и визуализации данных. Он также используется для управления приложениями, обеспечения безопасности и соответствия требованиям, а также для бизнес-аналитики и веб-аналитики.

Разработано: Splunk INC в 2014 году 6 мая
Написано на: AJAX, C++, Python, XML
Текущая стабильная версия: Splunk 7.3.

Компании, использующие Splunk :

технологии больших данных-splunk.png

НОЖ

НОЖ позволяет пользователям визуально создавать потоки данных, выборочно выполнять некоторые или все шаги анализа и проверять результаты, модели и интерактивные представления. НОЖ написан на Java и основан на Eclipse и использует свой механизм расширения для добавления подключаемых модулей, обеспечивающих дополнительную функциональность.

Разработано: KNIME в 2008 году.
Написано на: JAVA
Текущая стабильная версия: KNIME 3.7.2

Компании, использующие НОЖ :

big-data-technologies-knime.png

Искра

Искра предоставляет возможности вычислений в памяти для обеспечения скорости, обобщенную модель выполнения для поддержки широкого спектра приложений и Ява, Скалаа также Питон API для простоты разработки.

Разработчик: Apache Software Foundation
Написано на: Java, Scala, Python, R
Текущая стабильная версия: Apache Spark 2.4.3.

Компании, использующие Spark:

технологии больших данных-spark.png

R-язык

р это язык программирования и бесплатная программная среда для Статистические вычисления а также Графика. р язык широко используется статистиками и майнерами данных для разработки статистического программного обеспечения и в основном для анализа данных.

Разработано: R-Foundation в 2000 году 29 февраля.
Написано на: Фортран
Текущая стабильная версия: R-3.6.0

Компании, использующие R-Language:

технологии больших данных-R.png

Блокчейн

BlockChain используется в основных функциях, таких как платежи, условное депонирование и право собственности, также может уменьшить мошенничество, повысить финансовую конфиденциальность, ускорить транзакции и интернационализировать рынки.

Блокчейн можно использовать для достижения следующих целей в среде бизнес-сети:

    - Shared Ledger: Here we can append the Distributed System of records across a Business network.
    - Smart Contract: Business terms are embedded in the transaction Database and Executed with transactions.
    - Privacy: Ensuring appropriate Visibility, Transactions are Secure, Authenticated and Verifiable
    - Consensus: All parties in a Business network agree to network verified transactions.
  • Разработчик: Биткойн
  • Написано на: JavaScript, C++, Python
  • Текущая стабильная версия: Blockchain 4.0

Компании, использующие блокчейн:

технологии больших данных-блокчейн.png

С этим мы перейдем к Визуализация данных Технологии больших данных

Визуализация данных

Таблица

Таблица это мощный и самый быстрорастущий инструмент визуализации данных, используемый в Бизнес-аналитика Промышленность. Анализ данных выполняется очень быстро с Таблица и созданные визуализации имеют форму информационных панелей и рабочих листов.

Разработано: TableAU 2013 17 мая
Написано на: JAVA, C++, Python, C
Текущая стабильная версия: TableAU 8.2

Компании, использующие Tableau:

big-data-technologies-tableau.png

сюжетно

В основном использовал к сделать создание графиков быстрее и эффективнее. библиотеки API для питон, р , MATLAB, Node.js, Юля, а также Ардуино и РЕСТ API. сюжетно также может использоваться для стиля I интерактивные графики с Блокнот Юпитер.

Компании, использующие Plotly:

технологии больших данных-plotly.png

теперь давайте обсудим новые технологии больших данных

Новые технологии больших данных

ТензорФлоу

ТензорФлоу имеет комплексную гибкую экосистему инструментов, библиотек и ресурсов сообщества, которая позволяет исследователям внедрять самые современные технологии машинного обучения, а разработчикам — легко создавать и развертывать приложения на основе машинного обучения.

Разработано: Google Brain Team в 2019 году.
Написано на: Python, C++, CUDA
Текущая стабильная версия: бета-версия TensorFlow 2.0.

Компании, использующие TensorFlow:

технологии больших данных-tensorflow.png

Луч

Луч Апача предоставляет слой Portable API для создания сложных Конвейеры параллельной обработки данных которые могут выполняться на различных механизмах выполнения или исполнителях.

Разработано: Apache Software Foundation в 2016 году 15 июня.
Написать на: JAVA, Python
Текущая стабильная версия: инкубация Apache Beam 0.1.0.

Компании, использующие Beam:

технологии больших данных луч.png

Докер

Докер это инструмент, предназначенный для упрощения создания, развертывания и запуска приложений с помощью Контейнеры. Контейнеры позволяют разработчику упаковать приложение со всеми необходимыми частями, такими как библиотеки и другие зависимости, и отправить все это как один пакет.

Разработано: Docker INC в 2003 году 13 марта.
Написано: Иди
Текущая стабильная версия: Docker 18.09.

Компании, использующие Docker:

технологии больших данных-docker.png

Воздушный поток

Apache Airflow — это система автоматизации и планирования рабочих процессов, которую можно использовать для создания конвейеров данных и управления ими. Airflow использует рабочие процессы, состоящие из направленных ациклических графов (DAG) задач. Определение рабочих процессов в коде упрощает обслуживание, тестирование и управление версиями.

Разработано: Apache Software Foundation 15 мая 2019 г.
Написано на: Python
Текущая стабильная версия: Apache AirFlow 1.10.3.

Компании, использующие AirFlow:

воздушный поток.png

Кубернетес

Kubernetes — это независимый от поставщика инструмент управления кластерами и контейнерами, открытый исходный код Google в 2014 году. Он предоставляет платформу для автоматизации, развертывания, масштабирования и эксплуатации контейнеров приложений в кластерах хостов.

Разработано: Cloud Native Computing Foundation в 2015 году 21 июля.
Написано: Иди
Текущая стабильная версия: Kubernetes 1.14.

Компании, использующие Kubernetes:

технологии больших данных-pic-1-2.png

На этом мы подошли к концу этой статьи . Надеюсь, я пролил некоторый свет на ваши знания о Большие данные и это Технологии.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *