Большие данные

Материал из Информационная безопасностя
Версия от 08:32, 12 марта 2020; pw>Безуглов Сергей
Перейти к навигации Перейти к поиску

Ответ

  • В качестве определяющих характеристик для больших данных традиционно выделяют три характеристики: объём данных, скорость прироста объема данных и многообразие данных.
  • Базовым принципом обработки больших данных обычно считают горизонтальную масштабируемость, обеспечивающую обработку данных, распределённую на сотни и тысячи вычислительных узлов.
  • Классическими источниками больших данных признаются интернет вещей и социальные медиа, считается также, что большие данные могут происходить из внутренней информации предприятий и организаций (генерируемой в информационных средах, но ранее не сохранявшейся и не анализировавшейся), из сфер медицины и биоинформатики, из астрономических наблюдений.
  • Методы и техники анализа, применимые к большим данным:
    • методы класса Data Mining: обучение ассоциативным правилам, классификация, кластерный анализ, регрессионный анализ;
    • машинное обучение, включая обучение с учителем и без учителя;
    • статистический анализ;
    • и многие другие...

Определения

Большие данные
(англ. big data) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия.
NoSQL
(от англ. not only SQL — не только SQL) — термин, обозначающий ряд подходов, направленных на реализацию систем управления базами данных, имеющих существенные отличия от моделей, используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL.
Data mining
(рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.