Решения по работе с big-data


Статус статьи

Не проверено экспертами


Назначение



Общие сведения

Большие данные (англ. Big Data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения человеко-читаемых результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениями класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

В качестве определяющих характеристик для больших данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).

У больших данных имеются актуальные сложности. Производительность современных вычислительных систем за несколько десятилетий выросла на многие порядки и не идет ни в какое сравнение с первыми персональными ПК образца начала 80-х гг. прошлого столетия, то с системами хранения данных дела обстоят гораздо хуже. Безусловно, доступные объемы многократно увеличились (впрочем, они по-прежнему в дефиците), резко снизилась стоимость хранения информации в пересчете на бит (хотя готовые системы по-прежнему слишком дорогие), однако скорость извлечения и поиска нужной информации оставляет желать лучшего.

Если не брать в рассмотрение пока еще слишком дорогие и не вполне надежные и долговечные флэш-накопители, технологии хранения информации не очень далеко ушли вперед. По-прежнему приходится иметь дело с жесткими дисками, скорость вращения пластин которых даже в самых дорогих моделях ограничена на уровне 15 тыс. об./мин. Коль скоро речь идет о больших данных, очевидно, немалое их количество (если не подавляющее) размещается на накопителях со скоростью вращения шпинделя 7,2 тыс. об./мин.


Актуальность использования



Эффекты от внедрения (использования)



Принцип функционирования



Опыт применения



Ссылки



Архитектурные кейсы, связанные с технологией