?

Log in

No account? Create an account

pozharny

Сердце человека обдумывает свой путь, но Господь управляет шествием его. (Притчи 16:9)


Previous Entry Share Next Entry
pozharny

Что за зверь такой "Big data"?


Одним из важнейших направлений исследовний американских мозговых трестов является загадочная "Big data". Вот о ней я и хочу рассказать. Зайду от основ.

Мир людей всегда сильно менялся, когда происходили какие-либо фундаментальные научные (и как следствие технологические) прорывы или зарождались мировые религии. Сейчас мы находимся как раз на пороге такого изменения. На самом деле можно даже сказать, что порог уже пройден, просто осознание этого ещё не до конца поселилось в умах большинства людей. Впрочем, это всего лишь вопрос ближайшего времени.

Так какое же фундаментальное изменение мы переживаем? Что такого произошло в мире за последние, скажем, 15 лет? А случилось следующее. Впервые в истории человечества появилась возможность мгновенно довести ту или иную информацию без искажений прямо от первоисточника до сотен миллионов и даже теоретически до примерно 3,27 миллиарда человек (такое количество пользователей интернетом в мире насчитывается по данным на 2015 год (http://www.internetworldstats.com/top20.htm). А это чуть меньше половины населения планеты! Для большей убедительности приведу данные на 2000 год 0,36 миллиарда. То есть за последние 15 лет число пользователей интернетом в мире выросло с 5% до 45% от общей численности жителей Земли. Это и есть почти фантастическое изменение картины мира. Я говорю «почти», потому что это не фантастика, это наша реальность – наше новое информационное бытие. Раннеинформационная переходная эпоха, начавшаяся когда-то с радио и телеграфа, закончилась и началась информационная эра человечества.

В наши дни одно информационное сообщение в твиттере или фейсбуке за считанные минуты и даже секунды от источника может попасть к миллионам читателей и зрителей. Многие узнают новости уже не из телевидения (и уж тем более не из газет), а из социальных сетей. Не редки случаи, когда те или иные ответственные лица узнают о происшествии в своём ведомстве не по рабочим каналам, а из каких-нибудь блогов.

Что является следствием такого кардинального информационного прорыва? Им является пока не очень хорошо управляемый и перерабатываемый вал информации. В среднем на современного человека в день сваливается на порядок больше информации, чем 50-30 лет назад. На мой взгляд, стал совершенно очевиден разрыв между информационно-технологическим усложнением и способностью человека управлять этим развитием. Я не буду останавливаться на негативных последствиях всемироного феномена в очень многих сферах жизнедеятельности человека. Рассмотрю лишь одно направление, которое меня интересует больше всего в данный момент.

Первичная человеческая реакция на большой поток информации – это снижение глубины освоения информации, и чем дальше, тем меньше эта глубина. Уже у всех на слуху выражение «клиповое сознание». Так многие маркетологи отлично знают, что в интернете люди не читают тексты дальше одного-двух абзацев или даже строк, остальное в лучшем случае, «пробегают по диагонали» и так далее. С другой стороны, этот информационный прорыв открывает много возможностей, которые можно использовать на благо человека. Каким образом?

Сейчас у нас есть огромное количество статистических данных, так называемую «big data», которую надо лишь собрать и обработать. В частности, это информация, собираемая от большого числа людей и представляющая собой огромный массив статистических данных, которые ещё 15 лет назад не представлялось возможным получить. Но прогресс не стоит на месте. Например, в 2009 году Google опубликовал в авторитетнейшем научном журнале Nature результат исследования и прогнозирования распространения эпидемии гриппа в США на основе интернет запросов пользователей. Выборка получилась около 50 миллионов запросов. Было обработано около 450 миллионов математических моделей. В итоге, сравнивая результат моделирования с реальными данными об эпидемиях за предыдущие годы получилась 97% корреляция. Примерно таким же образом была создана программа прогнозирования цены билетов. И таких примеров становится всё больше и больше.
Как можно обработать такие объёмы? Это может показаться парадоксальным, но такую широкую информатизацию и технологизацию, которая осложняет жизнь человечеству, можно использовать как инструмент в борьбе с проблемой «big data».

Ответить на поставленный вопрос я постараюсь в следующий раз.


(Продолжение следует)
Tags:

  • 1
Статистика, потом аналитика, а далее тотальный контроль за индивидумами.

Ну вот, а я собрался ещё пару постов написать на эту тему. А оказывается все уже всё знают :)

А я почему-то подумал, что дальше будет про распределенные вычисления :-)

Вы Майера-Шенбергера прочитали? По крайней мере ваш пример именно оттуда. На мой взгляд шумиха поднятая вокруг BigData больше маркетинг, рассчитанный на топ-менеджеров, нежели реальный прорыв. Некоторые ограниченные задачи технология безусловно решает, но не в таком объёме, как её представляют авторы. Самый большой минус этой технологии - это отсутствии в алгоритме метода понимания причин той или иной корреляции. А это уже даёт большой простор для фальсификации данных. Есть еще ряд других серьёзных недостатков. Но об этом, видимо, лучше поговорить в конце вашего цикла постов.

>>Вы Майера-Шенбергера прочитали?
И эту книгу тоже :)

У меня более узкий интерес к этой теме. Через какую призму на это смотрят в там за океаном, те кто "в танках". Об этом в следующем посте.
А то, что вы указываете как минус, это не совсем минус. Это в первую очередь просто иной подход, это принципиальное отличие в методике работы с гигансткими числами.

Под шумиху с Big Data открылось туча бесплатных курсов прикладной статистики и "науки о данных". Инфы действительно становится всё больше и больше, доступ к части из неё (например данным твиттера), в сущности, открыт. Думаю, можем слямзить пару кирпичей в свой проект.

Очень интересно, спасибо! Как-то пару лет назад Ашманов на одной из конференций тоже интересно рассказывал про big data, как они ее в интернете собирают и обрабатывают.

  • 1