Технологии Big Data позволяют извлекать из огромных массивов неструктурированной информации нечто очень важно – те данные, которые помогают компаниям больше зарабатывать, а правительствам – обеспечивать безопасность своих граждан. Мы разобрались в том, что такое «большие данные», как они представлены в нашей жизни, и почему они так интересуют государство. О настоящем и будущем Big Data нам рассказали независимые эксперты.
Что такое Big Data и когда они появились
С развитием информатики как науки практически все сферы жизни можно представить как информационные потоки. Информация существует в самых разных формах и видах, некоторые из них поддаются обработке – в том числе и машинной. На этом основаны все современные информационное технологии – от программного обеспечения в «умной» бытовой технике до мощнейших суперкомпьютеров.
Но относительно недавно в обиходе появляется новое понятие – кроме технологии блокчейн речь пошла о Big Data. С одной стороны, все просто – если обработать много данных, можно получить действительно важную информацию. С другой – это подают как совершенно новое перспективное направление. Но так ли это?
Как рассказал нам кандидат физико-математических наук Александр Богуцкий, хоть понятие Big Data и относительно молодое, само по себе явление уходит корнями как минимум в середину прошлого века. Проблема обработки больших массивов данных, в общем-то, существовала уже давно – данных становилось все больше, но вот извлекать из них полезные знания становилось все сложнее. Тогда – около 80 лет назад – это назвали «информационным взрывом», ответом на него стало появление технологий машинного обучения (Machine Learning) на стыке прикладной статистики, математики и информатики.
А уже из этого появляются Big Data, отмечает эксперт:
Big Data – это совокупность подходов, инструментов и методов обработки огромных объёмов и многообразия структурированных и неструктурированных данных для получения воспринимаемых человеком результатов. Причём эти подходы, инструменты и методы должны эффективно работать в условиях непрерывного прироста объема данных, распределенных по многочисленным узлам вычислительной сети.
На всякий случай, пояснение: в противоположность структурированным данным, неструктурированные – это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.
В широком смысле о Big Data говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных во многих предметных областях и возможно даже весь мировой объём данных, а также о вытекающих из этого трансформационных последствиях.
Введение в активный обиход термина Big Data принято относить к заслугам редактора журнала Nature Клиффорда Линча, который предложил его в 2008 году в специальном выпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. Термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда» и тому подобных.
Александр Богуцкий, кандидат физико-математических наук, директор по инновациям «Территории инноваций».
В той или иной форме обработка больших массивов данных применялась на практике уже достаточно давно. Например, еще с 80-х годов прошлого века приход технологий в торговлю и финансы позволил корпорациям более гибко управлять товарным ассортиментом – данные от сканирования штрих-кодов и оплаты через банковские терминалы попадали в автоматизированную систему, которая анализировала поведение покупателей.
Второй этап развития анализа данных обычно относят уже к первой половине нулевых – тогда оказалось, что аналитические данные обходятся компаниям слишком дорого, а используют их, как правило, лишь высшие руководители. Параллельно в мире развиваются IT-платформы, мобильные технологии, облачные сервисы, а сама обработка данных становится дешевле. Именно тут, как считается, зародились «большие данные».
Третий же этап, как считается, несет миру возможность анализировать информацию в режиме реального времени. Это будущее, которое уже здесь – в Big Data включают, например, данные со смартфонов, телевизоров, дорожных камер и многого другого. Параллельно миру приходится решать проблемы доступа к персональным данным и риски утечки информации – но это уже совсем другая история.
Говоря же проще, Big Data – это набор технологий и методов для обработки и анализа больших объемов данных, говорит Алексей Чащегоров из «Яндекса». По его словам, суть этого направления – в разнородной структуре данных, которые обрабатываются одновременно:
Big data – это набор технологий и методов для обработки и анализа больших объемов данных. При этом большими данными считаются большие по объёму данные, быстро увеличивающие свой объем данные, разные по структуре данные, поддающиеся одновременной обработке. Операции в Big data, как правило, проводятся над доступной информацией, разделенной на части, каждая из которых обрабатывается на отдельном вычислительном узле. За счет разделения работы таким образом достигается скорость обработки достаточная для работы с данными Big data.
Алексей Чащегоров, senior software engineer Яндекс.
Но главное, что нужно знать о Big Data – это то, что они уже давно и активно используются.
Где в реальном мире можно найти Big Data?
Сами по себе «большие данные» – это технологии обработки больших массивов данных, которые могут быть неоднородными по своей структуре. Самый простой пример из практики – те же «Яндекс.Пробки», которые в режиме реального времени отслеживают данные геолокации своих пользователей – расположение, направление движения, скорость, а также связывают это с другими данными. В итоге сервис знает, где сейчас движение затруднено из-за пробок, и даже может их прогнозировать.
На самом же деле, примеров Big Data в жизни гораздо больше, вот то, о чем рассказали опрошенные нами эксперты:
Другими словами, Big Data есть везде, где нужно проанализировать большой объем разных данных и сделать какой-то конкретный вывод из них. Более того, компания может и не объявлять, что использует технологии Big Data – но по факту она все равно может применять полученную информацию в своих целях.
Хороший пример – еще в 2011 году один студент из Австрии запросил у Facebook всю собранную соцсетью информацию о нем. Как результат – компания прислала на CD-диске PDF-файл на 1200 страниц, в котором вся информация была разбита на 57 категорий (например, информация о работе, образовании, друзьях, политических предпочтениях и т.д.). Более того, Facebook собирал даже удаленные сообщения и имена бывших друзей, а часть информации вообще не попала в документ. По словам пользователя, соцсеть знает о пользователях больше, чем КГБ знала о советских гражданах.
Сейчас же технологии шагнули еще дальше, и тот же Facebook явно собирает куда больше, и как соцсеть использует эти данные – только Марку Цукербергу известно.
Другие компании достаточно открыто рассказывают о том, как они используют результаты анализа таких массивов данных, говорит Александр Богуцкий:
Пример 1. Много лет назад компания Nike вывела на рынок продукт Nike+ Run Club. Данные о физических активностях пользователей определялись с помощью специальных устройств, вмонтированных в кроссовки. Эти данные накапливались на мобильных устройствах пользователей и на серверах компании Nike. И через некоторое время накопленные данные о любителях бега из Нью-Йорка были проанализированы. Оказалось, что все они бегают по очень ограниченному числу маршрутов и останавливаются в ограниченном числе мест. Эти данные были предоставлены компании Starbucks, и она открыла успешную сеть кофеен в городе, основываясь на них.
Пример 2. Магнитогорский металлургический комбинат (ММК) внедрил рекомендательный сервис в кислородно-конвертерном цехе (ККЦ), разработанный на базе интеллектуального анализа больших объемов производственных и технологических данных. Эти данные собирались с множества устройств. Сервис облегчал выполнение задач технологам и производственному персоналу цеха, брал на себя анализ ситуации, выработку оптимальных решений по технологии производства и значениям технологических параметров оборудования. Тестирование показало, что экономия ферросплавов при использовании данного решения составляет в среднем 5%. Оценочный объём годовой экономии превышает 275 млн рублей.
Что объединяет эти примеры – использование анализа большого объёма накопленных данных с помощью развитых методов искусственного интеллекта для получения новых знаний. Эти знания не содержатся в явном виде в массиве информации, которая обрабатывается. И хочется подчеркнуть, что эти примеры показывают практическую важность данной области.
Александр Богуцкий, кандидат физико-математических наук, директор по инновациям «Территории инноваций».
Других примеров можно найти массу – страховые компании оценивают индивидуальные риски клиентов и определяют страховую премию, учитывая разную информацию, международные организации используют статистические данные, чтобы помогать в борьбе с бедностью, преступностью и стихийными бедствиями, и т.д. Но больше всего Big Data интересуются правительства.
Зачем государству ваши данные?
Как мы уже поняли, корпорации научились использовать данные своих клиентов (и просто разных людей) с собственной выгодой. Учитывая масштабы, речь идет об обезличенных данных, но все равно вопрос безопасности при использования такой информации остается открытым. Но возможность оперировать массивами данных интересует не только частные компании, было логично, что они заинтересуют и государства.
Многие россияне впервые услышали о «больших пользовательских данных» от генерального директора InfoWatch Натальи Касперской. Она в 2016 году заявила, что поисковые запросы, данные о геолокации, контактные данные, сообщения, фото и видео, которые собирают крупные IT-компании вроде Facebook, должны принадлежать государству. Сделать это она предлагает, законодательно заставив компании передавать сертификаты безопасности правительственным органам или просто переводить все эти данные в Россию (кстати, формально такой закон уже давно существует). И это осталось бы просто частным мнением, но Касперская на тот момент возглавляла подгруппу «Интернет + Общество» в рабочей группе под кураторством помощника президента России.
Аргументация простая – как только пользователь загрузил какие-то свои данные в интернет, они перестают ему принадлежать. А учитывая опыт других стран (например, Китая), было бы логично передавать все эти данные государству. Правда, в дальнейшем об этом ничего не было слышно – либо идея «заглохла», либо ее решили дальше не подвергать огласке.
Что касается Китая, там действительно есть истории о том, как Facebook согласился сотрудничать с правительством (передавать ему некоторую важную информацию пользователей), а Skype вообще отслеживает «неугодные» слова в сообщениях по определенному справочнику, и цензурирует их.
Последнее, о чем говорили в России в контексте Big Data – это предстоящая перепись населения, в ходе которой обещали использовать наработки по таким технологиям. Кроме прочего, переписчики будут пользоваться планшетными ПК, а данные будут как-то централизованно обрабатываться с использованием технологий Big Data.
Но главное – «большие данные» в России активно используются государственными органами в рамках всем известной «цифровизации». В частности, эти технологии уже используют в ФНС (которая вообще считается лидером по «цифровизации»), ФСБ, Пенсионном фонде, Фонде ОМС, Следственном комитете и некоторых других органах. Правда, конкретные результаты пока остаются по большей части за кадром – серьезных перемен в медицине не видно, а в налоговой службе все так же часто бывают сбои.
Кроме того, об использовании Big Data и технологий искусственного интеллекта часто говорят в «Сбербанке» – по словам руководства, это позволило сократить почти всех менеджеров среднего звена, а решения о выдаче кредита теперь часто принимает ИИ. Но снова, для рядовых клиентов «Сбербанк» – это все еще не самый современный банк со странным подходом к клиентам и частыми сбоями.
Какое будущее ждет Big Data?
Итак, анализ Big Data дает очень важную информацию, которую можно использовать в прикладных целях. Проблема в том, что данных становится все больше и больше, и анализировать их все сложнее. Так, по данным исследований, в ближайшие 5 лет общемировой объем данных увеличится в 10 раз и составит 163 зеттабайт (1 зеттабайт – миллиард терабайт). И на обработку всей этой информации компаниям придется основательно потратиться.
Big Data – безусловно, перспективное направление, считает Александр Богуцкий. Он напоминает – это очень демократичная сфера, где нет жесткой иерархии, относительно короткий путь от начинающего до эксперта. И в ближайшей перспективе данные будут играть куда большую роль, отмечает эксперт:
1. Данные больше не «фон» деятельности, а «жизненно важный актив». Исследования утверждают, что уже к 2025 году почти 20% всех данных в глобальной информационной сфере будут играть критически важную роль в нашей повседневной жизни, а около 10% этих данных будут «сверхкритичными». Теперь работа с большими данными становится фактором нормального функционирования общества и техники: от медицинских приборов до самоуправляемых автомобилей.
2. Увеличение важности задач безопасности данных. Особое значение приобретает проблема защиты частной и конфиденциальной информации, которая может сталкиваться с новыми и новыми уязвимостями. Исследователи обращают внимание, что уже сегодня существуют пробелы между производимым объёмом данных в мире и тем их объёмом, который надежно защищен. Такой разрыв в будущем может расти. Но те же методы Big Data позволяют решать эту проблему и бороться с уязвимостями.
3. Датчики и компьютерные системы, встроенные в предметы каждодневного использования, а также Интернет вещей станут одним их ключевых источников больших данных. По некоторым оценкам уже к 2025 году каждый среднестатистический житель Земли начнет взаимодействовать с устройствами, соединенными с Интернетом вещей, примерно 4800 раз в день: по одной процедуре взаимодействия каждые 18 секунд.
4. Развитие искусственного интеллекта, неразрывно связанное с Big Data, изменит ландшафт профессиональной деятельности человека. Развитие рекомендательных сервисов и когнитивных систем позволит чаще и более гибко анализировать данные во многих отраслях и во многих обстоятельствах, помогать человеку принимать правильные решения в ситуациях, объективно находящихся за рамками его возможностей.
5. Роботизированные системы нового поколения, безлюдные производства, компьютерное зрение высокого качества, синхронный перевод речи на другом языке, книги, написанные компьютером, всеобъемлющий анализ всех видов зрительной, тактильной и другой информации, рендеринг видеороликов и фильмов без актеров – все это входит в нашу жизнь благодаря технологическому прорыву в области Big Data.
Александр Богуцкий, кандидат физико-математических наук, директор по инновациям «Территории инноваций».
Другой вопрос – как именно «большие данные» будут использоваться в коммерции. Как считает Дмитрий Раевский из компании «Иннодата», будущее за коробочными решениями, которые смогут не только хранить, обрабатывать и анализировать данные, но и делать это самостоятельно, без привлечения дорогостоящих экспертов со стороны. Что касается отраслей, то применение таким решениям можно будет найти буквально где угодно.
В целом же, технологии Big Data будут развиваться по направлениям доступности, конверсии оборудования, стандартизации работы с источниками данных и делегации, считает Алексей Чащегоров:
Технологии Big data могут (и всего вернее будут) развиваться в нескольких направлениях:
– Доступность: возможность для заинтересованных лиц работать с технологиями Big data за умеренную цену (смотри облачные технологии)
– Конверсия оборудования: более эффективное использование аппаратных средств или создание специализированной аппаратуры
– Стандартизация работы с источниками данных: так технологии интернета вещей, к примеру, совокупно формируют огромный объем информации, отличающийся между разными типами устройств. Без их унификации технологии Big data применять сложнее.
– Делегация: персональные данные по закону нельзя передавать третьим лицам.
Но именно из части этих данных Big data может дать значимый для всех результат. Если с помощью технологий больших данных рассчитать статистику по частому виду заболеваний и методам лечения, то врач сможет лучше вести больного. Для этого требуемые медицинские показатели множества больных должны стать доступными, без информации о людях персонально.
Алексей Чащегоров, senior software engineer Яндекс.
Резюмируя: тот факт, что информация становится ценнейшим ресурсом, уже нельзя оспорить. Часто информация ценится дороже, чем сами деньги – компании предпочитают потратиться на внедрение современных систем обработки данных, потому что в перспективе это принесет выгоду. Поэтому у технологий Big Data больше будущее – вплоть до момента, когда «умные» устройства буквально окружат каждого человека.