×

24 Марта 2015 15:00
2854
0

Перевернут ли “большие данные” мир и заживем ли мы в результате по-другому? Профессор ВМиК МГУ им. М.В.Ломоносова, д.ф.-м.н. Александр Дьяконов, хотя и настроен прагматически, но относится к подобным утверждениям с осторожностью. С его слов, наука о данных может лишь помочь решить определенные задачи, стоящие перед бизнесом и государством. О том, что такое “наука о данных” и о ее практическом значении Александр рассказал, выступая в программе “Стартапы. Инвестиции. Инновации” на медиапортале json.tv.

 

В начале интервью Александр рассказал о том, что такое Data Science. Он подчеркнул, что наука о данных включает в себя различные дисциплины. Это теория баз данных, интеллектуальный анализ данных, теории логического вывода и другие области знаний. Со слов эксперта, сам термин Data Science был придуман, чтобы объединить все аспекты, связанные с данными, вместе.

 

“Data Science - это наука о данных, различных взаимодействиях с ними, хранении, анализе, обработке, вылавливании закономерностей”, - пояснил гость программы.

 

Важной частью беседы стало обсуждение практических аспектов науки о данных. Александр рассказал об актуальных бизнес-задачах, которые  помогает решать дисциплина. В частности, он рассказал о системах рекомендаций интернет-порталов.

 

“Если вы копите статистику по вашим пользователям и на основании нее предлагаете рекомендации, это повышает доверие к вашему ресурсу”, - заметил гость программы.

 

Во время интервью Александр привел и другие примеры практического применения науки о данных. Он способствует тому, чтобы студенты знакомились не только с теоретическими аспектами методов машинного обучения, но и осваивали их на практике. В свое время он выступил одним из первых, кто стал предлагать учащимся решать конкретные практические задачи методами машинного обучения.

 

“В основе всех алгоритмов анализа данных лежит здравый смысл. Глубокий математический бэкграунд не всегда нужен. Хотя, безусловно, некая подготовка, например, умение программировать необходима”, - заметил Александр.

 

Профессор предлагает студентам участвовать в конкурсах среди разработчиков. Выяснилось, что их история насчитывает уже не одно десятилетие. Участники соревнования должны построить наилучшею прогнозную модель. Ведущей площадкой для проведения подобных конкурсов является kaggle.com. На этом ресурсе Александр продолжительное время занимал первую строчку в рейтинге среди разработчиков данных. Он охотно рассказал о своем опыте участия в подобных соревнованиях.

 

Ведущий и гость программы обсудили также будущее науки о данных, коснулись аспектов, которые являются сегодня передовым краем науки. Эксперт подчеркнул, что наука о данных еще молодая. Говоря о том, чем сегодня заниматься ученым, делающим первые самостоятельные шаги, он заметил: 

 

“Учитывая то, как наука развивается вообще, не всегда самые популярные направления потом становятся двигателем всей науки” 

 

Во время интервью была также поднята тема нехватки специалистов по разработки данных для решения задач, стоящих перед бизнесом. В завершение  Александр поделился своим видением относительно  будущего науки данных. Как большие данные изменять нашу жизнь в ближайшем будущем? Он рассказал о необычной закономерности, которая наблюдается в этой сфере.

 

 

Полный текст расшифровки интервью:

 

JSON.TV: Математика, наука о количественных соотношениях и пространственных формах в нашем мире, существует уже не одно тысячелетие. Зародилась еще в Древней Греции. Историки выделяют несколько этапов ее развития: говорят о зарождении математики, об элементарной математике, математике переменных величин, современной науке. И появилось такое понятие, как Data Science. Что это такое? С одной стороны, здесь есть и данные, с другой стороны, и наука, и программирование. Давайте разберемся в этом вопросе, а особенно в том, как это может быть полезно нам на практике в бизнесе. У меня в гостях находится человек, которого мне очень приятно представить. Итак, сегодня мой собеседник – «Лучший преподаватель вуза-2014» в области информационных технологий, доктор физико-математических наук, профессор факультета вычислительной математики и кибернетики Московского государственного университета им. М.В. Ломоносова Александр Дьяконов. Александр, здравствуйте!

 

Александр Дьяконов: Здравствуйте!

 

JSON.TV: Александр, в начале программы я хотел бы Вас поздравить с двумя вещами. Первая вещь ‑ это день рождения Московского университета. Пусть это было в январе, но в этом году такая юбилейная дата, 260 лет исполнилось МГУ. А вторая вещь, наверняка она Вам очень тепла и близка, потому что, насколько я понимаю, во время празднования дня рождения университета ученый совет объявил о том, что Вам была присуждена премия Шувалова первой степени. Было такое?

 

Александр Дьяконов: Да, было.

 

JSON.TV: От всей души Вас поздравляю с этой наградой.

 

Александр Дьяконов: Спасибо большое!

 

JSON.TV: Мне кажется, это действительно очень приятно и значимо. Теперь давайте поговорим о Data Science. Насколько я понимаю, Вы активно популяризируете так называемую науку от данных? Что такое Data Science? Можете объяснить?

 

Александр Дьяконов: Могу. Я, правда, не знаю, можно ли меня назвать популяризатором. Потому что если говорить о периоде моей жизни несколько лет назад, то тогда действительно об этой науке говорили еще мало, и, в принципе, я популяризировал не столько саму науку, сколько идею, что в нашем мире есть много интересных прикладных задач, которые любой молодой человек, студент, аспирант, молодой ученый, может решать. И это делать несложно, здесь порог вхождения очень небольшой. Потому что в основе всех алгоритмов анализа данных, на самом деле, лежит некий здравый смысл. То есть не всегда тут нужен какой-то очень глубокий математический бэкграунд, хотя, конечно же, некоторая подготовка, образование, умение программировать, естественно, нужно. Тогда я выкладывал различные материалы в Интернете, устраивал спецкурсы на эту тему и так далее. Сейчас эта тема популярна, у всех на слуху слова Big Data, Data Mining, эти англоязычные термины. И сейчас, на самом деле, очень многие пишут различные материалы, пособия, советы, как стать дата-майнером и так далее. Поэтому в этом море активности меня уже сложно назвать популяризатором.

 

JSON.TV: Тем не менее, Data Science. Мы можем простыми словами тем, кто вообще первый раз слышит, ответить, что же это такое?

 

Александр Дьяконов: Можем. Собственно говоря, как слышится, так и понимается. Data Science ‑ действительно наука о данных, то есть о различных аспектах взаимодействия с ними, о хранении, анализе, обработке, вылавливании закономерностей и так далее. Это целый комплекс областей, начиная от теории баз данных, проходя через интеллектуальный анализ данных, тот самый Data Mining, и заканчивая различными теориями логического вывода. То есть на самом деле, все области, которые так или иначе оперируют с данными, попадают под эту терминологию. Сам термин просто был придуман, чтобы объединить все эти дисциплины, которые кружат вокруг данных. Он прижился, наверное, потому что он очень удобен. Многим специалистам удобно себя позиционировать именно как Data Science.

 

JSON.TV: Я правильно понимаю, Александр, что можно сказать, что есть математика в Data Science, есть данные и есть программирование? Если упростить.

 

Александр Дьяконов: В общем, да. Говорят, что Data Science ‑ этот раздел информатики. Правда, в понятии информатики я его встречал только в России на постсоветском пространстве. На Западе употребляют различные термины: computer science и так далее.

 

JSON.TV: То есть Вы хотите сказать, что на факультете ВМК не говорят «информатика»?

 

Александр Дьяконов: На самом деле, да. Я практически не слышал, чтобы кто-то говорил, что «я ‑ специалист по информатике». Дипломы у нас выпускаются по специальности «прикладная математика и системное программирование». «Прикладная математика» ‑ мы говорим, «информатика» – фактически нет.

 

JSON.TV: Поговорим тогда о прикладной математике. Какие задачи можно решать с помощью Data Science? Можете привести примеры?

 

Александр Дьяконов: На самом деле, можно кратко сказать: абсолютно любые. Но дело в том, что не то что они решают задачи. В том смысле, что многие говорят, что наука о данных перевернет наш мир, сейчас мы заживем по-другому. Она, скорее, помогает решить задачи. Простой пример: допустим, у вас есть ресурс, который торгует видеоконтентом. Это могут быть фильмы, какие-то видеолекции, может быть, не торгует, а просто показывает. То есть люди заходят на ваш ресурс, смотрят видеоматериалы, и у вас есть рекомендательная система. Человек, который смотрит видеоматериалы, ему также что-то предлагается посмотреть еще. Или даются ссылки на какие-то тексты об этом материале, интервью с актерами. Естественно, если эта система продвинутая, она много что учитывает. Например, когда вы смотрите фильм, она вам предлагает потом фильмы того же жанра, где играют похоже актера, которые смотрят люди с похожим на ваш вкусом и так далее. В принципе, ваш ресурс может существовать и без рекомендательной системы. Он будет вполне нормально существовать. Но если вы копите статистику по действиям ваших пользователей, о взаимодействии, если вы ее анализируете, а на базе этого создаете грамотные рекомендации, это повышает доверие к этому ресурсу, потому что пользователь находит ресурс более полезным, более долго на нем задерживается. Ему больше нравится качество обслуживания. Вы параллельно, пользуясь тем, что он долго пребывает, можете заодно показывать ему больше рекламы и так далее. То есть тоже в некотором смысле делать свой бизнес на этом. То есть, как мы видим, есть потребности бизнеса в содержании такого ресурса видеоматериалов, и есть возможность сделать его более эффективным и качественным.

 

JSON.TV: Получается, что рекомендательные системы в электронной коммерции, в видеоконтенте имеют важное значение. Data Science помогает предсказать, что будет нравиться человеку?

 

Александр Дьяконов: Допустим, да. Или, например, предсказать, покинет ли человек наш ресурс, перестанет ли пользоваться услугой. Когда анализ данных стал проникать в деятельность сотовых операторов, одна из популярных задач, которые они решали, это как раз предсказание ухода клиента. Потому что рынок сотовой связи достаточно насыщен. У нас сегодня не так уж много сотовых операторов. И приманить нового фактически нельзя. Обычно мы покупаем симку ребенку того же оператора, которым и мы пользуемся. То есть рекламой здесь не раскрутишься. Но можно побуждать человека бросить одного оператора и уйти к другому. Соответственно, он может быть недоволен условиями обслуживания, ценовой политикой и так далее. Перед тем, как он уйдет, он как-то проявит себя, свое недовольство, станет реже платить, начнет экономить на связи или, наоборот, попытается израсходовать лимит побыстрее. В любом случае, какие-то его действия мы можем оценить, можем посмотреть, как вели себя люди, которые не бросили нас, и которые бросили. Что они перед этим делали, чем отличалась их деятельность, и тем самым уметь предсказывать этот уход. А если мы это умеем, тем самым, наверное, умеем задерживать клиентов. Потому что, если мы можем предсказать, что кто-то уйдет, мы можем попробовать провести какую-то рекламную акцию, предложить ему какой-то бонус и тем самым задержать его.

 

JSON.TV: Совершить какое-то действие, по крайней мере, в отношении этого клиента.

 

Александр Дьяконов: Да, совершенно верно.

 

JSON.TV: Александр, наверняка Вы ведь не только учите студентов, преподаете, но еще активно участвуете в решении таких задач. Из Вашего опыта, из Вашей практики можете рассказать какую-нибудь историю.

 

Александр Дьяконов: Могу, да. Моя практика немножко многогранная. Я решал задачи в рамках так называемых соревнований по анализу данных и в рамках различных коммерческих проектов, в том числе  взаимодействия с какими-то компаниями. Один из последних проектов мы делали в рамках сотрудничества с компанией «АлгоМост». Это анализ сигналов датчиков, то есть человеку на палец надевается специальный датчик, который измеряет фотоплетизмографический сигнал. Условно говоря, он просвечивает палец и улавливает изменение плотности в нем.

 

JSON.TV: И какая информация поступает?

 

Александр Дьяконов: Тем самым мы фактически получаем график кровяного давления. Естественно, приближенного, потому что мы измеряем на пальце, а не около сердца. Тем не менее, по этому графику много что можно посчитать. Там считаются специальные показатели. Мы занимались тем, что разрабатывали более хороший алгоритм расчета этих показателей, изучением проблем, почему эти показатели могут меняться со временем. В чем здесь кроется причина, в несовершенстве технологии снятия сигнала или, может быть, в несовершенстве алгоритма, который высчитывает эти показания и так далее. Есть заказчик, стоит проблема и требуются исследователи, которые могли бы отвечать на вопросы.

 

JSON.TV: Получается, что здесь ничего не предсказывалось, а нужно было оптимизировать алгоритмы?

 

Александр Дьяконов: В некотором смысле – да. Другое дело, что то, что я Вам описал – это некая проблема, но ее можно уже свести к конкретным математическим задачам. Если мы говорим о том, что сигнал должен быть более-менее устойчивый, то это можно формализовать, можно формализовать степень устойчивости, можно придумать несколько алгоритмов и оценить у каждого степень устойчивости параметра, который он считывает.

 

JSON.TV: Здорово. Александр, а глазами ученого Data Science как сегодня выглядит? Где этот самый передовой край науки, над чем работают математики, программисты?

 

Александр Дьяконов: Работают много над чем. Передовой край науки… Понимаете, есть направления, которые очень модные и популярные сейчас. Которые действительно у всех на слуху, и даже молодежь говорит, что «я бы хотел заниматься этим». Например, это технология диплернинг, то есть глубинного обучения. Это специальная парадигма настройки нейронных сетей для работы. Изначально все это делалось для работы с изображениями, там решалась куча различных задач. Самый популярный пример, который есть в Интернете, это когда компьютер обучали отличать по фотографии, кошка изображена или собака. Казалось бы, такая игровая задача, но она решается с достаточно высокой точностью, как ни странно.

 

JSON.TV: Причем можно различить не только кошку или собаку, но еще и породу?

 

Александр Дьяконов: Да. И параллельно решить много других, как оказалось, вопросов. То есть алгоритм, который обучается отличать одно от другого, он потом в конце концов может выдавать информацию, которую он получил за обучение, в концентрированном виде. Он может показывать на фотографии, почему он принял то или иное решение, то есть где находится тот самый объект интереса, из-за которого он отнес фотографию к тому или иному классу. То есть, условно говоря, на фотографии что-то снято, и кошка или собака где-то сидит в углу. Он показывает, что «вот там сидит то, что я отнес к классу кошка». Хотя реально его не учили локализовать эту информацию, находить кошку. Ему просто предъявляли картинки, всему остальному алгоритм как бы учился сам в некотором смысле.

 

JSON.TV: Здорово, потрясающе. Я недавно в YouTubeвидел видео, где не знаю, какой метод использовался, возможно, тоже нейронные сети. Когда на видео происходит распознавание объекта, человека, причем не только распознается человек, но и куда он смотрит. Такое демо-видео было выложено. Человек ходит по классу, и стрелочка показывает направление. И Вы представляете важность этого на фоне того, что мы говорим об автомобилях, которые будут управляться сами, без человека. Такие системы распознавания видео помогут избежать опасных ситуаций на дороге.

 

Александр Дьяконов: У меня студент как раз тоже увлекался подобной задачей. Он свою дипломную посвятил алгоритмам, которые следят за объектом на видеоряде. То есть в рамочку помещает какой-то объект и следит за ним. Несмотря на то, что объект периодически закрывают другие объекты, он поворачивается, меняет скорость и так далее, он за ним постоянно следит. По поводу края науки, говорю, что это вот один из примеров, с диплернингом. Но вообще, верю, что, учитывая то, как развивается наука вообще, не всегда самые популярные направления потом становятся двигателем всей науки. Data Science, на самом деле, очень молодая область, и тут, может быть, ярких примеров не привести, а в других областях, например, в физике, если вспомнить ту же теорию струн, когда-то она была совсем непопулярная и даже ортогональная, не главенствующим научным направлением. Но через какое-то время все изменилось, и вдруг большинство стали уделять внимание ей и заниматься ей. Поэтому, например, когда я выбираю какие-то направления исследований, я не очень люблю все модное. Я думаю, что какую-то золотую жилу можно найти в чем-то совсем неприметном.

 

JSON.TV: Вы можете назвать? Это не секрет, над чем Вы работаете? Я имею в виду, как математик, как ученый?

 

Александр Дьяконов: Если вообще посмотреть, над чем я работал, то область моей деятельности сильно менялась. Я не сразу занимался тем, что называется наука о данных. Мой научный руководитель ‑ Юрий Иванович Журавлев, академик Российской академии наук. У него есть такой подход, что человек не должен заниматься одним и тем же постоянно, что надо постоянно совершенствоваться, менять направления деятельности. Поэтому я, если проследить путь от студента до текущего времени, очень часто менял свои направления. Изначально я вообще занимался дискретной математикой, кандидатскую писал по так называемой теории дизъюнктивных нормальных форм. Потом я занимался в некотором смысле анализом данных, алгоритмом классификации, алгебраическими аспектами этой теории. То есть тут важны не какие-то методы построения алгоритмов и так далее, а исследование, что алгоритмы могут вообще, изучение модели алгоритмов. То есть когда у нас есть алгоритм с каким-то параметром, и эти параметры мы можем варьировать, что получается при их варьировании, что получается при использовании совместно нескольких алгоритмов и так далее. Это более теоретическая, на самом деле, область. А вот после этого я активно начал заниматься практикой, потому что, наверное, чуть-чуть устал от теории. И уже потом решал очень много прикладных задач. Я бы не сказал, что есть какое-то направление, в которое я прямо углубляюсь и им занимаюсь. Мне действительно интересно разнообразие задач. В последнее время я очень много читаю, изучаю различные методы по анализу графов. Причем таких методов специальные виды, которые учитывают различные спектральные свойства графов, анализируют матрицу, которая соответствует графам, находят определенные характеристики, на основе их определяют, что же это за граф, какие его свойства и так далее.

 

JSON.TV: Александр, мне кажется, важно для телезрителей рассказать о практическом значении теории графов. В жизни какую-то пользу дает? Где это применяется?

 

Александр Дьяконов: Применяется это очень просто. Может быть, это и не было бы каким-то центральным объектом исследования, если бы не устройство нашего мира, где эти графы возникают постоянно. В частности, для Data Scientist отправной точкой стало то, что появились различные социальные сети, причем социальные сети в широком смысле. То есть это не обязательно Facebook.

 

JSON.TV: Это первое, что пришло мне на память.

 

Александр Дьяконов: Да, это первое, что приходит. Все люди в сообществе образуют социальную сеть. Социальная сеть фактически формализуется в виде графа. То есть граф – это набор неких точек и связей между ними. Мы можем представить, что люди – это точки, а взаимодействие между ними – это те самые связи. Например, пользователи сотовой сети, естественно, являются социальной сетью, потому что они связываются друг с другом посредством звонков и так далее. То есть мы получаем динамически меняющийся граф. Кто-то кому-то звонит, есть специальные точки, которые отвечают услугам, то есть кто-то подключается к услуге, кто-то ее отключает. И тут возникает много задач. Например, подключится ли пользователь к услуге, отключится ли, какая связь появится в этом графе следующей. Выявить какие-то компоненты связанности графов, скученности.

 

JSON.TV: Кстати, потрясающая картина, если поискать, можно найти. А может быть, кто-то и занимается ими. Если построить графы социальной сети и так далее. Это, скорее, уже получается искусство. Вы согласны с тем, что Data Mining – это скорее как искусство?

 

Александр Дьяконов: В определенном смысле, да. Может быть, Вы это видите с точки зрения инфографики. Можно еще посмотреть с точки зрения методов решения задач. Потому что когда появляется новый объект, создать теорию под этот объект. Либо прикручивается старая теория. Я начал приводить пример с графами. Есть такая область, как спектральная теория графов, которой я тоже сейчас увлекся для своего самообразования, она возникла в 70-е годы, были интенсивные исследования по ней и так далее. Когда люди сейчас начали работать с графами и решать задачи, например, разбиение графа на логичные подграфы. Это, на самом деле, имеет большой смысл, выделение всех этих компонентов графа, например, в задачах правильной рекламы. То есть если вы хотите провести какую-то рекламную кампанию, например, СМС рассылки или е-мейл рассылки, или просто воздействие на пользователей посредством звонков, непосредственного контакта с ними и так далее, вам надо охватить широкую аудиторию, но при этом сделать это ненавязчиво и таргетированно. Или, наоборот, охватить как можно большие слои населения, рассчитывая на то, что если вы сообщите какой-то группе, она распространит среди своих знакомых. Как это сделать правильно? Надо как раз понять, какие члены сообщества чем друг с другом схожи, разделить их на группы и воздействовать на представителей той или иной группы. Надо делать это в автоматическом режиме, то есть по тому описанию, которое у нас есть от наших, например, клиентов, правильно их разбить и правильно выбрать представителей групп, чтобы сделать рекламную рассылку или провести рекламную акцию.

 

JSON.TV: То есть разбить на группы – это и есть задача для Data Scientist?

 

Александр Дьяконов: Одна из – да.

 

JSON.TV: Александр, Вы упомянули про конкурсы. Насколько я понимаю, есть такая субкультура, когда аналитики и разработчики данных принимают участие в конкурсах. Какие-то проходят ради спортивного интереса, в каких-то объявляются, формируются призовые фонды, есть конкретный интерес. Поделитесь Вашим опытом?

 

Александр Дьяконов: Это очень древняя деятельность, на самом деле. Еще фактически в начале века они стали появляться, эти конкурсы. И я ими сразу заинтересовался. Тогда они были совсем некоммерческие, никаких вознаграждений не было, их организовывали какие-то лаборатории, выкладывали данные. В частности, первый конкурс, в котором я поучаствовал, это был конкурс в области brain–computer interface, это когда на человека надевается шапка с электродами, иногда электроды вживляются в мозг пациента, если это необходимо, и человек совершает различные ментальные действия, а система записывает сигналы, которые этим действиям соответствуют. Потом на основе этих сигналов нужно сделать алгоритмы, которые эти ментальные действия угадывают. То есть фактически угадывать мысли по сигналам головного мозга. Есть разные яркие применения этой технологии. Например, есть инвалидные кресла, которыми обездвиженный человек управляет с помощью силы мысли. Есть различные презентации, когда два человека приходят на различных конференциях на стенд, надевают шапочки и начинают играть в настольный теннис, перемещая ракетки силой мысли и так далее. Эта область была одной из первых конкурсных, было очень много интересных задач. Например, одна компания, которая занималась подобными исследованиями, записывала мозговую деятельность во время прохождения различных игр, шутеров, когда человек ходил, стрелял, подбирал оружие, оборонялся от кого-то. И потом нужно было по этим сигналам предсказать, что же происходило с человеком. Она объявляла денежные призы за этот конкурс. Когда я успешно решил подобную задачу, ко мне и пришла уверенность, что такие задачи можно решать даже без какой-то подготовки. Потому что меня этим методам анализа сигналов тогда вообще никто не учил. Это была первая практическая задача, которую я попробовал реально решать. А потом это уже было поставлено на поток, стала появляться куча платформ, которые специализируются на посредничестве между наукой и бизнесом. Первой возникла платформа Kaggle.

 

JSON.TV: Насколько я понимаю, самая популярная в мире?

 

Александр Дьяконов: Да, сейчас, наверное, она самая популярная. До нее была интересная платформа TunedIT. Когда появился Kaggle, он мне сначала не понравился, потому что там первое соревнование было по предсказанию итогов голосования «Евровидения». Я подумал, что это какая-то игровая задача. Но потом там стали появляться более интересные практические задачи. Причем каждый раз росла аудитория этих задач, стали появляться солидные денежные призы.

 

JSON.TV: А конкурс Netflix Вы застали?

 

Александр Дьяконов: Netflix я, естественно, застал, но я в нем не участвовал, потому что я тогда уже имел такой опыт соперничества. На тот момент я не располагал большими вычислительными мощностями, а ту задачу нужно было решать, имея, по крайней мере, хороший компьютер. Это раз. Во-вторых, меня насторожил тогда солидный призовой фонд, 1 млн долларов, потому что я понимал, что в подобных конкурсах, это действительно так, есть не только такая романтическая составляющая, что я решаю задачу, если я решаю лучше, то я получаю приз. Есть различные некрасивые схемы участия. Это спорт с различными черными аспектами типа допинга, как и в любом спорте. Например, на том же Kaggle всячески борются с сомнительными (24.25)схемами. То есть когда человек делает несколько аккаунтов и сабмитит с них. Потому что число сабмишнов, то есть отправок решений, которые ты можешь отправить и узнать предварительно свой результат, ограничено. И человек, который делает несколько аккаунтов, тем самым может повышать свои шансы. Есть разные запрещенные схемы объединения команд, которые тоже вносят некоторую несправедливость в проведение этих конкурсов. Потому что, представьте, какой-то человек лидирует, его преследует кто-то на втором и третьем местах, потом они объединяются, и самим актом объединения они получают некое преимущество. Потому что у них два разных алгоритма, которые действуют немножко по-разному. Если один алгоритм ошибся, другой может его подправить. Эта идея ансамблирования очень популярна в анализе данных, потому что если у вас есть один алгоритм – это хорошо, но если у вас есть их много, то вы можете устроить среди них голосование. И по большинству решить, куда классифицировать объект: письмо спамовское/не спамовское, человек больной или здоровый.

 

JSON.TV: Я хотел бы уточнить: Ваша точка зрения – Вы против объединения в таких конкурсах?

 

Александр Дьяконов: На Kaggle есть регламент, что объединение запрещается за неделю до конца конкурса. Лично мое мнение: я считаю, что участник сразу, вступая в конкурс, должен определиться, в каком составе он будет играть. Как и в спорте, когда вы приезжаете на крупные соревнования, есть режим заявки, ты сразу определяешь, кто будет участвовать.

 

JSON.TV: Александр, я хочу для телезрителей рассказать: я посмотрел на Вашем сайте, насчитал 16 конкурсов, в которых Вы принимали участие, провел небольшие аналитические вычисления. И в 5-ти из них Вы заняли первое место. При этом трижды становились серебряным призером и четыре раза занимали третью строчку в турнирной таблице. То есть в 80-ти % попадали в призы. Потрясающий результат.

 

Александр Дьяконов: Это завышенная цифра, на самом деле. На страничке в целях похвастаться я представил только самые успешные результаты. Могу рассказать такую историю: когда Kaggle запустился и я стал решать задачи на нем, у меня была некая серия успешных выступлений. 4 конкурса подряд я занимал первые 4 места, то есть 1-е, 2-е, 3-е, 4-е. На этом этапе они решили создать систему рейтинга участников, то есть проранжировать всех и узнать, кто же лучший решатель. И я оказался лучшим в мире. Тогда там было зарегистрировано 45 тыс. участников, то есть лучше 45-ти тыс. Это получило широкую огласку, об этом писал блог в The New York Times, сообщения агентства «Рейтер» и так далее. Мне стала сразу на почту приходить куча писем с поздравлениями, с приглашениями к сотрудничеству и так далее. Потом, где-то через полгода, я, естественно, потерял первую позицию, потому что она зависит от текущего выступления. Если ты пропустил какой-то конкурс, а кто-то поучаствовал, то он тебя, естественно, опередил по очкам. Но я потерял ее, потому что в следующих 4-х конкурсах я уже занимал достаточно низкие места, то есть где-то 65-е место и так далее. И делал я это не потому, что вдруг разучился решать задачи или потому что конкуренция вдруг возросла, хотя она, конечно же, с годами возрастает. А просто потому, что следующий набор конкурсов я использовал в некотором смысле для своих экспериментов. Я пробовал решать эти прикладные задачи очень простыми методами. У меня были специальные ограничения, которые я сам себе создавал, типа программа должна вмещаться на два экрана или алгоритм использовать только определенного вида и так далее. И это были те результаты, которых я добивался именно в рамках своих ограничений, то есть я не все конкурсы использовал с целью во что бы то ни стало выиграть. Поэтому, когда мы анализируем итоги работы любого ученого и он занимает низкие места, это не обязательно означает, что он не умеет решать задачи. Но как ни странно, я считаю, что в подобных соревнованиях люди проигрывают не случайно. Если постоянно занимаешь последнее место, значит, действительно не умеешь решать. А вот победа в определенном смысле всегда случайна. Потому что можно не случайно быть все время впереди, в топе. Но именно прыгнуть на первое место – там часто отделяют какие-то сотые процентов. Конкурсы, в которых я побеждал, для меня эти победы, как правило, было сюрпризом. А вот в которых занимал вторые, третьи места, в них, как правило, выложился по полной. Поэтому тут не угадаешь, где тебе удастся занять именно первое место.

 

JSON.TV: Александр, помогите мне разобраться с таким вопросом. Мне как-то попались данные о том, что в Англии на 10 аспирантов приходится одно место в учебном заведении. Вместе с тем, сфера бизнеса сегодня остро нуждается в специалистах в области Data Mining, Data Science. И возникает вопрос: почему эти аспиранты не идут в бизнес? У Вас возникал такой вопрос, где быть: оставаться ученым, идти работать в корпорацию?

 

Александр Дьяконов: Мне постоянно приходят различные предложения. Несколько раз даже уговаривали бросать образование, идти заниматься бизнесом. До настоящего момента я наотрез отказывался. Когда я был совсем молодым, в пост-аспирантские годы, я вообще себе не представлял другого места, кроме образования. Сейчас, естественно, граница чуть-чуть размыта, потому что начинаешь понимать, что жизнь есть жизнь. Финансовые вопросы тоже достаточно острые. В бизнесе можно заработать гораздо больше, а образование в России по-прежнему финансируется не так солидно. И если возникнет потребность в денежных средствах у моей семьи, то такой вариант я рассматриваю. Но даже сейчас я параллельно сотрудничаю с разными компаниями. В качестве примера – с интернет-магазином Ozon у меня очень тесные отношения, очень многие мои студенты и аспиранты уходили туда работать в конечном счете. С российским стартапом «АлгоМост» мы тоже создаем аналитику, платформу российскую.

 

JSON.TV: То есть Вам удается совмещать преподавание и работу?

 

Александр Дьяконов: Да. Естественно, это выдается в небольшой мере. Если бы я полностью занимался какой-то определенной сферой, я бы занимался более глубоко и, может быть, достиг бы большего успеха. Пока приходится распараллеливать некоторую деятельность. Но основное место моей работы – это, естественно, Московский университет. Преподаю я только в МГУ, я больше не преподаю ни в одном другом учебном заведении.

 

JSON.TV: Если я правильно понял с Ваших слов, Вы стали инициатором того, чтобы рассказывать студентам о практическом значении методов машинного обучения? И чем Data Science может быть полезна бизнесу?

 

Александр Дьяконов: Да, одним из. Я был одним из первых, кто создавал курсы, которые нацелены на то, чтобы показать, какие задачи есть и как их решать. Я до сих пор веду спецкурс, который недавно начал, «Прикладные задачи анализа данных», в котором основной упор делается на то, что «есть реальная задача, я ее решал, я вам сейчас расскажу, как я ее решал». Теперь мы с вами тоже порешаем какую-нибудь задачу. Может быть, возьмем свежую, может быть, в рамках международного конкурса. Потом обменяемся опытом. Если я решил лучше вас, то вы увидите, в чем состоит мой опыт. Если вы решили лучше меня, я научусь у вас, узнаю, что я не углядел в данных и так далее.

 

JSON.TV: Такая лаборатория происходит своего рода.

 

Александр Дьяконов: Да. Потому что если мы говорим об обучении в Data Science, точнее даже больше в области Data Mining, то здесь надо не просто искать какие-то алгоритмы машинного обучения, нейросети, решающие деревья, метод ближайшего соседа, байесовские алгоритмы и так далее. Это все теория. Надо прорешать большое число прикладных задач. Любая наука создается для решения определенных задач. По многим наукам есть просто задачники. Матанализ – есть учебник Демидовича. Если человек говорит, что «я знаю матанализ», как мне это проверить? Спрашивать у него теорему о неявной функции? Я дам учебник, попрошу решить задачу. А в анализе данных задачника нет, задачи постоянно новые все прибывают и прибывают. И те, которые решались 40 лет назад, уже действительно неактуальны. Если вы посмотрите, какие задачи решались тогда, их размеры уже вызывают смех. Было 10 объектов, 20 признаков, допустим. А сейчас – гигабайты информации.

 

JSON.TV: Миллионы строк в таблице.

 

Александр Дьяконов: Да. Даже не в таблице, что вы можете ее в прямом смысле посмотреть, даже это записано где-то на диске, вызывается по каким-то принципам. Задачи постоянно новые появляются, они актуальны. И вопрос, чему учить человека, если через 5 лет, когда он начнет работать, может быть, класс задач сместится. Надо именно научить его решать задачи, а для этого нужна постоянная практика. В процессе обучения должен прорешать задачи по разным областям: классификация сигналов, работа с изображениями, графы, какие-то специальные JSON-файлы и так далее. Чем больше разных форматов данных он освоит и принципов работы с ними, тем лучше.

 

JSON.TV: Отличный совет для новичков, спасибо огромное, что об этом сказали. Александр, еще один вопрос. Речь идет о том, когда люди пытаются создать некое решение в области разработки данных. Всегда возникает такая ситуация, что сложно придумать универсальное решение. Допустим, рекомендательную систему, о которой Вы говорили, чтобы она работала как платформа. То есть берем и создаем. Это действительно так? Есть такое мнение, что для каждого магазина нужна своя рекомендательная система. Создать единую как-то не получается.

 

Александр Дьяконов: И да, и нет. Все зависит от того, что вы хотите. Если мы будем создавать систему с учетом специфики нашего потребителя, то ее можно создать более качественной. Другое дело, стоит ли тратиться на это качество? Стоит ли тратить время, денежные ресурсы на разработку или взять готовое решение? Тут каждый принимает решение сам. Тут просто очень много аспектов. Например, компании покупать коробочные решения либо самой создавать отдел аналитики у себя.

 

JSON.TV: Да, я как раз это и хотел узнать.

 

Александр Дьяконов: Тут компания должна принять решение сама, где брать аналитику. Или брать аналитику у другой компании, которая специализируется на этом. Аналитики данных, на мой взгляд, пока незащищенная профессия. Я приводил пример по поводу ресурса с видеоконтентом. Допустим, вы его владелец. Начинается кризис. Наверное, вы аналитиков уволите в первую очередь, если вам потребуется сократить штат. Потому что люди, которые администрируют эту систему, для вас более важны. Без них она просто упадет. Люди, которые занимаются обработкой видеоконтента, выкладывают ролики, тоже нужны. Люди, которые снимают, тоже нужны. А вот люди, которые подстраивают эту рекомендательную систему – ну, работает она и работает. Не будет она работать – все равно, система-то будет функционировать. Поэтому аналитика данных – это вторичная профессия. Она возможна только при условии, что вся инфраструктура существует. Чтобы анализировать данные, нужны данные. Есть куча профессий, которые занимаются их сбором, хранением и так далее.

 

JSON.TV: Спасибо огромное, очень интересное замечание. В завершение, Александр, можно Вас попросить поделиться своими наблюдениями? Вы ведь пропускаете через себя большое количество задач. Что нас ожидает в ближайшее время? Может быть, есть какие-то тренды в Data Science?

 

Александр Дьяконов: Не хотелось бы заниматься прогнозом. Сейчас все очень много обещают. Эта очень коммерческая шумиха, которая крутится вокруг терминов BigData и так далее, на самом деле больше направлена на то, чтобы продать определенные аппаратные программные решения. Все эти лозунги, что анализ больших данных изменит наше будущее и так далее, мне кажется, они чуть-чуть завышены. Давайте возьмем нечто похожее: помните, в советское время был такой космический бум, все говорили о космосе. И все дети мечтали стать космонавтами. Примерно так же сейчас студенты мечтают стать аналитиками данных. Есть некая аналогия, несмотря на кажущееся различие. Прошло много лет, сейчас бум прошел, мало кто из детей хочет стать космонавтом. Но давайте проанализируем, что дали те космические исследования человечеству. В принципе, очень много, но мы этого фактически не замечаем. Простейший пример – GPS-приемники. Без наличия спутников их бы не было. Но ведь не только в космосе тут дело. В появлении миниатюрных устройств, в развитии, синтезе больших интегральных схем, миниатюризации этих устройств. То есть куча всего привело к созданию этого продукта. Также и с анализом данных. Он, естественно, повлияет на развитие человечества. «Умные города», «умные машины» – все это, возможно, появится.

 

JSON.TV: Медицина. Мы сегодня не коснулись, но тоже большое практическое значение имеет.

 

Александр Дьяконов: Да, совершенно верно. Спасение жизни людей, прогнозирование развития эпидемий – все это в конечном счете будет работать, может быть, даже безотказно. И мы не будем даже это замечать, будем воспринимать, как имеющееся. Но это будет только тогда, когда параллельно различные технологии позволят создать соответствующие продукты. Простой пример: мы говорим об «умных машинах» или «умных домах». Но кроме создания «умных алгоритмов» нужно создать правовую базу. Потому что если машина попадет в аварию или ваш «умный дом» ограбят, сигнализация не сработает, то кто будет нести ответственность? Разработчик алгоритма? Компания, которой продал программный продукт? Или вы сами, потому что ваша машина врезалась? И этот вопрос не менее важный, чем создание этих «умных алгоритмов», которые все делают. Это простейший пример, но тут много чего можно привести. Должна техника позволять делать определенные вещи, должны люди быть морально подготовлены к пользованию этими продуктами. Потому что если уже сейчас поднимаются скандалы вокруг использования персональных данных, за нами следят по телефонам и так далее, то зачем тогда вообще говорить об эпохе больших данных, которые основная парадигма как раз того, что данные о нас собираются, анализируются и принимаются решения?

 

JSON.TV: То есть каждая новая технология, которая появляется в обществе, требует еще знаний о том, как ей пользоваться? И людям нужно учиться ей пользоваться?

 

Александр Дьяконов: Да, люди должны подготовиться. Много что должно подвести к тому, что они будут воспринимать это как продукт и потреблять, уже не обращая внимания на то, благодаря чему это появилось, благодаря анализу данных или благодаря просто развитию техники.

 

JSON.TV: Интересный прогноз, интересное наблюдение. Александр, спасибо огромное, что Вы нашли время, пришли к нам в студию и поделились информацией о столь увлекательной науке. Расставили акценты, дали нам понять, где есть коммерческий интерес, где рекламная составляющая, а где находится сама наука и ее практическое значение, решения.

 

Александр Дьяконов: Вам спасибо, что пригласили.

 

JSON.TV: Мне очень приятно напомнить, что сегодня в гостях у нас был доктор физико-математических наук, профессор факультета вычислительной математики и кибернетики Московского университета Александр Дьяконов. Всего доброго, до свидания!


АСИ. 100 шагов к благоприятному инвестклимату 2016. Какой должна быть благоприятная регуляторная среда для высокотехнологичных компаний в России?
АСИ. 100 шагов к благоприятному инвестклимату 2016. Александр Шохин, РСПП: Стабильность фискальной нагрузки выходит в приоритет по важности для бизнеса
АСИ. 100 шагов к благоприятному инвестклимату 2016. Алексей Репик, «Деловая Россия»: от измерения общей температуры деловой активности рейтинга Doing Business, мы уже должны переходить к измерению социальных аспектов привлекательности регионов
АСИ. 100 шагов к благоприятному инвестклимату 2016. Андрей Никитин, АСИ: текущие достижения Национальной предпринимательской инициативы
Андрей Ионин, СВОП: Наш конек – умение решать нестандартные задачи, в очень сложных условиях и в кратчайшие сроки
Церемония открытия Форума «Открытые инновации 2016» в технопарке «Сколково». Аркадий Дворкович: мы создаем здесь будущее
Открытые инновации 2016. Сессия «Космические сервисы: новые горизонты». В обществе наблюдается здоровый всплеск интереса к Космосу. Его нужно использовать
Открытые Инновации 2016: технологический предприниматель - главный герой инновационной экономики