×
Михаил Левиев, "АлгоМост": как может быть полезен датамайнинг в телекоме?

- Начнем с маленького примера. Мобильный оператор знает, где находится его клиент. С одной стороны, это полезное знание. С другой стороны, знание только тогда становится экономически полезным, когда он понимает, что он из этого знания может извлечь пользу, экономическую в том числе. Зная географическое положение человека, оператор может на этой основе предложить ему сервисы, рекомендации и т.п. Как оператор может знать, что именно конретному пользователю релевантна такая-то рекомендация? Это он будет знать, анализируя звонки, передвижения, трафик, какие посещаешь сайты и т.д.


Поэтому анализ данных – это фундамент успешного развития телеком-компаний: классические драйверы роста телеком-рынка уже более-менее отыграны. Конкуренция плавно переходит в ту фазу, когда операторы задумываются, что они могут извлечь из своей клиентской базы, а именно из того трафика, который формируется на этих каналах. Анализируя эти данные, операторы могут узнать гораздо больше.


- Если я правильно понимаю, то анализ данных пользователей позволяет создавать некий профиль и на основании этих профилей что-то предлагать пользователям, либо эти профили можно продать какой-то компании, которая на основании этих данных сможет извлечь выгоду для себя?


-
Да. Верно. Я приведу вам несколько реальных примеров
Один из наших мобильных операторов строит систему анализа пробок более эффективную, чем это происходит у "Яндекса".


- Ну, на основе телефонов, которые передвигаются?


-
Да. Он (оператор) лучше знает, чем "Яндекс". В каждом авто есть минимум один телефон. Примерно 30% мобильного трафика приходится на одного оператора. Поэтому оператор знает гораздо более точно, кто стоит в пробке, где пробка есть, где ее нет и насколько она вообще велика. Это как один пример анализа данных. Из этого может вытекать все что угодно. Зная, что люди стоят в пробках, что они обычно двигаются по такому-то направлению, операторы могут делать конкретные предложения, например оператор такой-то предлагает посетить такое-то кафе, которое расположено на этой дороге.


Изначально операторы на основе анализа передаваемых данных (звонка, смс, файла) научились правильно расставлять вышки. Также они анализировали, какую пропускную способность надо подвести под базовую станцию. Но сейчас пошел следующий этап эволюции, когда операторы и телеком-компании не просто анализирует геолокационные параметры трафика, а анализирует исходя из того, какой трафик идет каждому клиенту. Вот у большинства из нас есть смартфон. Учитываем ясный тренд, что смартфоны дешевеют, и скоро будут смартфоны по 10-20 долларов, мы понимаем, что сможем извлекать гораздо больше информации: не только о том, что человек делает и где он находится. Мы можем понимать, какими приложениями он пользуется в определенных местах, можем понимать его интересы и, как результат, создавать более сложные профили абонентов, которые сами по себе являются товаром. Эти знания (данные, профили) позволяют операторам проводить какие-то совместные акции.


Что такое датамайнинг? У нас есть данные. Вот они генерируются, генерируются, генерируются. Датамайнинг – это процесс, когда из сырых данных извлекается какая-то полезность, находится взаимосвязь. Например вот есть пользователь А, и по определенным признакам мы видим, что он находится в состоянии, когда он хочет сменить оператора. И датамайнинг позволяет, проанализировав его поведенческие особенности, понять, когда человек подходит к этому желанию сменить оператора. И можно, выявив этот факт, принять какие-то меры, чтобы сохранить этого пользователя, предложив более выгодный тариф или решив какую-либо другую проблему. Что делаем мы? Мы создаем алгоритм, который из сырых данных о клиенте выявляет какую-то ценность, например, как понять, что клиент хочет уйти от оператора.


Мы, Алгомост, появляемся там, где из этих данных надо извлекать полезность, т.е. создать алгоритм, который эти данные будет обрабатывать и выдавать полезность.

 

- Михаил, а что вы непостредственно делаете? Что делает именно "Алгомост"? Как это все работает? Какие планы, перспективы? Я понял, что такое дата-майнинг в телекоме.


-
За время свой работы в сфере коммерциализации науки (почти 9 лет) мы постоянно сталкивались с потребностью в анализе данных. Все IT-проекты, с которыми мы работали, генерировали огромное количество данных, из которых надо было извлекать какие-то полезности. И в какой-то момент с партнерами решили создать эффективный способ построения и создания алгоритмов.
Создание происходит в 2 этапа. Сначала нужно узнать, где есть лучшие специалисты и какие есть лучшие подходы для решения той или иной задачи. Соответственно, мы проводим конкурс. У нас на платформе уже более 300 команд специалистов в области анализа данных со всего мира, которых мы называем "решателями". Мы среди них проводим конкурс(аудитория решателей постоянно растет). По итогам конкурса мы получаем пул лучших алгоритмов, специалистов и подходов, то есть ландшафт знаний в области конкретной проблемы. На основании победителей первого этапа мы формируем распределеленную исследовательскую группу, который мы называем smart-grid. Этот смарт-грид (группа специалистов-победителей) уже непосредственно работает над задачей заказчика: они могут довести алгоритм до любого уровня, который пожелает заказчик. То есть, мы создали самую эффективную модель взаимодействия между бизнесом (заказчиком) и мировым интеллектуальным сообществом в сфере анализа данных для того, чтобы создавать лучшие алгоритмы в сфере анализа данных. Вот то, что делаем мы.


- Кому вы эти алгоритмы продаете?


-
Наша бизнес-модель построена таким образом, что мы не создаем алгоритмы сами для себя. Мы создаем алгоритмы под заказ. Вот к нам приходит крупная телеком-компания, которая говорит, что у нее формируется много данных о клиентах, и она хочет на основе этих данных алгоритм, который позволит предовратить потерю клиентов. Или например, алгоритм, который спрогнозирует пиковые нагрузки по вышкам. Там целый спектр задач, которые можно решать. Это задачи 1-го уровня. Задачи 2-го уровня – сформировать профиль клиента, чтобы продавать эти данные или развивать свои собственные сервисы. Как простой пример, когда наши операторы создают гибридные мессенджеры, которые могут передавать сообщения в зависимости от того, какой сигнал доступен. В айфонах такая функция реализована, в Андроидах – нет, и наши операторы такие сервисы выпускают. Чтобы понять, какая аудитория в этом заинтересована, нужно очень четко анализировать и понимать, как люди пользуются своими девайсами, какие у них девайсы. Все это является источником знаний для построения нужного сервиса.


- Кто в России из ваших клиентов реализовал подобные технологии? С кем-то ведутся переговоры?


-
Сейчас мы только начали переговоры с российскими компаниями, в первую очередь идет диалог с компаниями фиксированной связи, операторами ШПД. С мобильными операторами мы тоже ведем переговоры. Там у них сейчас возникла такая сложность. На них реально свалилась эта биг-дата, и у них сейчас все силы брошены на то, чтобы просто справиться с этим, они отстраивают инфраструктуру, так как экспоненциальный рост трафика их просто душит. Поэтому с ними мы сейчас находимся в стадии определения тех задач, которые мы можем решать для них.


- Что у вас за проект с фиксированными операторами?


-
Конкретный проект, который мы с ними обсуждаем – это создание алгоритма, где по определенным поведенческим признакам мы можем потерять клиента. Затем у нас стоит стратегия расширения каналов. Допустим, они понимают, что формируются тренды по районам, где надо дополнительные каналы расширить, где потенциал роста формируется. Это из основных задач. Мы недавно стартанули, поэтому пока масташтабных кейсов немного.


- Какой вообще рынок создания алгоритмов в России?


-
Рынок дата-майнинга в России пока невозможно оценить. Изначально была вообще советская модель. Да-да, в СССР тоже был дата-майнинг. Он происходил следующим образом. Формировался заказ какому-то институту, институт проводил исследования и выдавал какой-то результат. Такая модель используется до сих пор в ряде случаев. Основные факторы – это долго, дорого, результат неопределенный, насколько он будет соответствовать мировой практике – никто не знает. Мы же уже на первом этапе знаем лучшие мировые практики.


Есть еще такой формат, применяемый разными компаниями, когда берутся данные, ставится задача, публикуется конкурс, народ участвует, получается срез, но результаты этого конкурса не готовы к тому, чтобы быть внедренными в бизнес, то есть в инфраструктуру заказчика, поэтому они хороши для науки, но для бизнеса бесполезны.


В этом плане мы пошли эволюционно дальше, мы определили интеллектуальный ландшафт, затем выбрали победителей конкурса, объединили их в смартгрид, который и работает над алгоритмом для заказчика. А мы создаем алгоритмы мирового уровня, конкурентов в России у нас нет, есть компании с определенными конечными продуктами, у них есть конкретный алгоритм, который они делают и развивают. Хорош этот алгоритм или плох – этот вопрос очень относителен.


Для нас нет ограничений по индустриям, по тематике алгоритмов. Условно, если есть компания, которая делает специальный алгоритм, который из трафика вычленяет профиль клиента, мы можем для наших заказчиков создать или дополнить смарт-гриды по разным направлениям, одновременно вести 10 исследований и создавать 10 алгоритмов.


- А как выглядит сам продукт? В виде чего алгоритм передается?


-
В виде программного кода. Это логика, интерпретированная в программном коде, которая встраивается. Она строится по требованиям заказчика по производительности, на каком языке доллжна быть написана, какие данные на входе…


- А какие языки? Как она кодируется? Как она выглядит?


-
Алгоритмы в основном разрабатываются в таких специализированных приложениях типа MathLab, а дальше уже код матлабовский интерпретируется в любой код, который пожелает заказчик, что уже не является сложной задачей.


- То есть, потом его в любую систему можно загрузить?


-
Да. И потом оно как модуль встраивается в любую систему, исследовательская группа может донастроить алгоритм по необходимости, поскольку в телекоме очень часто выскакивает биг дата, причем потоковая, где надо иметь определенную производительность и устойчивый результат. И вот этот смарт-грид доводит алгоритм до определенного результата. И алгоритм работает в режиме 24/7. А компания может обратиться за новым алгоритмом или еще большим улучшением текущего. Тем самым мы выводим наверх зону принятия решений. Все эти нишевые процессы, в них человеческий фактор уже вычленен, потому что анализ производится полностью за счет аглоритма и представляет собой книнтэссенцию полезности, того, что есть в данных.


- Каков стандарт погрешности в результатах?


-
Что касается классических задач, то по каждой из них есть некий best practice, который показывается с погрешностью. Потому что ошибка при расчетах по потере клиентов она вот такая-то.


- Да мне понятны ваши типы классических задач. Но вот один момент не очень понятен. Это может быть сложно. Например, если клиент все время чекинится в аэропорту, то это не означает, что он часто летает, а что он, например, работает курьером и приезжает туда, чтобы отдать какие-то документы.


-
Самое интересное, что алгоритм будет это знать. Потому что если он там чекинится, то мобильный оператор будет знать, вылетел ли человек или нет, ведь роуминг не включился.


- Ну да, это хороший пример. Ну а, например, если клиент все время ездит по разным автосалонам. Это ведь тоже может не значить, что он хочет купить себе автомобиль, может быть он работает в компании, которая предлагает какие-то сервисы для автосалонов, может, он торговый представитель.


-
Ну, во-первых, за счет этого мы можем выявить, что он работает в автоиндустрии, супер. Плюс, анализируя те звонки, тарифы, трафик, который он генерирует, мы можем понять, к какой платежеспособной категории он относится, является ли он потенциальным клиентом, или же если он ездит постоянно по автосалонам, то он, скорее всего, является участником этой индустрии.


- Тогда, наверное, встает вопрос privacy. Если человек смотрит сайты с гей-порно и ему приходит реклама нового клуба "69", то, наверное, человек не очень захочет, чтобы оператор знал о его интересах. Насколько вообще критичен этот аспект?


-
Этот аспект регулируется федеральным законом. Здесь есть ряд ограничений. Во-первых, мы все, когда становимся клиентом такого-то оператора, подписываем соглашение об обработке персональных данных. Эти персональные данные обрабатываются, но сами эти они никуда не выгружаются наружу. Результаты в том или ином виде могут выдаваться. Большинство операторов, как правило, не заходит в такие личностные зоны, так как есть большой риск потерять клиента, и это для них более приоритетно, нежели небольшая транзакция при формировании профиля клиента и получения с этого выгоды. Плюс, профили клиентов, как правило, обезличенные.


- Нет, все-таки если мы продаем эти данные, то, наверное…


-
Нет, она продается через то, что контактная зона находится у оператора. То есть, заказчик говорит, что вот таким-то клиентам с таким-то профилем нужно донести вот эту информацию. Операторы это монетизируют следующим образом: они используют обезличенный профиль. Оператор говорит заказчику, что вот такие-то профили у меня есть в таком-то количестве – 1000 человек с профилями, которые вам подходят, например, мужчины, такой-то возраст, достаток, география и т.д. И заказчик платит, чтобы до этой тысячи донести его информацию.


- Кстати, как мы можем считать достаток? Ведь размер счета, скорее всего, это неправильно, нерелевантно? Ведь вопрос, с кем он разговаривает. Например, если есть бабушка, которая разговаривает 2 раза в месяц, но при этом имеет дом за границей.


-
Скорее всего, такая бабушка попадет в зону погрешности, ведь мы говорим о массовом продукте. А датамайнинг в телекоме – это в первую очередь выявить тренд. Что такое тренд? Это когда мы понимаем, что такие-то люди с таким-то профилем относятся к такой-то платежеспособной группе. Понятно, что есть исключения, но они подтверждают практику.
Но мы понимаем, что есть такой-то профиль, и таких абонентов есть одна тысяча. И такими профилями операторы готовы делиться, это очень востребовано. Компании, производителю, очень важно донести до своей аудитории информацию о себе. И это один из лучших спобосов заявить о себе прям вот целевой аудитории. А выявить таких людей – это и делает алгоритм, поскольку в ручном режиме обработать базу любого оператора нереально. И модель создания такая алгоритмов у нас самая лучшая, так как только у нас она состоит из двух этапов с выявлением мирового ландшафта на первом и созданием алгоритма смарт-гридом для внедрения в бизнес – на втором.
У нас есть слайд, на котором показано, как устроен типовой смартгрид: после конкурса берутся 5 лучших дата-майнеров, к ним присоединяются 2 лучших эксперта индустрии. И под нашим менеджментом такая распределенная исследовательская группа (смарт-грид) становится такой аутсорс-лабораторией, которая может создавать алгоритмы под все задачи. Эти люди смогут найти самые эффективные решения. И что еще хорошо: эти люди находятся по всему миру, нам не надо снимать для них офис, не надо платить за них налоги. У нас есть контрактная работа. И для клиента это становится очень эффективным инструментом реализации своих потребностей в области анализа данных.
Был пример с одним их крупнейших ШПД-операторов наших российских, реализовали один кейс…


- Что за оператор?


-
К сожалению, когда мы начинали с ними сотрудничество, нас очень сильно загнали в NDA.
Да, специфика датамайнинга в России в том, что все о нем знают и слышали, но кейсы все скрывают, так что в будущем мы будем работать над тем, чтобы представлять полные конкретные кейсы. Сам кейс такой: выявить вероятность потери клиента. Алгоритм совершает те действия, которые совершает клиент и на основе тех данных, которые есть у оператора, говорит, что вероятность потери клиента такая-то. И при превышении такого-то значения, например, 80%, оператор должен принять какие-то меры. Был проведен тестовый пилотный процесс, были выявлены люди, которых не устраивали определенные аспекты (например, ремонтные работы рядом с домом, из-за которых связь была очень плохая). И оператор, сделав один звонок из колл-центра, спросил: «Все ли в порядке, все ли вас устраивает?» Люди отвечали, что есть вот такая-то проблема. И оператор им пояснял причины проблемы. Они отвечали, что теперь причина перебоев со связью понятна. В итоге таким маленьким действием клиент был сохранен.


- А на основе каких данных происходило прогнозирование оттока?


-
Анализируются данные: в первую очередь звонки, которые абонент совершал, и вообще весь его трафик мобильный. А в ШПД мы анализивали объем трафика, временные диапазоны, а также как часто человек заходил, как много он скачивал…


- А как можно прогнозировать, что он уйдет? На основе чего?


-
нам оператор дал данные по трафику (не сами сайты, на которые пользователи заходили, эти данные оператор не может предоставить), а когда, как часто он подключался, какой объем данных он скачивал в каждой сессии. И плюс историческую выборку клиентов, которые ушли: вот был клиент, вот он ушел. И, анализируя эти данные, наши решатели смогли создать алгоритм, который выявил закономерность в трафике, из которой стало очевидно, что формируется вероятность, что человек уйдет. У оператора есть постоянный отток клиентов, и задача была именно предсказать. Они дали нам данные по клиентам за последние 3 года. На основании этих данных мы создали алгоритм, и мы знали еще, что такие-то клиенты (без персональных данных, просто индикативно) ушли такого-то числа. И, построив алгоритм на этих данных, мы должны были спрогнозировать, какие клиенты уйдут в следующем квартале. И в этом плане мы показали очень неплохой результат, клиент оказался очень доволен, что привело к тому, что мы сейчас общаемся на тему других задач. То есть, датамайнинг позволяет спрогнозировать вероятность ухода клиента, анализируя его поведение в историческом периоде.


- В чем разница между алгоритмами в пакетных продуктах, которые поставляются нашим телеком-компаниям и алгоритмами, которые создает "Алгомост"?


-
Алгоритмы в пакетных продуктам универсальны, они созданы на типовых данных, умеют понимать общую картину, но алгоритмы, которые мы создаем, мы создаем на данных клиента. И эти алгоритмы способны понимать "менталитет" данных. А через понимание менталитета данных мы понимаем менталитет клиентов компании. То есть, мы через данные видим поведение конечных клиентов. В этом и есть главное преимущество "Алгомоста".