×
Игорь Ашманов: В машинном обучении Яндекс сейчас использует 800 факторов ранжирования. За пределами верхней десятки поисковой выдачи – жизни нет

JSON.TV публикует фрагмент Интервью с Игорем Ашмановым. Смотрите полную версию видеоинтервью в разделе ВИДЕО.

 

Игорь Ашманов«Ашманов и партнёры» занимается в основном интернет-маркетингом. Я совершенно не собирался этим заниматься, у меня мыслей таких даже не было. Я собирался делать спам-фильтр для борьбы с почтовым спамом, когда открыл компанию. Я её назвал «Ашманов и партнёры», чтобы дать понять своим ребятам, которые ещё оставались в Rambler, что я намерен делиться акциями. Но как только я создал компанию, она стала видна в сети, мне начали названивать знакомые и говорить: «Когда ты был исполнительным директором в Rambler, мы же не могли к тебе прийти за советом, как продвигаться в поисковике». А когда я уволился, Rambler был по-прежнему гораздо больше Яндекса, был абсолютным лидером с трафиком всё ещё больше процентов на 30. Но Яндекс довольно быстро догонял.

 

Дело в том, что, когда наши инвесторы пали духом и продавали Rambler каждый раз всё дешевле. В Яндекс, наоборот, пришли Baring Vostok, Леонид Богуславский, и, наоборот, дали денег. Яндекс рекламировался, развивался, покупал железо, а мне этого ничего не давали. Я не мог ни серверов купить, ни рекламировать сервис, поэтому я и ушёл.

 

Стали звонить знакомые и говорить: «Так расскажи, как продвигаться?» Я съездил на одну встречу, в ресторан — угощали, уговаривали: «У тебя же нет конфликта интересов — расскажи!» Я понял, что на этом деле надо создать бизнес. Вызвал из Казани одного гениального парня, Андрея Иванова — он в своё время мне загадил весь Rambler, а также и Яндекс своими страничками, — и мы буквально за неделю заложили основу этой индустрии. Мы написали тезаурус, глоссарий предметной области, несколько основополагающих статей о том, что такое продвижение в поисковиках, и методику работы с клиентом: как продвигать и так далее. И начали брать заказы.

 

Дело пошло очень быстро. Для людей это был просто шок. Если я произносил в РОЦИТе (Российский Центр Интернет-технологий) доклад о том, что в поисковиках можно продвигаться, в зале начиналась просто какая-то вакханалия, как на сеансах Кашпировского. Люди мотали головой, плакали, смеялись, потому что все знали уже, что какая-то мощь в поисковиках есть, а что с ней делать?

 

Понимали, что это очень сильно влияет на бизнес, а как заставить поисковик влиять в нужную сторону, никто не знал. Всё было мутно. Я начал наводить резкость, протирать запотевшее стекло. Этот рынок рос очень быстро, поэтому мы стали продвигать себя как главного эксперта на рынке — такими мы и были.

 

Я всё-таки был техническим директором поисковика. Точнее, я уже был исполнительный директор с командой: у меня был ещё технический директор, контентный, автор поисковика, разработчик рейтинга топ-100 и так далее. Мы всё об этом знали. А другие маленькие оптимизаторские компании или отдельные люди, вообще говоря, о поисковиках слышали с пятого на десятое.

 

JSON.TV: Продвижение, по сути, это как расталкивание локтями стоящих в очереди? Либо и сама очередь организована поисковиками не очень логично? Цель — оказаться выше в результатах поиска, если я правильно понимаю?

 

Игорь Ашманов: Задумайтесь вот над чем: в какой-нибудь предметной области — пластиковые окна (это притча во языцех), или продажа газовых систем для автомобилей, или недвижка какая-то — верхняя десятка собирает, условно говоря, весь трафик. За пределами верхней десятки жизни нет.

 

Может быть, вторая десятка ещё как-то собирает, но уже в полтора-два раза меньше трафика, а тридцатка ещё хуже. Эта десятка всегда кем-то заполнена. Поисковик просто транслирует трафик на эти сайты, с этого трафика он не зарабатывает. Легенд вроде «Наша служба безопасности съездила в «Яндекс», договорилась, и мы теперь на первом месте» можно слышать сколько угодно — это всё лажа. Поисковик на этом не зарабатывает, и он не компрометирует себя таким образом.

 

Поисковик нельзя заставить поставить тебя на первое место ни деньгами, ни угрозами — никак. Но кто-то в любом случае будет на первых местах. С точки зрения «Яндекса», если первая десятка состоит из релевантных сайтов, которые соответствуют запросу, ему вообще всё равно, кто стоит на первом месте.

 

Он их может вообще ротировать каждый день, если бы он хотел бороться с оптимизаторами. Эти деньги, то есть этот трафик, кто-то всё равно заберёт. У поисковика, как и у любой другой платформы… Платформой я называю место, где есть большая аудитория, к которой можно дать доступ третьим лицам. Телевидение — это платформа, радио — это платформа, билборды на улицах, социальные сети. Все эти платформы имеют свои, абсолютно специфические способы привлечения аудитории, способы передачи этой аудитории третьим лицам, игрокам. Обычно есть авторизованный метод — это реклама. В «Яндексе» это контекстная реклама и медийная, контекстно-медийная с баннером. В социальных сетях тоже.

 

Есть, как правило, серая зона, в которой третьи лица сами как-то получают доступ к аудитории, а платформа смотрит на это сквозь пальцы. Есть чёрные, запрещённые. Набор этих методов постоянно живёт, дрожит, меняется. Сегодня этот метод считался чёрным, а завтра почему-то за него не наказывают. Для того чтобы продвигаться на каждой из платформ, вы должны иметь специалиста по этой платформе, который понимает, каково соотношение методов. Там есть авторизованные методы, а также среди них есть белые, чёрные и серые. Белые методы для поисковика — это сделать очень релевантный сайт, поместить в правильное место картинки, сделать крупно телефон. «Яндекс» сейчас всё это учитывает. Это то, о чём они говорят: «Делайте сайты для людей!» Белый метод – это и есть сделать сайт для людей. Серый — это, например, смекнуть, что у «Яндекса» есть, как на той рассохшейся рулетке, некие пока не признаваемые дефекты, и ими воспользоваться. Или просто закупить много ссылок, потому что «Яндекс» их любит и пока ещё за такие действия не наказывает — хотя сейчас уже наказывает — и так далее. Эту комбинацию методов может знать только специалист, потому что нужно следить за этим каждый день. Продвижение в Appstore мобильных приложений — это такое же искусство. И там свои правила и свой набор чёрных, белых и так далее методов.

 

JSON.TV: То есть платформы, никому не сообщая об этом, меняют некий набор своих критериев? И должен быть аналитик, который поймёт, что изменилось в этот момент?

 

Игорь Ашманов: Конечно. Каждый день за этим наблюдает, потому что перемены происходят ежедневно. Выкатили новый проект на «Яндексе» — всё поменялось. Или «Яндекс» начал учитывать ещё один фактор ранжирования.

 

Там сейчас 800 факторов используется в их машинном обучении. Во-первых, после того как они машинно обучились, ты вообще не можешь сказать, какая там формула релевантности, — машина сама решает. И разработчик «Яндекса» не может сказать — для него это тоже чёрный ящик.

 

Во-вторых, если они добавляют новые факторы, то ландшафт меняется, и надо вовремя сообразить, как на это реагировать. Кто не сообразил, те уезжают во вторую десятку или во вторую сотню. Поэтому ситуация такова: есть совершенно чёрные оптимизаторы, есть всякие легенды о том, что существуют, например, какие-нибудь токсические ссылки, которые позволяют опустить конкурента. Но это в основном страшилки, которые пересказывают друг другу дети. Короче говоря, существует некий бизнес-процесс слежения за поисковиком, который, в принципе, хозяин сайта, клиент может построить и сам: он может нанять оптимизатора в штат. У нас были такие случаи, когда мы довольно долго вели клиента, захватили все десятки Google, там было по 6 сайтов нашего клиента на 10 результатов. Мы даже боялись, что Google это заметит, хотя мы ничего противозаконного не делали. А потом, спустя 2 года, в течение которых он нам хорошо платил, мы по уговору просто обучили его людей: он нанял 4-х человек и продолжал уже сам.

 

JSON.TV: Кстати, «Яндекс», Google, Mail.Ru-поиск, какие есть еще, они отличаются в оптимизации?

 

Игорь Ашманов: Конечно. Это разные платформы, у каждого свои правила, свой способ. Например, те, кто работает по Google в западном Интернете или на Украине, могут совершенно не уметь работать с «Яндексом». Там что-то пересекается. Условно говоря, у тебя должен быть релевантный текст и не должно быть вирусов на странице. Или, если у тебя сайт часто лежит, все поисковики перестанут тебя любить: их робот заходит тебя проиндексировать, а сайт не работает… В общем, у всех поисковиков много специфических правил.

 

JSON.TV: Сейчас продвижение компаний смещается, наверное. По крайней мере, доля продвижения на площадках под названием «социальные сети» растёт. В чем специфика?  Насколько важна оптимизация под соцсети?

 

Игорь Ашманов: Не оптимизация — продвижение скорее. У них же нет ранжирования. Трафик-то у них есть, а результатов поиска нет. Кстати, если Вы заметили, по странной причине в социальных сетях нет поиска. Вы не можете поискать тексты в Facebook. В «ВКонтакте» тоже полноценного поиска нет. Возможно, это просто другой бизнес или очень тяжело свой поисковик разработать, но могли бы договориться. Тем не менее, Facebook не впускает к себе Google, «ВКонтакте» не впускает «Яндекс» для поиска.

 

JSON.TV: Есть люди, которые работают с разными платформами. Тот же Герман Клименко и MediaMetrics или что?

 

Игорь Ашманов: Он не работает с платформами.

 

JSON.TV: Он считает переходы из социальных сетей.

 

Игорь Ашманов: Да, но он их считает на сайтах. У него на сайтах СМИ стоит его счетчик, LiveInternet.

 

JSON.TV: То есть он не внутри соцсетей?

 

Игорь Ашманов: Ни в коем случае. Он поставил счётчики на очень многие СМИ. Когда-то LiveInternet видел почти весь Рунет. Сейчас другая эпоха, сейчас счётчики постепенно умирают. Почему? Потому что наступила эпоха Яндекс. Метрики и Google Analytics — специальных сервисов для веб-мастеров. Эти сервисы можно поставить к себе и получить статистику, аналитику по своему сайту. Они гораздо более развиты, чем такой вот счётчик, который появляется откуда-то из облака. Постепенно хозяева сайтов сносят эти счётчики. Сменился дизайн, сменился маркетинговый директор, сменился веб-мастер: «А будем ставить снова LiveInternet или ещё что-то?» Openstat там ещё есть. «А зачем? У нас же Google Analytics есть». То есть постепенно происходит размывание этих счётчиков. Эпоха счётчиков, начавшаяся с появления рамблеровского топ-100 в 1998-м году, сейчас постепенно уходит. Но Герман Клименко сделал могучее усилие. Он видит, откуда пришёл пользователь. И он начал показывать ссылки на статьи, по которым приходит больше всего пользователей социальных сетей. Это живые пользователи, которым кто-то дал в социальной сети ссылку, и они по ней щёлкнули и пришли на страницу СМИ, а там их посчитал счётчик Клименко. И он стал это показывать. В социальных сетях у него ничего нет — он просто видит этот поток. Поскольку дальше довольно многие люди стали смотреть его сервис заголовков, рейтинг заголовков статей, то он стал проецировать через MediaMetrics трафик на эти самые СМИ. То есть люди, которые читают MediaMetrics, потом переходят на эти статьи.

 

JSON.TV: С его уже сайта.

 

Игорь Ашманов: С его сайта. То есть он стал генератором трафика. А раз так, СМИ в здравом уме не будут сносить счётчик: он же им приводит людей. Здесь возник обратный ход. Наоборот, СМИ теперь считает правильным поставить счетчик MediaMetrics. Насколько это задержит размывание счётчиков и их уход со сцены, не знаю, но пока проект мне нравится: он хороший, живой, его многие смотрят.

 

JSON.TV: Интересно. Я даже не задумывался на эту тему. Вернее, задумывался, но дальше не шёл… Над тем, что нельзя осуществить поиск по соцсетям.

 

Игорь Ашманов: Мы это делаем. У нас есть компания «Крибрум», которая как раз является поисковиком по социальным сетям. Точнее, первый поисковик по блогам и соцсетям сделал Яндекс. Называется Яндекс. Блоги. Но, во-первых, он по какой-то неизвестной мне причине практически не развивается. Были разные сведения от людей из «Яндекса», что там до сих пор стоит поисковый движок 2004-го года, то есть его 10 лет никто не обновлял.

 

Агрегатор новостей Яндекс. Новости - очень посещаемый. Это одно из главных СМИ в нашей стране, как-то оправдывающее себя рекламой, поэтому им занимаются.

 

А рейтинг блогов все усыхал в функциональности. И мы тоже сделали поисковик по блогам, позволяющий анализировать их довольно глубоко. Блоги, записи в социальных сетях и так далее. Называется «Крибрум».

 

JSON.TV: Можно просто зайти и отправиться в поиск? Или как вы работаете?

 

Игорь Ашманов: Нельзя, это корпоративный продукт — то, что называется В2В. Понимаете, какая история. Что такое поисковик вообще? Поисковик при росте Интернета растёт как квадрат скорости. Почему? Если, допустим, — а такое время было — количество сайтов в Интернете увеличивается в 2 раза, то одновременно и аудитория увеличивается в 2 раза. То есть ты должен показать вдвое большей аудитории поиск по вдвое большей базе. Тебе нужно железа в 4 раза больше, людей в 4 раза больше. И так каждый год. Это очень трудно выдержать.

 

Google стал таким великим, потому что он выдержал рост — не потому, что он чудовищно релевантный. Он смог выдержать рост Интернета в 1990-х годах.

 

Кроме Брина с Пейджем, там были очень сильные люди, которые сумели побороть эту высокую нагрузку. У меня не хватает ресурсов, чтобы сделать поисковик, который я мог бы открыть всем, чтобы туда ломанулись миллионы людей, которых я мог бы обслужить. Обрабатывать огромную базу — 200 млн. аккаунтов, 50 млн. записей в день — мы можем. Но, чтобы все могли искать, у нас железа не хватит. Так как мы делаем проект на свои средства, никаких инвестиций под него пока не привлекали, это корпоративный сервис. У нас крупные и средние компании наблюдают за упоминаемостью своих брендов, продуктов, председателей правления и так далее. Мы вычисляем тональность отзывов: плохо или хорошо говорят о компании — и так далее.

 

JSON.TV: Теоретически, если деньги вкинуть, железа подкинуть, можно сделать?

 

Игорь Ашманов: Конечно. Вопрос только в том, будут ли искать, нужно ли это людям настолько, чтобы все как один пошли? Поиск вообще нужен. Это всё-таки довольно специализированная вещь и непонятная. А заказчикам из сектора крупной или средней экономики он точно нужен: они за него платят. Поэтому сейчас это В2В сервис. Я иногда рассказываю про политическую борьбу в социальных сетях и другое в том же роде, но это всё просто наши наблюдения, мы так развлекаемся. Я не получал заказа всё это исследовать. Но, когда есть свободное время, мы следим, что там ещё происходит: вбросы, атаки и так далее. Но работаем в основном для коммерческого заказчика.

 

JSON.TV: Тогда об этом ещё и поговорим, чуть-чуть времени у нас осталось. Фабрики троллей так называемых есть? Они вычисляются математически?

 

Игорь Ашманов: Да. Троллей видно. Я скажу общую вещь, она, может быть, будет полезна зрителям. Сейчас очень модно словосочетание big data — «большие данные». Что это такое? Поскольку его используют как buzzword, то есть для маркетинга, и все понимают под этим сочетанием разное или не понимают его совсем, я дам короткое определение.

 

Большие данные — это данные, собираемые, в частности, в Интернете или мобильными операторами. Они, во-первых, реально большие: их нельзя обработать вручную, одномоментно просмотреть, охватить умом. Они как бы необозримы. Во-вторых, в них сумма частей меньше, чем целое, — целое больше суммы частей. При взгляде на big data с высоты птичьего полета вы узнаете такое, чего не могли бы увидеть ни в одном фрагменте этого целого.

 

Самый простой пример: вы сидите в своем аккаунте в Facebook и видите, что кто-то написал комментарий. Поскольку ваш взгляд локализован, вы не знаете, что этот же комментарий одновременно вброшен ещё в 30 тысяч мест. А когда ты смотришь сверху и у тебя есть механизм определения дублей, сразу ясно: это вброс. Рассматривая части, этого не определишь.

 

То есть «большие данные» — необозримые данные, для понимания которых взгляд на целое гораздо важнее, чем взгляд на части. И это данные о людях, потому что только о людях интересно. Наверное, бывают интересные «большие данные» у гляциологов про ледники, но про это нам не интересно говорить. На самом деле, весь интерес всегда к людям. Это данные о людях, полученные из разных источников.

 

Как правило, они мультимедийные: тексты, видео, данные по географии, данные о передвижениях с мобильных телефонов и так далее. И это данные с ретроспективой. То есть всегда интересны данные, которые уходят вглубь времён. Почему? Если какой-то аккаунт сейчас участвует в информационной атаке, например, распространяет какую-то фальшивку, то можно, конечно, предположить, что человеку просто интересно. Но если ты знаешь, что из 100% исследованных тобой атак он в 95-ти процентах задействован, значит, скорее всего, это бот или тролль.

 

JSON.TV: Член команды.

 

Игорь Ашманов: Член команды какой-то. «Большие данные» накапливаются в социальных сетях, и там можно всё это вычислять: дубли, ботов, троллей, можно видеть, у кого какие друзья, про каждого человека можно сказать, какие у него политические пристрастия. Люди выкладывают всё, они ни о чём не думают. Программа сейчас спокойно собирает и может продавать, предъявлять и так далее тематические пристрастия, политические, на чём ездит, где отдыхает, что покупает, о чём разговаривает с друзьями, кто друзья и так далее.

 

JSON.TV: Миллион тем есть для разговора в следующий раз. Напоследок спрошу одно: Ваша супруга, Наталья Касперская, сказала, что соцсети — никогда в жизни, это как раздеться на публике или что-то в этом роде. Вы сами тоже так думаете? Это беда наша, если философски поговорить?

 

Игорь Ашманов: Зависит от степени болезни, от уровня зависимости. Очень многие люди совершенно без этого не могут. Соцсети — это пожиратель времени. Самое главное, что они довольно сильно меняют мозг: люди привыкают к клиповому мышлению, к необязательному общению, к слабым связям. Жена меня всё время побуждает бросить писать в Facebook, говорит, что от этого только вред: «Ты ссоришься с людьми».

 

JSON.TV: Там другая мысль была: все под колпаком у Мюллера, у Цукерберга, у кого угодно.

 

Игорь Ашманов: Это само собой. Но дело в том, что вы под колпаком у Мюллера, если просто используете смартфон, а также если вы вышли, а вас увидела камера. Я читал, что в Лондоне человек, который просто вышел на работу, за день попадает в поле зрения 400 камер. Весь ваш путь можно проследить.

 

На самом деле, смотрящих отовсюду сейчас очень много. В этом смысле социальных сетей можно не бояться, хотя надо понимать, что это, пожалуй, единственное место, где вы не просто перемещаетесь, а высказываете своё мнение. А поскольку в языке миллионы слов и десятки миллионов словосочетаний, то их выбором вы себя полностью разоблачаете. И про вас можно делать выводы.

 

Другое дело, что вроде бы никто их не делает, пока просто накапливают. Но, как я говорил уже не раз, если сейчас за каким-то студентом вроде бы нет никакого смысла следить, то через 15 лет он, возможно, будет управлять страной. А если есть ретроспектива, о которой я говорил, то можно, условно говоря, посадить команду из 30-ти человек, которая все это поднимет, превратит в рапорт куда надо и так далее.

 

JSON.TV: Самое последнее: обезличивание данных, которые получены мобильными операторами, вендорами и так далее — это всё фигня? По геолокации можно восстановить данные о конкретном человеке?

 

Игорь Ашманов: Представьте себе: вы заходите анонимно в сеть. У вас, во-первых, какой-то анонимный, не Ваш ник в Facebook или в «ВКонтакте». Во-вторых, у них же соединения шифрованные по HTTPS. Вы заходите по шифрованному соединению, так что никакой «человек посередине», так называемый Man in the middle (это выражение из сферы информационной безопасности) не может посмотреть, что Вы пишете. Но представьте себе, что у кого-то есть система типа «Крибрум» и данные провайдера.

 

Достаточно цепочки, скажем, в 10 дней, позволяющей сопоставить, когда вы выходили в сеть и когда в этот аккаунт писали, чтобы вас полностью идентифицировать. Это будет зависеть только от длины цепочки.

 

Пусть за 10 дней нельзя, но за 15 можно. А вы всё равно уже год пишете. Я думаю, что восстановить можно всё про всех. В этом смысле надо просто по-другому себя вести.

 

JSON.TV: Жить, как в квартире без штор?

 

Игорь Ашманов: Да, к этому, к сожалению, придётся привыкать.

 

JSON.TV: Спасибо Вам огромное за этот разговор. Напомню, Игорь Ашманов был гостем студии JSON.TV. Счастливо всем!

 

Смотрите полную версию видеоинтервью в разделе ВИДЕО