Как проходит день сотрудника GOOGLE по борьбе со спамом? Как он принимает решение об обновлении каких-то частей поискового алгоритма? рассказывает Мэтт Каттс.
В группе Google Webspam есть как инженеры, так и специалисты по ручной борьбе со спамом. Я немного расскажу об обеих этих категориях.
Как проходит ваш день, если вы работаете специалистом по ручной борьбе со спамом? Я сам немало занимался ручной борьбой со спамом, расскажу в общих чертах об этой работе. Обычно это сочетание реагирующего и упреждающего подходов к спаму.
Реагирующий подход - это когда мы получаем сообщение о спаме или каким-то другим образом узнаём, что кто-то спамит в Google. Мы должны на это отреагировать, должны понять, как это исправить. Так что значительная часть ежедневной работы - просто следить, чтобы спамеры не проникли в выдачу и не испортили людям впечатление от поиска. Это, конечно, не рукопашный бой, это определение, что спам, а что нет, а также поиск спама, который попал в верхние страницы выдачи. В процессе этого лучшие борцы со спамом отслеживают тенденции, типовые сценарии этого спама и переходят к упреждающим действиям.
Упреждающие действия - это когда мы анализируем, как спамным страницам удается так высоко ранжироваться, через какие лазейки они проникают в выдачу, и как нам бороться с корнем этой проблемы. И это очень интересное занятие. Иногда оно включает взаимодействие с инженерами: возможно, они могут что-то подрегулировать, внести небольшие поправки в алгоритм. Иногда задача заключается лишь в определении методов, которыми пользуется спамер. А иногда - только в том, чтобы найти конкретного спамера и «поймать его за руку».
Теперь поговорим о работе инженеров. Это тоже очень интересная работа: они тоже отслеживают данные, тоже сравнивают образцы спама, но в среднем они большую часть времени заняты программированием и тестированием каких-то идей. Вы пишете алгоритм, который, по вашему мнению, сможет остановить какой-то конкретный вид спама, - не существует такого алгоритма, который был бы способен отсеять все возможные категории спама. Например, «Пингвин» хорошо справляется с одним или даже несколькими видами спама, но он не направлен, скажем, против хакерских сайтов.
Таким образом, инженер может работать над точным распознаванием хакерских сайтов. Он определяет наиболее подходящие для этого способы, ищет различные сигналы, которые в этом помогут. Он пишет алгоритм, призванный «выловить» как можно больше хакерских сайтов, одновременно не затрагивая «невинные» сайты. А потом он всё это тестирует, пропускает через нашу выдачу или проводит эксперимент с рейтингами URL, смотрит, стало ли лучше. И часто это - или даже эксперименты с трафиком в реальном времени, когда мы смотрим, на что люди кликают, а на что нет - позволяет отсеять ложноположительные результаты, когда в фильтр попадают сайты, которые не должны были туда попасть, или наоборот.
Так что значительная часть повседневной работы группы Google Webspam состоит в попытках усовершенствовать эти алгоритмы, увеличить точность нашего восприятия, отфильтровать как можно больше спамных сайтов и не навредить тем, кто, по нашему мнению, ни в чем не виновен.
Это интересные и сложные задачи, они во многом состоят из отслеживания новых тенденций: какие появляются новые виды спама. Эти данные поступают и от инженеров, и от специалистов по ручной борьбе со спамом, и из внешнего мира, и из фидбека внутри Google - есть и другие инженеры, которые могут пожаловаться на проблемы с поисковой выдачей.
Что касается следующего вопроса - как принимаются решения об обновлении каких-то частей алгоритма - мы постоянно возвращаемся назад, перепроверяем всё и спрашиваем себя: «Эффективен ли всё ещё этот алгоритм? Необходим ли он сегодня, учитывая новые данные?». Наши группы по контролю качества и информации постоянно пересматривают исходные данные, постоянно спрашивают себя: «Если бы мы начали заново, выбрали бы мы этот способ или какой-то другой? Что больше не работает, устарело или не может использоваться в сегодняшних реалиях? Что можно было бы сделать удачнее?».
Мы стараемся не просто расставлять сети на разные виды спама, мы стараемся выработать алгоритмы, которые бы постоянно отсеивали спам, учимся определять новые разновидности спама по мере их появления. Это сложная работа, потому что в сети действительно очень много спама, и всегда есть люди, генерирующие всё новый и новый спам. Но эта работа приносит большое удовлетворение, потому что вы стараетесь сделать что-то хорошее, что-то важное для людей. И это очень напряженный умственный труд. Это не как с синонимами, когда вы сделали что-то хорошо и можете идти домой отдыхать. Синонимы не меняются. Или меняются, но очень медленно. А спам очень динамичен, за какую-нибудь неделю картина может сильно измениться, могут измениться и наши приоритеты.
Это очень интересно. В начале каждого года мы точно знаем, над чем хотим работать. Но в конце года, оглядываясь назад, мы иногда понимаем, что на самом деле занимались чем-то совсем другим. Во многом это объясняется тем, что мы реагируем на определенные действия спамеров или на фидбек и жалобы пользователей.
Что же касается среднестатистического дня - у нас не бывает совершенно обычных дней, каждый день хоть немного, но отличается от остальных. Сегодня, например, нам пришлось развенчивать одну теорию заговора. Один человек написал: «Меня зовут так-то и так-то, и Google меня не находит, когда я ввожу в поиск свое имя. А всё потому, что я когда-то критиковал Google». И хотя мы слишком заняты, чтобы заниматься такими вещами, мы, тем не менее, стараемся развеивать такие заблуждения, выяснять, в чем на самом деле проблема; может, что-то сломалось, тогда мы это чиним.
И от кого бы ни поступали жалобы - от тех, кто критикует Google, или от дружелюбно настроенных пользователей, или от самих сотрудников Google - мы стараемся всякий раз выяснять суть проблемы и что-то делать, чтобы люди остались довольны. Так что да, это очень интересно.
Что касается тех элементов алгоритма, которые мы никогда из него не уберем… Я мог бы сказать, что это такие ключевые элементы, как разделение между рекламой и естественной выдачей или отсутствие преимуществ в плане рейтинга у тех, кто покупает рекламу. Есть несколько основных принципов, которые нам бы никогда не хотелось ставить под вопрос. Но в то же время всё остальное в поисковом алгоритме вполне может быть пересмотрено. Если вы придумали более простой, чистый и эффективный способ что-то сделать, конечно же, надо пользоваться этим способом, а не старым. Поэтому мы стараемся постоянно возвращаться назад и пересматривать свои решения, улучшать и упрощать архитектуру алгоритма.
Это тоже очень интересно и требует недюжинного ума. Наверно, спамеры не переведутся никогда, так что у нас надолго еще хватит работы. Но в то же время мы стараемся смотреть в корень проблемы. Мы не хотим играть со спамерами в игру «Поймай крота». Вместо этого мы стараемся понять, как им удается злоупотреблять интернетом, личными данными пользователей, программным обеспечением или нашей системой ранжирования. Мы стараемся отыскать эти «дыры» и заткнуть их, чтобы никто уже не мог ими воспользоваться, а не только этот конкретный спамер.
Да, это очень интересно. В нашей команде много замечательных людей со всего мира, которые борются со спамом. Я очень благодарен, что они это делают - и делают очень хорошо.