Фильтрация трафика

Существует несколько подходов к обнаружению и фильтрации нежелательных посетителей в рекламном трафике. В этой главе мы рассмотрим три основных технологии автоматической фильтрации и покажем, что делает Adspect уникальным и инновационным продуктом на рынке.

Черные списки

Это наиболее распространенный и в то же время примитивный и наивный подход. Обычно для анализа выбирается узкий набор атрибутов посетителя (IP-адрес, заголовки HTTP-запроса и т.п.) и сверяется с заранее составленным «черным» списком этих атрибутов. Совпадение означает сигнал к блокировке. Несмотря на популярность, у этого подхода есть два существенных недостатка:

  1. Черные списки никогда не являются исчерпывающими, что делает процесс их обхода тривиальным. Для обхода черных списков IP-адресов достаточно менять IP-адреса, каждый раз выбирая для проверки новый из длинного списка, как это часто и делается с помощью прокси-сервисов. Невозможно занести в черный список все, всегда останутся бреши, через которые недоброжелатели получат доступ к защищаемому контенту. Существуют целые компании, бизнес которых построен на предоставлении в аренду огромных пулов резидентских IP-адресов (т.е. выданных провайдерам домашнего Интернета), постоянно пополняемых, что делает поддержание актуального черного списка таких IP-адресов невероятно сложной, если вообще выполнимой задачей.
  2. Черные списки могут быть слишком широкими в охвате, что приводит к ложноположительным срабатываниям. Это особенно актуально для черных списков адресов IPv4. Сравнительно небольшое 32-битное адресное пространство IPv4 уже исчерпано, вынуждая Интернет-провайдеров и сотовых операторов использовать NAT для объединения целых абонентских сетей за единым общим IP-адресом. Попадание одного такого адреса в крупном мегаполисе в черный список, например по подозрению в использовании в качестве прокси (да, прокси за NAT существуют), будет означать одновременную блокировку тысяч хороших, благонадежных потенциальных посетителей.

Черные списки — это самый распространенный и зачастую единственный подход, используемый сервисами клоакинга в сфере партнерского маркетинга. Пусть и оправданный в некоторых случаях, этот подход слишком грубый и ненадежный, чтобы использовать его сам по себе. Ложноотрицательные результаты такой фильтрации — наиболее частая причина «пробива клоаки». Adspect имеет массивные встроенные черные списки IP-адресов заведомо неблагонадежных источников трафика, совокупный объем которых насчитывает порядка одного миллиарда адресов.

Сбор и анализ отпечатков

Сбор отпечатков, по аналогии с отпечатками пальцев, — это процесс сбора «машинных отпечатков» посетителей, которые их идентифицируют. Но, в отличие от совершенно уникальных отпечатков пальцев, машинные отпечатки не уникальны. В зависимости от алгоритма, они могут включать в себя разное число составляющих фактов. Некоторые факты встречаются очень часто, например строка user agent популярного браузера. Другие же факты, встречающиеся реже, примечательны тем, что встречаются только у всех тех нежелательных видов трафика, от которых мы защищаем своих клиентов. И мы в Adspect отлично знаем, что это за факты.

Анализ машинных отпечатков — это намного более продвинутая технология, которую используют крупные, ориентированные на бизнес-клиентов игроки на рынке защиты информации. Их услугами пользуются VAS-провайдеры (VAS — «value-added services», мобильный контент) для защиты wap-click-офферов от скликивания. Adspect первыми применили технологию сбора и анализа отпечатков в adtech-индустрии для защиты рекламных кампаний частных рекламодателей.

У нас имеется богатый опыт в анализе JavaScript-отпечатков — машинных отпечатков, составленных из многочисленных деталей среды исполнения JavaScript в браузерах посетителей. Собираемые нами отпечатки состоят в среднем из 1600–2200 различных фактов, которые показывают нам очень детальную картину внутреннего устройства программного обеспечения посетителей. Мы проверяем эти отпечатки десятками высокоточных тестов и безошибочно определяем нежелательный трафик. Мы считаем своей миссией принести сложные и дорогостоящие технологии из мира корпоративной защиты данных в мир партнерского маркетинга.

Машинное обучение

Машинное обучение (ML) — это широкий термин, в общем случае обозначающий алгоритмы обучения компьютеров для того, чтобы в дальнейшем использовать полученные ими знания для выполнения конкретной задачи. В плане защиты рекламного трафика машинное обучение может использоваться для оценки каждого отдельного клика с целью понять, целевой это посетитель или кто-то нежелательный. В научной среде это называется задачей классификации. И при условии наличия достаточного объема данных для обучения эта задача решается с очень высокой точностью.

Машинное обучение оказалось идеальным инструментом анализа отпечатков с их огромным набором составляющих их фактов. Adspect использует собственную технологию машинного обучения VLA™, которая постоянно обучается и точно распознает нежелательных посетителей далеко за рамками тех проверок, которые мы изначально в нее заложили. Более подробное описание технологии вы можете найти в главе о VLA.

Машинное обучение пока остается «высшей математикой», которую применяют лишь немногие из лидеров рынка корпоративных антифрод-систем. Adspect является первой компанией, применившей машинное обучение для решения проблем безопасности в сфере партнерского маркетинга и рекламных технологий.

Наш подход

Adspect использует все три описанных подхода совместно, не полагаясь целиком на какой-то один из них. Мы не держим все яйца в одной корзине. Это позволяет нам принимать точные решения с наименьшими ложноположительными и ложноотрицательными результатами. Мы твердо уверены в том, что детальные машинные отпечатки и их анализ алгоритмами машинного обучения будут играть ключевую роль в новых adtech-проектах, направленных на защиту рекламного трафика, благодаря огромному потенциалу обеих технологий, особенно когда они применяются совместно.