В последнее время активно освещается проблема приватности пользовательских данных. Скандал с Cambridge Analytica и Facebook, внедрение GDPR, многомиллионные штрафы для Google за установку файлов cookie без ведома пользователей, обновление iOS 14 (с ограничениями трекинга) – все это оказывает давление на рекламодателей, рекламные платформы и заставляет всерьез озаботиться обеспечением приватности данных.
Компания Google разработала и активно тестирует новую технологию, которая может заменить традиционный таргетинг рекламы на основе cookie-файлов – Federated Learning of Cohorts (FLoC). В статье рассказываем, что это за технология и чего ждать рекламодателям.
Чем не угодили cookie и почему нельзя просто так взять и отказаться от них
Основная претензия к cookie-файлам – отсутствие гарантии конфиденциальности пользовательских данных. Сторонние cookie, установленные на сайтах, собирают слишком много информации о пользователях. С помощью этих данных (история поисковых запросов, просмотров страниц, заполнение полей в формах ввода данных и т. д.) можно идентифицировать конкретного человека, что является серьезной угрозой приватности.
Вместе с тем просто убрать cookie не получится – слишком многое держится на них:
рекламные системы используют cookie для ретаргетинга и поиска релевантной аудитории для показа определенных рекламных объявлений. Чем релевантнее (и эффективнее) реклама, тем больше денег получают рекламные системы от рекламодателей;
рекламодатели с помощью рекламных систем получают возможность запускать более результативные рекламные кампании (и получать больше прибыли);
сайты-издатели и вебмастеры зарабатывают на размещении рекламы. Они напрямую заинтересованы в том, чтобы реклама была выгодна рекламодателям и размещений было много.
И, наконец, сами пользователи привыкли к многим удобствам, которые обеспечивают cookie:
сохранение настроек авторизации и параметров;
юзабилити, основанное на поведении пользователя;
персонализация интерфейса, контента, рекламы.
Как использовать данные с сохранением конфиденциальности
Есть хороший пример, в котором сочетаются те же задачи, что и в вопросе с cookie, – медицина. Например, для повышения эффективности тестов на определение заболевания нужно собрать обучаемую модель. При этом:
нужно получить как можно больше данных об обследованиях пациентов;
данные должны быть обезличенные (медицинские учреждения не делятся данными конкретных пациентов из соображений конфиденциальности).
Решение этой задачи – обрабатывать данные на стороне каждого медицинского учреждения и передавать общей модели обобщенные данные (без раскрытия персональных данных отдельных пациентов).
Именно такая концепция лежит в основе Federated Learning.
Что такое Federated Learning
Google разработала и активно тестирует новую технологию — Federated Learning of Cohorts (FLoC).
Federated Learning – распределенная модель, которая использует алгоритмы машинного обучения для анализа пользовательских данных и формирования когорт. Когорта – группа обезличенных данных пользователей (браузеров) с похожими свойствами. Данные пользователей (которые могут содержать чувствительную и конфиденциальную информацию) не поступают напрямую ни в один централизованный обработчик или сервер: вычисление и назначение когорты происходит на стороне браузера.
Остальным сервисам (рекламным платформам, сайтам и т. д.) передается только идентификатор когорты, без данных, по которым можно идентифицировать отдельных пользователей.
Для справки. Еще в 2017 году Google тестировал технологию Federated Learning в приложении Gboard для Android. Когда Gboard показывает предлагаемый запрос, смартфон пользователя локально сохраняет информацию о текущем контексте и клике на предложение (или отсутствии клика). Federated Learning обрабатывает эту историю на стороне устройства и предлагает улучшения для следующей итерации модели предложений Gboard.
Для чего может применяться FLoC
Показ рекламных объявлений людям, чьи браузеры принадлежат к когорте, которой характерно определенное поведение (например, посещение сайта рекламодателя) или интерес к определенным продуктам.
Применение моделей машинного обучения для прогнозирования вероятности конверсии на основе когорты пользователя (и корректировки ставки на рекламном аукционе с использованием полученной вероятности).
Рекомендация релевантного контента пользователям.
Как работает FLoC
Разберем на примере, как работает FLoC на практике. Для понимания процесса определим трех основных участников:
рекламодатель – компания, которая хочет показать свои рекламные объявления целевой аудитории и платит за показ. В нашем примере это будет интернет-магазин обуви;
издатель – новостной сайт, который продает рекламные места (размещает у себя рекламные объявления и получает вознаграждение от рекламной системы);
рекламная система – платформа, предоставляющая инструменты для размещения рекламы.
Рассмотрим этот процесс подробнее, для примера возьмем двух пользователей, которых зовут Сергей и Антон (имена выбраны рандомно). Изначально их браузеры принадлежат к одной и той же когорте, допустим, 1354.
1. FLoC-сервис
FLoC-сервис, используемый браузером, создает математическую модель с тысячами когорт. Каждая из когорт соответствует тысячам браузеров с похожей недавней историей активности и имеет свой уникальный номер, по которому ее можно идентифицировать.
2. Браузер
Из FLoC-сервиса браузер Сергея получает данные, описывающие FLoC-модель. Браузер пользователя определяет свою когорту: для вычисления подходящей когорты используется специальный алгоритм, который соотносит браузерную историю с наиболее подходящей когортой. В нашем примере это будет когорта под номером 1354. Обратите внимание, браузер Сергея не передает никаких данных FLoC-сервису.
Точно так же браузер Антона вычисляет идентификатор своей когорты. История браузера этого пользователя отличается от истории браузера Сергея. Однако они достаточно похожи, поэтому им присваивается одинаковая когорта – 1354.
3. Взаимодействие с рекламодателем
Сергей посещает сайт рекламодателя (shoe.com).
Сайт запрашивает ID когорты браузера пользователя и получает значение 1354.
Сергей ищет кроссовки для бега.
Сайт сохраняет информацию о том, что браузер из когорты 1354 выявил интерес к беговым кроссовкам.
Позже на сайте зафиксирован дополнительный интерес к товарам со стороны когорты 1354, а также со стороны других когорт.
Время от времени сайт собирает информацию о когортах и проявленному интересу к товарам и передает ее рекламной системе.
4. Издатель – новостной ресурс news.com
Антон посещает новостной сайт news.com.
Сайт издателя запрашивает у браузера пользователя его когорту.
Затем сайт отсылает запрос рекламной системе и включает в этот запрос ID когорты браузера Антона – 1354.
5. Рекламная система
Рекламная система может подобрать подходящее для Антона рекламное объявление, основываясь на данных от издателя и рекламодателя:
когорта браузера Антона (1354) – эти данные рекламной системе передает издатель;
интересы, которые соответствуют данной когорте, передаются от рекламодателя («Браузеры из когорты под номером 1354 могут быть заинтересованы в беговых кроссовках»).
Рекламная система подбирает подходящее объявление – беговые кроссовки от shoe.com.
На сайте отображается объявление кроссовок.
Ключевая особенность такого подхода
Сейчас показ релевантных рекламных объявлений базируется на технологиях отслеживания файлов cookie и цифровых отпечатков устройств. Эти технологии используются рекламодателями для отслеживания поведения в сети отдельных пользователей.
FLoC позволяет сохранить релевантность, но без ущерба для приватности данных: браузер не делится браузерной историей ни с FLoC-сервисом, ни со сторонними службами. Браузер вычисляет подходящую когорту на стороне устройства пользователя. История браузера при этом никогда не покидает пределы устройства.
Браузерная когорта может меняться
Важно понимать принцип определения и назначения когорт. Когорта – это не группа пользователей (как привычно воспринимаются сегменты аудитории), а совокупность (кластер) схожих историй браузерной активности.
Характеристики активности каждой когорты в основном постоянны. Поэтому когорты хорошо подходят для подбора рекламных объявлений, так как объединяют схожие поведенческие характеристики. Условно, когорта 1354 будет объединять людей, заинтересованных в беговых кроссовках, сегодня, через месяц и через полгода. Только сегодня это может быть одна группа людей, а через месяц – совершенно другая.
Браузеры отдельно взятых пользователей могут переходить от когорты к когорте по мере того, как их история браузинга меняется. Ожидается, что браузер будет пересчитывать свою когорту каждые 7 дней.
В примере, который мы рассматривали выше, браузеры обоих пользователей принадлежат к одной когорте – 1354. В будущем, по мере того, как пользователи будут посещать различные сайты, их браузеры будут менять когорты, отображая изменение интересов.
На какой стадии сейчас находится технология и что ждать в ближайшее время
30 марта Google запустил тестирование технологии в браузере Chrome. Первичные тесты проводятся на небольшой группе пользователей в таких странах:
Австралия;
Бразилия;
Канада;
Индия;
Индонезия;
Япония;
Мексика;
Новая Зеландия;
Филиппины;
США.
Со временем тестирование будет расширяться и на другие регионы.
Главные вопросы к Federated Learning
Что с релевантностью рекламы?
Вопрос, который больше всего интересует рекламодателей. Они опасаются ухудшения эффективности рекламы при отказе от привычных cookie.
По заявлениям Google, беспокоиться не стоит: при тестировании FLoC Google определил, что использование новой технологии обеспечивает как минимум 95% конверсий по сравнению с использованием традиционного показа рекламы на основе cookie.
Решит ли FLoC проблему приватности пользовательских данных?
Размер когорты должен быть достаточным, чтобы сохранялась анонимность
В каждой когорте могут быть тысячи браузеров. Чем меньше размер когорты, тем более персонализированной будет реклама, но при этом уменьшится степень приватности (и наоборот).Для обеспечения анонимности пользователей в когорте Google использует обобщение данных – k-анонимность. Под термином «k-анонимность» понимается метод, который позволяет скрыть персональную информацию нескольких лиц в наборе данных, если эти лица похожи друг на друга. Если упрощенно, k – количество пользователей в группе с похожими свойствами. Чем больше это число, тем более анонимна группа и сложнее отследить отдельно взятого пользователя. Подробнее о k-анонимности можно почитать тут.
k-анонимность – не гарантия
Несмотря на заявления Google об обезличивании данных пользователей в когортах (с помощью вычисления ID когорты на стороне браузера и размера когорт), многие игроки в отрасли высказывают опасения по поводу того, что новая технология не решает проблему сохранения анонимности:
при авторизации на сайте через аккаунт Google сайт может сопоставить пользовательские данные с ID когорты FLoC – в этом случае уже нет полной обезличенности данных;
деперсонализация может быть возможной благодаря пересечению нескольких характеристик, например идентификатора когорты и IP-адреса пользователя;
также есть мнение о том, что данные все равно хранятся у Google (пусть и частично обезличенные), а это дает частной компании неоправданно широкие возможности и власть над информацией.
Чего ожидать рекламодателям и чем закончится борьба за приватность пользовательских данных
Пока FLoC все еще находится на стадии тестирования и не является окончательным вариантом – выводы делать рано. Возможно, будут рассмотрены другие альтернативы трекингу с помощью файлов cookie. Но ясно одно – все основные участники рынка (рекламодатели, рекламные платформы и издатели) заинтересованы в нахождении баланса:
между приватностью пользователей, за которую активно борются регуляторы, общественные организации и отдельные компании (привет, Apple);
и трекингом, который позволял бы сохранить возможность показывать пользователям релевантную рекламу и извлекать из этого прибыль.
Если говорить про Google, рекламный бизнес занимает львиную долю в структуре доходов корпорации и снижать его эффективность явно не входит в планы IT-гиганта. Поэтому с большой долей уверенности можно сказать, что Google приложит все усилия для поиска решения, которое удовлетворит всех (и позволит компании продолжать получать миллиарды выручки с рекламы).