Полный список сигналов для автозаполнения в Google Chrome
Google Chrome использует модель машинного обучения для автозаполнения в адресной строке. Эта модель, вероятно, является многослойным персептроном (MLP), обрабатывающим множество входных сигналов для предсказания и ранжирования предложений.
Входные функции
История просмотров пользователя
- log_visit_count: Логарифмическое количество посещений пользователем URL.
- log_typed_count: Логарифмическое количество раз, когда URL был введен в адресной строке.
- log_shortcut_visit_count: Логарифмическое количество посещений URL через ярлык на рабочем столе.
- elapsed_time_last_visit_days: Количество дней, прошедших с момента последнего посещения URL.
- log_elapsed_time_last_visit_secs: Логарифмическое количество секунд, прошедших с момента последнего посещения URL.
- elapsed_time_last_shortcut_visit_days: Количество дней, прошедших с момента последнего посещения URL через ярлык на рабочем столе.
- log_elapsed_time_last_shortcut_visit_sec: Логарифмическое количество секунд, прошедших с момента последнего посещения URL через ярлык на рабочем столе.
- num_bookmarks_of_url: Количество закладок, связанных с URL.
- shortest_shortcut_len: Длина самого короткого ярлыка на рабочем столе для URL.
Характеристики Веб-сайта
- length_of_url: Длина строки URL.
Характеристики Соответствия
- total_title_match_length: Общая длина совпадений между вводом пользователя и заголовком веб-сайта.
- total_bookmark_title_match_length: Общая длина совпадений между вводом пользователя и заголовками закладок для URL.
- total_host_match_length: Общая длина совпадений между вводом пользователя и хостом URL.
- total_path_match_length: Общая длина совпадений между вводом пользователя и путем URL.
- total_query_or_ref_match_length: Общая длина совпадений между вводом пользователя и запросом или реферальными частями URL.
- first_url_match_position: Позиция первого совпадения между вводом пользователя и URL.
- first_bookmark_title_match_position: Позиция первого совпадения между вводом пользователя и заголовками закладок для URL.
- host_match_at_word_boundary: Логический индикатор того, совпадает ли хост на границе слова.
- has_non_scheme_www_match: Логический индикатор того, происходит ли совпадение без учета схемы (http/https) или префикса "www".
- is_host_only: Логический индикатор того, совпадает ли ввод пользователя только с хостом.
Обработка модели
Эти функции поступают в нейронную сеть. Архитектура сети, включая конкретные слои и веса, определяется в файле модели.
Выходные данные
Модель выдает предсказательную оценку (float32[-1,1]), представляющую релевантность каждого потенциального предложения автозаполнения. Эта оценка используется для ранжирования предложений, с более высокими оценками, расположенными выше в выпадающем списке адресной строки.
Архитектура модели
- Входной Слой: 20 входных функций, каждая представлена отдельным узлом (например, elapsed_time_last_shortcut_visit_days, log_visit_count, total_title_match_length).
- Слой Конкатенации: Все 20 входных функций объединяются вдоль оси 1, образуя единый тензор формы ? x 20. "?" указывает на переменный размер пакета.
- Плотный Слой (FullyConnected):Веса: Форма 64 x 20, что предполагает наличие 64 нейронов в этом слое. Веса квантованы как int8 для эффективности.Смещение: Форма 64, смещающий термин для каждого нейрона.Функция Активации: ReLU (Rectified Linear Unit).Квантование: Применяется асимметричное квантование входных данных.
- Плотный Слой (FullyConnected):Веса: Форма 1 x 64, ведущая к одному выходному нейрону.Смещение: Форма 1, смещающий термин для выходного нейрона.Логистический Слой: Вероятно, представляет собой сигмовидную функцию активации, применяемую к выходу предыдущего плотного слоя, что дает значение между 0 и 1.
- Выходной Слой: Один выходной узел ("сигмовидный") представляющий предсказательную оценку.
Ключевые наблюдения
- Простая Архитектура: Модель состоит из двух скрытых плотных слоев с активацией ReLU и финальной сигмовидной активацией для выхода.
- Квантование: Модель использует квантование для уменьшения размера и улучшения производительности, применяя int8 веса для первого плотного слоя.
- Инженерия Функций: Входные функции представляют собой комбинацию сырых значений и инженерных функций (например, логарифмические преобразования, длины совпадений, логические индикаторы).
Дэн Петрович, управляющий директор DEJAN, - самое известное имя в Австралии в области поисковой оптимизации. Дэн - веб-автор, новатор и признанный оратор на мероприятиях поисковой индустрии.
Александр Дружный, SEO-специалист. Аудит, Консультация, Оптимизация, Продвижение сайтов.