Отправить заявку на SEO-продвижение сайта от Ant-Team.ru

Заказать

Как Google использует отличительные характеристики сайтов для классификации по параметрам E-A-T (компетентности и авторитетности)

Билл Славски, эксперт по патентам Google, рассказывает об интересном патенте, часть которого посвящена E-A-T. Речь идет об использовании отличительных параметров сайтов для классификации по компетентности и авторитетности (WEBSITE REPRESENTATION VECTOR).

Мы не знаем, применяет ли Google этот патент. Но то, что заявка на него была подана в том же месяце, когда вышло обновление основного алгоритма Medic Update, заставляет присмотреться к нему внимательнее.

Перевод статьи с портала gofish digital.com.

КЛАССИФИКАЦИЯ САЙТОВ

Google сообщил, что для классификации сайтов на основе обнаруженных признаков могут использоваться Website Representation Vectors (векторы представления).

Эта патентная заявка Google была подана в августе 2018 года и опубликована во Всемирной организации интеллектуальной собственности (ВОИС).

В патентной заявке речь идет о нейронных сетях, которые помогают выявить закономерности и признаки веб-сайтов для их дальнейшей классификации.

Эта система классификации веб-сайтов предполагает «схематическое отображение данных, например вектор, который служит для классификации веб-сайтов в определенной области знаний».

Речь идет о таких темах, как здоровье, финансы и другие. Сайты, согласно классификации отнесенные к определенным областям знаний, могут иметь преимущество в поисковой выдаче, поскольку они напрямую соответствуют запросу.

Эта классификация может быть более разнообразной, чем деление сайтов по областям знаний. Патент предлагает следующую систему:

Классификация веб-сайтов может включать первую категорию сайтов, созданных экспертами, например врачами, вторую категорию сайтов, созданных учениками, например студентами-медиками, и третью категорию сайтов, созданных авторами-непрофессионалами.

Мне вспоминаются дискуссии в SEO-сообществе, разгоревшиеся по поводу Руководства для асессоров Google и параметров E-A-T (компетентность, авторитетность и надежность). В Руководстве идет речь о сайтах, посвященных здравоохранению, с разным уровнем E-A-T, что очень похоже на классификацию из патентной заявки Google:

Медицинский контент с высоким уровнем E-A-T может быть написан или составлен только людьми или организациями с соответствующей медицинской компетенцией или аккредитацией. Вся информация должна быть представлена в профессиональном стиле, а также регулярно редактироваться, анализироваться и обновляться.

В Руководстве говорится о сайтах, созданных обычными людьми, не обладающими высоким уровнем компетентности:

Иногда обычные люди могут обладать достаточным опытом в тех сферах, которые мы относим к категории YMYL («Кошелек или жизнь»). Например, есть форумы и страницы поддержки для людей с конкретными заболеваниями. Обмен личным опытом также относится к демонстрации компетентности. Рассмотрим этот пример.
Здесь участники форума рассказывают, как долго их близким удалось прожить с раком печени. Это пример обмена личным опытом (где они являются экспертами), а не медицинских рекомендаций. Конкретная медицинская информация и советы (а не описания жизненного опыта) должны поступать от врачей или других медицинских работников.

Сайты о здоровье классифицируются по уровню экспертности авторов и делятся на три типа, где авторы являются либо экспертами, либо учениками, либо непрофессионалами.

Классификация основана на разных уровнях компетентности. В то же время патент говорит о том, что страницы ранжируются на основе авторитетности, однако о надежности при этом речь не идет. Таким образом, нельзя утверждать, что ранжирование сайтов происходит полностью на основе E-A-T факторов Google. Процесс охватывает только два параметра E-A-T, поэтому он может лишь частично соответствовать целям Руководства для асессоров Google. Это позволяет асессорам оценивать сайты, которые хорошо ранжируются благодаря высокому уровню авторитетности и компетентности.

Кроме того, если этот процесс ограничивает количество сайтов в результатах поиска в зависимости от той или иной области знаний, это означает, что Google выполняет поиск по меньшему количеству сайтов, чем представлено в индексе. Давайте рассмотрим этот процесс более подробно.

Итак, сайты классифицируются по определенным областям знаний, а затем делятся на разные уровни. При этом происходят следующие действия:

  • Получение информации об отличительных характеристиках сайта и их показателях качества по сравнению с другими сайтами.
  • Классификация первой группы сайтов (по крайней мере одного ресурса), показатели качества которых ниже первого порогового значения.
  • Классификация второй группы сайтов (по крайней мере одного), показатели качества которых выше второго порогового значения. Эти сайты выбираются из числа ресурсов, показатели которых находятся выше первого порогового значения.
  • Формирование первой схемы представления данных сайтов первой группы.
  • Формирование второй схемы представления данных сайтов второй группы.
  • Получение данных другого веб-сайта.
  • Определение различий между первой схемой представления данных и характеристиками сайта.
  • Определение различий между второй схемой представления данных и характеристиками сайта.
  • Отнесение другого веб-сайта в первую, вторую или третью группу (если не подходит по критериям для первой и второй) на основе этих различий.

Рисунок 1. Процесс классификации

ЗАПРОСЫ В ОПРЕДЕЛЕННЫХ ОБЛАСТЯХ ЗНАНИЙ

Патентная заявка сообщает, что процесс использует термины из запроса, чтобы понять, к какой области знаний он относится.

Пользователи могут искать ответы в конкретных областях знаний. Процесс включает:

  • Генерацию предварительно обработанных ответов на будущие запросы из авторитетных источников данных.
  • Получение запроса, относящегося к конкретной области знаний, после генерации предварительно обработанных ответов.
  • Использование одного из предварительно обработанных ответов на тот или иной запрос.

ПРЕИМУЩЕСТВА ТАКОГО ПОДХОДА

Поисковая система может выбирать и/или искать данные только для сайтов с определенной классификацией, тем самым снижая вычислительную нагрузку. Это позволяет:

  • Уменьшить объем хранилища данных для потенциальных результатов поиска. Например, может потребоваться только хранилище данных для сайтов с определенной классификацией.
  • Сократить количество сайтов, анализируемых поисковой системой, например, ограничив поиск сайтами с определенной классификацией.
  • Уменьшить пропускную способность сети, которая используется для предоставления результатов поиска.
  • Устранить потенциальные проблемы с более ранними системами. Например, высокие требования к пропускной способности, памяти, циклам процессора, мощности или их комбинациям.
  • Улучшить страницы результатов поиска, включая в них только сайты с определенной классификацией (например, согласно качеству ресурса).
  • Использовать характеристики, полученные на существующих сайтах, для классификации ранее невидимых сайтов без необходимости вводить данные пользователя.
  • Выявить сайты, наиболее подходящие для запросов, например более авторитетные ресурсы, путем классификации ранее невидимых сайтов.
  • Использовать схему представления данных на основе существующих классификаций сайтов. Это значит, что для классификации используются не только характеристики, напрямую воспринимаемые пользователем, но и полученные в ходе анализа сайта.

Обратите внимание, что речь идет о поиске и выявлении авторитетных сайтов, посвященных различным областям знаний.

Информация о патентной заявке Website Representation Vector:

Номер публикации: WO2020033805
Заявители: GOOGLE LLC
Изобретатели: Yevgen Tsykynovskyy
Номер публикации: WO/2020/033805
Дата подачи: 10 августа 2018 г.
Дата публикации: 13 февраля 2020 г.

Аннотация: «Методы, системы и средства, включая компьютерные программы, закодированные на компьютерных носителях данных, для использования отображения данных о сайтах с целью создания и/или хранения результатов поиска. Один из методов включает в себя получение данных, представляющих каждый сайт в первом множестве сайтов, связанных с первой из множества областей знаний и отнесенных к первой классификации; получение данных, представляющих каждый сайт во втором множестве сайтов, связанных с первой областью знаний и отнесенных ко второй классификации; создание первой схемы отображения данных первого множества сайтов; создание второй схемы отображения данных второго множества сайтов; получение данных о третьем сайте; определение различий между первой схемой отображения данных и характеристиками сайта; определение различий между второй схемой отображения данных и характеристиками сайтов; и на основе этих различий классификация третьего сайта».

КАК МОЖНО ИСПОЛЬЗОВАТЬ ДАННЫЕ ИЗ СИСТЕМЫ КЛАССИФИКАЦИИ

Поисковая система может использовать данные классификации отличительных признаков сайтов при выдаче результатов поиска.

Эта система классификации использует данные о каждом из множества сайтов — от A до N, чтобы определить их принадлежность к тому или иному классу.

Choosing Features

Рисунок 2. Данные процесса классификации

Поисковая система использует классификацию для запроса, чтобы выбрать категорию сайтов, принадлежащих к аналогичному или похожему классу.

Далее система выдает результаты поиска по данной категории сайтов.

Классификация этих сайтов проводится на основе их признаков.

КАК СОЗДАЮТСЯ КЛАССИФИКАЦИИ САЙТОВ

Этот раздел патента меня наиболее заинтересовал.

Он начинается с сообщения, что система классификации отличительных особенностей сайтов может использовать любой подходящий метод для создания классификаций, что обеспечивает большую гибкость Google.

Далее мы переходим к более подробным сведениям, а именно, что классификация может основываться на контенте сайтов, который используется для создания схем отображения данных.

Этот контент может включать:

  • текст на сайте;
  • изображения на сайте;
  • другой контент сайта, например ссылки;
  • их комбинации.

Далее в патенте подробно описана работа нейронной сети:

Система классификации использует векторное отображение контента сайта A для создания схемы представления данных о сайте A. Например, система классификации может использовать нейронную сеть, которая создает векторное отображение признаков A сайта A, используя в качестве входных данных контент ресурса.

МЕТКИ, ИСПОЛЬЗУЕМЫЕ ПРИ КЛАССИФИКАЦИИ САЙТОВ

При классификации сайтов могут использоваться метки. Итак, важно помнить, что метки могут:

  • быть буквенно-цифровыми, цифровыми или буквенными знаками, символами или их комбинациями;
  • указывать на тип организации, которой принадлежит данный сайт, например некоммерческая или коммерческая;
  • указывать на тематику сайта, например искусственный интеллект или образование;
  • указывать на уровень экспертности автора контента, например врач, студент-медик или непрофессионал.

Также могут использоваться прочие показатели, отражающие классификацию сайтов.

Показатели классификации:

  • Используются, чтобы соответствовать различным пороговым значениям той или иной категории.
  • Могут иметь свою специфику в той или иной области знаний.
  • Нужны, чтобы классифицировать сайт для охвата более чем одной области знаний.
  • Применяются, чтобы выбрать сайты, отвечающие на несколько запросов в рамках определенной области знаний.
  • Используются с авторитетностью соответствующего сайта в конкретной области знаний.
  •  Применяются в различных комбинациях.

Входные данные, используемые для классификации сайтов, могут включать:

  • Положение определенных слов относительно друг друга. Например, слово «искусственный» обычно находится рядом со словом «интеллект».
  • Конкретные фразы, используемые на сайте.
  • Показатели различия или сходства (то есть сходство между соответствующей классификацией и другим сайтом) для каждой из классификаций A-B.
  • Наиболее схожую классификацию A-B.
  • Классификацию A-B с наибольшим показателем сходства или наименьшим расстоянием между вектором прочих признаков и соответствующим усредненным вектором признаков A-B.
  • Соотношение между двумя показателями сходства для классификации другого сайта.

В этом патенте предусмотрено несколько других способов просмотра входных данных в процессе классификации.

Показатели качества, указывающие на классификацию сайта, могут быть следующими:

  • авторитетность;
  • соответствие конкретной области знаний и оперативная актуализация информации;
  • другое свойство сайта;
  • их комбинации.

ВЫВОДЫ О ДАННОМ ПОДХОДЕ К КЛАССИФИКАЦИИ САЙТОВ

  • Сайты можно классифицировать на основе текста, изображений и внутренних ссылок.
  • Показатели качества классифицированных сайтов могут указывать на авторитетность или соответствие сайта конкретной области знаний с быстрым обновлением информации, или на обе метрики одновременно.
  • Метки, используемые для классификации сайтов, могут включать информацию об организации, стоящей за сайтом, о тематике, которой посвящен сайт, и уровне экспертности автора, создавшего сайт.
  • Сайт может быть отнесен к нескольким областям знаний.

Дополнение от автора

Мне задали несколько вопросов об этом патенте, а также указали на некоторые моменты, которые я хотел бы затронуть.

1. Обновление Medic (так его назвал блогер Барри Шварц в августе 2018 года, поскольку оно повлияло на медицинские сайты) также затронуло и сайты других тематик. В патентной заявке, поданной в августе 2018 года, отмечается, что оно охватывает целый ряд отраслей, в том числе сайты, посвященные здравоохранению и искусственному интеллекту. В документе приводятся примеры авторов статей на сайтах, посвященных здоровью. Это могут быть врачи (эксперты), студенты-медики (ученики) и обычные люди (неспециалисты). В целях наглядности я попросил графического дизайнера из Go Fish Digital изобразить все три категории.

Рисунок 3. Категории

Патент Google распространяется на разные отрасли и разный уровень компетенции авторов. Я намеренно выбрал иллюстрацию с примером из медицинской сферы, поскольку, на мой взгляд, она очень точно отражает суть.

2. Показатели качества. Патент подробно разъясняет, как можно дополнительно классифицировать сайты в зависимости от того, соответствуют ли они пороговым значениям показателей качества. В патенте нет конкретного определения, что такое «показатель качества», но Google выпустил несколько документов, раскрывающих эту тему. Вот, например, отличная статья о том, каким должен быть качественный сайт, написанная Амитом Сингалом (Amit Singhal) для блога Google: More guidance on building high-quality sites.

3. Ранжирование результатов. Меня спросили, как сайты могут ранжироваться в соответствии с новым патентом. Запросы, связанные с определенной областью знаний (охватывающие определенные темы), могут выдавать рейтинг сайтов, которые, согласно классификации, относятся к этой области. Например, запрос «симптомы мононуклеоза» будет классифицирован как медицинский, и лучший ответ пользователь найдет именно на медицинском сайте. Патент также сообщает, что одна из его целей — ограничивать возможные результаты выдачи, основываясь на соответствующей отрасли, компетентности и пороговых показателях качества. Затем эти страницы будут ранжироваться согласно показателям релевантности и авторитетности:

0024] Результаты поиска ранжируются на основе показателей найденных ресурсов, таких как показатель поиска информации (IR), и возможно также отдельное ранжирование каждого ресурса относительно других ресурсов (например, оценка авторитетности). Результаты поиска будут упорядочены согласно этим показателям и представлены пользователю.

Автор: Билл Славски

P.s. Подписывайтесь на наш телеграм-канал t.me/seoantteam, чтобы первыми узнавать о выходе новых материалов. Мы публикуем только полезный контент, например, о причинах падения трафика или показателях посещаемости сайта