Продолжаем обзор программной части конференции Baltic Digital Days, которая уже в пятый раз проходит в Калининграде. Секцию «SEO в Европе и США» продолжил доклад Олега Саламахи, founder Serpstat, на тему «Текстовая аналитика».
Прежде всего, спикер напомнил слушателям о том, что в сервисе недавно появилась текстовая выгрузка и кластеризация, при помощи которой специально для доклада на BDD 2017 удалось сделать несколько выгрузок для выдачи США.
Традиционно SEO-специалистов волнуют следующие вопросы:
1. Сколько раз нужно «поспамить фразой»?
2. Как правильно спамить?
3. Какой размер текста нужно разместить на странице?
4. Как найти LSI-фразы?
5. Как проверить воду в тексте?
Озвучив эти вопросы, Олег пообещал дать исчерпывающие ответы на них, но немного не в том ключе, как этого обычно ожидают. На самом деле, однозначного и четкого ответа на этот вопрос нет – правильнее всего рассматривать определенные диапазоны показателей. Этот подход в математике носит название «Правило трех сигм» («three-sigma rule» или «68–95–99 rule»).
Вот почему имеет смысл применять статистический подход к ответу на перечисленные выше вопросы. С этой целью нужно:
1. Построить распределение метрик своих конкурентов в выдаче.
2. Исключить аномалии отсечением хвостов по «правилу трех сигм» (анализируя тем самым 68, 95 или 99% выборки). Это позволит убрать из рекомендации «Титанов», которые могут позволить себе слабую релевантность или переспам.
3. Составить рекомендационную базу, содержащую:
диапазон релевантности ключу;
диапазон приемлемой длины текста;
список LSI-слов и вероятностей их употребления конкурентами.
Что это значит для SEO-специалиста: если у вас есть определенный показатель, то нужно стараться, чтобы показатели не выходили за пределы данного диапазона. Максимальное отклонение – плюс-минус 30% от заданного числа.
В следующей части доклада спикер показал, как работает данное правило на примере разных выборок.
Релевантность
Что касается спамности (релевантности или тошнотности), то однозначного ответа на вопрос о том, сколько раз можно употребить конкретное слово в тексте, нет и не может быть. В каждой тематике, в каждом тексте и даже в каждом срезе будет свой ответ на этот вопрос. Однако, зная формулу релевантности, можно найти правильный ответ. Так, например, в компании Serpstat используют модифицированный алгоритм ВМ25, который способен учитывать немного больше факторов. В настоящее время данная возможность для клиентов включена в текстовый анализатор. В этом случае можно контролировать, насколько вы отходите от этой релевантности. При этом важно помнить, что диапазон попадания в нужные параметры колеблется в пределах 30% от среднего значения релевантности в ТОП по запросу. Это дает странице возможность на некоторое время оказаться в ТОПе. Также важно помнить, что помимо текстового ранжирования на нахождение сайта в ТОПе влияет масса других факторов.
Итак, SEO-специалисту не стоит забывать о том, что:
нужно контролировать переспам;
контролировать страницы с низкой релевантностью;
число в любой из формул ничего не значит, показатели необходимо сравнивать с конкурентами в тематике;
из-за большого количества факторов, невозможно провести reverse engineering;
нужны «веса слов».
Продолжая исследовать тему, специалисты Serpstat взяли выборку из нескольких тысяч запросов и нескольких десятков тысяч URL-ов, которые находятся в ТОП-10 выдачи. Посчитали среднюю релевантность в ТОП-10 по каждой фразе и разницу между средним значением и значением каждой страницы.
Графики распределения релевантности по коммерческим и информационным запросам получились следующими:
Как видно, показатели для основных сайтов по коммерческим запросам находятся в пределах обозначенных ранее 20–30%.
Важно отметить, что западном сегменте поисковая система гораздо лучше понимает текст, а в текстовых факторах используются не вхождения, а синонимы, связанные с тематикой. Здесь текстовая релевантность не играет столь большого значения. При этом нужно следить, чтобы показатель не уходил в крайнюю правую область графика. То есть важно избегать переспама.
В целом в западной выдаче лучше ранжируются статьи, в которых не только текст, но и дополнительные полезные пользователю элементы: видео, таблицы, карты и другие.
Выводы:
1. Релевантность в ТОПе сконцентрирована возле среднего значения (в Рунете намного больше аномалий).
2. Сколько нужно вхождений: +/- 30% от средней релевантности в ТОПе.
3. Следить за переспамом можно с помощью % отклонения от среднего показателя в ТОПе.
4. В информационной̆ тематике дисперсия релевантности больше, чем в коммерческой̆, т.е. следить стоит больше за коммерческими запросами.
Аномалии в релевантности
Всегда интересно следить за сайтами, которые входят в ТОП выдачи, однако у них наблюдаются некоторые аномалии в релевантности. Чтобы выявить закономерности, был произведен анализ выдачи в регионе США для более чем 10 тысяч страниц. Анализировали выдачу по высокочастотным и среднечастотным фразам. Цель: найти в ТОПе сайты с низкой текстовой релевантностью (то есть сайты, которые не входят в средний процент).
Результаты оказались вполне закономерными, среди подобных сайтов:
YouTube/wiki/quora
Трастовые большие ресурсы bbc/forbes/amazon/newegg.com
Каталоги
Категория товаров без текста: https://losangeles.craigslist.org/search/mcy
Далее возникает вопрос, как наполнить страницу с релевантной тематикой и как понять, что нужно изменить странице? Ответом может стать статистический анализ сайтов конкурентов, которые уже находятся в ТОПе.
Однако и тут могут возникать проблемы:
Как спарсить «чистый» текст со всех страниц из ТОПа (без «шапок», комментариев и прочих блоков).
Нужно ли использовать все страницы в выдаче для анализа (поиск своей тематики и анализ конкурентов из этой группы).
Какие именно слова советовать (какие слова важны). СПОЙЛЕР: простой фильтр стоп слов в данном случае не поможет.
Еще одним значимым аспектом продвижения в Google является использование слов из вектора тематики. Что касается поиска тематических слов автоматизированным способом, то здесь формула, казалось бы, проста:
Значимые слова у конкурентов – Слова, которые уже есть у нас = Рекомендации
Но на самом деле здесь также присутствует определенная сложность. Прежде всего, это такие негативные явления, как:
При анализе конкурентов в выдаче всегда проявляется шум: брендовые фразы, стоп-слова.
В SERP несколько интентов. Это явление ярко выражено в США.
Страницы в одном кластере на разных языках.
Страницы разных тематик в одном кластере.
Анализ только текстовой составляющей (без навигации, хлебных крошек и т.п.).
В качестве решения можно использовать CF-TF-IDF ранжирование:
CF – как часто слово встречается в тематике.
TF – встречаемость в каждом тексте из тематики.
IDF – информативность слова [контролирует стоп слова].
Вывод: лучше всего использовать не переспам, а другие ключевые слова из тематики.
Далее на основе статистического анализа строят выводы.
Чтобы проверить теорию, в Serpstat проанализировали несколько сотен кластеров запросов, разделили эти кластеры на два типа:
1. для обучения;
2. для проверки.
Проверили сколько рекомендованных слов содержит вторая выборка. Результат получился следующим:
Также проанализировали по информационным запросам – там больше значимых слов и их больше используют непосредственно в текстах страниц:
Чтобы написать качественные тексты, которые будут хорошо ранжироваться в Google, необходимо использовать значимые слова. Но здесь есть важная деталь: при сборе запросов формируется несколько тематик и нельзя конкурировать со всеми этими тематиками. Соответственно, надо выбирать тематику, которая наиболее подходит под вашу страницу. Serpstat использует алгоритм автоматического определения тематики вашего сайта и строит рекомендации, исходя из тематики страницы и тематик, представленных в ТОПе.
Для тех, кто интересуется вопросом, какой должна быть средняя длина текстового блока для коммерческих и информационных запросов, докладчик привел следующие результаты выборки по 10 тысячам сайтов.
Завершая свой доклад, Олег Саламаха поделился ссылками на полезные либы для работы с текстами. Они будут полезны тем, кто занимается автоматизированной разработкой:
Парсинг текста — breadability — https://github.com/bookieio/breadability
Классификатор языка — https://github.com/saffsd/langid.py