Парсер запросов яндекс. Работаем с Yandex Wordstat. Как правильно парсить в Вордстат: обзор программ для анализа поисковой выдачи

Простой и бесплатный пример PHP парсера (parser) статистики ключевых слов с wordstat Яндекс.

Понятно, что перед тем как продвигать сайт, нужно определиться с ключевиками. это не сложный, но кропотливый труд. Для того же чтоб найти что-то стоящее, нужно перелопатить кучу данных. Поэтому здесь не обойтись без средств автоматизации процесса. В данной заметке я хочу остановиться на создании PHP парсера данных с wordstat Яндекс.

И так. Основная проблема при парсинге данных с сервиса статистики ключевых слов wordstat Яндекс заключается в наличии капчи. Обойти ее не так уж и сложно. Достаточно передать в запросе куку fuid01, генерируемую при обработки капчи. Другими словами, вам понадобится зайти на сервис, сделать запрос, указав символы с картинки и получить содержание требуемой куки.

Как получить содержание куки fuid01 в браузере Firefox?

Т.к. я не собираюсь замахиваться на эпосы и прочие великие труды человечества, то опишу лишь процесс получения содержания куки fuid01 в браузере Firefox (использую версию 8.0). В общем, запускаем Firefox. Считаем, что запрос в wordstat уже сделан и кука создана. Жмем кнопку «Firefox» в левом верхнем углу окна браузера. В меню выбираем: Настройки > Настройки (я ничего не путаю).

В открывшемся окне «Настройки», переходим на вкладку «Приватность». Здесь нас интересует блок «История». Выбираем в списке Firefox «будет использовать ваши настройки хранения истории» и жмем появившуюся кнопку «Показать куки…».

В окне «Куки», в поле «Поиск» введите имя интересующей нас куки, т.е. «fuid01». В списке должно отобразиться найденное. Выберите одну из предложенных кук и в поле информации, выделите и скопируйте ее «Содержимое».

Как работать с PHP парсером wordstat Яндекс

Бесплатно скачать PHP парсер wordstat Яндекс можно здесь . Сразу скажу, что это лишь пример, работа которого заключается в парсинге ключевых слов и выводе их на экран, но все по порядку.

Первое, что вам надо понять – все данные представлены в кодировке UTF-8. Так что если что не забудьте сконвертировать данные. Более того, на некоторых серверах с этим может возникнуть проблема, подробней . Следующий нюанс заключается в том, что для работы скрипта понадобится поддержка . В остальном все достаточно просто.

Содержание куки fuid01 мы присваиваем переменной $fuid01 . По сути, это значение задается в curl_setopt() через CURLOPT_COOKIE , но для удобства я вывел его отдельно. Далее нас интересует массив $params — это переменные, передаваемые в запросе к wordstat Яндекс. В качестве примера я ограничился простейшим вариантом, так что обошлось без динамики. В частности, парсится только первая страница выдачи: "page" => 1 , значение text получается через GET, ну а для региона выбрана Москва : "geo" => 1 .

Понятно, что идентификатор региона, в случае если нужен другой, придется уточнять. Для этого заходим на wordstat Яндекс, кликаем ссылку «Уточнить регион…» и выбираем требуемое.

Сделав запрос, в URL надо посмотреть значение требуемого параметра. Следует отметить, что если выбрано более одного региона, их идентификаторы будут перечислены через запятую.

Дальше идет запрос к сервису статистики и парсинг данных wordstat Яндекс. Последнее имеет один небольшой нюанс. Дело в том, что wordstat Яндекс выводит статистику в виде двух таблиц: «что искали со словом…» и «что еще искали люди, искавшие…» — я же использовал только первую. Впрочем, там нет ничего сложного. Регулярные выражения достаточно простые. Думаю, разберетесь. Удачи!

Узнать частотности Wordstat можно вручную, но это долго и неудобно. Для ускорения работы есть парсеры: десктопные программы, расширения для браузеров, облачные сервисы и скрипты. Все они похожи - есть лишь отличия в нюансах работы. Собственный появился и в системе PromoPult. Разбираемся, как он работает и чем он лучше аналогов.

Основные возможности Парсера Wordstat в PromoPult:

  • массовая проверка частотностей из левой колонки Wordstat для указанных фраз;
  • загрузка фраз списком или с помощью файла XLSX;
  • возможность парсить частотность в любом регионе Яндекса;
  • учет типа соответствия при парсинге (операторы «фраза «, «!фраза » и [фраза ]);
  • сохранение всех отчетов «в облаке».

Особенности сервиса:

  • неограниченное количество поисковых запросов при проверке за один раз;
  • сбор частотностей онлайн - не нужно устанавливать софт;
  • не нужно создавать фейковые аккаунты в Яндексе специально для парсинга или рисковать собственными аккаунтами;
  • не нужно использовать прокси-серверы и вводить капчу;
  • суммирование в отчете частотностей по указанным регионам или разбивка по каждому региону;
  • высокая скорость парсинга;
  • удобный для последующей обработки отчет в формате XLSX.

Немного теории: зачем знать частотности ключевиков?

Основная причина, по которой собирают частотности, - прогнозирование трафика . Зная, сколько раз пользователи интересовались определенной фразой, можно примерно рассчитать, сколько сайт получит переходов, если займет N-ую позицию в поиске.

Как это работает на практике:

  • вы сформировали список ключевых фраз, по которым планируете продвигаться;
  • для фразы, по которой планируете оценить трафик, определяете частотность (например, «купить тахту в Москве » - 2852);
  • узнаете значения CTR в зависимости от позиции в поиске (приблизительные данные о распределении CTR можно найти в открытых источниках, но если у вас сайт работает хотя бы несколько месяцев, то более точные данные доступны в отчете «Поисковые запросы» / «История запросов» / показатель: «CTR на позициях, %»);
  • составляете прогноз трафика для ТОП-10 (для этого умножаете частотность на CTR и делите на 100 %; допустим, если CTR 2-3 позиции составляет 25 %, то прогнозный трафик при достижении этой позиции равен: 2852*25/100 = 713).

Вторая причина собирать частотности - отсеивание «мусорных» фраз . Это фразы, частотность которых стремится к нулю, и их нет смысла включать на существующие страницы (и тем более создавать под них новые страницы).

Какие именно фразы считать «мусорными» ? Здесь все зависит от тематики. Например, если тематика узкая, трафика мало (например, по ключам «покупка аппарата МРТ » или «ремонт Vertu »), и каждый пользователь на вес золота, то можно оставлять и фразы с частотностью 1. Для магазинов масс-маркета отсеивают запросы с частотностью ниже 5. А для информационных сайтов частотность 10-20 вполне может быть нижним пределом. Главное, не переусердствуйте с удалением лишних фраз, иначе есть риск потерять трафик по низкочастотным запросам, который порой составляет до 70-80 % от общего трафика.

Еще одна причина уточнить частотности - выстраивание иерархии запросов на странице . Более частотные запросы добавляют в Title и H1, а под менее частотные - формируют разделы и подразделы.

Продвигать сайт на автомате? С модулем SEO от PromoPult это реально! Внутренняя оптимизация, линкбилдинг, наполнение контентом - все это автоматизируется в пару кликов. Вам лишь остается контролировать результат. Готовы? !

) Для работы парсера SE::Yandex::WordStat необходимы аккаунты Яндекс. Аккаунты можно зарегистрировать с помощью парсера или просто добавить существующие аккаунты в файл files/SE-Yandex/accounts.txt в формате:

[email protected];password
[email protected];password2
...

Нажмите, чтобы раскрыть...

Собираемые данные(top)

  • Количество показов по указанному запросу
  • Дату обновления статистики
  • Список всех кейвордов связанных с указанным и число их показов в месяц
  • Список всех дополнительных кейвордов которые искали пользователи и число их показов в месяц

Возможности(top)

  • Парсит максимальное отдаваемое вордстатом число результатов - 40 страниц по 50 элементов выдачи
  • Поддерживает выбор региона поиска(с подгруппами)
  • Может автоматически подставлять найденные кейворды заново в запросы(опция Parse to level)
  • Возможность выбора сразу нескольких регионов для оценки
  • Возможность обхода каптчи с помощью сервиса AntiCaptcha или любого другого поддерживающего их API

Варианты использования(top)

  • Оценка количества трафика по кейворду(частота)
  • Поиск новых ключевых слов схожей тематики
  • Сбор больших баз ключевых слов разной тематики
  • Любые другие варианты подразумевающие парсинг Яндекс.WordStat в том или ином виде

Запросы(top)

  • В качестве запросов необходимо указывать ключевые слова, точно так же как если бы их вводили прямо в форму поиска Вордстата, например:

окна москва
"окна москва"
!окна!москва

Нажмите, чтобы раскрыть...

Результаты(top)

  • В результате отображен исходный запрос, число его показов, дата обновления статистики, список связанных кейвордов и их показы в месяц, список дополнительных кейвордов и их показы в месяц

Окна!москва - 10368, updated: 16/05/2013
keywords:
окна москва: 32367
пластиковые окна москва: 8994
окна пвх москва: 4813
купить окна москва: 2561
окна цены москва: 1706
москва работа окна: 1547
вакансии окна москва: 1187
деревянные окна москва: 1087
служба +одного окна москва: 1021
...
additional keywords:
производство окон пвх: 8512
окна rehau: 15686
окна salamander: 1576
окна kbe: 3798
окна кбе: 6089
окна кве: 3227
остекление балконов: 83216
беседки: 471213
остекление лоджий: 26366
офисные перегородки: 18740
монтаж окон: 26223
...

Нажмите, чтобы раскрыть...

Возможные настройки(top)

Параметр Значение по умолчанию Описание
Pages count 10 Количество страниц для парсинга
Region All Регион поиска
Remove + from keywords Удалять символ плюса (+) из найденных запросов
Use AntiGate Определяет использовать ли AntiGate для обхода каптч
AntiGate preset default Необходимо предварительно настроить парсер Util::AntiGate - указать свой ключ доступа и другие параметры, после чего выбрать созданный пресет здесь
AntiGate preset for Login default Пресет AntiGate для логина. Необходимо предварительно настроить парсер Util::AntiGate с параметрами, после чего выбрать созданный пресет здесь
Use Accounts
First sleep 50 Задержка после первого запроса при использовании AntiGate для экономии каптч
Use session Сохраняет хорошие сессии для дальнейшего использования
Mobile only Получать статистику только для мобильного трафика
Remove bad accounts Автоматическое удаление аккаунтов с неверным логин/паролем или требующих подтверждения по телефону

Самое первое, что потребуется выяснить: что такое парсить. Возможно, Вы знаете это определение, а даже если и нет, понять будет легко. Парсить (Parsing) – значит собирать информацию из какого-либо источника с последующей обработкой данных. Если говорить о частных случаях, парсинг в seo (по-другому парсинг поисковой выдачи) – это сбор и анализ статистики запросов пользователей.

Поисковые системы тоже используют парсинг. Так, поисковые роботы парсят, анализируя веб-страницы и занося информацию о них в базу данных поисковиков.

Яндекс.Вордстат – сервис очень полезный в seo. Но работать с ним возможно только при наличии аккаунта Яндекс. Он позволяет подбирать ключевые слова на основе запросов пользователей, чтобы далее составить из них семантическое ядро.

Первым делом, необходимо определить тематику. Что Вы продаете? Какие услуги Вы предоставляете? Определив свою тематику и что будете запрашивать, можно начинать пользоваться Вордстат.

В строку поиска вводите свой запрос. И расширяете его с помощью выданных результатов.

Результаты формируются в две колонки. Цифра рядом с запросом – прогнозируемое количество показов в месяц, которое можно получить, выбрав понравившийся запрос ключевой фразой. Прогноз идет за последние 30 дней до даты обновления статистики.

Можно настроить, чтобы выдача показывалась по регионам. Если Вы предоставляете услуги только в Москве, выберите вкладку «Все регионы» (она находится чуть ниже поисковой строки) и настройте под себя.

В левой колонке все фразы со словами Вашего запроса, и слова в ней отсортированы по убыванию частоты показов. Вам важно сразу выделить те варианты расширенных ключей, которые будут являться для вашего проекта целевыми. Целевые - это те запросы, по которым пользователь, вводящий запрос в поисковую систему, может найти нужное ему на Вашем сайте. Целевые фразы будут более низкочастотными, и пользователи, пришедшие по ним с выдачи, смогут найти то, что хотели, а значит не покинут Ваш сайт сразу. Вам важны эти посетители, ведь именно они могут совершить целевое действие – купить товар или заказать услугу.

Проверьте выбранные фразы – исключите те, у которых частотность близка к нулю. Для этого используйте оператор “ “ (Кавычки).

После чего переходите к правой колонке.

В правой колонке показываются запросы, похожие на Ваши. Собрав нужное, не забудьте проверить фразы оператором “ “ (Кавычки).

Набрав достаточное количество ключевых фраз, Вы приступаете к следующему этапу: делите фразы по частотности. На этом Ваша работа с Вордстатом завершена.

По некоторым ключевым словам Вордстат выдает неправильную информацию. Как же ее проверить? Перейдите на вкладку «История запросов» и обратите внимание на статистику.

Показания статистики представлены в 2-х графиках: абсолютное и относительное.

Абсолютный показатель – это фактическое значение показов в разные периоды времени. А относительный показатель – это отношение показов по интересующему запросу к общему числу показов в сети. Он демонстрирует популярность запроса среди всех других.

Если график относительного значения выше абсолютного, то, может быть, идет автоматическая накрутка запроса, или интерес к запросу выше нормы. Возможно, это связано с сезоном. Так спрос на лыжи выше зимой.

Процесс парсинга можно автоматизировать. В этом случае возможно использование не только платных и бесплатных программ, но и расширений для браузера.

1. Расширение для браузера Yandex Wordstat Assistant. Устанавливаете его в браузер, и при работе с Яндекс.Вордстат слева появится панель, в которую вы сможете собрать понравившиеся ключевые слова.

2. Key Collector – программа платная, но высокофункциональная.

  • В настройках есть вкладка «Yandex.Wordstat». Перейдя на нее, Вы сможете установить глубину парсинга. Так можно собрать большее число ключей. Но рекомендуется ставить 0, чтобы не увеличивать время. А ключи можно расширить и другим способом, а времени на их собирание уйдет меньше. Максимальное количество страниц для парсинга в Yandex.Wordstat равно 40. На каждой странице при этом находится до 50 фраз. Таким образом, максимальное количество результатов по одной фразе в Вордстат – 2000. И если Вы хотите собрать больше данных, Вам нужно расширить входной список слов, добавив уточняющие слова. Например, не просто «капуста», а «цветная капуста», «производство капусты» и т.д.;

Один из наиболее популярных модулей в Rush Analytics – парсер Яндекс Вордстат, и это не случайно. При сборе семантического ядра необходимо точно знать частотность собранных запросов, чтобы правильно расставить приоритеты по продвижению и избавится от «мусорных» и нулевых запросов. Часто стоит задача пробить несколько десятков тысяч запросов на частотность в Яндексе, но это не совсем простая задача для самописных парсеров Вордстата и десктопных программ, и вот почему:

  1. Yandex Wordstat имеет хорошую защиту от парсинга, например бан IP-адресов с которых осуществляется парсинг и выбрасывание капчи в ответ на запросы от ботов. Чтобы эффективно собирать данные с Wordstat, нужен эффективный алгоритм подключения IP-адресов и другие хитрости
  2. Для парсинга большого количества данных с помощью десктопных программ понадобится много IP-адресов (прокси), которые Яндекс с легкостью банит при неоптимальном алгоритме подключения, а прокси – удовольствие недешевое
  3. Так же для парсинга понадобится автоматическое введение большого количества капчи (например подключение Antigate для этой задачи). Данный фактор, при неоптимальном алгоритме парсинга, может сделать сам парсинг нерентабельным, так как стоимость капчи будет чрезмерно высока
  4. Большинство десктопных программ не имеют защиты от потери данных при сборе. Так, например, собрав половину данных и потратив на это деньги, при сбое в парсере, вы рискуете не только не получить оставшиеся данные, но и потерять уже собранные

Парсинг Яндекс Вордстат в Rush Analytics

Учитывая все трудности которые могут возникнуть при парсинге Вордстата, мы сделали свой парсер Wordstat максимально быстрым, удобным и устойчивым к максимальному количеству проблем, связанных с парсингом:

  • Никаких прокси и капчи! Вам больше не нужно думать о бане ваших прокси или огромном количестве капчи, которую выдает Яндекс. Просто создайте проект, загрузите ключевые слова и ждите готовый файл с результатом
  • Высокая скорость парсинга. Наши алгоритмы используют оптимальную схему подключения IP-адресов и другие хитрости, чтобы сделать скорость парсинга феноменально высокой – вы и не заметите, как ваш проект будет выполнен!
  • Сохранность данных. Создавая проект в нашем парсере, вы можете быть уверены, что он будет успешно завершен и доступен для скачивания в любое время и из любой точки мира – все данные хранятся в облаке!
  • Поддержка всех регионов Яндекса. У многих пользователей есть потребность определять частотность запросов в Яндексе не только по региону «Москва» или «Россия», но и по другим, включая «Украину» и «Беларусь». В Rush Analytics вы сможете определить частотность запросов по любому региону, который поддерживает Яндекс на данный момент.
  • Сбор всех частотностей. С помощью нашего парсера вы сможете собрать все частотности: поисковый запрос, «поисковый запрос», «!поисковый!запрос».

  • Сбор левой колонки Wordstat. Помимо проверки частотности запросов, доступен сбор ключевых слов из левой колонки Wordstat с настройкой глубины парсинга от одной страницы до сбора всех имеющих в левой колонке страниц.
  • Сбор правой колонки Wordstat. Доступен сбор ключевых слов из правой колонки Wordstat.

Если вам нужен скоростной сбор частотностей Яндекс Wordstat – Rush Analytics лучшее решение, особенно если вам нужно собирать большие объемы данных. Для пользователей с потребностью сбора боле 100 000 запросов в месяц предусмотрены индивидуальные условия, просто напишите в нашу поддержку на