- Парсинг цен с сайтов конкурентов.
- Анализ контента конкурентов с наибольшими показателями вовлечённости.
- Парсинг результатов поисковой выдачи.
- Анализ SEO-стратегии конкурентов.
- Парсинг отзывов о конкурентах.
Процедура извлечения данных с веб-сайтов, также известная как парсинг, или scraping, чаще всего используется интернет-маркетологами для массовой выгрузки цен с сайтов конкурентов. Однако, парсинг также может быть полезен всем, кто занимается PPC, SEO и контент-маркетингом. Для наглядности разберём 4 способа применения парсинга, которые можно использовать для всестороннего анализа конкурентов. В качестве парсера мы воспользуемся программой Netpeak Spider.
1. Парсинг цен с сайтов конкурентов
Парсинг (извлечение) цен с сайтов конкурентов — одна из первичных задач, с которыми сталкиваются интернет-маркетологи и SEO-специалисты, работающие с Ecommerce-проектами. Процедура состоит из двух частей: поиска элемента, значение которого должно быть извлечено, а также непосредственно извлечения указанных данных. При необходимости можно ограничить область поиска (определённой категорией либо же перечнем страниц, отвечающих каким-то конкретным требованиям).
В большинстве случаев для извлечения цен вам потребуется выполнить следующие действия:
- Откройте страницу товара.
- Найдите и выделите элемент, отвечающий за цену.
- Кликните по выделенному элементу правой кнопкой мыши и выберите в контекстном меню пункт «Исследовать код».
- Перейдите к подсвеченной строке кода и кликните по ней правой кнопкой мыши и нажмите «Копировать» → «Копировать XPath».
- Запустите Netpeak Spider.
- Откройте «Настройки» → «Парсинг».
- Включите опцию «Использовать парсинг HTML данных».
- Выберите режим поиска «Xpath» и область поиска — «Внутренний текст».
- Вставьте полученный с анализируемого сайт XPath в строку поиска.
- Нажмите «ОК», чтобы сохранить настройки и закрыть окно.
- Введите URL сайта в адресной строке и запустите сканирование кнопкой «Старт».
- По окончанию сканирования откройте на боковой панели вкладку «Отчёты» → «Парсинг».
- Кликните на пункт, в котором отображается индикатор страниц с искомыми данными.
- Нажмите кнопку «Показать выбранные».
- Ознакомьтесь с отчётом в открывшемся окне и выгрузите данные парсинга, нажав кнопку «Экспорт».
Аналогичным образом можно извлекать любую информацию, касающуюся товарного ассортимента, особых условий для покупателей и прочих особенностей продуктов, прописанных в карточках товаров.
Кстати, парсинг цен может пригодиться не только для сравнительного анализа, но и для составления товарного фида, необходимого для запуска контекстной рекламы: при помощи парсинга в несколько потоков вы можете быстро собрать все необходимые данные, избежав сбора информации вручную.
2. Анализ контента конкурентов наибольшими показателями вовлечённости
Разрабатывая контент в условиях высококонкурентной ниши, невозможно игнорировать действия конкурентов. Чтобы быть в курсе, какие публикации у них пользуются наибольшим спросом и обладают наибольшими показателями вовлечёности, вы можете опять-таки воспользоваться парсингом. Так вы быстро составите общую картину и выделите ключевые закономерности, которыми сможете воспользоваться для построения собственного контент-плана.
Если на сайте присутствуют открытые счётчики просмотров, лайков, репостов или комментариев, для парсинга вам следует выполнить следующие действия:
- Откройте страницу любой публикации конкурента.
- Найдите счётчик интересующего вас показателя.
- Выделите числовой показатель и кликните по нему правой кнопкой мыши. Выберите в контекстном меню пункт «Исследовать код».
- Скопируйте XPath элемента.
- По аналогии с извлечением цен настройте и запустите процедуру парсинга в Netpeak Spider.
- Выгрузите полученные данные.
3. Парсинг результатов поисковой выдачи
При помощи парсинга вы можете в автоматическом режиме получить данные о топе поисковой выдачи по тому или иному запросу — адреса, Title и Description страниц, попавших в перечень результатов поиска. Процедура строится следующим образом:
- Откройте страницу Google и введите интересующий вас запрос в поисковой строке.
-
Перейдите на страницу настроек поиска.
-
Установите нужное количество результатов на странице. Сохраните настройки и вернитесь к обновлённой странице поисковой выдачи.
- Скопируйте адрес страницы.
- Запустите Netpeak Spider.
-
В основном меню программы выберите «Список URL» → «Ввести вручную». В открывшемся окне вставьте скопированный ранее адрес.
Вы можете одновременно указать ряд URL страниц поисковой выдачи по всем интересующим вас запросам. - В меню выберите «Настройки» → «Парсинг».
- Активируйте опцию парсинга.
- Задайте соответствующие имена для потоков — Title, Description и URL.
- Для каждого из потоков выберите режим поиска «Xpath» и область поиска — «Внутренний текст».
-
Поместите в строку поиска следующие отрывки кода:
- для парсинга Title — //*[@id=»rso»]//div[1]/div/div/div/h3/a
- для парсинга Description — //*[@id=»rso»]//div[1]/div/div/div/div/div/span
- для парсинга URL — //*[@id=»rso»]//div[1]/div/div/div/h3//@href
- Не покидая окна с настройками сканирования, перейдите на вкладку «User Agent» и выберите Chrome в качестве юзер-агента.
- Перейдите на вкладку «Продвинутые» и снимите галочки со всех параметров.
- Сохраните настройки.
- На боковой панели на вкладке «Параметры» отключите все параметры, кроме тех, что указаны в пункте «Парсинг».
- Запустите сканирование кнопкой «Старт».
-
По окончанию сканирования в таблице результатов вы увидите несколько столбцов, соответствующих потокам парсинга, а в них — количество найденных значений (если всё сделано верно, то числа не будут слишком отличаться от количества результатов на странице поиска, которое вы настраивали в пункте номер 6.
-
Чтобы просмотреть результаты по каждому типу данных, перейдите к интересующему потоку (столбцу) в таблице результатов и дважды кликните левой кнопкой мыши по числовому показателю.
- Ознакомьтесь с данными парсинга в открывшейся таблице.
-
Для быстрого переключения между результатами разных потоков парсинга кликните по строке «Отчёты» и выберите подходящий.
- Для выгрузки результатов нажмите «Экспорт» и сохраните отчёт в виде таблицы.
4. Анализ SEO-стратегии конкурентов
Тестируя новые методики для улучшения поисковой оптимизации своего сайта, вы наверняка не раз заглядывали на сайты успешных конкурентов. Какие технологии они используют? Какие методики технической оптимизации привели их к текущим результатам?
В числе вопросов, на которые можно быстро, в автоматическом режиме получить ответ благодаря соответствующей настройке парсинга:
- Используют ли конкуренты определённые элементы микроразметки?
- Какие элементы микроразметки используются на страницах конкурентов с развёрнутыми сниппетами?
- Встраивают ли конкуренты медийный контент (с youtube или других площадок с видео или аудио-контентом) на страницы, к примеру, товаров?
- Какие метаданные используются на страницах сайтов-конкурентов?
Оперативно получить ответы на эти и многие другие вопросы можно, параллельно запустив в Netpeak Spider парсинг для нескольких сайтов-конкурентов.
4.1. Парсинг микроразметки
Если вы хотите узнать, используют ли ваши конкуренты некий определённый элемент микроразметки Schema, вы можете выполнить следующие действия:
- Откройте «Настройки» → «Парсинг».
- Активируйте опцию парсинга HTML данных.
- Выберите режим поиска «Содержит» и область поиска «Только текст».
- Если вам нужно убедиться в наличии конкретного элемента, вставьте в строку поиска itemprop=»name» (а месте name может быть любой другой элемент глоссария Schema);
- Если нужно увидеть всю микроразметку целиком, чтобы проверить, к примеру, корректно ли выставлен itemtype для целого сайта/раздела, воспользуйтесь режимом поиска «XPath», выставьте область поиска «Весь HTML-элемент» и в строку поиска вставьте //*[@itemtype]/@itemtype.
4.2. Поиск медийного контента
Если вы хотите выяснить, имеются ли на сайте конкурентов (и если да — какие именно) страницы со встроенным через iFrame контентом (видео с Youtube и Vimeo, аудиозаписи и плейлисты с Soundcloud, Bandcamp и т.п.), выполните следующие действия:
- Откройте «Настройки» → «Парсинг».
- Активируйте опцию парсинга HTML данных.
- Выберите режим поиска «Содержит» и область поиска — «Весь исходный код».
-
В строку поиска вставьте
- Запустите процедуру парсинга.
- По итогу сканирования выгрузите отчёт со списком страниц, на которых был найден упомянутый выше элемент.
5. Парсинг отзывов о конкурентах
В случае, если для продвижения в вашей нише особое значение имеют платформы с отзывами и рейтингами, вы наверняка следите не только за отзывами касательно своего продукта, но и за оценками, которые пользователи оставляют вашим конкурентам. Чтобы в автоматическом режиме «вытягивать» отзывы о конкурентах, вы можете воспользоваться парсингом. К примеру, чтобы настроить парсинг отзывов с платформы G2 Crowd:
- Откройте «Настройки» → «Парсинг».
- Активируйте опцию парсинга HTML данных.
- Создайте два потока поиска для выгрузки положительной и отрицательной составляющих отзывов — «Like» и «Dislike» соответственно.
- Выберите режим поиска «RegExp» и область поиска — «Весь исходный код».
- Для первого потока воспользуйтесь регулярным выражением (?
- Сохраните настройки и введите вручную список URL со страницами отзывов (всего на каждой странице размещается 6 отзывов).
- Выгрузите результаты по аналогии с методикой, описанной в параграфе 3.
Коротко о главном
Несмотря на то, что основным назначением парсинга считается извлечение цен и товарных артикулов с сайтов конкурентов, его применение не ограничивается исключительно данной задачей. При помощи процедуры парсинга, которую мы подробно описали на примере Netpeak Spider, можно решать задачи, связанные со следующими направлениями работы:
- анализ контента конкурентов;
- анализ поисковой выдачи по определённым запросам;
- анализ цен и товарного ассортимента;
- анализ отдельных аспектов SEO-стратегии конкурентов;
- выгрузка отзывов о конкурентах со специализированных платформ.
Кстати, для читателей блога Plerdy действует 10% скидка на приобретение лицензий продуктов Netpeak Software, в частности — Netpeak Spider. Для её использования задействуйте при покупке промокод 26618a85 или перейдите по этой ссылке.