Спамеры, парсинг и яндекс директ. Парсинг гостевух как на ладони.
11 12 2007Парсинг, парсинг, парсинг из глины я слепил….
(по мотивам народной песни)

Не знаю уж на сколько жив спам. Но спамеры живы уж точно. Тема парсинга гостевых книг, форумов и прочих злачных мест жива как никогда. Заглянул я давеча в яндекс директ. И дернул же меня черт набрать в нем слово url. Такое ощущение, что все пионеры советского союза достали парсеры и парсят, парсят, парсят…
О чем это я? Ах, да! Парсинг как массовое явление. Заходим в яндекс директ и набираем…. набираем… для начала набираем inurl как наиболее общее слова в запросах для парсинга. Что же мы видим? А видим мы цифру 18647635. Прилично правда? Вот так вот парсинг ненавязчиво обогнал секс в десять раз! Смотрим дальше inurl php. И что пытались найти? Ладно дальше. guestbooks inurl guestbook 2889749 раз. Парсинг, как я понимаю, широким фронтом. Все гостевухи мира завоюем мы. Ну да ладно не гостевухами едиными. Вот, например, nurl comment большем чем пол миллиона раз. Парсинг комментариев к статьям. как я понимаю. А вот это - inurl board cgi уже видимо парсинг форумов. Ну тут послабее и трехсот тысяч запросов нету. inurl blogs - парсинг сам не знаю чего. Видать опять комментарии ищут. inurl minibbs cgi log - нестандартный подход. Видать парсер занять нечем было.
А вообще интересная статистика по парсингу вытанцовывается. Вот новички толпами бегают по форумам и ищут где бы набрать базу признаков для парсинга гостевых книг и форумов. А ведь все уже найдено для нас. Только по запросу inurl в директе аж 25 страниц признаков для парсинга. Причем уже со статистикой. Парсинг по каким признаком популярен и заезжен, а по каким еще нет. А ведь кроме inurl можно еще много чего у яндекс директа спросить. Парсинг доступный каждому, понимаешь.
На закуску самое интересное. Понятно, что парсинг непосредственно по тем запросам, что дает яндекс директ не имеет смысла. Там еще нужно правильно расставить знаки препинания. Всякие двоеточия и прочие символы. Но! Даже расставив правильно недостающие символы, в том же яндексе по этим запросам мы практически ничего не найдем. Бесполезно натравливать свой парсер на яндекс. Однако, эти же запросы в гугле дают много интересной и полезной информации. То бишь берем запросы в яндекс директе и делаем по ним парсинг выдачи гугла. А теперь внимание вопрос: Каким образом запросы, по которым ничего не находится в яндексе, но замечательно ищется в гугле, оказались в яндекс директе? Да еще в таком количестве? У меня есть две рабочие гипотезы. И обе заставляют задуматься.
Вот так. Начал за парсинг, а закончил за …. не парсинг.
Банановый рай всегда с вами.
Удачи!






Да уж, сам только что посмотрел и был поражен =)
inurl php = 6081980 показов
порно = 6523301
Почти одинаково!
Спамеры не дремлют! Они парсят, парсят гугла! и срут в гостевых…
Кликнул (по запросу из директа) в гуглопоиске на первый попавшийся сайт и получил такую вот засранную помйоку: tlt.ru/articles.php?n=1562686
Все это достаточно неточные показатели количетства запросов от профи парсеров. Например, тот же inurl банится достаточно быстро.
По поводу вашего вопроса. Ответ очень простой, вы даже представить не можете насколько. Толпа недооптимизаторов покупают себе тучу парсеров (и у меня в том числе - http://parse.com.ua), которые умеют отгребать резы из большинства актуальных поисковиков и по большой глупости натравливают парсеры на Яндекс с модификаторами для Гугла. Такое себе побочное дейтсвие :)