Выявление спама в текстовом контенте

Реклама

Понятие «Спам» появилось еще в 40-х годах прошлого столетия, когда одна североамериканская компания пыталась сбыть огромную партию мясных консервов и размещала их рекламу практически повсеместно (общественный транспорт, уличные плакаты, перетяги, радио и печатные новостные издания). Она была настолько назойливой, что сегодня название этого продукта стало использоваться для определения избытка рекламы (в основном для текстового контента). Итак, заспамленность текста это:

  • Повышенное количество частоты вхождений в текст ключевых фраз или отдельных слов.
  • Наличие дублированного или замаскированного под уникальный текст рекламного контента.

Как правило, спам проявляется в результате некачественно проведенного рерайта первоисточника или отсутствие должных профессиональных навыков у автора, злоупотребляющего такими параметрами, как «водность» и «тошнота» в своих уникальных работах.

Роботизированные программы поисковых систем для выявления спама

Точные параметры определения спама автоматическими системами поисковых систем имеют достаточно размытые определения. Они регулярно обновляются, программное обеспечение для выявления постоянно совершенствуется. Сегодня критической заспамленностью текста считаются параметры свыше 60%. Для самостоятельного определения допустимых значений можно воспользоваться фильтрами ведущих поисковых систем:

  • Яндекс – «Переспам», «Новый» и «Баден-Баден».
  • Google – «Панда» и «Калибри».

Каждый из них имеет свои определенные преимущества и недостатки, а также уровни точности определения количества спама. Получить более подробную информацию о том, как воспользоваться данными фильтрами на практике можно с помощью информационного портала «RUSH ANALYTICS».