増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除という記事より。
ライブドアは10月10日、「livedoorブログ検索」に、検索結果にスパムブログを表示しない技術を実装した。スパムブログを自動判定する技術を新開発。従来、検索結果の半分ほどスパムだったが、新技術でスパムの約9割が表示されなくなったという。
ライブドアが「livedoorブログ検索」で、スパムブログを表示しなくする技術を実装し、スパムの約9割を表示しなくすることに成功したそうです。
ちなみに、スパムブログは、
アフィリエイト収入を得たり、特定のサイトへ誘導することを目的に、専用ツールを使って自動生成された、内容の伴わないブログ。
と定義されています。
従来は目視と簡単なプログラムを使ってスパムを排除していたのですが、この度、新技術を社内の共通スパムフィルター「スパムちゃんぷるー」に搭載し、ブログ検索に実装したそうです。
詳細は非公開ですが、10種類ほどのフィルタリングシステムを用いてスパムブログを判定しているということです。
同社が事前に行ったテストによると、スパムブログを取りこぼした割合は9.7%、スパムブログではないのにスパムと誤判定した割合は1.8%。
けっこうな精度でスパムブログを判定することができるのですね。
スパムブログに関する情報を公開したり、他社と交換するといったことも積極的に進めていきたい考えだ。ニフティとはスパム判定に関する情報を交換しているという。
いや、本当にこのあたりは是非とも情報交換をしてもらって、より精度を高めて頂けたらと思います。
ブログ検索で「ネタフル」をキーワードにRSSフィードを取得しているのですが、スパムだらけという程ではないですが、やっぱりいろいろとやるもんだなぁ、と思いますね。