RSS収集・分析サイト「BLOG360」開設、ブログで話題のキーワードを表示という記事より。
集めたRSSに対しては形態素解析などを行ない、キーワードの候補を抽出。カギ括弧などにより、ブログ作者が強調したと思われるキーワードなどに対して、独自のアルゴリズムで重み付けが行なわれるという。
BLOG360では、4月からRSSの収集・分析を行っていて、累計で約35万のブログから約756万のRSSを収集しているそうです。その分析を行い、ランキングを表示するということです。
キーワードをクリックすると、キーワードについての情報を発信するブログを一覧表示するほか、関連した商品情報や広告を表示。DNPでは今後、トップページの「特集キーワード」コーナーを広告スペースとして提供することも検討する予定だ。
ブログの実態をつかむためにはRSSを収集するのが一番。ということで、がーっと集めてがーっと分析する訳ですが、個人的にはあまり使っていないんですよね。時系列で表示される場合が多いので。
でも「今日のトップ5」とか「先週のトップ5」とか、それだけでも面白いです。たった今は下記のような感じ。
今日のトップ5
ゲド戦記
W-ZERO3
あらしのよるに
第56回NHK紅白歌合戦
義経
先週のトップ5
iMac
1リットルの涙
木更津キャッツアイ
W-ZERO3
たからもの
「ああ、分かる分かる」という感じです。
収集したRSSをいかに料理するかというところが非常に重要になると思うのですが、ぜひ独自のアルゴリズムのエッセンスだけでも公開して欲しいところ。
どんな風に分析しているか分かれば、その検索エンジンの信頼度も高まるのでは、と思うのですが、やっぱり難しいでしょうかね。
■関連記事
今後、キーワード抽出ルールの見直しなどを行ってシステムの精度を高めるほか、キーワードのスコアを解析し、次に流行しそうなキーワードを抽出するといった機能強化も計画している。
▼DNP、ブログの人気キーワード抽出システムを開発-人気語句の紹介サイトも
この抽出システムは、約35万サイトのブログから発信されるRSSフィードを集め、その内容を解析することでトレンドキーワードの候補となる語句を選ぶ。こうした候補に独自アルゴリズムを適用してスコア計算し、スコア上位の語句をトレンドキーワードとして表示する。