ブログ検索とコミュニティ抽出

昨日までの話の続き。
ブログの検索と言えば「Technorati(テクノラティ)」というものが有名ですが、ここではAuthorityという数値が出てきます。これは何でしょうか?それ以外でもブログの分析では、どのようなことを世間でしているのでしょうか?

少し調べた結果です。まとまりはゼロです。

Authority

Authority(権威)という単語を、Technoratiではテクノラティジャパン ヘルプ:オーソリティとは?によると被リンク数として扱っています。

そもそもが、ブログ検索では、十年一日に「このサイトがいいサイトですよ」などと検索するのはナンセンスでして、「今、旬の話題」を抽出することが目的ですから、特に最近のリンクに注目する必要があります。

Kleinbergの考え方「HubとAuthority」

さて、このAuthorityという語はKleinbergの論文に出て以来利用されており、HITSアルゴリズムの両輪の一つでもあります。ここでは単純に「被リンク数」という形で扱ってはいません。その後Kumurがこれをコミュニティの抽出に用いることを提唱しました。(完全二部グラフを抽出する。)

「そんな古い論文…」というほど古典ですが、この論文では「ウェブの世界は『Hub』というリンクサイトと『Authority』という参照されるコンテンツサイトから成り立っている」と考えました。当時は良質なリンク集というのがあって、そこからコンテンツのあるサイトが参照されていた…かな?そうだったかもしれません。

ここの考え方は「良質なAuthorityサイトとは、良質なHubサイトからリンクされているものである」「良質なHubサイトとは、良質なAuthorityサイトをリンクしているものである」というものです。

ブログ単体を検索する場合には、ブログはHubであり、Authorityであるでしょうから、このようなリンクを分離した考え方がそのままブログ検索に有効なのかどうかは疑問です。だから、Technoratiでは使っていないのではないでしょうか?当然、試すことは行ったはずです。

ブログコミュニティ

ブログからコミュニティを抽出しようという試みもあります。これが、私の興味ある分野です。

利用されている単語を抽出して、そこから算出するという試みも多いのですが、こういうオントロジーのようなものは、深みにはまりそうでなおかつ私は全くの無知です。

それと別個に、リンク関係から抽出していくという考え方もあります。
広島市立大学の高木さんによるブログユーザ空間からの頻出なコミュニティ抽出法というものがあります。リンクから生成される頻出部分グラフをLCM法によって算出し、クラスタリングしてコミュニティを分類するのだそうです。その後、「ブログユーザ空間からの重複を許した頻出コミュニティ抽出法」というのも出ております。改良されているようです。

東京大学の谷口さんはBlogコミュニティの抽出と分析という研究会資料(第6回セマンティックウェブとオントロジー研究会より)を出しております。これは、リンク関係から算出するという先人の試みを、とりあえずブログに適用してみましたというものです。この資料の参考文献にあるものは、私も読んだものが多い気がいたします。流れが簡潔にまとめられていて過去の復習をしている私には大変ありがたいものでした。

Community structure in social and biological networksという論文はどちらからも参照されておりますが、これを用いて、クラスタリングを行う、すなわち、弱いつながりを切って、コミュニティの境界を判定しています。

思ったよりも少ない?

何となく感じたことは、「思ったよりも論文が少ないな」ということです。日本人研究者があまり着目していないのか、私が金を払って検索していないので、見つかりにくいのか、そもそもこの分野はものにならないと判断されているのか。

日本でも何十人という研究者が日夜励んでいる分野なのかと思っておりました。

もう少し調べてみてから、自分の興味対象を絞り込んでみたいと思います。