ツイッターを用いたイベント検出に関する学術研究の一覧 #Twitter4J
最終更新日:2013/02/27
※ツイッター分析シリーズの目次はこちら。
※イベントツイート地図はこちら。
ツイッターに関する学術研究は主にウェブマイニングという分野の1つとして進められています。
ここではツイッターを用いたイベント検出(抽出)に関する学術研究とその基礎となるツイート内容やブログに関する学術研究のうち、てぃーが読んでおもしろかったものを列記してみます。(一部は有料です。)
コメントは全部入れるとは限りませんが参考にしてみてください。
随時更新・整理していきます。
ツイッターを用いたイベント検出に関する学術研究
東日本大震災時のTwitter データを用いた単語間の関係の時系列変化の分析
EMD(Earth Mover's Distance)を用いてTwitterのツイートに出現する単語の出現頻度の時間的変化の類似性を判定、さらに単語出現頻度のヒストグラムに対してウィンドウを設定し、単語間の関連性を分析。具体的には東日本大震災発生前後の約3億ツイートから頻度上位の「地震」「原発」の関連語とその単語間の関係の時系列変化から現実の事件や議論にTwitterがどのような影響を受けたかを分析した。形態素解析はMeCabを用いているが標準辞書に加えて「はてなキーワード」から作成した辞書を用いた点や「地震」と「原発」の単語の出現の違いがおもしろい。
Earthquake Shakes Twitter Users:Real-time Event Detection by Social Sensors
Twitterを用いたリアルタイムイベント検出・位置推定及びその他の取り組みについて(USTREAM)
SVM(サポートベクターマシン)を使って5000ツイート(正解不正解半分ごと)を機械学習。ツイートの減少は指数関数的に減少するからフィッティングできる。→何分間にいくつツイートが来たら何%の確率でイベントが発生したかが分かる。地名が付いているツイートが多いのでそこからより厳密に緯度経度を取得すればより精度の向上が見込める。
Twitterを用いた実世界ローカルイベント検出
位置情報ありのツイートのみが対象。ツイートからどの場所でどのようなローカルイベントがあるかを検出する。事前の機械学習はなし。
Twitter ハッシュタグを用いた類似イベント検索
ハッシュタグに対する類似イベントを示すハッシュタグを発見する手法を提案。
マイクロブログのメッセージを用いた発信場所推定
事前の機械学習により、位置情報(GeoLocation、場所を特定できるワード)がないツイートに対してその発信場所を推定する。
位置情報付きツイートからのイベント検出手法の提案
(1)位置情報付きツイートの収集とイベント候補地検出(ツイートの密集地点を検出することでイベント候補地を検出する)、(2)位置情報なしイベント関連ツイート収集(ランドマーク名を検索キーワードとして位置情報なしツイートを検索し、候補地に対する関連ツイートを収集、(3)イベント地点の同定(位置情報サービス及びイベント候補地のツイートに重要度の高いキーワードがない場合を除く)、(4)イベント内容の推定(同定したイベント地点に対し、イベント内容を表す単語を付与する)
Twitterを用いたテレビ番組からのイベント検出及びラベル付与手法
テレビ番組放送中に投稿された関連ツイートを収集し、投稿数が急増している時間帯を重要シーンとして自動的に検出する。急増する投稿数の判定は"Tweet the debates"による。次に重要シーンで発生したツイートから特徴的なキーワードを抽出し、主要人物及びイベントをラベルとして重要シーンに付与する。この方法で各シーンにおける主要人物を推定し、その人物をもとにイベント内容を推定する。
Twitterにおける投稿メッセージの時空間的局所性の解析によるローカルイベント検出手法(卒論)
位置情報ありのツイートのみが対象。時空間的にツイートが集中しているクラスタを検出する。次にローカルイベントに対する特徴の共起を検出する。
ツイート内容やブログに関する学術研究(イベント検出に関係するもの)
マイクロブログマイニングの現在
マイクロブログのマイニングについて現在行われている主な手法の紹介。(Authority分析、評判分析、実世界の動向の予測、書き手の属性推定、トピック同定、トレンド分析、自動要約、情報の信頼性評価、social sensor、緊急時のコミュニケーション、tweets用のテキスト処理ツール)
ブログ記事とWebページを用いたイベント情報抽出手法の提案
ブログ記事からLodhiによる文字カーネルを用いてイベント名抽出パターンを構築し、Webページからイベント名を抽出する。具体的にはブログから“開催される「○○」”(イベント名○○が鈎括弧で括られる)という定型表現が多いことが分かり、そのパターンを抽出したところ網羅率44.8%となった。
マイクロブログにおける流言の特徴分析
Twitterでの平常時の流言と災害時の流言の特徴について。共通の特徴としては、発信が不特定多数に向けたリツイートにあり、口伝えでの流言に比べて内容の変容が起こりにくいことなど。平常時の流言と災害時の流言の違いとしては、平常時は連鎖的に広がり、災害時は1つのツイートが連鎖することなく爆発的に広がる傾向がある。
Twitterからの情報抽出 - 感染症情報と被災文化財情報を例にして -
Twitterでの情報拡散(風邪・インフルエンザの感染症の流行と被災文化財情報)
Twitterにおけるコミュニケーションの社会ネットワーク分析
映画に関するツイートのリツイートされやすさの分析。メッセージの内容(マーケティング情報、映画の評価など)と投稿者の特性。
Twitterを活用した災害時周辺情報の収集と情報精度の評価システム
災害におけるTwitterの問題点を解消するシステムIDOBATA(In-Disaster mini blOg - BAsed Tourists Assistance)のプロトタイプを作成した。このシステムではGPSによる現在地の緯度経度からの情報収集、ツイート内の固有名詞の抽出による位置推定、遠隔地からの位置指定による情報提供、の3通りの手段を用いて周辺情報を収集する。
Twitter上のbotの判別による情報伝達の効率化
人間アカウントとbotアカウントの判別。友人関係の粗密さ(クラスタリング係数の数値化)、利用クライアントの種類、登録されているリスト、の3通りの方法で判別できる。
リツイート率の算出による価値あるツイートの発見手法
ツイート閲覧者数に依存しないリツイート率を定義し、これにより価値のあるツイートの発見を行う。リツイートされやすさをリツイートの内容やリツイートした人のプロフィール属性、フォロー関係ではなく、ツイート閲覧者数に依存しないリツイート率で求めた点がおもしろい。ただし、タイムライン以外による閲覧(検索、リスト、パクツイなど)は考慮していない。
位置情報付きツイートに基づく地理的ユーザプロファイリング手法の提案
これまでに発信した位置情報付きツイートとその投稿日時の情報に基づき、対象ユーザの地理的ユーザプロファイルを構築する。これによりユーザの日常行動範囲及び非日常行動範囲を推定する。ユーザの日常行動範囲を推定することでそれに合わせた地理情報推薦が可能となり、また、非日常行動範囲を解析することで旅行などのユーザの非日常的な興味の中駿河可能となる。
冗長性排除を考慮したTwitter上の観光地評判情報の集約と地理情報の統合視覚化
膨大なツイートから観光地に対応するものを抽出し、これらをユーザの咀嚼しやすい情報視覚化形式に変換する手法と、評判情報と地理情報を統合的に視覚化するシステムを提案。
↓この記事が参考になったら拍手、ツイート、いいね、はてブ、いずれかをお願いします。今後のブログ作りに役立てたいので。
- 関連記事
-
- ヱヴァンゲリヲン新劇場版:Q ツイッターでの反応・感想など実況まとめ #Twitter4J #eva #エヴァ (2012/12/07)
- 各イベントでの位置情報付きのツイートの傾向(時間帯別) #Twitter4J (2012/12/04)
- ツイッターを用いたイベント検出に関する学術研究の一覧 #Twitter4J (2012/11/23)
- 新劇場版:Q迫る! ヱヴァンゲリヲン新劇場版:破+Q冒頭 金曜ロードSHOW!放送時のツイッターでの反応・感想など実況まとめ #Twitter4J #eva #エヴァ (2012/11/20)
- 新劇場版:Qの前に! ヱヴァンゲリヲン新劇場版:序 金曜ロードSHOW!放送時のツイッターでの反応・感想など実況まとめ #Twitter4J #eva #エヴァ (2012/11/11)