【分析】Twitterのツイートの分析方法 by Twitter4J その1
2012-05-24 (木) 23:48 約173万ツイート分析編
※ツイッター分析シリーズの目次はこちら。
前回のTwitterのツイートの分析では、利用アプリとツイートの長さ(文字数)の関係について調べてみましたが、取得したツイートの数がたったの9,680だったので一般的に言えるとは言い切れませんでした。
そのためより多くのツイートを取得して分析を行うことにしました。
Twitter4Jを使ったツイートデータの取得方法
ツイートデータの取得方法は前回と同じく、以前作成したTwitterの全ユーザーの公開ツイート(日本のみ)を取得する方法のうち、その2のStreaming APIのsampleを使いました。
利用アプリはTwitter4JのgetSource()で取得しました。
また、今回は公式リツイートかどうかを判別するためにTwitter4JのisRetweet()を使いました。
取得したツイートはタブ区切りCSV(別名TSV)形式にし、ファイルに出力して保存しました。
ツイートデータの取得結果
実行時刻:2012/05/16(水)夜~2012/05/21(月)朝
取得したツイート数:2,079,425 (207万9425)ツイート でした。
ただし、今回は曜日別・時間別での分析も行いたかったので、
実際に分析に使ったのはキリのいい期間として
となりました!期間:2012/05/17(木)0:00~20(日)23:59 の4日間
ツイート数:1,725,212(172万5212) ツイート(日本語のみ)
ところで分析で使ったStreaming APIのsampleではTwitterの全ユーザーの公開ツイートのうち、全体の約1%のツイートが取得できます。
(→参考:GET statuses/sample | Twitter Developers)
世界の全ツイートのうち、日本語のツイートは約14%を占めるそうなので、
(→参考:世界の総ツイートの14%が日本語、年間成長トップは22倍のアラビア語)
単純に計算してこの4日間に
・日本語の全ツイート:約172,521,200(1億7252万1200) ツイート
・世界の全ツイート数:約1,232,294,286(12億3229万4286) ツイート
1日平均で
・日本語の全ツイート:約43,130,300(4313万300) ツイート
・世界の全ツイート数:約308,073,572(3億807万3572) ツイート
あったことになりますね!\(◎o◎)/
ただ、Streaming APIのsampleがどのように全体の約1%のツイートを取得しているかは謎です。
地域(国)もランダムに取得しているのか、日本からのsampleは地域は日本のものを優先されるのか!?
またツイッターのサーバーに負荷がかからないようにしているため、大量のツイートが短期間にあった場合はsampleで取得できる数は減らすため必ずしも約1%にはならないようです。
さらにこちらのPCの回線速度やプログラム処理で処理が追いつかなくなる場合もあるはずなので、上に挙げた予想全ツイート数はあくまで参考程度ですね。
さらに統計学に詳しい人なら“1つしかないサンプル(標本)では全ツイート(母集団)の代表とはいいきれない(不偏推定量とはなりえない)ため、同時間帯の複数のサンプルが必要だ。”と思うでしょう。
しかしStreaming APIのsampleでは同時刻では複数のクライアントで同時に取得しても同じツイートしか得られないとのことですので複数取得は不可能です。
(→参考:GET statuses/sample | Twitter Developers)
ということで、分析はあくまで取得したツイートに対する分析であるという前提で進めます。
分析に使ったソフトとデータの管理方法
前回に比べて膨大な数が取得できて分析としては十分ですが、そのぶん分析に使うソフトをどうするか悩みました。
21日(月)に困っている旨をツイッターでつぶやいたところ、「Twitter API ポケットリファレンス」の筆者でTwitter4Jの開発者である@yusukeさんと、@yamayama5959さんからご意見をちょうだいしました。
結局ご意見と自分のスキルから次のソフトを使うことにしました。
Eclipse 3.4.2 + Java(実際はPleiades All in One) + Twitter4J でツイートデータを取得
↓
使用する4日間のデータを各日ごとに分けてファイルにし、Excel2007で読み込んで整理
(中国語や文字化けもあったので「ひらがな、カタカナ、全角記号、全角英数字」を含むツイートのみを選別)
↓
整理したデータをAccess2010に入れてデータベースとして管理
↓
分析に必要な箇所を抜き出し、Excel2007またはフリーの統計ソフトRでグラフ化・分析
最近のWindows環境は充実していますね。
てぃーは昔はこの手の分析では、Cygwinを導入して擬似UNIX環境を作ったり、Apache + MySQLを導入したりしていました。
今はふつうのWindows環境で分析ができるようになってうれしい限りです。
気になる分析結果はその2以降公開していきます!!
↓この記事が参考になったら拍手をクリックお願いします。今後のブログ作りに役立てたいので。
- 関連記事
-
- 【分析】上位が圧倒! Twitterの利用アプリ別(クライアント)・機器別のツイート数の統計 by Twitter4J その3 (2012/05/29)
- 【分析】日本人らしさが判明! Twitterの曜日別・時間帯別のツイート数の統計 by Twitter4J その2 (2012/05/24)
- 【分析】Twitterのツイートの分析方法 by Twitter4J その1 (2012/05/24)
- 【分析】Twitter4Jと統計ソフトRを使ったTwitterの利用アプリとツイートの長さ(文字数)について(粗い分析) (2012/05/12)
- 【分析】Twitter4Jを使ったTwitterのツイートの分析方法について考えてみた (2012/05/05)