【分析】Twitterのツイートの分析方法 by Twitter4J その1


※ツイッター分析シリーズの目次はこちら

前回のTwitterのツイートの分析では、利用アプリとツイートの長さ(文字数)の関係について調べてみましたが、取得したツイートの数がたったの9,680だったので一般的に言えるとは言い切れませんでした。

そのためより多くのツイートを取得して分析を行うことにしました。


Twitter4Jを使ったツイートデータの取得方法


ツイートデータの取得方法は前回と同じく、以前作成したTwitterの全ユーザーの公開ツイート(日本のみ)を取得する方法のうち、その2のStreaming APIのsampleを使いました。
利用アプリはTwitter4JのgetSource()で取得しました。
また、今回は公式リツイートかどうかを判別するためにTwitter4JのisRetweet()を使いました。
取得したツイートはタブ区切りCSV(別名TSV)形式にし、ファイルに出力して保存しました。


ツイートデータの取得結果


実行時刻:2012/05/16(水)夜~2012/05/21(月)朝
取得したツイート数:2,079,425 (207万9425)ツイート でした。

ただし、今回は曜日別・時間別での分析も行いたかったので、
実際に分析に使ったのはキリのいい期間として

期間:2012/05/17(木)0:00~20(日)23:59 の4日間
ツイート数:1,725,212(172万5212) ツイート(日本語のみ)

となりました!

ところで分析で使ったStreaming APIのsampleではTwitterの全ユーザーの公開ツイートのうち、全体の約1%のツイートが取得できます。
(→参考:GET statuses/sample | Twitter Developers

世界の全ツイートのうち、日本語のツイートは約14%を占めるそうなので、
(→参考:世界の総ツイートの14%が日本語、年間成長トップは22倍のアラビア語
単純に計算してこの4日間に
 ・日本語の全ツイート:約172,521,200(1億7252万1200) ツイート
 ・世界の全ツイート数:約1,232,294,286(12億3229万4286) ツイート
1日平均で
 ・日本語の全ツイート:約43,130,300(4313万300) ツイート
 ・世界の全ツイート数:約308,073,572(3億807万3572) ツイート
あったことになりますね!\(◎o◎)/

ただ、Streaming APIのsampleがどのように全体の約1%のツイートを取得しているかは謎です。
地域(国)もランダムに取得しているのか、日本からのsampleは地域は日本のものを優先されるのか!?
またツイッターのサーバーに負荷がかからないようにしているため、大量のツイートが短期間にあった場合はsampleで取得できる数は減らすため必ずしも約1%にはならないようです。
さらにこちらのPCの回線速度やプログラム処理で処理が追いつかなくなる場合もあるはずなので、上に挙げた予想全ツイート数はあくまで参考程度ですね。

さらに統計学に詳しい人なら“1つしかないサンプル(標本)では全ツイート(母集団)の代表とはいいきれない(不偏推定量とはなりえない)ため、同時間帯の複数のサンプルが必要だ。”と思うでしょう。
しかしStreaming APIのsampleでは同時刻では複数のクライアントで同時に取得しても同じツイートしか得られないとのことですので複数取得は不可能です。
(→参考:GET statuses/sample | Twitter Developers

ということで、分析はあくまで取得したツイートに対する分析であるという前提で進めます。


分析に使ったソフトとデータの管理方法


前回に比べて膨大な数が取得できて分析としては十分ですが、そのぶん分析に使うソフトをどうするか悩みました。
21日(月)に困っている旨をツイッターでつぶやいたところ、「Twitter API ポケットリファレンス」の筆者でTwitter4Jの開発者である@yusukeさんと、@yamayama5959さんからご意見をちょうだいしました。
結局ご意見と自分のスキルから次のソフトを使うことにしました。

Eclipse 3.4.2 + Java(実際はPleiades All in One) + Twitter4J でツイートデータを取得
 ↓
使用する4日間のデータを各日ごとに分けてファイルにし、Excel2007で読み込んで整理
(中国語や文字化けもあったので「ひらがな、カタカナ、全角記号、全角英数字」を含むツイートのみを選別)
 ↓
整理したデータをAccess2010に入れてデータベースとして管理
 ↓
分析に必要な箇所を抜き出し、Excel2007またはフリーの統計ソフトRでグラフ化・分析


最近のWindows環境は充実していますね。
てぃーは昔はこの手の分析では、Cygwinを導入して擬似UNIX環境を作ったり、Apache + MySQLを導入したりしていました。
今はふつうのWindows環境で分析ができるようになってうれしい限りです。


気になる分析結果はその2以降公開していきます!!


↓この記事が参考になったら拍手をクリックお願いします。今後のブログ作りに役立てたいので。
関連記事

コメントの投稿

非公開コメント

プロフィール

てぃー

Author:てぃー
詳しい自己紹介:こちら
Twitter:@teapipin


follow us in feedly 
にほんブログ村 IT技術ブログへ にほんブログ村 PC家電ブログへ
現在の閲覧者数:

ブログ内検索
今日のアクセス数の多い記事
カレンダー

09月 | 2017年10月 | 11月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -
過去記事ダイジェスト
お知らせ
ツイッター分析の分析結果が新潟大学教育学部の論文に引用
教育の実証研究の場でも高く評価!

ツイッター分析の分析結果が和歌山大学防災研究教育センターの論文に引用
防災の研究において評価!

2015年版ツイッター分析(世界編)が始動!
今回は世界の国別・言語別ツイートを分析!

ツイッター分析の分析結果が慶應義塾大学有名教授の研究論文などに引用
文系の研究までも制覇!

Interval Timer EX
有名雑誌「Mac Fan 2015月2月号」に「インターバルタイマーEX」が3度目の掲載!ポモドーロテクニックに有効!

自作Macアプリ3部作が2014年 Vector 年間ダウンロードランキング Mac トップ100にすべてランクイン

TimeCalcを公開しています!
時間計算、年齢計算、学歴欄作成など。

ツイッター分析の分析結果が人工知能の研究に!
ブログが学会発表で引用されました。

今まで開発したiPhoneアプリのソースコードを公開しています!
勉強に役立ててください。


2013年 Vector 年間ダウンロードランキング Mac トップ100に「デジカメ変更日を撮影日に一括変更 for Mac」と「インターバルタイマーEX」がランクイン

Interval Timer EX
有名雑誌「Mac Fan 2013月4月号」に「インターバルタイマーEX」が2度目の掲載!!

リアルタイムツイッター地図
リアルタイムツイッター地図を公開しています!
位置情報付きツイートをリアルタイムに表示します。

新たなツイッター分析としてイベントツイート分析を行っています!

2012年8月1日(水)開催の「Twitter勉強会」で発表
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack from teapipin


Interval Timer EX
有名雑誌「Mac Fan 2012月3月号」に「インターバルタイマーEX」が掲載!!



 

はてなブックマークの人気記事