「2015年版ツイッター分析(世界編)」始動!今回は世界のツイートも対象に! #Twitter4J
※ツイッター分析シリーズの目次はこちら。
2012年5月に行った、約173万ツイートのツイッター分析から早3年が経過しましました。分析結果はネットのみならず、Twitter勉強会で発表させていただいたり、学術研究に引用されたりと大きな影響となりました。
前回から3年経ち、スマホやタブレットの普及やこれに伴うPCの売り上げの減少などネット環境でのライフスタイルの変化が起こっています。ツイッターにも変化があることが予想されるため、3年ぶりにツイッター分析を行うことにしました!!
特に前回やりたくてもできなかった「外国語」を含めた多言語の分析を行っていきます!
ツイートデータの取得
手法
前回と同じくStreaming APIのsampleという方法を使い、全公開ツイートの約1%を取得しました。
言語判定
前回とは違って、今回は全言語のツイートを取得し言語判定を行いました。言語判定は2013年にTwitterに追加された言語判定機能を用いました。
この方法を使うことでほぼ100%の言語判定ができます。前回の分析ではこの機能がまだなかったため使えませんでしたが、今回の分析ではこの判定結果を正として利用することにしました。
取得した言語コードはISO639-1規定の言語コードです。ただしこの規定にない言語コード(ツイッター独自?)が一部あったため、これについてはGoogle翻訳を使って言語を確認しました(例 in:インドネシア語)。この方法でも不明な言語が1つありました(ckb)。
曜日
前回は木曜~日曜の4日間でしたが、平日はどの曜日も似た傾向を示すことが分かりましたので(あくまで日本語のみですが)、今回は平日は水曜のみで代表することとし、水曜・土曜・日曜の3日分を取得しました。
時間
前回は日本語のみでしたが、今回は全言語が対象なので全時間帯ではツイート数が膨大すぎてデータの取得・分析が困難なため、今回は各時間帯のうち、毎時00分、20分、40分台の各1分を取得しました。
ツイートデータの取得結果
日時:2015/06/03(水)、06(土)、07(日) 0:00~23:59(日本時間)の
毎時00分、20分、40分台
言語数:64言語(日本語+外国語)
ツイート数:59万9230 ツイート
実際に取得したツイートは63万2107 ツイートでしたが、うち言語判定ができなかった言語不明は3万2877ツイートでした。今回の分析は言語別で行いたいため、言語不明を除いた64言語、59万9230ツイートを分析対象としました。
分析結果は順次公開していきます。
↓この記事が参考になったら拍手(どなたでも可)、ツイート、いいね、はてブ、いずれかをお願いします。今後のブログ作りに役立てたいので。
- 関連記事
-
- 2015年 ツイッターの曜日別・時間帯別のツイート数の統計(日本語のみ) 今回は「NHK国民生活時間調査」の日本人の平均的な生活時間とも比較! #Twitter4J (2015/06/28)
- ツイッターでよく使われる10大言語について、タイムゾーンから主な国を推測したら、世界の言語分布が明らかになった!(※地図入り) #Twitter4J (2015/06/21)
- 2015年 ツイッターの世界タイムゾーンランキング(全言語、時差ごと) #Twitter4J (2015/06/20)
- 2015年 ツイッターの使用言語ランキング 1位英語、2位日本語、3位スペイン語、4位はなんと! #Twitter4J (2015/06/15)
- 「2015年版ツイッター分析(世界編)」始動!今回は世界のツイートも対象に! #Twitter4J (2015/06/14)