【分析】Twitter4Jと統計ソフトRを使ったTwitterの利用アプリとツイートの長さ(文字数)について(粗い分析)
※ツイッター分析シリーズの目次はこちら。
Twitterのツイートの分析についてです。
ずっと考えていた位置情報を取得する方法はやはり難しいのでそれは置いておくとして、まずは簡単に始められる分析として前から気になっていた利用アプリとツイートの長さ(文字数)の関係について調べてみることにしました。
例えば、てぃーの場合iPhoneからとPC(ウィンドウズ、マック)からツイートしますが、iPhoneからの場合は打つのが速くないのでツイートが短くなる傾向があります。
これを踏まえて、
ということを中心に分析してみました。一般に携帯機器からのツイートはPCよりもツイートの長さが短くなるか?
Twitter4Jを使ったツイートデータの取得
以前作成したTwitterの全ユーザーの公開ツイート(日本のみ)を取得する方法のうち、その2のStreaming APIのsampleを使いました。
利用アプリはTwitter4JのgetSource()で取得しました。
取得したツイートはタブ区切りCSV(別名TSV)形式にし、ファイルに出力して保存しました。
実行時刻は、2012/05/08 01:16~02:00 の45分間(44分間ではない)
取得したツイート数は、9,680 でした。
作成したファイルをエクセルで加工して利用アプリの数の順位を求めました。
すると上位59位までの順位は次のようになりました(同数のものも別々の順位に)。
これより低い順位のものは利用数が少ないため分析では使わないことにしました。

統計ソフトRを使ったツイートの長さの分析
ツイートの長さの分析はフリーの統計ソフトRを使ってみました。
Rは久々でしたので忘れていることも多かったですが、ちょっとずつ進めて昔の勘を取り戻しながら行いました。
上で開いたエクセルのファイルをコピーし、Rコマンダー(Rcmdr)でデータのインポートをし、R用のデータセットを作りました。
ツイートの分析結果
利用アプリごとのツイートの長さの分布を見るために、以下のように箱ひげ図(→説明:Wikipedia)を作成しました。(クリックで拡大)


この図より多くの利用アプリでツイートの長さが20~60文字となることが分かりました。
期待していた“携帯機器からのツイートの長さは短くなる”という現象は見られませんでした。
てぃーにとっては意外ですが使い慣れている人にとってはそんなもんなんでしょうね。
一方で、次のアプリは他のアプリと文字の長さの分布が異なっていることが分かりました。
18位 Tweet Button
26位 EasyBotter
30位 ニコニコ動画
32位 twitterfeed
39位 ツイ助。
41位 HootSuite
42位 Twitter for BlackBerry
48位 BotMaker
50位 Twibow
など
このうち、EasyBotter、twitterfeed、BotMaker、Twibowは自動投稿botです。
このことから自動投稿botのツイートの方が人間のツイートより長くなる傾向があることが分かりました。
リツイートを含まないツイートの分析結果
ただ、上の方法ではリツイートを含んでいます。リツイートは本人のツイートではないのでそれを除いて分析してみました。
ツイートから「RT 」または「QT 」(ともに大文字で後ろに半角スペース)が含まれるものは分析から除く方法を取りました。
すると結果は次のようになりました。
(クリックで拡大)


全体的にツイートが短くなる傾向がありましたが、一部を除いてそれほどではないような感じです。
大きく変わったのは次のようなものです。
42位 Twitter for BlackBerry
55位 UberSocial for BlackBerry
56位 Janetter for Mac
うち2つが携帯機であるBlackBerryですが、BlackBerryを使う人はリツイートをよく使う傾向にあるのでしょうか?
数が多くないのでたまたまの可能性がありますね。。。
感想
今回の分析で分かったのは、
といったものです。・ツイートの長さは20~60文字となることが多い。
・ツイートの長さは携帯機器からでもPCからでも差はない。
・自動投稿botのツイートの方が人間のツイートより長くなる傾向がある。
・BlackBerryを使う人はリツイートをよく使う傾向がある。
まあ、取得したツイートの数がたったの9,680なので一般的に言えるとは言い切れません。
やはり詳しく見るためには取得する時間を数日単位として数十万ツイート以上取得する必要があるでしょうね。
そのためにはその間PCをつけっぱなしにするか、あるいはJavaが使えるサーバーをレンタルしてそこでプログラムを走らせる必要がありますね!!
そもそも分析も荒削りで厳密ではないです。
また、リツイートのあるものを除いた分析でも普通のリツイートとコメント付きリツイートを区別して除いていません。
コメント付きリツイートでは自分のツイートも付いているのでその部分についての扱いはどうすればいいかはっきりしません。
この場合の自分のツイートの長さは引用したリツイートの部分の長さに引っ張られますからね。
これらは今後の課題とすることにします。
2012/05/24 追記
約173万ツイートを使ってより詳しい分析を始めました!
→こちら
↓この記事が参考になったら拍手をクリックお願いします。今後のブログ作りに役立てたいので。
- 関連記事
-
- 【分析】上位が圧倒! Twitterの利用アプリ別(クライアント)・機器別のツイート数の統計 by Twitter4J その3 (2012/05/29)
- 【分析】日本人らしさが判明! Twitterの曜日別・時間帯別のツイート数の統計 by Twitter4J その2 (2012/05/24)
- 【分析】Twitterのツイートの分析方法 by Twitter4J その1 (2012/05/24)
- 【分析】Twitter4Jと統計ソフトRを使ったTwitterの利用アプリとツイートの長さ(文字数)について(粗い分析) (2012/05/12)
- 【分析】Twitter4Jを使ったTwitterのツイートの分析方法について考えてみた (2012/05/05)