【分析】Twitter4Jと統計ソフトRを使ったTwitterの利用アプリとツイートの長さ(文字数)について(粗い分析)


※ツイッター分析シリーズの目次はこちら


Twitterのツイートの分析についてです。
ずっと考えていた位置情報を取得する方法はやはり難しいのでそれは置いておくとして、まずは簡単に始められる分析として前から気になっていた利用アプリとツイートの長さ(文字数)の関係について調べてみることにしました。

例えば、てぃーの場合iPhoneからとPC(ウィンドウズ、マック)からツイートしますが、iPhoneからの場合は打つのが速くないのでツイートが短くなる傾向があります。
これを踏まえて、

一般に携帯機器からのツイートはPCよりもツイートの長さが短くなるか?

ということを中心に分析してみました。


Twitter4Jを使ったツイートデータの取得


以前作成したTwitterの全ユーザーの公開ツイート(日本のみ)を取得する方法のうち、その2のStreaming APIのsampleを使いました。
利用アプリはTwitter4JのgetSource()で取得しました。
取得したツイートはタブ区切りCSV(別名TSV)形式にし、ファイルに出力して保存しました。

実行時刻は、2012/05/08 01:16~02:00 の45分間(44分間ではない)
取得したツイート数は、9,680 でした。

作成したファイルをエクセルで加工して利用アプリの数の順位を求めました。
すると上位59位までの順位は次のようになりました(同数のものも別々の順位に)。
これより低い順位のものは利用数が少ないため分析では使わないことにしました。

twiran.png


統計ソフトRを使ったツイートの長さの分析


ツイートの長さの分析はフリーの統計ソフトRを使ってみました。
Rは久々でしたので忘れていることも多かったですが、ちょっとずつ進めて昔の勘を取り戻しながら行いました。
上で開いたエクセルのファイルをコピーし、Rコマンダー(Rcmdr)でデータのインポートをし、R用のデータセットを作りました。


ツイートの分析結果
利用アプリごとのツイートの長さの分布を見るために、以下のように箱ひげ図(→説明:Wikipedia)を作成しました。
(クリックで拡大)
t01_30_a.png
t31_59_a.png

この図より多くの利用アプリでツイートの長さが20~60文字となることが分かりました。
期待していた“携帯機器からのツイートの長さは短くなる”という現象は見られませんでした。
てぃーにとっては意外ですが使い慣れている人にとってはそんなもんなんでしょうね。

一方で、次のアプリは他のアプリと文字の長さの分布が異なっていることが分かりました。

18位 Tweet Button
26位 EasyBotter
30位 ニコニコ動画
32位 twitterfeed
39位 ツイ助。
41位 HootSuite
42位 Twitter for BlackBerry
48位 BotMaker
50位 Twibow
 など


このうち、EasyBotter、twitterfeed、BotMaker、Twibowは自動投稿botです。
このことから自動投稿botのツイートの方が人間のツイートより長くなる傾向があることが分かりました。


リツイートを含まないツイートの分析結果
ただ、上の方法ではリツイートを含んでいます。
リツイートは本人のツイートではないのでそれを除いて分析してみました。
ツイートから「RT 」または「QT 」(ともに大文字で後ろに半角スペース)が含まれるものは分析から除く方法を取りました。
すると結果は次のようになりました。
(クリックで拡大)
t01_30_b.png
t31_59_b.png

全体的にツイートが短くなる傾向がありましたが、一部を除いてそれほどではないような感じです。
大きく変わったのは次のようなものです。

42位 Twitter for BlackBerry
55位 UberSocial for BlackBerry
56位 Janetter for Mac


うち2つが携帯機であるBlackBerryですが、BlackBerryを使う人はリツイートをよく使う傾向にあるのでしょうか?
数が多くないのでたまたまの可能性がありますね。。。


感想


今回の分析で分かったのは、

・ツイートの長さは20~60文字となることが多い。
・ツイートの長さは携帯機器からでもPCからでも差はない。
・自動投稿botのツイートの方が人間のツイートより長くなる傾向がある。
・BlackBerryを使う人はリツイートをよく使う傾向がある。

といったものです。

まあ、取得したツイートの数がたったの9,680なので一般的に言えるとは言い切れません。

やはり詳しく見るためには取得する時間を数日単位として数十万ツイート以上取得する必要があるでしょうね。
そのためにはその間PCをつけっぱなしにするか、あるいはJavaが使えるサーバーをレンタルしてそこでプログラムを走らせる必要がありますね!!

そもそも分析も荒削りで厳密ではないです。
また、リツイートのあるものを除いた分析でも普通のリツイートとコメント付きリツイートを区別して除いていません。
コメント付きリツイートでは自分のツイートも付いているのでその部分についての扱いはどうすればいいかはっきりしません。
この場合の自分のツイートの長さは引用したリツイートの部分の長さに引っ張られますからね。

これらは今後の課題とすることにします。


2012/05/24 追記
約173万ツイートを使ってより詳しい分析を始めました!
こちら


↓この記事が参考になったら拍手をクリックお願いします。今後のブログ作りに役立てたいので。
関連記事

コメントの投稿

非公開コメント

プロフィール

てぃー

Author:てぃー
詳しい自己紹介:こちら
Twitter:@teapipin


follow us in feedly 
にほんブログ村 IT技術ブログへ にほんブログ村 PC家電ブログへ
現在の閲覧者数:

ブログ内検索
今日のアクセス数の多い記事
カレンダー

05月 | 2017年06月 | 07月
- - - - 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 -
過去記事ダイジェスト
お知らせ

ツイッター分析の分析結果が和歌山大学防災研究教育センターの論文に引用
防災の研究において評価!

2015年版ツイッター分析(世界編)が始動!
今回は世界の国別・言語別ツイートを分析!

ツイッター分析の分析結果が慶應義塾大学有名教授の研究論文などに引用
文系の研究までも制覇!

Interval Timer EX
有名雑誌「Mac Fan 2015月2月号」に「インターバルタイマーEX」が3度目の掲載!!ポモドーロテクニックに有効!

自作Macアプリ3部作が2014年 Vector 年間ダウンロードランキング Mac トップ100にすべてランクイン

TimeCalcを公開しています!
時間計算、年齢計算、学歴欄作成など。

ツイッター分析の分析結果が人工知能の研究に!
ブログが学会発表で引用されました。

今まで開発したiPhoneアプリのソースコードを公開しています!
勉強に役立ててください。


2013年 Vector 年間ダウンロードランキング Mac トップ100に「デジカメ変更日を撮影日に一括変更 for Mac」と「インターバルタイマーEX」がランクイン

Interval Timer EX
有名雑誌「Mac Fan 2013月4月号」に「インターバルタイマーEX」が2度目の掲載!!

リアルタイムツイッター地図
リアルタイムツイッター地図を公開しています!
位置情報付きツイートをリアルタイムに表示します。

新たなツイッター分析としてイベントツイート分析を行っています!

2012年8月1日(水)開催の「Twitter勉強会」で発表
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack from teapipin


Interval Timer EX
有名雑誌「Mac Fan 2012月3月号」に「インターバルタイマーEX」が掲載!!



 

はてなブックマークの人気記事
ツイート&いいね!ランキング