2015年 ツイッター 世界の言語別のツイートの平均文字数(長さ)と文字数分布 全世界平均63.3文字!各言語では!? #Twitter4J
※ツイッター分析シリーズの目次はこちら。
2015年版のツイッター分析(世界編)です。今回は世界の言語別のツイートの平均文字数(長さ)と全体分布についてです。
なお日本語については2012年でも同様の分析を行っています。
<使用データ> →詳細はこちらへ
日時:2015/06/03(水)、06(土)、07(日) 0:00~23:59(日本時間)の
毎時00分、20分、40分台
言語数:64言語(日本語+外国語)
ツイート数:59万9230 ツイート
前提
本題に入る前に、ツイートは次のように構成されています。
・ツイートの本文
・宛先(@~)
・ハッシュタグ(#~)
・リンク(http://~、https://~)
・非公式リツイート(RT: ~など)、コメント付きリツイート(引用リツイート)
ツイートの本文以外は自分で書いたものではないことを踏まえて、今回の分析ではツイート全体とツイート本文のみ(他の構成要素を除いたツイート)のそれぞれについて文字数(長さ)を調べてみました。
なお公式リツイートはツイート全体が自分で書いたツイートでないため、今回の分析では外しました。
それでは結果の紹介です。
10大言語別のツイートの平均文字数(長さ)
ツイッターでよく利用される10大言語について、ツイートの平均文字数(長さ)は次のようになりました。
参考として「全世界」(64言語すべて)も掲載しました。また全世界以外は上からツイート全体での平均文字数の少ない順です。
ツイート全体の平均文字数について
韓国語が最も少なく、平均44.3文字でした。日本は2番目に少ない平均45.0文字でした。以前の分析で韓国語・日本語ともほとんどが公用語国からということが分かっており、同じ東アジアということで、地域が近ければ同様の傾向になると考えてよいのでしょうか?
しかし同じ東南アジアのタイ語(平均52.4文字)とインドネシア語(平均73.4文字)ではかなり値が違っています。また言語として近いポルトガル語(平均59.1文字)とスペイン語(平均73.3文字)も大きく異なっていることが分かります。
ツイート全体とツイート本文のみの差について
差が最も大きかったのは英語で21.9文字、もっとも小さかったのはタイ語で11.8文字でした。他の言語はおよそ12~18文字の範囲に収まっていました。
平均値だけでは分からないことが多いので、次に各言語の文字数分布を見ていきます。
10大言語別のツイートの文字数(長さ)の分布
各言語別のツイートの文字数(長さ)の分布は次のようになりました。
ツイート全体と本文のみをそれぞれ分けて表しました。なお傾向が似ている言語を同じグラフにしました。また比較のためすべてのグラフに日本語を入れました。なお日本語と傾向が似ているのは韓国語のみです。
全世界
ツイート全体では、全世界では29文字でピークが見られました。その後減少傾向にありますが、136文字で増加し、137~138文字付近で凹となり、140文字が最も多くなりました。日本語のピークは18文字で、19~24文字付近で大きく凸となりました。その後減少し、136文字から増加となりました。
ツイート本文のみでは、ピークは全世界では15文字、日本語では11文字となりました。両言語ともピーク時の割合が増え、その周辺に押し込められたような形になっていることが分かりました。
日本語、韓国語
韓国語は日本語と平均文字数だけでなく、分布自体が非常に似通っていることがこのグラフから分かりました。
韓国語のピークは、ツイート全体で22文字、ツイート本文のみで5文字でした。
タイ語、ポルトガル語
タイ語とポルトガル語が似た分布を示していることがグラフから分かりました。言語的にも地理的にも無関係のタイ語とポルトガル語が似ているとは意外な結果でした。
タイ語のピークは、ツイート全体で23文字、ツイート本文のみで14文字でした。ポルトガル語のピークは、ツイート全体で30文字、ツイート本文のみで8文字でした。
ロシア語
ロシア語は他のどの言語とも異なる分布でした。
ツイート全体ではピークは61文字、57~66文字付近で大きく凸となりました。ツイート本文のみではピークは63文字で、ツイート全体の場合より多い文字数のときとなりました。また凸は60~65文字付近と15~30文字付近の2つあり、ツイート本文のみにおいては他の言語には見られない二峰性分布となりました。
トルコ語、インドネシア語
トルコ語とインドネシア語が似た分布を示していることがグラフから分かりました。言語的にも地理的にも無関係のトルコ語とインドネシア語が似ているとは意外な結果でした。
ツイート全体では、ともに25文字くらいまでは増加、その後120文字あたりまで上下変動はあるものの横ばいまたは緩やかに減少することが分かりました。
トルコ語のピークは、ツイート全体で140文字、ツイート本文のみで30文字でした。インドネシア語のピークは、ツイート全体で136文字(4.0%)、ツイート本文のみで114文字でした。
英語、スペイン語
英語とスペイン語が似た分布を示していることがグラフから分かりました。確かに言語的にも地理的にも近い関係ですが意外性は否めません。また、スペイン語はポルトガル語と言語的に非常によく似ており、地理的にも非常に似ているのですが、文字数分布は全く異なっていることも面白いですね。
英語のピークは、ツイート全体で140文字、ツイート本文のみで33文字でした。スペイン語のピークは、ツイート全体で136文字、ツイート本文のみで114文字でした。
アラビア語
アラビア語は他のどの言語とも異なる分布でした。
ツイート全体ではピークは140文字、135~140文字で増加していました。また、75~115文字付近で上下変動はあるものの凸状となり、2番目のピークは90文字でした。つまり、凸が75~115文字付近と135~140文字付近の2つあり、ツイート全体においては他の言語には見られない二峰性分布となりました。
ツイート本文のみではピークは62文字でした。凸傾向は55~95文字付近の1か所となり、ツイート全体で見られた二峰性はなくなりました。
まとめ
今回の分析についてまとめると次のようになります。
・ツイートの平均文字数は、全世界ではツイート全体で63.3文字、ツイート本文のみで46.4文字であった。
・10大言語の文字数分布は次の6グループに大別できた。
・日本語、韓国語
・タイ語、ポルトガル語
・ロシア語
・トルコ語、インドネシア語
・英語、スペイン語
・アラビア語
・同じグループに属する言語の言語的・地理的な関係は、薄いか無関係にもかかわらず、似た文字数分布の傾向を示していた。
言語的・地理的な関係とは関係なく、このような傾向を示すのはなぜでしょう?
調べてみると言語の情報量(エントロピー)に着目した研究がありました。
ここで紹介されている内容は、
各言語の1文字あたりの情報量が異なるため、1ツイートの情報量も異なる。
ということです。
1文字あたりの情報量は平均文字数(2012年分)から算出したようです。ただし今回のてぃーの分析のように文字数分布を考慮していないため、文字数分布が似た言語がなぜにそうなるかについては解決できません。この研究を踏まえた上で、新たな分析が必要となりますね。
いろいろ分かったり、また分からないことが出てきたりしてほんと面白いですね♪
↓この記事が参考になったら拍手(どなたでも可)、ツイート、いいね、はてブ、いずれかをお願いします。今後のブログ作りに役立てたいので。
- 関連記事
-
- 2015年 世界の言語別・主な国別の位置情報付きツイートのシェアとクライアント(アプリ)のシェアランキング! #Twitter4J (2015/08/31)
- 2015年 位置情報付きツイッタークライアント(アプリ)のシェアランキング!サービス別のシェアも! #Twitter4J (2015/08/30)
- 2015年 ツイッター 世界の言語別のツイートの平均文字数(長さ)と文字数分布 全世界平均63.3文字!各言語では!? #Twitter4J (2015/08/22)
- 2015年 ツイッター 世界の言語別・主な国別のリツイート率、リプライ・メンション率、ハッシュタグ・リンク率、つぶやき率 #Twitter4J (2015/07/30)
- 2015年 主な国別のツイッタークライアント(アプリ)の人気シェアランキング! #Twitter4J (2015/07/25)