2015年 ツイッター 世界の言語別のツイートの平均文字数(長さ)と文字数分布 全世界平均63.3文字!各言語では!? #Twitter4J


※ツイッター分析シリーズの目次はこちら

 

2015年版のツイッター分析(世界編)です。今回は世界の言語別のツイートの平均文字数(長さ)と全体分布についてです。

 

なお日本語については2012年でも同様の分析を行っています。  

 

<使用データ> →詳細はこちらへ

日時:2015/06/03(水)、06(土)、07(日) 0:00~23:59(日本時間)の

   毎時00分、20分、40分台

言語数:64言語(日本語+外国語)

ツイート数:59万9230 ツイート

 

 

前提

 

本題に入る前に、ツイートは次のように構成されています。

・ツイートの本文

・宛先(@~)

・ハッシュタグ(#~)

・リンク(http://~、https://~)

・非公式リツイート(RT: ~など)、コメント付きリツイート(引用リツイート)


ツイートの本文以外は自分で書いたものではないことを踏まえて、今回の分析ではツイート全体とツイート本文のみ(他の構成要素を除いたツイート)のそれぞれについて文字数(長さ)を調べてみました。

 

なお公式リツイートはツイート全体が自分で書いたツイートでないため、今回の分析では外しました。

 

 

それでは結果の紹介です。

 

 

10大言語別のツイートの平均文字数(長さ)

 

ツイッターでよく利用される10大言語について、ツイートの平均文字数(長さ)は次のようになりました。

 

参考として「全世界」(64言語すべて)も掲載しました。また全世界以外は上からツイート全体での平均文字数の少ない順です。

 

image

 

  image

 

ツイート全体の平均文字数について

韓国語が最も少なく、平均44.3文字でした。日本は2番目に少ない平均45.0文字でした。以前の分析で韓国語・日本語ともほとんどが公用語国からということが分かっており、同じ東アジアということで、地域が近ければ同様の傾向になると考えてよいのでしょうか?

 

しかし同じ東南アジアのタイ語(平均52.4文字)とインドネシア語(平均73.4文字)ではかなり値が違っています。また言語として近いポルトガル語(平均59.1文字)とスペイン語(平均73.3文字)も大きく異なっていることが分かります。

 

 

ツイート全体とツイート本文のみの差について

差が最も大きかったのは英語で21.9文字、もっとも小さかったのはタイ語で11.8文字でした。他の言語はおよそ12~18文字の範囲に収まっていました。

 

 

平均値だけでは分からないことが多いので、次に各言語の文字数分布を見ていきます。

 

 

10大言語別のツイートの文字数(長さ)の分布

 

各言語別のツイートの文字数(長さ)の分布は次のようになりました。

 

ツイート全体と本文のみをそれぞれ分けて表しました。なお傾向が似ている言語を同じグラフにしました。また比較のためすべてのグラフに日本語を入れました。なお日本語と傾向が似ているのは韓国語のみです。

 

 

全世界

image

 

image

 

ツイート全体では、全世界では29文字でピークが見られました。その後減少傾向にありますが、136文字で増加し、137~138文字付近で凹となり、140文字が最も多くなりました。日本語のピークは18文字で、19~24文字付近で大きく凸となりました。その後減少し、136文字から増加となりました。

 

ツイート本文のみでは、ピークは全世界では15文字、日本語では11文字となりました。両言語ともピーク時の割合が増え、その周辺に押し込められたような形になっていることが分かりました。

 

 

日本語、韓国語

image

 

image

 

韓国語は日本語と平均文字数だけでなく、分布自体が非常に似通っていることがこのグラフから分かりました。

 

韓国語のピークは、ツイート全体で22文字、ツイート本文のみで5文字でした。

 

 

タイ語、ポルトガル語

image

 

image

 

タイ語とポルトガル語が似た分布を示していることがグラフから分かりました。言語的にも地理的にも無関係のタイ語とポルトガル語が似ているとは意外な結果でした。

 

タイ語のピークは、ツイート全体で23文字、ツイート本文のみで14文字でした。ポルトガル語のピークは、ツイート全体で30文字、ツイート本文のみで8文字でした。

 

 

ロシア語

image

 

image

 

ロシア語は他のどの言語とも異なる分布でした。

 

ツイート全体ではピークは61文字、57~66文字付近で大きく凸となりました。ツイート本文のみではピークは63文字で、ツイート全体の場合より多い文字数のときとなりました。また凸は60~65文字付近と15~30文字付近の2つあり、ツイート本文のみにおいては他の言語には見られない二峰性分布となりました。

 

 

トルコ語、インドネシア語

image

 

image

 

トルコ語とインドネシア語が似た分布を示していることがグラフから分かりました。言語的にも地理的にも無関係のトルコ語とインドネシア語が似ているとは意外な結果でした。

 

ツイート全体では、ともに25文字くらいまでは増加、その後120文字あたりまで上下変動はあるものの横ばいまたは緩やかに減少することが分かりました。

 

トルコ語のピークは、ツイート全体で140文字、ツイート本文のみで30文字でした。インドネシア語のピークは、ツイート全体で136文字(4.0%)、ツイート本文のみで114文字でした。

 

 

英語、スペイン語

image

 

image

 

英語とスペイン語が似た分布を示していることがグラフから分かりました。確かに言語的にも地理的にも近い関係ですが意外性は否めません。また、スペイン語はポルトガル語と言語的に非常によく似ており、地理的にも非常に似ているのですが、文字数分布は全く異なっていることも面白いですね。

 

英語のピークは、ツイート全体で140文字、ツイート本文のみで33文字でした。スペイン語のピークは、ツイート全体で136文字、ツイート本文のみで114文字でした。

 

 

アラビア語

image

image

 

アラビア語は他のどの言語とも異なる分布でした。

 

ツイート全体ではピークは140文字、135~140文字で増加していました。また、75~115文字付近で上下変動はあるものの凸状となり、2番目のピークは90文字でした。つまり、凸が75~115文字付近と135~140文字付近の2つあり、ツイート全体においては他の言語には見られない二峰性分布となりました。

 

ツイート本文のみではピークは62文字でした。凸傾向は55~95文字付近の1か所となり、ツイート全体で見られた二峰性はなくなりました。

 

 

まとめ

 

今回の分析についてまとめると次のようになります。

・ツイートの平均文字数は、全世界ではツイート全体で63.3文字、ツイート本文のみで46.4文字であった。

・10大言語の文字数分布は次の6グループに大別できた。

  ・日本語、韓国語

  ・タイ語、ポルトガル語

  ・ロシア語

  ・トルコ語、インドネシア語

  ・英語、スペイン語

  ・アラビア語

・同じグループに属する言語の言語的・地理的な関係は、薄いか無関係にもかかわらず、似た文字数分布の傾向を示していた。

 

言語的・地理的な関係とは関係なく、このような傾向を示すのはなぜでしょう?

 

調べてみると言語の情報量(エントロピー)に着目した研究がありました。

 

日本語ツイートの情報量は、世界で2番目に少ないらしい - TEXT/YUBASCRIPT

 

ここで紹介されている内容は、

各言語の1文字あたりの情報量が異なるため、1ツイートの情報量も異なる。

ということです。

 

1文字あたりの情報量は平均文字数(2012年分)から算出したようです。ただし今回のてぃーの分析のように文字数分布を考慮していないため、文字数分布が似た言語がなぜにそうなるかについては解決できません。この研究を踏まえた上で、新たな分析が必要となりますね。

 

 

いろいろ分かったり、また分からないことが出てきたりしてほんと面白いですね♪

 

 

↓この記事が参考になったら拍手(どなたでも可)、ツイート、いいね、はてブ、いずれかをお願いします。今後のブログ作りに役立てたいので。

関連記事

コメントの投稿

非公開コメント

プロフィール

てぃー

Author:てぃー
詳しい自己紹介:こちら
Twitter:@teapipin


follow us in feedly 
にほんブログ村 IT技術ブログへ にほんブログ村 PC家電ブログへ
現在の閲覧者数:

ブログ内検索
今日のアクセス数の多い記事
カレンダー

10月 | 2017年11月 | 12月
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 - -
過去記事ダイジェスト
お知らせ
ツイッター分析の分析結果が新潟大学教育学部の論文に引用
教育の実証研究の場でも高く評価!

ツイッター分析の分析結果が和歌山大学防災研究教育センターの論文に引用
防災の研究において評価!

2015年版ツイッター分析(世界編)が始動!
今回は世界の国別・言語別ツイートを分析!

ツイッター分析の分析結果が慶應義塾大学有名教授の研究論文などに引用
文系の研究までも制覇!

Interval Timer EX
有名雑誌「Mac Fan 2015月2月号」に「インターバルタイマーEX」が3度目の掲載!ポモドーロテクニックに有効!

自作Macアプリ3部作が2014年 Vector 年間ダウンロードランキング Mac トップ100にすべてランクイン

TimeCalcを公開しています!
時間計算、年齢計算、学歴欄作成など。

ツイッター分析の分析結果が人工知能の研究に!
ブログが学会発表で引用されました。

今まで開発したiPhoneアプリのソースコードを公開しています!
勉強に役立ててください。


2013年 Vector 年間ダウンロードランキング Mac トップ100に「デジカメ変更日を撮影日に一括変更 for Mac」と「インターバルタイマーEX」がランクイン

Interval Timer EX
有名雑誌「Mac Fan 2013月4月号」に「インターバルタイマーEX」が2度目の掲載!!

リアルタイムツイッター地図
リアルタイムツイッター地図を公開しています!
位置情報付きツイートをリアルタイムに表示します。

新たなツイッター分析としてイベントツイート分析を行っています!

2012年8月1日(水)開催の「Twitter勉強会」で発表
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack from teapipin


Interval Timer EX
有名雑誌「Mac Fan 2012月3月号」に「インターバルタイマーEX」が掲載!!



 

はてなブックマークの人気記事