新しく追加されたツイートの言語判定の精度が高すぎる!日本語はなんと100%!完璧! #Twitter4J


ツイッターのAPIの変更スケジュールは次のページにあり、新しい機能が追加されていることが分かりますね。
 →Calendar of API changes | Twitter Developers

今回はこの中から、言語判定(lang attribute & language parameter appears on streaming)について、その精度を検証してみました。
 
 
言語判定は以前からありましたが、プロフィール情報などから判定しており、それほど精度が高いとは言えませんでした。
また、各ツイートごとでの言語判定はできず、各ユーザごとの判定のみでした。
そのため、ユーザがプロフィール情報で英語にしていた場合、日本語でツイートした場合でも英語として判定されてしまっていました。
このような事情により、てぃーが以前行ったツイッター分析においても日本語のみのツイートを取得するのは難しく、最終的には手作業で選別しました^^
 →ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
  (スライド15枚目)

ツイッターでの言語の自動判定の精度が高ければ、このような苦労をすることなく必要な言語のツイートを取得できますね!


使用データと判定の検証方法


さて、言語の検証判定に用いたデータと検証方法は次のとおりです。

<使用データ>
日時:2013年04月29日(月)00:10:00~00:10:09 の10秒間
方法:Streaming APIのsample(全公開ツイートの約1%)
ツイート数:736 ツイート(日本語161、英語219、他言語358)

<検証方法>
・日本語(jp)と英語(en)を対象とする。
・てぃー自身がツイート内容を確認し、言語判定と比較して検証する。
・検証では「正解」「不正解」「どちらでもない」の3種類に分ける。

<ソースコード>
 →【Twitter4J】Streaming APIのsampleで各ツイートのlang(言語情報)を取得する方法


日本語・英語以外はてぃーが分からないのでパスです^^
検証の「どちらでもない」には記号のみ、特に顔文字のみの場合を含みます。確かに顔文字なら各言語でよく使われるものもあって判定は可能とも言えますが、主観が入ってしまうこともあるので今回は不明としました。


検証結果


判定結果は次の表のようになりました。(上段:ツイート数、下段:割合%)

日本語
 日本語と判定されたもの日本語と判定されなかったもの
正解161
100.0%
575
100.0%
不正解0
0.0%
0
0.0%
どちらでもない0
0.0%
0
0.0%

英語
  英語と判定されたもの 英語と判定されなかったもの
正解211
99.5%
516
98.5%
不正解1
0.5%
8
1.5%
どちらでもない0
0.0%
0
0.0%


日本語で100.0%、英語で99.5%ととても高い精度です。
特に日本語は完璧ですね!
「どちらでもない」は今回は該当がありませんでした。
一方で英語では不正解があり、英語と判定された場合で0.5%、英語と判定されなかった場合で1.5%と完璧ではなかったですが、かなりの精度です!

ちなみにこれらのツイート内容は次のようなものでした(本文のみ)。

<英語と判定されたツイート内容>(1つ、下記※注も参照)
・fOOLY & cOOLY – Them a Fe Get a Beatin' di @petertosh, da #SoundHound

<英語と判定されなかったツイート内容>(8つ)
・Come on United! #ArsenalForEuropaLeague
・*Unfollows*
・Was That Malik
・Lmao I had to #repost #regram #purecomedy lol
・thanks ^^
・the ring two>
・Well hello new Follower
・I swear I could eat a dozen donuts


※注 当初、smoove I c u bro lolとlmfaoも該当するとしていましたが、@Scaled_Wurmさんよりlmfaoはlaughing my fucking ass offの略、I c u broはI see you brotherの略とのご指摘があり、除くこととなりました。ありがとうございました。省略表現であっても言語判定ができるというわけですごいですね!


まとめ


日本語に関しては完璧な判定となることはすごいですね。
英語に関してもほぼ完璧と考えてよいでしょう。
もはや特別な言語判定メソッドを考えたりする必要はまずない、としてもよいのではないのでしょうか!!
いろいろ構想が膨らみますね!


↓この記事が参考になったら拍手、ツイート、いいね、はてブ、いずれかをお願いします。今後のブログ作りに役立てたいので。
関連記事

コメントの投稿

非公開コメント

プロフィール

てぃー

Author:てぃー
詳しい自己紹介:こちら
Twitter:@teapipin


follow us in feedly 
にほんブログ村 IT技術ブログへ にほんブログ村 PC家電ブログへ
現在の閲覧者数:

ブログ内検索
今日のアクセス数の多い記事
カレンダー

05月 | 2017年06月 | 07月
- - - - 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 -
過去記事ダイジェスト
お知らせ

ツイッター分析の分析結果が和歌山大学防災研究教育センターの論文に引用
防災の研究において評価!

2015年版ツイッター分析(世界編)が始動!
今回は世界の国別・言語別ツイートを分析!

ツイッター分析の分析結果が慶應義塾大学有名教授の研究論文などに引用
文系の研究までも制覇!

Interval Timer EX
有名雑誌「Mac Fan 2015月2月号」に「インターバルタイマーEX」が3度目の掲載!!ポモドーロテクニックに有効!

自作Macアプリ3部作が2014年 Vector 年間ダウンロードランキング Mac トップ100にすべてランクイン

TimeCalcを公開しています!
時間計算、年齢計算、学歴欄作成など。

ツイッター分析の分析結果が人工知能の研究に!
ブログが学会発表で引用されました。

今まで開発したiPhoneアプリのソースコードを公開しています!
勉強に役立ててください。


2013年 Vector 年間ダウンロードランキング Mac トップ100に「デジカメ変更日を撮影日に一括変更 for Mac」と「インターバルタイマーEX」がランクイン

Interval Timer EX
有名雑誌「Mac Fan 2013月4月号」に「インターバルタイマーEX」が2度目の掲載!!

リアルタイムツイッター地図
リアルタイムツイッター地図を公開しています!
位置情報付きツイートをリアルタイムに表示します。

新たなツイッター分析としてイベントツイート分析を行っています!

2012年8月1日(水)開催の「Twitter勉強会」で発表
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack from teapipin


Interval Timer EX
有名雑誌「Mac Fan 2012月3月号」に「インターバルタイマーEX」が掲載!!



 

はてなブックマークの人気記事
ツイート&いいね!ランキング