【分析】Twitter4Jを使ったTwitterのツイートの分析方法について考えてみた
2012-05-05 (土) 00:13 約173万ツイート分析編
※ツイッター分析シリーズの目次はこちら。
今日も予想通り小雨ぱらつく日でしたね。
明日は晴れるそうですがどうなんでしょう!?
さて、以前から考えているTwitter4Jを使ったTwitterのツイートの分析についてその方法を考えてみました。
てぃーはある出来事が起こったらそれに対するツイートがどんなふうに拡散されるか分析してみたいと考えています。
そのためのツイートの取得ツールとしてTwitter4Jを導入し、必要なプログラムを学びました。
といってもプログラム自体は簡単なもので今までに紹介してきた3種類(4つ)で充分です。
・フォロー(フレンド)とフォロワーの片思い・片思われを抽出する方法
・検索してその結果を表示する方法
・全ユーザーの公開ツイート(日本のみ)を表示する方法
(PublicTimeline、Streaming APIのsample)
一方で残念ながらTwitterにはいろいろと制限があることも分かってきました。
1.1時間当たりの接続回数に上限があるため、対象とするユーザー情報・ツイートは
数が多い場合はすべてを取得することはまずできない。
2.全ユーザーの公開ツイートはStreaming APIを使えば接続回数に制限はないが、
一般には約1%の抽出したデータしか使えない。
3.全ユーザーの公開ツイートはStreaming APIではそれまでのツイートは取得できない。
4.位置情報はほとんどの人が情報がない(当然ですが)。
データの蓄積について
上の1.~3.についてです。
Twitterからは蓄積データは取得できないので工夫しないといけないですね。
検索で取得できるデータも恐らく最近2週間程度の情報なのでふだんからデータを蓄積しておく必要がありそうです。
それでも1ユーザでは1時間当たりの接続回数に上限があるため、多くのデータを取得するには複数のユーザで常時接続をし続けないといけないですね。
そのためには普通のクライアントのPCではなく、サーバーでプログラムを走らせ続けるのがいいでしょう。
ツイッターはAPIを公開しているので世にはいろいろなツイッターのアプリがありますが、ウェブサービスのものが多いのはこのためでしょうね。
つまりユーザーのPCでの実行では接続回数の上限を超えてしまうので、ウェブサービスにして事前にサーバーに蓄積しておいたデータを使うことで接続上限を回避して実行を可能にしているのでしょう。
サーバー上でプログラムを常時走らせておくのはお金とちょっとした労力があればできますが、それだけに力を注いでしまうと単なる創造性のないプログラマで終わってしまいますね。。。
このブログで行うべきは創作活動なのでこのことを忘れないようにしないといけませんね^^
位置情報について
上の4.についてです。
各ツイートやプロフィールに位置情報を入れられますがふつうは入れている人はいません。
当たり前ですね。
それでも次のようにいくつかのサービスではツイートと位置情報を絡めたものがあります。
これらはどのようにして位置情報を取得しているのでしょうか?!
単にツイートに含まれている位置を表す単語から判断しているのでしょうか?
今はこれらのツイートの話題が少ないので調べられませんでしたが、今後はさらに深めて調べていきたいと思います。
↓この記事が参考になったら拍手をクリックお願いします。今後のブログ作りに役立てたいので。
- 関連記事
-
- 【分析】上位が圧倒! Twitterの利用アプリ別(クライアント)・機器別のツイート数の統計 by Twitter4J その3 (2012/05/29)
- 【分析】日本人らしさが判明! Twitterの曜日別・時間帯別のツイート数の統計 by Twitter4J その2 (2012/05/24)
- 【分析】Twitterのツイートの分析方法 by Twitter4J その1 (2012/05/24)
- 【分析】Twitter4Jと統計ソフトRを使ったTwitterの利用アプリとツイートの長さ(文字数)について(粗い分析) (2012/05/12)
- 【分析】Twitter4Jを使ったTwitterのツイートの分析方法について考えてみた (2012/05/05)