ある地点の近傍のツイートの取得方法!setGeoCodeや計算による半径の指定とGeohash(ジオハッシュ)による矩形の指定 #Twitter4J


Twitterの検索ではある地点の緯度経度と半径を指定することでその地点からその半径内にあるツイートを取得することができます。

Twitter API ポケットリファレンス (POCKET REFERENCE)Twitter API ポケットリファレンス (POCKET REFERENCE)
(2011/07/15)
山本 裕介

商品詳細を見る



Twitter4Jでは次のように記述します。
(「//★位置情報(例 新宿駅を中心に半径3km)」の箇所です)
import java.util.List;
import twitter4j.*;

public class TwitterSearchGeo {

public static void main(String[] args) {

try {

//自動的に認証してくれる
//(バージョン2.2.4以降はgetInstance()ではなくgetSingleton()を推奨)
new TwitterFactory();
Twitter twitter = TwitterFactory.getSingleton();

String strText;

//検索語を指定する(※ここでいろいろとオプションを設定できる)
//日時はGSTだから多めに取っておくこと
Query query = new Query("since:2012-11-30 until:2012-12-02");


//★位置情報(例 新宿駅を中心に半径3km)
GeoLocation geo = new GeoLocation(35.690921,139.700258);
query.setGeoCode(geo, 3.0, Query.KILOMETERS);


//検索結果を取得
QueryResult result = twitter.search(query);

//検索結果のツイートを取得
List<Tweet> twiSearches = result.getTweets();

//ツイートの表示
for (Tweet tweet : twiSearches) {

//改行記号を除去(半角スペースに変換)
strText = tweet.getText().replaceAll("\r\n"," ");
strText = strText.replaceAll("\r"," ");
strText = strText.replaceAll("\n"," ");

//タブ記号を除去(半角スペースに変換)
strText = strText.replaceAll("\t"," ");


//コンソールに出力する(位置情報、日時、ユーザ名、ツイート)
System.out.println(tweet.getGeoLocation() + "\t" +tweet.getCreatedAt().toString() + "\t" + tweet.getFromUser() + "\t" + strText);
}

} catch(TwitterException te){
te.printStackTrace();
} catch(Exception e){
e.printStackTrace();
}
}
}


グーグルマップにマッピングするとこのようになります。
新宿駅半径3km_small


なお、注意する点は位置情報(GeoLocation)がないツイートの場合はアカウントのプロフィール情報から取得する仕様のため、指定場所に含まれない場所からのツイートが多量に紛れてしまうことです。
上の例だとプロフィール情報の場所が「新宿」であるツイートも取得されてしまいます。
不要な場合(ほとんどの場合でしょう)は除去しましょう。
上の地図でも不要なものは除去してあります。


他の方法(単純距離、地球の丸さを考慮、Geohash)


先の方法はTwitter APIに備わっている機能を使いました。
この方法は検索する場合に有効です。
つまり他の方法で取得した位置情報付きツイートには使えないので別に判別する処理が必要です。

以下に方法を3つ紹介します。
なお参考にさせていただいたページはこちらです。ありがとうございました。

なんとなく始めてみた、プログラマー雑記 ≫ データベース内の緯度・経度を利用して半径500m以内を検索する方法
MySQLで指定した緯度経度から半径nメートル内検索っぽいのを実現するSQL
GPS座標を短い文字列で扱えるGeoHashが面白い | ke-tai.org - インフィニットループ
緯度経度を文字列で表すGeoHash - @masuidrive blog
Geohashのアルゴリズム - @masuidrive blog
geohash demonstrator



単純に距離を測定する方法
座標上の2点間の距離は三平方の定理を利用した次の式で求めることができます。

A(x1, y1) と B(x2, y2) の距離ABは、2点間の距離の公式


この距離が指定範囲内であればいいということになるはずです。

次に緯度経度は原点からの距離を表しているわけではないので変換する必要があります。
指定した半径が何度に当たるのかを計算します。

地球の子午線弧長は約40008kmのため、割り算すると緯度1秒の長さは約30.87mとなります。
例えば3kmは約97.18173秒(=3000/30.87)、つまり約0.026995度(=(3000/30.87)/3600)となります。

この結果から緯度 35.690921±0.026995 かつ 経度 139.700258±0.026995の範囲にあるものを求めればいいことになります。


試しに新宿駅から半径3kmを青でマッピングしてみると次のようになります。
新宿駅半径3km(円あり)_small

う~ん一部満たしてないですね。。。
そもそも最初のツイートの位置がやや楕円状に分布していました。

この理由は緯度は距離とほぼ対応するのですが経度は場所によって対応が大きく変化するためです。
この件については下に書きます。
なお、指定する範囲が狭かったり、そこまでの精度を求めない場合はこれで問題ないですね。


地球の丸さを考慮して測定する方法
・緯度
緯度によって僅かながら緯度1秒の長さに違いがあります。
緯度35度上の緯度1秒の長さは約30.8mとなります。
 →緯度 - 緯度1秒の長さ - Wikipedia


・経度
緯度は高くなるにつれ半径は小さくなり、北極点・南極点では0となります。

計算方法はまずその地点の球体の切断面の半径を考えます。
地球の半径は6378137mであり、切断面の半径をrとすると次のようになります。

r = 6378137 × cos(北緯 / 180 × PI.png)

北緯を使うことに要注意です!


これを円周の長さ2PI.pngrに代入して円周を求めます。

円周 = 2PI.png × 6378137 × cos(北緯 / 180 × PI.png)

あとは円周から経度1度当たりの距離、1秒当たりの距離を求めます。
1度当たりの距離 = 円周 / 360
1秒当たりの距離 = 円周 / (360 × 60 × 60)


例えば新宿駅(北緯35.690921度)の場合、
円周は約32547966.09952mとなり、1秒当たりの距離は約25.11mとなります。


Geohash(ジオハッシュ)による矩形エリアの指定
これまでは指定した半径内を考えてきました。
他の方法としてGeohash(ジオハッシュ)を用いた矩形エリアによる方法もあります。

Geohash(ジオハッシュ)Wikipediaより抜粋
経緯度に基づくジオコーディング方法の一つである。パブリックドメインになっている。階層的な空間データ構造であり、空間を分割していくことによって表現する。
ジオハッシュは、任意の精度で表現できる、文字列の末尾を削っていくと徐々に精度が落ちる、といった特徴がある。
そのため、近隣の2地点を表すコードは、似たような文字列から構成されることが多い。同時に、より多くの文字列が一致すれば、当該2点がより近いことを表す。


Geohashは,地図上の矩形エリアをあるアルゴリズムにより文字列化して表現する手法です。
このGeohashが特徴的なのは、単に文字列になるのではなくGeohashの文字列が長ければ長いほど詳細な情報を持つことです。
つまり、文字列が短い場合は矩形エリアは広くなり、長くなると矩形エリアは狭くなります。
また先頭文字列が一致するGeohashの矩形エリアは,その一致している文字列が示す矩形エリアに内包されています。

GeoHashの利点は次の点です。

・場所の絞り込みが簡単に行え、隣接エリアの取得も容易である。
 (多くの言語で隣接エリアの取得ができます)
・範囲が前方一致で検索できるので文字列マッチやSQLのlike文などとも相性がよく、
 高速な処理が可能となる。
・座標と精度を短い文字列で持つことができるので、URLで扱いやすくなる。


文字列化のアルゴリズムは難しいですが、有志が各プログラミング言語用に作成してくれているので実装は容易です。
(てぃーはJava用のものを使いました。)


例えば新宿駅(緯度35.690921、経度139.700258)は「xn774cqdevyk」となります。
(図はgeohash demonstratorより作成。図では大文字)
先頭10文字

小さくてよく分からないので拡大してみます。
先頭10文字(拡大)
ほんの小さい矩形エリアが分かります。

また先頭6文字「xn774c」と7文字「xn774cq」では次のようになります。
先頭6文字、7文字
7文字「xn774cq」のエリアが6文字「xn774c」のエリアの一部であることが分かります。


矩形エリアはあらかじめ決められているので目的の場所がエリアの中心にあればいいのですが、端になる場合はある程度の大きさのエリアと隣接エリアを指定する必要があります。

例えば先頭6文字「xn774c」とその隣接エリアは次のようになります。
先頭6文字(隣接も)

希望の範囲を絞るのにはやや大変かもしれません^^


以上、ある地点の近傍の範囲を取得する方法は様々です。
状況とスキルに応じて使い分けていきましょう。

  


↓この記事が参考になったら拍手、ツイート、いいね、はてブ、いずれかをお願いします。今後のブログ作りに役立てたいので。
関連記事

コメントの投稿

非公開コメント

プロフィール

てぃー

Author:てぃー
詳しい自己紹介:こちら
Twitter:@teapipin


follow us in feedly 
にほんブログ村 IT技術ブログへ にほんブログ村 PC家電ブログへ
現在の閲覧者数:

ブログ内検索
今日のアクセス数の多い記事
カレンダー

09月 | 2017年10月 | 11月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -
過去記事ダイジェスト
お知らせ
ツイッター分析の分析結果が新潟大学教育学部の論文に引用
教育の実証研究の場でも高く評価!

ツイッター分析の分析結果が和歌山大学防災研究教育センターの論文に引用
防災の研究において評価!

2015年版ツイッター分析(世界編)が始動!
今回は世界の国別・言語別ツイートを分析!

ツイッター分析の分析結果が慶應義塾大学有名教授の研究論文などに引用
文系の研究までも制覇!

Interval Timer EX
有名雑誌「Mac Fan 2015月2月号」に「インターバルタイマーEX」が3度目の掲載!ポモドーロテクニックに有効!

自作Macアプリ3部作が2014年 Vector 年間ダウンロードランキング Mac トップ100にすべてランクイン

TimeCalcを公開しています!
時間計算、年齢計算、学歴欄作成など。

ツイッター分析の分析結果が人工知能の研究に!
ブログが学会発表で引用されました。

今まで開発したiPhoneアプリのソースコードを公開しています!
勉強に役立ててください。


2013年 Vector 年間ダウンロードランキング Mac トップ100に「デジカメ変更日を撮影日に一括変更 for Mac」と「インターバルタイマーEX」がランクイン

Interval Timer EX
有名雑誌「Mac Fan 2013月4月号」に「インターバルタイマーEX」が2度目の掲載!!

リアルタイムツイッター地図
リアルタイムツイッター地図を公開しています!
位置情報付きツイートをリアルタイムに表示します。

新たなツイッター分析としてイベントツイート分析を行っています!

2012年8月1日(水)開催の「Twitter勉強会」で発表
ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack from teapipin


Interval Timer EX
有名雑誌「Mac Fan 2012月3月号」に「インターバルタイマーEX」が掲載!!



 

はてなブックマークの人気記事