ついったーランキング開発日誌 このページをアンテナに追加 RSSフィード

ついったーランキング
 | 

2007-05-06

ついったーランキングをpublic_timelineから取得するように変更 03:10 ついったーランキングをpublic_timelineから取得するように変更 - ついったーランキング開発日誌 を含むブックマーク はてなブックマーク - ついったーランキングをpublic_timelineから取得するように変更 - ついったーランキング開発日誌 ついったーランキングをpublic_timelineから取得するように変更 - ついったーランキング開発日誌 のブックマークコメント

ついったーランキングの集計の対象を自分(ikko)のFriendsから

public_timelineに変更しました。

http://twitter.monolist.jp/

これにより全世界のstatusをクロールしなければならないので

日本語のみ取得するようにロジックを加えました。


が、「漢字」「ひらがな」「英数字(全角)」「。、」がある場合に

日本語と判断してしまうと「漢字」で中国語と判定される可能性があるため

「ひらがな」「英数字(全角)」「。、」だけで判定しています。


取りこぼしがありそう…。


日本語中国語を判断する方法をご存知の方がいましたら

教えてください…。


ついでに

「つぃったー」から「ついったー」にこっそり変えました。

RSSのdescription部分ユーザのstatusを表示するように変更しました。

tsupotsupo2007/05/12 09:46http://d.hatena.ne.jp/Gimite/20070325/1174830426 あたりがヒントになります。中国語でしか使わない可能性の高い漢字の登場頻度が高ければ中国語、そうでなければ日本語と判断する、という感じでしょうか。

 |