Gsearchが収集しているデータについて
Gsearchが収集しているニコニコ動画関連データは
- 補助スクリプトが使われた動画
- ニコニコ動画ランキングに載った動画(時、日、週、月、総合)
- 新着動画(時々)
の3種類に当てはまる動画データを収集しています。APIが取得できないコミュニティ動画に関しても情報を取得できるようになっています。(現在も取れているはず・・・)
すべての動画データを収集することもできますが、ニコニコ動画に負荷がかかるために行っていません。
また、Gsearchが収集しているデータはある一時のデータなのでニコニコ動画に比べてデータが古くなっています。
動画の視聴が可能な動画に関しては情報の更新を行っており、だいたい2週間ぐらいですべてのデータが更新されます。
また、動画再生数が多い動画の方が更新回数が多くなるようになっています。
あまやどぶろぐさんが解析したデータの妥当性について
ニコニコ動画のマイリス数・再生数・コメント数の分布を調べてみた
マイリスト数や再生数、コメント数が少ないところのデータは妥当性は低いと思います。
Gsearch(G)の動画数が約810,000 再生数:5,919,386,430 コメント数:820,026,002
ニコニコ動画(N)の動画数:2,025,913 再生数:8,505,164,909 コメント数:1,735,257,208
となっていて、取得できていない動画データの平均は
(N再生数-G再生数)-(N動画数-G動画数)= 約2126
(Nコメント数-Gコメント数)-(N動画数-G動画数)= 約752
なので、大雑把ですがあまやどぶろぐさんの解析データでは再生数が5000以下、コメント数が1000以下のデータについては妥当性が低いかなと思います。
(マイリストはよく分かりません・・・)
それ以上の再生数とコメント数のデータは妥当性があるのではないかと思います。
あまやどぶろぐさん面白いデータ解析ありがとうございました。
———
最近の深夜のUP帯域がやばい・・・
スピードテストとかでは最高で110kb/sとかしかでないのにMRTGの解析結果だと170kb/sとか・・・
この時間帯は外部からアクセスがものすごく重たいですね。
しかも、自鯖なので自分の普通のネットアクセスも回線の影響で重たいです・・・
一応、今後1ヶ月ぐらいに光回線になる予定です。
Gsearchの改造やAPIの配信プログラムも作ってるんですが、時間が無くてあまり進んでません・・・
データベースもどんどん膨らんでく・・・


あまやどブログを書いている者です。
わざわざ詳細の解説をしていただきありがとうございますm(_ _)m
参考にして記事に追記させてもらいました。
過去の記事に「Gsearchで検索に5秒以上かかると負荷がヤバい」って
あったと思うんですけど、今は10秒20秒とかかかっちゃいますよね。
自分のネットアクセスまで重くなってしまうのはつらいですね……。
早く光回線で快適になることをお祈りします。
コメント by ナノ — 2009/1/26 月曜日 @ 22:20:08
>ナノさん
こちらこそGsearchを有効利用してくれてありがとうございます。
>過去の記事に「Gsearchで検索に5秒以上かかると負荷がヤバい」って
>あったと思うんですけど、今は10秒20秒とかかかっちゃいますよね。
そうですね。負荷が減るように修正しようといろいろやってるんですが
なかなか解消されません。根本的に直すためにDBの修正も計画してたりします。
コメント by GRN — 2009/1/27 火曜日 @ 17:50:14