ニコニコ生放送ログデータ解析
5年以上ニコニコ生放送をしている方(生主)にもらった放送の過去のログ(テキストファイルで255MB)を分析した結果が残っていたので、記録のためアップします。
対象:ニコニコ生放送コメントログファイル(NCV:XML)
集計:各SEの回数
SEの種類:3万くらい
分析に使った言語:Python
※SEとはコメント内に登録した特定文字列を書き込むことで音声が流せる機能です。
ランキング
集計結果:
Top25
Top100
Top500
感想:
Top500を見ると, きれいなべき乗則が成り立っていることが分かります。
冪乗則 - Wikipediaによると
複雑システムにおいて、冪乗則は、しばしば階層性と構造安定性のしるしであると考えられる
とあります。確かにその時の生放送の会話内容、SEの追加されるタイミング、追加される量、追加されるSEの質、SEを使うリスナーの好みなどにも依存するので生放送は複雑系システムと言えると思います。
階層性に関してはSEの種類が膨大であるため、リスナーが全てのSEを把握できていないため気に入ったSEを鳴らすため、覚えているSE, 覚えていないが検索されてたまに使われるSE, 知らないSEの3層構造になっていると思います。また構造安定性に関してはほとんどのSEは滅多に使われないのである意味安定していると見なせます。
他の見方としてはAmazonなどがよく例に出されるロングテールビジネスの図にも非常に近いので説明の方法は他にもたくさんあると思います。
一言
べき乗則が成り立つ理由を探る研究としてはマルチエージェントシステムを用いた分散人工知能の範疇になると思います。
各SEを元ネタや文字数でクラスタリングした後で, 各リスナーをエージェントとみなしパラメータとして各SEクラスタへの好みやコメント頻度, 放送来訪頻度等を加味してシミュレーションすると面白い結果が出そうな気がします。