ぼからん準新曲問題をどうにかしたい
ただのメモです。
1.きっかけ
今日いちにち、昨日気になったぼからん集計期間と楽曲投稿日がズレて、ポイントが分散してしまう問題をどう対処するか考えてたんだけど、わりとまじめな統計学の話になる気がしてきた
— じょん (@john_krmt) December 5, 2016
2016年に気になったことを今のいままで放置したが、とりあえず上記がきっかけ。
私が毎週見ている「ぼからん」*1が週単位集計であるがために、楽曲の投稿日によって集計上の有利不利が生じてしまう問題である。
なお、「ぼからん」は、オリコンの週刊ランキング等、一定期間で集計する売上ランキング等に適宜読み替えても差し支えない。
2.問題点
問題点は例えば、月曜日~日曜日が1週間の集計単位のランキングがあるときに、集計締切ギリギリの土曜日に投稿された楽曲は、それより早く投稿している楽曲と比較してランキング上、不利になってしまうことである。楽曲が公平に評価できず、本来、「ぼからん」に掲載(採用)されるレベルの楽曲が掲載されなくなる可能性がある。
「ぼからん」上でこのような楽曲は、ぼからん集計上の投稿が2週目の場合の評価値が、1週目よりも高かったり、楽曲の人気度に比較して1週目が低い評価値が算出される。「ぼからん」のコメント上ではこのような楽曲に対して「準新曲」と呼称されることが多い。*2とりあえずこれを準新曲問題と名付けておく(安直)。
3.「ぼからん」上の対応
これに対して「ぼからん」ではある対応が行われた。補正値Cの導入である。
「ぼからん」の楽曲評価値は、下記のように動画再生数、コメント数、マイリスト数の3変数を補正したものが使われている。
ポイント計算式は、実状に合わせて何度か変更されている。現在使用されているのは2018年版に改定された以下のものである。
(再生数×補正値C)+(コメント数×補正値A)+(マイリスト登録数×補正値B)
※ただし、マイリストポイントの上限は(再生数×5)までとする。
補正値A:(再生数+マイリスト数)÷(再生数+コメント数+マイリスト数)^10
※小数点3桁以下は切り上げ
補正値B:(マイリスト数÷再生数×100)×2
※小数点3桁以下は切り上げ
補正値C:1.4-(投稿日から集計日までの経過日数÷40)
※経過14日まで適用、15日以降は常時1.00倍とする。小数点3桁以下は切り上げ。週刊VOCALOIDとUTAUランキングとは (シュウカンボーカロイドトウタウランキングとは) [単語記事] - ニコニコ大百科
おそらく 補正値Cの導入は、ランキング上位が既存曲で多く占められるようになり、新曲が「ぼからん」で再生される30位以内に入りにくくなったことによる対応と想像されるが、当該問題にも僅かながら影響を与えていることが数式から分かる。
4.対応策
このような問題にどのような対応が考えられるだろうか。たとえば、投稿日からの日数で集計を区切る。投稿日もなんらかのかたちで評価値の補正要素とする。正直な話、ここはまだ勉強不足でよくわからない。できれば集計期間の区切りに依存しない方法で評価したい。「週刊がダメなら日刊で見ればいいじゃん」と思うかもしれないが、時間には限りがあるもので、限られた時間で上手くボカロを楽しみたい……。もちろんこれは集計の分解能の問題なので、どこかでキリを付ける必要がある。*3
時系列分析かとも思えるが、集計の話は深く掘っていかないと分からなさそうだ。
5.参考?
ボカロ系の統計のはなしといえば、_Gissy氏の「VOCALONOBIS」が思い出される。
VOCALONOBIS -VOCALOID DATABASE-
こちらは統計データの時間的推移(推移の仕方そのもの)から良曲を抽出している。(たぶん)
かつては以下のreadmeのページ以上に、モデルの詳しい解説があった気もするが変わってしまっている。(自分が理解できるかはともかく)
http://vocalonobis.com/readme.html
本件も解決できるか分からないけど、疑問点メモとしてここに書き留めておく。