Dota 知名解说在优酷粉丝重合率分析

Table of Contents

1 为什么要做这样的分析

我喜欢 Dota,吃饭时间通常会去优酷看看 Dota 视频,不知不觉这种形式已经陪伴我的两年大学生活以及一年左右的工作。平常经常看酒神,大P神,乖神,鼠大王,阿川和蛙导开黑视频,也会看小满如何黑牛蛙。看的挺多的,不同的解说有不同的特色,大酒神的闲扯(总能让人收获到很多高出这个游戏的东西),阿川的兄弟激情对干,老鼠的喝杯牛奶压压惊……

上周五我突然有一个想法,我想知道看视频的人有哪些「共性」, 喜欢老鼠的人是不是同时也会喜欢 820,就好像我上面说的解说我基本都常看, 但是 Nada, Ks,海涛的视频就看的少了?是不是有些人和我正好相反呢?

一方面我想验证我的想法,另外一方面我又想看看能不能得出其它有意思的结论。

Just For Fun !

2 分析的前提

每个视频解说都有一个 ID,会有相应的粉丝。一个假设:关注某个解说,说明喜欢某个解说,即: 关注 = 喜欢 。 进而,假设即关注了 09 又关注了 Pis, 那么我认为既喜欢 09 又喜欢 Pis。

如果这个假设不成立,那么后面的分析就没有任何的意义。

3 数据来源以及数据量

数据源于优酷,每个解说的 ID 和关注的粉丝的 ID。

  1. 解说选择: 820、09、海涛、满楼水平、小满、牛蛙、老鼠、狂湿、Ks、Nada、阿川、冷冷、Pis、梅西、凯文、小乖、情书 等 17 位解说。
  2. 粉丝选择:最新关注的该解说的前3150个粉丝。

备注:

  1. 因为舞儿设置的粉丝访问权限,无法抓到粉丝的信息,所以没有舞儿的分析。
  2. 优酷粉丝页面,每页有 30 个粉丝,最多能访问前 167 粉丝页(不信你可以试一下page167有粉丝信息,而 page168打开没有粉丝信息)。也就是最大可分析 4010 个粉丝,又因为抓取的过程中有一些页面打开超时,为了保证公平性,最后选择了所有解说抓取到的最小粉丝个数作为分析量,也就是 3150 个。其实我觉得 3150 这个数量足以说明问题了,因为我要分析的是解说*粉丝的喜欢捆绑性*,而*不是哪个解说更受欢迎*! 最新的关注,可以反应现状,按照历史分析的话,海涛和大酒神开始做视频的时候,很多解说还没出道呢……

4 算法及结果展现

算法比较简单,计算每两个解说的 3150 粉丝中共有粉丝的个数即可,通过粉丝重合个数可以输出下面这样的 17 份报告(以 820 为例):

Name: 820 TotalAnalyseFollowers: 3150
    ->      LaoShu_SJQ        777      12.68%
    ->           NiuWa        598       9.76%
    ->          HaiTao        514       8.39%
    ->             Pis        490       7.99%
    ->         XiaoMan        473       7.72%
    ->            Nada        440       7.18%
    ->     TuFu_AChuan        380       6.20%
    ->         QingShu        368       6.00%
    ->  ManLouShuiPing        342       5.58%
    ->        XiaoGuai        317       5.17%
    ->     Pc_LengLeng        278       4.54%
    ->        KuangShi        253       4.13%
    ->      Ks_ChenBin        240       3.92%
    ->           Kevin        229       3.74%
    ->     MeiXi_Huang        225       3.67%
    ->            2009        205       3.34%`

可以看出在最新的关注的 3150 人中, 820 和 老鼠 共有的粉丝有 777 个,最多;和 09 共有的粉丝有 205 个,最少。后面的 12.68% 是 =777/(777+579+514+…+205)=,而不是 =777/2150=,我想反映的是相互之间的比例关系(其实效果是一样的,分母都是固定的值,比例关系一样)。

于是就可以得到下面的这一组具体的图,这些数值足以反映每个解说于其他解说的粉丝关系:

820_WithOthersCompare.png 2009_WithOthersCompare.png HaiTao_WithOthersCompare.png ManLouShuiPing_WithOthersCompare.png XiaoMan_WithOthersCompare.png NiuWa_WithOthersCompare.png LaoShu_SJQ_WithOthersCompare.png KuangShi_WithOthersCompare.png Ks_ChenBin_WithOthersCompare.png Nada_WithOthersCompare.png TuFu_AChuan_WithOthersCompare.png Pc_LengLeng_WithOthersCompare.png Pis_WithOthersCompare.png MeiXi_Huang_WithOthersCompare.png Kevin_WithOthersCompare.png XiaoGuai_WithOthersCompare.png QingShu_WithOthersCompare.png

不够爽!以某个人为轴没有办法得到解说圈粉丝捆绑的关系(也就说解说之间的关系),基于上面的这些数据做一些假定,就可以得到 17 个解说之间的粉丝捆绑关系。以下面的小乖和牛蛙的数据为例:

Name: XiaoGuai TotalAnalyseFollowers: 3150
    ->            Nada        540      12.71%
    ->             Pis        495      11.66%
    ->         QingShu        484      11.40%
    ->           NiuWa        338       7.96%
    ->      LaoShu_SJQ        322       7.58%
    ->             820        317       7.46%
    ->         XiaoMan        255       6.00%
    ->            2009        254       5.98%
    ->     TuFu_AChuan        246       5.79%
    ->          HaiTao        172       4.05%
    ->  ManLouShuiPing        162       3.81%
    ->      Ks_ChenBin        157       3.70%
    ->        KuangShi        137       3.23%
    ->     Pc_LengLeng        136       3.20%
    ->           Kevin        122       2.87%
    ->     MeiXi_Huang        110       2.59%

Name: NiuWa TotalAnalyseFollowers: 3150
    ->         XiaoMan        823      11.89%
    ->     TuFu_AChuan        763      11.02%
    ->             820        598       8.64%
    ->  ManLouShuiPing        587       8.48%
    ->          HaiTao        510       7.37%
    ->      LaoShu_SJQ        497       7.18%
    ->            Nada        398       5.75%
    ->        KuangShi        389       5.62%
    ->     MeiXi_Huang        372       5.37%
    ->             Pis        361       5.22%
    ->        XiaoGuai        338       4.88%
    ->           Kevin        335       4.84%
    ->         QingShu        331       4.78%
    ->     Pc_LengLeng        257       3.71%
    ->      Ks_ChenBin        227       3.28%
    ->            2009        136       1.96%

在小乖的分析中,牛蛙粉丝占比排第4,在牛蛙的分析中,小乖粉丝占比排11。那么小乖和牛蛙之间的权重为15(4+11)。

以此类推,可以计算出任意两个解说的权重,权重的值越小,则认为捆绑关系越强。捆绑关系与权重的值做以下假设:

  • 非常强: [2, 4)
  • 强: [4, 7)
  • 一般: [7, 11)
  • 很弱: [11, 32)

根据这些分析,得出下面的粉丝捆绑关系结构图:

YoukuDotaComFollowersTopology.png

红线表示「非常强」, 蓝线表示「强」, 灰线表示「一般」,没有连结线的表示「很弱」。注意这里的很强或者很弱都是解说之间*相对的*。

这里的权重计算可能不合理,但是我没有更好的算法。

5 有趣的现象(可能的结论)

根据上面的分析,尤其是最后一幅图,可以看到一些很有趣的现象:

  • 左半部分基本上都是业余 Dota 大神解说,而右半部分基本上都是打过职业的解说(而且右半部分的解说粉丝捆绑性都较强)。能说明什么我就不说啦,大家都懂的。
  • 蛙导和阿川捆绑性强是不是和经常一起开黑有关?
  • 小满和蛙导捆绑性强和"满锅牛蛙"有关还是和小满"真实的故事"有关?给大家一个想像的空间
  • 小满和满楼捆绑性强是不是因为"小满"、"满楼"傻傻分不清楚?
  • 老鼠和 820 捆绑性强是不是因为俩人经常一起"搞基"?
  • 狂湿、梅西、凯文捆绑性强,为啥?
  • 情书、Nada、P 神捆绑性强是不是因为3个人都是操作和细节控?

5.1 为 9 神说句话

有一个很特别的解说,不知道大家看到没有,就是我们的大酒神是唯一一个和其它解说既没有「非常强」也没有"强"的粉丝捆绑关系,只有和 P 神、乖神有「一般」的粉丝捆绑关系。好尴尬!

我有两个朋友,他们都是 9 神的铁杆粉丝,我发现他们两个有一个共性:"不看(或者很少)其他解说的视频,但是9神基本上期期都看",可以从这个层面上可以把粉丝分成两个团体: 9 神的粉丝和 9 神以外的粉丝,也就可以解释上面的为什么 9 神相对其他解说粉丝的重复率低很多的原因。

9神是我非常佩服的一个人,不管是曾经的职业经历,还是后来的转行做视频解说。他让我感觉到,他是真的想把每一件事情做好(包括每一期的视频都是在用心的去做)。我想,9 神的铁粉一定不仅因为 9 神的 Dota 水平,而是因为 9 神在视频中讲到的东西。这些东西已经远远的超过了 Dota 本身。还听说最近要进军演艺圈和华语乐坛了,不过听到他的一路向北,我尿了,以后不唱歌,我还是会看你视频的……

我不算是 9 神的铁粉,也不会痴迷到因为某个解说说了 9 神的坏话就会去喷。如果要说铁杆粉丝的话,一个是水爷,另外一个是以前阿川视频中经常出现的「大拿」(现在貌似不玩了?)。

6 开源

分析脚本使用 Python 写的,画图使用了几个开源库。代码我已经上传到我的 Github 了。

上面的算法有些可能不是很合理,如果觉得不爽,可以自己改代码分析。

Github 地址: https://github.com/zhangjie2012/DotaCommentatorYoukuDataAnalyse

Date: 2014-02-11 00:00:00

Author: JerryZhang