歡迎光臨
每天分享高質量文章

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

作者:徐麟,某網際網路公司資料分析獅,個人公眾號資料森麟(id:shujusenlin)

前言

 

近日,蔡徐坤一紙律師函發往B站,律師函內容顯示,“B站上存在著大量侵害委託人的內容,且點選率高,傳播範圍廣,影響十分惡劣。這些內容的製作、上傳、散佈、轉載都已侵害了委託人的名譽權、肖像權、表演權等權利。要求對方立即刪除侵權內容,確保不再出現任何侵犯內容。”

然而B站也毫不示弱,在其官微正面回覆蔡徐坤,並給蔡徐坤“友情推薦“了名譽權的相關文章,可謂有理有據

我們今天在這裡不去評判究竟孰是孰非,更多的是要用資料帶大家一起走進B站鬼畜影片的神秘世界,看看那些活躍在B站的“鬼畜“屆巨頭們

 

初識“鬼畜”

何為“鬼畜“?我們截取了百度百科上對於鬼畜影片的定義,讓大家能夠對鬼畜影片有個初步的認知:

我們此次的資料來源就是B站的鬼畜影片專區的資訊,可以看到影片資訊是以串列形式進行給出:

透過審查元素,我們找到了對應的介面,併進行串列資訊的爬取,獲得了從2018年釋出至今的30000多條鬼畜影片的資訊,包括了彈幕數,釋出時間,作者,標簽等:

部分程式碼如下:

def get_list(j,start,end):
    attempts = 0
        success = False
        while attempts < 500 and not success:
        try:
                        url = 'https://s.search.bilibili.com/cate/search?callback=jqueryCallback_bili_06768280565043483&search;_type=video&view;_type=hot_rankℴ=click&cate;_id=22&page;={}&pagesize;=20&time;_from={}&time;_to={}'.format(str(j),str(start),str(end))
            essay-header = {'User-Agent''Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0',
                                  'Connection''keep-alive'}
            cookies ='v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18'
            cookie = {}
                        for line in cookies.split(';'):
                                 name, value = cookies.strip().split('=', 1)
                 cookie[name] = value    
            html = requests.get(url,cookies=cookie, essay-headers=essay-header).content
            info = json.loads(html.decode('utf-8'))['result']
                        return info
                except:
            attempts = attempts+1
        return []

period = pd.read_excel('起止日期.xlsx')
guichu_all = []
for i in range(period.shape[0]):
    for j in range(100):
        this_guichu = get_list(j,period['start'][i],period['end'][i])
        guichu_all = guichu_all+this_guichu
        print('{} {}'.format(str(i),str(j)))

最後得到的資料如下:

萬物皆可鬼畜

 

綜述

在鬼畜界中,有一句被大家所熟知的話:萬物皆可鬼畜。它的意思是,沒有什麼是不能成為鬼畜素材的。鬼畜的題材之廣泛,往往會超出大家的想象,從動漫到電視劇,網遊,甚至連《貓和老鼠》《小豬佩奇》這種動畫片都常常出現在了鬼畜豪華套餐之中。

 

首先我們來看一下鬼畜影片的“使用者畫像”,提到對鬼畜影片的理解和認知,阿婆主們說第二,沒有人敢說第一,那麼我們就看看阿婆主眼中的鬼畜影片:

 

阿婆主們為了讓自己的影片能夠得到更多關註,都會給自己的影片打上非常全面、精準的標簽,其中包括了對影片的描述以及素材的資訊,我們將這部分資訊進行提取,為鬼畜影片刻畫其“使用者畫像”,透過詞雲進行展現:

除了鬼畜調教本書,有許多其他的非常有意思的描述,比如洗腦迴圈、惡搞、蜜汁帶感、有毒、魔性、新人都是怪物,這基本上是對鬼畜影片非常精確的描述了。這些描述也很好的解釋了鬼畜影片能夠“病毒式“”的傳播的原因了

下麵就進入“萬物皆可鬼畜”的正題,主要分為兩個部分:人物和素材,人物主要是指的現實生活中的人物,包括了傳統意義上的明星和鬼畜全明星兩部門,素材就指的是那些可以用來進行鬼畜創作的原始內容,包括了歌曲,電視劇,電影等等

人物篇

首先看一下人物篇,我們先來看下2018,2019兩年影片彈幕量最多的人物:

可以看到麵筋哥在18,19年的榜單上都排名第一,麵筋哥以其渾厚的嗓音,灑脫的風格,不羈的穿搭走入了b站,成為了鬼畜區的王者,未來期待麵筋哥更多的作品。同時看到2019年蔡徐坤進入了榜單,吳亦凡的排名也得到了明顯的提高,依然引起了越來越多的阿婆主的關註。

下麵我們把維度從年切分至周,製作動態圖看下大家18年至今每週的排名變化,我們使用的是大神之前搭好的模板,使用方法可以參照github上https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js 的講解:

贊(0)

分享創造快樂