來自:同程安全應急響應中心(微訊號:ysrc_team)
前言
本文首發於個人的公眾號和v2ex,事先也沒想到會有這麼多人關註。在這邊重新編輯一下,去掉了原先前言中對此次疫苗事件背景的描述及部分不嚴謹的措辭。全文的觀點從技術討論出發,儘量客觀中立,觀點及行為為員工自發,不代表本人所在公司及團隊。
需要說明的是這次資料是涵蓋所有的疫苗資料,並不是針對此次問題疫苗定向蒐集的資料,所有資料皆來自於政府相關網站的公開資料。
資料採集源
因為有一些資料實在太難找了,只能來看一下近兩年的資料,並且不考慮疫苗增補名單資料(太零碎了)。
所以這次整理的資料並不完善,所以把所有蒐集到的資料全部同步到了GitHub,有需要可以自取或者提issue和pr。
因為時間跨度較大,所以沒有把批次的資訊納入本次的統計範圍。本文主要從技術層面蒐集了此次問題疫苗事件相關企業生產的各類疫苗在各省份的銷售情況。
採集關鍵詞
-
省名 第二類疫苗 採購
-
省名 第二類疫苗 公示
-
省名 第二類疫苗 產品及價格
-
省名 第二類疫苗 供應商
-
省名 第二類疫苗 中標目錄
-
省名 第二類疫苗 參考價
-
省名 第二類疫苗 入圍結果
採集結果整理如下
-
北京市,來源:北京市2018-2019年免疫規劃用第二類疫苗採購專案
-
天津市,來源:天津市2018-2020年第二類疫苗集中採購專案擬中標/擬中選結果
-
上海市,來源:2018 年度上海市第二類疫苗集團採購專案中標目錄
-
重慶市,來源:重慶市第二類疫苗供應商入圍採購-採購結果預公示
-
河北省,來源:河北省疾病預防控制中心2018年度第二類疫苗省級集中採購專案中標公告
-
山西省,來源:2018年度山西省第二類疫苗集中採購入圍企業產品及價格
-
遼寧省,來源:遼寧省第二類疫苗平臺招標採購公告
-
吉林省,來源:2017年度吉林省第二類疫苗集中採購企業產品議價結果名單
-
黑龍江省,來源:黑龍江省2018年第二類疫苗掛網採購中標企業產品及價格審核結果
-
江蘇省,來源:江蘇省第二類疫苗集中採購中標產品
-
浙江省,來源:浙江省2018年第二類疫苗中標目錄
-
安徽省,來源:安徽省2018年第二類疫苗集中採購目錄
-
福建省,來源:福建省2018年第二類疫苗集中採購目錄_湄洲島
-
江西省,來源:1228江西省2018年度第二類疫苗入圍品種目錄
-
山東省,「找不到」
-
河南省,來源:2017年河南省二類疫苗供應商入圍資格採購專案中標結果公告
-
湖北省,來源:2017年湖北省第二類疫苗集中採購成交產品
-
湖南省,來源:湖南省第二類疫苗集中採購檔案
-
廣東省,來源:2018年度廣東省第二類疫苗成交品種目錄
-
海南省,來源:海南省第二類疫苗品種目錄(第一批)
-
四川省,來源:2017年度第二類疫苗掛網陽光采購結果
-
貴州省,來源:貴州省第二類疫苗集中採購報價解密結果
-
雲南省,來源:雲南省疾病預防控制中心二類疫苗公開招標入圍專案入圍公告
-
陝西省,來源:陝西省2018年二類疫苗集中採購專案入圍供應商磋商結果
-
甘肅省,來源:甘肅省第二類疫苗供應資格採購專案中標公示
-
青海省,來源:所有的第二類的價格資訊全部轉到:223.220.250.135:8038 無法檢視
-
臺灣省,暫無
-
內蒙古自治區,2018年內蒙古自治區第二類疫苗集中採購入圍企業產品及價格
-
廣西壯族自治區,2017年度廣西壯族自治區第二類疫苗直接掛網採購擬入圍產品目錄(電子版)
-
西藏自治區,實在找不到
-
寧夏回族自治區,2016年寧夏回族自治區第二類疫苗公開招標預中標結果
-
新疆維吾爾自治區,《自治區2017年第二類疫苗入圍品種及價格目錄》20170828.xls
-
香港特別行政區,暫無
-
澳門特別行政區,暫無
綜上,除去港澳臺 ,山東,青海以及西藏以外,只蒐集到了28個省級行政區的二類疫苗資料公示情況。
單單是檢索,下載的過程,就花了7個多小時,主要遇到了一些問題:
-
某些網站需要註冊登入才可以檢視
-
有些網站缺乏維護被掛了黑鏈
-
搜尋框有,但是實際並不能搜尋
-
有些只有圖片,沒有文字
-
有些只在純公告但無具體資料
-
找不到資訊的有
-
山東省,只看到新聞說建了可追溯的展示平臺,但本次暫未找到
-
青海省,所有的第二類的價格資訊需要賬號登入進相關係統才能訪問
-
西藏,暫時沒能搜尋到相關資料
如圖,最終獲取到28個省份的資料,(圖中漏掉了河北)。
資料整理
由於本人不是專業的醫學行業人士,所以統一把資料整理成以下的csv格式。
通用名,來源,生產企業,申報企業,省,中標年份
name,src,create_company,report_company,prov,year
各項含義如下:
-
通用名 :藥名 -> name
-
來源:國產/進口 -> src
-
生產企業 -> create_company
-
申報企業:如果為空再填充為生產企業 -> report_company
-
省 -> prov
-
中標年份 -> year
期間因為整理非XLS的檔案消耗了大量的時間,暫時只能先把成型的資料集提取出來。
目前處理結果如下:
-
資料標準csv(14)
吉林省,四川省,天津市,寧夏回族自治區,安徽省,山西省,廣東省,新疆維吾爾自治區,江蘇省,江西省,海南省,貴州省,遼寧省,黑龍江省,
-
等待整理的資料(13)
上海市,雲南省,內蒙古,北京市,廣西省,河南省,浙江省,湖北省,湖南省,甘肅省,福建省,重慶市,陝西省,
如圖所示
-
亮綠色是容易獲取的資料
-
暗綠色的可以獲取的資料
-
黑色的是沒有獲取到資料
資料分析
直接採用pandas+echart進行處理,首先把所有的csv整合,共有1529條資料
,對所有的生成企業進行統計分析:
count 167.000000
mean 9.143713
std 15.839281
min 1.000000
25% 1.000000
50% 3.000000
75% 9.000000
max 98.000000
共 167 個廠家,其中中位數是3,最高是98,很明顯這是一個偏態分佈。 順手看一下箱線圖:
也就是說,絕大多數的藥,都由大廠生產。我們輸出前10個看看,長春長生位列第2。
生產廠家 | 數量 |
---|---|
北京科興生物製品有限公司 | 98 |
長春長生生物科技有限責任公司 | 91 |
華蘭生物疫苗有限公司 | 72 |
玉溪沃森生物技術有限公司 | 57 |
上海生物製品研究所有限責任公司 | 56 |
大連雅立峰生物製藥有限公司 | 51 |
長春生物製品研究所有限責任公司 | 50 |
華北製藥金坦生物技術股份有限公司 | 46 |
遼寧成大生物股份有限公司 | 44 |
北京智飛綠竹生物製藥有限公司 | 43 |
我們再來看看各個省份中,長春長生等佔據的百分比
[{'name': '天津', 'value': 14.0625},
{'name': '遼寧', 'value': 17.647058823529413},
{'name': '黑龍江', 'value': 13.274336283185843},
{'name': '安徽', 'value': 9.75609756097561},
{'name': '新疆', 'value': 16.94915254237288},
{'name': '江蘇', 'value': 14.563106796116504},
{'name': '江西', 'value': 12.179487179487179},
{'name': '山西', 'value': 16.52173913043478},
{'name': '吉林', 'value': 17.857142857142858},
{'name': '貴州', 'value': 14.17910447761194},
{'name': '廣東', 'value': 13.445378151260504},
{'name': '四川', 'value': 16.93548387096774},
{'name': '寧夏', 'value': 17.5},
{'name': '海南', 'value': 14.285714285714285}]
長春長生等在14個有資料的省份供應商中均佔有一席之地:
-
亮紅色 接近20%
-
暗紅色 接近10%
-
黑色的是沒有獲取到資料
對比下從官網下載的公司銷售策略圖
做到這裡已經到了晚上11點,從早上9點做到現在,花了整整14小時,才將將整理了一半的省份,所以目前的資料並不完整,僅供參考,後面空了可能會繼續整理更新到Github上。
後記
除了在朋友圈和微博刷屏表達我們的憤怒,或許我們還能做點什麼,這也是我的出發點。最初的文章裡面有些措辭不是太中性,抱歉,本只想在自己能力範圍內做一點事情。
如果說有什麼建議的話,希望相關部門在資料公示方面後續能繼續加強吧。
●編號464,輸入編號直達本文
●輸入m獲取到文章目錄
演演算法與資料結構
更多推薦《18個技術類公眾微信》
涵蓋:程式人生、演演算法與資料結構、駭客技術與網路安全、大資料技術、前端開發、Java、Python、Web開發、安卓開發、iOS開發、C/C++、.NET、Linux、資料庫、運維等。