中國通訊工業協會通訊和資訊科技創新人才培養工程專案辦公室
通人辦〔2017〕 第45號
“R語言機器學習與大資料視覺化”暨“Python文字挖掘與自然語言處理”核心技術高階研修班的通知
各有關單位:
為了響應國家大資料戰略加快建設數字中國,加強資料科學的創新發展和技術應用,打造大資料專業技術人才隊伍,滿足行業對人工智慧、機器學習、深度學習等相關領域高階人才的迫切需求,我單位將於2018年1月23日至26日在上海、1月25日至28日在廈門分別舉辦“R語言機器學習與大資料視覺化”、“Python文字挖掘與自然語言處理”核心技術高階研修班;課程標的、特點、教學大綱及師資安排等具體內容詳見附件。
附件:
一、課程物件
各高等院校大資料相關學科、計算機、軟體、資訊管理、統計、電子商務、金融、工商管理、數理統計專業等科研、教學帶頭人,骨幹教師、博士生、碩士生,機器學習、資料挖掘、文字挖掘及自然語言處理技術的愛好者與潛在研究者。
二、時間與地點
2018年1月23日~26日 上 海
2018年1月25日~28日 廈 門
三、課程標的及特點
-
透過實際的案例分析與流程演示,熟悉機器學習、大資料視覺化、文字挖掘與自然語言處理等核心技術並學會如何將相應的技術運用到自己的實際工作中;
-
學會將資料挖掘的能力從有限的結構化資料延伸到非結構化的海量文字材料,全面提升個人的資料挖掘與分析應用能力;
-
透過緊密結合應用實體,針對工作中存在的疑難問題進行分析講解和專題討論,進而有效提升學員解決科研及教學中實際問題的能力同時提升其從資料角度去思考的能力;
-
採用理論知識+案例示範+練習討論的workshop教學樣式,從典型案例入手;既適合零基礎的初學者,也適合經驗豐富的操作者;
-
全棧式的資料科學及大資料人才培養體系,額外提供價值4000元共350G、75課時的python機器學習、資料挖掘、網路爬蟲與文字挖掘最新教學影片及課件PPT,以協助高校開展資料科學與大資料專業建設,協助教師開展相關課程教學與科研;
-
透過流微信平臺建立與授課專家的長期的答疑聯絡,提供即時的線上技術諮詢;
四、課程內容
模組一:R語言機器學習與大資料視覺化技術
第一天 |
第1講:資料視覺化(統計圖形) |
1. 資料視覺化簡介 2. R語言基礎作圖 3. ggplot2簡介 4. 常見統計圖形 |
第2講:資料視覺化(動態視覺化) |
1. R的動態視覺化框架 2. Echarts簡介 3. Shiny與動態報告 4. 案例1:做一個動態視覺化的小系統 |
|
第二天 |
第3講:資料挖掘(資料處理與關聯規則) |
1. 資料處理與dplyr 2. 資料的清洗與轉換 3. 關聯規則簡介 4. 案例2:零售店資料的挖掘 |
第4講:資料挖掘(聚類和分類) |
1. 資料挖掘與機器學習 2. 聚類和分類簡介 3. 層次聚類分析 4. K-Means 聚類分析 5. 基於密度的聚類 6. 案例3:網際網路行為分析 |
|
第三天 |
第5講:資料挖掘(分類演演算法) |
1. 邏輯斯蒂回歸 2. 混淆矩陣與交叉驗證 3. 決策樹 4. 隨機森林 5. Boosting 6. 案例4:足球比賽資料的機器學習 7. 分析與討論 |
第6講:資料挖掘(神經網路和深度學習) |
1. 人工智慧簡介 2. 感知機和神經網路 3. 影象分析簡介 4. 深度學習與摺積神經網路 5. 案例5:訓練影象識別模型 6. 課程總結與討論 |
模組二:Python文字挖掘與自然語言處理技術
第一天 |
第1講:自然語言處理及文字挖掘介紹 |
1.自然語言處理簡介 2.文字挖掘簡介 3.自然語言處理與python 4.自然語言處理相關工具概述及對比 |
第2講:python自然語言處理環境及基礎語法 |
1.Anaconda套件 2.基本資料結構(串列/字串/字典) 3.基本語法(條件/迴圈/函式/類/模組) 4.Jupyter Notebook基本使用 5.python在自然語言處理中的應用 |
|
第3講:文字資料處理 |
1. 基礎包 numpy 2. 繪圖與視覺化 matplotlib與 seaborn 3. 自然語言處理包NLTK 4. 文字語料與詞彙資源 5. 文字資料獲取之爬蟲 6. 文字預處理 |
|
第二天 |
第4講:文字分類 |
1. 分類與標註詞彙 2. 文字分類簡介 3. 各類文字分類模型 4. 為語言樣式建模 5. 案例分析 |
第5講:文字資訊提取 |
1. 資訊提取 2. 分塊 3. 開發和評估分塊器 4. 語言結構中的遞迴 5. 命名物體識別 6. 關係抽取 7, 案例演示 |
|
第6講:文法分析 |
1. 句子結構分析 2. 文法特徵 3. 處理特徵結構 4. 擴充套件基於特徵的文法 |
|
第三天 |
第7講:基於傳統機器學習模型的文字分析技術基礎 |
1. 文字挖掘全流程概述 2. TextBlob文字處理庫介紹 3. 中文分詞介紹(jieba) 4. 詞雲介紹 5. 案例演示 |
第8講:基於傳統機器學習模型的文字分析技術應用 |
1. 文字挖掘預處理技術 2. 文字特徵處理 3. 文字聚類 4. 主題模型 5. 案例演示 |
|
第9講:基於深度學習的文字處理技術 |
1. 深度學習簡介 2. 詞向量技術 3. RNN基本概念 4. LSTM簡介 5. LSTM語言模型的實現 6. 案例:利用LSTM實現文字分類 |
|
第10講:基於seq2seq模型的自然語言處理應用(選修) |
1. seq2seq模型簡介 2. Encoder-Decoder 結構 3. seq2seq模型原理 4. seq2seq模型的應用 5. 案例:基於seq2seq模型的機器翻譯 |
五、頒發證書
學員經考核合格可獲得國家工信部全國通訊和資訊科技創新人才培養工程《大資料挖掘與分析應用高階工程師》職業技術水平證書。該證表明持有者已透過相關考核,具備相應的專業知識和專業技能,並作為聘用、任職、定級和晉升的重要參考依據,全國通用。
六、擬邀師資
尹老師,資料科學家,浙江大學物理學博士,浙江某高校深度學習研究中心負責人,深度學習領域一線實戰專家,兼任某網路科技上市公司大資料總監,承擔30多個企業資料挖掘專案,受聘擔任多家大資料教學機構主講教師,開發多套python機器學習、網路爬蟲與文字挖掘系列課程,10+年軟體開發資料產品經驗,熟悉R\Python\Javascript等多種程式語言,目前研究集中在推薦系統、文字挖掘、神經網路等深度學習領域,具有豐富的統計建模、資料挖掘、大資料技術教學經驗,先後為中國交通銀行,平安保險公司等數十家知名機構主講python機器學習課程。
李老師,博士,畢業於北京大學,浙江大學軟體學院兼職教授、華東師範大學碩士研究生導師,臺北商業大學業界專業教師,曾任Mango Solutions中國區資料總監,主導數十個R語言資料挖掘與分析應用工程專案, 2003年從事R語言相關研究,擅長R語言的工程開發與分析建模,是 Rweibo、Rwordseg、tmcn等 R 包的作者,著有《資料科學中的R語言》,翻譯了《R語言核心技術手冊》、《機器學習與R語言》,撰寫過大量R語言的基礎和高階應用類文章,從事R語言資料挖掘分析培訓多年,為國內多所科研院所及知名企業主講R語言機器學習內訓課程,探索出一套以案例講解帶動理論理解和軟體操作熟悉的方法。
七、費用標準
每個模組參會費均為3980元/人(含專家授課費、教材考試費、證書申報、場地等),食宿統一安排,費用自理。
八、聯絡方式
聯絡電話: 18611038557 微 信: 18611038557
聯 系 人: 宋 老 師 郵 箱: 1843626486@qq.com
(掃碼諮詢)
全國R語言與python資料科學高階研修班報名回執表
(經研究我單位選派以下同志參加此次學習)
單位名稱 |
|||||
發票抬頭 |
|||||
發票稅號 |
|||||
發票內容 |
□1、培訓費 □2、會議費 □3、會 務 費 |
||||
繳款方式 |
□1、現 金 □2、刷 卡 □3、對公轉賬 |
||||
參會人數:_ ___ 人 |
參會費用: _ ____元 |
||||
參會 人員 名單
|
姓 名 |
職 務 |
手 機 |
電 子 郵 箱 |
|
住宿安排 |
□1、住 □2、不住 □3、待定 |
||||
住宿標準 |
□1、雙人標間 □2、單間 □3、待定 |
||||
註:請確定參加人員從速報名,培訓報到前7日我們將以電子郵件的方式給您傳送《報到通知》,告知具體培訓地點、乘車路線等事宜。