機器學習、深度學習演演算法原理與案例實現暨Python大資料綜合應用高階研修班
一、課程簡介
課程強調動手操作;內容以程式碼落地為主,以理論講解為根,以公式推導為輔。共4天8節,講解機器學習和深度學習的模型理論和程式碼實踐,梳理機器學習、深度學習、計算機視覺的技術框架,從根本上解決如何使用模型、最佳化模型的問題;每次課中,首先闡述演算法理論和少量公式推導,然後使用真實資料做資料挖掘、機器學習、深度學習的資料分析、特徵選擇、調參和結果比較。
二、課程標的
透過課程學習,可以理解機器學習的思維方式和關鍵技術;瞭解深度學習和機器學習在當前工業界的落地應用;能夠根據資料分佈選擇合適的演演算法模型並書寫程式碼,初步勝任使用Python進行資料挖掘、機器學習、深度學習等工作。
三、課程特點
課程重視程式碼實踐,使用金融、氣象、農業、交通、安防等工業界實際資料(資料已脫敏)進行機器學習模型的落地應用。雖然課程堅持推導公式,但更重視機器學習和深度學習的原理與實操;將實際工作中遇到的行業應用和痛點做最直觀切實的展示;重視演演算法模型的同時,更強調實際問題中應該如何模型選擇、特徵選擇和調參。講授者同時在多家企業任職首席或顧問,有豐富的工業經驗,能夠保證聽者儘快瞭解資料挖掘、機器學習、深度學習的本質和實踐應用。
四、講師簡介
鄒博,中國科學院副研究員,天津大學軟體學院創業導師,成立中國科學院鄒博人工智慧研究中心(杭州站),在翔創、天識、睿客邦等公司擔任技術顧問,研究方向機器學習、深度學習、計算幾何,應用於大型氣象裝置影象與文字挖掘、股票交易與預測、量子化學醫葯路徑尋優、傳統農資產品價格預測和決策等領域。
尹老師,資料科學家,浙江大學物理學博士,浙江某高校資料科學專業負責人,兼任某網路科技上市公司大資料總監,受聘擔任多家大資料教學機構主講教師,開發多套python高階程式設計、機器學習、網路爬蟲與文字挖掘系列課程,10+年python軟體開發資料產品經驗,熟悉R \Javascript等多種程式語言,具有豐富的python統計建模、資料挖掘、大資料技術教學經驗,先後為中國交通銀行,平安保險公司等數十家知名機構主講python課程。
2017年成立中科院鄒博人工智慧研究中心(杭州站)
2017年9月22日-24日 京東方集團機器學習與計算機視覺企業內訓
2017年9月11日-14日 中國電信2017年資料分析與挖掘人才技能評價訓練營
2017年8月3日-7日 北京理工大學機器學習和深度學習高校師資培訓
五、課程模組
1、機器學習、深度學習演演算法原理及案例實現
專題模組 |
內容設定 |
程式碼與案例實踐 |
第1講:Python機器學習與TensorFlow |
直譯器Python2.7/3.6與IDE:Anaconda/Pycharm 串列/元組/字典/類/檔案 numpy/scipy/matplotlib/panda的介紹和典型使用 scikit-learn的介紹和典型使用 TensorFlow典型應用 典型影象處理 多種數學曲線、多項式擬合 快速傅裡葉變換FFT、奇異值分解SVD Soble/Prewitt/Laplacian與摺積網路 |
摺積與(指數)移動平均線 股票資料分析 缺失資料的處理 環境資料異常檢測和分析 |
第2講:多元線性回歸與Logistic回歸 |
線性回歸 Logistic/Softmax回歸 廣義線性回歸 L1/L2正則化 Ridge與LASSO Elastic Net 梯度下降演演算法:BGD與SGD 特徵選擇與過擬合 Softmax回歸的概念源頭 最大熵模型 K-L散度
|
股票資料的特徵提取和應用 泰坦尼克號乘客缺失資料處理和存活率預測 環境檢測資料異常分析和預測 模糊資料查詢和資料校正方法 PCA與鳶尾花資料分類 二手車資料特徵選擇與演演算法模型比較 廣告投入與銷售額回歸分析 鳶尾花資料集的分類 TensorFlow實現線性回歸 TensorFlow實現Logistic回歸 |
第3講:決策樹和隨機森林 |
熵、聯合熵、條件熵、KL散度、互資訊 最大似然估計與最大熵模型 ID3、C4.5、CART詳解 決策樹的正則化 預剪枝和後剪枝、Bagging 隨機森林 不平衡資料集的處理 利用隨機森林做特徵選擇 使用隨機森林計算樣本相似度 異常值檢測 |
隨機森林與特徵選擇 決策樹應用於回歸 多標記的決策樹回歸 決策樹和隨機森林的視覺化 葡萄酒資料集的決策樹/隨機森林分類 泰坦尼克乘客存活率估計 |
第4講:SVM |
線性可分支援向量機 軟間隔 損失函式的理解 核函式的原理和選擇 SMO演演算法 支援向量回歸SVR 多分類SVM
|
原始資料和特徵提取 呼叫開源庫函式完成SVM 葡萄酒資料分類 數字影象的手寫體識別 MNIST手寫體識別 SVR用於時間序列曲線預測 SVM、Logistic回歸、隨機森林三者的橫向比較 |
第5講:摺積神經網路CNN |
神經網路結構,濾波器,摺積 池化,啟用函式,反向傳播 標的分類與識別、標的檢測與追蹤 經典AlexNet、VGGNet、GoogleLeNet ResNet、Inception-V3/V4 |
搭建自己的摺積神經網路 數字影象識別、人證合一驗證 基本OCR系統 基於CNN的影象識別框架 摺積神經網路調參經驗分享 |
第6講:影象影片的定位與識別 |
摺積深度與摺積核關係 影片關鍵幀處理 物體檢測與定位 RCNN,Fast-RCNN, Faster-RCNN MaskRCNN、YOLO、FaceNet |
遷移學習與人臉檢測 OCR字型定位和識別 睿客識雲、氣象識別 |
第七講:迴圈神經網路RNN |
RNN基本原理 LSTM、GRU、Attention 編碼器與解碼器結構 特徵提取:word2vec Seq2seq模型 機器翻譯、文字摘要、閱讀理解問答系統 |
圖片標註與圖片問答 HMM分詞、文字摘要的生成 智慧對話系統和SeqSeq模型 閱讀理解的實現與Attention |
第八講:生成對抗網路GAN與強化學習RL |
生成與判別 貝葉斯、HMM到深度生成模型 GAN對抗生成神經網路 DCGAN/Conditional GAN InfoGan/ Wasserstein GAN 馬爾科夫決策過程 貝爾曼方程、最優策略 策略迭代、值迭代 Q Learning、SarsaLamda、DQN/A3C/ELF |
圖片生成、看圖說話 對抗生成神經網路調參經驗 飛翔的小鳥遊戲 基於增強學習的遊戲學習 DQN的實現 |
2、python高階程式設計與大資料綜合應用
第一天 |
第1講:Python資料科學環境搭建 |
1. Anaconda套件 2. Python開發IDE介紹 3. 資料科學相關庫簡介 4. Jupyter notebook基本使用 5. Markdown基礎語法 |
第2講:Python程式設計基礎 |
1. 基礎資料結構–串列 2. 基礎資料結構–字串 3. 基礎資料結構—字典 4. Python基礎語法-控制流 5. Python基礎語法-函式 6. Python異常處理 |
|
第3講:檔案組織與處理 |
1. 檔案讀寫 2. 檔案組織 3. 處理Excel電子錶格 4. 處理PDF和Word檔案 5. 處理CSV和JSON資料 |
|
第4講:影象組織與處理 |
1. Pillow庫簡介 2. 處理Image資料型別 3. 影象剪裁 4. 影象旋轉和翻轉 5. 影象繪製 |
|
第二天 |
第5講:Python程式設計進階 |
1. Python基礎-類 2. Python基礎-模組 3. 迭代器與生成器 4. Python標準庫介紹 5. 案例:利用Python解決八皇后問題 |
第6講:Python與資料庫 |
1. Python的資料庫支援 2. Python與SQLite 3. Python與MySQL 4. Python與NoSQL 5. 案例:構建簡單的Python資料庫應用 |
|
第7講:Python文字處理 |
1. Python的字串操作 2. Python與正則運算式 3. 自然語言處理包NLTK 4. 文字語料與詞彙資源 5. 中文分詞介紹(jieba) 6. 文字挖掘預處理技術 |
|
第三天 |
第8講:Python網路爬蟲 |
1. 網路爬蟲技術基礎 2. 基礎Python爬蟲庫(urllib/Requests) 3. “漂亮”的爬蟲庫-Beautiful Soup 4. 靜態網頁爬取案例分享 5. Ajax和DHTML網站爬取 |
第9講:Python資料分析 |
1. 利用Python進行資料操作 2. 數值計算- numpy基礎 3. 基礎繪圖與視覺化- matplotlib 4. 資料分析庫-pandas 5. 案例:美國兒童的姓名趨勢探索分析 |
|
第10講:Python資料視覺化 |
1. 資料視覺化簡介 2. Python視覺化進階Seaborn 3. Python互動式視覺化-Bokeh 4. 互動性圖表的另一選擇-Plotly 5. 詞雲介紹 |
|
第四天 (選修) |
第11講:Python統計分析 |
1. 科學計算庫scipy簡介 2. 統計分析庫StatsModels簡介 3. 機率與分佈 4. 引數估計和假設檢驗 5. 統計模型與回歸分析 6. 多元統計分析 |
第12講:Python機器學習 |
1. 機器學習簡介與基本流程 2. 常用機器學習演演算法介紹 3. 機器學習中的預處理技術 4. 特徵工程 5. 模型評估與改進 6. 案例:某銀行貸款違約風險預測 7. 案例:泰坦尼克號沉船倖存者預測 |
|
第13講:高效能Python與大資料處理 |
1. Python大資料處理技巧 2. Cython與numpy 3. PyPy簡介 4. 分散式計算與Python 5. 利用PySpark處理大資料 |
六、頒發證書
經考核合格可獲得國家工信部全國通訊和資訊科技創新人才培養工程《大資料挖掘與分析應用高階工程師》職業技術水平證書。該證表明持有者已透過相關考核,具備相應的專業知識和專業技能,並作為聘用、任職、定級和晉升的重要參考依據,全國通用。
七、時間與地點
模組一: 2018年4月19日~22日 杭 州
模組二: 2018年4月11日~15日 上 海
八、費用標準
參會費4900元/人(含專家授課費、教材考試費、證書申報、場地等),食宿統一安排,費用自理。
九、聯絡方式
聯絡電話: 18611038557 微 信:18611038557
聯 系 人: 宋老師 郵 箱:1843626486@qq.com
(諮詢|報名請加老師二維碼 )
附件:報名回執表
機器學習、深度學習暨python高階程式設計高階研修班
報名回執表
(經研究我單位選派以下同志參加此次學習)
單位名稱 |
|||||
發票抬頭 |
|||||
發票稅號 |
|||||
選修模組 |
□1、機器學習與深度學習(杭州班) □2、python大資料綜合應用(上海班) |
||||
發票內容 |
□1、培訓費 □2、會議費 □3、會 務 費 |
||||
繳款方式 |
□1、現 金 □2、刷 卡 □3、對公轉賬 |
||||
參會人數:_ ___ 人 |
參會費用: _ ____元 |
||||
參會 人員 名單
|
姓 名 |
職 務 |
手 機 |
電 子 郵 箱 |
|
住宿安排 |
□1、住 □2、不住 □3、待定 |
||||
住宿標準 |
□1、雙人標間 □2、單間 □3、待定 |
||||
對本課程的意見及建議 |
|||||
其它感興趣的課程 |
|||||
註:請確定參加人員從速報名,培訓報到前7日我們將以電子郵件的方式給您傳送《報到通知》及學習軟體、課件,告知具體培訓地點、乘車路線等事宜。