找了半年工作,面試了幾個data science的職位,總結了一些常見的問題,在這兒拋磚引玉。
自我介紹
幾乎所有的面試都免不了以自我介紹為開頭。對於考官,通常也會想基於自我介紹發現接下來要問的問題。所以,自我介紹非常重要。我參考的模板:
教育背景:簡單說說哪年在哪裡獲得什麼學位。
相關經驗:按時間順序講一下2個做過的專案,介紹下用了什麼辦法,比如用了什麼程式語言,最後的成果是什麼。最好有些量化的指標,比如發表了多少論文,被取用了多少次。這些專案最好和麵試的職位有關係。實在沒有,也可以看看從中學到的知識或者技能可否擴充套件到data science. 比如之前做過訊號處理,可以講這個專案為data science打下了統計基礎。
最自豪的成就和表態:介紹一下自己最自豪的專案,關鍵是要點出自己的優勢,比如迅速掌握了一個很大的程式碼庫,或者在程式碼庫中加入了一個很有用的特性,並再次強調一下自己的優勢,結尾說,我希望能在XX公司繼續發揮這些優勢。
被問過的問題總結
機器學習(Machine learning)演演算法
包括演演算法對資料的假設,推導,有什麼優缺點,何時改用什麼演演算法,怎麼選擇演演算法,很類似P2 student intervention的model選擇問題。
作為入門的參考書:Introduction to Data Mining (Pang-Ning Tan, Michael Steinbach, Vipin Kumar);
複雜一點兒的:The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani , Jerome Friedman)
相關的演演算法可能包括:
Classification / Regression
-
SVM:是很多考官的最愛,最好做到可以推導
-
Neural Networks
-
Trees & ensemble methods: boosting, bagging
-
Clustering
-
K-means/median/medoids
-
Spectral clustering
-
Hierarchical
-
DBSCAN: density based spatial clustering of applications with noise
-
Self organizing map
Association: 這個在Udacity沒有介紹,但是大資料可能會用到
Apriori 以及它對大資料的衍生
FP growth 並行實現
其他演演算法問題:
1、Q-learning: 解釋為什麼update Q value的時候要用下一個state的max Q,為什麼不能用mean?
2、Kalman filter: 在專案中用到了,要求推導
3、Expectation maximization
關於大資料的問題
1、很多職位要求的資料量,要遠遠大於Udacity的專案,所以會牽扯到一些大資料相關的問題
2、參考書:Mining of Massive Datasets (Jure Leskovec, Anand Rajaraman, Jeff Ullman)
免費的下載:http://infolab.stanford.edu/~ullman/mmds/book.pdf
3、演演算法:
-
Finding similar items
-
Find frequent itemsets
-
Recommendation systems
-
Social graph mining
關於大資料的問題:
-
用過的資料量有多大
-
GPU的相關經驗?
-
Hadoop是怎麼讀入很大的資料的? 接受HDFS?
-
Spark的相關專案,用的什麼model和library
-
Spark: RDD相關的概念
-
Spark: 如果資料遠遠大於記憶體,是怎麼處理的?
-
是否遇到過這樣的情景:透過對資料的初步分析,觀察到有趣的現象?
-
Spark: 舉例說明inner join, outer join, etc.
其他網上看到的常見問題:
-
Support, confidence, and lift
-
What is curse of dimensionality?
-
A/B testing
-
Precision, recall, F1
-
How to handle missing data?
來源:優達學城
精彩活動
推薦閱讀
2017年資料視覺化的七大趨勢!
全球100款大資料工具彙總(前50款)
Q: 今年,你準備換工作嗎?
歡迎留言與大家分享
請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:hzzy@hzbook.com
更多精彩文章,請在公眾號後臺點選“歷史文章”檢視