應用統計大數據學習經驗分享
大數據時代背景下,有許多同學對應用統計大數據學習很感興趣,這里成都大數據培訓機構為大家分享一位同學的應用統計大數據學習經驗,希望對學習應用統計大數據的同學有幫助。
1、跨專業啟蒙
剛開始接觸數據科學追溯于大二選修信息計算與科學雙學位。當時本科修讀了城市經濟管理專業,只在地理數據處理(ArcGIS)和前端(JavaScript)上有一些經驗,在好奇心驅使下參加了R語言大會,領略了數據科學家們的魅力,也嘗試用R語言做了一些實驗,之后由于興趣開始在網上尋找Python資源,例如菜鳥教程、廖雪峰Python等等,前者簡略大致只需要花幾個小時時間即可對Python基礎有一個全貌的了解,后者則需要花費較多的功夫但收獲也是巨大的;筆者的啟蒙教程為張宏倫直博生(現任職騰訊)的全棧數據工程師養成攻略,所謂啟蒙就是為小白打開了新世界的大門,此教程從Python基礎講起,基本涵蓋爬蟲、數據庫與后端、可視化、NLP、Web、ML&DL的全套學習路線,遺憾的是教程較早(為Python2)且全部為入門級教程,但對于筆者當時的學習幫助是的。之后進一步學習了MOOC上嵩天老師的爬蟲系統教程與數據分析與展示教程。興趣很重要哦。
2、在校學習
在研究生學校階段跟隨導師進一步學習了Python的詳細基礎教程,并以課堂展示的形式展現出來。期間參加了全國研究生數學建模競賽(國二)、Kaggle(重在參與),逛了無數的Github和CSDN,寫了三篇論文,也自學了Scala、Java語言,Spark、Flink集群架構,并且水了一些Keras、Tensorflow、Pytorch等DL框架。捫心自問,每一門語言或者技術都不出彩,只是出于興趣想知道可以造出什么輪子。且作為交叉學科就是要有相應的覺悟,即跟計算機比統計,跟統計比計算機,但稍不留神就是都比不過。學習、討論、質疑、寫作、定位,機遇是給有準備的人。
3、實習面試
在學校呆了大半年,之后就面臨找實習。當時心里沒有一點底,也是通過各種渠道(主要是牛客網)去獲取內推或招聘信息,刷了少量SQL和少部分LeetCode,但可能節點太早只收到了阿里(算法)的面試信息,準確的說次面試就獻給了阿里。阿里共有五面:簡歷面、兩輪技術面、高P交叉面和HR面,每面平均間隔一個月,非常磨人,簡歷面(20min)的時候就知道大概夠不上,問了linux及通信底層(三次握手、四次揮手)的基礎知識(但這些很多都答不上來),之后開始手撕反轉鏈表,勉強寫出來一種算法,之后開始等待二面。過程中從師兄師姐那里獲取到一個百度遠程面試機會(數據RD),之后同樣開始準備。一面(2h)上來就給了coding鏈接,手撕快排、Python版的MapReduce和spark版的wordcount源碼,同時還問了假設檢驗、AB測試的業務類知識,相對來說比較熟悉;二面(30min)主要詢問機器學習算法包括Kmeans算法流程、Bagging和Boosting的對比以及基礎的LSTM流程繪制,沒有網傳手推公式那么夸張,還是看具體部門吧;之后兩輪主要是業務面和Manager面,相比較阿里少一輪面試,感覺不是太難(去了之后才知道是當時比較缺人)。待百度面完且敲定好實習時間之后阿里才給二面通知,那時候已經心不在焉了,二面涼涼。要百折不撓,勇往直前。
4、實習經歷
之后就是不太漫長的實習歲月,實習過程中如果覺得興奮說明還很早,coding代表著枯燥,業務代表著繁瑣,本身并不輕松。百度實習是標準的1075(除了周三晚上的討論班),時間相對寬松,因此中間穿插了很多復(預)盤(習)機會,首先是陸續刷完Leetcode高頻和前100道,之后翻閱牛客上的面經匯總以及經驗帖,最后就是到處面試了。在北京陸續面了字節跳動(數分&算法,宇宙條不是蓋的)、昆侖萬維(數據挖掘)、阿里(算法)等,9.1提前結束了實習回武漢開始了大規模筆試面試。各個大中小廠都會在武漢設立面試點或者先遠程再跨區域現場面,當時的行業選擇主要是互聯網,其次是銀行等。互聯網偏向北上廣深杭,技術和加班優先,想要獲得快速提升的可以考慮;銀行遍地都是,現在也開始重視技術,相對輕松,本地或者穩定優先的可以考慮。踏踏實實,好好做事做人。