
仿佛看到了自己當年的模樣,所以覺得有必要單獨寫一篇文章,單純以一個計算機應屆畢業生的身份聊聊,我認為大學四年,計算機科班學生應該學些什么,哪些才是重點。
同樣大學四年,為什么有些同學畢業就能成為大廠Offer收割機,各種SP、SSP拿到手軟,有的同學明明在學校寫了好多網站,項目經歷滿滿,經歷春秋招,卻找到一份工作都很難。
不能說后者沒認真學習,或許是用力的方向不對。
話不多說,直接進正題吧。
正文
人類的知識邊界一直在不斷的擴張,俗話說學無止境,這放在計算機領域也同樣適用,計算機本身是一個人造科學,不屬于自然科學。
每年,甚至每個月都不斷有新的編程框架推出,學到頭禿你也學不完,也沒有必要去挨個學。
并且你會發現,很多一二線大廠內部用的東西基本都是自己搞一套的,比如服務發現、RPC、KV、DB、消息隊列、日志、監控等等。
所以一般這些大廠招聘的時候基本不會因沒學過某種框架而掛你,反正很多東西都是要進來重新學的。
他們會更加關注你的基礎知識、解決問題的經驗以及聰明度這種更加通用的能力上。
反而是一些小企業,可能會要求你必須會Spring、Vue、Redis...這些框架或者組件。
騰訊阿里看中的是扎實的編程基本功和快速學習能力,這意味著有培養潛力。
而外包企業就要求你會xx數據庫、Spring之類。不去評價哪個好,但是如果你想去BAT,那是不是至少對照著它們的JD來提高自己的能力,不失為一種捷徑。
在這里,我粗淺的把計算機編程領域的知識分為三個部分:
基礎知識
特定領域知識
框架和開發技能
基礎知識是指不管從事任何方向的軟件工程師都應該掌握的,比如數據結構、算法、操作系統。
特定領域知識就是你從事某個細分方向時需要掌握的知識,比如做游戲引擎的需要掌握圖形學;做前端的需要掌握瀏覽器渲染原理、前端三大件;算法工程師需要更多的數學知識。
畢竟計算機各種門類挺多的,需要選個細分方向專研下去,什么都學只會什么都不精(大佬除外啦。
一、基礎知識
現在大環境比較浮躁,很少有人愿意花心思在基礎上,喜歡直接學Python搞機器學習、寫秒殺、做商城。
找工作的時候都是想看面經、總結速成。
但是作為優秀的計算機系學生的你怎么能流于各種編程框架(造框架除外),糾結學SpringBoot還是SSH呢?
把時間花在算法、基礎學科上他不香嗎?功利一點講,回報反而會更大。
況且在計算機領域,很多基礎的理論并不十分高深,我們努努力就可以掌握其中的核心知識。
1.1數學
首先說明,這里把數學列出來不是為了顯得高端,而是自己吃過數學的虧。
如果你是自學轉行當程序員,我當然不會推薦數學,因為轉行的大概率是去學Java、前端這類,對數學基本沒啥要求。
但是這篇文章主要面向的是還在大學的科班學生,這部分同學以后也許會去做算法(CV、NLP之類)、游戲引擎、信息安全編碼等
這些方向對數學要求就會偏高,在計算機領域,線代、概率論、統計學這些數學分支相對比較重要,計算機本質上還是離散的。
比如在機器學習或數據挖掘中常常用線性代數來降低數據維度,很多問題最終都能化為求解線性方程組。
所以為了避免以后想走這些方向卻被數學卡住,在大一、大二上數學課的時候就好好的學一下。
書到用時方恨少,不要現在以為沒用處就不好好學,等你需要的時候,就知道后悔了。(默默流下了不學無術的眼淚┭┮﹏┭┮
什么?你說以后肯定做開發方向?
那的確可以把數學優先級放后面一點,用得確實不多,不過上數學課的時候總該認真聽下吧,拿個高績點也是百利無一害嘛。說不準哪天你又想加入算法內卷大軍呢?
1.2 C語言
你也許會很疑惑,這里明明說基礎知識,為什么要把一門編程語言單獨列出來呢?
因為在我看來,沒有比C語言更適合用來理解計算機系統了。
我們后面將會提到的操作系統、體系結構這些東西非常適合用C語言去理解或者去實踐。
并且C語言本身的語言特性非常少,但是想學好又是不容易,很多人都覺得C語言難,難在哪里呢?回想了一下我大一時的感受:
簡陋的標準庫,幾乎沒有可用的數據結構和算法,什么都得自己來
指針很難理解和使用
需要了解匯編、鏈接、裝載、內存等才能把C語言用好
不巧的是,這些東西正是計算機系統知識的一部分,所以用C語言作為學習計算機系統知識是最有效率的方式。
真的很難想象用Java或是Python去給別人講解內存,因為這些語言抽象程度都比C語言高,意味著離計算機系統也就越遠。
在TIOBE編程語言排行榜上,C語言幾乎永遠占據前三位,其地位自然毋庸置疑。
而且幾乎你開發中用到的很多東西都是用C語言編寫的,Linux、Nginx、Redis、MySQL、Git......或許你會想要探究下原理,閱讀點這些開源軟件的源碼,那么C語言也是你必備的瑞士軍刀。
深入學習C語言,能夠了解計算機底層的執行原理,是理解程序運行機制的絕佳語言,無出其右。
在這里,不得不引用對C語言最經典的總結:
任何比C語言更低級的語言,都不足以完整地抽象一個計算機系統;任何比C高級的語言,都可以用C來實現。
這真是極高而中肯的評價!
所以對于計算機科班來說,不管你是做前端還是后端,算法還是開發,C語言都建議你好好學習。這是無關方向的一門語言,就是基礎!
1.3操作系統
我們編程的IDE、寫出來的程序全部都需要運行在操作系統上,說操作系統是計算機軟件的基石也不為過。
程序運行起來就需要創建進程,這涉及到操作系統的進程管理;寫程序需要定義變量、存儲數據吧,這又涉及到內存,對應內存管理;有時候我們還需要讀寫文件,這又離不開和文件系統打交道;你需要學習使用鎖、條件變量、臨界區來*程序并發執行時不會錯亂。
而讀寫文件、分配內存這些又離不開系統調用(System call)。
并且當你真正做起工程就會發現,很多問題是和操作系統緊密相關的,不理解操作系統,你連問題的原因都分析不出來。
比如前段時間我們出現的在基于協程(libco)的框架下,使用多線程的鎖去做同步互斥偶發死鎖,后來分析才發現原因:
由于協程是應用層實現的,一個線程內多個協程對于操作系統是感知不到的:
那么當一個協稱A上鎖后發起網絡IO請求,這個時候會被切換到另外一個協程B,而協程B又去請求這個鎖。
那么這個時候操作系統會認為這個鎖已經被上了,因此會將協程B對應的線程掛起到等待隊列,這樣的話就導致協程A永遠無法運行,也就無法釋放鎖,導致死鎖。
解決的方法也很簡單,就是將鎖設置為可重入鎖,可重入意味著同一個線程多次去請求同一個鎖不會導致掛起。這樣當協程B再去請求鎖的時候,操作系統就會認為協程B所在的線程已經持有這個鎖了,直接返回,繼續執行。
總之,我們寫程序每時每刻都在和操作系統交互,沒有理由不學好。
1.4編譯原理
編譯原理可能是我們平時接觸得最少的了,大家也許會覺得自己又不用去造新的編程語言,學編譯原理干啥。
學好編譯原理有啥用?
你會站在更高的角度去審視這些編程語言,看到的不再是表面的語法,更會想到語法背后的實現。
這種感覺很透徹,就像搞懂了操作系統、體系結構你會明白一個程序從雙擊鼠標開始,到底是如何被運行起來的,這種掌握一切細節,透徹的感覺,真的很奇妙,不信你去試試。
說人話!
那學了編譯原理你能干啥?
當你學完有限狀態機以后,你會發現以前覺得很牛逼正則表達式似乎自己也能用DFA、NFA實現一下了。狀態機的思想在編程中很多地方都用得上。
比如解析HTTP協議,如果沒學過狀態機思想,你可能會一行行的if/else去做解析,這里最麻煩的地方在于,if/else需要提前將HTTP頭部字段都接收到再來判斷,而我們知道HTTP基于TCP,而TCP是流式傳輸,所以你很有可能是幾個字符一組組接收到的,這個時候用if/else寫出來就很難看了。
而用狀態機編寫起來代碼就會非常優雅。狀態的轉移是由規則驅動的,接收到一個字符就判斷一個,非常的方便。
繼續學完語法分析,你會掌握遞歸下降分析這樣非常重要的思想,你可以使用遞歸下降快速的實現四則運算計算器。
如果不用遞歸下降你可能需要先中綴表達式轉后綴,然后求值,這是我們大一數據結構課寫的,當時用棧寫的,有點麻煩。后來學完編譯原理,又用遞歸下降重寫了一遍,區區幾十行代碼遍搞定。
還有一類場景在實際開發中的用的很多,比如淘寶、京東這樣的電商,它們的營銷規則有很多,比如滿減、直減、跨店等等,這樣的規則是不可能寫死在代碼里的。
那是怎么做的呢?
一般會實現一個配置系統,并設計一個DSL(領域特定語言)來表達這些規則,將規則直接配置到系統中,這樣可以非常方便的修改,那么如何在代碼里去解析DSL定義的規則呢?這就需要為DSL寫一個語法解析器,這里就會用到語法分析的方法。
DSL(Domain Specific Language),是一種用于某個特定領域的程序設計語言。這種特定于某個領域是相對于C、C++、Python這種通用語言而言的,通用語言可以在各個領域使用,我們熟悉的大多數程序設計語言都是通用語言,它們都是圖靈完備的。
像我們平常經常使用的JSON、SQL、HTML這些都算是一種DSL,你甚至可以嘗試用遞歸下降去寫一個JSON、XML解析器,這比寫電商網站更有價值的。
繼續往下學你會了解到抽象語法樹AST如何生成、如何轉化為中間代碼、如何對中間代碼優化、最終又是怎么生成機器指令的。
你會看到貪心算法在寄存器分配中的應用,也會看到圖論中的可達性分析又是如何實現死代碼消除。
IDE上面那個綠色的編譯按鈕對你不再是黑魔法。
為啥點一下就能生成可執行的程序?
你寫的英文字母又是如何變成一個個二進制指令的?
學完編譯原理,這些通通不是問題,媽媽再也不用擔心你的學習~
當然完成一個像GCC、Clang這樣的編譯器難度太高太高,我們學習編譯原理的目的也不是去造這樣的輪子,而是為了更好的理解和運用編程語言。
1.5體系結構&組成原理
上面說的都是軟件層面,體系結構則是關于計算機是如何工作的,你會了解到典型的存儲程序計算機是怎樣運轉的。
記得南大有個老師說過“我們不是學習使用計算機的,而是學習如何造計算機”,雖然造計算機有點夸張,但是至少我們得了解下計算機的實現原理,了解下代碼是怎么被CPU執行的吧?不然其實你會很困惑,明明一堆英文字母,怎么在CPU這種電路上跑起來的,我大一學C語言就百思不得其解,直到后來學了組成原理和數字邏輯。
我們說計算機中一切都是0、1,0、1又是通過高低電平來表達的,通過與、或、非等邏輯門電路來表達二進制的數值運算,再將這些簡單的電路集成在一起,就形成了ALU等具有運算能力的處理器。
你會看到一條指令是如何被CPU執行的,CPU從內存或Cache中取出指令,放入指令寄存器,并對指令譯碼。譯碼就是按照指令的編碼規則,將指令拆分成一系列的微操作和操作數。然后發出各種設備控制指令,執行微操作。這樣就完成一條指令的執行。
我們說學完編譯原理,能夠明白寫的英文代碼是如何被變成二進制指令的,學完操作系統能搞懂二進制程序是如何被鏈接在一起,又是如何被操作系統加載、執行的。而組成原理則會告訴你二進制指令是如何控制CPU跑起來的,我們的操作系統本質上也是一個二進制的程序。
當你理解了計算機存儲層次結構,理解了多級Cache,你就會通過優化數據訪問方式來編寫出速度更快的程序。
你會學到底層體系結構對C這些語言的棧幀和參數傳遞的支持,參數是如何被傳遞給另外一個函數的?函數的返回值又是如何拿到。
這是學習組成原理對于寫代碼的意義。
學這些到底有什么意義?
你會完整的看到寫的代碼如何變成二進制指令,又是如何去控制各種門電路,最后變成屏幕上花花綠綠的程序的(當然這里可能還需要學習顯示器的原理),這就是我們常說的“基礎”和“原理”。
并且計算機體系結構中的很多思想,是能夠廣泛運用于現代軟件開發的,比如CPU的多級Cache思想,就是我們現在服務器開發中提高并發度常用的緩存技術,包括緩存的替換策略等等。
當計算機對你不再是黑盒,你了解寫下的代碼到執行的每一步,而這也將成為你以后的核心競爭力,作為科班畢業生不應該只會使用Java、Redis、Mysql、Spring來寫各種網站。
如果讀者里有半路轉行或者從培訓班出來的,也希望你們能夠抽出空余時間去補補這些基礎課,這會讓你在編程這條路上走的更遠和更穩。
1.6數據結構與算法
為什么把算法放到最后來講,是不重要嗎?相反,它太重要了,所以才讓它來壓軸。
如果要問我大學什么最后悔?那肯定是沒有從大一就開始好好學算法,去打ACM。
現在還在大一、大二的同學還不抓緊機會,別等到以后來后悔。當然,不打ACM,我們也是能夠學好數據結構和算法的。
數據結構和算法你能在任何計算機領域里看到,比如在編譯原理中寄存器的分配會用到貪心,死代碼檢測與消除會用到圖論里不可達的知識;操作系統進程、線程調度會用到多級隊列和調度算法;組成原理中Cache的替換會用到LRU、FIFO等算法;開發必備的數據庫也離不開B+樹、LSM等數據結構和查找算法。
很多時候我們需要的算法都被封裝到編程語言的基礎庫里了,以至于很多同覺得算法離我們太遠,其實不是的。
如果不學習算法,連什么時候用Map(紅黑樹實現)、什么時候用HashMap都分不清。
所以學習算法有助于我們根據應用場景選擇最合適的數據結構。
日常開發中也一定離不開算法,比如小北最近工作中涉及的某種嵌套TLV(Tag-Length-Value)結構編碼的解析,就需要用到遞歸、多叉樹等知識。如果不學習算法,那么程序中只能見到大量的if/else、while/for。。。
可以說不會算法的工程師一定不是一個優秀的工程師。
1.7為什么我不說計網、數據庫等
很多人喜歡把計算機網絡、數據庫原理這些也歸為計算機基礎來,我當然也認同,因為一個知識結構完整的計算機科班學生,應該了解這些知識。
但是我個人是覺得計算機網絡、數據庫無非就是建立在操作系統、編譯原理、組成原理之上的應用層軟件。
什么是數據庫?沒有數據庫之前你會用文件去存儲數據,但是不方便查找、修改等,數據庫只是提高了這個過程的效率。
網絡干什么的?網絡就是讓不在同一臺電腦上的程序互相通信,本質上就是進程間通信的手段。
如果你只是開發單機工業軟件,甚至真的可以不學網絡,只是由于現在大多數程序員都是在互聯網企業工作,所以不管前后端,都離不開和HTTP等網絡協議打交道。
再次重申:不是計網、數據庫不重要,只是我認為它們屬于構建在操作系統之上的軟件,不劃在基礎之列。
二、領域知識
這個我不敢說太多,因為各個領域我也不太懂。只簡單提一點,拋磚引玉罷了。
如果你想去騰訊、網易做游戲引擎開發,那么圖形學一定是你繞不開的知識,此外你還得學習渲染管線、著色器、物理、光照等等。
如果你想去PingCap這樣的企業做分布式存儲,那么分布式理論知識一定是你繞不開的關口,包括CAP定理、Paxos算法、Raft算法、ZAB協議等等。
如果你想寫一個數據庫,那么你需要去了解磁盤、索引實現、SQL解析(編譯原理)、事務、如何用MVCC解決讀寫沖突等等一大堆的東西,還得了解一大堆編程語言層面的東西,比如鎖、信號量、并發編程技巧,不得不說造數據庫是一個臟活也是一個累活。
更進一步你想去做分布式數據庫,那可能還得去學習數據分片的知識,查詢任務如何做,是集中做,還是將邏輯下推給各個節點,如何實現分布式事務等等。
你說你只想去大廠CRUD?沒毛病,老鐵!
那你得熟悉一門編譯型語言(C/C++、Java、Go),理解語言部分底層原理,比如C++你得看看STL、看看對象模型吧,你不懂什么虛函數表、智能指針還想去騰訊寫C++?Java的你得背背JVM,什么垃圾回收算法吧,你不看看ConcurrentHashMap好意思說你是做Java的?
咱CRUD的對象是數據庫吧?那不得學學怎么才能把數據庫用好。用戶通過HTTP訪問我們得服務,總得了解HTTP吧?順帶著不看下TCP三次握手、四次揮手你好意思說是學計算機的?
用戶把錢、信息放咱們這,總得*用戶數據安全吧?那XSS、SQL注入、CSRF這些常見的Web攻擊手段你總得了解吧?HTTPS、RSA、簽名、數字證書這些安全手段總得知道吧。
雙十*量太大,老板還讓你必須頂住,那你總得了解下緩存、異步、消息隊列、NoSQL這些千萬QPS必備的大殺器吧?
看看!要想做好CRUD也不是那么容易滴。
(上面這段只是換一種方式把做后端的同學要學的知識寫出來,不是吐槽更不是調侃,純屬娛樂。
技能
這就很多了,包括VSCode、Jetbrains全家桶這些IDE,文檔編寫Markdown、Git等版本管理工具。SSH遠程登錄、端口轉發,Ngrok內網穿透等等這些提高你開發效率的工具,都算是技能,這個沒啥好說的,平時用到多學習多積累就好了。
我只提一點,盡早使用Linux、類Unix(Mac)作為主力開發電腦。我大二的時候,就是看了王ying的那篇《完全用Linux工作》,直接買了個SSD套上U盤外殼,做了一個啟動盤,后來用了將近一年的Ubuntu,只有在選課、提交作業等需要用的IE瀏覽器的時候才會打開Windows(這里不得不吐槽學校老古董網站!)
當然了,我也不是狂熱的Linux愛好者,只是單純覺得做開發的話,離不開各種環境安裝、命令行的使用,這點上面類Unix系統帶有天然的優勢,誰用誰知道!
總結
寫完才發現,這篇文章連篇幅都是「基礎:領域知識:技能」接近7:2:1。
這也是我推薦你在大學期間分配學習時間的比例,至少學習基礎知識的時間不少于50%,當然,這些東西你都學完了那可以去找找感興趣的方向專研一下。
千萬不要大一、大二一上來就扎進Java Web、Python爬蟲這種東西,這些可以學,但不是重點。
那么如何檢驗學得如何呢?
想必你一定聽說這個計網面試題:“從URL輸入到頁面展現到底發生什么?“
這個問題換個表達就是「一個數據包是如何發送到另外一臺電腦的」。
如果你能完整的說出整個過程,那么計網你一定是學懂了!這就是為啥面試這么喜歡問這個問題的原因。
那么我們依葫蘆畫瓢提一個問題
“從代碼被寫下到程序運行起來到底發生了什么?”
這個問題回答得越詳細越好,基本上能說清楚了,你就理解了編譯原理、操作系統、組成原理這三座大三。
這個問題也放在這,后續發文總結,請持續關注編程指北哦。
唉,當年要是有這么個貼心學長告訴我這些,也不至于在Andorid開發、Java Web、Python爬蟲這些玩大半年啊。。。
不過還好后來自己意識到了基礎的重要性,開始學匯編、重學C、搞mini os、看Linux內核實現原理,最后成功的把頭發掉了一把。。。
最后想送給你一句我挺喜歡的話:
萬丈高樓平地起,勿在浮沙筑高臺。