{
\"code\": 200,
\"title\": \"\",
\"content\": \"簡單講,編譯器就是將“高級語言”翻譯為“機器語言(低級語言)”的程式。一個現代編譯器的主要工作流程:源代碼(sourcecode)→預處理器(preprocessor)→編譯器(compiler)→彙程式設計序(assembler)→目標代碼(objectcode)→鏈接器(Linker)→可執行程式(executables)\\n\\n高級計\\n\\n編譯器算機語言便於人編寫,閱讀,維護。低階機器語言是計算機能直\\n\\n接解讀、運行的。編譯器將源程式(Sourceprogram)作為輸入,翻譯產生使用目標語言(Targetlanguage)的等價程式。源代碼一般為高級語言(High-levellanguage),如Pascal、C、C 、C#、Java等,而目標語言則是組合語言或目標機器的目標代碼(Objectcode),有時也稱作機器代碼(Machinecode)。\\n\\n工作原理\\n\\n編譯是從源代碼(通常為高級語言)到能直接被計算機或虛擬機執行的目標代碼(通常為低階語言或機器語言)的翻譯過程。然而,也存在從低階語言到高級語言的編譯器,這類編譯器中用來從由高級語言生成的低階語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器,或者生成一種需要進一步處理的的中間代碼的編譯器(又叫級聯)。\\n\\n典型的編譯器輸出是由包含入口點的名字和地址,以及外部調用(到不在這個目標檔案中的函數調用)的機器代碼所組成的目標檔案。一組目標檔案,不必是同一編譯器產生,但使用的編譯器必需采用同樣的輸出格式,可以鏈接在一起並生成可以由用戶直接執行的可執行程式。\\n\\n編譯器種類\\n\\n編譯器\\n\\n編譯\\n\\n編譯器器可以生成用來在與編譯器本身所在的計算機和操作係統(平台)\\n\\n相同的環境下運行的目標代碼,這種編譯器又叫做“本地”編譯器。另外,編譯器也可以生成用來在其它平台上運行的目標代碼,這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。“源碼到源碼編譯器”是指用一種高級語言作為輸入,輸出也是高級語言的編譯器。例如:自動並行化編譯器經常采用一種高級語言作為輸入,轉換其中的代碼,並用並行代碼註釋對它進行註釋(如OpenMP)或者用語言構造進行註釋(如FORTRAN的DOALL指令)。\\n\\n預處理器(preprocessor)\\n\\n作用是通過代入預定義等程式段將源程式補充完整。\\n\\n編譯器前端(frontend)\\n\\n前端主要負責解析(parse)輸入的源代碼,由語法分析器和語意分析器協同工作。語法分析器負責把源代碼中的‘單詞’(Token)找出來,語意分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式,語句,函數等等。例如“a=b c;”前端語法分析器看到的是“a,=,b, ,c;”,語意分析器按定義的語法,先把他們組裝成表達式“b c”,再組裝成“a=b c”的語句。前端還負責語義(semanticchecking)的檢查,例如檢測參與運算的變量是否是同一類型的,簡單的錯誤處理。最終的結果常常是一個抽象的語法樹(abstractsyntaxtree,或AST),這樣後端可以在此基礎上進一步優化,處理。\\n\\n編譯器後端(backend)\\n\\n編譯器後端主要負責分析,優化中間代碼(Intermediaterepresentation)以及生成機器代碼(CodeGeneration)。\\n\\n一般說來所有的編譯器分析,優化,變型都可以分成兩大類:函數內(intraprocedural)還是函數之間(interprocedural)進行。很明顯,函數間的分析,優化更準確,但需要更長的時間來完成。\\n\\n編譯器分析(compileranalysis)\\n\\n編譯器分析的對象是前端生成並傳遞過來的中間代碼,現代的優化型編譯器(optimizingcompiler)常常用好幾種層次的中間代碼來表示程式,高層的中間代碼(highlevelIR)接近輸入的源代碼的格式,與輸入語言相關(languagedependent),包含更多的全域性性的資訊,和源代碼的結構;中層的中間代碼(middlelevelIR)與輸入語言無關,低層的中間代碼(LowlevelIR)與機器語言類似。不同的分析,優化發生在最適合的那一層中間代碼上。\\n\\n常見的編譯分析有函數調用樹(calltree),控製流程圖(Controlflowgraph),以及在此基礎上的變量定義-使用,使用-定義鏈(define-use\\/use-defineoru-d\\/d-uchain),變量彆名分析(aliasanalysis),指針分析(pointeranalysis),數據依賴分析(datadependenceanalysis)等等。\\n\\n上述的程式分析結果是編譯器優化(compileroptimization)和程式變形(compilertransformation)的前提條件。常見的優化和變新有:函數內嵌(inlining),無用代碼刪除(Deadcodeelimination),標準化循環結構(loopnormalization),循環體展開(loopunrolling),循環體合併,分裂(loopfusion,loopfission),數組填充(arraypadding),等等。優化和變形的目標是減少代碼的長度,提高內存(memory),緩存(cache)的使用率,減少讀寫磁盤,訪問網絡數據的頻率。更高級的優化甚至可以把序列化的代碼(serialcode)變成並行運算,多線程的代碼(parallelized,multi-threadedcode)。\\n\\n機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要采用生成彙編代碼(assemblycode)的策略,而不直接生成二進製的目標代碼(binaryobjectcode)。即使在代碼生成階段,高級編譯器仍然要做很多分析,優化,變形的工作。例如如何分配暫存器(registerallocatioin),如何選擇合適的機器指令(instructionselection),如何合併幾句代碼成一句等等。\\n\\n代碼分析\\n\\n編譯器\\n\\n編譯器\\n\\n編譯器分析(compileranalysis)的對象是前端生成並傳遞過來的中間\\n\\n代碼,現代的優化型編譯器(optimizingcompiler)常常用好幾種層次的中間代碼來表示程式,高層的中間代碼(highlevelIR)接近輸入的源程式的格式,與輸入語言相關(languagedependent),包含更多的全域性性的資訊,和源程式的結構;中層的中間代碼(middlelevelIR)與輸入語言無關,低層的中間代碼(LowlevelIR)與機器語言類似。不同的分析,優化發生在最適合的那一層中間代碼上。\\n\\n常見的編譯分析有函數調用樹(calltree),控製流程圖(Controlflowgraph),以及在此基礎上的變量定義-使用,使用-定義鏈(define-use\\/use-defineoru-d\\/d-uchain),變量彆名分析(aliasanalysis),指針分析(pointeranalysis),數據依賴分析(datadependenceanalysis)等。\\n\\n編譯器\\n\\n程式分析\\n\\n編譯器結果是編譯器優化(compileroptimization)和程式變形\\n\\n(compilertransformation)的前提條件。常見的優化和變形有:函數內嵌(inlining),無用代碼刪除(Deadcodeelimination),標準化循環結構(loopnormalization),循環體展開(loopunrolling),循環體合併,分裂(loopfusion,loopfission),數組填充(arraypadding),等等。優化和變形的目的是減少代碼的長度,提高內存(memory),緩存(cache)的使用率,減少讀寫磁盤,訪問網絡數據的頻率。更高級的優化甚至可以把序列化的代碼(serialcode)變成並行運算,多線程的代碼(parallelized,multi-threadedcode)。\\n\\n機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要采用生成彙編代碼(assemblycode)的策略,而不直接生成二進製的目標代碼(binaryobjectcode)。即使在代碼生成階段,高級編譯器仍然要做很多分析,優化,變形的工作。例如如何分配暫存器(registerallocatioin),如何選擇合適的機器指令(instructionselection),如何合併幾句代碼成一句等等。\\n\\n工作方法\\n\\n編譯器\\n\\n首先編譯\\n\\n編譯器器進行語法分析,也就是要把那些字串分離出來。\\n\\n然後進行語義分析,就是把各個由語法分析分析出的語法單元的意義搞清楚。\\n\\n最後生成的是目標檔案,也稱為obj檔案。\\n\\n再經過鏈接器的鏈接就可以生成最後的可執行代碼了。\\n\\n有些時候需要把多個檔案產生的目標檔案進行鏈接,產生最後的代碼。這一過程稱為交叉鏈接。\\n\\n編譯語言與直譯語言對比\\n\\n許多人將高階程式語言分為兩類:編譯型語言和直譯型語言。然而,實際上,這些語言中的大多數既可用編譯型實現也可用直譯型實現,分類實際上反映的是那種語言常見的實現方式。(但是,某些直譯型語言,很難用編譯型實現。比如那些允許在線代碼更改的直譯型語言。)\\n\\n曆史\\n\\n編譯器\\n\\n20世紀5\\n\\n編譯器0年代,IBM的JohnBackus帶領一個研究小組對FORTRAN語言\\n\\n及其編譯器進行開發。但由於當時人們對編譯理論瞭解不多,開發工作變得既複雜又艱苦。與此同時,NoamChomsky開始了他對自然語言結構的研究。他的發現最終使得編譯器的結構異常簡單,甚至還帶有了一些自動化。Chomsky的研究導致了根據語言文法的難易程度以及識彆它們所需要的演算法來對語言分類。正如現在所稱的Chomsky架構(ChomskyHierarchy),它包括了文法的四個層次:0型文法、1型文法、2型文法和3型文法,且其中的每一個都是其前者的特殊情況。2型文法(或上下文無關文法)被證明是程式設計語言中最有用的,而且今天它已代表著程式設計語言結構的標準方式。分析問題(parsingproblem,用於上下文無關文法識彆的有效演算法)的研究是在60年代和70年代,它相當完善的解決了這個問題。現在它已是編譯原理中的一個標準部分。\\n\\n有限狀態自動機(FiniteAutomation)和正則表達式(RegularExpression)同上下文無關文法緊密相關,它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始,並且引出了表示程式設計語言的單詞的符號方式。\\n\\n人們接著又深化了生成有效目標代碼的方法,這就是最初的編譯器,它們被一直使用至今。人們通常將其稱為優化技術(OptimizationTechnique),但因其從未真正地得到過被優化了的目標代碼而僅僅改進了它的有效性,因此實際上應稱作代碼改進技術(CodeImprovementTechnique)。\\n\\n當分析問題變得好懂起來時,人們就在開發程式上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程式最初被稱為編譯器的編譯器(Compiler-compiler),但更確切地應稱為分析程式生成器(ParserGenerator),這是因為它們僅僅能夠自動處理編譯的一部分。這些程式中最著名的是Yacc(YetAnotherCompiler-compiler),它是由SteveJohnson在1975年為Unix係統編寫的。類似的,有限狀態自動機的研究也發展了一種稱為掃描程式生成器(ScannerGenerator)的工具,Lex(與Yacc同時,由MikeLesk為Unix係統開發)是這其中的佼佼者。\\n\\n在20世紀70年代後期和80年代早期,大量的項目都貫注於編譯器其它部分的生成自動化,這其中就包括了代碼生成。這些嘗試並未取得多少成功,這大概是因為操作太複雜而人們又對其不甚瞭解。\\n\\n編譯器設計最近的發展包括:首先,編譯器包括了更加複雜演算法的應用程式它用於推斷或簡化程式中的資訊;這又與更為複雜的程式設計語言的發展結合在一起。其中典型的有用於函數語言編譯的Hindley-Milner類型檢查的統一演算法。其次,編譯器已越來越成為基於視窗的互動開發環境(InteractiveDevelopmentEnvironment,IDE)的一部分,它包括了編輯器、連接程式、調試程式以及項目管理程式。這樣的IDE標準並冇有多少,但是對標準的視窗環境進行開發已成為方向。另一方麵,儘管近年來在編譯原理領域進行了大量的研究,但是基本的編譯器設計原理在近20年中都冇有多大的改變,它現在正迅速地成為計算機科學課程中的中心環節。\\n\\n在20世紀90年代,作為GNU項目或其它開放源代碼項目標一部分,許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯所有的計算機程式語言。它們中的一些項目被認為是高質量的,而且對現代編譯理論感興趣的人可以很容易的得到它們的免費源代碼。\\n\\n大約在1999年,SGI公佈了他們的一個工業化的並行化優化編譯器Pro64的源代碼,後被全世界多個編譯器研究小組用來做研究平台,並命名為Open64。Open64的設計結構好,分析優化全麵,是編譯器高級研究的理想平台。\\n\\n\"
}