編譯器工作原理
編譯器,是將便于人編寫(xiě),閱讀,維護(hù)的高級(jí)計(jì)算機(jī)語(yǔ)言翻譯為計(jì)算機(jī)能識(shí)別,運(yùn)行的低級(jí)機(jī)器語(yǔ)言的程序。編譯器將源程序(Source program)作為輸入,翻譯產(chǎn)生使用目標(biāo)語(yǔ)言(Target language)的等價(jià)程序。源程序一般為高級(jí)語(yǔ)言(High-level language),如Pascal,C++等,而目標(biāo)語(yǔ)言則是匯編語(yǔ)言或目標(biāo)機(jī)器的目標(biāo)代碼(Object code),有時(shí)也稱(chēng)作機(jī)器代碼(Machine code)。
一個(gè)現(xiàn)代編譯器的主要工作流程如下:
源代碼(sourcecode)→預(yù)處理器(preprocessor)→編譯器(compiler)→匯編程序(assembler)→目標(biāo)代碼(objectcode)→連接器(Linker)→可執(zhí)行程序(executables)
編譯語(yǔ)言與解釋語(yǔ)言對(duì)比:
許多人將高級(jí)程序語(yǔ)言分為兩類(lèi):編譯型語(yǔ)言和解釋型語(yǔ)言。然而,實(shí)際上,這些語(yǔ)言中的大多數(shù)既可用編譯型實(shí)現(xiàn)也可用解釋型實(shí)現(xiàn),分類(lèi)實(shí)際上反映的是那種語(yǔ)言常見(jiàn)的實(shí)現(xiàn)方式。(但是,某些解釋型語(yǔ)言,很難用編譯型實(shí)現(xiàn)。比如那些允許在線代碼更改的解釋型語(yǔ)言。)
編譯器是一種特殊的程序,它可以把以特定編程語(yǔ)言寫(xiě)成的程序變?yōu)闄C(jī)器可以運(yùn)行的機(jī)器碼。把一個(gè)程序?qū)懞茫@時(shí)利用的環(huán)境是文本編輯器。這時(shí)我程序把程序稱(chēng)為源程序。在此以后程序員可以運(yùn)行相應(yīng)的編譯器,通過(guò)指定需要編譯的文件的名稱(chēng)就可以把相應(yīng)的源文件(通過(guò)一個(gè)復(fù)雜的過(guò)程)轉(zhuǎn)化為機(jī)器碼了。
![]() |
編譯器 |
典型的編譯器輸出是由包含入口點(diǎn)的名字和地址以及外部調(diào)用(到不在這個(gè)目標(biāo)文件中的函數(shù)調(diào)用)的機(jī)器代碼所組成的目標(biāo)文件。一組目標(biāo)文件,不必是同一編譯器產(chǎn)生,但使用的編譯器必需采用同樣的輸出格式,可以鏈接在一起并生成可以由用戶(hù)直接執(zhí)行的可執(zhí)行程序。
![]() |
編譯器 |
預(yù)處理器:預(yù)處理器(preprocessor)作用是通過(guò)代入預(yù)定義等程序段將源程序補(bǔ)充完整。
編譯器前端:編譯器前端(frontend),前端主要負(fù)責(zé)解析(parse)輸入的源程序,由詞法分析器和語(yǔ)法分析器協(xié)同工作。詞法分析器負(fù)責(zé)把源程序中的‘單詞’(Token)找出來(lái),語(yǔ)法分析器把這些分散的單詞按預(yù)先定義好的語(yǔ)法組裝成有意義的表達(dá)式,語(yǔ)句 ,函數(shù)等等。 例如“a = b + c;”前端詞法分析器看到的是“a = b
編譯器后端:編譯器后端(backend)編譯器后端主要負(fù)責(zé)分析,優(yōu)化中間代碼(Intermediate representation)以及生成機(jī)器代碼(Code Generation)。
編譯器分析,優(yōu)化,變型都可以分成兩大類(lèi): 函數(shù)內(nèi)(intraprocedural)還是函數(shù)之間(interprocedural)進(jìn)行。很明顯,函數(shù)間的分析,優(yōu)化更準(zhǔn)確,但需要更長(zhǎng)的時(shí)間來(lái)完成。對(duì)于函數(shù)內(nèi)的優(yōu)化,有可以根據(jù)優(yōu)化施加的范圍分為,全局的(global)和局部的(local)。其中全局的優(yōu)化是指該優(yōu)化需要使用到全局的數(shù)據(jù)流和控制流信息。而局部的優(yōu)化是指指導(dǎo)優(yōu)化的信息來(lái)自基本快。
![]() |
編譯器 |
常見(jiàn)的編譯分析有函數(shù)調(diào)用樹(shù)(call tree),控制流程圖(Control flow graph),以及在此基礎(chǔ)上的 變量定義-使用,使用-定義鏈(define-use/use-define or u-d/d-u chain),變量別名分析(alias analysis),指針?lè)治觯╬ointer analysis),數(shù)據(jù)依賴(lài)分析(data dependence analysis)等。
程序分析結(jié)果是編譯器優(yōu)化(compiler optimization)和程序變形(compiler transformation)的前提條件。常見(jiàn)的優(yōu)化和變新有:函數(shù)內(nèi)嵌(inlining),無(wú)用代碼刪除(Dead code elimination),標(biāo)準(zhǔn)化循環(huán)結(jié)構(gòu)(loop normalization),循環(huán)體展開(kāi)(loop unrolling),循環(huán)體合并,分裂(loop fusion,loop fission),數(shù)組填充(array padding),等等。 優(yōu)化和變形的目的是減少代碼的長(zhǎng)度,提高內(nèi)存(memory),緩存(cache)的使用率,減少讀寫(xiě)磁盤(pán),訪問(wèn)網(wǎng)絡(luò)數(shù)據(jù)的頻率。更高級(jí)的優(yōu)化甚至可以把序列化的代碼(serial code)變成并行運(yùn)算,多線程的代碼(parallelized,multi-threaded code)。
機(jī)器代碼的生成是優(yōu)化變型后的中間代碼轉(zhuǎn)換成機(jī)器指令的過(guò)程?,F(xiàn)代編譯器主要采用生成匯編代碼(assembly code)的策略,而不直接生成二進(jìn)制的目標(biāo)代碼(binary object code)。即使在代碼生成階段,高級(jí)編譯器仍然要做很多分析,優(yōu)化,變形的工作。例如如何分配寄存器(register allocatioin),如何選擇合適的機(jī)器指令(instruction selection),如何合并幾句代碼成一句等等。
![]() |
編譯器 |
有限狀態(tài)自動(dòng)機(jī)(Finite Automaton)和正則表達(dá)式(Regular Expression)同上下文無(wú)關(guān)文法緊密相關(guān),它們與Chomsky的3型文法相對(duì)應(yīng)。對(duì)它們的研究與Chomsky的研究幾乎同時(shí)開(kāi)始,并且引出了表示程序設(shè)計(jì)語(yǔ)言的單詞的符號(hào)方式。
人們接著又深化了生成有效目標(biāo)代碼的方法,這就是最初的編譯器,它們被一直使用至今。人們通常將其稱(chēng)為優(yōu)化技術(shù)(Optimization Technique),但因其從未真正地得到過(guò)被優(yōu)化了的目標(biāo)代碼而僅僅改進(jìn)了它的有效性,因此實(shí)際上應(yīng)稱(chēng)作代碼改進(jìn)技術(shù)(Code Improvement Technique)。
當(dāng)分析問(wèn)題變得好懂起來(lái)時(shí),人們就在開(kāi)發(fā)程序上花費(fèi)了很大的功夫來(lái)研究這一部分的編譯器自動(dòng)構(gòu)造。這些程序最初被稱(chēng)為編譯器的編譯器(Compiler-compiler),但更確切地應(yīng)稱(chēng)為分析程序生成器(Parser Generator),這是因?yàn)樗鼈儍H僅能夠自動(dòng)處理編譯的一部分。這些程序中最著名的是Yacc(Yet Another Compiler-compiler),它是由Steve Johnson在1975年為Unix系統(tǒng)編寫(xiě)的。類(lèi)似的,有限狀態(tài)自動(dòng)機(jī)的研究也發(fā)展了一種稱(chēng)為掃描程序生成器(Scanner Generator)的工具,Lex(與Yacc同時(shí),由Mike Lesk為Unix系統(tǒng)開(kāi)發(fā))是這其中的佼佼者。
在70年代后期和80年代早期,大量的項(xiàng)目都貫注于編譯器其它部分的生成自動(dòng)化,這其中就包括了代碼生成。這些嘗試并未取得多少成功,這大概是因?yàn)椴僮魈珡?fù)雜而人們又對(duì)其不甚了解。
編譯器設(shè)計(jì)發(fā)展包括:首先,編譯器包括了更加復(fù)雜算法的應(yīng)用程序它用于推斷或簡(jiǎn)化程序中的信息;這又與更為復(fù)雜的程序設(shè)計(jì)語(yǔ)言的發(fā)展結(jié)合在一起。其中典型的有用于函數(shù)語(yǔ)言編譯的Hindley-Milner類(lèi)型檢查的統(tǒng)一算法。其次,編譯器已越來(lái)越成為基于窗口的交互開(kāi)發(fā)環(huán)境(Interactive Development Environment,IDE)的一部分,它包括了編輯器、連接程序、調(diào)試程序以及項(xiàng)目管理程序。這樣的IDE標(biāo)準(zhǔn)并沒(méi)有多少,但是對(duì)標(biāo)準(zhǔn)的窗口環(huán)境進(jìn)行開(kāi)發(fā)已成為方向。另一方面,盡管近年來(lái)在編譯原理領(lǐng)域進(jìn)行了大量的研究,但是基本的編譯器設(shè)計(jì)原理在近20年中都沒(méi)有多大的改變,它現(xiàn)在正迅速地成為計(jì)算機(jī)科學(xué)課程中的中心環(huán)節(jié)。
在90年代,作為GNU項(xiàng)目或其它開(kāi)放源代碼項(xiàng)目的一部分,許多免費(fèi)編譯器和編譯器開(kāi)發(fā)工具被開(kāi)發(fā)出來(lái)。這些工具可用來(lái)編譯所有的計(jì)算機(jī)程序語(yǔ)言。它們中的一些項(xiàng)目被認(rèn)為是高質(zhì)量的,而且對(duì)現(xiàn)代編譯理論感性趣的人可以很容易的得到它們的免費(fèi)源代碼。
大約在1999年,SGI公布了他們的一個(gè)工業(yè)化的并行化優(yōu)化編譯器Pro64的源代碼,后被全世界多個(gè)編譯器研究小組用來(lái)做研究平臺(tái),并命名為Open64。Open64的設(shè)計(jì)結(jié)構(gòu)好,分析優(yōu)化全面,是編譯器高級(jí)研究的理想平臺(tái)。
編譯器 |
然后進(jìn)行語(yǔ)義分析,就是把各個(gè)由語(yǔ)法分析分析出的語(yǔ)法單元的意義搞清楚。
最后生成的是目標(biāo)文件,也稱(chēng)為obj文件。
再經(jīng)過(guò)鏈接器的鏈接就可以生成最后的可執(zhí)行代碼了。
有些時(shí)候需要把多個(gè)文件產(chǎn)生的目標(biāo)文件進(jìn)行鏈接,產(chǎn)生最后的代碼。這一過(guò)程稱(chēng)為交叉鏈接。
-----------------------------------------------------
Silence, the way to avoid many problems;
Smile, the way to solve many problems;
posted on 2012-02-23 22:25 Chan Chen 閱讀(1198) 評(píng)論(0) 編輯 收藏 所屬分類(lèi): Architecture