【經驗分享】為追求100%可靠，NASA提出10條代碼編寫原則

2017-05-18 by:CAE仿真在線來源:互聯網

美國宇航局(National Aeronautics and Space Administration,縮寫為 NASA)是美國聯邦政府的一個獨立機構,負責制定、實施美國的民用太空計劃、與開展航空科學暨太空科學的研究。在太空計劃之外,美國國家航空航天局還進行長期的民用以及軍用航空航天研究。

在普通人的眼中,NASA是一個很“高級”的機構,其成員包含大量不同領域的科學家和研究人員。與其他任何組織機構類似,NASA的日常工作,以及所執(zhí)行的幾乎全部項目也離不開計算機的輔助,出于需求的特殊性和重要性,他們所使用的很多計算機軟件都是內部自行開發(fā)的,在一些重要項目的關鍵領域發(fā)揮著作用。

去年,一位前NASA實習生把美國阿波羅登月項目的11號計算機 --- 阿波羅導航計算機 (Apollo Guidance Computer) 系統源代碼上傳到了 GitHub,此舉在開發(fā)者群體中引起了極大的熱議。

此外,NASA官方也已將自己的部分源代碼開源到GitHub,讓我們得以管窺這一頂尖科研機構內的聰明大腦們寫代碼的專業(yè)水平。

大型的復雜軟件項目通常會遵循一定的代碼編寫標準和指南。這些指南奠定了軟件開發(fā)過程中必須遵守的基本原則:

代碼的結構如何安排?
應不應當使用哪些語言特性?

出于效果的角度考慮,這些原則必須盡可能精簡并且必須足夠具體,這樣才能更好地被人理解并記憶。

本文將介紹由NASA噴氣推進實驗室首席科學家Gerard J. Holzmann所提出的,側重于安全參數的10條代碼編寫原則。當然,這些原則也適用于其他編程語言。

為NASA工作的全球頂尖程序員在編寫高度安全的代碼時就沿襲了這樣的一套指南。實際上,很多組織,包括NASA噴氣推進實驗室主要會選擇使用C語言編寫代碼。

原因在于這種語言具備完善的工具支持,包括邏輯模型分離器、調試器、靜態(tài)編譯器、源代碼分析器,以及度量工具等。

有時候,編寫代碼必須遵守一定的原則,尤其是在代碼的正確性會對人的生命產生決定性影響的領域,例如飛機、將宇航員送上同步軌道的航天器,以及距離居住地僅幾英里遠的核電站等設施運行的控制代碼。

原則1 – 簡化控制流程

使用盡可能精簡的控制流程構造編寫程序 – 不要使用setjmp或longjmp構造、goto語句,以及直接或間接的recursion。

原因:簡化控制流程有助于提高代碼清晰度,增強代碼可驗證能力。不使用遞歸,便不會產生循環(huán)的函數調用圖,這樣也可證明所有本應有界的執(zhí)行實際上都是有界的。

原則2 – 為循環(huán)設置上限次數

所有循環(huán)必須有固定次數的上限。我們可以通過驗證工具靜態(tài)地證明,為循環(huán)中迭代數量所設立的上限次數未被超越。

如果無法以靜態(tài)方式對循環(huán)的次數界限加以證明,則可認為未遵守該原則。

原因:為循環(huán)設置次數界限,避免使用遞歸,這些做法有助于預防代碼失控。然而該原則無法適用于本就不應終止的迭代(例如進程調度器)。此時將沿用該原則的逆向原則:必須能夠靜態(tài)地證明迭代不能終止。

原則3 – 不使用動態(tài)內存分配

不要在初始化完成后進行動態(tài)內存分配。

原因:諸如malloc等內存分配機制,以及垃圾回收器通常會產生無法預知的行為,進而可能會對性能產生影響。更重要的是,還有可能因為程序員的失誤造成內存錯誤,例如:

試圖分配超過可用物理內存數的內存
忘記釋放內存
繼續(xù)使用已被釋放的內存
對已分配內存進行越界使用

應強制所有模塊位于固定大小、預先分配的存儲區(qū)域中,借此可避免此類問題,并簡化內存使用情況的驗證工作。

堆中未分配內存的情況下,動態(tài)請求內存的唯一方式是使用棧內存。

原則4 – 不使用冗長的函數

任何函數的長度不應超過使用標準參考格式(每個聲明最多一行,每個語句最多一行)打印的紙張上一頁紙所能容納的字符數。這意味著函數的代碼不應超過60行。

原因:過長的函數通常意味著結構并非最優(yōu)。每個函數都應是可理解且可驗證的單一邏輯單位。如果在計算機顯示器上需要多屏界面才能完整顯示,這樣的邏輯單位通常會極難理解。

原則5 – 低斷言密度

【經驗分享】為追求100%可靠，NASA提出10條代碼編寫原則fluent分析案例圖片2

程序的斷言密度(Assertion density)應平均保持為每個函數最少兩個斷言。斷言可用于檢查現實運行過程中本絕不應出現的異常狀況,因此應定義為Boolean測試。當斷言失敗后,應執(zhí)行明確的恢復操作。

如果靜態(tài)檢查工具證明斷言絕對不會Fail或Hold,則可認為未遵守該原則。

原因:業(yè)界的代碼編寫工作統計報告顯示,通過單元測試可發(fā)現,通常我們所編寫的每10-100行代碼中至少會存在一處缺陷。隨著斷言密度的增高,攔截缺陷的機會也會增大。

斷言的另一個重要之處在于,它是防御性編程(Defensive coding)策略的重要組成部分。我們可以使用斷言驗證函數執(zhí)行前后的狀況,函數的執(zhí)行參數和返回值,以及循環(huán)不變式(Loop-invariant)。在完成性能關鍵代碼的測試工作后,可將斷言選擇性地禁用。

原則6 – 以最小范圍級別聲明數據對象

該原則同時也是數據隱蔽(Data hiding)的基本原則。所有數據對象均必須以盡可能最小的范圍級別進行聲明。

原因:如果某對象不在范圍內,意味著其值將無法引用或已損壞。該原則不鼓勵出于多種可能導致故障診斷工作變得更復雜的互斥意圖重用變量。

原則7 – 檢查參數和返回值

應在每次調用函數后檢查非空函數的返回值,并應在每個函數內部檢查參數的合法性。

在最嚴格的形式下,該原則意味著就算printf語句和文件close語句的返回值也應進行檢查。

原因:如果對一個錯誤結果的響應與對成功結果的響應本不應有任何區(qū)別,那么很明顯需要檢查返回值。通常對close和printf的調用便符合這種情況。此時一種可行的方法是將函數的返回值明確拋出給void,這意味著開發(fā)者明確(而非意外地)決定忽略該返回值。

原則8 – 限制預處理程序的使用

預處理程序(Preprocessor)應僅限用于頭文件和宏定義。遞歸的宏調用、令牌傳遞,以及變量參數列表均不允許使用。就算大型應用程序開發(fā)工作中,標準樣板文件(Boilerplate)之外也可能有必要使用一兩個以上的條件編譯指令,這是為了避免將同一個頭文件包含多次。每個這種用法必須通過工具檢查器添加標記,并通過代碼闡述原因。

原因:C語言預處理程序是一個強大但較為含糊的工具,有可能徹底破壞代碼的清晰度,并讓很多基于文本的檢查器產生混淆。就算具備正式的語言定義,包含無界限預處理程序代碼的構造也會顯得非常難以解讀。

有關條件編譯的注意事項同樣很重要 – 就算只使用10個條件編譯指令,代碼也有會產生1024(2^10)個可能的版本,這會導致測試工作量劇增。

原則9 – 限制指針的使用

指針的使用必須加以限制。通常只允許不超過一層的解引用(Dereferencing)。指針解引用操作不應隱藏在typedef聲明或宏定義內部。此外函數指針也是不允許使用的。

原因:指針很容易被濫用,就算專家也難以徹底避免。指針的存在會使得我們難以跟蹤或分析程序中數據的流動,尤其是在使用基于工具的靜態(tài)分析器執(zhí)行這些操作時。函數指針還會對靜態(tài)分析器所能執(zhí)行的檢查類型產生限制,因此除非有非常必要的理由,否則一般不推薦使用。如果使用函數指針,通常幾乎將無法通過工具證明遞歸的缺席,此時只能提供其他方法彌補這種分析能力的缺失。

原則10 – 編譯所有代碼

從開發(fā)工作第一天開始時,就必須對所有代碼進行編譯。必須啟用編譯器的警告功能,并使用最細致的檢查選項。代碼必須能通過這樣的設置在不產生任何警報的情況下順利編譯完成。

所有代碼必須每天一次,使用至少一種(多種則更好)最新型的靜態(tài)源代碼分析器進行檢查,并且必須順利通過分析器的整個檢查過程而不產生任何警告。

原因:市面上有很多效果卓越的源代碼分析器,其中很多甚至是以免費軟件的形式發(fā)布的。對于這樣可以直接使用的現成技術,任何軟件開發(fā)工作都沒理由不加以充分利用。

如果編譯器或靜態(tài)分析器遇到問題,導致問題/錯誤的代碼必須重寫,這樣才能進一步改善代碼質量。

NASA對這些原則的看法為:“這些原則就如同汽車安全帶,也許一開始會覺得有些不舒適,但很快會變成每個人的第二本能,到時候很難想象會有人不這么做?！?

此文在Reddit引發(fā)了熱烈的討論,現將部分有價值內容摘錄如下:

@fluffynukeit:本文的很多原則提到使用靜態(tài)代碼分析器進行分析是一種更簡單可靠的辦法。如果我在開發(fā)C或C++代碼,有什么好用的免費靜態(tài)代碼分析器嗎?一方面我想看看這些分析器的工作效果,另一方面,我一直在使用另一個極為糟糕的分析器,想對比一下來了解原本使用的分析器到底有多糟糕。

@tobascodagama:我覺得有必要提醒大家,本文所說的“安全關鍵程序”是一種面向特定領域的術語。每次網上流傳類似這樣的東西時,大家都會試圖將相關內容應用在一般常規(guī)用途的軟件中,但實際上除非你的軟件中出現的無法處理的異常真的會致命,否則并不需要如此嚴格(也許也不應該這樣做,因為大部分此類原則會在代碼可讀性和可維護性方面造成不小的麻煩)。

@xianbaun:原則3 – 不使用動態(tài)內存分配,這條讓我大吃一驚。我很好奇,如果不使用動態(tài)內存分配,你到底如何編寫哪怕很小規(guī)模的程序!是否就只在程序運行時分配一大塊內存,隨后程序的所有執(zhí)行都在這塊內存中進行?

@aim2free:我倒是對于NASA使用C語言感覺驚訝,我本想著他們會使用Ada之類的東西。這些原則中很多原則與我在ASEA(現ABB)擔任開發(fā)者時所遵守的原則是相同的,拋開這些不談,同時拋開有關預處理程序的原則不談,我們當時主要使用Pascal,對于遞歸函數也制訂了相應的原則。我編寫了一個預處理程序,這樣就可以保證開發(fā)者能夠獲得恰當的聲明,而無需擔心這些問題,此外我們還會按照標準設置程序代碼的縮進和格式,畢竟每個程序員在代碼格式方面都有一些個人偏好。所有程序都有必要在這些問題方面由其他程序員進行交叉檢查。

@NewYorkCityGent:他們?yōu)槭裁床话堰@些原則強制應用到編譯器中?可以通過 -WNasa 或其他類似的東西告訴開發(fā)者是否違反了這些原則。此外還需要使用 std lib C 來維護這些嚴格的原則。建議挺好,就是不明白為什么不用自動化的方法來應用(或者他們正是這樣做的?)

你有什么想法或者想說的,歡迎評論區(qū)留言討論。另外,本文為翻譯文章,有表述不妥之處,還請指正。原文鏈接:

http://www.rankred.com/nasa-coding-rules/

作者|RankRed 編輯|大愚若智
-------------------免責申明---------------------

本著學習交流的目的,自公眾號聊聊架構轉載該文,如有不適,請聯系kf#1cae.com(請用@代替#)進行處理,謝謝理解與支持

開放分享：優(yōu)質有限元技術文章,助你自學成才