大神教你如何做好邏輯設計

——

作者：時間：2014-05-16 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　我們先來看開關時延，這個時延是由器件物理特性決定的，我們沒有辦法去改變，所以我們只能通過改變走線方式和減少組合邏輯的方法來提高工作頻率。

本文引用地址：http://2s4d.com/article/246996.htm

　　1.通過改變走線的方式減少時延。

　　以altera的器件為例，我們在quartus里面的timing closure floorplan可以看到有很多條條塊塊，我們可以將條條塊塊按行和按列分，每一個條塊代表1個LAB，每個LAB里有8個或者是10個LE。它們的走線時延的關系如下：同一個LAB中(最快) < 同列或者同行 < 不同行且不同列。

　　我們通過給綜合器加適當?shù)募s束(不可貪心，一般以加5%裕量較為合適，比如電路工作在100Mhz，則加約束加到105Mhz就可以了，貪心效果反而不好，且極大增加綜合時間)可以將相關的邏輯在布線時盡量布的靠近一點，從而減少走線的時延。(注：約束的實現(xiàn)不完全是通過改進布局布線方式去提高工作頻率，還有其它的改進措施)

　　2.通過減少組合邏輯的減少時延。

　　上面我們講了可以通過加約束來提高工作頻率，但是我們在做設計之初可萬萬不可將提高工作頻率的美好愿望寄托在加約束上，我們要通過合理的設計去避免出現(xiàn)大的組合邏輯，從而提高電路的工作頻率，這才能增強設計的可移植性，才可以使得我們的設計在移植到另一同等速度級別的芯片時還能使用。

　　我們知道，目前大部分FPGA都基于4輸入LUT的，如果一個輸出對應的判斷條件大于四輸入的話就要由多個LUT級聯(lián)才能完成，這樣就引入一級組合邏輯時延，我們要減少組合邏輯，無非就是要輸入條件盡可能的少，，這樣就可以級聯(lián)的LUT更少，從而減少了組合邏輯引起的時延。

　　我們平時聽說的流水就是一種通過切割大的組合邏輯(在其中插入一級或多級D觸發(fā)器，從而使寄存器與寄存器之間的組合邏輯減少)來提高工作頻率的方法。比如一個32位的計數(shù)器，該計數(shù)器的進位鏈很長，必然會降低工作頻率，我們可以將其分割成4位和8位的計數(shù)，每當4位的計數(shù)器計到15后觸發(fā)一次8位的計數(shù)器，這樣就實現(xiàn)了計數(shù)器的切割，也提高了工作頻率。

　　在狀態(tài)機中，一般也要將大的計數(shù)器移到狀態(tài)機外，因為計數(shù)器這東西一般是經(jīng)常是大于4輸入的，如果再和其它條件一起做為狀態(tài)的跳變判據(jù)的話，必然會增加LUT的級聯(lián)，從而增大組合邏輯。以一個6輸入的計數(shù)器為例，我們原希望當計數(shù)器計到111100后狀態(tài)跳變，現(xiàn)在我們將計數(shù)器放到狀態(tài)機外，當計數(shù)器計到111011后產(chǎn)生個enable信號去觸發(fā)狀態(tài)跳變，這樣就將組合邏輯減少了。

　　上面說的都是可以通過流水的方式切割組合邏輯的情況，但是有些情況下我們是很難去切割組合邏輯的，在這些情況下我們又該怎么做呢?

　　狀態(tài)機就是這么一個例子，我們不能通過往狀態(tài)譯碼組合邏輯中加入流水。如果我們的設計中有一個幾十個狀態(tài)的狀態(tài)機，它的狀態(tài)譯碼邏輯將非常之巨大，毫無疑問，這極有可能是設計中的關鍵路徑。那我們該怎么做呢?還是老思路，減少組合邏輯。我們可以對狀態(tài)的輸出進行分析，對它們進行重新分類，并根據(jù)這個重新定義成一組組小狀態(tài)機，通過對輸入進行選擇(case語句)并去觸發(fā)相應的小狀態(tài)機，從而實現(xiàn)了將大的狀態(tài)機切割成小的狀態(tài)機。在ATA6的規(guī)范中(硬盤的標準)，輸入的命令大概有20十種，每一個命令又對應很多種狀態(tài)，如果用一個大的狀態(tài)機(狀態(tài)套狀態(tài))去做那是不可想象的，我們可以通過case語句去對命令進行譯碼，并觸發(fā)相應的狀態(tài)機，這樣做下來這一個模塊的頻率就可以跑得比較高了。

　　總結：提高工作頻率的本質(zhì)就是要減少寄存器到寄存器的時延，最有效的方法就是避免出現(xiàn)大的組合邏輯，也就是要盡量去滿足四輸入的條件，減少LUT級聯(lián)的數(shù)量。我們可以通過加約束、流水、切割狀態(tài)的方法提高工作頻率。

　　做邏輯的難點在于系統(tǒng)結構設計和仿真驗證

　　剛去公司的時候BOSS就和我講，做邏輯的難點不在于RTL級代碼的設計，而在于系統(tǒng)結構設計和仿真驗證方面。目前國內(nèi)對可綜合的設計強調(diào)的比較多，而對系統(tǒng)結構設計和仿真驗證方面似乎還沒有什么資料，這或許也從一個側面反映了國內(nèi)目前的設計水平還比較低下吧。

　　以前在學校的時候，總是覺得將RTL級代碼做好就行了，仿真驗證只是形式而已，所以對HDL的行為描述方面的語法不屑一顧，對testbench也一直不愿意去學--因為覺得畫波形圖方便;對于系統(tǒng)結構設計更是一點都不懂了。

　　到了公司接觸了些東西才發(fā)現(xiàn)完全不是這樣。

　　其實在國外，花在仿真驗證上的時間和人力大概是花在RTL級代碼上的兩倍，現(xiàn)在仿真驗證才是百萬門級芯片設計的關鍵路徑。仿真驗證的難點主要在于怎么建模才能完全和準確地去驗證設計的正確性(主要是提高代碼覆蓋)，在這過程中，驗證速度也是很重要的。

　　驗證說白了也就是怎么產(chǎn)生足夠覆蓋率的激勵源，然后怎么去檢測錯誤。我個人認為，在仿真驗證中，最基本就是要做到驗證的自動化。這也是為什么我們要寫testbench的原因。在我現(xiàn)在的一個設計中，每次跑仿真都要一個小時左右(這其實算小設計)。由于畫波形圖無法做到驗證自動化，如果用通過畫波形圖來仿真的話，一是畫波形會畫死(特別是對于算法復雜的、輸入呈統(tǒng)計分布的設計)，二是看波形圖要看死，三是檢錯率幾乎為零。

　　那么怎么做到自動化呢?我個人的水平還很有限，只能簡單地談下BFM(bus function model，總線功能模型)。

　　以做一個MAC的core為例(背板是PCI總線)，那么我們需要一個MAC_BFM和PCI_BFM及PCI_BM(PCI behavior model)。MAC_BFM的主要功能是產(chǎn)生以太網(wǎng)幀(激勵源)，隨機的長度和幀頭，內(nèi)容也是隨機的,在發(fā)送的同時也將其復制一份到PCI_BM中;PCI_BFM的功能則是仿PCI總線的行為，比如被測收到了一個正確幀后會向PCI總線發(fā)送一個請求，PCI_BFM則會去響應它，并將數(shù)據(jù)收進來;PCI_BM的主要功能是將MAC_BFM發(fā)送出來的東西與PCI_BFM接收到的東西做比較，由于它具有了MAC_BFM的發(fā)送信息和PCI_BFM的接收信息，只要設計合理，它總是可以自動地、完全地去測試被測是否工作正常，從而實現(xiàn)自動檢測。

　　華為在仿真驗證方面估計在國內(nèi)來說是做的比較好的，他們已建立起了比較好的驗證平臺，大部分與通信有關的BFM都做好了，聽我朋友說，現(xiàn)在他們只需要將被測放在測試平臺中，并配置好參數(shù)，就可以自動地檢測被測功能的正確與否。

　　在功能仿真做完后，由于我們做在是FPGA的設計，在設計時已經(jīng)基本保證RTL級代碼在綜合結果和功能仿真結果的一致性，只要綜合布局布線后的靜態(tài)時序報告沒有違反時序約束的警告，就可以下到板子上去調(diào)試了。事實上，在華為中興，他們做FPGA的設計時也是不做時序仿真的，因為做時序仿真很花時間，且效果也不見得比看靜態(tài)時序分析報告好。

　　當然了，如果是ASIC的設計話，它們的仿真驗證的工作量要大一些，在涉及到多時鐘域的設計時，一般還是做后仿的。不過在做后仿之前，也一般會先用形式驗證工具和通過靜態(tài)時序分序報告去查看有沒有違反設計要求的地方，這樣做了之后，后仿的工作量可以小很多。

　　在HDL語言方面，國內(nèi)語言很多人都在爭論VHDL和verilog哪個好，其實我個人認為這并沒有多大的意義，外面的大公司基本上都是用verilog在做RTL級的代碼，所以還是建議大家盡量學verilog。在仿真方面，由于VHDL在行為級建模方面弱于verilog，用VHDL做仿真模型的很少，當然也不是說verilog就好，其實verilog在復雜的行為級建模方面的能力也是有限的，比如目前它還不支持數(shù)組。在一些復雜的算法設計中，需要高級語言做抽象才能描述出行為級模型。在國外，仿真建模很多都是用System C和E語言，用verilog的都算是很落后的了，國內(nèi)華為的驗證平臺好像是用System C寫。

　　在系統(tǒng)結構設計方面，由于我做的設計還不夠大，還談不上什么經(jīng)驗，只是覺得必須要具備一些計算機系統(tǒng)結構的知識才行。劃分的首要依據(jù)是功能，之后是選擇合適的總線結構、存儲結構和處理器架構，通過系統(tǒng)結構劃分要使各部分功能模塊清晰，易于實現(xiàn)。這一部分我想過段時間有一點體會了再和大家分享，就先不誤導大家了。