快速實現(xiàn)SHA-1算法的硬件結(jié)構(gòu)

作者：時間：2012-10-16 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

算法分析

從算法描述可以看出，SHA-1最核心的計算是一個計算5個中間變量的迭代：

An=S5(A n-1)+f n(B n-1，C n-1，D n-1)+

E+Wn+Kn，

Bn=A n-1，

Cn=S30(B n-1)，

Dn=C n-1，

En=D n-1.

在硬件實現(xiàn)中，5個變量在一個周期內(nèi)同時由組合邏輯電路根據(jù)上次迭代的計算值產(chǎn)生，因此每次迭代所需要的時間是由最慢的計算過程決定。這樣一條最慢的計算路徑也就是所謂的關(guān)鍵路徑。如果完全按照SHA-1的原始算法進(jìn)行硬件設(shè)計，那么很明顯的關(guān)鍵路徑是變量A的計算。在每次迭代過程中，計算變量A需要進(jìn)行4次32bit的整數(shù)加法和若干組合邏輯。這些計算一共需要的時間也就是算法硬件實現(xiàn)的最短周期。正是因為變量A的計算比較復(fù)雜，造成SHA-1算法硬件實現(xiàn)的工作頻率難以提高。

因此，加快SHA-1硬件實現(xiàn)的計算速度關(guān)鍵就是改變迭代結(jié)構(gòu)，從而縮短每次迭代過程的關(guān)鍵路徑。

硬件快速實現(xiàn)的新結(jié)構(gòu)

觀察算法可發(fā)現(xiàn)，除了變量A以外，其他4個變量的計算都相當(dāng)簡單。因此，如果將變量A的計算過程通過一定方式分解成若干并行的計算，那么就可以在不增加迭代次數(shù)的前提下，縮短整個計算的關(guān)鍵路徑。

出于這種目的，1997年A.Bosselaers等人對SHA-1算法的結(jié)構(gòu)進(jìn)行了分析，發(fā)現(xiàn)SHA-1算法的數(shù)據(jù)流圖可以分解成并行的7路數(shù)據(jù)處理，每路數(shù)據(jù)上一個周期只需一個基本操作：加法、“異或”或者循環(huán)移位。

在此關(guān)于SHA-1結(jié)構(gòu)結(jié)論的基礎(chǔ)上，本文通過引入中間變量的方法，將計算的關(guān)鍵路徑分解成若干個較短的路徑，從而達(dá)到加速硬件計算的效果。考慮到硬件實現(xiàn)中32bit整數(shù)加法的延時遠(yuǎn)遠(yuǎn)大于循環(huán)移位和普通邏輯運算，所以分析關(guān)鍵路徑時只考慮加法的代價，而忽略其他邏輯運算的延時。

首先引入中間變量P n-1=fn(B n-1，C n-1，D n-1)+E n-1+Wn+Kn，那么可以得到An=S5(A n-1)+P n-1。也就是說，將第n次迭代的部分計算提前到第n-1次迭代中進(jìn)行計算。變形后，第n次迭代中A的計算只需要進(jìn)行一次32bit整數(shù)加法。

但是這種方式下，變量P的計算仍然需要依賴于同一次迭代中的其他變量，也就是說在一次迭代中需要在計算完其他變量后才能計算出P，這樣的話計算的關(guān)鍵路徑還是沒有縮短。所以還要充分利用A到E5個變量之間的相互關(guān)系

B n-1=A n-2，

C n-1=S30(B n-2)，

D n-1=C n-2，

E n-1=D n-2.

將P的計算變化為P n-1=f n(A n-2，S30(B n-2)，C n-2)+D n-2+Wn+Kn。如此之后，第n-1輪的P值可以完全依賴于前一輪也就是第n-2輪的變量值計算而得。迭代計算的關(guān)鍵路徑就分裂成變量A和P兩路并行的計算。

類似的再引入其他中間變量，不斷的分解關(guān)鍵路徑，最終的迭代可變形為

An=S5(A n-1)+P n-1，

Pn=f n+1(A n-1，S30(B n-1)，C n-1)+Q n-1，

Qn= C n-1+R n-1，

Rn=W n+3+K n+3，

Bn=A n-1，

Cn=S30(B n-1).

可以發(fā)現(xiàn)通過引入中間變量，使得計算變量A的關(guān)鍵路徑分解成A、P、Q、R的4路并行計算，所需要的4次加法平均在4個周期內(nèi)完成。這樣每次迭代過程中任何一個變量的計算最多只需要一次32bit整數(shù)加法和少量組合邏輯。在此基礎(chǔ)上，SHA-1算法可以通過如下方法來計算

1)將輸入的512bit消息分成16個字W0，W1， …，W15;

2)For t=16 to 79 let Wt=S1(W t-3