連續(xù)實時信號處理器的性能分析

時間：2024-10-09 17:55:49 理工畢業(yè)論文我要投稿

相關推薦

連續(xù)實時信號處理器的性能分析

摘要：對AD公司的TigerSHARC　DSP(ADSP-TS101S)和摩托羅拉公司的具有AltiVec矢量處理器核的PowerPC系列MPC7410和MPC7455處理器，在連續(xù)實時信號處理領域的應用進行了評估。

對于復雜、實時信號算是系統(tǒng)的設計人員來講，最嚴峻的挑戰(zhàn)是針對給定任何選擇一個最有效的處理器。因為處理器效率依賴于應用，涉及到結構和應用等各個方面，因此折中的辦法很難定義和評估。用通常使用的方法評價處理器，往往誤導人們。因為它掩蓋了許多依賴應用并使實際性能下降因素；在不同的處理器上執(zhí)行應用，然后評估每個處理器執(zhí)行的實際性能，這種方法費用昂貴、花費時間，不切合實際。

１　處理器概況

ＡＤ公司的ＴigerSHARC DSP(ADSP-TS101S)和摩托羅位公司PowerPC系列處理器代表了獲得高性能計算能力的不同結構和方法。ＴigerSHARC代表ＤＳＰ的傳統(tǒng)做法，它具有低開銷、確定性和ＤＭＡ引擎等特點，專門用于開發(fā)嵌入式實時應用系統(tǒng)，例如雷達、聲納、無線通信和圖像處理。相反，ＰowerPC是一種ＲＩＳＣ處理器，用于開發(fā)副蘋果計算機最高性能的Ｇ４工作站；具有很高的時鐘頻率以及強大的ＡltiVec矢量處理引擎，在一些嵌入式信號處理應用方面也取得了很大的成功。

很明顯，具有ＡltiVec核的ＰowerPC G4(74xx)具有較高的核時鐘速率與性能。PowerPC的核時鐘速率幾乎是目前TigerSHARC的3.3倍（不久更快版本的TigerSHARC將發(fā)布）。AltiVec核每個周期執(zhí)行單條指令，每１２８位向量包含４個獨立的３２位數(shù)據(jù)單元，這就是眾所周知的SIM-D（單指令多數(shù)據(jù)）結構。當執(zhí)行一次乘加(MAC)矢量運算時，達到峰值處理能力，每周期可完成８次浮點操作。對于1GHz的MPC7455，峰值處理能力可達8000M次/s浮點運算。AltiVec每周期能執(zhí)行８次整數(shù)或定點操作，峰值整數(shù)運算能力為８０００ＭＯＰＳ（百萬次操作／s）。

相反，ＴigerSHARC有兩個獨立的３２閏處理器核，或稱MIMD（多指令多數(shù)據(jù)）結構。每個計算單元每周期能執(zhí)行一次乘法以及和差分運算，對于300MHz ADSP-TS101S每周期完成６次浮點運算或1800MFLOPS峰值運算能力。當執(zhí)行１６位數(shù)據(jù)運算時，TigerSHARC可以利用它的超標量體系結構，分離兩個獨立３２位計算單元成２個單獨的１６位SIMD單元，這樣每個操作在兩個數(shù)據(jù)單元，每個周期可以增加超過１２次的操作。另外，TigerSHARC有另外兩個專門的１６位整數(shù)引擎，每個周期可以增加超過１２次的操作，這樣每個周期共計２４次整數(shù)運算，7200MOPS。

２�。桑蠋捙c處理能力的比值

在許多信號處理的應用中，受限于數(shù)據(jù)流而不是處理能力，因此理解處理器Ｉ／Ｏ能力以及與處理器內核的數(shù)據(jù)交換的性能十分重要。衡量的尺度是Ｉ／Ｏ帶寬與處理率之比（ＢＰＲ），即處理器峰值Ｉ／Ｏ帶寬（ＭＢ/s）除以峰值處理能力（ＭＦＬＯＰＳ）。１Ｂ／ＦＬＯＰ的ＢＰＲ指示它是一個比較平衡的連續(xù)信號處理結構，意味著處理器對每個浮點操作能完成１Ｂ數(shù)據(jù)傳輸。一個處理器的ＢＰＲ明顯高于或低于１Ｂ／ＦＬＯＰ，表示這種結構比連續(xù)信號處理器更適合數(shù)據(jù)流搬移或后向數(shù)據(jù)處理。

圖１所示為ＰowerPC處理器節(jié)點方框圖。從圖中可以看出所有處理器Ｉ／Ｏ的訪問必須通過ＭＰＣ和控制器／橋芯片之間的６４位，１２８ＭＨz(對于ＭＰＣ７４５５為１３３ＭＨｚ)系統(tǒng)總線。對于ＭＰＣ７４１０任何一個處理器的最高Ｉ／Ｏ帶寬是１０００ＭＢ／s,對ＭＰＣ７４５５的最高Ｉ／Ｏ帶寬是１０６４�。停�/s。

然而由于Ａltivec很強大，這種適宜的高帶寬不一定總能跟上核的速度。當MPC7455執(zhí)行8000MFLOPS時，數(shù)據(jù)搬移的速度僅為1064MB/s。BPR值只有０.13，說明這種結構的I/O帶寬和處理能力是不平衡的。因此，PowerPC對塊處理是有效的（比如具有高的計算和相對低的數(shù)據(jù)流動），但對連續(xù)的、高數(shù)據(jù)流動、較少計算的連續(xù)信號處理，是低效率的。

TigerSHARC是為多處理器設計的，而且提供了６４位、100MHz共享系統(tǒng)總線以及４個８位，250MHz的Link口作I/O和處理器之間的數(shù)據(jù)通信，簇總線的搬移數(shù)據(jù)速率為800MB/s。數(shù)據(jù)還可以通過Ｌink口以50MB/s速度進行傳送，每個TigerSHRC提供總的I/O帶寬可達1800MB/s。TigerSHARC的ＢＰＲ是0.1，表明對連續(xù)的信號處理是平衡的優(yōu)化結構。

３　信號處理能力—cFFT

１０２４點復數(shù)FFT(cFFT)是評價信號處理性能使用最廣泛的基準。原因如下：第一，清晰而且容易易化；第二，在大多數(shù)應用中，它是最普遍使用的信號處理函數(shù)；第三，cFFT可以評估處理器的數(shù)據(jù)處理能力和處理速度。

值得注意的是，由于ＰwerPC的速度和性能，在計算１０２４點cFFT有明顯優(yōu)越性；然而TigerSHARC是為DSP裁剪定制的，在執(zhí)行信號處理算法時會更加有效。這是由于芯片具有極好的數(shù)據(jù)搬移的能力、平衡以及單周期執(zhí)行蝶形運算能力（乘法、加法、差分）。AltiVec核比TigerSHARC核快3.3倍，潛在處理速率是TIgerSHARC的4.4倍，然而它執(zhí)行一個１０２４點cFFT僅比TIgerSHARC快2.5倍。TigerSHARC在９７５０周期可以完成CFFT運算，而PowerPC必須用１３０００個周期，因此，在執(zhí)行一個１０２４點CFFT時，TigerSHARC的計算效率比PowerPC高３３％。換句話說，如果以相同的時鐘頻率運行，TIgerSHARC會超過PowerPC　３３％。隨著TigerSHARC時鐘速率繼續(xù)提升，考慮成本和功耗等問題，當它執(zhí)行FFT信號處理應用時，它的能力要顯明超過AltiVec。

４　連續(xù)的cFFT

評價處理器能力時，通�？紤]它的處理能力、Ｉ／Ｏ帶寬，甚至算法的執(zhí)行，但遺憾的是這些評估沒有一個能真實反映實際應用。實際應用時，這些因素往往相互影響。數(shù)據(jù)必須按所希望的那樣同時輸入、處理、輸出。每個１０２４點cFFT需要８ＫＢ數(shù)據(jù)輸入（１０２４個樣本×２個樣

【連續(xù)實時信號處理器的性能分析】相關文章：

MIDI信號的解碼及實時音符顯示03-20

建立實時企業(yè)的策略分析03-20

電視信號的實時監(jiān)測與數(shù)字化處理03-20

數(shù)字信號處理器中D/A功能的實現(xiàn)03-19

媒體信號處理器MAP-CA及其應用實例03-21

DLX處理器流水線性能優(yōu)化(一)03-07

DSP和CPLD的空間瞬態(tài)光輻射信號實時探測研究12-07

基于凌陽單片機的語音信號實時采集03-18

Motorola微處理器的bootloader分析與應用03-19

久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

連續(xù)實時信號處理器的性能分析