Kiến trúc DSP ảnh hởng trực tiếp đến sự thực hiện của hệ thống. Bởi vì đa số các hàm DSP đều dựa trên phép nhân/tích luỹ, sự thực thi của MAC là chủ yếu. Mỗi bộ xử lý có khả năng thực hiện các giải thuật DSP bởi vì mỗi bộ xử lý có thể thực hiện các phép cộng và các phép nhân. Sự khác nhau duy nhất giữa một DSP đa dụng và một bộ vi xử lý là cách mà chúng thực hiện chức năng này.
Ví dụ, bộ xử lý Pentium yêu cầu 11 chu kỳ đồng hồ để thực hiện một thao tác nhân/cộng đơn trong khi đa số các bộ xử lý DSP chỉ yêu cầu một chu kỳ đơn. Một DSP điểm cố định 50MHz thực hiện một chu kỳ nhân/tổng chỉ trong 20 ns trong khi một bộ xử lý Pentium 133MHz yêu cầu 1.3 às để thực hiện cùng một chức năng. Nh vậy kết quả, một bộ xử lý Pentium 133MHz chỉ bằng 24% công suất xử lý DSP của một DSP 50MHz cho chức năng lọc thể hiện trong hình 2.5.
Hình 2.5 So sánh hiệu quả thực hiện của bộ lọc FIR
FPGA đa ra một kiến trúc hoàn toàn thích hợp với ứng dụng đặc biệt. Bởi vì FPGA thiết kế rất linh hoạt, hàm DSP có thể đợc ánh xạ trực tiếp đến các tài nguyên có sẵn trên một FPGA. Sự thực thi FPGA không những nhanh hơn đa số các DSP, nó cho phép kết hợp tốt nhất giữa mật độ và hiệu năng của hệ thống. Hình 2.5 biểu diễn mối quan hệ của các sự thực hiện khác nhau của một bộ lọc FIR 8-bit, 16-Tap, thờng thực hiện với bộ xử lý DSP điểm cố định 50 MHz. Hiệu quả nhất của sự thực thi FPGA thể hiện bằng 68% đối với một XC4003E-3 FPGA, hoặc xấp xỉ 1500 cổng. Sự thực thi hiệu quả là sử dụng thuật toán “phân bố tuần tự” SDA (Sequential Distributed Arithmetic). Các hàm nhân đợc ánh xạ vào trong các hàm tạo của FPGA, các bộ cộng và tích luỹ sử dụng logic nhớ nhanh (fast carry logic) và các thanh ghi dịch nối tiếp đợc xây dựng một cách hiệu quả trên chíp RAM. Hiệu quả lớn nhất của sự thực thi FPGA sử dụng khoảng 75% của một XC401E-2 FPGA, hoặc khoảng 9750 cổng. Mặc dù chiếm diện tích lớn hơn nhng sự thực hiện nhanh hơn 22 lần so với một DSP 50 MHz đối với ứng dụng này. Nó sử dụng giải thuật phân bố song song (PDA). Thậm chí có thể thực thi nhanh hơn nếu ứng dụng có thể chấp nhận góc trễ dữ liệu xẩy ra do kiến trúc đờng ống. Sự thực hiện cũng đợc tăng lên nếu bộ lọc đợc tích hợp với mạch logic khác trên cùng một chíp do đó bỏ qua đợc các độ giữ chậm vào/ra.
Hình 2.6 Hiệu năng của các giải thuật phân bố đối với bộ lọc FIR
Với khả năng thực hiện FPGA trong một dải rộng, sự kết hợp tốt nhất giữa mật độ và hiệu năng đối với các giải thuật khác nhau đợc thể hiện trong hình 2.6. Mỗi sự thực hiện hoàn toàn thích hợp với tốc độ, mật độ, và giá thành yêu cầu của mục đích ứng dụng. Tuần tự nối tiếp là hiệu quả nhất, nhng cũng là chậm nhất. PDA là nhanh nhất, nhng cũng sử dụng nhiều mạch lôgic nhất. SDA là một sự dung hoà tốt nhất của tốc độ và mật độ, tuỳ thuộc vào hệ thống yêu cầu.
Trong nhiều ứng dụng, một FPGA hoàn toàn thay thế đợc một DSP chuyên dụng. Các ứng dụng này là quá trình xử lý nhúng hoặc là các chức năng lọc điển hình với tần số lấy mẫu dữ liệutừ 100 kHz đến 70 MHz.
Trong dải từ 1 kHz đến 100 kHz, một hàm DSP - cộng với tất cả các hệ thống logic khác - là phù hợp với một FPGA đơn, giá thành thấp. Phơng pháp này sử dụng giải thuật tuần tự nối tiếp (SSDA) nh trình bày ở hình 2.6, nhng hiệu năng thấp.