Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
1,3 MB
Nội dung
QU Ƣ N Ọ N N PHAN THỊ MINH MÔ HÌNH HĨA MỨC RTL VÀ THỰC THI MẢNG PHẦN CỨNG CĨ THỂ TÁI CẤU HÌNH CẤU TRÚC THƠ CHO CÁC ỨNG DỤNG XỬ LÝ A P ƢƠN L N N N N N N Ử- - 2017 N ỄN NG QU Ƣ N Ọ N N PHAN THỊ MINH MÔ HÌNH HĨA MỨC RTL VÀ THỰC THI MẢNG PHẦN CỨNG CĨ THỂ TÁI CẤU HÌNH CẤU TRÚC THƠ CHO CÁC ỨNG DỤNG XỬ LÝ A P ƢƠN g nh: N ng nghệ iện tử - Viễn thông huy n ng nh: ỹ thuật điện tử Mã số: 60520203 L N N Ƣ N Ƣ N N N N OA N Ử- Ọ N ỄN NGUYỄN KIÊM HÙNG - 2017 N L AM OAN T i xin cam đoan: Bản luận văn tốt nghiệp cơng trình nghiên cứu thực cá nhân tôi, thực dựa tr n sở nghiên cứu lý thuyết, thực tế hướng dẫn TS.Nguyễn Kiêm Hùng Các số liệu, kết luận luận văn l trung thực, dựa nghiên cứu mơ hình, thành đạt nước giới trải nghiệm thân, chưa công bố hình thức n o trước trình, bảo vệ trước “ ội đồng đánh giá luận văn thạc sỹ kỹ thuật” Một lần xin khẳng định trung thực lời cam kết Hà nội, Ngày … tháng 09 năm 2017 Người cam đoan Phan Thị Minh L ẢM ƠN T i xin chân th nh cảm ơn TS guyễn i m ùng tận tình giúp đỡ, bảo hướng dẫn t i suốt thời gian thực luận văn tốt nghiệp ng trình n y t i trợ phần từ đề t i cấp Q , Mã số đề tài: QG.16.33 Mặc dù có nhiều cố gắng, thời gian có hạn v vốn kiến thức hạn chế n n c ng trình nhiều thiếu sót Vì vậy, t i mong nhận đóng góp, bảo thầy c v bạn Tôi xin chân th nh cảm ơn! MỤ LỤ MỤ LỤ DANH MỤC CÁC KÝ HI U VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, Ồ THỊ TÓM TẮT LU N N MỞ ẦU Lý lựa chọn đề tài Mục tiêu đề tài Phƣơng pháp nghiên cứu Kết cấu luận văn ƢƠN LÝ THUYẾT TỔNG QUAN 1.1 Giới thiệu chung 1.2 Cấu trúc CGRA 1.3 Vấn đề cần giải ƢƠN THIẾT KẾ CHI TIẾT CỦA MUSRA 10 ặc tả kỹ thuật 10 2.2 Cấu trúc mảng phần cứng tái cấu hình 15 2.2.1 Cấu trúc tổng thể MUSRA 15 2.2.2 Mảng RCA 16 ƢƠN KẾT QUẢ MÔ PHỎNG VÀ THỬ NGHI M 33 3.1 Mơ hình mơ MUSRA 33 3.2 Kịch kiểm chứng 34 3.2.1 Phép tổng sai phân (chênh lệch) tuyệt đối (SAD) 34 3.2.2 Tổng chuyển động (Moving Sum) 34 3.2.3 hân v hướng hai vector 35 3.2.4 Tích chập 36 3.3 Kết thực nghiệm đánh giá 37 3.3.1 Kết tổng hợp phần cứng .37 3.3.2 Kết mô 38 KẾT LU N 41 TÀI LI U THAM KHẢO 42 DANH MỤC CÁC KÝ HI U VÀ CHỮ VIẾT TẮT TT Thuật ngữ viết tắt Thuật ngữ viết đầy đủ Ý nghĩa Application-Specific Integrated Mạch tích hợp chuyên Circuit dụng Coarse Grain Reconfigurable Architectures Cấu trúc tái cấu hình lõi thơ ASIC CGRA CPU Central Processing Unit ơn vị xử lý trung tâm DMA Direct Memory Access Truy cập nhớ trực tiếp DFG Data Flow Graph Sơ đồ luồng liệu FIFO First In, First Out FPGA Field-Programmable Gate Array Mảng cổng lập trình dạng trường MIMD Multiple Instruction, Multiple Data Xử lý đa lệnh đa liệu Multimedia Specific Reconfigurable Architecture Mảng phần tử xử lý tái cấu hình kiến trúc thô ứng dụng cho xử lý đa phương tiện Processing Element Phần tử xử lý Single Instruction, Multiple Data Xử lý đơn lệnh, đa liệu SoC System on Chip Hệ thống chip RCA Reconfigurable ell rray Mảng phần tử tái cấu hình 13 RTL Register Transfer Level Mức chuyển giao ghi 14 VLIW Very Long Instruction Word Từ lệnh dài MURSA 10 PE 11 SIMD 12 DANH MỤC CÁC BẢNG Bảng 2- 1: ác phép tính hỗ trợ RCA 12 Bảng 2-2: Tín hiệu v o khối R 8 17 Bảng 2-3 Tín hiệu v o khối R 19 Bảng 2-4: Mơ tả tín hiệu RC .21 Bảng 2-5: ịnh nghĩ th ng tin cấu hình nguồn liệu lối vào RC 23 Bảng 2-6: Mơ tả tín hiệu PE .24 Bảng 2-7: Mô tả tín hiệu vào Datapath 25 Bảng 2-8: Mô tả phép toán thực khối ALU 26 Bảng 2-9: Mơ tả tín hiệu ghi cục LOR .31 Bảng 2-10: Mơ tả tín hiệu Router_A 31 Bảng 2-11: Mơ tả tín hiệu Router_B 32 Bảng 3- Kết tổng hợp mảng RCA8×8 công nghệ FPGA Virtex-7 ((xc7vx485t) .38 Bảng 3- Thời gian thực thi vòng lặp kernel tảng tính tốn khác 39 DANH MỤC CÁC HÌNH VẼ, Ồ THỊ Hình 1- Cấu trúc chung mảng phần cứng tái cấu hình cấu trúc thơ Hình 2- 1: Biểu diễn DFG cho vòng lặp đơn giản 11 Hình 2- 2: Lập lịch cấu hình thực thi vòng lặp MUSRA 11 Hình 2- 3: Cấu trúc MUSRA .15 Hình 2- 4: Tổ chức FIFO 16 Hình 2- 5: Cấu trúc TOP-DOWN mảng RCA 17 Hình 2- 6: Cấu trúc phần tử RC 20 Hình 2- 7: ịnh dạng thơng tin cấu hình phần A, B, C .22 Hình 2- 8: Cấu trúc PE 24 Hình 2- 9: Giao diện vào/ra datapath 25 Hình 2- 10 Sơ đồ thiết kế khối thực phép tính datapath 26 Hình 2- 11: Khối ALU .27 Hình 2- 12: ơn vị chức DD/SUB thực phép tính cộng trừ hai số 16bit 27 Hình 2- 13: Cấu trúc cộng lai ghép HBD_ADDER 28 Hình 2- 14: Bộ cộng CLA 4-bit 28 Hình 2- 15: Sơ đồ cấu trúc phần cứng nhân Baugh-Wooley [15] .29 Hình 2- 16 Bộ nhân MUL bít [15] 30 Hình 2- 17: Sơ đồ thực khối ABS 30 Hình 3- Mơ hình mơ RCA MUSR m i trường ModelSim 33 Hình 3- (a) DFG (b) Tổ chức liệu cho q trình tính tốn MUSRA 34 Hình 3- Ánh xạ tổng chuyển động cửa sổ trượt với độ dài N=10 35 Hình 3- DFG (a), Ánh xạ DFG MUSRA (b), thực thi đường ống hóa (c) phép nhân ma trận - vectơ 36 Hình 3- 5: DFG thực lọc FIR bậc 37 Hình 3- Kết mơ khối ước lượng chuyển động (a) lọc FIR (b) sử dụng mơ hình RTL MUSRA 39 TÓM TẮT LU N N Luận văn m tả thiết kế cấu trúc tái cấu hình cấu trúc thô ứng dụng cho xử lý đa phương tiện gọi tắt MUSRA (Multimedia Specific Reconfigurable Architecture) Cấu trúc sử dụng để tăng tốc độ tính tốn cho nhiệm vụ tính tốn chun sâu thuật toán việc khai thác nhiều mức chế song song thuật toán Cấu trúc hỗ trợ khả tái cấu hình động việc cho phép kết cấu phần cứng tái cấu hình lại để thực chức khác hệ thống l m việc Cấu trúc đề xuất mô hình hố mức truyền ghi RTL (Register Transfer Level) sử dụng ngơn ngữ VHDL Một vài ví dụ benchmark ánh xạ lên cấu trúc MUSRA để đánh giá độ linh hoạt hiệu cao hệ thống Thiết kế mơ hình hóa ngơn ngữ V D (trong R MUSR thiết kế dạng RTL) tiến hành mô phỏng, so sánh với phương thức thực khác Các kết thực nghiệm thiết kế đáp ứng yêu cầu đặt ban đầu: tăng tốc độ tính tốn cho vòng lặp; khả tái hình linh hoạt vòng lặp khác sử dụng cho số phép toán thường dùng xử lý đa phương tiện truyền thơng ác module tham số hóa, dễ dàng mở rộng thiết kế theo phương án kết nối khác nhau, lõi R MUSR thiết kế với khả mở rộng kích thước theo chiều MỞ ẦU Lý lựa chọn đề tài Xu hướng phát triển khoa học công nghệ năm qua thiết bị di động cầm tay ngày trở n n th ng minh hơn, mật độ tích hợp ứng dụng chức ng y c ng cao ác thiết bị n y nói chung yêu cầu khả xử lý chức tính tốn chuy n sâu truyền thơng, chụp ảnh, quay phim, xem truyền hình, dịch vụ định vị toàn cầu,… theo thời gian thực Thực phần cứng cho thiết bị thách thức nhà thiết kế yêu cầu khắt khe giảm kích thước công suất tiêu thụ chip, tăng hiệu xử lý, rút ngắn thời gian thiết kế triển khai sản phẩm, đơn giản hóa q trình nâng cấp thiết bị sau bán h ng,… Th m v o khả hỗ trợ đa chuẩn (truyền thơng mã hóa) thiết bị l y u cầu ngày phổ biến cho phép giảm giá thành tích hợp sản phẩm cho phép khách h ng nhận nhiều loại hình dịch vụ từ nhà cung cấp dịch vụ khác thiết bị Nói chung, hệ thống nhúng truyền thống có hai phương pháp chủ yếu sử dụng cho việc thực thi chức mong muốn Một phương pháp l sử dụng vi mạch tích hợp chuyên dụng ASIC (Application Specific Integrated Circuit) Phương pháp thứ hai sử dụng vi xử lý (Processor) lập trình phần mềm Tuy nhiên, hai phương pháp tr n thỏa mãn tất yêu cầu việc thực thi ứng dụng đa phương tiện hệ Một giải pháp hứa hẹn cho việc giải vấn đề nêu hệ thống tính tốn tái cấu hình (Reconfigurable Computing System)[1] iểm khác biệt quan trọng hệ thống với hệ thống xử lý th ng thường sử dụng kết cấu phần cứng tái cấu hình (Reconfigurable Hardware) cho việc tăng tốc độ thực thi phần tiêu tốn nhiều thời gian tính tốn thuật tốn Phần cứng tái cấu hình thường tổ chức thành mảng đơn vị xử lý tái cấu hình RPU (Reconfigurable Processing Units)[2] Các chức tính tốn chuy n sâu thuật tốn hốn chuyển vào khỏi mảng RPU thời gian chạy (tức cấu hình động) thời gian biên dịch (tức cấu hình tĩnh) Ưu điểm lớn khả tái cấu hình động hệ thống l cho phép tăng mật độ chức hiệu dụng ứng dụng ánh xạ lên đơn vị tài nguyên phần cứng[3] Nói cách khác, kỹ thuật logic cho phép tính tốn đồng thời tất cờ nhớ giá thành phần cứng cao Mạch logic để thực cộng CLA n-bit đặc biệt phức tạp với giá trị n lớn Trên thực tế phương pháp tính tốn trước cờ nhớ dùng để thực mô-đun cộng hai số 4-bit Do đó, để cân yêu cầu tốc độ thực phép cộng chi phí phần cứng, luận văn chọn phương pháp thực lai ghép (HBD_ADDER) cộng CLA RCA Các số hạng lối v o , B tách thành nible 4-bit v thực tính tổng đồng thời module cộng CLA 4-bit Cờ nhớ từ khối CLA 4-bit lan truyền giống cách thực cộng RCA dùng để lựa chọn cờ nhớ để tính kết tổng A B cuối Sơ đồ khối cộng 16-bit lai ghép Hình 2-13 Mỗi khối CLA_ADDER cộng hai số 4-bit theo phương pháp có cấu trúc Hình - 13 B[15:12] A[15:12] B[11:8] A[11:8] CSA_ADDER CSA_ADDER „0‟ „1‟ „0‟ „1‟ C_IN B[3:0] A[3:0] C_IN B[3:0] A[3:0] C_IN B[3:0] A[3:0] C_IN B[3:0] A[3:0] C_IN B[3:0] A[3:0] CLA_ADDER CLA_ADDER CLA_ADDER CLA_ADDER CLA_ADDER CLA_ADDER C_OUT S[3:0] C_OUT S[3:0] C_OUT S[3:0] C_OUT S[3:0] B[3:0] A[3:0] C_IN CLA_ADDER C_OUT MUX S[3:0] MUX C_OUT MUX S[3:0] B[3:0] A[3:0] C_IN CSA_ADDER „0‟ „1‟ C_IN B[3:0] A[3:0] C_OUT C_OUT B[7:4] A[7:4] MUX MUX MUX S[15:12] S[11:8] S[7:4] S[3:0] S[3:0] Hình - 13: Cấu trúc cộng lai ghép HBD_ADDER S[0] P[0] C_in C[0] S[1] C[1] P[1] A[3:0] A[3:0] P[3:0] P[3:0] HALF_ADDER B[3:0] B[3:0] G[3:0] S[2] C[2] P[2] G[3:0] S[3] C[3] P[3] CLA_BLOCK C[4] C_out Hình - 14: Bộ cộng CLA 4-bit (2) Khối MUL Khối MU thiết kế theo phương pháp Baugh-Wooley [15] Cấu trúc phần cứng nhân Baugh-Wooley mơ tả Hình - 15 28 Hình - 15: Sơ đồ cấu trúc phần cứng nhân Baugh-Wooley [15] Phương pháp Baugh-Wooley áp dụng cho phép nhân có dấu khơng dấu Tốn tử có dấu biểu diễn dạng số bù hai để đảm bảo chắn dấu tích riêng phần ln dấu dương ác tích ri ng phần điều chỉnh cho dấu âm chuyển đến bước cuối Cấu trúc nhân bit BaughWooley thể Hình - 16 Về mặt tốn học mơ tả phương pháp nhân Baugh-Wooley sau: Giả sử có hai số bù hai bít X Y: X 23 x3 xi 2i Y 23 y3 yi 2i i 0 (2-1) i 0 Tích X v Y thực sau: 2 i 0 j 0 2 XY x3 y3 26 xi y3 2i 3 x3 y j j 3 xi y j 2i j (2-2) i 0 j 0 ối với số bù hai ta ln có: 3 i 0 i 0 xi 2i 24 xi 2i (2-3) Do tích tr n trở thành: 29 2 2 XY x3 y3 26 xi y3 2i 3 23 26 x3 y j j 3 23 26 xi y j 2i j i 0 i 0 2 i 0 j 0 x3 y3 26 xi y3 2i 3 x3 y j j 3 xi y j 2i j 24 27 i 0 i 0 i 0 j 0 2 x3 y3 ( x2 y3 x3 y2 )2 ( x1 y3 x3 y1 x y 1)2 (2-4) ( x0 y3 x3 y0 x1 y x y1 )2 (x y x1 y1 x y )2 (x y1 x1 y0 )21 x y 20 Mơ hình thực Hình - 16 Hình - 16 Bộ nhân MUL bít [15] (3) Khối ABS ối với số nhị phân, ta ln có: A B if A B A B if A B | A B | B A if A B A B if A B (2-5) Mạch logic thực khối sau: ABS B B CARRY GENERATOR 1'b1 CARRY_OUT CARRY_IN CLA 16bit RESULT A A Hình - 17: Sơ đồ thực khối ABS 30 Bộ Carry generator phát giá trị nhỏ hai giá trị A, B Trong trường hợp B nhỏ , kh ng có giá trị cờ nhớ tạo ra, B bị đảo, ngược lại A bị đảo iều n y thực mạch XOR phía sau Do đó, giá trị ( A, B) ( A, B) truyền tới CLA E) Thanh ghi cục LOR Bảng 2-9: Mơ tả tín hiệu ghi cục LOR ƣớng vào/ra Tín hiệu ộ rộng (bits) Ý nghĩa LOR_IN IN 16 Cổng nhập liệu LOR_OUT OUT 16 Cổng xuất liệu CLK IN Tín hiệu xung nhịp đồng Reset_N IN Tín hiệu reset tích cực mức thấp, xóa lối Result_REG F) Bộ định tuyến Router Có loại định tuyến với số lượng cổng v o khác sử dụng để lấy liệu từ nguồn khác vào RC - ROUTER_A: Bộ định tuyến cho cổng toán hạng A datapath lối vào ghi LOR (Local Register) nội RC ROUTER_A có nguồn liệu Input_FIFO PRE_LINE (hàng RC trên) - ROUTER_B: Bộ định tuyến cho cổng toán hạng B datapath: Có nguồn liệu Input_FIFO, Tệp ghi toàn cục GRF PRE_LINE (hàng RC trên) Bảng 2-10: Mơ tả tín hiệu Router_A Tín hiệu ƣớng vào/ra ộ rộng (bits) Ý nghĩa PRELINE_OUT IN 16*16 = 256 Nguồn liệu từ hàng RC nó, liệu kết P liệu lối ghi cục LOR FIFO_WIRE IN 32*8 Nguồn liệu INPUT FIFO ROUTER_CONFIG IN 10 Thơng tin cấu hình cho ROUTER BIT16_8_DATA Mức lõi liệu từ INPUT IN 31 FIFO bit hay 16 bit A_OUT OUT 16 Cổng lối ROUTER CLK IN Tín hiệu xung nhịp đồng ENABLE IN Tín hiệu cho phép xuất kết tính tốn từ Datapath tới lối Result_REG (qua ghi) Reset_N IN Tín hiệu reset tích cực mức thấp, xóa lối Result_REG Bảng 2-11: Mơ tả tín hiệu Router_B ƣớng vào/ra Tín hiệu ộ rộng (bits) Ý nghĩa PRELINE_OUT IN 16*16 = 256 Nguồn liệu từ hàng RC nó, liệu kết PE liệu lối ghi cục LOR FIFO_WIRE IN 32*8 Nguồn liệu INPUT FIFO GRF IN 32*8 Tệp ghi toàn cục (Global Register File) ROUTER_CONFIG IN 10 Thơng tin cấu hình cho ROUTER BIT16_8_DATA IN Chọn mức lõi liệu từ INPUT FIFO bit hay 16 bit BIT16_8_GRF IN Chọn mức lõi của liệu từ GRF bit hay 16 bit B_OUT OUT 16 Cổng lối ROUTER CLK IN Tín hiệu xung nhịp đồng ENABLE IN Tín hiệu cho phép xuất kết tính toán từ Datapath tới lối Result_REG (qua ghi) Reset_N IN Tín hiệu reset tích cực mức thấp, xóa lối Result_REG 32 ƢƠN KẾT QUẢ MƠ PHỎNG VÀ THỬ NGHI M 3.1 Mơ hình mơ MUSRA Cấu trúc MUSR đề xuất mô hình hóa mức RTL ngơn ngữ VHDL Ở mức hệ thống, mơ có độ xác mức chu kì xây dựng nhằm đánh giá kiểm thực thực thi ứng dụng khác MUSRA Bên cạnh MUSRA, mô sử dụng xử lý LEON3 số lõi IP khác từ thư viện Gaisler [14] Hình 3-1 Sự kết nối lõi P thực thi qua bus AMBA 32-bit RM O đóng vai trò đơn vị xử lý trung tâm quản lý lập lịch tất hoạt động hệ thống Bộ nhớ ngo i sử dụng để giao tiếp liệu tác vụ CPU tác vụ RCA Sự đồng RCA, CPU DM thực thi theo chế ngắt Sau MUSRA hoàn tất tác vụ ấn định, tạo ngắt qua khối RQ để báo hiệu cho CPU trả lại quyền điều khiển bus cho CPU Các ngữ cảnh cấu hình cho ứng dụng benchmark phải lưu truớc nhớ cấu hình MUSRA Instruction Memory CPU IRQC Data Memory AMBA BUS AMBA/CGRA Interface Input DMA IN_FIFO CDMAC Context Memory Context Parser DDMAC GRF RCA Data Memory OUT_FIFO Output DMA MUSRA Hình 3- Mơ hình mơ MUSRA m i trường ModelSim 33 3.2 Kịch kiểm chứng Phần trình bày việc ánh xạ số ví dụ benchmark lên cấu trúc MUSRA đề xuất Các ví dụ benchmark sử dụng bao gồm phép tính tổng sai khác tuyệt đối (sum of absolute differences: SAD), phép tính tổng chuyển động (moving sum), phép nhân chập (convolution) nhân ma trận-vectơ thuật tốn xử lý tín hiệu số Mặc dù cấu trúc thực tế RCA 8×8, nhi n để đơn giản việc trình bày phần số hình vẽ minh họa mảng RCA với kích thước 4×4 3.2.1 Phép tổng sai phân (chênh lệch) tuyệt đối (SAD) S D sử dụng rộng rãi xử lý số tín hiệu ảnh/video để đo lường tương quan khối điểm ảnh khối điểm ảnh tham chiếu[13] Trong Hình 3- 2(a) đưa DFG cho tính tổng SAD khối 4×4 cấu trúc RCA Trong sơ đồ này, sai khác tuyệt đối hàng khối 4×4 thực cách độc lập tầng đường ống Tổ chức liệu cho tính tốn Hình 3- 2(b), pixel khối mã hóa sử dụng tất lần tính tốn dùng để khởi tạo ghi số RCA lần tính tốn đầu tiên; pixel khối tham chiếu kích thước 4(2p+3) nạp vào mảng RCA thông qua INPUT_FIFO, hàng pixel (ký hiệu Pi) lần Bằng cách sử dụng DFG tổ chức liệu vậy, liệu trùng lặp hai ứng vi n khai thác để giảm số lần truy xuất nhớ, đồng thời đảm bảo tất RC đường ống trạng thái hoạt động CLK1 pixels InputFIFO Pn 32 Bytes − − − − CLK2 (2*p + 3) pixels − − − − + + CLK3 − − − − + + + CLK4 − − − − + + + P CLK5 P5 P4 P4 P3 P3 P2 P2 P1 P1 P0 Not used P0 + + + + A 4x(2*p +3)-pixel search band pixels CLK6 + pixels C4 + CLK7 C3 ConstReg0 C2 + C0 CLK8 A 4x4-pixel current block SAD4x4 (a) (b) Hình 3- 2: (a) DFG (b) Tổ chức liệu cho q trình tính tốn MUSRA 3.2.2 Tổng chuyển động (Moving Sum) Thuật toán sử dụng phổ biến với chuỗi liệu biến đổi theo thời 34 gian để l m trơn thăng giáng đoạn ngắn Tổng chuyển động cửa sổ trượt độ dài N ngang qua thành phần lân cận chuỗi x(n) có cơng thức sau[13]: N 1 SUMW (n) x(n k ) (3-1) k 0 Hoặc: SUMW (n) SUMW (n 1) x(n) x(n N ) (3-2) Hình 3- việc ánh xạ công thức (2) l n MUSR trường hợp N =10 Công việc minh họa vai trò cách sử dụng ghi LOR đơn vị trễ để tạo phần tử x(n-N) X(n) D D D ACC D D D SUB D D D D RCA 4x4 SUMW(n) Hình 3- Ánh xạ tổng chuyển động cửa sổ trượt với độ dài N=10 3.2.3 Nhân vơ hƣớng hai vector Hình 3- (a) DFG cho phép nhân v hướng vector kích thước 4×4 với vectơ 4×1 Ánh xạ DFG tới mảng RCA q trình thực thi đường ống hóa Hình 3- 4(b-c) 35 y[1] x[i][1] InputFIFO X[4][1] x[3][1] X[2][1] x[1][1] Y[1] X[4][2] x[3][2] X[2][2] x[1][2] Y[2] x X[4][3] x[3][3] X[2][3] x[1][3] X[4][4] x[3][4] X[2][4] x[1][4] Y[3] x x + TD PE TD PE TD Stage2 PE TD + PE TD + PE Stage3 PE TD + PE TD Stage4 PE TD PE TD x + + y[3] x[i][3] PE Stage1 Y[4] y[2] x[i][2] y[4] x[i][5] PE TD TD PE TD PE TD PE TD PE TD PE TD z[n] Z[n] (a) (b) Pipelined Execution (n-1)th iteration Data load (n)th iteration Calc stage1 Data load Calc stage2 Calc stage1 Data load Calc stage3 Calc stage2 Calc stage1 Data store Calc stage3 Calc stage2 Data store Calc stage3 (n+1)th iteration Data store Cycles (c) Hình 3- DFG (a), Ánh xạ DFG MUSRA (b), thực thi đường ống hóa (c) phép nhân v hướng hai vectơ ể ý phép nhân v hướng hai vectơ, vectơ đầu vào sử dụng lặp lại để tính giá trị vectơ lối ra, giá trị vectơ lối nạp vào ghi GRF định nghĩa R trước bắt đầu q trình tính tốn Bằng cách giảm đáng kể lượng truy xuất nhớ 3.2.4 Tích chập Tích chập (Convolution) thực phép nhân hai hàm lối v o để tạo hàm lối theo công thức (3-3) [13]: N 1 y[n] h[k ] * x[n k ] (3-3) k 0 Trong đó, x k l mẫu tín hiệu lối vào lọc (x[k]=0 k