1. Trang chủ
  2. » Thể loại khác

document

4 10 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

190 Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Bộ Ước Lượng Chuyển Động Nguyên Thông Lượng Cao Trên Thuật Toán Full Search Cho Chuẩn H 264 Huỳnh Quốc Thịnh và B[.]

Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Bộ Ước Lượng Chuyển Động Nguyên Thơng Lượng Cao Trên Thuật Tốn Full-Search Cho Chuẩn H.264 Huỳnh Quốc Thịnh Bùi Trọng Tú Khoa Điện Tử Viễn Thông, Trường Đại Học Khoa Học Khoa Học Tự Nhiên Tp Hồ Chí Minh Email: hqthinh@fetel.hcmus.edu.vn, bttu@hcmus.edu.vn Có nhiều thuật toán để thực ước lượng chuyển động nguyên Full Search (FS) thuật tốn cho kết xác nhất[2] Bằng cách so sánh với tất MB có vùng tìm kiếm, thuật tốn FS tìm xác MB có giá trị nhỏ cho vector chuyển động current MB Nhược điểm thuật toán FS độ phức tạp tính tốn cao, tốn nhiều tài ngun Để giảm độ phức tạp, theo nghiên cứu, người ta chia thành loại Thứ nhất, giảm độ phức tạp tính tốn cách giảm số điểm tìm kiếm ví dụ Three Steps Search (TSS)[9], Diamond Search (DS)[10], thuật toán mở rộng Four Steps Search[11] Thứ hai giảm độ phức tạp tính tốn điểm tìm kiếm cách giảm mẫu[2] Các thuật tốn có thời gian tìm kiếm nhanh, giảm độ phức tạp tính tốn lại làm giảm chất lượng hình ảnh thường sử dụng ứng dụng hình ảnh có độ phân giải thấp hay ứng dụng di động Hướng tới ứng dụng video chất lượng cao thông thường ước lượng chuyển động dựa thuật toán Full Search thực phần cứng[4] Bài báo thực xây dựng ước lượng chuyển động nguyên dựa thuật toán Full Search để ứng dụng vào video chất lượng cao Nội dung báo tổ chức sau: Phần I giới thiệu chung ước lượng chuyển động, phần II giới thiệu nghiên cứu kiến trúc phần cứng cho thuật toán Full Search, phần III nêu kiến trúc đề xuất thực hiện, phần IV kết đánh giá thiết kế, cuối kết luận Abstract— Trong báo này, đề xuất hai kiến trúc ASIC cho ước lượng chuyển động nguyên dựa thuật toán FullSearch cho chuẩn nén video H.264 Trong thiết kế, thực tối ưu phần cứng cho cộng SAD chiều, cải tiến mảng lưu trữ tìm kiếm kết hợp với việc tính tốn song song đa đầu vào cho thơng lượng tính tốn cao, tăng hiệu truy cập nhớ Thiết kế tổng hợp công nghệ 90 nm cho tần số hoạt động tối đa 300 MHz, thơng lượng cao 1186 chu kì/ 41MVs vùng tìm kiếm [64x64], tài nguyên vào khoảng 215K Leaf Cell Keywords- H.264/AVC, IME, Motion Estimation, VBSME, FullSearch I GIỚI THIỆU H.264 chuẩn nén tiên tiến với nhiều ưu điểm tỉ lệ nén cao mà giữ chất lượng hình ảnh tốt[1] Ngày nay, chuẩn nén H.264 sử dụng rộng rãi hầu hết ứng dụng video từ tốc độ thấp ứng dụng độ phân giải cao H.264 sử dụng kỹ thuật ước lượng chuyển động đa kích cỡ khối (Variable Block Size Motion Estimation, VBSME) thực qua bước: ước lượng chuyển động nguyên (Integer Motion Estimation, IME) ước lượng chuyển động thập phân (Fraction Motion Estimation, FME) Trong đó, ước lượng chuyển động ngun có vai trị quan trọng việc giảm độ dư thừa, tăng khả nén thành phần có độ phức tạp tính tốn cao, tốn nhiều thời gian tài nguyên hệ thống mã hóa H.264[2] Kỹ thuật ước lượng chuyển động dựa thuật tốn dị tìm khối (BMA-Block Matching Algorithm) để tìm kiếm vector chuyển động Ý tưởng BMA chia khung thành khối nhỏ (Macro Block, MB), sau so sánh MB với MB xung quanh khung tham khảo, gọi vùng tìm kiếm, để tìm vector chuyển động Mức độ khác MB xác định cách tính tổng độ sai khác pixel Có nhiều cách để tính độ sai khác, phương pháp sử dụng rộng rãi Sum of Absolute Difference (SAD) Để xác định SAD nhỏ ta dựa vào công thức (1) (2) Trong đó, CB khối thực thi (Current Block), RB khối tham chiếu (Reference Block), SR dải tìm kiếm (search range), i, j vector chuyển động (Motion Vector, MV) 𝑁𝑁−1 𝑁𝑁−1 𝑆𝑆𝑆𝑆𝐷𝐷(𝑖𝑖,𝑗𝑗) = ∑ ∑|𝐶𝐶𝐶𝐶(𝑚𝑚,𝑛𝑛) − 𝑅𝑅𝑅𝑅(𝑚𝑚+𝑖𝑖,𝑛𝑛+𝑗𝑗) | 𝑚𝑚=0 𝑛𝑛=0 𝑆𝑆𝑆𝑆𝑆𝑆𝑚𝑚𝑚𝑚𝑚𝑚 = min(𝑆𝑆𝑆𝑆𝐷𝐷(𝑖𝑖,𝑗𝑗) ) , − 𝑆𝑆𝑆𝑆 ≤ 𝑖𝑖, 𝑗𝑗 < 𝑆𝑆𝑆𝑆 ISBN: 978-604-67-0635-9 II CÁC KIẾN TRÚC CHO IME Có nhiều nghiên cứu cho ước lượng chuyển động với kích cỡ khối thay đổi với kiến trúc mảng chiều, chiều, kiến trúc song song đa lối vào kiến trúc sử dụng cộng hình cây[2,4,6,7,8]… Kiến trúc IME tham khảo[4] [5] cho thông lượng xử lý cao cần nhớ cho vùng tìm kiếm lớn (2p + N-1)2 Kiến trúc [5] cịn có hạn chế tốn nhiều thời gian cho bước khởi tạo ban đầu Tham khảo [6] sử dụng hiệu đơn vị xử lý vùng tìm kiếm bị hạn chế Tham khảo [7] cho thông lượng cao tốn nhiều đơn vị xử lý Các kiến trúc có đánh đổi dung lượng lượng truy cập liệu nhớ, thông lượng xử lý tài nguyên hệ thống Trong số thiết kế này, 2-D SAD tree IME[4] cho thông lượng cao ứng dụng mã hóa H.264/AVC cấu hình cao Hình mô tả kiến trúc khối IME Bộ nhớ khối (CMB) lưu trữ 16x16 pixel current MB nhớ Vùng tìm kiếm (RMB) lưu trữ giá trị vùng tìm kiếm Các giá trị từ nhớ đưa (1) (2) 190 190 Thảo Quốc Gia 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ Nghệ Thơng (ECIT 2015) đến Mảng tính tốn để tính độ sai khác sau cộng lại với cho tất kích thước khối cộng SAD Các SAD so sánh với để đưa giá trị SAD nhỏ từ tìm vector chuyển động lưu lần 64 bit (8 pixel) cần 10 chu kì để dịch đầy mảng 80 pixel Trong thiết kế đề xuất, sử dụng đệm SIPO, vào nối tiếp 64 bít song song 128 bit cho việc lưu giá trị (CMB) vào 64 bít 640 bít (80 pixel) cho việc lưu giá trị tham khảo (RMB) Bộ CMB mảng ghi chứa 16x16 pixel, load song song lúc 16pixel/chu kì để chứa giá trị khối tại, kết hợp với SIPO ta cần 33 chu kì để lưu đầy mảng RMB mảng ghi dịch vịng, lấy liệu song song dịch trái, phải Kích thước độ rộng mảng kích thước macro block (N) Kích thước độ dài mảng phụ thuộc vào kích thước ngang (p) vùng tìm kiếm 2p + N (pixel) Ví dụ, thiết kế đề xuất này, độ rộng MB N = 16, kích thước tìm kiếm p = 32 chiều dài mảng 80 pixel kích thước mảng 80x16 pixel Dữ liệu đầu vào lấy từ ghi SIPO đầu đưa đến PEs Khi kết hợp với SIPO, để lưu đầy RMB ta cần có 10 x 16 + = 161 chu kì RMB có chức giữ giá trị cho khối PE tính tốn đồng thời lưu phần khơng tính tốn để sử dụng cho liệu tìm kiếm So với SRAM chứa vùng tìm kiếm mảng dịch vịng chứa phần tính tốn điểm tìm kiếm hàng vùng tìm kiếm Các hàng tính tốn xong loại khỏi mảng (không dùng đến nữa) thay hàng vùng tìm kiếm Kết hợp với hướng tìm kiếm kiểu “snake scan” giúp làm tăng hiệu truy cập tính tốn Off-chip Off-chip MEM MEM IME IME Bộ Bộ nhớ nhớ Khối Khối Vùng Vùng tìm tìm kiếm kiếm (SRAM) (SRAM) Mảng Mảng tính tính tốn tốn Bộ Bộ cộng cộng SAD SAD SAD SAD Hình 1: Sơ đồ hệ thống IME Để thực ước lượng chuyển động, tất pixel vùng tìm kiếm phải đưa vào nhớ tìm kiếm SW Nếu kích thước vùng tìm kiếm ngang [-p,p-1] dọc [-q, q-1] kích thước nhớ 4pq (pixel), IME cần nhớ để lưu trữ vùng tìm kiếm sau đưa vào ghi để tính tốn Hơn nữa, có dạng truy cập nhớ cộng SAD truy cập hàng truy cập cột mà SW hỗ trợ truy cập hàng cột nên truy cập cột thực cách truy cập nhiều hàng ngược lại Với H.264/AVC, MB có kích thước 16x16 dẫn đến truy cập cột cần truy cập đến 16 hàng Vậy, truy cập cột cần 16 chu kì clock truy cập hàng cần chu kì Do đó, việc truy cập nhớ phức tạp cần băng thơng lớn Ví dụ kiến trúc SAD [4] liệu truyền từ nhớ vào ghi Nx8bit/chu kì Dựa vào phân tích trên, tiến hành thực IME mơ hình khác sau đánh giá hiệu mơ hình để lựa chọn phù hợp cho ứng dụng chuẩn nén video H.264 III SIPO SIPO CMB RMB MẢNG 16x16 PEs ĐIỀU KHIỂN TRUY CẬP BỘ NHỚ BỘ ĐIỀU KHIỂN SAD ADDER TREE BỘ SO SÁNH (SAD COMPARATOR) BỘ PHÁT ĐỊA CHỈ 41 MVs KIẾN TRÚC ĐỀ XUẤT CHO BỘ IME Hình 2: Mơ hình IME đề xuất Sơ đồ tổng quát hệ thống minh họa hình bao gồm thành phần sau: 256 đơn vị xử lý tính toán song song giá trị sai khác pixel khối khối tham khảo; mảng ghi dịch vòng ghi liệu vào song song dịch trái, dịch phải; SIPO ghi đệm vào nối tiếp song song giúp tăng hiệu truyền liệu; mảng 16x16 ghi chứa liệu khối tại; cộng giá trị sai khác có kiến trúc hình chiều; so sánh giá trị SAD Ngoài cịn có điều khiển truy xuất nhớ điều khiển toàn hệ thống Các SIPO ghi đệm vào nối tiếp song song có đầu vào với độ rộng bus nhớ ngồi có chiều dài phụ thuộc vào nhớ mà hỗ trợ nhằm để tăng hiệu truy cập nhớ Ví dụ, độ rộng bit nhớ 64 bit Mảng 16x16-PEs ma trận gồm 256 khối đơn vị tính tốn giá trị tuyệt đối pixel pixel tham khảo dựa vào công thức (3) (𝑎𝑎 + 𝑏𝑏 ′ ) + 1, 𝑣𝑣ớ𝑖𝑖 𝑎𝑎 > 𝑏𝑏 |𝑎𝑎 − 𝑏𝑏| = { (3) (𝑎𝑎 + 𝑏𝑏 ′ )′ , 𝑣𝑣ớ𝑖𝑖 𝑎𝑎 ≤ 𝑏𝑏 Bộ cộng SAD cộng chiều dùng để tính tốn giá trị SAD 41 kích thước khác macro block Mơ hình cộng hình MB 16x16 chia thành khối 8x8 tương ứng B0-B3 Mỗi khối 8x8 lại chia thành khối 4x4, có tất 16 khối 4x4 tương ứng từ C0C15 Tầng 16 cộng 4x4 thiết kế dựa cộng Carry Save Adder 16 ngõ vào Ở tầng ta cộng kết từ cộng 4x4 kích thước khối lớn 191 191 Hội Hội Thảo Quốc GiaGia 2015 vềvềĐiện CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và Công TinTin (ECIT 2015) Nếu sử dụng cộng thơng thường độ trễ qua cộng lớn, điều làm chậm tốc độ tính tốn tồn hệ thống Để giảm độ trễ qua tầng cộng, việc tính tốn kích cỡ khối lớn ta sử dụng cộng Cary Save Adder cho toàn khối nhỏ đứng trước Sau đó, giá trị SAD kích thước khối tính tốn thơng qua cộng Carry Look Ahead cải tiến C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 4x4 Σ Σ Σ Σ B0 Σ B1 Σ Σ Σ Σ Σ B2 B3 + = ((𝐴𝐴 ⊕ 𝐵𝐵) (𝐶𝐶 ⊕ 𝐷𝐷) + (𝐴𝐴 ⊕ 𝐵𝐵) (𝐶𝐶 ⊕ 𝐷𝐷)) 𝐶𝐶𝐶𝐶𝐶𝐶 Σ 8: SAD 8x4 8: SAD 4x8 Σ 2: SAD 16x8 2: SAD 8x16 SAD 16x16 MB Mơ hình thiết kế cộng 4x4 theo kiến trúc Cary Save Adder hình Các tầng tính riêng lẻ phần tổng số nhớ sử dụng kỹ thuật cộng dồn 4:2 (4:2 compressor) kết tối ưu nhất[13,14] Tầng cuối cộng Carry Look Aheah cải tiến (MCLA) [12] sử dụng để cộng phẩn tổng số nhớ cho kết SAD cuối Với việc sử dụng cộng Carry Save Adder kết hợp với MCLA cho kết tính tốn nhanh nhiều so với cộng thơng thường Σ Σ (4) 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = (𝐴𝐴 ⊕ 𝐵𝐵) 𝐶𝐶 + (𝐴𝐴 ⊕ 𝐵𝐵) 𝐴𝐴 (6) Σ Khối CMB Σ Σ Khối RMB Σ + (5) Hoạt động IME chia làm bước Thứ bước khởi tạo hay lưu liệu vào CMB RMB, việc lưu liệu vào mảng ghi thực đồng thời Thiết kế giả sử động rộng bus truy xuất nhớ 64 bit thực với kích thước vùng tìm kiếm p = 32 (64x64) đề cập phần trên, CMB cần 33 chu kì RMB cần 161 chu kì Do thực đồng thời nên bước khởi tạo cần 161 chu kì tổng cộng Thứ hai bước tính tốn giá trị tuyệt đối, tính SAD 41 vector chuyển động Với đặc điểm cộng SAD chiều, điểm tìm kiếm thực chu kì cho 41 vector Với kích thước vùng tìm kiếm 64x64 = 4096 điểm số chu tính tốn 4096 chu kì Để so sánh SAD ta cần thêm chu kì đệm tổng cộng bước 161 + 4096 + = 4258 chu kì/MB Đối với vùng tìm kiếm nhỏ hơn, p = 16 tổng cộng 97 + 1024 +1 = 1122 chu kì/MB, hay p = ta có 65 + 256 +1 = 322 chu kì/MB Sơ đồ thời gian thực thi thành phần hệ thống minh họa hình 4: SAD 8x8 Hình 3: Mơ hình cộng SAD chiều Σ + ((𝐴𝐴 ⊕ 𝐵𝐵) (𝐶𝐶 ⊕ 𝐷𝐷) + (𝐴𝐴 ⊕ 𝐵𝐵) (𝐶𝐶 ⊕ 𝐷𝐷)) 𝐶𝐶𝐶𝐶𝐶𝐶 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = (𝐴𝐴 ⊕ 𝐵𝐵 ⊕ 𝐶𝐶 ⊕ 𝐷𝐷) 𝐶𝐶𝐶𝐶𝐶𝐶 + (𝐴𝐴 ⊕ 𝐵𝐵 ⊕ 𝐶𝐶 ⊕ 𝐷𝐷) 𝐷𝐷 16: SAD 4x4 Σ Σ 𝑆𝑆𝑆𝑆𝑆𝑆 33 161-162 4258-4259 Chu kì Lưu liệu Lưu liệu Dịch trái, phải lưu Khối cộng SAD Tính SAD Khối so sánh So sánh SAD xác định MVs Hình 6: Sơ đồ thời gian tính tốn IME Do việc tính tốn SAD kích cỡ khối khác chu kì nên thời gian tính tốn dài, điều làm giảm tần số hoạt động mạch Để tăng tần số ta tiến hành chia đôi đường critical path hay pipeline tầng cấu trúc SAD Cấu trúc IME pipline tầng (IME1p) So với mơ hình IME1, IME1p chia cộng SAD thành tầng Khi việc tính SAD so sánh kết kích cỡ khối chia thành chu kì, chu kì thứ nhất, cộng cho kết khối 4x4, 4x8, 8x4, chu kì thứ cho kết khối lại: 8x8, 8x16, 16x8 16x16 Và việc so sánh để đưa giá trị vector ước lượng thực chu kì So với mơ hình IME1 mơ hình pipeline cần thêm ghi 14 bít chu kì đệm, nhiên đường critical path ngắn lại tần số hoạt động mạch tăng lên Cấu trúc IME đa đầu vào (IME2) Do đặc điểm cấu trúc mảng dịch vòng lưu giá trị N hàng vùng tìm kiếm nên ta tính tốn song song điểm tìm kiếm cách đặt song song mảng 16x16 PEs, cộng SAD so sánh mà không cần mở rộng mảng ghi lưu trữ Nếu đặt m tính tốn số chu ước lượng MB giảm m lần, số tính tốn tối đa với lần kích thước tìm kiếm ngang Tuy nhiên, việc SAD4x4 SAD4x4 Hình 4: Cấu trúc cộng SAD4x4 Thiết kế sử dụng cộng dồn 4:2 thay 3:2 để tối ưu số tầng cộng từ giảm độ trễ tính tính tốn Các biểu thức tính tốn cộng 4:2 công thức (4), (5), (6) Hình minh họa mơ hình cộng 4:2 Với đường truyền trễ qua cổng XOR-XNOR đa hợp Hình 5: Kiến trúc cộng 4:2 192 192 HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) tăng tính tốn làm tăng đáng kể diện tích tồn hệ thống tùy vào cấu hình video mà chọn số tính tốn (số đầu vào) cho thích hợp Với tính tốn song song Mỗi chu kì thực tính tốn song song điểm tìm kiếm cho giá trị 41 vector chuyển động 41 kích thước khác Khi kích thước vùng tìm kiếm p 32, 16, số chu ước lượng xong MB 16x16 1186, 354 130 chu kì Trong báo này, chúng tơi tiến hành thực phần cứng IME đầu vào (IME2_2C) IME đầu vào (IME2_4C) để so sánh kết với IV V Trong báo này, xây dựng kiến trúc VLSI thông lượng cao cho ước lượng chuyển động nguyên chuẩn mã hóa H.264/AVC Bộ IME sử dụng kiến trúc cộng SAD hình kết hợp tối ưu phần cứng, cải tiến nhớ tìm kiếm xử lý đa đầu vào cho thông lượng xử lý cao, giảm dung lượng tăng hiệu truy cập nhớ Với kết đạt được, IME đáp ứng cho ứng dụng nén video thời gian thực độ phân giải cao 1280x720 @ 30 fps hay 1920x1080 @ 30fps vùng tìm kiếm [64x64] TÀI LIỆU THAM KHẢO KẾT QUẢ MÔ PHỎNG VÀ TỔNG HỢP [1] Hệ thống IME thực ngôn ngữ Verilog HDL mô kết phần mềm VCS Synopsys so sánh kết xác với Matlab Mạch tổng hợp dựa công nghệ 90nm Synopsys kết thu bảng bảng Một số so sánh bảng [2] [3] Bảng1: Kết tổng hợp mạch Mơ hình Tần số (MHz) Tài nguyên (K Leaf Cell) IME1 300 IME1p 350 IME2_2C 300 IME2_4C 300 *Số chu kì đệm để lưu giá trị kích thước vùng tìm kiếm Latency* (Chu kì) 16x16 32x32 [4] 64x64 96 118 65 97 161 161 215 vào mảng ghi tìm kiếm phụ thuộc vào [5] Bảng 2: Thông lượng xử lý kiến trúc Mơ hình Số PE IME1 IME1p IME2_2C IME2_4C 256 256 512 1024 [6] Thơng lượng xử lý (Chu kì/MB)/(kMB/s) 16x16 32x32 64x64 322/970 1122/278 4258/73 323/1105 1123/318 4259/83 193/1619 609/513 2209/141 130/2403 354/882 1186/263 [7] [8] So sánh đánh giá Ở kiến trúc đề xuất, nhớ cục vùng tìm kiếm N(2p+N) giảm 60% so với việc lưu trữ tồn vùng tìm kiếm tham khảo [4] [5] Kiến trúc dễ dàng tăng việc tính tốn đa đầu vào mà khơng thay đổi nhớ tìm kiếm Dựa vào bảng ta thấy thông lượng xử lý kiến trúc lớn cho phép xử lý video thời gian thực độ phân giải 1280x720@30fps (108K MB/s) 1920x1080@30fps (245760 MB/s) kiến trúc IME2_4C [9] [10] [11] Bảng 3: So sánh với cơng trình nghiên cứu Nghiên cứu Kiến trúc Cơng nghệ(nm) Số PEs Kích thước tìm kiếm Tài nguyên (cổng) Bộ nhớ(KB) Tần số (MHz) Lantency (chu kì) Thơng lượng (chu kì/MB) [5] SAD2D 130 512 65x65 6.656 300 700 2815 [6] 1D 180 256 16x16 200 256 [7a] 2D 180 4096 64x64 1449K 2.9 130 512 KẾT LUẬN [12] IME2_2C SAD 2D 90 512 64x64 162K 1.536 300 161 2209 [13] [14] 193 193 ITU, ITU-T Recommendation H.264: Advanced video coding for generic audiovisual services, 2006 Youn-Long Steve Lin, Chao-Yang Kao, Huang-Chih Kuo, Jian-Wen Chen “VLSI Design for Video Coding -H.264/AVC Encoding from Standard Specification to Chip,” Springer- New York-DordrechtHeidelberg-London, ISBN 978-1-4419-0958-9, 2010 Tung-Chien Chen, Shao-Yi Chien, Yu-Wen Huang, Chen-Han Tsai, Ching-Yeh Chen, To-Wei Chen, and Liang-Gee Chen, “Analysis and Architecture Design of an HDTV720p 30 Frames/s H.264/AVC Encoder”, Transactions on Circuits and Systems for Video Technology, vol.16 No.6 June 2006 Ching-Yeh Chen, Shao-Yi Chien, Yu-Wen Huang, Tung-Chien Chen, Tu-Chih Wang, and Liang-Gee Chen, “Analysis and Architecture Design of Variable Block-Size Motion Estimation for H.264/AVC”, IEEE Transactions on Circuits and Systems—i: Regular papers, vol 53, no 2, February 2006 Meihua GU, Ningmei YU, Lei ZHU, Wenhua JIA, “High Throughput and Cost Efficient VLSI Architecture of Integer Motion Estimation for H.264/AVC”, Journal of Computational Information Systems, April 2011 Chien-Min Ou, Chian-Feng Le and Wen-Jyi Hwang, “An Efficient VLSI Architecture for H.264 Variable Block Size Motion Estimation”, IEEE Transactions on Consumer Electronics, Vol 51, No 4, November 2005 Chao-Yang Kao and Youn-Long Lin, “A Memory-Efficient and Highly Parallel Architecturefor Variable Block Size Integer Motion Estimation in H.264/AVC”, IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol 18, No 6, June 2010 Minho Kim, Ingu Hwang, Soo-Ik Chae, “A Fast VLSI Architecture for Full-Search Variable Block Size Motion Estimation in MPEG-4 AVC/H.264”, Proceedings of Asia and South Pacific design automation conference, Shanghai, China, January 2005, pp 631–634 Xuan Jing, Chau, L.-P, “An efficient three-step search algorithm for block motion estimation”, Multimedia, IEEE Transactions on, vol 6, p.435 – 438, May 2004 Shan Zhu, and Kai-Kuang Ma, “ A New Diamond Search Algorithm for Fast Block-Matching Motion Estimation”, IEEE Trans Image Processing, vol 9, no 2, pp 287-290, February 2000 Lai-Man Po, and Wing-Chung Ma, “A Novel Four-Step Search Algorithm for Fast Block Motion Estimation”, IEEE Trans Circuits And Systems For Video Technology, vol 6, no 3, pp 313-317, June 1996 Yu-Ting Pai and Yu-Kumg Chen, “The Fastest Carry Lookahead Adder”, Proceedings of the Second IEEE International Workshop on Electronic Design, Test and Applications (DELTA’04) 0-7695-2081-2/04, 2004 R.UMA,Vidya Vijayan, M Mohanapriya, Sharon Paul, “Area, Delay and Power Comparison of Adder Topologies”, International Journal of VLSI design & Communication Systems (VLSICS) Vol.3, No.1, February 2012 Sreehari Veeramachaneni, Kirthi Krishna M, Lingamneni Avinash, Sreekanth Reddy Puppala , M.B Srinivas, “Novel Architectures for HighSpeed and Low-Power 3-2, 4-2 and 5-2 Compressors”, IEEE 20th International Conference on VLSI Design (VLSID'07) 0-7695-2762-0/07 2007

Ngày đăng: 27/04/2022, 10:08

HÌNH ẢNH LIÊN QUAN

Hình 1: Sơ đồ hệ thống IME cơ bản - document
Hình 1 Sơ đồ hệ thống IME cơ bản (Trang 2)
Sơ đồ tổng quát của hệ thống được minh họa ở hình 2 bao gồm các thành phần sau: 256 đơn vị xử  lý tính toán song song  các giá trị sai khác của pixel giữa khối hiện tại và khố i tham  khảo; một mảng các thanh ghi dịch vòng ghi dữliệu vào song  song và có  - document
Sơ đồ t ổng quát của hệ thống được minh họa ở hình 2 bao gồm các thành phần sau: 256 đơn vị xử lý tính toán song song các giá trị sai khác của pixel giữa khối hiện tại và khố i tham khảo; một mảng các thanh ghi dịch vòng ghi dữliệu vào song song và có (Trang 2)
Hình 4: Cấu trúc bộ cộng SAD4x4 - document
Hình 4 Cấu trúc bộ cộng SAD4x4 (Trang 3)
Hình 3: Mô hình bộ cộng SAD2 chiều - document
Hình 3 Mô hình bộ cộng SAD2 chiều (Trang 3)
Hình 5: Kiến trúc bộ cộng 4:2 - document
Hình 5 Kiến trúc bộ cộng 4:2 (Trang 3)
Mô hình thiết kế của bộ cộng 4x4 theo kiến trúc Cary Save Adder được chỉraở hình 4. Các tầng trên chỉ tính riêng lẻ phần tổng và số nhớ sử dụng kỹ thuật cộng dồn 4:2 (4:2 compressor)   để cho kết quả tối ưu nhất[13,14] - document
h ình thiết kế của bộ cộng 4x4 theo kiến trúc Cary Save Adder được chỉraở hình 4. Các tầng trên chỉ tính riêng lẻ phần tổng và số nhớ sử dụng kỹ thuật cộng dồn 4:2 (4:2 compressor) để cho kết quả tối ưu nhất[13,14] (Trang 3)
Bảng1: Kết quả tổng hợp mạch - document
Bảng 1 Kết quả tổng hợp mạch (Trang 4)
Bảng 2: Thông lượng xử lý của các kiến trúc - document
Bảng 2 Thông lượng xử lý của các kiến trúc (Trang 4)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN