Các kỹ thuật xử lý video như nén video..... một tài liệu thú vị khi bạn mới tìm hiểu về xử lý video
Kiến trúc xử lý video Tích hợp hệ thống phòng thí nghiệm C3I Liên bang Thụy Sĩ Viện Công nghệ, EPFL Câu hỏi đầu tiên chúng tôi muốn trả lời là: chúng tôi có nghĩa là hiện nay để xử lý video? Trong quá khứ, nhiều hơn hoặc ít hơn cho đến cuối những năm 80 có hai thế giới khác biệt: một thế giới truyền hình analog và một máy tính thế giới kỹ thuật số. Tất cả các chế biến truyền hình từ máy ảnh để nhận được dựa trên xử lý tương tự, tương tự điều chế và ghi âm analog. Với sự tiến bộ của công nghệ kỹ thuật số, một phần của quá trình chế biến tương tự có thể được thực hiện bởi các mạch kỹ thuật số với các lợi thế phù hợp về khả năng tái của các mạch dẫn đến chi phí và ổn định lợi thế, và nhạy cảm với tiếng ồn dẫn đến lợi thế chất lượng. Vào cuối những năm 80 hoàn toàn khả năng xử lý video mới trở nên khả thi bởi các mạch kỹ thuật số. Ngày nay, hình ảnh nén và giải nén là chi phối xử lý video kỹ thuật số trong thời hạn tầm quan trọng và phức tạp của các chuỗi tất cả các TV. Hình 1 Schematic đại diện của một chuỗi truyền hình. Trong việc xử lý kỹ thuật số trong tương lai gần sẽ được sử dụng để vượt qua từ truyền hình độ phân giải tiêu chuẩn HDTV nén và giải nén là phải, xem xét băng thông mà nó sẽ yêu cầu để truyền. Các ứng dụng khác sẽ Đưc dịch sang: Tiếng Việt Hiển thị văn bản gốc Tùy chọn ▼ được tìm thấy ở cấp độ của máy ảnh để tăng chất lượng hình ảnh bằng cách tăng số bit từ 8 đến 10 hoặc 12 cho mỗi điểm ảnh, hoặc bằng cách sử dụng xử lý thích hợp nhằm bồi thường các hạn chế cảm biến (tăng cường hình ảnh của phi tuyến tính lọc và chế biến). Kỹ thuật số xử lý cũng sẽ nhập vào phòng thu để chỉnh sửa kỹ thuật số, ghi âm và 50/60 Hz chuyển đổi tiêu chuẩn. Ngày nay, các thông tin liên lạc băng thông cao theo yêu cầu của video kỹ thuật số không nén cần thiết để chỉnh sửa và ghi lại hoạt động, giữa các thiết bị phòng thu hạn chế việc sử dụng video kỹ thuật số đầy đủ và xử lý video kỹ thuật số ở mức độ phòng thu. Nén video Tại sao nén video đã trở thành ứng dụng xử lý video chiếm ưu thế của truyền hình? Một kênh truyền hình analog chỉ cần 5 MHz kênh analog để truyền, ngược lại trong trường hợp của video kỹ thuật số với 8-bit A / D, 720 pixels cho 576 dòng (54 MHz Tốc độ lấy mẫu), chúng tôi cần một kênh truyền dẫn với công suất 168,8 Mbit / s! Trong trường hợp của HDTV kỹ thuật số công suất: 10 bit A / D, 1920 điểm ảnh 1.152 dòng tăng to1.1 Gbit / s! Không có ứng dụng giá cả phải chăng, về chi phí, do đó có thể mà không cần nén video. Những lý do này cũng đã nêu lên sự cần thiết của các tiêu chuẩn trên toàn thế giới để nén video để đạt được khả năng tương tác và khả năng tương thích giữa các thiết bị và các nhà khai thác. H.261 là tên cho các tiêu chuẩn nén video kỹ thuật số đầu tiên thiết kế đặc biệt cho các ứng dụng hội nghị truyền hình, MPEG-1 là tên một trong những thiết kế cho CD lưu trữ (lên đến 1,5 Mbit / s) ứng dụng, MPEG-2 cho truyền hình kỹ thuật số và HDTV tương ứng từ 4 đến 9 Mb / s cho truyền hình, hoặc lên đến 20 Mb / s cho HDTV, H.263 cho hội nghị truyền hình với tốc độ bit rất thấp (16 - 128 kb / s). Tất cả các tiêu chuẩn này có thể được coi là tốt hơn như là một gia đình tiêu chuẩn chia sẻ các thuật toán xử lý khá giống nhau và các tính năng. Tất cả đều được dựa trên triết lý cơ bản giống nhau: Bộ giải mã phải đơn giản. Đối với truyền hình HDTV trong khi chúng tôi có bộ mã hóa rất ít được sử dụng bởi các công ty đài truyền hình (giới hạn chỉ cho mỗi kênh), chúng ta phải có một bộ giải mã trên mỗi bộ truyền hình. Cú pháp giải mã hoàn toàn được quy định. Điều này có nghĩa rằng bất kỳ video nén dòng bit có thể được giải mã mà không cần bất kỳ sự mơ hồ mang lại kết quả cùng một đoạn video. Một bộ giải mã phải được tuân thủ QTI. Điều này có nghĩa là một bộ giải mã phải có khả năng để giải mã bất kỳ video bit dòng tôn trọng cú pháp giải mã. Cú pháp mã hóa được quy định cụ thể. Điều này có nghĩa là một bộ mã hóa phải mã hóa nội dung video trong một cú pháp tuân thủ QTI. Bộ mã hóa (tức là thuật toán mã hóa) không được quy định. Điều này có nghĩa rằng các thuật toán mã hóa là một vấn đề cạnh tranh, bộ mã hóa có thể được tối ưu hóa nhằm đạt được chất lượng cao của nén video hoặc nhằm đơn giản hóa các thuật toán mã hóa để có bộ mã hóa đơn giản. Nó cũng có nghĩa là trong việc xử lý tương lai của sức mạnh xử lý hơn, chúng ta có thể sử dụng nhiều hơn và tinh vi hơn và chế biến đòi hỏi các thuật toán mã hóa để tìm những lựa chọn tốt nhất của các cú pháp mã hóa có sẵn. Những nguyên tắc cơ bản của các tiêu chuẩn nén video có hậu quả rõ ràng mạnh mẽ trên kiến trúc thực hiện nén video. Vì vậy, để hiểu việc xử lý chính và các vấn đề kiến trúc nén video chúng tôi một thời gian ngắn phân tích chi tiết việc xử lý cơ bản của MPEG-2 tiêu chuẩn là gì. Nén video MPEG-2 MPEG-2 là một tiêu chuẩn đầy đủ quy định cụ thể tất cả các giai đoạn từ việc mua lại video lên đến giao diện với các giao thức truyền thông. Hình 2 báo cáo một sơ đồ như thế nào MPEG-2 cung cấp sau khi một lớp nén vận chuyển. Âm thanh và video nén dòng suối bit được ghép và đặt trong các gói tin trong một định dạng phù hợp với giao thông vận tải. Điều này một phần chế biến có thể không được phân loại như xử lý video, và không được xem xét ở đây chi tiết. Hình 2. MPEG-2 sơ đồ luồng giao thông. Hình 3. xử lý cơ bản cho MPEG-2 nén. Hình 4. MPEG-2 trước khi lọc và giảm dư thừa không gian của DCT. Hình 5. MPEG-2 không gian dự phòng giảm do lượng tử hóa và mã hóa entropy. Các thuật toán cơ bản xử lý video MPEG-2 được báo cáo trong hình 3. Các thuật toán này cũng được tìm thấy với một số biến thể trong tất cả các tiêu chuẩn nén khác được đề cập trước. Giai đoạn đầu tiên là chuyển đổi hình ảnh từ RGB định dạng để định dạng YUV và lọc tiếp theo và lấy mẫu của các thành phần chrominance để mang lại màu sắc hình ảnh nhỏ hơn. Sau đó, hình ảnh được phân chia thành khối điểm ảnh kích thước 8x8 và khối được nhóm lại trong vĩ mô khối kích thước 16x16 pixel. Hai quá trình chính được áp dụng sau đó. Một là giảm sự dư thừa không gian, khác là giảm sự dư thừa thời gian. Hình 6. MPEG-2 thời gian dự phòng giảm do dự đoán chuyển động bồi thường. Sự dư thừa không gian được giảm áp dụng biến đổi DCT khối và sau đó entropy mã hóa bởi các bảng Huffman lượng biến đổi hệ số. Thời gian dự phòng được giảm bồi thường chuyển động áp dụng đối với vĩ mô khối theo nhóm IBBP của cấu trúc hình ảnh. Trong biết thêm chi tiết (xem hình 4 và 5) dư thừa không gian được giảm áp dụng theo chiều ngang 8 lần và 8 lần theo chiều dọc 1 8x1 DCT biến đổi. Sau đó, biến đổi hệ số được lượng tử hóa, làm giảm đến số không nhỏ hệ số tần số cao, quét zig-zag để bắt đầu từ hệ số DC ở góc trên bên trái của khối và mã hoá bằng cách sử dụng Huffman bảng gọi là Variable Length mã hóa (VLC). Giảm thời gian dự phòng là quá trình làm giảm đáng kể tỷ lệ bit và cho phép để đạt được tỷ lệ nén cao. Nó được dựa trên các nguyên tắc của việc tìm kiếm các khối vĩ mô hiện tại trong hình ảnh đã được truyền tại cùng một vị trí trong hình ảnh hoặc thay thế bởi một vector chuyển động "được gọi là (xem hình 6). Kể từ khi một bản sao chính xác của khối vĩ mô không được bảo đảm để được tìm thấy, vĩ mô khối có lỗi trung bình thấp nhất được chọn làm tài liệu tham khảo khối vĩ mô. "Lỗi khối vĩ mô" sau đó được xử lý như vậy để giảm sự dư thừa không gian, nếu có, bằng phương tiện của thủ tục nêu trên và truyền để có thể tái tạo lại mong muốn vĩ mô, khối xử lý vector chuyển động "cho thấy các tài liệu tham khảo và các lỗi tương đối. Hình 7 báo cáo được gọi là MPEG-2 Group Cơ cấu tổ chức Hình ảnh cho thấy hình ảnh được xếp vào loại I (Intra), P (dự đoán) và B (Bi-hướng nội suy). Tiêu chuẩn này quy định cụ thể hình ảnh vĩ mô nội khối chỉ có thể được xử lý để giảm sự dư thừa không gian, P hình ảnh khối vĩ mô cũng có thể được xử lý để giảm sự dư thừa thời gian đề cập chỉ qua I hoặc P khung, hình ảnh B-block vĩ mô cũng có thể được xử lý bằng cách sử dụng một suy của tài liệu tham khảo trong quá khứ và tương lai khối vĩ mô. Rõ ràng là B-block vĩ mô cũng có thể được mã hóa như nội hoặc dự đoán nếu nó được tìm thấy thuận tiện cho việc nén. Lưu ý rằng kể từ khi B hình ảnh có thể sử dụng như là tài liệu tham khảo trong quá khứ và tương lai hoặc các khung hình P, để truyền tải MPEG-2 hình ảnh khác nhau từ thứ tự hiển thị, hình ảnh B được truyền đi trong nén dòng bit sau khi các hình ảnh tôi và P tương đối. Hình 7. Cấu trúc của một GOP MPEG-2, hiển thị các tài liệu tham khảo hình dự đoán chuyển động bồi thường của P và B hình ảnh. Phức tạp của xử lý Video MPEG Vào cuối những năm 80 đã có rất nhiều cuộc thảo luận về sự phức tạp của việc thực hiện DCT biến đổi trong thời gian thực với tốc độ video. Khối 8x8 đã được chọn thay vì 16x16 để làm giảm sự phức tạp của biến đổi. Mục tiêu chính là để tránh chế biến phức tạp ở phía bộ giải mã. Với mục tiêu này, nhiều việc triển khai tối ưu dành cho DCT đã xuất hiện trong cả hai hình thức của các chip chuyên dụng và phần mềm bằng cách sử dụng giảm số lượng nhân và bổ sung. Ngày nay, kỹ thuật số công nghệ đã có nhiều tiến bộ về tăng tốc độ và hiệu suất xử lý mà DCT mã hóa hoặc giải mã không còn là một vấn đề quan trọng. Nếu chúng ta nhìn hình 8, chúng ta có thể tìm thấy một sơ đồ khối sơ đồ mạch của một bộ giải mã MPEG-2 là rất tương tự như những người thân của các tiêu chuẩn nén khác. Một bộ đệm là cần thiết để nhận được tại một hằng số tốc độ bit nén bit trong quá trình giải mã được không phải là "tiêu thụ" với một tốc độ không đổi. VLD là một chế biến tương đối đơn giản có thể được thực hiện bằng cách nhìn lên bảng hoặc những kỷ niệm. Là một chế biến bit-khôn ngoan, nó không thể được song song và kết quả khá kém hiệu quả được thực hiện trong các bộ vi xử lý mục đích chung. Đây là lý do mà bộ vi xử lý đa phương tiện mới như Philips "Trimedia" sử dụng đơn vị cụ thể VLC / VLD mã hóa entropy. Các yếu tố tốn kém hơn của các bộ giải mã MPEG-2 là những kỷ niệm cho việc lưu trữ của khung tham chiếu trong quá khứ và tương lai và xử lý các luồng dữ liệu giữa các đơn vị chuyển động bù người xen vào và những kỷ niệm video tham khảo. Hình 8: Sơ đồ khối của một bộ giải mã MPEG-2. Đối với một bộ mã hóa MPEG-2, xem hình 9, tình hình là rất khác nhau. Trước hết, chúng ta có thể nhận ra một con đường thực hiện đầy đủ một bộ giải mã MPEG-2, cần thiết để tái tạo lại hình ảnh tham khảo khi chúng được tìm thấy ở kích thước bộ giải mã. Sau đó, chúng ta có một khối dự toán chuyển động (Bi-hướng chuyển động ước tính) có mục tiêu của việc tìm kiếm các vector chuyển động, và một khối lựa chọn và kiểm soát các phương thức mã hóa khối vĩ mô. Như đã thảo luận trong đoạn văn trước đó, cách nào để tìm các vector chuyển động tốt nhất cũng như cách để lựa chọn đúng mã hóa cho mỗi khối vĩ mô không được quy định theo tiêu chuẩn. Vì vậy, các thuật toán rất đơn giản (với hiệu suất chất lượng hạn chế), hoặc cực kỳ phức tạp (với hiệu suất chất lượng cao) có thể được thực hiện cho các chức năng này. Hơn nữa, MPEG-2 cho phép định nghĩa năng động của cấu trúc đảng Cộng hòa làm cho khả năng có thể có nhiều chế độ mã hóa. Nói chung là những vấn đề quan trọng của một bộ mã hóa MPEG-2: dự toán chuyển động xử lý và xử lý các luồng dữ liệu phức tạp với các vấn đề băng thông tương đối giữa những kỷ niệm khung ban đầu và mã hóa, xử lý tính toán chuyển động và kiểm soát các đơn vị mã hóa. Chúng tôi cũng đã đề cập đến các phương thức mã hóa MPEG-2 là phức tạp hơn nhiều những gì có thể có vẻ từ này mô tả ngắn gọn. Trong thực tế, truyền hình hiện tại dựa trên hình ảnh interlaced và xử lý tất cả các chế độ mã hóa có thể được áp dụng theo những cách khác biệt "khung" các khối và các khối vĩ mô hoặc "lĩnh vực" các khối và các khối vĩ mô. Cũng áp dụng cho dự toán chuyển động mà chúng ta có thể sử dụng cả hai vectơ hoặc khung. Hơn nữa tất cả các tài liệu tham khảo cho dự đoán có thể được thực hiện trên các điểm ảnh hình ảnh đúng sự thật hoặc trên điểm ảnh hình ảnh "ảo" thu được bằng cách nội suy song tuyến như trong hình 10. Hình 9. Sơ đồ khối của một bộ mã hóa MPEG-2. Hình 10: MPEG-2 khối tài liệu tham khảo vĩ mô có thể được thực hiện cũng "ảo" điểm ảnh (màu đỏ) thu được bằng cách nội suy song tuyến tính, thay vì pixel hình ảnh từ raster ban đầu (màu xám). Trong trường hợp này, vector chuyển động với một nửa độ chính xác điểm ảnh cần phải được ước tính. Khả năng sử dụng tất cả các chế độ mã hóa này có thể phần lớn làm tăng chất lượng của video nén, nhưng nó có thể trở nên cực kỳ yêu cầu về chế biến phức tạp. Thách thức của nhà thiết kế MPEG-2 mã hóa là tốt nhất thương mại-off giữa sự phức tạp của thuật toán thực hiện và chất lượng của video nén. Các vấn đề kiến trúc và thuật toán liên quan rất chặt chẽ trong kiến trúc bộ mã hóa MPEG-2. Video k thuật số và đồ họa máy tính Trong video kỹ thuật số qua trên các máy tính là tương đương với đồ họa máy tính. Khác nhau từ thế giới truyền hình tất cả các xử lý là rõ ràng là kỹ thuật số chủ yếu là xử lý hình ảnh tổng hợp từ 2-D hoặc các mô hình 3-D. Khái niệm về thời gian thực ứng dụng đồ họa máy tính là xấp xỉ vì thường ứng dụng đã được dự định để chạy càng nhanh càng tốt trên các bộ vi xử lý có sẵn bằng cách sử dụng song song trong các máy gia tốc đồ họa cho các phép tính số học trên pixels. Hình 11: Trình tự các bước xử lý đồ họa máy tính điển hình. Hình 11 cho thấy một sơ đồ của các hoạt động đồ họa máy tính cơ bản. Đối với mỗi hình ảnh, 2-D và 3-D mô hình bao gồm các hình tam giác hoặc đa giác được đặt trong không gian ảo bởi các ứng dụng có thể được tương tác. Vị trí của mỗi đỉnh được tính theo sự biến đổi hình học của đối tượng và chiếu lên màn hình. Các kết cấu, lập bản đồ trên hình đa giác mỗi, được chuyển đổi theo mô hình ánh sáng tương ứng với vị trí của đa giác trong không gian. Các điểm ảnh trên màn hình tương ứng với raster màn hình thu được từ các điểm ảnh kết cấu "gốc" trên hình đa giác bởi các hoạt động thích hợp lọc. Cuối cùng, đa giác được hiển thị trên màn hình. [...]... chế biến (2-D chập 3x3) trên ba kiến trúc khác nhau Một xem xét chung về hiệu quả của các kiến trúc khác nhau để xử lý video liên quan đến việc sử dụng bộ nhớ Video các ứng dụng xử lý, như chúng ta đã nhìn thấy chi tiết hơn cho MPEG-2, yêu cầu xử lý số lượng rất lớn dữ liệu (pixel) mà cần phải được xử lý và truy cập một số thời gian trong một bộ mã hóa hoặc giải mã video Hình ảnh được lọc, mã hóa, giải... kiến trúc ASIC cho các nhiệm vụ xử lý cụ thể khi so sánh để GPPs cung cấp hiệu suất tương tự Hình 20: Ví dụ về FIR lọc thực hiện trên một kiến trúc chuyên dụng Hình 21: Ví dụ về thực hiện lọc FIR trên một kiến trúc DSP Hình 22 mâu thuẫn thương mại-off cho các gia đình kiến trúc Hình 23 mâu thuẫn thương mại-off cho các gia đình kiến trúc Hình 24 điện tản giảm cho chế biến (2-D chập 3x3) trên ba kiến. .. tan bởi các bộ vi xử lý hiệu suất cao (xem hình 24) Xu hướng này xung đột với nhu cầu chuyển nhượng ngày càng phức tạp của các thuật toán xử lý kiến trúc phần mềm là dễ dàng hơn và nhanh hơn để được sửa đổi sửa chữa và sửa lỗi Việc tối ưu hóa kích thước bộ nhớ và truy cập, tần số đồng hồ, và các tính năng kiến trúc khác mà sản lượng điện năng tiêu thụ thấp chỉ có thể có trên các kiến trúc ASICs Giảm... Bộ xử lý tín hiệu số (DSP) Đây là những bộ vi xử lý kiến trúc cổ điển chuyên ngành và hiệu quả cho nhân-tích lũy hoạt động từ ngày 16-24-32 bit dữ liệu Các gia đình cổ điển nổi tiếng là những người thân của Motorola và Texas Instruments Mức độ lập trình của những bộ vi xử lý này là rất cao Họ cũng làm việc cho các ứng dụng thời gian thực liên tục với đầu vào / đầu ra tỷ lệ Mục đích chung bộ xử lý (GPPs)... bộ vi xử lý máy tính cổ điển (Intel, IBM PowerPC) và bộ vi xử lý máy trạm (Alpha kỹ thuật số, Sun UltraSparc) Ban đầu chúng được thiết kế cho các ứng dụng phần mềm nói chung mục đích và nói chung, mặc dù rất mạnh mẽ, không thực sự phù hợp cho xử lý video Hơn nữa các hệ thống điều hành làm việc không phải là thời gian thực hệ điều hành Việc thiết kế các ứng dụng video thời gian thực trên các kiến trúc. .. thời gian được sử dụng bởi các đơn vị xử lý chỉ để chờ đợi cho các dữ liệu chính xác để được xử lý Đối với các máy gia tốc đồ họa hiệu suất xử lý lưu lượng dữ liệu là mục tiêu cơ bản của quá trình chế biến Hình 26 báo cáo hiệu suất của một số trạng thái của các thiết bị nghệ thuật so với các nội dung đồ họa Hình 25: Sự phát triển của tốc độ xử lý của bộ vi xử lý, SRAM và Synch DRAM trong năm qua Bộ... trung tâm xử lý các "điểm ảnh" để thực hiện song song của sự khác biệt vĩ mô khối, hai bộ nhớ cache các ngân hàng cho việc lưu trữ của khối vĩ mô hiện nay và cho các tài liệu tham khảo cửa sổ tìm kiếm, một bộ xử lý RISC cho việc xử lý của dự toán thuật toán di truyền chuyển động và các thông tin liên lạc giữa các đơn vị chế biến Các đơn vị xử lý cơ bản của hình 29 sau đó được báo cáo trong kiến trúc chung... hình 17 Nói chung là rất tương tự như kiến trúc cho một sơ đồ khối bộ mã hóa MPEG-2 Chúng ta có thể nhận thấy một "hình dạng mã hóa" khối trong vòng lặp dự toán chuyển động sản xuất thông tin hình dạng mã hóa truyền qua đường song song với thông tin cổ điển kết cấu mã hóa Xử lý hình Kiến trúc: đề chung Nói chung, chúng ta có thể phân loại các mạch thực hiện xử lý video trong bốn gia đình: Ứng dụng cụ... bộ vi xử lý và tốc độ truy cập bộ nhớ cache SRAM và Synch DRAM dữ liệu trong năm qua, chúng tôi quan sát thấy hai xu hướng khác nhau (xem hình 25) Tốc độ của bộ vi xử lý tương tự như tốc độ truy cập bộ nhớ trong năm 1990, nhưng bây giờ nó là nhiều hơn gấp đôi và xu hướng này là hướng tới một tỷ lệ tốc độ thậm chí còn cao hơn Nó có nghĩa là các nút cổ chai hiệu suất của ngày nay kiến trúc xử lý video. .. đạt được truyền từ GPP một ASIC là gì? Đó là khó khăn để trả lời cho câu hỏi này với một con số duy nhất, nó phụ thuộc kiến trúc kiến trúc, chế biến bằng cách xử lý Đối với ví dụ Hình 24 báo cáo tản quyền lực của một chập 2-D với hạt nhân lọc 3x3 trên một hình ảnh 256x256 trên ba kiến trúc khác nhau Kết quả là một ARM RISC thực hiện, bên cạnh là chậm hơn các lựa chọn thay thế khác và do đó, cung cấp . (2-D chập 3x3) trên ba kiến trúc khác nhau. Một xem xét chung về hiệu quả của các kiến trúc khác nhau để xử lý video liên quan đến việc sử dụng bộ nhớ. Video các ứng dụng xử lý, như chúng ta đã. cơ bản của các tiêu chuẩn nén video có hậu quả rõ ràng mạnh mẽ trên kiến trúc thực hiện nén video. Vì vậy, để hiểu việc xử lý chính và các vấn đề kiến trúc nén video chúng tôi một thời gian. phụ thuộc kiến trúc kiến trúc, chế biến bằng cách xử lý. Đối với ví dụ Hình 24 báo cáo tản quyền lực của một chập 2-D với hạt nhân lọc 3x3 trên một hình ảnh 256x256 trên ba kiến trúc khác nhau.