Đề tài 06:Phân tích đối tượng trong chuỗi video. Phát hiện và bù chuyển động các đối tượng trong chuỗi video.I)Phân tích đối tượng trong chuỗi videoNgày nay với sự phát triển của các kỹ thuật nén ảnh Video và truyền thông,ta hoàn toàn có thể gửi trực tuyến một lượng lớn ảnh Video số. Rất nhiều nhà cungcấp nội dung đang phân phối video theo yêu cầu qua mạng Internet. Người dùngtại nhà đang có các đường truyền băng thông rộng hoặc kết nối DSL để xem cáchình ảnh Video chất lượng cao. Trong khi lượng dữ liệu Video đang tăng lênnhanh chóng, các ứng dụng đa truyền thông vẫn còn bị giới hạn trong những khảnăng quản lý nội dung. Do vậy, ngày nay càng đòi hỏi các kỹ thuật mới có thể xửlý hiệu quả, mô hình hóa và quản lý nội dung Video. Các đối tượng video là các thong tin rõ rang nhất trong dữ liệu Video, vàlà tiêu chuẩn cho các nhận thức trực quan của con người. Nó thuộc về trực giác đểngười dung mô tả hoặc ghi chú một cảnh quay hoặc đối tượng. Các nghiên cứu gầnđây trên MPEG-4 đã nhấn mạnh vấn đề nén ảnh trên cơ sở đối tượng. Có thể hìnhdung là ta được phép truy cập và tác động tới các đối tượng một cách trực tiếp từchuỗi video đã được mã hóa. Điều này đã cung cấp một tiềm năng rất lớn cho cácứng dụng tương tác đa truyền thông. Chuẩn MPEG-7, một giao diện mô tả nộidung đa truyền thông, cũng định nghĩa một sơ đồ có thể tương tác với các cảnh vàđối tượng.
Đề tài 06:Phân tích đối tượng trong chuỗi video. Phát hiện và bù chuyển động các đối tượng trong chuỗi video. I)Phân tích đối tượng trong chuỗi video Ngày nay với sự phát triển của các kỹ thuật nén ảnh Video và truyền thông, ta hoàn toàn có thể gửi trực tuyến một lượng lớn ảnh Video số. Rất nhiều nhà cung cấp nội dung đang phân phối video theo yêu cầu qua mạng Internet. Người dùng tại nhà đang có các đường truyền băng thông rộng hoặc kết nối DSL để xem các hình ảnh Video chất lượng cao. Trong khi lượng dữ liệu Video đang tăng lên nhanh chóng, các ứng dụng đa truyền thông vẫn còn bị giới hạn trong những khả năng quản lý nội dung. Do vậy, ngày nay càng đòi hỏi các kỹ thuật mới có thể xử lý hiệu quả, mô hình hóa và quản lý nội dung Video. Các đối tượng video là các thong tin rõ rang nhất trong dữ liệu Video, và là tiêu chuẩn cho các nhận thức trực quan của con người. Nó thuộc về trực giác để người dung mô tả hoặc ghi chú một cảnh quay hoặc đối tượng. Các nghiên cứu gần đây trên MPEG-4 đã nhấn mạnh vấn đề nén ảnh trên cơ sở đối tượng. Có thể hình dung là ta được phép truy cập và tác động tới các đối tượng một cách trực tiếp từ chuỗi video đã được mã hóa. Điều này đã cung cấp một tiềm năng rất lớn cho các ứng dụng tương tác đa truyền thông. Chuẩn MPEG-7, một giao diện mô tả nội dung đa truyền thông, cũng định nghĩa một sơ đồ có thể tương tác với các cảnh và đối tượng. Cả hai chuẩn MPEG-4 và MPEG-7 không tiêu chuẩn hóa các phương pháp và công cụ rút trích đối tượng hay đặc trưng. Khi video được biểu diễn dưới dạng pixel thô những đối tượng và thông tin chứa nó phải được rút trích trước khi xây dựng bất cứ mô hình nội dung nào trên cơ sở đối tượng. Trong khi MPEG-4 và MPEG-7 đang trở thành những tiêu chuẩn quốc tế, các công cụ phân đoạn đối tượng video và đặc trưng vẫn còn thiếu. Ngày nay, các thuật toán phân đoạn tổng quát và linh hoạt được nghiên cứu trong công trình. Từ đó cho thấy hệ thống thị giác con người không tính các biên trên bất cứ tập thuộc tính nào. Một vấn đề điển hình với các hệ thống hiện nay là chỉ một tập cố định đặc trưng được dung. Một phần từ những đặc trưng phổ biến như màu sắc, cạnh và chuyển động, các cấu trúc không gian – thời gian cũng như những quy luật bên dưới mà con người dung để nhận dạng đối tượng cũng rất quan 1 trọng. Một vấn đề khác là nếu không có một mô hình đối tượng thật tốt, sẽ khó khi kết hợp nhiều đặc trưng khác nhau vào quá trình phân đoạn đối tượng. Nhiều đặc trưng khác nhau có thể cho ra các phép nội suy đối tượng khác nhau. Để thỏa mãn những yêu cầu này, chúng tôi đã phát triển một mô hình phân cấp nhằm biểu diễn đối tượng và một sơ đồ phân đoạn và theo vết kết hợp nhiều đặc trưng trực quan. Sơ đồ này bao gồm hai phần có quan hệ với nhau. Trước hết, chúng tôi phát triển một thuật toán tự động phân đoạn và theo vết vùng ảnh dựa vào sự kết hợp của màu săc, cạnh và chuyển động. Kết hợp với quá trình bù trừ chuyển động toàn cục, chúng tôi nhận thấy là sự tự động rút các vùng video có thể được dùng để phục hồi đối tượng video. Dựa trên phần đầu tiên chúng tôi phát triển một hệ thống tự động phân đoạn đối tượng video có nghĩa. Một đối tượng có nghĩa thường tương ứng với một đối tượng ở thế giới thực. Nhiều định nghĩa đối tượng có nghĩa được đưa ra bởi người dùng hoặc dựa trên một số tri thức đặc thù. Các đối tượng này được mô hình hóa như một cấu trúc nhiều mức và bao gồm tập các vùng với các đặc trưng kết hợp. Một phương pháp gom nhóm và ánh xạmới được phát triển để thu được các đối tượng có nghĩa từ các vùng ảnh đã được tự động theo vết. Sự phục hồi đối tượng tại các mức vùng và ngữ nghĩa cho ta nhiều đặc trưng dồi dào và mềm dẻo nhất để mô tả nội dung video trong nhiều ứng dụng liên quan. II) Phát hiện và bù chuyển động các đối tượng trong chuỗi video. (Motion Compensation: bù chuyển động) 1.Giới thiệu chung Chúng ta biết rằng sự khác nhau giữa các ảnh liên tiếp trong film (movie) rất nhỏ vì nó là kết quả của chuyển động của camera quay hoặc giữa hai ảnh, đặc tính này được khai thác để làm tốt hơn cho việc nén ảnh. Nếu bộ mã hóa phát hiện ra rằng phần P của ảnh trước đó chuyển đến vị trí khác trong ảnh hiện thời, thì P có thể nén bằng cách ghi tiếp theo 3 trường (item) vào dòng nén, vị trí trước của nó, vị trí hiện thời và thông tin để xác định các biên của P. Phần sau chúng ta sẽ nói đến bù chuyển động dựa vào(Manning 98) Về nguyên tắc một phần có thể có mẫu bất kỳ. Trong thực tế chúng ta giới hạn các khối có kích thước như nhau (có thể hình vuông, chữ nhật), bộ mã hóa sẽ 2 scan lần lượt các khối trên ảnh hiện thời. Với mỗi khối B nó đi tìm trên ảnh trước đó khối C giống hệt (nếu nén không mất thông tin) hoặc gần giống(nếu nén có mất dữ liệu). Phát hiện ra khối như thế, bộ mã hóa sẽ viết vào dòng ra sự sai khác giá trị vị trí hiện thời và vị trí đã gặp trước đó. Sự sai khác này cho ở dạng (Cx − Bx, Cy − By) = (Δx,Δy).Nó được gọi là vectơ dịch chuyển. Hình dưới đây là ví dụ. Trong hình này mặt trời và các cây di chuyển về bên phải(do camera chuyển động), trong khi đó cậu bé di chuyển một khoảng cách khác về bên trái. (đó là cảnh chuyển động) Bù chuyển động rất hiệu quả nếu object dịch chuyển nhưng không thay đổi tỷ lệ hoặc không quay. Sự thay đổi nhanh cường độ sáng(illuminate) từ ảnh này sang ảnh khác cũng làm giảm hiệu quả của phương pháp này. Nói chung bù chuyển động cũng là kỹ thuật nén làm mất dữ liệu. 2. Đặt vấn đề Vấn đề phát hiện và bù chuyển động trong chuỗi Video tự nhiên, bao gồm cả các hình ảnh tĩnh đã được nghiên cứu và đưa vào áp dụng từ rất lâu. Vậy thế nào là phát hiện 3 và bù chuyển động trong chuỗi nguồn Video? Trước đây, việc này chỉ nhằm mục đích diễn tả một cảnh Video rằng nó đang đứng yên hay chuyển động trong một định dạng để cho phép truyền dẫn hoặc lưu trữ trong bộ nhớ. Do dung lượng của bộ nhớ và độ rộng băng tần truyền dẫn là giới hạn, nên mục đích chính và cơ bản nhất của việc mã hoá tín hiệu Video trong một khoảng thời gian dài là vấn đề nén tín hiệu. Trong bối cảnh như vậy, mục đích chính của việc phát hiện và bù chuyển động trong nội dung Video là biểu diễn các tín hiệu Video bằng một số dữ liệu nhất định có thể với một chất lượng xác định hoặc nói cách khác là đạt được chất lượng hình ảnh tốt nhất với một tỷ lệ bit xác định. Nói chung việc đánh chỉ số tự động dựa trên nội dung ngữ nghĩa của dữ liệu video luôn là vấn đề thời sự. Trong quá trình chỉ số hoá dữ liệu video, bước quan trọng đầu tiên là phân đoạn dữ liệu video theo thời gian. Bước này nhằm mục đích phân chia dòng video liên tục thành các đơn vị cơ sở có ý nghĩa là các lia (shot) hoặc các cảnh (scene). Phân đoạn video thực chất là phát hiện trong một chuỗi (sequence) videoranh giới giữa các lia hoặc các cảnh. Hiện nay, kỹthuật phát hiện cắt lia đã đạt được các kết quả khá tốt và hầu như được tự động hoá hoàn toàn. Ngược lại, kỹthuật phát hiện các chuyển lia từ từ(chuyển lia phức tạp) vẫn gặp rất nhiều khó khăn. Nguyên nhân chính là do khó có thểphân biệt chính xác những thay đổi nội dung hình ảnh trong các khung (frame) liền kề dochuyển lia và do chuyển động của camera và các đối tượng gây ra. Trong thực tế các chuyển lia từ từ luôn được sử dụng để nhấn mạnh sự thay đổi nội dung ngữnghĩa trong dòng video. Vì thế việc phát hiện các chuyển lia từ từ có một ý nghĩa quan trọng trong việc phát hiện ranh giới các cảnh. Và nó là vấn đề then chốt trong quá trình chỉ số hoá tự động dựa trên nội dung ngữ nghĩa video. Thực tế, đây là một trong những dạng chuyển lia khó phát hiện nhất và đang được quan tâm nghiên cứu. Nguyên nhân chính dẫn đến các sai sót trong phát hiện chuyển lia từ từ là vấn đề phân biệt giữa những thay đổi nội dung hình ảnh trong các khung liền kề do chuyển lia với những thay đổi do chuyển động của camera và đối tượng. Kỹ thuật đề xuất ở đây dựa trên việc đo sự sai lệch nội dung hình ảnh của các khung ở cách xa nhaumột khoảng (không phải là các khung liền kề) và sửdụng ước lượng chuyển động nhờ đánh dấu những vùng cần thiết trong khung video. 3. Bù chuyển động trong chuẩn nén MPEG Trong tất cả các trường hợp, khi một ảnh mã hoá dùng khung tham khảo thì luôn dùng kỹ thuật bù chuyển động để nâng cao hiệu suất nén. Sau đây, chúng ta sẽ đề cập đến phương pháp bù chuyển động. Các phương pháp bù chuyển động: có hai cách là bù chuyển động ước đoán và nội suy. Phương pháp ước đoán bù chuyển động giả thiết ảnh hiện tại là một phép biến đổi từ ảnh trước đó, nghĩa là biên độ và hướng dịch chuyển không cần thiết phải giống ảnh trước đó. Phương pháp nội suy bù chuyển động là kỹ thuật nhiều độ phân giải: chỉ mã 4 hoá một tín hiệu phụ với độ phân giải thấp (khoảng 1/2 đến 1/3 tốc độ khung). Ảnh có độ phân giải đầy đủ sẽ được xây dựng lại qua nội suy ảnh có độ phân giải thấp cộng thêm thành phần sửa sai. Đơn vị xử lý ảnh mà MPEG sử dụng là macroblock (MB) 16 × 16 điểm ảnh. Trong ảnh mã hoá nội suy, các MB có thể là loại nén trong khung hay nén liên khung. Trong kỹ thuật ước đoán chuyển động, nếu sử dụng kỹ thuật so sánh khối (BMA- BlockMatchingAlgorithm)thì sẽ thu được các vectơ chuyển động theo tiêu chí tối thiểu hoá sai số giữa khối cần tìm vectơ chuyển động và mỗi khối ứng cử. Hình 3-6 Các vectơ thu được trong kỹ thuật so sánh khối 4.Kỹ thuật bù chuyển động trong MPEG-4. 4.1. Giới thiệu chung về MPEG – 4: Tiêu chuẩn MPEG-4 về hình ảnh [MPEG4-2] bao gồm một số các công cụ dùng để mã hoá các hình ảnh tự nhiên như chuỗi các ảnh liên tục (Video) cũng như các ảnh tĩnh (Visual texture- cấu trúc nghe nhìn). Ở đây, việc mã hoá Video được dựa trên cơ sở của sơ đồ mã hoá DCT lai có bù chuyển động, còn mã hoá cấu trúc nghe nhìn (Visual texture) - VTC thì dựa trên cơ sở chuyển đổi Wavelet và mã hoá cây Zero. Mã hoá MPEG-4 ngoài việc quan tâm đến các hiệu quả mã hoá giống như các tiêu chuẩn mã hoá trước đây còn bổ sung thêm một số công cụ cho các chức năng khác như: mã hoá các đối tượng có hình dạng bất kỳ; nén hiệu quả của các tín hiệu Video liên tục 5 và hình ảnh tĩnh trên một phạm vi rộng của tỷ lệ bit; phân cấp về không gian, thời gian và chất lượng; và cuối cùng là khả năng truyền dẫn tốt trong môi trường truyền dẫn khắc nghiệt. Những tính năng tiên tiến này đã trợ giúp đắc lực cho việc sáng tạo ra những hình ảnh Video độc đáo cũng như các ứng dụng phức tạp của truyền thông đa phương tiện. Đặc biệt, khả năng để mã hoá các đối tượng có hình dạng và kích thước bất kỳ trở nên vượt trội hẳn so với các tiêu chuẩn mã hoá hình ảnh trước đây. Nó cho phép tạo ra những hình ảnh vựơt ra khỏi giới hạn của phương pháp mã hoá dựa trên nguyên tắc khuôn hình gốc quen thuộc trước đây và thực sự mở ra một cơ hội mới cho những ứng dụng trong tương lai gần. Khả năng nén hiệu quả hình ảnh tĩnh và động với một khoảng tỉ lệ bit rộng bằng các công cụ mã hoá dựa trên nội dung đối tượng của MPEG-4 cho phép nhận được những phần hình ảnh có chất lượng tốt nhất gần như không bị tổn hao trên nền của phép nén có tổn hao với một tỷ lệ bit yêu cầu trước được quy định bởi từng ứng dụng cụ thể. Vấn đề mã hoá phân cấp chất lượng đặc biệt được quan tâm cho các ứng dụng khác nhau. Đối với thông tin di động, một hệ thống truyền dẫn phân cấp có thể được sử dụng, trong đó lớp tín hiệu cơ sở được bảo vệ đặc biệt để chống lại các sai số gây ra do kênh truyền dẫn bằng cách áp dụng những mã sửa sai hiệu quả đối với dòng bit tín hiệu cơ sở. Đối với các ứng dụng Video server, mã phân cấp cho phép người sử dụng truy cập tín hiệu Video với các tốc độ bit khác nhau mà không cần nhiều kiểu mã hoá cũng như nhiều bộ nhớ các dòng bit Video riêng rẽ với độ phân giải hay cấp chất lượng khác nhau. Để có thể truyền dẫn trên một mạng hữu tuyến cũng như vô tuyến có nhiều khả năng gây ra sai sót, MPEG-4 đã đưa ra công cụ mã hoá co giãn sai số (Error-resilience coding tool). Tuỳ thuộc vào kênh truyền dẫn, bộ công cụ này có thể thay thế hoặc bổ sung thêm mã hoá kênh để cải thiện chất lượng dịch vụ (QoS). Điểm cuối cùng cần nhắc tới là mã hoá nội dung Video MPEG-4 (VTC) cung cấp một công cụ hiệu quả cho việc nén các tín hiệu hình ảnh tĩnh, dựa trên biến đổi Wavelet và mã hoá cây Zero (Zero – tree coding). Nó có thể kết hợp với các công cụ mã hoá hình khối MPEG-4 và nhờ đó nó có những tính năng như các công cụ mã hoá Video khác. Sự kết hợp giữa VTC và các công cụ mã hoá Video tự nhiên cho phép mã hoá cả hai trường hợp ảnh tĩnh và ảnh động và nhờ đó mà MPEG-4 được xác nhận như một tiêu chuẩn độc lập. Trong khuôn khổ bài viết này chúng tôi chỉ phân tích riêng về kỹ thuật bù chuyển động áp dụng trong MPEG-4. 6 Trong mã hoá Video MPEG-4 có hai phần chính: Mã hoá đối tượng Video hình vuông (Rectangular video object) và mã hoá đối tượng Video có hình dạng bất kỳ (Arbitrarily shaped object). Kỹ thuật bù chuyển động áp dụng cho hai phần này cũng khác nhau. Sau đây chúng ta sẽ lần lượt nghiên cứu kỹ thuật bù chuyển động của từng phần. 4.2. Kỹ thuật bù chuyển động của mã hoá đối tượng Video hình vuông trong MPEG-4: Về mặt nguyên lý, một đối tượng Video hình vuông có nguồn gốc từ một ảnh (Frame) được sử dụng quen thuộc trong các tiêu chuẩn nén Video trước đây như MPEG- 1, MPEG-2, H.261 và H.263. Do vậy, về mặt nguyên lý, mã hoá Video hình vuông trong MPEG-4 cũng giống như của các tiêu chuẩn nén trước đây - Đó là mã hoá lai trên cơ sở bù chuyển động khối. Tuy nhiên, có một số phát triển được giới thiệu bởi các công cụ mới hoặc một số thuật toán cải tiến. Phần trình bày dưới đây sẽ miêu tả tóm tắt về thuật toán mã hoá rễ cây (root coding algorithm) và chuyên sâu về bộ công cụ mới và các thuật toán được sử dụng trong MPEG-4 Visual [MPEG4-2]. 4.2.1. Tổng quan. Với mã hoá đối tượng Video hình vuông, chỉ có phần chuyển động và những thông tin về cấu trúc được truyền tới bộ giải mã. Thông tin về hình khối (Shape information) không được truyền và do vậy không cần thiết phải có bộ mã hoá và giải mã hình khối. Bộ mã hoá của MPEG-4 dựa trên cơ sở của giải pháp mã hoá lai trên cơ sở bù chuyển động khối có sơ đồ khối như hình 2.1 7 Hình 2.1 chỉ ra sơ đồ khối của quá trình giải mã Video MPEG-4. Do trong mã hoá đối tượng Video hình vuông không yêu cầu thông tin về hình khối nên các khối trong hình vẽ 2.1 tương ứng với các chức năng về hình khối được biểu diễn bằng các đường đứt nét. Các khối còn lại của sơ đồ khối này dành để giải mã và bù chuyển động cho phần cấu trúc. So với các giải pháp mã hoá lai trên cơ sở hình khối khác đã biết, ta thấy toàn bộ các khối trong sơ đồ khối này đều được cải tiến bằng các công cụ hoặc các thuật toán mới. Vì nguyên lý của mã hoá lai trên cơ sở hình khối đã tương đối quen thuộc nên ở đây chúng tôi chỉ có một số miêu tả hết sức ngắn gọn về kỹ thuật mã hoá này. Mỗi một hình ảnh của chuỗi Video được coi như một Video Object Plane (VOP) hình vuông và việc mã hoá mỗi một VOP được biểu diễn theo hình khối, nghĩa là mỗi VOP được phân chia thành các Macroblock (MB) có kích thước 16x16 cho tín hiệu chói và tín hiệu màu tương ứng tuỳ thuộc vào tỷ lệ lấy mẫu cụ thể (4:2:2; 4:2:0; 4:1:1 ) Có hai kiểu mã hoá: Intra mode: Các giá trị chói (Y) và màu (U,V) của mỗi MB được mã hoá hoàn toàn độc lập với các VOP tiếp theo; Inter mode: Các giá trị chói và màu của các MB khác nhau có mối liên hệ với các giá trị trước hoặc sau của các VOP được mã hoá. 8 Ưu điểm của Inter mode là nhìn chung các hình ảnh của chuỗi Video không thay đổi toàn bộ giữa hai hình ảnh liên tiếp (hoặc giữa các VOP trong khái niệm MPEG-4). Do vậy, không phải truyền tới bộ giải mã toàn bộ hình ảnh mà chỉ là một phần rất nhỏ sự khác nhau giữa hình ảnh trước đó với hình ảnh tiếp theo (hoặc là sự kết hợp giữa chúng), phần này được gọi là ảnh tham chiếu (Reference image). Bộ giải mã hiểu được phần ảnh tham chiếu nên có thể tái tạo được hình ảnh hiện tại bằng cách cộng với tín hiệu phần khác nhau nhận được. Nguyên lý này còn được nhắc đến như là mã hoá dự đoán, trong đó bộ mã hoá trước tiên tính toán các giá trị dự đoán và sau đó truyền đi chỉ phần sai số dự đoán. Trong mã hoá lai bù chuyển động trên cơ sở hình khối, phần dự đoán này được cộng vào chuyển động của khuôn hình capture và do vậy được gọi là dự đoán bù chuyển động. Thông tin chuyển động được tính toán và mã hoá như một thông tin phụ, tại bộ giải mã sẽ tiến hành tách bỏ phần dự báo bù chuyển động này khỏi tín hiệu. Tuỳ thuộc vào loại thuật toán mà thông tin chuyển động này được biểu diễn khác nhau. Trong MPEG-4, hai loại chuyển động được định nghĩa cho mức MB là: 1MV mode: Một vec tơ chuyển động (MV) được truyền cho một Macroblock (MB) 4MV mode: một Macroblock (MB) được chia ra làm bốn khối 8x8 và mỗi một MV được truyền cho một khối này và do vậy có 4 MV cho một MB hoàn chỉnh. Một VOP có thể được mã hoá bằng một trong hai loại dự đoán: Đối với các VOP dự đoán (P-VOP), hình ảnh tham chiếu là một trong hai VOP mã hoá trong (Intra coded - I-VOP) hoặc P-VOP được giải mã trước đó, trong khi đối với các VOP dự báo hai chiều (B-VOP) có thể sử dụng cả hai loại I-VOP và P-VOP cho việc dự báo. Việc tính toán thông tin chuyển động nhờ vào phép ước lượng chuyển động. Bởi vì vấn đề tính toán chuyển động được thực hiện bằng bộ mã hoá do vậy bản thân tiêu chuẩn không yêu cầu chỉ rõ cách thực hiện như thế nào, vì lẽ đó nó có thể được thực hiện bằng nhiều cách khác nhau nhưng đều phải thoả mãn điều kiện không được ảnh hưởng đến tính liên hoạt (Interoperability). Đối với mã hoá cấu trúc (thông tin chói và thông tin màu) vẫn sử dụng cùng một loại thuật toán cho các loại Intra mode và Inter mode. Điểm khác nhau là trong Intra mode, giá trị chính xác của cấu trúc được mã hoá, trong khi Inter mode giá trị mã hoá là sai số dự đoán. Mã hoá cấu trúc dựa trên cơ sở 2D 8x8 DCT với lượng tử hoá và mã hoá Entropy các hệ số chuyển đổi. 9 4.2.2. Những công cụ bù chuyển động mới. Hơn nữa, mã hoá dự đoán còn được dùng cho một số hệ số chuyển đổi được nhắc đến như là dự đoán AC/DC. Phần này đề cập đến những cải tiến nâng cấp của các công cụ và thuật toán áp dụng cho mã hoá lai bù chuyển động trên cơ sở hình khối được giới thiệu bởi tiêu chuẩn MPEG-4 Visual (MPEG4-2). Trước tiên là những phân tích về cấu trúc dự đoán thời gian, sau đó là trình bày về những công cụ và thuật toán: Bù chuyển động một phần tư pixel (Quarter-pel motion-compensation): Thuật toán bù chuyển động sử dụng các MV với giải pháp tăng độ phân giải của một phần tư pixel thay vì độ phân giải chỉ một nửa hoặc cả một pixel như các tiêu chuẩn trước đây như H.261, H.262, MPEG-1 Video và MPEG-2 Video. Điều này cho phép cải thiện đáng kể khả năng dự đoán và giảm thiểu sai số dự đoán. Bù chuyển động toàn phần (Global motion compensation): Một tập hợp các thông số được mã hoá cho một VOP hoàn chỉnh biểu diễn bằng chuyển động toàn phần VOP. Các thông số này có thể được sử dụng luân phiên cho các MV của MB để bù chuyển động. Công cụ này là đặc biệt quan trọng đối với chuỗi chuyển động toàn phần (ví dụ hình ảnh thu được từ một Camera chuyển động) và với chuyển động không tịnh tiến như Zoom hoặc quay Camera. Mode trực tiếp trong dự đoán hai chiều: Đây là cải tiến của dự đoán bù chuyển động hai chiều có sử dụng các MV của các P-VOP lân cận nhằm giảm tốc độ bit yêu cầu cho mã hoá các MV của B-VOP. Nó là sự tổng quát hoá các khung hình PB (PB frame) đã được giới thiệu trong tiêu chuẩn H.263. 4.2.3. Cấu trúc dự đoán thời gian. Để hiểu rõ về thuật toán và thuật ngữ bù chuyển động, ta cần làm rõ khái niệm cấu trúc dự đoán thời gian. Một I-VOP không tham khảo bất kỳ một VOP nào khác (không có VOP tham chiếu), nó được mã hoá hoàn toàn theo kiểu Intra mode. Trong khi đó, các P-VOP được gọi là tham chiếu trước, chúng được xác định khi hầu hết các I-VOP hoặc P-VOP của thông tin đã được truyền dẫn vừa mơí được giải mã. Cuối cùng, các B-VOP có thể là phần tham chiếu trước, cũng có thể là phần tham chiếu sau, chúng được xác định tiếp theo khi hầu hết các I-VOP hoặc P-VOP vừa mơí được giải mã. Trong trường hợp không có thông tin đã được truyền trước đó để làm tham chiếu sau thì chỉ có phần tham chiếu trước sử dụng bởi dự đoán của B-VOP. 4.2.4. Bù chuyển động một phần tư. 10 [...]... không được miêu tả một cách chính xác bằng các bước của một pixel, sự hạn chế về độ phân giải này dẫn đến sai số trong dự đoán bù chuyển động và làm tăng sai số dự đoán Các thuật toán bù chuyển động ra đời sau này đã tăng độ phân giải thành một nửa pixel và nhờ vậy các thành phần của các MV có thể lấy giá trị một nửa hoặc cả một pixel Đây là trường hợp của MPEG-1 Video, MPEG-2 Video và H.263; công cụ này... thị (nghĩa là không có bù chuyển động hai chiều được thực hiện) Trong MPEG-4, các VOP có hình dạng ngoài bất kỳ được sử lý và mã hoá theo hình khối và sử dụng ba dạng khác nhau của các Macroblock có sẵn là: Trong suốt, mờ và đường biên Đối với các MB trong suốt, chỉ có các thông tin về hình dạng ngòai được truyền đi Các MB mờ được mã hoá như các VOP hình chữ nhật Còn đối với các MB đường biên sẽ được... tại, còn các hình vuông có nét mảnh hơn biểu thị các khối 8x8 của Macro hiện tại và một vài các khối 8x8 của các Macroblock liền kề Như hình vẽ chỉ ra, các MV của các khối 8x8 liền kề luôn luôn sử dụng các đối tượng dự đoán; Trong trường hợp các MB liền kề ở trạng thái 1MV mode, thì các MV của các khối 8x8 tương ứng được thiết lập giống như MV của Macroblock Với trường hợp 4MV mode thì các đối tượng dự... mode mã hoá Intra và một mode mã hoá Inter sử dụng bù chuyển động; không giống như mã hoá cấu trúc ngoài bắt buộc phải sử dụng cùng một loại mode (hoặc là Inter mode hoặc là Intra mode) cho toàn bộ các MB của một VOP Bù chuyển động hình dạng ngoài sử dụng các MV độc lập với các MV kết cấu mặt ngoài Tuy nhiên, bù chuyển động hình dạng ngoài được thực hiện cũng giống như với bù chuyển động kết cấu mặt... đoán chuyển động Để dự đoán bù chuyển động, các MV được sử dụng bắt buộc phải có khả năng giải mã Bởi vì, một cách tổng quát, các MV của các khối liền kề là gần giống nhau, mã hóa dự đoán được sử dụng để giảm thiểu tỷ lệ bit về thông tin chuyển động Việc mã hoá MV dự đoán này được thực hiện theo khuyến cáo ITU-T H.263 Trong MPEG-4 Video, một số quy tắc đặc biệt được áp dụng đối với trường hợp các VOP... nhiên, các thông số chuyển động toàn phần không thể luôn thích hợp cho một VOP hoàn chỉnh Một cách tổng quát chúng cho phép dự đoán tốt cho một vùng xác định của VOP, trong khi với vùng khác dự đoán có thể dẫn đến những sai số đáng kể Vì lẽ đó, trong MPEG-4, bù chuyển động toàn phần (GMC) được áp dụng một cách luân phiên cho bù chuyển động cục bộ Khi GMC được sử dụng thì các thông số chuyển động toàn... hợp đặc biệt có thể xuất hiện gần đường biên của một VOP hoặc nếu các gói Video (Video packet) được sử dụng Đối với các trường hợp này sẽ phải kèm thêm các quy tắc sau: • Nếu một đối tượng dự đoán nằm ngoài VOP hiện tại hoặc nằm ngoài gói Video hiện tại, thì nó sẽ được phân loại là không có giá trị; ngược lại chúng được đặt bằng véc tơ của khối tương ứng • Nếu một và chỉ một đối tượng dự đoán là không... Y10 và Y11 biểu diễn các giá trị mẫu từ VOP tham chiếu và 13 Y biểu diễn giá trị dự đoán yêu cầu định vị tại một vị trí, như chỉ ra trên hình vẽ 2.8, phép nội suy được thực hiện như sau: Y= (N-n)/N.(M-m)/M Y00 + (N-n)/N m/M Y01+n/N.(M-m)/M Y10 + n/N.m/M Y11 4.2.6 .Bù chuyển động trong mã hoá đối tượng Video có hình dạng bất kỳ Mỗi một VOP của một đối tượng Video có hình dạng bất kỳ được đặc trưng bởi các. . .Các MV được sử dụng cho dự đoán bù chuyển động bắt buộc phải được truyền tới bộ giải mã Tuy nhiên, độ phân giải của các MV phải được giới hạn bởi một con số xác định Trong các thuật toán bù chuyển động trước đây như H.261, chỉ sử dụng loại cả một pixel nên các thành phần của MV bị giới hạn bởi một số nguyên Bởi vì nhìn chung, chuyển động thực giữa hai hình ảnh liên tiếp của chuỗi thường... xử lý đệm Trong quá trình xử lý này, toàn bộ các pixel trong suốt của VOP tham chiếu được quy về giá trị kết cấu ngoài mà được trích từ các pixel không trong suốt trong cùng một VOP Đối với các MB đường biên và các MB trong suốt, một thuật toán đệm khác được áp dụng Thuật toán đệm này được chuẩn hoá để đảm bảo rằng mỗi bộ giải mã tạo ra các VOP tham chiếu chính xác Trước tiên các Pixel Alpha trong suốt . giải thấp cộng thêm thành phần sửa sai. Đơn vị xử lý ảnh mà MPEG sử dụng là macroblock (MB) 16 × 16 điểm ảnh. Trong ảnh mã hoá nội suy, các MB có thể là loại nén trong khung hay nén liên khung ảnh (Frame) được sử dụng quen thuộc trong các tiêu chuẩn nén Video trước đây như MPEG- 1, MPEG-2, H. 261 và H. 263 . Do vậy, về mặt nguyên lý, mã hoá Video hình vuông trong MPEG-4 cũng giống như của các tiêu. diễn theo hình khối, nghĩa là mỗi VOP được phân chia thành các Macroblock (MB) có kích thước 16x 16 cho tín hiệu chói và tín hiệu màu tương ứng tuỳ thuộc vào tỷ lệ lấy mẫu cụ thể (4:2:2; 4:2:0;