CƠ SỞ LÝ THUYẾT CỦA GIẢI THUẬT - Mã hóa video mở r- 123docz.net

Kỹ thuật tối ưu tỉ lệ méo (RDO) là kỹ thuật để lựa chọn ra một MB dựa vào tính toán giữa tốc độ và độ méo tín hiệu. Công thức chung như sau:

J = D + R (2) [5]

Giải thuật lựa chọn mode RDO cố gắng tìm ra một mode mà có giá trị J nhỏ nhất. Mối quan hệ giữa tốc độ và độ méo được điều khiển bởi tham số Lagrange . Với giá trị 

nhỏ thì để J nhỏ phải chú trọng giảm D, cho phép một tốc độ bit cao hơn. Ngược lại khi 

thì tốc độ yêu cầu phải giảm xuống và D có thể nhận giá trị cao hơn. lớn Lựa chọn một giá trị  tốt nhất là một vấn đề phức tạp. May mắn thay, kết quả thực nghiệm đã cho cung cấp một sự lựa chọn hiệu quả. Tính  dựa vào hệ số lượng tử QP

λ = 0.852(QP-12)/3 [5] Việc tính toán giá trị D dựa vào công thức sau:

Trong đó x, y là vị trí của mẫu trong block, b(x,y) là giá trị của mẫu gốc và b‘(x,y) là giá trị mẫu giải mã. Một giải thuật lựa chọn mode điển hình bao gồm các quá trình sau:

Ứng với mỗi MB, với mỗi mode mã hóa m thực hiện tính:

 Mã hóa MB sử dụng mode m và thực hiện tính giá trị R, số lượng các bit yêu cầu cho mã hóa MB đó.

 MB tái xây dựng và tính giá trị D, sự sai lệch giữa giá trị gốc và giá trị giải mã.

 Tính giá trị Jmsử dụng công thức (2) với giá trị  lựa chọn.

 Sau đó lựa chọn mode có giá trị Jm nhỏ nhất

Rõ ràng đây là một quá trình tính toán chuyên sâu với hàm trăm mode có thể kết hợp vì vậy mà cần mã hóa hàng trăm lần MB để tìm ra giá trị mode tốt nhất.

SVC tính toán giá trị Jm (RDcost) của tất cả các mode và mode có Rdcost nhỏ nhất như là mode tốt nhất. Kỹ thuật này đạt được hiệu quả mã hóa cao, nhưng chiếm thời gian mã hóa vô cùng lớn, nên hạn chế trong việc áp dụng vào thực tế. Sau khi nghiên cứu toàn diện tại lớp cơ sở, nhận thấy các lớp nâng cao có thể dự đoán từ lớp cở sở. Điều này làm giảm xuống một số lượng đáng kể các mode ứng viên tại lớp nâng cao.

A, Mở rộng được về chất lượng

Thực hiện test trên 2 chuỗi FOREMAN và FOOTBALL với bộ mã hóa JSVM 2.0 [4], với 100 frame và GOP size bằng 8. Thí nghiệm với 2 lớp CGS, giá trị QP tại lớp cơ sở và lớp nâng cao là 40 và 10. Kết quả thống kê với phân phối mode inter MB tại 2 lớp CGS chỉ ra trong bảng 4.1

Bảng 4.1 Phân tích thống kê của inter mode [4]

Từ bảng 4.1 chúng ta nhận thấy rằng phần trăm phân vùng mode Macro block đẹp (8x8, 4x4) tăng lên khi bước lượng tử hóa giảm. Điều này chỉ ra mối tương quan giữa lớp cơ sở và lớp nâng cao trong điều kiện mở rộng chất lượng.

B, Mở rộng được về thời gian

Với mã hóa liên frame, các MB được phân thành các phân vùng: phân vùng thô MODE_SKIP, MODE16x16, phân vùng đẹp MODE_8x8, INTRA_4x4. Số lượng phân vùng đẹp phụ thuộc vào khoảng cách thời gian của khung hiện tại và khung tham chiếu. Giả sử rằng khoảng cách giữa một cặp bù chuyển động là di và phần trăm phân vùng đẹp của MB là i . Mối quan hệ giữa I và di được đưa ra như sau:

Hình 4.1 Phần trăm phân vùng mode đẹp cho chuỗi video Mobile [4]

Thí nghiệm với 2 chuỗi video như hình 4.1 Cho thấy:

Hàm f là tăng lên theo biến di, khi QP được cố định, chuyển động chậm, frame phân cấp B được tạo ra với khoảng cách lớn. Mối tương quan thời gian giữa frame hiện tại và frame tham chiếu nhỏ, nên phần trăm của phân vùng mode đẹp cao. Vì vậy trong mở rộng thời gian, phân vùng Mb chuyển động chậm đẹp hơn Mb tương ứng tại lớp cao hơn. Điều này chỉ ra mối tương quan tồn tại giữa lớp cơ sở và lớp nâng cao trong mở rộng thời gian.

C, Mở rộng được về không gian

Xem xét mã hóa với nhiều độ phân giải (QCIF, CIF, 4CIF). Trong đó lớp cơ sở là lớp có độ phân giải bằng ½ ảnh gốc. Theo kỹ thuật dự đoán inter-layer, việc dự đoán Mb là inter hay intra sử dụng tín hiệu tương ứng tại lớp trước. Trong hầu hết các trường hợp các MB tăng mẫu tại lớp nâng cao có xu hướng có cùng phân vùng mode. Vì vậy mà kế hoạch đề ra, sử dụng các mode tại lớp cơ sở cho dự đoán mode tương ứng tại lớp nâng cao.