H264 có rất nhiều chế độ mã hóa (9 chế độ cho mã hóa intra 4x4, bốn chế độ cho
mã hóa intra 16x16 và 7 chế độ cho mã hóa inter). Mỗi MB cũng có thể được phân
mảnh thành các block và sublock để có thể tìm ra chế độ tối ưu. Để xác định chế độ tốt nhất (quá trình RDO) thì một hàm giá được đưa vào chứa cả biến của tổn hao (D) và tốc độ (R). Trong quá trình đó mỗi MB khi được mã hóa cần phải sử dụng 1 giá trị QP
nhất định để ước lượng giá của các mode theo phương trình
trong đó là số nhân lagrange. Giá trị tối ưu của
là một hàm mũ theo QP. Trước tiên H264 thực hiện ước lượng chuyển động cho
các block 16x16, 16x8, 8x16, 8x8 của một MB sau đó thực hiện tối ưu để chọn ra giá
nhỏ nhất đối với các mode. Trong trường hợp các block 8x8 H264 lại tính tiếp cho các block nhỏ 4x4, 4x8, 8x4 để tìm tiếp các khả năng còn lại. Như vậy có một mâu thuẫn trong H264 là quá trình điều khiển tốc độ cần có thông tin về độ phức tạp của khung để cấp phát bit và đưa ra giá trị QP hợp lý cho các khung, các MB trong khi độ phức tạp của khung chỉ có khi thực hiện xong RDO (khi đó mới biết chính xác mode nào được sử dụng) đồng thời để thực hiện được RDO thì phải cấp phát một giá trị QP trước. Mâu thuẫn này làm cho việc điều khiển tốc độ trong H264 trở nên khó khăn bởi nó gây ra câu chuyện “quả trứng có trước và hay con gà có trước”. Câu chuyện này cho thấy ta không thể truy cập trực tiếp các đặc tính mã hoá trong H264 cho nên ta không thể biết được các đặc tính mã hoá của mỗi MB vì thế ta không thể cấp phát bit cho phù hợp với
các khung. Để giải quết vấn đề này hoặc là ta phải lặp đi lặp lại quá trình mã hoá và
giải mã để tìm được giá trị tối ưu (điều khiển tốc độ multipass) hoặc là ta phải sử dụng
các mô hình toán học để ước lượng các đặc tính của mã hoá. Do việc thực hiện
multipass tạo ra độ phức tạp tính toán cao đồng thời gây ra trễ mã hoá lớn, không phù hợp với các ứng dụng truyền thời gian thực. Chính vì vậy luận văn này lựa chọn sử dụng các mô hình toán học để ước lượng các đặc tính mã hoá cho việc cấp phát bit cho các khung, MB.
Mai Gia Hà Page 78 Lý thuết mô hình cho các bộ mã hoá xuất phát từ các định lý của Shannon và lý thuyết thống kê của nguồn được thể hiện như sau:
Trong đặc điểm nguồn video thì ở các ảnh có hoạt tính cao và khi có sự thay đổi
cảnh thì việc ước lượng các đặc tính mã hoá sẽ không còn chính xác nữa. Chính vì vậy trong giải pháp điều khiển tốc độ dựa trên mô hình toán học cần phải phát hiện ra các vấn đề trên để có điều chỉnh kịp thời. Với hầu hết các ứng dụng nghe nhìn hiện nay hoạt tính trong các cảnh đều không quá lớn giữa các ảnh đồng thời độ phức tạp trong các hoạt tính giữa các ảnh cũng không quá lớn do đó việc nghiên cứu kỹ phương pháp dự báo độ phức tạp với các trường hợp này trong luận văn này không đề cập do nó rất ít xảy ra. Khi đó nghiễm nhiên với những trường hợp đó sẽ là các điểm có thể gây ra đột biến và sẽ được điều khiển sau khi mã hoá bằng cách quyết định loại bỏ khung tiếp theo. Với trường hợp thay đổi cảnh trường hợp này thường xảy ra trong suốt quá trình mã hoá của ứng dụng và bắt buộc phải có biện pháp ứng xử để đảm bảo chất lượng của chuỗi video sau mã hoá. Rất may là các trường hợp thay đổi cảnh thường dễ dàng phát hiện bằng việc quan sát đặc tính mã hoá của khung trước đó (số lượng MB mã hoá kiểu Intra tăng đột biến), khi đó việc dự đoán MAD sẽ được thay đổi hợp lý cho các khung sau.
Băng thông của các ứng dụng được hướng tới trong luận văn này là hạn chế do đó việc điều khiển tốc độ phải quan sát rất chặt chẽ các biến động thay đổi khi thực hiện mã hoá các khung. Để đạt được điều đó luận văn tìm hướng giải quyết bằng cách thực hiện điều chỉnh cấp phát bit cho các khung có sự điều khiển của cả trạng thái bộ đệm và điều tiết việc cấp phát bit toàn cục bằng cách nắn số lượng bit cấp phát cho các khung xoay quanh giá trị trung bình theo tốc độ yêu cầu của đầu ra (tức là giá trị tốc độ bit chia cho tốc độ khung). Chi tiết việc điều khiển này sẽ được trình bày ở phần 3 của chương này.
Mai Gia Hà Page 79 Lý thuyết R-D cho thấy các biên (về mặt lý thuyết) khi thực hiện nén dữ liệu video, với 1 tốc độ mong muốn đầu ra bộ nén ta có thể tối ưu sao cho tổn thất là nhỏ nhất và ngược lại với 1 tổn thất được đưa ra ta có thể tối ưu sao cho tốc độ đầu ra nhỏ nhất. Để
thực hiện điều đó trong quá trình điều khiển tốc độ, luận văn này chọn giải pháp mô
hình quadratic như trong mô hình G2 của MPEG-4.