Đồ án này sẽ giới thiệu những kiến thức cơ bản về nén video vào một số công nghệ nén video tiên tiến đang được sử dụng và nghiên cứu đó là MPEG-4 H.264/AVC, HEVC/H.265 và đặc biệt chú tr
Trang 1Đồ án tốt nghiệp đại học
LỜI NÓI ĐẦU
Trong những năm gần đây, cùng với sự tiến bộ của khoa học kĩ thuật, sự pháttriển mạnh mẽ của công nghệ và truyền thông thì nhu cầu trao đổi các dịch vụ đaphương tiện trên mạng thông tin là rất lớn, và yêu cầu đòi hỏi của con người về chấtlượng dịch vụ cũng ngày càng cao, đặc biệt là với những dịch vụ âm thanh hình ảnh
Vì vậy vấn đề xử lý video sao cho có hiệu quả cao, đảm bảo tiết kiệm băng thôngtruyền dẫn, giảm bớt không gian lưu trữ để truyền tín hiệu đi một cách dễ dàng, nhanhchóng mà vẫn đảm bảo chất lượng trở nên vô cùng cấp thiết
Sau thời gian học tập và nghiên cứu tại trường, được sự dạy dỗ, chỉ bảo tận tình
của thầy cô giáo trong khoa Viễn Thông 1 - Học Viện Công Nghệ Bưu chính Viên
Thông em đã kết thúc khóa học và tích lũy cho mình một vốn kiến thức nhất định.
Được sự đồng ý của nhà trường và thầy cô giáo trong khoa em được giao đề tài đồ án
tốt nghiệp: “Nghiên cứu đánh giá hiệu năng của chuẩn nén HEVC/H.265 so với
MPEG-4 H.264/AVC” Đồ án này sẽ giới thiệu những kiến thức cơ bản về nén video
vào một số công nghệ nén video tiên tiến đang được sử dụng và nghiên cứu đó là
MPEG-4 H.264/AVC, HEVC/H.265 và đặc biệt chú trọng đến việc so sánh đánh giá
hiệu năng mã hóa hiệu quả của chuẩn nén HEVC/H.265 so với chuẩn nén trước nó.
Cấu trúc đồ án tốt nghiệp này được trình bày theo 3 chương:
Chương 1: Cơ sở nén video
Chương 2: Tìm hiểu hai chuẩn nén tiên tiến nhất hiện nay MPEG-4
Em xin chân thành cảm ơn cô giáo Lê Thanh Thủy và các thầy cô trong khoa
Viễn Thông 1 - Học Viện Công Nghệ Bưu Chính Viễn Thông đã dạy dỗ và tạo điều
kiện giúp đỡ cho em trong suốt thời gian em học tập tại trường
Hà Nội, tháng 11 năm 2014 Sinh viên thực hiện
Nguyễn Văn Dân
Trang 2Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc
MỤC LỤC LỜI NÓI ĐẦU I MỤC LỤC II DANH MỤC HÌNH VẼ IV DANH MỤC BẢNG BIỂU V
TỪ NGỮ VIẾT TẮT, KÍ HIỆU VI
CHƯƠNG 1: CƠ SỞ NÉN TÍN HIỆU VIDEO 1
1.1 SỰ CẦN THIẾT CỦA NÉN TÍN HIỆU 1
1.2 QUÁ TRÌNH SỐ HÓA TÍN HIỆU 1
1.2.1 Lấy mẫu 2
1.2.2 Lượng tử hóa 2
1.2.3 Mã hóa 3
1.3 TỐC ĐỘ BIT VÀ THÔNG LƯỢNG KÊNH TRUYỀN TÍN HIỆU SỐ 4
1.3.1 Tốc độ bít 4
1.3.2 Thông lượng kênh truyền 4
1.4 MÔ HÌNH NÉN TÍN HIỆU VIDEO CƠ BẢN 5
1.4.1 Nén tín hiệu video 5
1.4.2 Lượng tin trung bình entropy 6
1.5 PHÂN LOẠI CÁC KĨ THUẬT NÉN 6
1.6 QUÁ TRÌNH BIẾN ĐỔI TÍN HIỆU MÀU 7
1.7 CÁC TIÊU CHUẨN LẤY MẪU TÍN HIỆU VIDEO 8
1.8 CÁC TIÊU CHUẨN ĐÁNH GIÁ CHẤT LƯỢNG ẢNH NÉN 9
1.9 KẾT LUẬN CHƯƠNG 10
CHƯƠNG 2: TÌM HIỂU HAI CHUẨN NÉN TIÊN TIẾN NHẤT HIỆN NAY MPEG-4 H.264/AVC VÀ H265/HEVC 11
2.1 CHUẨN NÉN MPEG-4 H.264/AVC 11
2.1.1 Lịch sử phát triển của chuẩn nén MPEG-4 H.264/AVC 11
2.1.2 Những đặc điểm nổi bật của chuẩn nén MPEG-4 H.264/AVC 11
2.1.3 Nguyên lí hoạt động cơ bản của MPEG-4 H.264/AVC 13
2.1.1.1. S đ mã hóa ơ đồ mã hóa ồ án tốt nghiệp Đại học 13
2.1.1.2. S đ gi i mã ơ đồ mã hóa ồ án tốt nghiệp Đại học ải mã 14
2.2 CHUẨN NÉN HEVC/H.265 15
Trang 3Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc
2.2.2 Những đặc điểm cơ bản của chuẩn nén HEVC/H.265 15
2.2.3 Nguyên lí hoạt động cơ bản của chuẩn nén HEVC/H.265 17
2.3 SO SÁNH NHỮNG ĐẶC ĐIỂM CƠ BẢN CỦA MPEG-4 H264/AVC VÀ HEVC/H.265 18
2.4 KẾT LUẬN CHƯƠNG 18
CHƯƠNG 3: ĐÁNH GIÁ HIỆU NĂNG CỦA CHUẨN NÉN HEVC/H.265 SO VỚI MPEG4 H.264/AVC 19
3.1 ĐÁNH GIÁ, SO SÁNH TỐC ĐỘ BIT, ĐỘ MÉO TÍN HIỆU VÀ SỰ PHỨC TẠP CỦA HEVC/H.265 VÀ MPEG-4 H.264/AVC [5] 19
3.1.1 Quá trình thiết lập kiểm tra so sánh 19
3.1.1.1 T ng quan v b mã hóa HEVC MP ổng quan về bộ mã hóa HEVC MP ề bộ mã hóa HEVC MP ộ mã hóa HEVC MP 19
3.1.1.2 Thi t l p phân tích ết lập phân tích ập phân tích 22
3.1.2 So sánh RD của hai bộ mã hóa HM MP và JM HiP 27
3.1.3 Phân tích sự phức tạp của các bộ mã hóa 32
3.1.4 Tổng hợp kết quả 38
3.2 SO SÁNH CHẤT LƯỢNG CHỦ QUAN CỦA HEVC/H265 VÀ MPEG-4 H264/AVC DỰA VÀO THỐNG KÊ [7] 39
3.2.1 Mô tả quá trình so sánh kiểm tra 39
3.2.1.1 Cài đ t các đi u ki n ki m tra so sánh ặt các điều kiện kiểm tra so sánh ề bộ mã hóa HEVC MP ệp Đại học ểm tra so sánh .39
3.2.1.2 B mã ki m tra và đi u ki n mã hóa ộ mã hóa HEVC MP ểm tra so sánh ề bộ mã hóa HEVC MP ệp Đại học 40
3.2.2 Tổng hợp kết quả 40
3.3 ỨNG DỤNG CỦA HEVC/H.265 DO HIỆU SUẤT MÃ HÓA CAO ĐEM LẠI 42
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 43
TÀI LIỆU THAM KHẢO 44
Trang 4Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc
DANH MỤC HÌNH VẼ
Hình 1.1: Sơ đồ quá trình tạo tín hiệu số 3
Hình 1.2: Sơ đồ khối nén tín hiệu video cơ bản [1] 5
Hình 1.3: Quá trình chuyển đổi màu 7
Hình 2.1: Sơ đồ mã hóa MPEG-4 H.264/AVC [2] 13
Hình 2.2: Sơ đồ giải mã MPEG-4 H.264/AVC [2] 14
Hình 2.3: Chất lượng ảnh trước và sau khi sử dụng SAO 16
Hình 2.4: Sơ đồ khối của bộ mã hóa/ giải mã HEVC [4] 17
Hình 3.1: Hình ảnh được chia thành các CU với kích thước 2N×2N; Nϵ{4,8,16,32} 20
Hình 3.2: Vector chuyển động trong HEVC 20
Hình 3.3: Cấu trúc mã hóa ảnh của các cấu hình RA và LB (a) Cấu hình RA (b) cấu hình LB [5] 24
Hình 3.4: Xác định các điểm RDJM cần quan tâm từ đường cong RDJM 26
Hình 3.5: So sánh độ phức tạp trung bình giữa mã hóa HM MP và JM HiP (a) Chuỗi 1080p (b) Chuỗi WQVGA 37
Hình 3.6: So sánh độ phức tạp trung bình giữa giải mã HM MP và JM HiP (a) Chuỗi 1080p (b) Chuỗi WQVGA 37
Hình 3.7: Sự cải thiện tốc độ bit và không gian lưu trữ của HEVC so với MPEG-4 H.264/ AVC ……….38
Hình 3.8: Tiến trình thử nghiệm 39
Hình 3.9: Số điểm đánh giá trung bình cho các chuỗi kiểm tra theo tốc độ bit 40
Hình 3.10: Tỷ lệ giảm tốc độ bit theo đánh giá chất lượng chủ quan 41
DANH MỤC BẢNG BIỂU Bảng 2.1: So sánh đặc trưng cơ bản của MPEG-4 H.264/AVC và HEVC/H.265 18
Bảng 3.1: Những lựa chọn mã hóa chính của hai bộ mã hóa HM MP và JM HiP 23
Bảng 3.2: Các chuỗi video dùng trong quá trình kiểm tra 25
Bảng 3.3: Profile nền tảng cho quá trình phân tích sự phức tạp của bộ mã hóa 27
Bảng 3.4: Mối quan hệ của các cài đặt QP giữa HM 6.0 và JM 18.0 trong các điều kiện cụ thể 28
Bảng 3.5: Tỷ lệ giảm tốc độ bit của HM 6.0 so với JM 18.0 tại cùng giá trị PSNRAVG trong từng chuỗi video kiểm tra cụ thể 29
Bảng 3.6: Tỷ lệ giảm tốc độ bit của HM 6.0 so với JM 18.0 tại cùng giá trị PSNRY 31 Bảng 3.7: Tỷ lệ giảm tốc độ bit của HM 6.0 so với JM 18.0 theo độ phân giải trong từng
Trang 5Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc
Bảng 3.8: Phân bố tỷ lệ độ phức tạp của các giai đoạn mã hóa HM MP trong trường hợp tốt
nhất và xấu nhất 33
Bảng 3.9: Phân bố tỷ lệ độ phức tạp của các giai đoạn giải mã HM MP trong các trường hợp tốt nhất và xấu nhất 34
Bảng 3.10: Độ phức tạp trung bình đóng góp vào quá trình của các giai đoạn mã hóa 35
Bảng 3.11: Độ phức tạp trung bình đóng góp vào quá trình của các hàm mã hóa 35
Bảng 3.12: Độ phức tạp trung bình đóng góp vào quá trình của các giai đoạn giải mã 35
Bảng 3.13: Tóm tắt so sánh RDC của HEVC MP (HM 6.0) và AVC HIP (JM 18.0) 38
Bảng 3.14: Tỷ lệ giảm tốc độ bit trung bình của các chuỗi kiểm tra 41
Trang 6Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc
Trang 7Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc
Inter Prediction - Dự đoán trong ảnh 21, 22, 32, 33, 34, 35, 36 IQ
Inverse quantization - Giải lượng tử 22, 32, 33, 34, 35, 36 ISO
International Organization for Standardization – Tổ chức chuẩn quốc tế 11, 15 IT
Inverse transform - Biến đổi ngược 22, 32, 33, 34, 35, 36
Mean Opinion Score - Số điểm đánh giá trung bình 19, 40, 41 MPEG
Moving Picture Experts Group – Nhóm chuyên gia về ảnh động.i, ii, iii, iv, v, 11, 12, 13, 14, 15, 18, 19, 38, 39,
Trang 8Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
CHƯƠNG 1: CƠ SỞ NÉN TÍN HIỆU VIDEO 1.1 Sự cần thiết của nén tín hiệu
Một tín hiệu video số thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất nhiềukhó khăn trong việc lưu trữ và truyền đi trên băng thông kênh truyền hạn chế Vì vậy
để có thể tiết kiệm không gian lưu trữ và băng thông kênh truyền thì ta cần nén tínhiệu
Quá trình nén ảnh thực hiện được là do thông tin trong bức ảnh có tổ chức, có trật
tự, vì vậy nếu xem xét kỹ cấu trúc của ảnh ta sẽ phát hiện và loại bỏ được các thông tin
dư thừa, chỉ giữa lại các thông tin quan trọng nhằm giảm số lượng bit khi lưu trữ cũngnhư khi truyền mà vẫn đảm bảo tính trung thực, thẩm mỹ của bức ảnh Tại phía thu, bộgiải mã sẽ tổ chức, sắp xếp lại được bức ảnh gần chính xác so với ảnh gốc và đảm bảothông tin cần thiết Tín hiệu video thường chứa một lượng lớn các thông tin dư thừa,chúng thường được chia thành 5 loại:
Sự dư thừa thông tin về thời gian: giữa các điểm ảnh của các khung video trongchuỗi ảnh video, còn gọi là thừa động giữa các khung
Sự dư thừa thông tin về không gian: giữa các điểm ảnh lân cận trong phạm vimột bức ảnh hay một khung video, còn gọi là thừa tĩnh bên trong từng khung
Sự dư thừa thông tin về phổ: giữa các mẫu của các dữ liệu thu được từ các bộcảm biến trong thiết bị như camera, máy quay…
Sự dư thừa do thống kê: do bản thân của các ký hiệu xuất hiện trong dòng bitvới các xác suất xuất hiện không đều
Sự dư thừa tâm thị giác: thông tin không phù hợp với hệ thống thị giác conngười, những tần số quá cao so với cảm nhận của mắt người
Ưu điểm của việc nén tín hiệu đem lại:
Tiết kiệm băng thông kênh truyền (trong thời gian thực hoặc nhanh hơn)
Kéo dài thời giản sử dụng của thiết bị lưu trữ, giảm chi phí đầu tư cho thiết bịlưu trữ
Giảm dung lượng thông tin mà không làm mất tính trung thực của hình ảnh
Có rất nhiều phương pháp nén tín hiệu, nhưng phương pháp nén bằng cách số hóa tínhiệu vẫn tỏ ra hữu hiệu nhất, một mặt nó có thể làm giảm lượng thông tin không quantrọng một cách đáng kể, mặt khác nó còn rất hữu ích trong việc bảo mật tín hiệu
1.2 Quá trình số hóa tín hiệu
Quá trình số hóa tín hiệu tương tự, bao gồm quá trình lọc trước (prefiltering), lấy
mẫu, lượng tử và mã hóa minh họa như Hình 1.1 Quá trình lọc trước nhằm loại bỏ
các tần số không cần thiết ở tín hiệu cũng như nhiễu, bộ lọc này còn gọi là bộ lọcchống nhiễu xuyên kênh Aliasing
Trang 9Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
1.2.1 Lấy mẫu
Lấy mẫu là quá trình chuyển đổi một tín hiệu liên tục thành tín hiệu rời rạc Nótạo ra giá trị tín hiệu tương tự tại một số hữu hạn các giá trị có biến rời rạc gọi là cácmẫu Các mẫu được lấy cách đều nhau gọi là chu kỳ lấy mẫu Tần số lấy mẫu phảithỏa mãn định lý Nyquist-Shannon :[ CITATION TSN \l 1033 ]
max
2
s
f f (1.1)
Trong đó: + fs là tần số lấy mẫu
+ fmax là tần số cực đại của phổ tín hiệu tương tự
1.2.2 Lượng tử hóa
Quá trình lượng tử là quá trình chuyển một xung lấy mẫu thành một xung có biên
độ bằng mức lượng tử gần nhất hay nói cách khác là lượng tử chuyển đổi các mức biên
độ của tín hiệu đã lấy mẫu sang một trong các giá trị hữu hạn các mức nhị phân.Lượng tử hóa biến đổi tín hiệu liên tục theo thời gian thành tín hiệu có biên độ rời rạc,nhằm làm giảm ảnh hưởng của tạp âm trong hệ thống, hạn chế các mức cho phép củatín hiệu lấy mẫu và chuẩn bị truyền tín hiệu gốc từ tương tự sang số Giá trị thập phâncủa các mẫu sau khi lượng tử hóa sẽ được biểu diễn dưới dạng số nhị phân n bit (N=
2n), với n là độ phân giải lượng tử hóa, n càng lớn thì độ chia càng mịn, do đó độ chínhxác càng cao
Do có sự làm tròn các mức nên tín hiệu bị méo dạng do sai số lượng tử gọi làméo lượng tử, tỷ số tín hiệu trên méo lượng tử (S/N) được xác định bởi công thức :
Trang 10Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
Hình 1.2.1.1.1.1.1.1: Sơ đồ quá trình tạo tín hiệu số
Lượng tử hóa có hai loại:
Lượng tử tuyến tính: phép nén tín hiệu theo quy luật đường cong đồng đều, cácbước lượng tử bằng nhau
Lượng tử phi tuyến: phép nén tín hiệu theo quy luật đường cong không đồngđều, tập trung nhiều mức lượng tử ở những vùng tín hiệu nhỏ Trong kỹ thuậtnén ảnh, nén video thì loại lượng tử phi tuyến được dùng nhiều hơn vì nó giảmdung lượng đến mức tối đa với độ méo lượng tử có thể chấp nhận được
1.2.3 Mã hóa
Là quá trình thay thế mỗi mức điện áp cố định sau khi lượng tử bằng một dãy nhịphân gọi là từ mã Tất cả các từ mã đều chứa số xung nhị phân cố định và được truyềntrong khoảng thời gian giữa hai thời điểm lấy mẫu cạnh nhau Bộ mã được sử dụng đểtái tạo các xung nhị phân hoặc các từ mã từ các giá trị đã lượng tử xuất hiện ở đầu racủa bộ lượng tử hóa
1.3 Tốc độ bit và thông lượng kênh truyền tín hiệu số
1.3.1 Tốc độ bít
Trang 11Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
1.3.2 Thông lượng kênh truyền
Là tốc độ số liệu cực đại có thể truyền được trên kênh truyền có độ rộng băng tần
S
N là tỷ số tín hiệu trên nhiễu trắng
+ B là băng thông kênh truyền (Hz)
Tốc độ bit càng lớn thì tín hiệu tương tự khôi phục lại càng trung thực tuy nhiên
nó sẽ là cho dung lượng lưu trữ và băng thông kênh truyền càng lớn Trong thực tế đểtruyền tín hiệu có tốc độ bit là C (bps) thì cần băng thông kênh truyền là: B≥
3
4C(Hz)
Trang 12Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
Nén thời gian Nén không gian
Lưu trữ ảnh
Bộ mã hóa ENTROPY
Tín hiệu nén video
Hệ số Vector chuyển động Ngõ ra mã hóaPhần dư
Hình 1.4.1.1.1.1.1.1: Sơ đồ khối nén tín hiệu video cơ bản[ CITATION
Trong các hệ thống nén, tỷ số nén chính là tham số quan trọng đánh giá khảnăng nén của hệ thống Gọi n1, n2 là số lượng bit của tín hiệu trước và sau khi nén,ta cócông thức:
2
n C n
+ Nếu n1 << n2 thì C →∞ , R 1, có nghĩa là có sự dư thừa dữ liệu lớn
Ví dụ : n1 = 100Mb/s, n2= 10Mb/s thì C = 10:1 và R = 90% Tức là ảnh có sự dư thừakhá lớn và hiệu quả nén đạt được là 90%
Trang 13Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
1.4.2 Lượng tin trung bình entropy
Đ nghiên c u v các phể nghiên cứu về các phương pháp nén, ứu về các phương pháp nén, ề các phương pháp nén, ương pháp nén, ng pháp nén, ta cần đánh giá lượng thông tin chủyếu được chứa đựng trong hình ảnh, từ đó xác định dung lượng tối thiểu cần sử dụng
để miêu tả, truyền tải thông tin về hình ảnh
Thông tin được ký hiệu là ai và có xác suất p(ai) thì lượng tin được xác địnhtheo công thức:[ CITATION TSN \l 1033 ]
Gọi lượng tin trung bình của hình ảnh là H(X) và được tính bằng công thức:
Như vậy, lượng tin trung bình tối thiểu cần thiết để truyền một phần tử ảnh sẽkhác nhau, nghĩa là độ dư thừa trong ảnh và giữa các bức ảnh sẽ phụ thuộc vào cách
mã hóa Entropy do đó cần phải xem xét kỹ để lựa chọn loại mã hóa hiệu quả nhất
1.5 Phân loại các kĩ thuật nén
Nén video được chia thành hai nhóm: Nén không tổn hao và nén tổn hao.
- Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồn thànhdòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc, các thuậttoán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa trên việcthay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc biệt khácngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên đòi hỏi phải
có thiết bị lưu trữ và đường truyền lớn hơn
- Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giống ảnh gốc, dạngnén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video qua một mạng
có băng thông hạn chế Các dạng nén này thường có hệ số nén cao hơn (từ 2:1đến 100:1) và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giải nén doviệc xóa và làm tròn dữ liệu trong một khung hay giữa các khung Nó liên quanđến việc dùng các phép biến đổi tín hiệu từ miền này sang miền khác
Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và các kỹthuật nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổi Cosin rời rạc DCT,lượng tử vô hướng, quét zig-zag, mã hóa Entropy…
Trang 14Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
1.6 Quá trình biến đổi tín hiệu màu
Hình 1.6.1.1.1.1.1.1: Quá trình chuyển đổi màu
Một bức ảnh được chuyển từ hệ màu RGB sang YUV nhằm giảm dung lượng lưutrữ cũng như truyền đi Trong quá trình giải mã, trước khi hiển thị ảnh thì nó được biếnđổi ngược lại thành RGB Công thức minh họa quá trình biến đổi như sau:[CITATION TSN \t \l 1033 ]
0.5
1 0.5
1 0.1140.5
Trang 15Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
Ta có ma trận biến đổi từ RGB sang YUV như sau:
0.299 0.587 0.1140.169 0.331 0.5
1.7 Các tiêu chuẩn lấy mẫu tín hiệu video
Lựa chọn kiểu lấy mẫu cho ảnh video cũng là một vấn đề khá quan trọng của kỹthuật nén ảnh Một số kiểu lấy mẫu phổ biến như sau:
Tốc độ lấy mẫu 4:1:1 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tínhiệu hiệu màu là 3,375MHz
Tốc độ lấy mẫu 4:2:2 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệuhiệu màu là 6,75MHz
Tốc độ lấy mẫu 4:4:4 - cả 3 thành phần có cùng độ phân giải, nghĩa là tần số lấymẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 13,5MHz
Tốc độ lấy mẫu 4:2:0 - là kiểu phổ biến, tần số lấy mẫu tín hiệu chói là13,5MHz, và mỗi tín hiệu hiệu màu là 6,75MHz theo cả 2 chiều
Ví dụ : Một bức ảnh có độ phân giải 720 × 576 pixel
Độ phân giải của thành phần Y là 720 × 576 pixel được mã hóa bằng từ mã 8 bit
Nếu sử dụng kiểu lấy mẫu 4:4:4 thì độ phân giải của thành phần Cb, Cr là 720×576mẫu cũng được mã hóa bằng từ mã 8 bit
Vậy tổng số bits sử dụng để mã hóa bức ảnh là:
Trong kiểu 4:4:4, tổng số mẫu cần thiết là 12 mẫu, do đó tổng số bit là 12 × 8 =
96 bit, và trung bình là 96/4 = 24 bit/pixel
Trong kiểu 4:2:0, tín hiệu được quét xen kẽ, do đó chỉ cần thiết 6 mẫu, 4 mẫu cho thành phần Y, 1 mẫu cho thành phần Cb, 1 mẫu cho thành phần Cr, do
đó tổng số bits cần thiết là 6 × 8 = 48 bit, và trung bình là 48/4 = 12 bit/pixel
Trang 16Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
Ta thấy kiểu lấy mẫu 4:2:0 giảm một ½ số lượng bits so với 4:4:4, do đó mà kiểu lấy mẫu này thường được sử dụng phổ biến.
1.8 Các tiêu chuẩn đánh giá chất lượng ảnh nén
Để đánh giá chất lượng video ta các giá trị cung cấp bởi hệ thống xử lý, và việcsuy giảm chất lượng tín hiệu có thể nhìn thấy được (thông thường chúng được so sánhvới tín hiệu gốc) Qua hệ thống ta có thể thấy được những thay đổi về hình dạng, việcđịnh chuẩn chất lượng video là rất quan trọng Để đánh giá chất lượng của bức ảnh(hay khung ảnh video) ở đầu ra của bộ mã hóa, ta thường sử dụng các tham số sau đểđánh giá:
- Sai số bình phương trung bình – MSE (mean square error) định nghĩa cho
cường độ sai khác giữa ảnh gốc và ảnh dự đoán:[CITATION TSN \l 1033 ]
1 1
2 2
Trong đó: + NxN kích thước bù chuyển động
+ hệ số Ci, j và Ri, j tương ứng với mẫu hiện tại và vùng mẫu tham khảo + b số lượng bit/ mẫu
Thông thường, nếu PSNR ≥ 40dB thì hệ thống mắt người gần
như không phân biệt được giữa ảnh gốc và ảnh khôi phục, tức là ảnhnén có chất lượng xuất sắc
+ N u 30 dB ếu 30 dB ¿ PSNR < 33 dB thì ch t lất lượng ảnh nén bình thường, mắt người ượng ảnh nén bình thường, mắt ngườing nh nén bình thảnh nén bình thường, mắt người ường, mắt ngườing, m t ngắt người ường, mắt ngườii
có s phân bi t đự phân biệt được ệt được ượng ảnh nén bình thường, mắt ngườic
+ N u PSNRếu 30 dB < 30 dB thì ch t lất lượng ảnh nén bình thường, mắt người ượng ảnh nén bình thường, mắt ngườing nh nén kém.ảnh nén bình thường, mắt người
- Sai số tuyệt đối trung bình - MAE (Mean Absolute Error) [CITATION TSN \
l 1033 ]
1 1 2
Trang 17Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CH ƯƠNG 1: NG 1: C S NÉN TÍN HI U VIDEO ƠNG 1: Ở NÉN TÍN HIỆU VIDEO ỆU VIDEO
- Tổng của các sai số tuyệt đối- SAE (Sum of Absolute Errors)[CITATION
Chương 1 này đã cung cấp cho chúng ta những kiến thức cơ bản về nén video
Dù là trong các chuẩn nén của công nghệ cũ hay trong những chuẩn nén mới tiên tiếnthì nó vẫn phát triển dựa trên những cơ sở này Nắm được những kiến thức trongchương này ta sẽ có kiến thức nền tảng khá vững chắc để đi sâu vào tìm hiểu kỹ hơncác chuẩn nén hiện đại trong chương tiếp theo
Trang 18Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 2: MPEG-4 H.264/AVC VÀ HEVC/H265
CHƯƠNG 2: TÌM HIỂU HAI CHUẨN NÉN TIÊN TIẾN NHẤT
HIỆN NAY MPEG-4 H.264/AVC VÀ H265/HEVC
2.1 Chuẩn nén MPEG-4 H.264/AVC
1.1.1 Lịch sử phát triển của chuẩn nén MPEG-4 H.264/AVC
Các bộ mã hóa đơn giản tuy hoạt động tốt nhưng nhiều khi có một số hình ảnh
mà nó không thể nén được hoặc nén không hiệu quả điều này đã thúc đẩy các nhà thiết
kế phát triển các công cụ nén mới dựa trên nền tảng của các chuẩn trước, trong đó hiệuquả mã hóa là vấn đề được quan tâm nhất, vì thế sự ra đời MPEG-4 là điều tất yếutrong tiến trình phát triển Sự phát triển của MPEG-4 H.264/AVC trải qua nhiều giaiđoạn như: MPEG-4 part 2 được ISO công bố vào 1999, nó là tiêu chuẩn cho nhữngứng dụng truyền thông đa phương tiện với tốc độ bit thấp và cho các ứng dụng truyềnhình quảng bá trong tương lai Tuy nhiên chất lượng của MPEG-4 part 2 vẫn chưa đạtđược như mong muốn, chính vì vậy mà ISO/IEC (MPEG) và ITU đã cùng nhau hợptác và thành lập nhóm Joint Video Team (JVT), để nghiên cứu phát triển chuẩn mã hóatiên tiến là Advanced Video Coding (AVC) Và đến 2003 đã cho ra đời chuẩn MPEG-
4 part 10, tên theo tiêu chuẩn ISO/IEC 14496-10 và H.246 AVC trong ITU hay còngọi là MPEG-4 H.264/AVC, gọi tắt là H.264/AVC.[ CITATION Iai03 \l 1033 ]
1.1.2 Những đặc điểm nổi bật của chuẩn nén MPEG-4 H.264/AVC
Chuẩn nén MPEG-4 H.264/AVC có những đặc điểm khác biệt nổi bật so với chuẩn nén trước đó như sau:
Dự đoán không gian định hướng trong kiểu mã hóa Intra: hỗ trợ tới 17 kiểu dựđoán, làm cho việc dự đoán mẫu được chính xác hơn, đạt hiệu quả nén cao hơn
Bù chuyển động với kích thước nhỏ có thể thay đổi Tiêu chuẩn này mang lại sựmềm dẻo cho sự lựa chọn kích thước và hình dạng, kích thước bù chuyển độngnhỏ nhất là 4x4 Điều này đã mang lại hiệu suất 15% so với MPEG-2 Bù chuyểnđộng ¼ làm giảm tính phức tạp của xử lý nội suy so với các tiêu chuẩn trước đó
Bù chuyển động với nhiều hình ảnh tham khảo Do camera thay đổi góc quayhay chuyển qua lại giữa các cảnh, việc đoán trước các chuyển động là rất phứctạp ta cần phải có nhiều hình ảnh tham khảo để nâng cao hiệu suất và chất lượng.H.264/AVC cho phép sử dụng tối đa 32 hình ảnh tham khảo trong khi MPEG-2chỉ sử dụng 2 hình ảnh tham khảo Bù chuyển động với nhiều hình ảnh tham khảo
sẽ làm chậm quá trình mã hóa và giải mã nhưng sẽ tăng chất lượng ảnh với cùng
tỷ số nén
Tách riêng hình ảnh tham khảo và hình ảnh hiển thị: ở các tiêu chuẩn trước có
sự phụ thuộc giữa hình tham khảo và hình hiển thị, còn trong H.264/AVC bộ mãhóa có thể chọn hình ảnh để tham khảo gần nhất với hình ảnh được mã hóa cho
R, G, B
Hình I.2 Quá trình biến đổi màu
Trang 19Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 2: MPEG-4 H.264/AVC VÀ HEVC/H265
mục đích tham khảo dự đoán nên có thể hiển thị với tính linh hoạt cao, do đókhoảng thời gian trễ sẽ được loại bỏ
Giảm dư thừa về không gian tốt hơn: sử dụng phép biến đổi nguyên thay vì sửdụng phép biến đổi DCT như MPEG-2, làm giảm ảnh hưởng do sai số làm tròn
Lượng tử hóa thích nghi: trong quá trình mã hóa với tốc độ bit biến thiên, khi sửdụng lượng tử hóa thích nghi, mỗi khung có thể được nén với những bộ lượng tửkhác nhau phụ thuộc vào bản chất hình ảnh của chúng thông qua việc điều khiểntốc độ bit Ví dụ những phần chuyển động hay những phần hình ảnh sẫm màukhó nhận biết sẽ được xử lý với hệ số lượng tử lớn hơn (độ nén cao hơn, dunglượng nhỏ hơn), những phần hay được hệ thống mắt người chú ý nhiều hơn sẽđược xử lý với hệ số lượng tử thấp hơn (độ nén nhỏ hơn, dung lượng lớn hơn).H.264/AVC cho phép sử dụng tới 52 mức lượng tử trong khi MPEG-2 chỉ có 31mức
Sử dụng bộ lọc tách khối: Trái ngược với bộ tiền xử lý hay bộ hậu xử lý, bộ lọctách khối được áp dụng trong suốt quá trình mã hóa trên mọi khung đơn lẻ, nhưngtrước đó nó sẽ được sử dụng để tham khảo cho những khung đến sau Cải tiếnmới này sẽ giúp tránh được hiện tượng kết khối làm ảnh hưởng đến chất lượnghình ảnh, đặc biệt là với tốc độ bit thấp Nhưng tốc độ mã hóa, giải mã sẽ bị giảmsút
Kiểu dự đoán trọng số H.264/AVC có thể hỗ trợ quá trình mờ dần hay tối dầnkhung hình trong những đoạn phim có hiệu ứng mờ dần (những khung đến sau rấtgiống so với những khung ngay trước nó, chỉ có sắc độ là khác một chút),
Mã hóa Entropy thích nghi: trong H.264/AVC sử dụng 2 phương pháp mã hóaphức tạp hơn đó là CAVLC và CABAC thay vì biến đổi VCL tĩnh trong MPEG-
2, nên hiệu quả mã hóa cũng cao hơn rõ rệt
Ngoài ra, H.264/AVC còn có một số đặc tính làm tăng cường khả năng chống sai số vàmất dữ liệu như :
Thông số cài đặt cấu trúc: tập hợp các thông số nhằm tăng cường cho thông tintiêu đề của quá trình truyền được hiệu quả hơn Ở những tiêu chuẩn trước, nếumất một số thông tin quan trọng như thông tin tiêu đề của chuỗi ảnh sẽ ảnhhưởng rất lớn đến quá trình giải mã Còn trong H.264/AVC thì các thông tin nàyđược tách riêng tạo tính linh hoạt và chuyên dụng hơn
Cấu trúc cú pháp của NAL: Mỗi cấu trúc cú pháp trong H.264/AVC được đặttrong gói dữ liệu vật lý gọi là NAL
Hỗ trợ kỹ thuật sắp xếp thứ tự mềm dẻo và sắp xếp thứ tự slice bất kỳ
Hỗ trợ hai ảnh chuyển mạch đồng bộ SI/SP và kỹ thuật phân vùng dữ liệu (DataPartitioning)
Trang 20Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 2: MPEG-4 H.264/AVC VÀ HEVC/H265
Ta có thể tổng hợp trong những chức năng chính của H.264/AVC như sau:
Hiệu suất nén: hiệu suất nén là mục tiêu chính trong MPEG-1, MPEG-2 Do đó ởH.264/AVC, việc cải tiến hiệu suất mã hóa các luồng dữ liệu sẽ mở rộng khảnăng ứng dụng của nó trong thực tiễn Tiêu chuẩn H.264/AVC tiết kiệm lên đến50% tốc độ bit so với MPEG-1, MPEG-2, MPEG-4 part 2 khi mã hóa cùng mộtcấp độ
Khả năng tương tác: cho phép người sử dụng có thể tương tác trực tiếp các nộidung chương trình đang xem
Kiểu truy nhập phổ biến: tăng cường khả năng chống lỗi trong mội trường khắcnghiệt, cung cấp các công cụ cần thiết để giải quyết việc mất mát gói dữ liệutrong khi truyền trong mạng gói và lỗi bit trong môi trường không dây
1.1.3 Nguyên lí hoạt động cơ bản của MPEG-4 H.264/AVC
Bù chuyển động
Lọc tách khối
Biến đổi DCT nguyên
Lượng tử vô hướng
Sắp xếp trật tự
Mã hóa Entropy
Biến đổi DCT ngược
Giải lượng tử
+ +
+
-Phần dư
Tín hiệu
dự đoán inter
intra
17 kiểu dự đoán intra
Hình 2.1.1.1.1.1.1.1: Sơ đồ mã hóa MPEG-4 H.264/AVC[ CITATION Iai03 \
mã hóa sẽ được đưa đến cả bộ trừ và bộ dự đoán chuyển động Bộ dự đoán chuyểnđộng sẽ so sánh các MB mới được đưa vào với các MB tham khảo đã được đưa vào
Trang 21Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 2: MPEG-4 H.264/AVC VÀ HEVC/H265
mã hóa này Bộ dự đoán chuyển động sẽ tính toán vector chuyển động, vector này sẽđặc trưng cho sự dịch chuyển theo cả hai chiều ngang và thẳng đứng của MB mới cầnđược mã hóa so với khung tham khảo Bộ dự đoán chuyển động cũng đồng thời gửicác MB tham khảo tới bộ trừ với MB mới cần được mã hóa, để tạo ra các sai số tiênđoán đặc trưng cho sự sai khác giữa MB dự đoán và MB cần mã hóa Tín hiệu sai khácnày sẽ được biến đổi nguyên để tạo ra tập hệ số biến đổi sau đó được đưa qua bộ lượng
tử để làm giảm số lượng bit cần truyền Đến đây, các hệ số lượng tử được chia làm haihướng, một hướng sắp xếp lại và đưa vào mã hóa Entropy, tại đây số bit đặc trưng chocác hệ số tiếp tục được làm giảm đi một cách đáng kể, hướng còn lại đưa qua bộ giảilượng tử và biến đổi ngược để tạo ra khối sai số Sau đó đưa vào bộ cộng với tín hiệu
dự đoán và được lọc tách khối trong vòng nhằm làm giảm hiệu ứng khối tạo thành ảnhcấu trúc lại, được lưu trữ nhằm mục đích ước lượng và dự đoán chuyển động Dữ liệutại đầu ra bộ mã hóa Entropy sẽ kết hợp với vector chuyển động và các thông tin khácnhư thông tin về ảnh I, ảnh P, và ảnh B rồi truyền ra ngoài kênh truyền dưới dạng dòngbit nén của các đơn vị NAL, gửi tới bộ giải mã Trong H.264/AVC, có hỗ trợ 5 kiểu
mã hóa ảnh: đó là ảnh I, P, B, SP (switching P) và SI (switching I)
2.1.1.2 Sơ đồ giải mã
Ảnh trước Bù chuyển
động
Dự đoán Intra
Ảnh cấu trúc
lại
Lọc tách khối
Biến đổi ngược
Giải lượng tử
Sắp xếp trật tự
Giải mã entropy +
Đầu tiên bộ giải mã Entropy nhận được các dòng bit nén từ NAL, một mặt sẽ giải
mã Entropy để tách thông tin tiêu đề và vector dự đoán chuyển động đưa vào bùchuyển động, mặt khác các hệ số DCT được giải lượng tử và biến đổi ngược IDCT đểbiến tín hiệu từ miền tần số thành tín hiệu ở miền không gian, các hệ số biến đổi ngượcthu được sẽ cộng với tín hiệu dự đoán Sau đó một phần được đưa qua bộ lọc tách khối
để loại bỏ hiện tượng nhiễu trước khi đưa vào lưu trữ, phần còn lại được sử dụng chomục đích dự đoán
Trang 22Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 2: MPEG-4 H.264/AVC VÀ HEVC/H265
2.2 Chuẩn nén HEVC/H.265
1.1.4 Bối cảnh ra đời và sự phát triển của chuẩn nén HEVC/H.265
Thành công của MPEG-4 H.264 đã khiến cho nó trở nên phổ biến và xuất hiệntrong hầu hết các sản phẩm dịch vụ hiện nay như truyền hình độ nét cao HDTV, truyềnhình cáp, internet, điện thoại di động, video mạng, truyền hình hội nghị vv Tuy nhiên
do các dịch vụ ngày càng đa dạng, phong phú và yêu cầu chất lượng, của người dùng ,
độ phân giải hình ảnh (4K, 8K) ngày càng cao, vì vậy trong tiến trình phát triển càngyêu cầu tối ưu hóa mã hóa tín hiệu và tiết kiệm tài nguyên Trong nỗ lực tìm kiếm mộtcông nghệ mã hóa mới có hiệu suất cao hơn, một tổ chức hợp tác giữa ITU-T VideoCoding Experts Group (VCEG) và ISO/IEC Motion Picture Expert Group (MPEG) đãnghiên cứu tính khả thi trong một thời gian dài và kêu gọi chuẩn hóa cho HighEfficiency Video Coding (HEVC).[ CITATION Gar12 \l 1033 ]
Tiêu chuẩn mã hóa hiệu suất cao HEVC (High Efficiency Video Coding) ra đờidựa trên sự kế thừa và phát triển của các chuẩn mã hóa trước đó Phiên bản đầu tiêncủa HEVC được hoàn thành vào tháng Một năm 2013 (với sự chấp thuận và công bốchính thức vài tháng sau đó, ITU-T công bố chính thức vào tháng Sáu và ISO/IEC vàotháng Mười Một)
1.1.5 Những đặc điểm cơ bản của chuẩn nén HEVC/H.265
Để hỗ trợ một loạt các ứng dụng khác nhau thì một tiêu chuẩn không chỉ có mộtcông thức duy nhất mà cần nhiều biến thể để đảm bảo khả năng tương tác Cũng giốngnhư một số thiết kế trước, trong HEVC, các biến thể này được xử lý bằng cách xácđịnh nhiều ‘profile’ và ‘level’ Phiên bản đầu tiên của HEVC có ba profile là:
[ CITATION Viv14 \l 1033 ]
- Main profile: được sử dụng trong những ứng dụng điển hình, quen thuộc với hầu
hết người tiêu dùng hiện nay Profile này đại diện cho dữ liệu video với 8 bit/mẫu vàđiển hình với một tín hiệu chói và hai tín hiệu màu với độ phân giải bằng một nửacủa ‘chói’ theo cả chiều ngang và dọc
- Main Still Picture profile: để sử dụng trong nhiếp ảnh hoặc khai thác các khung
hình chụp từ đoạn video
- Main 10 profile: hỗ trợ lên đến 10 bit/mẫu trong mỗi hình ảnh Profile này cung cấp
sự gia tăng độ sâu màu làm tăng dải sáng động, mở rộng nội dung màu hoặc chỉđơn giản là nâng cao độ trung thực của màu sắc, giảm lỗi làm tròn
Về cơ bản HEVC/H.265 có cấu trúc tương tự như các chuẩn trước đó, tuy nhiênHEVC có nhiều cải tiến mới để đem lại khả năng mã hóa với hiệu suất cao đó là:
- Phân vùng linh hoạt hơn, với kích thước từ lớn đến nhỏ Mỗi ảnh được chia thành
các CU kích thước 2N×2N, với N thuộc {4,8,16,32}.[ CITATION Jar12 \l
Trang 23Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 2: MPEG-4 H.264/AVC VÀ HEVC/H265
- Linh hoạt hơn trong dự đoán và chuyển đổi HEVC xác định đơn vị dự đoán làPU.Với những CU có kích thước 2N×2N, HEVC hỗ trợ những PU với kích thước2N×2N, 2N×N, N×2N và N×N Trong khi đó, đơn vị chuyển đổi là TU Những
TU này thì có hình dạng linh hoạt phụ thuộc vào PU.[ CITATION Jar12 \l 1033 ]
- Bộ lọc nội suy và bộ lọc tách khối tinh vi hơn Đặc biệt, HEVC sử dụng bộ lọc bộ
lọc chuyển đổi bù mẫu tương thích (SAO) làm tăng cường chất lượng hình ảnh
bằng cách giảm các thành phần lạ và thay đổi mật độ mẫu tại một số điểm trongảnh Nó cũng làm tăng chất lượng hình ảnh tham khảo góp phần vào việc cải thiệnhiệu suất nén
Hình 2.2.1.1.1.1.1.1: Chất lượng ảnh trước và sau khi sử dụng SAO.
- Được trang bị tính năng xử lý song song hiệu quả Nhiều kỹ thuật song song khác
nhau được đưa ra để cải thiện việc sử dụng tài nguyên tính toán trong việc thựchiện quá trình mã hóa:
Song song mức độ hình ảnh: Xử lý nhiều hình ảnh cùng lúc
+ Song song mức độ slice: Xử lý cùng lúc nhiều slice một cách độc lập
Song song mức độ khối: các khối sẽ được xử lý đồng thời trên nhiều lõi khácnhau
Đặc biệt là hai tính năng xử lý song song:
Xử lý song song đầu sóng (WPP)[ CITATION Fil14 \l 1033 ] : khi kích hoạtWPP, một slice được chia thành các hàng CTU Hàng đầu tiên được xử lý bìnhthường, hàng thứ hai có thể bắt đầu xử lý sau khi có hai CTU trong hàng đầutiên đã được xử lý, hàng thứ ba bắt đầu khi có hai CTU trong hàng thứ haiđược xử lý và quá trình sau đó xảy ra tương tự
Tile: Một cơ chế phân vùng hình ảnh như slice dựa trên sự phân chia linh hoạtcủa hình ảnh thành các CTU
Ngoài ra, những thiết kế cấu trúc có khả năng mở rộng và các cấu hình khác sẽđược thêm vào phần mở rộng trong tương lai
Trang 24Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 2: MPEG-4 H.264/AVC VÀ HEVC/H265
1.1.6 Nguyên lí hoạt động cơ bản của chuẩn nén HEVC/H.265
Hình 2.2.1.1.1.1.1.2: Sơ đồ khối của bộ mã hóa/ giải mã HEVC.[ CITATION
Viv14 \l 1033 ] Hình 2.4 mô tả sơ đồ khối của một bộ mã hóa video lai ghép giữa mã hóa và giải
mã, để tạo ra một luồng dữ liệu của HEVC Thuật toán mã hóa cung cấp một luồng dữ
liệu thường được tiến hành như sau: Mỗi bức ảnh đầu vào sẽ được chia thành các khuvực khối hình với các phân vùng khối chính xác rồi đưa tới bộ giải mã Những hìnhảnh đầu tiên của một chuỗi video (và hình ảnh đầu tiên tại mỗi điểm truy cập ngẫunhiên trong một chuỗi video) được mã hóa bằng cách sử dụng dự đoán trong ảnh(intra-picture) Đối với các hình còn lại của một chuỗi hoặc giữa các điểm truy cậpngẫu nhiên hầu hết sẽ được mã hóa bằng dự đoán liên ảnh (inter-picture) Quá trình dựđoán liên ảnh thực hiện việc lựa chọn dữ liệu chuyển động bao gồm các hình ảnh thamkhảo và vector chuyển động (MV) được chọn để áp dụng vào việc dự đoán các mẫucủa mỗi khối Các khối mã hóa và giải mã tạo ra các tín hiệu dự đoán liên ảnh giốnghệt nhau bằng cách áp dụng bù chuyển động (sử dụng MV, dữ liệu quyết định đượctruyền đi như các thông tin phụ) Các tín hiệu dư thừa trong quá trình dự đoán liên ảnhhoặc dự đoán trong ảnh là do sự khác biệt giữa các khối ban đầu và khối dự đoán,được biến đổi bởi một liên kết không gian tuyến tính Các hệ số biến đổi này sau đóđược gom lại, lượng tử hóa, mã hóa entropy và được truyền cùng với thông tin dự báo
Trang 25Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 2: MPEG-4 H.264/AVC VÀ HEVC/H265
đó được bổ sung vào dự đoán Kết quả của việc bổ sung sau đó có thể sẽ được đưa vàomột hoặc hai vòng lọc để làm mịn hình ảnh Một bản sao đầu ra của bộ giải mã đượclưu trữ trong bộ đệm hình ảnh để sử dụng trong việc dự đoán các hình ảnh tiếp theo
2.3 So sánh những đặc điểm cơ bản của MPEG-4 H264/AVC và HEVC/H.265
So sánh tổng quát nhất về hai chuẩn nén hiện đại MPEG-4 H.264/AVC vàHEVC/H.265 được tóm tắt trong bảng so sánh ngắn gọn sau đây:
Bảng 2.3.1.1.1.1.1.1.1: So sánh đặc trưng cơ bản của MPEG-4 H.264/AVC và
HEVC/H.265
Dự đoán intra Hỗ trợ 17 chế độ dự đoán Hỗ trợ 35 chế độ dự đoán
Trong chương 2, chúng ta đã đi tìm hiểu về sự ra đời và phát triển của hai chuẩn
mã hóa tín hiệu tiên tiến nhất hiện nay Trên đây là những đặc điểm chung nhất vànhững cải tiến của chuẩn nén mới so với chuẩn nén cũ để đem lại hiệu quả mã hóa tốthơn Hiệu quả mã hóa của HEVC tốt hơn các chuẩn cũ như thế nào sẽ được trình bàytrong chương tiếp theo
Trang 26Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 3: HIỆU NĂNG CỦA HEVC/H265
SO VỚI MPEG4 H264/AVC
CHƯƠNG 3: ĐÁNH GIÁ HIỆU NĂNG CỦA CHUẨN NÉN
HEVC/H.265 SO VỚI MPEG4 H.264/AVC
Có hai phương pháp để đo lường đánh giá hiệu quả của mã hóa của một tiêuchuẩn mã hóa video Một là đánh giá hiệu quả dựa vào một số những số liệu đo lườngkhách quan, chẳng hạn như thông số tín hiệu trên nhiễu đỉnh - PSNR hoặc một phươngpháp khác là dựa vào đánh giá chủ quan chất lượng của video Trong đó, phương phápđánh giá chủ quan chất lượng có phần quan trọng hơn do con người có thể tự cảmnhận được chất lượng của video thông qua cái nhìn chủ quan của mình Dưới đây sẽ
là các quá trình thiết lập so sánh thực tế của phương pháp mà các nhà nghiên cứu đã
thực hiện để so sánh hiệu năng của hai chuẩn nén tiên tiến nhất hiện nay đó là HEVC/
H.265 và MPEG-4 H.264/AVC.
3.1 Đánh giá, so sánh tốc độ bit, độ méo tín hiệu và sự phức tạp của HEVC/ H.265 và MPEG-4 H.264/AVC.[ CITATION Jar12 \l 1033 ]
3.1.1 Quá trình thiết lập kiểm tra so sánh
Trong quá trình so sánh này, chúng ta sẽ sử dụng phiên bản HM 6.0 sử dụng
Main Profile ( HM MP 6.0) đối với HEVC và JM 18.0 sử dụng High Profile (JM HiP
18.0) Quá trình này được thực hiện hoàn toàn trong điều kiện kiểm tra phổ biến – gồmbốn cấu hình: all-intra (AI), random access (RA), low-delay P (LP) và low-delay B(LB)[ CITATION Jar12 \l 1033 ] Để có được sự so sánh công bằng, JM HiP đượccài đặt tương thích với bộ cài và cấu hình của HM MP Sự so sánh tốc độ - độ méo
(rate-distortion RD) phụ thuộc vào việc đánh giá chất lượng thông qua các thông số
khách quan Ví dụ như việc so sánh tốc độ bit giữa hai chuẩn mã hóa tại cùng một giátrị PSNR
Mặc dù các đánh giá chủ quan chất lượng của một video (dựa vào số điểm đánhgiá trung bình MOS) được coi là đáng tin cậy nhất, nhưng rất khó để thực hiện Do
vậy, các đánh giá khách quan tự động và lặp lại như Peak Signal-to-Noise Ratio (PSNR), Structural SIMilarity (SSIM) hay Perceptual Quality Index (PQI) thường
được sử dụng khi những đánh giá chủ quan không có điều kiện thực hiện thuận lợi.Trong đó, PSNR là một số liệu đánh giá khách quan đơn giản nhưng phổ biến nhất Nócũng đem lại những kết quả tương tự với các số liệu phức tạp hơn (SSIM, PQI) khisánh hiệu suất RD của HM và JM Các đánh giá chất lượng khách quan tập trung vàođánh giá RD dựa trên PSNR trong đó các bộ mã hóa HM và JM được so sánh về
Bjøntegaard delta bit rate (BD-rate) khi cho cùng một giá trị PSNR (BD-rate là một
thước đo đại diện cho bit-rate khác nhau trong thang logarit giữa hai video có cùngchất lượng – cùng giá trị PSNR[ CITATION Fil14 \l 1033 ])
3.1.1.1 Tổng quan về bộ mã hóa HEVC MP
Cấu trúc mã hóa của HEVC được mở rộng từ macroblock (MB) truyền thống
Trang 27Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 3: HIỆU NĂNG CỦA HEVC/H265
SO VỚI MPEG4 H264/AVC
nhất có thể là 16×16, 32×32 hoặc 64×64 pixel chói Ngoài ra, mỗi CU có thể chia rathành 4 CU có kích thước như nhau là 8x8 pixels Như vậy, kích thước của CU có thể
là 2N×2N, với N thuộc {4,8,16,32}
Hình 3.1.1.1.1.1.1.1: Hình ảnh được chia thành các CU với kích thước
2N×2N; Nϵ{4,8,16,32}
a Dự đoán liên ảnh (Inter Prediction)
Trong dự đoán liên ảnh, những CU ở cấp độ cuối cùng trong cây CU có thể được
chia ra thành nhiều khối hình chữ nhật gọi là đơn vị dự đoán ( PU ) Với những CU có
kích thước 2N×2N, HEVC hỗ trợ những PU với kích thước 2N×2N, 2N×N, N×2N
và N×N (trừ những PU có kích thước 4x4) Nếu N>4, HEVC có thể sử dụng đa xử lý
PU không cân xứng có kích thước là 2N×N/2 và 2N×3N/2 hoặc ngược lại
Các thông số chuyển động chói kết hợp với mỗi PU bao gồm vector chuyển động
(MV) và hình ảnh tham khảo/tham số chỉ hướng dự đoán (Idxs) Trong HEVC, những
thông số này có thể có được từ chế độ kết hợp (merge mode) hoặc được ước tính thông qua chế độ nén liên ảnh bình thường (inter mode) Trong cả 2 trường hợp này, những
MV màu có thể có được từ MV chói
Hình 3.1.1.1.1.1.1.2: Vector chuyển động trong HEVC
Chế độ kết hợp suy ra những thông số chuyển động kết hợp cho tiến trình PU từkhông gian và thời gian liền kề của mã hóa liên ảnh PU HEVC MP chỉ ra 4 đối tượng
Trang 28Đ án t t nghi p Đ i h c ồ án tốt nghiệp Đại học ốt nghiệp Đại học ệp Đại học ại học ọc CHƯƠNG 3: HIỆU NĂNG CỦA HEVC/H265
SO VỚI MPEG4 H264/AVC
kết hợp không gian (lân cận PU) và 1 đối tượng kết hợp thời gian (tạm thời ở cùngPU) Nếu số lượng ứng viên không gian, thời gian đặc biệt có sẵn nhỏ hơn 5, nhiềuứng viên khác sẽ được tạo từ cái đã có để số lượng những ứng viên này là 5
Trong chế độ inter, các thông số động có thể có được thông qua dự đoán chuyển
động (ME) – bao gồm giai đoạn integer ME (IME) và fractional ME (FME) ME tiếp
cận dung lượng từ bộ đệm hình ảnh giả mã (DPB) có chứa hình ảnh tham khảo đã
được tái tạo (Dref) Giai đoạn đầu tiên của ME là IME, IME tìm ứng viên tốt nhất cho
PU từ Dref HEVC tăng cường IME thông qua dự đoán MV tiên tiến tạo ra MV tốt nhất
từ 2 ứng viên không gian và 1 ứng viên thời gian liền kề Quá trình lựa chọn MV tốtnhất tuân theo quá trình của chế độ kết hợp trừ trường hợp số lượng ứng viên cuốicùng của không gian, thời gan là 2 IME vận chuyển những MV và Idxs phù hợp nhấtvới FME, FME lọc MV chói đến độ chính xác 1/4 pixel và MV màu đến độ chính xác1/8 pixel HEVC sử dụng bộ lọc nội suy IPOL 8-tap riêng lẻ cho mẫu 1/4 pixel chói và
bộ lọc IPOL 4-tap riêng lẻ cho mẫu 1/8 pixel màu Cả 2 bộ lọc này đều được nâng cấp
từ AVC
Bù chuyển động (MC) cung cấp dự đoán liên ảnh (Pinter) cho PU bằng cách giải
quyết DPB với MV và Idxs Nếu bộ mã hóa điều hành trong chế độ inter, dự đoán dư
(D) được tính bằng cách lấy CU nguyên mẫu trừ đi Pinter Tuy nhiên nếu CU được mãhóa như là chế độ nhảy, không có D được tính, chỉ có những PU với kích thước2N×2N được cho phép và các thông số chuyển động được lấy từ chế độ kết hợp
b Dự đoán trong ảnh (Intra Prediction)
Trong chế độ dự đoán trong ảnh (IP), các PU có thể có kích thước 2N×2N.Ngoài ra, khi N=4, mã hóa trong ảnh với PU kích thước N×N cũng được hỗ trợ.Những công cụ mã hóa trong ảnh của HEVC tăng các chế độ IP lên so với AVC bằngcách hỗ trợ 35 chế độ IP (d đoán DC, d đoán ph ng, và 33 ch đ d đoánự phân biệt được ự phân biệt được ẳng, và 33 chế độ dự đoán ếu 30 dB ộ dự đoán ự phân biệt được
hướng)ng) cho mỗi kích thước PU
Một chế độ IP tính toán Pintra cho PU bằng cách tiếp cận với bộ đệm hình ảnh
Pintra
c Biến đổi và lượng tử hóa
Với biến đổi và lượng tử hóa, HEVC xác định đơn vị biến đổi là TU có hìnhdạng phụ thuộc vào PU HEVC MP chỉ hỗ trợ TU hình vuông với kích thước 4×4,8×8, 16×16 và 32×32 Nhiều TU trong một TU đơn có thể sắp xếp theo cấu trúcquadtree với số cấp độ tối đa là 3 Các TU có thể vượt qua biên của PU mã hóa internhưng không thể vượt qua được biên của PU mã hóa intra
Một giai đoạn chuyển đổi miền không gian D thành hệ số chuyển đổi (TCOEFF),