Môn công nghệ đa phương tiện của trường Đại học Công nghiệp Hà Nội. Đề tài: Tìm hiểu kỹ thuật nén MPEG Video Coding I MPEG 1. Moving Picture Experts Group (MPEG) Nhóm các chuyên gia hình ảnh động (MPEG được phát âm là ˈɛm peg: empeg) là một nhóm các quy tắc hoạt động được thành lập bởi ISO và IEC để thiết lập các tiêu chuẩn cho việc truyền tải âm thanh và video.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO BÀI TẬP LỚN
CÔNG NGHỆ ĐA PHƯƠNG TIỆN
Giáo viên: Nguyễn Thị Mỹ Bình
Nhóm - Lớp - Khoá Nhóm 6 – CNTT2-K10
Thành viên: Trần Tuấn Ngọc
Lê Văn DũngNguyễn Huy Hợp
Đề tài: Tìm hiểu kỹ thuật nén MPEG Video Coding I – MPEG–1
HÀ NỘI - 2018
Trang 2Mục lục
Trang 3LỜI MỞ ĐẦU
Lời đầu tiên chúng em xin chân thành cảm ơn Ban giám hiệu trường Đại HọcCông Nghiệp Hà Nội đã tạo điều kiện để sinh viên chúng em có một môi trườnghọc tập thoải mái về cơ sở hạ tầng cũng như cơ sở vật chất
Chúng em xin cảm ơn khoa Công nghệ thông đã giúp chúng em được mở mang kiến thức hơn về các vấn đề xung quanh một chiếc máy tính Qua đó chúng em cóthể nhận thức một cách đầy đủ và toàn diện về tầm quan trọng của ngành côngnghệ thông tin trong công cuộc xây dựng và phát triển đất nước ngày càng giàumạnh hơn
Chúng em chân thành cảm ơn cô Nguyễn Thị Mỹ Bình đã hướng dẫn tận tình
để nhóm chúng em hoàn thành bài tập lớn môn học này Hi vọng thông qua những
nỗ lực tìm hiểu của tất cả các thành viên, nhóm chúng em sẽ giúp các bạn hiểu rõ hơn về quá trình xây dụng một sản phẩm đa phương tiện và một số tính năng hỗ trợ của phần mềm Ngoài ra, nhóm cũng mong muốn giới thiệu tới các bạn những tính năng hay, nhưng cái ưu điểm nổi bậc của các phần khác
Trang 4MPEG không đơn giản là một công cụ nén đơn lẻ mà ưu điểm của nén ảnh MPEG chính là ở chỗ MPEG có một tập hợp các công cụ mã hóa chuẩn, chúng có thể được kết hợp với nhau một cách linh động để phục vụ cho một loạt các ứng dụng khác.
Chuẩn MPEG lần đầu tiên được ra mắt vào năm 1988 là sáng kiến củaHiroshi Yasuda (Tập đoàn Nippon Telegraph và Telephone) và Leonardo Chiariglione, chủ tịch nhóm kể từ khi thành lập Hội nghị MPEG đầu tiên diễn ra vào tháng 5 năm 1988 tại Ottawa, Canada Tính đến cuối năm 2005, MPEG đã lên tới hơn 350 thành viên tham gia hội nghi từ các lĩnh vực công nghiệp, các trường đại học và viên nghiên cứu khác nhau Danh pháp chính thức của MPEG là ISO/IEC JTC1/SC29 WG11
2. Các tiêu chuẩn
Chuẩn MPEG gồm các bộ phận khác nhau Mỗi bộ phận lại bao gồm một đặc điểm kỹ thuật nhất định Các tiêu chuẩn cũng xác định Cơ cấu (Profiles) và Cấp độ (Levels) Cơ cấu nhằm xác định một tập hợp các công
cụ có sẵn, và Cấp độ xác định phạm vi của những giá trị thích hợp cho những thuộc tính liên quan đến chúng Một số tiêu chuẩn MPEG thay đổi bởi những cải tiến hoặc những phiên bản mới MPEG đã được tiêu chuẩn hóa bởi các định dạng nén và các tiêu chuẩn phụ sau đây:
MPEG-1 (1993): Mã hóa hình ảnh động và những âm thanh liên
quan việc lưu trữ kỹ thuật số đa phương tiện lên đến 1,5 Mbit/s (ISO/IEC 11172) Chuẩn nén MPEG đầu tiên cho âm thanh và video Nó thường được giới hạn trong khoảng 1,5 Mbit/s mặc dù về mặt kỹ thuật thì bit rate có thể cao hơn nhiều Nó cơ bản được thiết kế để cho phép những hình ảnh chuyển động và âm thanh được mã hóa thành các bit rate của Đĩa CD Nó được sử dụng trên Video CD và có thể dùng cho video chất lượng thấp trên DVD
Nó được dùng trong các dịch vụ truyền hình vệ tinh hoặc truyền hình cáp kỹ
Trang 5MPEG-1 downsamples những hình ảnh, cũng như tần số ảnh chỉ còn 24–30
Hz, cho chất lượng ở mức trung bình Nó bao gồm MPEG-1 Audio Layer IIIđịnh dạng nén âm thanh phổ biến (MP3)
MPEG-2 (1995): Mã hóa chung cho hình ảnh chuyển động và thông
tin âm thanh liên quan (ISO/IEC 13818) Tiêu chuẩn truyền tải video và âm thanh có chất lượng truyền hình Chuẩn MPEG-2 hỗ trợ quét xen kẽ và HD video MPEG-2 được xem trọng vì nó được chọn làm chương trình nén cho phát sóng truyền hình kỹ thuật số, các dịch vụ kỹ thuật số vệ tinh, truyền hình cap kỹ thuật số, SVCD và DVD Video Nó cũng được sử dụng trong Đĩa Blu-ray, nhưng thường dùng MPEG-4 Part 10 hoặc SMPTE VC-1 cho nội dung HD
MPEG-3: MPEG-3 xử lý chuẩn hóa scalable and nén đa độ phân
giải và được dành cho HDTV nhưng nhân thấy nó không cần thiết nên đã đuọc xác nhập vào MPEG-2; kết quả là không còn tiêu chuẩn MPEG-3 nữa Đừng nhầm lẫn MPEG-3 với MP3, MP3 là âm thanh MPEG-1 hoặc MPEG-
2 Lớp III
MPEG-4 (1998): Mã hóa của các đối tượng nghe nhìn (ISO/IEC
14496) MPEG-4 sử dụng các công cụ mã hóa phức tạp để đạt được những yếu tố nén cao hơn MPEG-2 Ngoài việc mã hóa video hiệu quả hơn, MPEG-4 tiến gần hơn tới các ứng dụng đồ họa máy tính Với cơ cấu phức tạp hơn, bộ giải mã MPEG-4 hiệu quả trỏ thành bộ xử lý việc dựng hình 3 chiều và các kết cấu bề mặt MPEG-4 hỗ trợ Intellectual Property
Management and Protection (IPMP) (Quản lý và bảo vệ sở hữu trí tuệ), bằngviệc cung cấp các cơ sở để sử dụng các công nghệ độc quyền để quản lý và bảo vệ những nội dung như quản lý bản quyền kỹ thuật số Nó cũng hỗ trợ MPEG-J, một chương trình giải pháp đầy đủ để tạo ra các ứng dụng tương tác tùy chỉnh đa phương tiện (Ứng dụng Java với môi trường Java API) và nhiều tính năng khác Một số tiêu chuẩn video mới hiệu quả cao hơn (mới hơn Video MPEG-2) đáng chú ý như là:
• MPEG-4 Part 2 (Simple and Advanced Simple Profile)
• MPEG-4 AVC (MPEG-4 Part 10 hoặc H.264) MPEG-4 AVC
có thể sử dụng trên HD DVD và Đĩa Blu-ray, cùng với VC-1 and MPEG-2
Trang 6MPEG-4 được cọn là chương trình nén over-the-air ở Brazil TB), dựa trên truyền hình ky thuật số gốc ở Nhật Bản (ISDB-T).
(ISDB-Ngoài ra, các tiêu chuẩn sau đây được ký hiệu tương tự:
• MPEG-7 (2002): Giao diện mô tả nội dung đa phương tiện (ISO/IEC 15938)
• MPEG-21 (2001): Khuôn khổ đa phương tiện (MPEG-21) (ISO/IEC 21000) MPEG mô tả tiêu chuẩn này như một multimedia framework and cung cấp cho IPMP
Hơn nữa, gần đây hơn những tiêu chuẩn ở trên, MPEG đã bát đầu theo nhưng tiêu chuẩn quốc tế; mỗi tiêu chuẩn nắm giữ nhiều công nghệ choứng dụng (Ví dụ, MPEG-A bao gồm một số công nghệ định dạng đa
• MPEG-D (2007): MPEG audio technologies (ISO/IEC 23003)
• MPEG-E (2007): Multimedia Middleware (ISO/IEC 23004) (còn gọi là M3W)
• Supplemental media technologies (2008) (ISO/IEC 29116)
• MPEG-V (2011): Media context and control (ISO/IEC 23005) (còn gọi là Information exchange with Virtual Worlds)
• MPEG-M (2010): MPEG eXtensible Middleware (MXM) (ISO/IEC 23006)
• MPEG-U (2010): Rich media user interfaces (ISO/IEC 23007)
• MPEG-H (2013): High Efficiency Coding and Media Delivery
in Heterogeneous Environments (ISO/IEC 23008)
• MPEG-DASH (2012): Information technology – Dynamic adaptive streaming over HTTP (DASH) (ISO/IEC 23009)
II. Tìm hiểu kỹ hơn về MPEG
1. Cấu trúc dòng bit
Trang 7• Lớp khối (block) : gồm khối 8x8 các điểm ảnh tín hiệu chói và
tín hiệu màu dùng cho phương pháp nén DCT
• Lớp macroblock: lớp tổ hợp cấu trúc khối là một nhóm các
khối tương ứng với lượng thông tin chứa đựng trong kích thước16x16 điểm trên bức ảnh Cấu trúc khối này cũng xác định được lượng thông tin chứa trong đó sẽ thay đổi tùy theo cấu trúc mẫu được sử dụng Thông tin đầu tiên trong cấu trúc khối mang dạng của nó và các vector bù chuyển động
• Lớp cắt lát dòng bít (slice): Mảng bao gồm một và cấu trúc
khối kề nhau Kích thước lớn nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một cấu trúc khối Thông tin đầu tiên chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số cân bằng lượng tử
• Lớp ảnh (picture): cho phép bộ giải mã xác định loại ảnh
được mã hóa Thông tin đầu dùng để chỉ thứ tự truyền khung (để bộ mã hóa có thể sắp xếp các ảnh lại theo thứ tự đúng) và các thông tin về đồng bộ, độ phân giải và phạm vi vector chuyển động Trong nén MPEG người ta sử dụng 3 loại ảnh sau:
o Ảnh I (Intra Pictures): được mã hóa độc lập mà không cần tham khảo các ảnh khác Hiệu quả nén tín hiệu đạt được do loại bỏ được dư thừa về không gian mà không
có yếu tố thời gian tham gia vào quá trình Ảnh I được dùng một cách tuần hoàn để tạo thành điểm tựa cho dòng
dữ liệu trong quá trình giải mã
o Ảnh P (Predicted Pictures): được mã hoá từ ảnh I hoặc ảnh P ngay trước để bù chuyển động và chính nó cũng cóthể dùng để tham khảo cho việc tiên đoán ảnh tiếp theo Mỗi khối ảnh trong ảnh P có thể được mã hóa theo kiểu tiên đoán hoặc mã hóa một cách độc lập Do sử dụng cả nén không gian và thời gian nén hiệu quả nén của ảnh P
Trang 8o Ảnh B (Bidirectionally Predictive Pictures) có thể sử dụng các ảnh I và P phía trước và phía sau nó để bù chuyển động vì vậy cho tỷ lệ nén cao nhất Mỗi khối trong ảnh B có thể tiên đoán theo chiều ngược, xuôi, cả hai hướng hoặc được mã hóa độc lập tuy nhiên để tiên đoán ngược từ một bức ảnh phía sau nó thì bộ mã hóa phải ắp xếp lại các bức ảnh Do vậy sẽ tạo ra độ trễ do phải sắp xếp lại thông tin, độ trễ lớn hay nhỏ phụ thuộc vào số bức ảnh B liên tiếp nhau được truyền.
• Lớp nhóm ảnh (GOP): các ảnh I, P, B thường xuất hiện theo
một thứ tự lặp đi lặp lại một cách tuần hoàn Vì vậy xuất hiện nhóm ảnh GOP Chất lượng ảnh không chỉ phụ thuộc vào tỷ lệ nén trong từng khuôn hình mà còn phụ thuộc vào độ dài của nhóm ảnh GOP Chúng là đơn vị mang thông tin độc lập của MPEG và bắt buộc phải bắt đầu bằng một ảnh I Tiếp sau đó là một loạt các ảnh P và B Cấu trúc của một GOP được mô tả bởi
2 tham số: N(số ảnh trong GOP) và M(khoảng cách giữa các ảnh P)
• Lớp dãy ảnh (sequence): đoạn video bao gồm thông tin đầu,
một số nhóm ảnh và thông tin kết đoạn
Mỗi lớp này hỗ trợ một chức năng nhất định: một là chức năng xử lý tín hiệu (DCT và bù chuyển động) Hai là chức năng logic (tái đồng bộ, điểm truy xuất ngẫu nhiên)
Trang 9Hình 1: Cấu trúc dòng bit MPEG
Quá trình tạo dòng bít MPEG là ghép kênh: kết hợp dòng dữ liệu vào, dòng
dữ liệu ra, điều chỉnh đồng bộ và quản lý bộ đệm Cú pháp dòng MPEG bao gồm: lớp dòng bit (stream), lớp gói (back) và lớp gói tin (backet)
Trang 10Hình 2: Kiến trúc dòng dữ liệu MPEG
Trang 11Hình 3: Cấu trúc ảnh MPEG
2. Nguyên lý nén MPEG
Hình 4: Bộ mã hóa MPEG tiêu biểu
Trang 12Cơ sở của công nghệ nén video MPEG là sự kết hợp giữa nén trong ảnh (Intra -Frame Compression) và công nghệ nén liên ảnh ( Inter-Frame
Compression) Trong đó:
Nén trong ảnh (Intra -Frame Compression): là loại nén nhằm giảm
bớt thông tin dư thừa trong miền không gian Nén trong ảnh sử dụng cả hai quá trình có tổn hao và không có tổn hao để giảm bớt dữ liệu trong ảnh Quátrình này không sử dụng thông tin của các ảnh trước và sau ảnh đang xét
Nén liên ảnh (Intra -Frame Compression): Trong tín hiệu video có
chứa thông tin dư thừa trong miền thời gian Nghĩa là với một chuỗi liên tục các ảnh, lượng thông tin chứa đựng trong mỗi ảnh thay đổi rất ít từ ảnh này sang ảnh khác Tính toán sự dịch chuyển vị trí của nội dung ảnh là một phầnrất quan trọng trong kỹ thuật nén liên ảnh Trong thuật nén MPEG, quá trìnhxác định Vector chuyển động được thực hiện bằng cách chia hình ảnh thành các Macro-Block, mỗi Macro-Block có 16 x 16 phần tử ảnh (tương đương với 4 Block, mỗi Block có 8 x 8 phần tử ảnh) Để xác định chiều chuyển động, người ta tìm kiếm vị trí của Macro-Block trong ảnh tiếp theo, kết quả của sự tìm kiếm sẽ cho ta Vector chuyển động của Macro-Block
* Nguyên lý nén MPEG
Tín hiệu đầu vào có dạng 4:2:2 hoặc 4:2:0 được nén liên ảnh nhằm tạo raảnh khác biệt ở đầu ra bộ cộng Ảnh khác biệt này sau đó lại được nén trong ảnh qua các bước : biến đổi DCT, lượng tử hóa, mã hoá Cuối cùng được trộn cùng với vector chuyển động đưa đến bộ khuếch đại đệm sẽ thu được ảnh đã nén
Tốc độ bít của tín hiệu video được nén không cố định, phụ thuộc vào nộidung ảnh đang xét (ví dụ một phần nén ít hơn hoặc nhiều hơn), nhưng tại đầu ra bộ mã hoá dòng bít phải cố định để xác định tốc độ cho dung lượng kênh truyền Do đó tại đầu ra bộ mã hóa phải có bộ nhớ đệm đủ lớn Bộ mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm Khi số liệu trong bộ nhớ đệm gần bằng dung lượng cực đại thì các hệ số biến đổi DCT ngược được lượng tử hóa ít chính xá hơn Vì vậy bộ nhớ đệm chứa ít số liệu thì việc lượng tử hóa các hệ số sẽ tăng lên
3. Nguyên lý giải nén MPEG
Trang 13Hình 5: Bộ giải mã MPEG tiêu biểu
* Nguyên lý giải nén MPEG
Chuỗi tín hiệu vào được giải mã Entropy tại VLD, sau đó tách dữ liệu ảnh (hệ số biến đổi DCT) ra khỏi các vector chuyển động Số liệu ảnh sẽ được giải lượng tử hoá và biến đổi DCT ngược
Nếu ảnh là ảnh loại I bắt đầu ở mỗi nhóm ảnh trong chuỗi, ở đầu ra sẽ nhận được ảnh hoàn chỉnh bằng cách trên ( vì ảnh loại I chỉ là nén trong ảnh, không có bù chuyển động, không dùng dữ liệu của ảnh khác) Nó được lưu trữ trong bộ nhớ ảnh và được và được dùng để giải mã các ảnh tiếp theo
Nếu ảnh là ảnh loại P thì cũng thực hiện giải lượng tử hóa và biến đổi DCT ngược kết hợp với việc sử dụng vector chuyển động và lưu vào bộ nhớ ảnh Trên cơ sở đó xác định được dự đoán ảnh đang xét Ta nhận đựơc ảnh ra sau khi cộng dự đoán ảnh (ảnh dự đoán) và kết quả biến đổi DCT ngược Ảnhnày cũng được lưu vào bộ nhớ để có thể sử dụng như là chuẩn khi giải mã cácảnh tiếp theo
Trang 14Phần 2: Kỹ thuật nén MPEG Video Coding I –
MPEG–1
I. Chuẩn nén MPEG - 1
1. Giới thiệu khái quát MPEG – 1
Là tiêu chuẩn The Moving Picture Expert Group Phase 1 (MPEG – 1) – định dạng âm thanh, phim ảnh của nhóm chuyên gia ảnh động là một tiêu chuẩn cho định dạng âm thanh, phim ảnh của tổ chức ISO/IEC – InternationalOrganization for Standardization/International Electrotechnical Commission (Tổ chức tiêu chuẩn hóa quốc tế/Ủy ban kỹ thuật Điện quốc tế) phát triển nhằm hỗ trợ các thiết bị trình chiếu âm thanh, phim ảnh
Tiêu chuẩn MPEG – 1 (hay còn gọi là ISO/IEC 11172 – Mã hóa ảnh động
và âm thanh kết hợp cho phương tiện lưu chữ thông tin số 1,5Mbit/s) bao gồm 05 phần:
ISO/IEC công bố 03 phần đầu tiên vào tháng 08/1993 gồm :
• IOS/IEC – 11172 – 1 :Hệ thống (lưu trữ và đồng bộ âm thanh, phim
ảnh và các dữ liệu khác)
• IOS/IEC – 11172 – 2 :Phim ảnh (chứa nội dung của phim ảnh nén)
• IOS/IEC – 11172 – 3 :Âm thanh (chứa nội dung của âm thanh nén)
Phần 4 của MPEG – 1 IOS/IEC – 11172 – 4 : Thử khả năng tương
thích (kiểm tra việc triển khai tiêu chuẩn) được công bố lần đầu vào tháng
03/1995
Phần 5 của MPEG – 1 IOS/IEC – 11172 – 5 : Mô phỏng phần mềm
(phần mềm mẫu thực hiện việc mã hóa và giải mã như thế nào ) được công bốlần đầu vào tháng 11/1998
Nội dung các phần được trình bày tóm tắt như sau:
• Phần Hệ thống quy định phương thức sử dụng, lưu trữ âm thanh,
phim ảnh đã được mã hóa và các dữ liệu khác, đồng thời duy trì tính đồng bộ giữa các nội dung khác nhau Định dạng tệp tin MPEG được thiết kế để đáp ứng việc lưu trữ trên phương tiện ( on media), truyền tải kênh dữ liệu một cách đáng tin cậy;
Trang 15• Phần Phim ảnh chỉ ra phương pháp nén dữ liệu video để làm giảm
tốc độ truyền tải dữ liệu trong một luồng thông tin video truyền tải qua mạng;
• Phần Âm thanh chỉ ra phương pháp nén dữ liệu âm thanh để làm
giảm tốc độ truyền tải dữ liệu trong một luồng thông tin âm thanh truyền tải qua mạng;
• Phần Kiểm thử tương thích cung cấp hướng dẫn và mô hình thâm
khảo cho việc kiểm thử tính tương thích của MPEG – 2;
• Phầm mềm tham chiếu chỉ ra phương pháp mã hóa, giải mã như thế
nào
Nội dung của Phần Phim ảnh và Phần Âm thanh mô tả các định dạng
được sử dụng phổ biến trong lưu trữ, trao đổi, xử lý âm thanh và phim ảnh (vídụ: (.mpg), (mpeg), (.mp1), (.mp2), (.mp3), (.mlv), (.mla), (.m2a), (.mpa), (.mpv))
MPEG – 1 phần Phim ảnh và phần Âm thanh
MPEG – 1 phần Phim ảnh (IOS/IEC – 11172 – 2) sử dụng các phương pháp nén ảnh để làm giảm tốc độ dữ liệu thoe yêu cầu của một luồng phim ảnh Phương pháp nén ảnh sẽ giảm hoặc loại bỏ hoàn toàn thông tin/dữ liệu trong một dải tần số nhất định và các khu vực hình ảnh mà mắt người nhận biết một cách hạn chế Các thuật toán nén phim ảnh và các bộ mã hóa/giải mã(codecs) đều kết hợp kỹ thuật nén hình ảnh theo không gian và kỹ thuật bù đắp chuyển động theo thời gian Trong thực tế, hầu hết các bộ mã hóa/giải mãđều tiến hành kỹ thuật nén âm thanh và nén hình ảnh song song hay riêng biệtcho một tệp tin phim ảnh, tuy nhiên, các dòng dữ liệu được kết hợp lại và gửi
đu như một gói dữ liệu MPEG – 1 phần Phim ảnh hỗ trợ đọ phân giải lên đến4095x4095 (12 bít) và tốc độ bít lên đến 100 Mbit/s MPEG – 1 phần Phim ảnh thường sử dụng độ phân giải SIF (Soure Input Format): 352 x 240 , 352 x
288 hoặc 320 x 240 Độ phân giải thấp kết hợp với một tỉ lệ tốc độ bít thấp hơn 1,5 Mbit/s tạo ra một dòng dữ liệu bít thấp với thông số hạn chế Đây là thông số kỹ thuật tối thiêu mà bất kỳ bộ mã hóa/giải mã nào cũng xử lý được,
Trang 16được bảo đảm sự cân bằng giữa chất lượng phim ảnh và hiệu quả sử dụng, cho phép triển khai trên các hệ thống phần cứng có chi phí không cao.
MPEG - 1 phần Âm thanh (ISO/IEC – 11172 – 3) được chia làm 02 lớp : MPEG – 1 phần Âm thanh Lớp I có tỉ lệ tốc độ bít từ 32 – 448 kbit/s (32, 64, 96…416, 448 kbit/s), Lớp II có tỉ lệ tốc độ bít từ 32 – 384 kbit/s (32,
48, 56, 64, 80…256, 320, 384 kbit/s) Việc mã hóa/giải mã sẽ phức tạp hơn trong lớp cao hơn và sử dụng hiệu quả ở tỉ lệ tốc độ bít thấp hơn
MPEG – 1 phần Âm thanh Lớp I có định dạng tệp tin là (.mp1) và định dạng tệp tin của Lớp II là (.mp2), chủ yếu được sử dụng trong phát sóng truyền hình MPEG – 1 phần Âm thanh Lớp III, thường được gọi là MP3, có định dạng tệp tin là (.mp3), là dạng âm thanh phổ biến trong ngành công nghiệp âm nhạc, giải trí trên Internet do kích thước nhỏ gọn và chất lượng âmthanh của tệp tin mp3
Cho đến nay, các phần được cập nhật nhiều lần Lần cập nhật mới nhất cho các phần của MPEG – 1 là ISO/IEC – 11172 – 1 (1999); ISO/IEC –
11172 – 2 (2006); ISO/IEC – 11172 – 3 (1996), ISO/IEC – 11172 – 4 (2007), ISO/IEC – 11172 – 5 (2007)
MPEG – 1 là tiêu chuẩn nén suy hao cho âm thanh, phim ảnh MPEG – 1 được thiết kế để nén âm thanh, phim ảnh xuống 1.5 Mbit/s ( tỉ lệ nén tương ứng là 26:1 và 6:1 ) mà không giảm chất lượng âm thanh, phim ảnh quá mức
2. Đặc tính ( cấu trúc dòng bít và các tham số của MPEG – 1 )
Cấu trúc dòng bít của MPEG – 1 cũng tương tự như cấu trúc dòng bít của MPEG,nó được phân thành các lớp gồm:
• Sequence ( chuỗi ảnh ) : gồm nhiều nhóm ảnh GOP, có chức
năng là dòng bít video
• GOP (Group of Picture ): gồm từ 1- n ảnh bắt đầu bằng ảnh I,
có chức năng là đơn vị truy xuất
• Picture I, P, B: gồm nhiều Slice, chức năng là đơn vị mã hoá
Trang 17• Block : gồm 8 x 8 pixel, là đơn vị tính DCT.
Bảng 2: Tham số theo tiêu chuẩn MPEG -1:
Tham số Đặc điểm
Tín hiệu mã hoá Cấu trúc lấy mẫu Kích thước ảnh tối đa(điểm ảnh x điểm ảnh)
Biểu diễn mẫu
Độ chính xác của quá trình lượng tử hoá và biến đổi DCT
Phương pháp lượng tử hoá hệ số DCT Cấu trúc khối trong quá trình lượng tử hoá thích nghi
Độ chính xác cực đại của hệ số DC
Biến đổi RLC Bảng VLC
4095 x 4095
8 bít
9 bít DPCM tuyến tính
16 x 16 bít
8 bít
Mã Huffman Không thể truyền tải
Có thể biến đổi
Trong khung hình và giữa các
khung hình Tuần tự
MPEG-1 không thực sự định nghĩa thiết kế một bộ mã hóa, thay vào đó
chuẩn này mô tả cú pháp mã hóa và bộ giải mã “tham khảo” giả thuyết
Trang 183. Đặc điểm của chuẩn nén MPEG-1
MPEG-1 được thiết kế ban đầu nhằm mã hóa ảnh động và âm thanhthành dòng bít có tốc độ của audio Compact Disc Kết quả tạo ra Video-CDnhưng hiện nay đã được thay thế bởi DVD Để đạt được tốc độ có dòng bitthấp MPEG-1 sử dụng tỉ lệ hình ảnh từ 24-30Hz cho kết quả là chất lượng ởmức trung bình
Để đạt được tốc độ bit này , MPEG-1 giảm giảm tốc độ lấy mẫu bằngmột nửa TV chuẩn Cụ thể với hệ thống 25Hz hình ảnh có kích thước325x288 điểm ảnh, còn với 30Hz là 352x240 điểm ảnh với định dạngCIF(common intermediate format), với tín hiệu đầu vào là tín hiệu video tổnghợp, CIF có thể nhận được bằng cách giảm tốc độ lấy mẫu các dòng tích cựcxuống một nửa
MPEG -1 chỉ hỗ trợ non-interlaced video Thông thường, các chuẩnframe mà nó hỗ trợ là:
• NTSC: 352x240 , 30fps
• PAL: 352x288 , 25fps
MPEG-1 và MPEG nói chung đưa thêm frame B để hỗ trợ dự đoán 2chiều nhằm tăng thêm độ chính xác:
• Mỗi Frame B sẽ có 2 vector chuyển động
• Nếu cả hai chiều đều tìm được MB tương ứng thích hợp thì cả
2 vector này đều được truyền đi, sai số dự đoán sẽ được tínhsau khi lấy trung bình của 2 MBs
• Nếu chỉ có một chiều dự đoán thành công, chỉ có một vectorđược truyền đi và MB này sẽ được dự đoán theo frame thamchiếu tương ứng
Trang 19Một số khác biệt chủ yếu của MPEG-1 so với H261:
• H261 chỉ hỗ trợ CIF và QCIF, MPEG-1 hỗ trợ cả SIF (NTSC,PAL)
• MPEG-1 hỗ trợ cả những định dạng thỏa mãn các điều kiệnsau:
• Một ảnh có thể chia thành một hoặc nhiều slices thay vì GOPnhư trong H261
• Sử dụng các bảng lượng tử khác nhau cho Intra và Inter frame
Trang 20• MPEG-1 hỗ trợ cửa sổ tìm kiếm lớn 512, 511.5] thay vì 15,15] như H261
[-• MPEG-1 hỗ trợ truy cập ngẫu nhiên nhờ có lớp GOP
Tỉ số nén điển hình của các loại Frame trong MPEG-1:
Trang 21Dòng bit video của MPEG-1
4. Định dạng trung gian CIF (Soure Intermediate Format).
Khi truyền hình màu phát triển, xuất hiện nhiều hệ truyền hình khácnhau như: NTSC (Ở Mỹ), PAL (châu Âu)… với các hệ thống quét truyềnhình khác nhau như hệ 525/60 và 625/50 Do đó cần có một định dạng chungcho nguồn tin hiện dùng cho bộ mã hoá nén số liệu và các xác định riêngkhác nhau phủ hợp mỗi hệ thống Định dạng trung gian cho nguồn tín hiệuđược gỏi là SlF (Source lntcrmodiatc Format)
Trong định dạng chung này, tần số lấy mẫu được lấy theo xác định củachuẩn CCIR – 601 Do đó số mẫu trên một dòng tích cực của cả hai tiêuchuẩn 526/60 và 625/50 là bằng nhau Quá trình chuyển đổi từ định dạng theotiêu chuẩn CCIR – 601 sang định dạng SIF được thực hiện bằng cách sử dụngmột bộ lọc thập phân theo chiều ngang cho các mảnh lẻ của tín hiệu Y, một bộlọc theo chiều ngang và một bộ lọc theo chiều thẳng đứng cho các mảnh số lẻcho các tín hiệu Cr và Cb như sau:
Trang 22Hình 6: Quá trình biến đổi sang định dạng SIF và kích thước mảng các điểm
Trang 23Giá trị điểm ảnh tại vị trí n được tính bằng : tích số của các giá trị điểmảnh từ (n-3) đến (n+3) với các hệ số của bộ lọc tương ứng tại vị trí này trênhình vẽ trên.
Tổng các kết quả này được chia cho 256 và thu được giá trị điểm ảnh ở
vị trị n Phép tính theo được thực hiện cho điểm ảnh ở vị trí n+2
Một quá trình lọc tương tự áp dụng theo chiều thẳng đứng tạo ra giá trịthập phân tín hiệu Cr và Cb theo chiều này
Số các điểm ảnh trên một dòng tích cực được giảm từ 360 xuống 352 đểthu được một bội số của 16 nhằm tổ chức thuận lợi cấu trúc khối điểm ảnh16x16 với cấu trúc 4:2:0 Ảnh tích cực đã được làm giảm xuống (352 x 240)được gọi là vùng điểm ảnh xác định (có ý nghĩa) cho SIF Định dạng SIF phốihợp với cấu trúc lấy mẫu 4:2:0 làm giảm thêm số liệu tín hiệu màu Các thông
số cho định dạng SIF đối với các tiêu chuẩn truyền hình được cho trong bảngsau:
Bảng 3: Tính chất các định dạng ảnh SIF cơ bản:
Trang 24Trước khi mã hóa MPEG – 1, tốc độ số liệu ban đầu cần được giảm nhờ
bộ biến đổi 4:2:2 sang định dạng SIF, từ dòng số có tốc độ 166 Mb/s (98 bit biểu diễn mẫu) xuống dòng số có tốc độ 31.5 Mb/s Do đó quá trình giải mã
sẽ cần một bộ chuyển đổi ngược lại quá trình này
II. Kỹ thuật nén MPEG - 1
1. Kỹ thuật
Nén MPEG là sự kết hợp hài hòa giữa bốn kĩ thuật đơn giản:
• Tiền xử lý (Preprocesing): lọc ra các thông tin không cần thiết
từ tín hiệu video và những thông tin khó mã hóa nhưng không quan trọng cho cảm thụ của mắt người
• Đoán trước sự chuyển động của các frame ở bộ mã hóa (Temporal prediction): dựa trên nguyên tắc là các ảnh trong
chuỗi video dường như có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm nhất định sẽ có nhiều
Trang 25nó Các bộ mã hóa sẽ quét lần lượt từng phần nhỏ trong mỗi frame và chỉ phát những thay đổi giữa các khối trong frame hiện tại và các khối được bộ mã hóa tiên đoán tới phía thu Nhờvậy mà có thể loại bỏ dư thừa về thời gian.
• Bù chuyển động ở bộ giải mã (motion compensation): tại
phía thu có lưu trữ sẵn những thông tin mà không thay đổi của frame này tới frame khác trong bộ nhớ đệm và chúng được dùng để điền thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi phục Đây cũng chính là một trong những công
cụ mạnh để làm giảm dư thừa về không gian giữa các bức ảnh
• Mã lượng tử hóa (quatisation coding): Giảm độ chính xác
của tín hiệu, bằng cách chia nó thành một số kích thước bước lớn hơn (nghĩa là tìm bội số gần nhất và loại bỏ phần dư / mô đun)
Trong MPEG-1, video được biểu diễn dưới dạng một chuỗi các hình ảnh
và mỗi hình ảnh được coi là một mảng pixel hai chiều (pels) Màu sắc của mỗi pel bao gồm ba thành phần: Y (độ chói), Cb và Cr (hai thành phần sắc độ)
Để đạt được tỷ lệ nén cao, MPEG-1 phải sử dụng các kỹ thuật mã hóa lai
để giảm cả dư thừa không gian và dự phòng theo thời gian Những kỹ thuật này được mô tả như sau:
• Chuyển đổi không gian màu và lấy mẫu con của thông tin sắc độ
Nhìn chung, mỗi pels trong một bức tranh bao gồm ba thành phần: R (Đỏ), G (Xanh lục), B (Xanh lam) Nhưng (R, G, B) phải được chuyển đổi thành (Y, Cb, Cr) trong MPEG-1, sau đó chúng được xử lý Chúng ta có thể xem giá trị màu của từng viên từ Không gian màu RGB hoặc Không gian màu YCbCr Vì(Y, Cb, Cr) ít tương quan hơn sau đó (R, G, B), nên chúng ta cóthể mã hóa các thành phần (Y, Cb, Cr) hiệu quả hơn Thông thường chúng ta sử dụng (Y, U, V) để biểu thị (Y, Cb, Cr) Phương trình chuyển đổi của nó được mô tả như dưới đây:
Trang 26Sau khi chuyển đổi không gian màu, mỗi pels được biểu diễn dưới dạng (Y, Cb, Cr) vì hệ thống thị giác của con người (HVS)nhạy cảm nhất với thành phần Y Vì vậy, chúng tôi mã hóa thành phần Y với độ phân giải đầy đủ Nhưng HVS ít nhạy cảmhơn với các thành phần Cb Cr, vì vậy chúng tôi lấy mẫu các thành phần Cb Cr Bằng cách đó, chúng tôi có thể giảm dữ liệu
mà không ảnh hưởng đến chất lượng hình ảnh từ chế độ xem người Trong MPEG-1, độ phân giải của Y gấp 4 lần độ phân giải của Cb và so với độ phân giải của Cr (đường chân trời 2 vàdọc 2), mô tả như dưới đây: và dọc 2), mô tả như dưới đây: