Ch−ơng 4 : Các kỹ thuật xử lý đa ph−ơng tiện
4.2 Các kỹ thuật xử lý tín hiệu đa ph−ơng tiện
4.2.1 Xử lý hình ảnh
Ph−ơng pháp mã hố hình ảnh MPEG-4 đ−ợc sử dụng trong các dịch vụ đa ph−ơng tiện IMT2000 khác nhau nh− điện thoại video và truyền video. Phần này giới thiệu các kỹ thuật và đặc tr−ng của các ph−ơng pháp mã hố hình ảnh đã ra đời tr−ớc chuẩn MPEG-4.
4.2.1.1 Cơng nghệ m∙ hố phần tử ảnh
Thơng th−ờng, các tín hiệu hình ảnh chứa khoảng100Mb/s thơng tin, dựa trên những đặc tính của hình ảnh có nhiều ph−ơng thức xử lý đã đ−ợc phát triển nh−:
đổi cosin rời rạc (DCT), ph−ơng pháp mã hoá độ dài biến thiên (VLC). Các ph−ơng pháp này còn đ−ợc gọi là các công nghệ xử lý phần tử ảnh.
Ph−ơng pháp dự đoán bù chuyển động giữa các khung hình (IMCP)
Hình 4.1 minh hoạ ý t−ởng cơ bản của ph−ơng pháp mã hoá dự đoán bù chuyển động (IMCP). IMCP là kỹ thuật mã hoá độ lớn và h−ớng chuyển động của một phần tử ảnh hiện tại (xác định bằng cách so sánh các hình ảnh tr−ớc và sau ảnh hiện tại) thay vì mã hố từng ảnh (khung hình). H−ớng và độ lớn chuyển động (vectơ chuyển động) thay đổi theo các khối trong mỗi ảnh. Vì vậy, một ảnh đ−ợc chia thành các khối (block) có kích th−ớc 16x16 điểm ảnh ( đ−ợc gọi là khối ảnh lớn ) để xác định đ−ợc vectơ chuyển động của mỗi khối. Sự khác nhau giữa các khối ảnh lớn trên hình ảnh hiện tại và trên hình ảnh tr−ớc đó đ−ợc gọi là sai số dự đoán đ−ợc. DTC đ−ợc ứng dụng để mã hoá sự khác nhau này.
( Có sự khác nhau về sự dịch chuyển của đám khói và máy bay)
Hình 4.1 ý t−ởng cơ bản của ph−ơng pháp mã hoá dự đốn bù chuyển động giữa các khung hình
DCT
Mỗi hình ảnh trong video đ−ợc biểu diễn là tổng hợp của các thành phần ảnh từ đơn giản (thành phần tần số thấp) đến phức tạp (thành phần tần số cao). Nh− đã biết, thông tin chủ yếu tập trung ở các thành phần tần số thấp - đóng vai trò quan trọng đối với thị giác. Sau khi thực hiện DCT, ng−ời ta tách lấy các thành phần tần số quan trọng ở đầu cuối để nén thông tin. Ph−ơng pháp này đ−ợc áp dụng rộng rãi vì việc chuyển đổi thơng tin hình ảnh sang miền tần số-khơng gian có thể đ−ợc tiến hành một cách hiệu quả.
Trong thực tế, DCT đ−ợc áp dụng với mỗi block của một khung hình (8x8 điểm ảnh). Trong hình 4.2, “ai” là hệ số DCT. Hệ số này đ−ợc l−ợng tử hố và làm trịn đến một mức l−ợng tử, sau đó đ−ợc mã hố theo ph−ơng pháp mã hố độ dài biến thiên (VLC). Hình 4.2 minh hoạ khái quát về DCT.
Hình 4.2 Khái niệm về DCT
VLC
VLC đ−ợc dùng để nén thông tin dựa vào tính chất bất th−ờng của các giá trị tín hiệu (phần tử ảnh) đầu vào. Ph−ơng pháp này phân chia các mã ngắn cho các giá trị tín hiệu xuất hiện th−ờng xuyên và mã dài cho các giá trị tín hiệu xuất hiện ít th−ờng xuyên hơn.
4.2.1.2 Vị trí của các ph−ơng pháp m∙ hố hình ảnh động (video) khác nhau
Các ph−ơng pháp mã hố hình ảnh động theo tiêu chuẩn quốc tế bao gồm: H.261, MPEG-1, MPEG-2, H.263 và MPEG-4. Hình 4.3 trình bày các phạm vi ứng dụng của mỗi ph−ơng pháp. Phần d−ới đây sẽ miêu tả cách ứng dụng các cơng nghệ mã hố phần tử ảnh đã giới thiệu ở trên trong mỗi ph−ơng pháp để tăng hiệu suất nén và sự khác nhau về chức năng của các ph−ơng pháp mã hố hình ảnh động này.
Hình 4.3 Sự t−ơng quan giữa MPEG-4 và các tiêu chuẩn khác
Khung hình kế tiếp Cao Thấp Chất l − ợng
M∙ hoá Video H.261
Là chuẩn Quốc tế đầu tiên cho mã hố hình ảnh video, chuẩn hố bởi ITU-T năm 1990, đ−ợc dùng trong dịch vụ thoại thấy hình ISDN, hội nghị truyền hình. H.261 áp dụng tất các cơng nghệ mã hố phần tử ảnh đã giới thiệu ở phần trên, đó là:
1. Dự đoán vectơ chuyển động của một khối 16x16 điểm ảnh để thực hiện IMCP.
2. DTC đ−ợc ứng dụng để mã hoá sự khác nhau (lỗi dự đoán đ−ợc) giữa các khối của khung hình hiện tại và kế tiếp (mỗi khối có kích th−ớc 8x8 điểm ảnh). Đối với các vùng hình ảnh có sự thay đổi lớn v−ợt quá ng−ỡng chất l−ợng của lỗi dự đoán đ−ợc thì ph−ơng pháp IMCP khơng đ−ợc sử dụng, thay vào đó ng−ời ta sử dụng ph−ơng pháp DTC với các khối 8x8 điểm ảnh để tăng hiệu quả mã hoá.
3. Thực hiện VLC riêng biệt cho vectơ chuyển động thu đ−ợc từ IMPC và kết quả của DCT.
H.261 đ−ợc áp dụng cho camera truyền hình thơng th−ờng và màn giám sát. Các dạng tín hiệu TV (khung và dòng quét) theo các tiêu chuẩn khu vực về hệ truyền hình trên thế giới là khác nhau, để phục vụ thơng tin liên lạc mang tính quốc tế các dạng tín hiệu này phải đ−ợc chuyển thành một định dạng trung gian. Định dạng trung gian này có tên là định dạng trung gian chúng (CIF) với đặc tính: “352x288 điểm ảnh , số hình trên giây lớn nhất là 30 ".
M∙ hoá video MPEG-1/MPEG-2
MPEG-1 đ−ợc chuẩn hoá bởi ISO/IEC vào năm 1993 dùng cho các ph−ơng tiện l−u trữ dữ liệu hình ảnh (CD-ROM) với tốc độ khoảng 1,5Mbit/s. MPEG-1 đáp ứng đ−ợc u cầu xử lý thời gian thực, vì thế có thể áp dụng đ−ợc các công nghệ mới với các khả năng nh−: tìm kiếm ngẫu nhiên. Về cơ bản MPEG-1 cũng giống nh− H.261 nh−ng có thêm các tính năng mới sau:
1. Nếu H261 dự đoán các vectơ chuyển động từ những hình ảnh tr−ớc đó để thực hiện IMCP (dự đốn xi ) thì MPEG-1 có thêm khả năng dự đốn từ các hình ảnh sau (dự đốn ng−ợc ) nhờ các đặc tính của cơng cụ l−u trữ. Thêm vào đó, MPEG-1 thực hiện so sánh các lỗi dự đoán đ−ợc từ các ph−ơng
pháp dự đốn xi, ng−ợc và giá trị trung bình của 2 ph−ơng pháp này sau đó lấy giá trị nhỏ nhất để tăng tỷ lệ nén.
2. Trong khi H261 dự đoán các vector chuyển động trong các đơn vị 1 điểm ảnh, MPEG-1 dự đoán trong các đơn vị 0,5 điểm ảnh bằng các tạo ra một hình ảnh nội suy thơng qua giá trị trung bình của các điểm ảnh liền kề nhau. Dự đốn chuyển động đa khung với hình ảnh nội suy cho phép nâng cao tỷ lệ nén.
Với các khả năng mới này MPEG-1 đ−ợc dùng rộng rãi nh− bộ mã hoá và đọc video cho các máy tính cá nhân.
MPEG-2 đ−ợc chuẩn hố bởi ISO/IEC vào năm 1996 và đ−ợc sử dụng cho viễn thơng, thơng tin quảng bá và l−u trữ hình ảnh với tốc độ 3-20Mbit/s. Trong thực tế, MPEG-2 đ−ợc dùng rộng rãi cho truyền hình số, truyền hình độ phân giải cao (HDTV), DVD. MPEG-2 thừa h−ởng các đặc tính của MPEG-1 và có thêm các đặc tính sau:
1. Khả năng mã hố một cách hiệu quả hình ảnh xen kẽ dùng trong các tín hiệu TV thơng th−ờng.
2. Tính năng điều chỉnh kích th−ớc, chất l−ợng hình ảnh theo ý muốn bằng cách chỉ khơi phục lại một phần dữ liệu đã đ−ợc mã hoá.
Vì các đặc tính đ−ợc thêm vào cho các mục sử dụng khác nhau nên phải bảo đảm tính t−ơng thích của các dữ liệu đ−ợc mã hố. MPEG-2 đã đ−a vào khái niệm mới là “profile” và “level” để phân lớp sự khác nhau của các chức năng và sự phức tạp việc xử lý.
M∙ hoá Video H.263
Đ−ợc chuẩn hoá bởi ITU-T năm 1996, là ph−ơng pháp mã hố hình ảnh với tốc độ bit cực thấp 28,8Kb/s, kế thừa các đặc tính mới của chuẩn MPEG-1. Các tính năng cơ bản bắt buộc của H263 là: Dự đốn bù chuyển động giữa các khung hình trong các đơn vị 0,5 điểm ảnh, mã hoá VLC. Ngồi ra, các tuỳ chọn nh−: Dự đốn bù chuyển động giữa các khung hình cho các khối 8x8 điểm ảnh, giảm nhiễu khối trong các hình ảnh v.v... cũng đ−ợc thêm vào.
H263 hiện tại đ−ợc dùng trong một số các thiết bị phục vụ hội nghị truyền hình, điện thoại thấy hình trong ISDN.
4.2.1.3 M∙ hố video MPEG-4
MPEG-4 đ−ợc ISO/IEC phát triển dựa trên những −u điểm của H263 của ITU-T vào năm 1999 , bao gồm khả năng chống lỗi cao.
Với MPEG-2 đ−ợc xây dựng chủ yếu dùng cho việc xử lý hình ảnh trong các máy tính cá nhân, truyền hình số và thơng tin tốc độ cao. Ngồi các dịch vụ kể trên, MPEG- 4 đ−ợc chuẩn hoá với sự tập trung đặc biệt vào các ứng dụng viễn thơng nói chung và thơng tin di động nói riêng. MPEG-4 đ−ợc đánh giá là công nghệ then chốt cho các dịch vụ đa ph−ơng tiện: video-th−, truyền video cũng nh− điện thoại video trong ITM- 2000.
Hình 4.4 Phạm vi ứng dụng của MPEG-4
Profile và Level
Để đảm bảo khả năng hoán đổi và t−ơng tác của dữ liệu đ−ợc mã hoá đối với các ứng dụng khác nhau, các chức năng của MPEG-4 đ−ợc phân lớp theo profile (lớp chức
năng) cịn mức độ phức tạp tính tốn đ−ợc phân lớp theo level (mức) nh− trong MPEG-
2. Các lớp chức năng đ−ợc định nghĩa gồm: Lớp đơn giản (Simple), lớp lõi (Core), lớp chính (Main) và lớp đơn giản mở rộng (Simple Scalable) trong đó lớp đơn giản định nghĩa các chức năng cơ bản.
VD: Dự đoán bù chuyển động đa khung với 8x8 điểm ảnh trong H 263 nằm trong lớp đơn giản.
Thông tin
- Điện thoại di động video
- Điện thoại di động có thể truyền hình hội nghị
Thơng tin quảng bá - T.V di động
- Phát tán thông tin di động ( Video và âm thanh) Máy tính
- Th− Video
- Thơng tin đa ph−ơng tiện theo yêu cầu - Internet di động
Với lớp đơn giản , các hình ảnh QCIF với kích th−ớc bằng 1/4 của CIF đ−ợc xử lý ở mức 0 và 1 còn CIF ở mức 2.
Các tiêu chuẩn ITM 2000
Tiêu chuẩn cho điện thoại thấy hình 3GPP 3G-324M trong ITM2000 địi hỏi các chức năng cơ bản trong H263 nh− là ph−ơng thức mã hố hình ảnh bắt buộc và khuyến nghị sử dụng MPEG-4 với Simple profile và level 0. Simple profile bao gồm các công cụ chống lỗi:
1. Đồng bộ lại : Hạn chế lỗi truyền dẫn bằng cách chèn mã đồng bộ lại vào trong
dữ liệu VLC và xắp xếp mã này vào vị trí hợp lý ở trong khung dữ liệu. Vì thơng tin tiêu đề nối tiếp ngay sau mã đồng bộ lại để xác định các tham số mã hoá nên cho phép dữ liệu đ−ợc khơi phục lại nhanh chóng từ trạng thái của các lỗi mã hoá.
2. Phân chia dữ liệu: Dấu lỗi bằng cách chèn mã đồng bộ SC vào ranh giới giữa
các loại dữ liệu. VD: nhờ chèn SC vào giữa dữ liệu của vectơ chuyển động và hệ số DCT, vectơ chuyển động có thể đ−ợc truyền đi một cách chính xác ngay cả khi một lỗi bit bị lẫn vào phần hệ số DCT.
3. VLC nghịch (RVLC) : Có thể giải mã các dữ liệu theo cả hai chiều, đ−ợc áp
dụng đối với hệ số DCT. Với công cụ này, tất cả các khối điểm ảnh lớn (macro) đều có thể đ−ợc giải mã trừ các khối nằm giữa các lỗi bit sẽ bị bỏ qua.
Hình 4.5 Ví dụ về q trình giải mã RVLC
Với những đặc điểm trên, MPEG-4 lớp chức năng đơn giản- mức 0 tạo thành một CODEC rất đơn giản phù hợp cho thông tin di động.
Giải mã
Giải mã
Lỗi
Lỗi Lỗi Giải mã ng−ợc Không giải mã → bỏ
(a) Giải mã một chiều với mã độ dài biến thiên thông th−ờng Không giải mã → bỏ