Công cụ mã hoá cho đối t−ợng Video

ở đây N là số đối t−ợng Video, và αj[ ]m n, và Ij [m, n] là mặt phẳng alpha và

c−ờng độ ảnh của đối t−ợng Video j.

Hình 3.2. Ví dụ ảnh ghép hợp bao gồm 3 mặt phẳng đối t−ợng Video (mỗi mặt phẳng xác định bởi 1 thành phần màu).

Với mặt phẳng alpha, thông tin điều khiển đối t−ợng Video trong hình 3.1 có thể đáp ứng bởi thuật toán vết đối t−ợng on hoặc off, dựa trên một vài kỹ thuật phân ảnh/chuyển động. Hoàn toàn đúng đắn khi cho rằng đối t−ợng

Video đ−ợc tạo ra hoặc tồn tại nh− tiêu đề ti vi/ phim ảnh và đồ hoạ máy tính. L−ợc đồ phân tích hình (3.1) cung cấp kiến trúc phổ biến cho kết hợp giữa thuộc tính tự nhiên và nhân tạo của đối t−ợng Video.

3.1.2. Công cụ mã hoá cho đối t−ợng Video

Một nhóm ảnh h−ớng đối t−ợng đ−ợc miêu tả bởi hình dạng, thành phần màu và thông tin chuyển động. Thuật toán khối thích hợp tiêu chuẩn cho đánh giá chuyển động có thể mở rộng cho mã hoá h−ớng đối t−ợng Video trên cơ sở khối biên boundary blocks, nh− chuẩn MPEG-4.

3.1.2.1. Định dạng m∙ hoá

Kỹ thuật mã hoá theo hình dạng đ−ợc dùng để giới thiệu thông tin mặt phăng alpha. Thuật toán mã hoá hình dạng chung có thể ứng dụng trực tiếp

có thể mã hoá tín hiệu hỗ trợ sử dụng bộ mã hoá nhị phân chữ nhật nhờ giá trị mã hoá trong suốt bên trong đối t−ợng dựa trên cơ sở kết cấu bộ mã hoá. T−ơng tự nh− ứng dụng nén ảnh truyền thống, mã hoá hình dạng có thể có tổn thất hoặc tổn thất rất ít. Mã hoá bản đồ bit hoặc chuỗi mã hoá là hai ph−ơng pháp phổ biến cho nén định dạng ít tổn haọ Trong bản đồ bit mã hoá(một trong các chuẩn MPEG-4), ranh giới khối gồm đầy đủ mặt phẳng đối t−ợng

Video đã đ−ợc định nghĩạ Mặt phẳng bit xác định phần đục (dạng nhị phân) của điểm ảnh riêng lẻ trong ranh giới khối hợp đ−ợc mã hoá entropy. Trong chuỗi mã hoá, tất cả ranh giới điểm ảnh từ đối t−ợng đ−ợc phát hiện dọc theo đ−ờng viền đối t−ợng. Thay đổi quan hệ trực tiếp (đi từ điểm này đến điểm khác) là thông tin yêu cầu mã hoá. Cấu trúc lại hình ảnh chính xác của mặt phẳng đối t−ợng Video nhằm mục đích giảm giá của bit trong mã hoá theo

hình dạng có tổn haọ Thuật toán nén hình dạng có tổn hao bao gồm tính xấp xỉ hình học, miêu tả Fourier và tiềm ẩn việc mã hoá.

3.1.2.2. Cấu trúc m∙ hoá

Khối truyền thống và băng con biến đổi cho ứng dụng mã hoá ảnh đ−ợc thực hiện cho tín hiệu trong hình chữ nhật. Trong tr−ờng hợp này, DCT đ−ợc thiết lập trong chuẩn mã hoá quốc tế th−ờng là khối 8 x 8. Biến đổi DWT đ−ợc hình thành cho toàn bộ ảnh.

Một vài thuật toán đ−ợc đề cập trong luận văn nhằm tăng hiệu quả biến đổi cấu trúc hình dạng tín hiệu cho đối t−ợng - cơ sở mã hoá. Thuật toán đệm rất đơn giản và đ−ợc giới thiệu trong luận văn. Với cách tiếp cận nh− trên, đ−ờng viền khối từ hình dạng tuỳ ý của mặt phẳng đối t−ợng Video đ−ợc đệm trong phạm vi khốị Nó đ−ợc sử dụng trong chuẩn MPEG-4 sử dụng DCT và trong OWT (Object Wavelet Transform).

Tuy nhiên ph−ơng pháp này tạo ra nhiều mẫu tín hiệu để mã hoá sau khi biến đổi, do đó nó không hiệu quả trong nén. Công cụ mã hoá xem biên đối t−ợng nh− là kết quả tín hiệu đệm. Hình dạng thích nghi DCT (SA-DCT)

minh hoạ trên hình 3.3 là một l−ợc đồ phổ biến khác của đối t−ợng và đ−ợc chọn trong chuẩn MPEG-4 phiên bản 2. Đặc tính −u việt của ph−ơng pháp này là nó hệ số biến đổi chính xác giống nh− đầu vàọ Tuy nhiên đặc tính thống kê của hệ số theo chiều ngang đ−ợc thay đổi bởi một hệ số hoạt động minh hoạ trên hình 3.3 (b). Điều này có thể làm giảm hiệu quả truyền theo chiều ngang. Thuật toán t−ơng tự đ−ợc phát triển cho biến đổi wavelet thích nghi - Adaptive

Wavelet Transforms (SAWT).

Miền khác- cơ sở biến đổi wavelet RBDWT với đặc tính điển hình sẽ đề cập đến trong mục 3.2.

3.2. Đối t−ợng-Cơ sở mã hoá sử dụng EZBC

Trong mục này chúng ta sẽ phát triển thuật toán mã hoá EZBC nhằm tăng hiệu quả trên đối t−ợng - cơ sở mã hoá ảnh. Thuật toán đ−a ra có thể ứng dụng trên cơ cấu mã hoá mặt phẳng đối t−ợng Video VOP - cơ sở của hệ thống mã hoá Video. Đầu tiên chúng ta cung cấp tổng quan về hệ thống. Cốt lõi của thuật toán, đối t−ợng - cơ sở mã hoá mặt phẳng bit EZBC, sẽ đ−ợc đề cập chi tiết trong mục saụ

Hình 3.3. Các b−ớc thực hiện SA-DCT.

3.2.1. Tổng quan

Đối t−ợng đề xuất - cơ sở của hệ thống mã hoá ảnh EZBC (OB-EZBC) biểu thị trên hình 3.4 (a). Bộ mã hoá chấp nhận đối t−ợng ảnh, ký hiệu bởi VOP’s, nh− là đầu vào và mã hoá chúng riêng lẻ. Đầu vào của mặt phẳng đối t−ợng Video có thể tồn tại trực tiếp bởi ứng dụng của một vài thuật toán phân chiạ

Giả thiết rằng mặt phẳng alpha kết hợp với mặt phẳng đối t−ợng Video riêng lẻ đ−ợc l−ợng tử hoá sang dạng nhị phân. Vì thế mỗi điểm ảnh đầu vào đ−ợc xem nh− là bên trong hoặc bên ngoài của một đối t−ợng. Bất kỳ thuật toán mã hoá định dạng nào đã giới thiệu trong mục 3.1.2.1 cũng có thể đ−ợc thiết lập để giới thiệu thông tin định dạng trong hệ thống. Mã hoá định dạng có tổn hao có thể đ−ợc ứng dụng ngay khi hình dạng đối t−ợng khôi phục đ−ợc đ−a cho chuỗi kết cấu mã hoá tuần tự.

Cấu trúc tín hiệu phân chia theo miền - cơ sở biến đổi wavelet rời rạc (RBDWT), đ−ợc miêu tả 1 cách ngắn gọn. Hệ số biến đổi w đ−ợc mã hoá bởi đối t−ợng đề xuất là hệ số mã hoá mặt phẳng bit cơ bản EZBC (xem chi tiết trong mục 3.2.3). Mặt phẳng phân chia alpha hay mặt nạ m, cung cấp thông tin định dạng cho đối t−ợng biến đổi trong băng con riêng lẻ, đ−ợc dùng làm đầu vào cho mặt phẳng bit mã hoá. Luồng bit cho mã hoá định dạng và cấu trúc mã hoá của đối t−ợng riêng lẻ đ−ợc biên dịch trong luồng vào bộ xử lý để phát sinh luồng bit cuối cùng.

(b) Một nhánh băng con của kỹ thuật mã hoá mặt phẳng bit OB-EZBC

Hình 3.4. Sơ đồ khối của đối t−ợng cơ sở của hệ thống mã hoá ảnh EZBC. 3.2.2. Miền – Cơ sở biến đổi Wavelet rời rạc

Miền - cơ sở biến đổi wavelet rời rạc (RBDWT) phân chia cho tín hiệu ảnh có hình dạng tuỳ ý. Thuật toán biến đổi băng con này không mở rộng, đó là một đặc tính điển hình cho hiệu quả nén. Số mẫu đầu vào giống hệt kết quả hệ số biến đổị Cơ sở biến đổi wavelet rời rạc RBDWT thiết lập trong hệ thống này là phiên bản đã đ−ợc hiệu chỉnh. Trong quá trình thực hiện, bộ lọc QMF đ−ợc thay thế bởi bộ lọc Daubechies 9/7. Thuật toán không mở rộng tín hiệu cân đối cho băng lọc đa tốc độ đ−ợc sử dụng để quản lý biên của đối t−ợng.

Đ−ờng phân đoạn của việc lấy mẫu xuống đ−ợc hình thành với toàn hình ảnh nguồn kết hợp, thay vì kết hợp cục bộ trong đ−ờng viền của băng lọc đầu vàọ Sau đó có thể gây ra trễ pha từ hàng này đến hàng khác, từ cột này đến cột khác tới tổn hao đáng kể. Mẫu từ đ−ờng phân chia của 1 đơn vị chiều dài chẵn đ−ợc chia tỷ lệ bởi hệ số 1 chiều DC rồi sau đó đ−ợc copy sang băng

lọc thông thấp. Mẫu từ 1 đơn vị chiều dài phân chia trong vị trí lẻ đ−ợc đặt tên là“SINGLE” và sau đó đ−ợc mã hoá riêng.

3.2.3. Đối t−ợng-Cơ sở mã hoá mặt phẳng bít EZBC

Đối t−ợng - ph−ơng tiện mã hoá mặt phẳng bit EZBC cho băng con k thể hiện trên hình 3.4 (b), ở đây wk và mk ký hiệu là hệ số RBDWT và dạng mặt nạ phân tích cho băng con k.

Trong khối tiền l−ợng tử, tất cả các mẫu ngoài băng con của biên miền ảnh đ−ợc thiết lập giá trị 0 vì thế các hệ số không hợp lệ sẽ không ảnh h−ởng tới kết quả của cây 1/4 trong băng con. Trong mặt nạ pha, mức cây 1/4 riêng lẻ đ−ợc chỉ định 1 mặt nạ nhị phân nếu nh− nút của cây 1/4 nằm “INSIDE” hoặc “OUTSIDE” dựa tren việc phân tích hình dạng mặt nạ. Chúng ta sẽ định nghĩa hệ số băng con (1 nút d−ới cùng của cây 1/4) là “OUTSIDE” nếu nó đ−ợc chỉ định ra ngoài biên của đối t−ợng ảnh. Nút cây 1/4 Q[l] (i, j) là “OUTSIDE” nếu tất cả các nút phụ thuộc {Q[l -1] (2i, 2j), Q[l -1] (2i, 2j +1),

Q[l -1] (2i+1, 2j), Q[l -1] (2i+1, 2j +1)} là “OUTSIDE”.

L−ợc đồ mô hình ngữ cảnh này khởi tạo trong mã hoá entropy truyền thống loại bỏ trong cách này những cái xem nh− là lân cận “OUTSIDE” khi không có nghĩạ Với thông tin định dạng nhận đ−ợc và kết quả phân tích mặt nạ, bộ giải mã có thể nhận các b−ớc giống nhau khi nh− bộ mã hoá và có nút “OUTSIDE” đ−ợc l−ớt qua mà không có bất kỳ thông tin gì thêm vàọ

Với hệ số mã hoá “SINGLE” tạo ra trong việc phân tích trạng thái băng con, hai danh sách thêm vào LISG (danh sách các tín hiệu đơn không quan trọng) và LSSG (danh sách các tín hiệu đơn quan trọng) đ−ợc tạo ra tại mỗi mức phân giảị Quá trình đó giống nh− thủ tục mã hoá cho mức điểm ảnh

3.3. Kết quả thực nghiệm

Đối t−ợng đề xuất – cơ sở thuật toán EZBC (OB-EZBC) đ−ợc ứng dụng trong phần mềm nàỵ Hình thức bộ mã hoá mới đ−ợc đánh giá thông qua việc thử nghiệm bộ mã hoá. Chúng ta sử dụng đối t−ợng hình ảnh mã hoá trích ra từ chuỗi ảnh kiểm nghiệm MPEG-4. Mặt nạ có hình dạng/phân đoạncho ảnh mã hoá đ−ợc cung cấp bởi chuẩn MPEG. Chúng ta sẽ hiện thị ảnh kiểm tra và mặt nạ trên hình 3.5.

Trong bảng 3.1, chúng ta cung cấp kết quả PSNR cho mã hoá đối t−ợng ảnh cận cảnh hình 3.5 sử dụng bộ mã hoá OB-EZBC tại tốc độ bit mã hoá trung bình 0.1, 0.5, và 1.0 bpp. PSNR và giá trị tốc độ bit đ−ợc tính toán điểm ảnh cận cảnh và giá của bit cho cấu trúc mã hoá. Bộ mã hoá mới đ−ợc so sánh với các trạng thái khác-cơ sở thuật toná mã hoá bảng 3.2, ở đây chúng ta liệt kê giá trị PSNR ghi trong khung 000 của AKIYO tại tốc độ bit 1.0 bpp nhờ thuật toán so sánh nàỵ Bộ mã hoá OB-SPECK giới thiệu bởi Lu là phiên bản mở rộng của SPECK (mà không sử dụng mã hoá số học). SA-ZTE và SA-DCT đ−ợc thực hiện trong mô hình MPEG-4. Thuật toán Egger là sự kết hợp của SAWT và EZW. Đối t−ợng Han – dựa trên cơ cấu bộ mã hoá co băng lọc giống nhau (sử dụng RBDWT) nh− là OB-EZBC và bit phân bố giữa băng con và đối t−ợng đ−ợc tối −u hoá bởi thuật toán BFOS. Tốc độ bit tính toán cho bảng 3.2 chỉ dựa trêm giá bit cho cấu trúc mã hoá.

Bảng 3.1. Kết quả PSNR của OB-EZBC cho mã hoá đối t−ợng cận cảnh

Trên hình 3.6, chúng ta so sánh hình thức của OB-EZBC với hình thức truyền thống (frame-based) EZBC cho AKIYO tại tốc độ bit mã hoá 0.1 và 0.5 bpp. Kết quả là EZBC đ−ợc phát sinh bởi miền mã hoá hình chữ nhật bao trùm đối t−ợng ảnh cận cảnh với các điểm ảnh nền tảng bên trong ranh giới miền thiết lập giá trị 0. Công bằng mà nói, gia của bit cho định dạng mã hoá nhận đ−ợc trong két quả tính toán hình 3.6 (b) và (d) dùng 827 bits hoặc.022 bpp. Nh− chúng ta thấy, hình thức đề xuất OB-EZBC hình thành tốt hơn cả bên trong (đ−ờng viên) lẫn bên ngoài (PSNR).

Trong hình 3.7, chúng ta giới thiệu đối t−ợng mã hoá Foreman tại tốc dộ bit khác nhau và kết hợp phân giảị Kết quả PSNR liệt kê trong bảng 3.3. Trong hình 3.8, chúng ta chỉ ra chất l−ợng ảnh cho bề mặt của ảnh kiểm tra MISS AMERICA cải thiện đ−ợc tăng c−ờng tại cung giá của bit. Trên hình 3.9, đối t−ợng giải mã từ luồng bit mã hoá tạo nên cho ảnh cuối cùng. Điều này minh hoạ rằng, với luồng bit mã hoá cao, chúng ta có thể cho phép hiệu quả trong đối t−ợng ảnh riêng lẻ trong phạm vi phân giải khác nhau và chất l−ợng mức nén sử dụng nén đơn.

3.4. Tóm tắt và kết luận

Ch−ơng này giới thiệu hệ thống mã hoá OB-EZBC. Kết hợp RBDWT và bộ mã hoá mặt phẳng bit OB-EZBC (mở rộng EZBC), thuật toán đề xuất có khả năng hiệu quả với ảnh hình dạng tuỳ ý. Nó đ−ợc khởi tạo nh− là cộng cụ mã hoá trong hệ thống mã hoá Video. Thuật toán này giảm quy về thuật toán EZBC truyền thống cho miền ảnh mã hoá chữ nhật.

(b) Frame 000 and its shape mask from sequence FOREMAN.

Hình 3.6. So sánh kết quả của EZBC và OB-EZBC. (a)Trên cùng bên trái: EZBC, 0.1 bpp, PSNR = 24.42 dB.

(b) Trên cùng bên phải: OB-EZBC, 0.1 bpp, PSNR = 25.51 dB. (c) D−ới cùng bên trái: EZBC, 0.5 bpp, PSNR = 32.70 dB. (d) D−ới cùng bên phải: OB-EZBC, 0.5 bpp, PSNR = 34.40 dB.

Hình 3.7. Khung khôi phục 000 của FOREMAN

Hình 3.8. MISS AMERICA mã hoá tại 0.05 bpp.

Hệ số mặt phẳng bit liên quan đến bề mặt ảnh bị tăng bởi mức 0 (giữa bên trái), 1 mức (giữa bên phải), ba mức (trên cùng bên phái) và 5 mức (d−ới cùng bên phải).

Hình 3.9. Ví dụ của ứng dụng mã hoá scalable- 4 đối t−ợng ảnh từ hình 3.5 đ−ợcgiải mã tại tốc độ bittrung bình 1.0 bpp và độ phân giải khác nhau cho

Ch−ơng 4: Ch−ơng trình thử nghiệm và đánh giá kết quả

4.1. Xây dựng ch−ơng trình

4.1.1. Khái quát chung

Ch−ơng trình của tôi đ−ợc viết trên nền Visual C++ 6.0.Ch−ơng trình thực hiện các chức năng sau:

Chuyển từ file video AVI (*.avi) sang file RAW(*.raw). Hiển thị các thông số của file avị

Chuyển từ file RGB(*.rgb) sang file định dạng YUV (*.yuv).

Hiển thị thông tin file RGB và YUV.

Tạo file MPEG4 từ file đầu vào dạng MP3,H.263,ACC, AMR,DIVX,MP4AV,M4V,CMP,XVID.

Hiển thị thông tin file MPEG4.

Chuyển từ file RAW sang file WAVELET.

4.1.2. Cấu trúc ch−ơng trình

Cấu trúc ch−ơng trình gồm các chức năng chính sau:

ạ Cửa sổ thực hiện nén cho phép nhập file video *.avi đầu vào, ghi file đầu ra dạng .raw

b. Cửa sổ hiển thị cho phép hiển thị thông tin về file *.avi nh− loại file avi,tốc độ frame,số frame trong file,độ lớn của 1 framẹ

c. Cửa sổ thực hiện nén cho phép nén từ file *.rgb đầu vào,ghi ra file *.yuv với 2 tham số tuỳ chọn là chiều cao và chiều rộng của framẹ d. Cửa sổ hiển thị cho phép hiển thị thông tin về file *.rgb (hoặc

*.yuv) với thông số đầu vào nh− chiếu cao chiều rộng số frames/s đầu ra gồm kích th−ớc y,u,v và frame đã đọc.

ẹ Cửa sổ thực hiện nén cho phép nén từ file *.mp3,H.263,ACC, AMR,DIVX,MP4AV,M4V,CMP,XVID. đầu vào,ghi ra file MPEG4 (*.mp4) đầu ra với các tham số tuỳ chọn là tốc độ frame, sử dụng

định dạng file ACC,cho phép file AVI, tính toán tốc độ bit H263,cho phép thay đổi tốc độ bít,tối −u hoá,liệt kê các track...

f. Cửa sổ hiển thị cho phép hiển thị thông tin về file *.mp4 đầu ra gồm số track,loại track,thông tin của từng track.

g. Ch−ơng trình wavelet thực hiện nén file Video đầu vào định dạng RAW(*.raw) sử dụng Wavelet, ghi ra file đầu ra WAVELET(*.wl). h. Ch−ơng trình giải nén thực hiện đọc file WAVELET(*.wl) đầu vàọ Trong ch−ơng trình có sử dụng một số cấu trúc dữ liệu, các module thực hiện thuật toán cho quá trình nén và quá trình giải nén...Do mã nguồn cho ch−ơng trình khá dài, vì vậy tôi chỉ đ−a một số phần vào trong phần phụ lục của luận văn.

4.2. Đánh giá kết quả thử nghiệm

4.2.1 Dữ liệu thử nghiệm

Dữ liệu thử nghiệm là hai tệp:

Tệp air.rgb : dung l−ợng 426 Kb,file thu trực tiếp 3 tín hiệu Red Green và Bluẹ

Tệp Sound.mp3: dung l−ợng 2.85 KB đây là file mp3.Đây là file nhạc Audio

Đánh giá chuyển động (motion estimation)

Tham số đặc tr−ng