Hiện nay, với việc triển khai mạng thông tin thếhệsau, nhiều ứng dụng mới ra đời nhưtruyền tín hiệu video trên các phương tiện thông tin di động, đa môi trường. Nâng cao hiệu quả sử dụng tài nguyên băng tần của các phương tiện đó là bài toán phải nén tín hiệu video hiệu quảnhất. Vì vậy, đềtài này là một chủ đềcấp thiết cho việc ứng dụng truyền video trên các mạng viễn thông đa môi trường thế hệ mới.
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học:
1- TS Phùng Kim Anh 2- TS Nguyễn Hữu Hậu
Phản biện 1: PGS TS Đào Thanh Tĩnh
Phản biện 2: PGS TS Nguyễn Văn Khang
Phản biện 3: PGS TS Nguyễn Thế Hiếu
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ
cấp Học viện họp tại Học viện Công nghệ Bưu chính Viễn
thông vào hồi 14 giờ 00, ngày 10 tháng 12 năm 2013
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia
- Thư viện Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU Tính cấp thiết của đề tài
Hiện nay, với việc triển khai mạng thông tin thế hệ sau, nhiều
ứng dụng mới ra đời như truyền tín hiệu video trên các phương tiện
thông tin di động, đa môi trường Nâng cao hiệu quả sử dụng tài nguyên băng tần của các phương tiện đó là bài toán phải nén tín hiệu video hiệu quả nhất Vì vậy, đề tài này là một chủ đề cấp thiết cho việc ứng dụng truyền video trên các mạng viễn thông đa môi trường thế hệ mới
Mục tiêu nghiên cứu
Tìm các thuật toán hợp lý để ước lượng chuyển động của ảnh trong video sao cho dễ tính toán, đảm bảo độ bám chuyển động của
ảnh một cách tốt nhất
- Nghiên cứu đề xuất ứng dụng thuật toán ước lượng chuyển
động trong không gian nhiều chiều với nghiệm ước lượng chuyển động tối ưu, độ bám tốt
- Tăng hiệu quả sử dụng băng tần truyền dẫn bằng các thuật toán không cần sử dụng tín hiệu đào tạo
- Thuật toán ước lượng làm việc ổn định trong điều kiện kênh có nhiễu
Đối tượng, phạm vi và phương pháp nghiên cứu
Luận án nghiên cứu các phương pháp nén video số, ứng dụng truyền video trong mạng thông tin di động thế hệ mới Đây là một phạm vi rộng, bao gồm: lượng tử hóa, ước lượng chuyển động của
ảnh, mã hóa - giải mã
Luận án tập trung vào việc nghiên cứu các thuật toán ước lượng chuyển động của ảnh, phân tích các kết quả nghiên cứu chuyển động
ảnh đã có trước đây; nghiên cứu các thuật toán ước lượng về mặt
toán học từ đó tìm ra thuật toán ước lượng hợp lý để đạt mục tiêu đề
ra Từ phân tích toán học, luận án dùng công cụ mô phỏng để kiểm chứng
Trang 4Ý nghĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học: Làm phong phú hơn về lý luận ước lượng
chuyển động của ảnh bằng thuật toán lặp, đó là:
- Dùng thuật toán Kalman: Đây là phương pháp lặp, sử dụng trong không gian nhiều chiều và chỉ ra nghiệm tối ưu của ước lượng chuyển động
- Dùng thuật toán mù: Đây là phương pháp lặp, không cần sử dụng tham chiếu trước mà chỉ cần mối tương quan giữa hai khung
ảnh là ước lượng được chuyển động của ảnh
Ý nghĩa thực tiễn: Mở ra khả năng tính toán mới để ước lượng
ảnh nhanh hơn, có độ bám chuyển động tốt hơn, tránh được những
thông tin dư thừa do độ bám chuyển động không tốt gây ra
Nội dung của luận án
Mở đầu: Giới thiệu bài toán và phương pháp nghiên cứu
Chương 1 - Tổng quan về nén video: Giới thiệu vai trò, vị trí, yêu cầu, mô hình hệ thống và một số kỹ thuật nén video
Chương 2 - Tổng quan về ước lượng chuyển động của ảnh: Đây
là chương đưa ra những kiến thức cơ bản về ước lượng chuyển động của ảnh, những thuật toán hiện có, đánh giá ưu điểm và nhược điểm của những thuật toán hiện có
Chương 3 - Ước lượng chuyển động bằng các giải pháp mới: Đề xuất áp dụng những thuật toán mới cho việc ước lượng chuyển động của ảnh, đó là thuật toán Kalman và thuật toán mù
Chương 4 - Một số kết quả tính toán số: Trình bày một số kết quả mô phỏng từ đó đưa ra nhận xét, so sánh hiệu năng giữa phương pháp Bayes và phương pháp Kalman
Kết luận và kiến nghị: Nêu lên các kết quả đã đạt được của luận
án và chỉ ra các hướng nghiên cứu tiếp theo
Trang 5CHƯƠNG 1 TỔNG QUAN VỀ NÉN VIDEO 1.1 Giới thiệu
Để truyền được các chương trình video trên các hệ thống thông
tin di động, một bài toán đặt ra là phải nén hình ảnh để tiết kiệm băng tần truyền dẫn mà vẫn đảm bảo chất lượng hình ảnh Trong hoàn cảnh mạng NGN và di động thế hệ sau tiếp tục đòi hỏi phải hoàn thiện hơn các thuật toán nén - giải nén tín hiệu video với mục
đích làm cho chất lượng hình ảnh tốt hơn, sử dụng băng tần truyền
dẫn hiệu quả hơn
1.2 Độ dư trong tín hiệu video, nhu cầu cần thiết nén video 1.2.1 Độ dư trong tín hiệu video
Mục này trình bày về độ dư trong tín hiệu video, gồm: Độ dư thống kê của ảnh (độ dư không gian, độ dư thời gian, độ dư mã) và
độ dư khả năng nhìn thấy Việc nhận biết độ dư trong tín hiệu video
và tìm kiếm giải pháp để loại bỏ độ dư đó chính là nén dữ liệu
1.2.2 Nhu cầu cần thiết nén video
Những thành tựu đạt được trong công nghệ điện tử - viễn thông - tin học đã tạo điều kiện phát triển các kỹ thuật truyền video đáp ứng nhu cầu ngày càng tăng trong các ứng dụng cuộc sống hàng ngày như điện thoại video, hội nghị video, truyền hình độ phân giải cao…
Để làm được điều đó, cần thiết phải nén video
1.3 Khái niệm về nén video
Mục này trình bày khái quát về: Khái niệm về nén video, mô hình, chức năng cơ bản, đặc điểm của các phần tử trong hệ thống nén video Hình 1.5 chỉ ra mô hình nén video tổng quát
1.4 Yêu cầu về ứng dụng nén video, một số kỹ thuật nén video 1.4.1 Yêu cầu về ứng dụng nén video
Mục này trình bày một số yêu cầu về ứng dụng nén video, gồm: Các đặc tính video, yêu cầu truyền dẫn, các đặc tính và hiệu năng của
hệ thống nén, yêu cầu về tỷ lệ méo và yêu cầu về tiêu chuẩn
Trang 6Hình 1.5 Hệ thống nén video tổng quát
1.4.2 Một số kỹ thuật nén video
Mục này trình bày một số kỹ thuật nén video cơ bản, bao gồm:
- Mã entropy và mã dự đoán: Là mã tiếp cận entropy của nguồn; DPCM sử dụng mô hình nguồn Markov được dùng trong các chuẩn MPEG-1 và H.261 Tuy nhiên, bộ mã hoá này tương đối phức tạp; VLC được dùng kết hợp với DPCM để giảm tốc độ bit
- Mã chuyển đổi khối bằng biến đổi DCT: Gói hầu hết năng lượng tín hiệu gốc vào một số ít các hệ số biến đổi, bỏ qua hệ số chứa ít hoặc không chứa năng lượng Có ưu điểm là IDCT không tạo ra bất
kỳ sự gián đoạn rõ nét nào ở các rìa khối; các biến đổi rời rạc tạo nên tín hiệu được tái cấu trúc có chu kỳ; nhược điểm là tính toán chủ yếu trên giải tích cổ điển, khá phức tạp
- Bù và ước lượng chuyển động: Dựa vào nền tĩnh và sự chuyển
động của các ảnh gần Nếu nền không thay đổi giữa hai khung thì
hiệu của chúng bằng 0 và hai khung có thể được mã hoá thành một Các vật thể chuyển động có thể được phát hiện bằng cách phối hợp vật thể cận cảnh giữa hai khung
Trang 7CHƯƠNG 2 TỔNG QUAN VỀ ƯỚC LƯỢNG CHUYỂN ĐỘNG CỦA ẢNH 2.1 Giới thiệu
Ước lượng chuyển động là quá trình quan trọng trong việc mô tả,
phân tích dãy ảnh, bám mục tiêu và mã hóa video Việc mô tả và ứng dụng có những yêu cầu khác nhau, do đó phải sử dụng các phương pháp ước lượng chuyển động khác nhau Chương 2 của luận án tập trung vào việc nghiên cứu các phương pháp ước lượng chuyển động video và so sánh các phương pháp đó, từ đó định hướng cho các giải pháp mới được đề xuất ở chương 3 của luận án
2.2 Ước lượng chuyển động và các phương pháp ước lượng chuyển động
2.2.1 Ước lượng chuyển động
Ước lượng chuyển động là một bộ phận cấu thành trong bài toán
mã hoá nén video Trong ước lượng chuyển động, điểm s=[h, v]T
trong khung hiện tại ở thời điểm t sẽ liên quan đến một điểm trong khung tham chiếu trước đó ở thời điểm t-∆t:
Mục đích của ước lượng chuyển động là đi tìm véctơ chuyển
động x(s)=[x h(s), xv(s)]T Chú ý rằng x(s) không nhất thiết phải là
véctơ chuyển động toàn điểm Như vậy, phương pháp ước lượng chuyển động có thể cần phải truy cập các giá trị cường độ tại các vị trí không lấy mẫu trong khung tham chiếu Phương pháp nội suy song tuyến tính thường được sử dụng vì nó dung hòa tốt giữa chất lượng nội suy và độ phức tạp tính toán Nó được định nghĩa như sau:
Trang 8Các mô hình tất định và xác suất
Trong mô hình tất định, chuyển động được xem là một đại lượng tất định chưa biết Bằng cách cực đại xác suất của dãy video quan sát
được theo sự chuyển động chưa biết có thể ước lượng được đại lượng
tất định này Công thức ước lượng tương ứng thường được xem là bài toán ML Trong mô hình xác suất, chuyển động được xem là một biến ngẫu nhiên Tập các véctơ chuyển động tạo thành trường ngẫu nhiên Trường này thường được mô hình hoá bằng trường ngẫu nhiên Markov (MRF) Việc ước lượng chuyển động có thể được công thức hoá bằng bài toán MAP
Các mô hình tham số và phi tham số
Trong mô hình tham số, chuyển động được biểu thị bằng một tập các tham số chuyển động Như vậy, bài toán ước lượng chuyển động trở thành bài toán ước lượng các tham số chuyển động Với mô hình tham số, ràng buộc để làm theo đúng quy tắc bài toán ước lượng chuyển động giả định sai được đưa vào trong mô hình chuyển động một cách đầy đủ Trong mô hình phi tham số, sự ràng buộc rõ ràng (ví dụ: tính trơn tru của trường chuyển động) được đưa vào để làm theo đúng quy tắc bài toán giả định sai về ước lượng chuyển động
Vùng hỗ trợ
Vùng hỗ trợ là một tập các điểm mà mô hình chuyển động áp dụng Vùng hỗ trợ có thể lớn như một khung hoặc nhỏ như một
điểm, có thể có kích thước cố định hoặc thay đổi và có thể có hình
dạng cân đối hoặc hình dạng tùy ý
2.2.2 Các phương pháp ước lượng chuyển động
Mục này giới thiệu một số phương pháp ước lượng chuyển động thường được sử dụng, đưa ra nhận xét những ưu điểm và nhược điểm của từng phương pháp, bao gồm:
- Các phương pháp vi phân: Dựa vào mối quan hệ giữa các biến
đổi về không gian và thời gian của cường độ Các phương pháp này
chấp nhận một số giả thiết hạn chế là véctơ chuyển động x phải nhỏ,
Trang 9trái lại thì nghiệm của bài toán sẽ kém chính xác và nhạy cảm đối với nhiễu
- Các phương pháp hồi quy điểm: Dựa vào sự tối thiểu theo gradient lặp đi lặp lại của lỗi dự đoán Ước lượng phụ thuộc nhiều vào gradient không gian Các phương pháp này phải chọn cỡ bước
điều khiển phù hợp để dung hoà giữa tốc độ hội tụ và độ chính xác ước lượng Có thể dễ hội tụ đến các điểm tối ưu cục bộ trong bề mặt
lỗi Vùng có cường độ ít thay đổi, các gián đoạn trong trường chuyển
động và những dịch chuyển lớn là không thể xử lý hiệu quả
- Các phương pháp miền tần số: Dựa trên thuộc tính khai triển Fourier, khi dịch chuyển tịnh tiến trong miền không gian tương ứng với dịch pha tuyến tính trong miền tần số Phương pháp tương quan pha có một số tính chất đặc biệt: Độ phức tạp tính toán nhỏ, đặc biệt khi sử dụng FFT; không nhạy cảm với những thay đổi độ sáng
- Các phương pháp phối hợp khối: Dựa vào việc chia khung ảnh thành các khối con và ước lượng chuyển động cho từng khối Tuỳ vào việc lựa chọn hàm phối hợp (như NCCF, SSD, SAD) mà có hiệu quả khác nhau So sánh về chất lượng dự đoán thì: SSD > SAD >
NCCF So sánh về độ phức tạp tính toán thì SAD có độ phức tạp tính toán thấp nhất bởi vì nó không đòi hỏi có phép nhân
- Các phương pháp lặp truyền thống: Đều thuộc họ thuật toán độ dốc, dựa trên toán tử gradient do đó vẫn còn hạn chế là tốc độ hội tụ chậm, độ bám thay đổi của hình ảnh không cao; độ ổn định không cao và vẫn cần có giá trị tham chiếu để so sánh
Trang 10CHƯƠNG 3 ƯỚC LƯỢNG CHUYỂN ĐỘNG BẰNG CÁC GIẢI PHÁP MỚI 3.1 Giới thiệu
Trong chương 3, luận án đề xuất những giải pháp ước lượng mới
và được phân ra thành hai loại chính là:
- Ước lượng chuyển động của ảnh bằng thuật toán Kalman: Mục tiêu đạt được là sử dụng ưu thế của thuật toán Kalman là lặp và có độ bám chuyển động tốt hơn so với các phương pháp gradient đồng thời phát huy được ưu thế của thuật toán Bayes là xét đặc điểm tự nhiên của dãy ảnh
- Ước lượng chuyển động của ảnh bằng các thuật toán mù: Mục tiêu đạt được là giải quyết bài toán không cần các thông tin huấn luyện thuật toán như đòi hỏi trong các phương pháp gradient nhằm nâng cao độ sử dụng băng tần truyền dẫn và mở rộng cho trường hợp nhiễu loạn bất kỳ
3.2 Ước lượng chuyển động bằng Kalman
3.2.1 Đặt bài toán
Giả thiết: z biểu diễn khung của một dãy ảnh tại thời điểm t Trường chuyển động x1 biểu thị độ lệch giữa z1 và z2 cho mỗi pixel tại các thời điểm t1, t2 tương ứng Trường phân vùng z bao gồm một
số nhãn tại mọi pixel, mỗi nhãn biểu thị một mục tiêu chuyển động: ( 1, 2, , )
n
x =n n= N cho mỗi vị trí của pixel trên lưới Λ; N là tổng
số mục tiêu chuyển động Mục tiêu bài toán là ước lượng sự chuyển
động x với các giá trị z đã cho Trong nghiên cứu này, luận án giả
thiết:
a) Tập các giá trị đo z z1, 2, ,z k ký hiệu bằng véctơ z là các giá
trị biết trước
b) Mối quan hệ vật lý giữa trạng thái tự nhiên sẽ được ước lượng
và các giá trị đo được biểu thị bằng quan hệ:
Trang 11E Cov
E Cov
Trước đây, hầu hết các công trình đánh giá chuyển động, người ta thường sử dụng luật Bayes để ước lượng véctơ trạng thái chuyển
động x Việc giải quyết bài toán này trở nên rất khó khăn khi số trạng
thái tăng lên, và mối quan hệ giữa chúng là phi tuyến Để giải quyết vấn đề này, nghiên cứu sinh xuất phát từ suy nghĩ kế thừa được điểm mạnh của phương pháp Bayes là xét được bản chất của nội dung ảnh
và tìm cách hạn chế nhược điểm của phương pháp Bayes là tốc độ hội tụ chậm, độ bám chuyển động của ảnh không cao để đưa ra giải pháp sử dụng thuật toán Kalman trong ước lượng trạng thái chuyển
Trang 12( )
1 2 0
1 2 1 2 2
4) Vì p x z( ) là Gauss, ước lượng trung bình có điều kiện và
ước lượng minimax đều trùng nhau và được tính bởi ˆx
Từ định luật Bayes, bằng một số biến đổi đơn giản ta đã nhận
được phương pháp lặp (3.14) Trong (3.14) chỉ đúng khi xét ảnh
chuyển từ trạng thái t-1 sang t, nghĩa là chuyển một bước
2- Ước lượng chuyển động của ảnh bằng thuật toán Kalman nhiều bước
Giải quyết bài toán ước lượng chuyển động ảnh qua nhiều bước cũng tương tự như bài toán ước lượng chuyển động ảnh một bước, chỉ khác là trạng thái thay đổi từ trạng thái này sang trạng thái khác theo mối quan hệ động Nếu coi giá trị cần tính của trạng thái ảnh tại
thời điểm thứ k+1 là xk+1 khi đã tính được giá trị trước đó là xk, mối
quan hệ đó được biểu thị bằng một cặp phương trình:
ở đây xk+1 là véctơ trạng thái ảnh tại thời điểm k+1, vk+1 là nhiễu đo
tại thời điểm k+1, zk+1 là giá trị đo có được tại thời điểm k+1, wk là véctơ nhiễu tại thời điểm k Tập giá trị đo Zk+1 = (z1,…,zk+1) Hàm
mật độ xác suất p(xk z1, ,zk)=p(xk Zk) và p(w vk, k+1 xk) đại
diện cho các thành phần nhiễu phụ thuộc vào xk
Bài toán đặt ra là ước lượng trạng thái ảnh xk+1 dựa vào các đại lượng đo z1,…,zk+1 Xuất phát từ luật Bayes và trình tự tính như được
nêu trong phần 1 mục 3.2.2 ta có:
Trang 131) Tính p(xk+1 xk): Có thể đạt được qua thí nghiệm hoặc theo phép giải tích khi biết p(w vk, k+1 xk), (p x k Zk) và (3.15) 2) Tính p(zk+1 x xk, k+1): Suy ra từ p(w vk, k+1 xk) và (3.15) 3) Tính p(xk+1,zk+1 Zk) để từ đó có thể trực tiếp tính được hàm mật độ biên p(xk+1 Zk) và p(zk+1 Zk)
1 1
k T
Nhận xét: Ước lượng chuyển động của ảnh là một vấn đề rất quan
trọng nhằm loại bỏ các thông tin thừa trong chuyển động ảnh, làm cho hiệu quả nén ảnh tốt hơn Các giải pháp từ trước tới nay người ta thường dùng ước lượng trên cơ sở luật Bayes và tính toán trực tiếp theo các phân bố xác suất có điều kiện của nó Đây là một bài toán giải rất khó khi số biến tăng lên đặc biệt khi cần nén ảnh màu, ảnh 3 chiều Để giải quyết bài toán đó, chúng tôi đã kế tục luật Bayes và biến nó sang dạng đại số, sử dụng phương pháp lặp trên cơ sở thuật
Trang 14toán Kalman vừa giảm được độ phức tạp tính toán, vừa tăng tốc độ tính toán và độ bám quĩ đạo chuyển động của ảnh theo các ưu điểm của thuật toán Kalman
3.3 Ước lượng chuyển động tối ưu của ảnh trong video
3.3.1 Đặt bài toán
Trong mục 3.2, từ ước lượng chuyển động ảnh bằng Bayes, luận
án đã đưa ra giải pháp dùng thuật toán lặp Kalman để ước lượng chuyển động của ảnh trong video nhằm hạn chế nhược điểm của phương pháp Bayes nhưng vẫn giữ được bản chất nội dung chuyển
động của ảnh Từ đây xuất hiện bài toán tìm ước lượng tốt nhất của
chuyển động ˆxk tại thời điểm tk Ở đây luận án sử dụng thuật toán Kalman để ước lượng chuyển động tối ưu của dãy ảnh sao cho sai số trung bình bình phương trong ước lượng chuyển động của dãy ảnh là
bé nhất
3.3.2 Ước lượng chuyển động tối ưu của ảnh trong video
Luận án ứng dụng thuật toán đã nêu tại mục 3.2 vào trường hợp khi chuyển động của ảnh được đặc trưng bằng phương trình sai phân tuyến tính đồng nhất:
sao cho ước lượng ˆxk được cho bởi: