Lời nói đầu Công nghệ xử lý ảnh ngày càng phát triển và được chú trọng , chất lượng ảnh và video ngày càng được nâng cao để đáp ứng nhu cầu trao đổi thông tin của con người.Tài liệu của
Trang 1TIỂU LUẬN Ánh xạ khối Block Matching
Hà Nội, tháng 10 năm 2014.
Trang 2Lời nói đầu
Công nghệ xử lý ảnh ngày càng phát triển và được chú trọng , chất lượng ảnh
và video ngày càng được nâng cao để đáp ứng nhu cầu trao đổi thông tin của con
người.Tài liệu của chúng tôi chủ yếu tập trung nói về phần xử lý ảnh trong đó phương
pháp mà chúng tôi muốn nói tới và nghiên cứu ở đây là vấn đề Ánh xạ khối.Để hiểu
được tầm quan trọng của nó cũng như lợi ích của nó mang lại ta sẽ cùng nhau tìm hiểu
nó.Bằng cách loại bỏ dư thiều trong ảnh sẽ tiếp kiệm số bits dành cho mã hóa và sẽ tiết
kiệm được băng thông trên môi trường internet qua đó ta thấy được tầm quan trọng của
vấn đề đang nghiên cứu.Làm cách nào để ta đánh giá sự chuyển động của video, khi
truyền trên đường truyền ta truyền cái gì và như thế nào những câu hỏi sẽ dần được
giải đáp qua tài liệu nghiên cứu của chúng ta.Vì thời gian có hạn nên sẽ không thể
tránh được những sai sót mong độc giả và các bạn góp ý để hoàn thiện hơn tài liệu
nghiên cứu của chúng tôi
Nhóm tác giả
Nguyễn Quyết Tiến Nguyễn Hữu Đức Phạm Quang Ánh
Hà Nội tháng 10/2014
Lời nói đầu 2
Trang 3Bảng biểu và hình ảnh 4
1.Giới thiệu tổng quan 6
1.1 Ánh xạ khối 8
1.1.1 Không chồng lên nhau,cách đều nhau, cố định kích thước , ánh xạ khối với kích thước chữ nhật nhỏ 9
1.1.2 Tiêu chuẩn ánh xạ 11
1.2.3 Thuật toán ánh xạ khối 14
1.3 Thủ tục tìm kiếm 15
1.3.1 Tìm kiếm đầy đủ 15
1.3.2 Tìm kiếm logarit-2D 16
1.3.3 Thuật toán tìm kiếm ba bước 19
1.3.4 Thuật toán tìm kiếm ba bước mới 21
1.3.5 Thuật toán tìm kiếm bốn bước 23
1.3.6 Ánh xạ khối đa phân giải 24
1.3.7 Ngưỡng đa phân giải ánh xạ khối 27
1.4 Phù hợp với độ chính xác 34
1.5 Hạn chế của kỹ thuật ánh xạ khối 35
1.6 Cải tiến mới 37
1.6.1 Cấu trúc phân cấp ánh xạ khối 37
1.6.2 Lưới đa ô trong ánh xạ khối 41
1.6.3 Ánh xạ khối qua OVERLAPPER 45
2.Kết luận 48
3.Tài liệu tham khảo 51
Trang 4Bảng biểu và hình ảnh
Hình 1 1 Ánh xạ khối 10 Hình 1 2 Cửa sổ tìm kiếm và cửa sổ tương quan 11 Hình 1 3 Ánh xạ khối của một macro block có cạnh bên là 16 pixel và tham số tìm
kiếm p có kích cỡ là 7 pixels 14
Hình 1 4: (a) Phương pháp-2D tìm kiếm logarit.Tại điểm (j;k+2),(j+2;k+1),(j+2,k+4)
và (j+1,k+4) dựa trên sự tối thiểu các điểm khác nhau trong từng bước 1,2,3 và 4 riêngtừng vị trí 17
Hình 1 5 (b) Phương thức tìm kiếm logarit 2D.Tại điểm (j,k-2),(j+2,k-2) và (j+2,k-1)
là dựa trên sự tối thiểu các điểm khác nhau trong bước 1,2,3 và 4 riêng từng vị trí 18
Hình 1 6 Phương thức tìm kiếm 3 bước.Điểm( j+4,k-4) ,( j+4 , k-6 ) và ( j+5,k-7) cho
các điểm tối thiểu khác nhau trong bước 1 ,2,3 riêng từng bước 19
Hình 1 7 Quá trình tìm kiếm 3 bước Vector chuyển động là (5,-3) 21 Hình 1 8 Ánh xạ khối tìm kiếm 4 bước: Phạm vi kiểm tra của TSS trong bước đầu
tiên là khá lớn và the quares là việc mở rộng thêm 8 điểm được thêm vào trong bướcđầu tiên của NTSS Hình tam giác và diamond là bước thứ hai của NTSS để biểu diễn
3, 5 điểm được kiểm tra khi trọng số thấp nhất trong bước đầu tiên là một trong những
8 điểm của của sổ trung tâm 22
Hình 1 9 Quá trình tìm kiếm 4 bước Vecto chuyển động là (3, -7) 24 Hình 1 10 Một ví dụ về 2x2 mẫu phụ trong khối và sự tương quan cửa sổ ban đầu cho
tìm kiếm nhanh 25
Hình 1 11 Cấu trúc kim tự tháp gauss 27
Trang 5Hình 1 12 Sơ đồ khối của ánh xạ khối đa phân giải ngưỡng ba mức 30
Hình 1 13 Xử lý ngưỡng 32
Hình 1 14 Khung thứ 20 của con tàu đang chuyển động 33
Hình 1 15 Khung thứ 20 trong chuỗi “Football” 34
Hình 1 16 Dựng lại 21 chuỗi khung của "Miss America" sử dụng một bộ mã hóa cho H.263 36
Hình 1 17 Kiến trúc phân tầng ánh xạ khối 38
Hình 1 18 Một phần của một ảnh với các điểm ảnh đã được xử lí trong cả 3 mức 40
Hình 1 19 Minh họa 3 mức của cấu trúc phân tầng 42
Hình 1 20 Sơ đồ thuật toán đa ô lưới ánh xạ khối 44
Hình 1 21 Tạo ngưỡng đa ô lưới ánh xạ khối 45
Hình 1 22 Overlapped block matching 46
Bảng 1 2 Kết quả thực nghiệm (II) 39
Bảng 1 3 Các thông số được sử dụng trong 3 mức của kiến trúc phân tầng ánh xạ khối 40
Trang 61.Giới thiệu tổng quan
Với sự tiến tới thế hệ đa phương tiện và sự trải rộng internet, tài nguyên dữ liệuvideo trên CD/DVD và dòng video đã dành được nhiều sự ưa chuộng.Trong cả hai tiêuchuẩn cơ bản lưu lượng toàn bộ quá trình nén-giải nén là giống nhau và miêu tả tronghình 1 Mã hóa ước lượng trên khía cạnh chuyển động trong khung hiện tại với cácquan hệ tới khung trước
Một ảnh bù chuyển động của khung hiện tại tạo nên khối của ảnh từ khungtrước đó.Vector chuyển động của khối sử dụng ước lượng chuyển động được truyền đi,cũng như sự khác biệt của ảnh bù với khung hiện tại mặc dù JPEG đã mã hóa và gửi
Mã hóa ảnh gửi đi sau đó giải mã khi đã mã hóa và sử dụng khung tham chiếu cho cáckhung tiếp theo.Tất cả ý tưởng đằng sau ước lượng chuyển động dựa trên nén video tớitiết kiệm bits gửi đi bởi JPEG được mã hóa ảnh ,khác biệt khi đó dùng ít năng lượng và
có thể nén cao so việc với gửi một khung đầy đủ JPEG được mã hóa
Hình 1: MPEG/H.26x tiến trình nén video.
Motion JPEG, tất cả khung JPEG được mã hóa, đạt mục địch giữa 10:1 đến 15:1
tỷ lệ nén, MPEG có thể đạt tỷ lệ nén 30:1 vàn sử dụng tỷ lệ 100:1 [1] [2] [3] Chú ý
Trang 7rằng khung đầu tiên luôn gửi toàn bộ, và vài khung khác có thể xảy ra một số khoảngthường xuyên Các tiêu chuẩn không chỉ định điều này và có thể thay đổi với tất cảvideo được gửi dựa trên năng động của video.
Các tính toán đắt tiền và hoạt động thiếu tài nguyên trong quá trình nén toàn bộ
là ước lượngchuyển động Hơn nữa, trường này hoạt động cao nhất và nghiên cứutham gia trong hai thập kỷ trước Bài viết này thực hiện và ước lượngthuật toán ánh xạkhối cơ bản từ giữa năm 1980 cho đến năm 2002 Các thuật toán đã được thực hiện làtìm kiếm nghiên cứu toàn diện (ES),tìm kiếm ba bước (TSS),tìm kiếm bốn bước (4SS),Diamond Search (DS) và thuật toán 2D logarit
Trang 81.1 Ánh xạ khối
Biện pháp vector chuyển động và sử dụng chúng trong việc bù chuyển độngtrong mã hóa liên khung của tín hiệu truyền hình có thể tìm thấy từ những năm 1970.Netravali và Robbins (1979) đã phát triển một kỹ thuật điểm ảnh đệ quy, trong đó ướclượng vector chuyển động của mỗi điểm ảnh đệ quy từ ảnh lân cận sử dụng mộtphương pháp tối ưu Limb và Rocca (1977) đã phát triển kỹ thuật cho ước lượngvector chuyển động của một khối và điểm ảnh Gần như sau đó, một ảnh đầu tiên đượcphân chia thành các khu vực với nhau một khoảng cách bằng nhau Sau đó vectorchuyển động được ước lượng cho mỗi khu vực Phân đoạn và ước lượng chuyển độngkết hợp với khối khuôn dạng tùy ý là rất khó khăn Khi có nhiều khu vực chuyển độngphức tạp trong ảnh, tình hình trở lên khó khăn Thêm vào những vector chuyển động,những thông tin hình dạng này trong mỗi khu vực cần được mã hóa Kể từ đây, khi khuvực dịch chuyển có hình dạng khác nhau, đồng thời tính toán và mã hóa tăng lên đángkể
Kỹ thuật ánh xạ khối được tập trung trong phần này, đơn giản, không phức tạp
và còn rất hiệu quả Cho đến nay được sử dụng phổ biến nhất trong kỹ thuật ước lượngchuyển động trong mã hóa ảnh Trên thực tế, nó đã được chấp nhận bởi các tiêu chuẩn
mã hóa video quốc tế: ISO, MPEG-1 và MPEG-2, và ITU H.261, và H.263
Được quan tâm cho tới ngày nay, với sự tiến bộ to lớn trong kỹ thuật đa phươngtiện, và dựa trên nội dung sự vận dụng của thông tin nghe nhìn vẫn còn khắt khe, đặcbiệt trong kho dữ liệu nghe nhìn, thu hồi và phân phối Các ứng dụng bao gồm thư viện
kỹ thuật số, video theo yêu cầu, cơ sở dữ liệu nghe nhìn và tương tự bởi vậy, mã hóađối tượng theo hình dạng tùy ý là được thu hút tham dự nghiên cứu to lớn cho đến ngàynay Nó bao gồm trong phạm vi hoạt động MPEG-4 (Brailean, 1997).Trong phần này,các khía cạnh khác nhau của ánh xạ khối là được chú ý Chúng bao gồm khái niệm vàthuật toán, tiêu chuẩn phù hợp, chiến lược tìm kiếm, hạn chế, và cải tiến mới
Trang 91.1.1 Không chồng lên nhau,cách đều nhau, cố định kích thước , ánh xạ khối với kích thước chữ nhật nhỏ
Để không gặp phải sự khó khăn gặp trong ước lượng chuyển động và bù chuyểnđộng với khối khuôn dạng tùy ý, kỹ thuật ánh xạ khối được đề nghị bởi Jain and Jain(1981) dựa trên mô hình chuyển động đơn giản
Một ảnh được chia để tập hợp không chồng lên nhau, cách đều, cố định kíchthước, khối chữ nhật nhỏ, và chuyển động tịnh tiến trong mỗi khối được giả định làđều nhau Mặc dù mô hình đơn giản coi như chỉ là chuyển động tịnh tiến, các loạichuyển động khác, chẳng hạn như xoay và phóng to trên các đối tượng, có thể gần như
là dịch từng phần theo các khối nhỏ với điều kiện là các khối phải đủ nhỏ
Vector chuyển động cho các khối này được ước lượng bằng cách tìm các khốigiống với chúng nhất trong các khung cho trước Theo cách này, ước lượng chuyểnđộng là một cách dễ dàng nhất so với các khối hình dạng tùy ý Từ dịch chuyển mỗikhối được mô tả bởi vector chuyển động, thông tin khía cạnh vector chuyển động giảmdần
Trang 10Hơn nữa thông tin hình chữ nhật nhỏ được biết ở cả hai bộ mã hóa và giải mã,không cần phải mã hóa,tiết kiệm đồng thời tính toán và thông tin phụ.
Kích thước khối cần chọn chính xác Rõ ràng, kích thước khối nhỏ hơn dẫn đếnnhiều vector dịch chuyển được ước lượng và mã hóa, trong đó tăng đồng thời tính toán
và thông tin phụ Người ta khuyến nghị kích thước 16 X 16 là được xem xét là một lựachọn tốt (điều này chỉ rõ tiêu chuẩn mã hóa video quốc tế như là H.261, H.263, vàMPEG-1 và MPEG-2.) chú ý rằng ước lượng chính xác một kích thước khối 8 x 8thường hay sử dụng
Hình 1.1 là dùng minh họa kỹ thuật ánh xạ khối Trong hình 1.1(a) một khungảnh tại tn là được phân đoạn thành khung chồng lên khung p x q khối hình chữ nhật Đềcập trước, trong thực tiễn, khối hình vuông p=q=16 được sử dụng nhiều Xem xét mộtkhối có tâm tọa độ (x, y).Giả sử khối dịch chuyển toàn bộ.Do đó, chỉ một vectorchuyển động cần được ước tính bằng khối này Hình 1.1(b) hiển thị khung trước:khung tại tại tn-1 Để mà ước lượng vector chuyển động, một cửa sổ tìm hình chữ nhậtđược mở trong khung tn-1 và tâm tại điểm ảnh (x, y) Xem xét một điểm ảnh trong cửa
sổ tìm kiếm, một cửa sổ hình tương quan chữ nhật có kích thước gần như là p x q đượcđạt tại điểm ảnh tại tâm Chắc chắn biện pháp (tương quan) tương tự được tính toán.Sau đó quá trình ánh xạ này được hoàn thành tất cả điểm ảnh ứng viên trong cửa sổ tìmkiếm, của sổ tương quan tương tự giống nhau nhất trở thành các khối giống nhau hợplại nhất dưới sự xem xét như một khung tn Vị trí tương đối của hai khối này( khối vàkhối hợp lại nhất) đã cho vector chuyển động Điều này hiển thị trong Hình 1.1(b)
Kích thước cửa sổ tìm kiếm là xác định rõ bởi kích thước cửa sổ tương quan vàkhoảng cách dịch chuyển tối đa có thể theo bốn phương diện: trên, dưới và về phíaphải và phía trái
Trong hình 1.2 bốn hướng theo giả thiết là giống nhau và được biểu thị là d
Trang 11Chú ý rằng d là ước tính từ một kiến thức tiên nghiệm về chuyển động tịnh tiến,trong đó bao gồm tốc độ chuyển dịch lớn nhất có thể và khoảng thời gian giữa haikhung hình liên tiếp.
1.1.2 Tiêu chuẩn ánh xạ
Hình 1 2 Cửa sổ tìm kiếm và cửa sổ tương quan.
Ánh xạ khối thuộc ánh xạ ảnh và có thể nhìn thầy từ một gốc độ rộng hơn nhiều.Trong tiến trình xử lý ảnh, chúng ta cần phải kiểm tra hai hình ảnh hoặc haiphần của ảnh trên một điểm ảnh bởi một điểm ảnh cơ sở Hai hình ảnh hoặc hai khuvực hình ảnh có thể chọn lựa từ trình tự ảnh không gian,từ hai khung lấy tại khung thờigian giống nhau với hai cảm biến khác nhau cùng một đối tượng, hoặc từ trình tự hìnhảnh thời gian từ hai khung tại hai thời điểm khác nhau bởi cảm biến giống nhau
Mục đích của việc kiểm tra là để xác định sự giống nhau giữa hai hình ảnh hoặchai phần của ảnh Ví dụ như là các loại ứng dụng này bao gồm ghi ảnh ( Pratt, 1974) vàánh xạ mẫu (Jain, 1989)
Biện pháp đồng dạng, hoặc biện pháp tương quan, là yếu tố chìa khóa trong tiếntrình ánh xạ Phép đo tương quan cơ bản giữa hai ảnh tn và tn-1, C (s, t), là vạch rõ nhusau ( Anuta, 1969)
Trang 12Trong đó M (u, v) là thước đo tính không đồng dạng giữa hai arguments u và v.D( s, t) là quy vào tiêu chuẩn phù hợp của giá trị D.Trong các tài liệu có một số tiêu chítiêu chuẩn phù hợp: Giữa sai số bình phương trung bình (MSE) (Jain and Jain, 1981)
và sai số tuyệt đối trung bình (MAD) (Koga et al., 1981) được sử dụng thường xuyên.Ghi nhớ rằng tổng sai số bình phương (SSD) (Anandan, 1987) hoặc tổng sai số bìnhphương (SSE) (Chan et al., 1990) về cơ bản giống như MSE Sai số tuyệt đối trungbình thường quy về sai số tuyệt đối trung bình (MAE) trong tài liệu (Nogaki andOhta, 1972)
Trong MSE tiêu chuẩn ánh xạ, tính không đồng dạng giá trị M (u, v) chỉ địnhnhư
M(u,v) = (u-v)2 (1.3)
Trang 131.2.3 Thuật toán ánh xạ khối
Hình 1 3 Ánh xạ khối của một macro block có cạnh bên là 16 pixel và tham số tìm kiếm p có
kích cỡ là 7 pixels.
Xết với khối tìm kiếm là khối vuông
Trang 14Giả thiết nền móng cho dự đoán chuyển động đó là các mô hình tương ứng vớicác đối tượng và nền trong một khung của chuỗi video di chuyển trong khung để tạothành các đối tượng tương ứng trên khung tiếp theo Ý tưởng đằng sau ánh xạ khối là
để phân chia khung hình hiện thời thành một ma trận ‘macro block’, sau đó so sánh vớiblock tương ứng và các khối lân cận trong khung trước để tạo ra một vector quy định
sự chuyển động một macro block từ điểm này đến điểm khác trong khung trước đó.Chuyển động này được tính cho tất cả các macro block bao gồm một khung, việc thiếtlập dự đoán chuyển động trong khung hiện thời Vùng tìm kiếm tốt cho một macroblock phù hợp được quy định lên đến p điểm ảnh trên bốn phía của macro block tươngứng trong khung ảnh trước đó “p” được gọi là tham số tìm kiếm Chuyển động cànglớn thì yêu cầu p cũng phải lớn, và độ lớn của tham số tìm kiếm được tính toán kĩ đểquá trình này trở thành dự đoán chuyển động Thông thường macro block được chonhư một ô vuông với cạnh là 16 pixel với tham số p là 7 pixels hình 3 Một macroblock được ánh xạ thành một block khác dựa trên giá trị đầu ra của một hàm Giá trị đó
là kết quả thấp nhất thu được từ việc ánh xạ block hiện tại gần nhất để thu được mộtmacro block mới Một hàm thì có nhiều giá trị khác nhau, trong đó phổ biến nhất vàđược tính toán kĩ nhất là trung bình sai khác tuyệt đối (Mean Absolute Difference -MAD) cho bởi phương trình (1.5) Một giá trị khác của hàm là trung bình sai số bìnhphương (Mean Squared Error - MSE) cho bởi phương trình (1.6)
1 1
ij ij 2
0 0
2
1 1
ij ij 2
N là cạnh bên của macro block
Cij và Rij là điểm ảnh của macro block hiện tại và macro block qui chuẩn tươngứng
Trang 151.3 Thủ tục tìm kiếm
Vấn đề tìm kiếm là một vấn đề quan trọng để đối phó với ánh xạ khối.Một sốchiến lược được thảo luận dưới đây
1.3.1 Tìm kiếm đầy đủ
Hình 1.2 : Cho thấy một cửa sổ tìm kiếm, một cửa sổ tương quan, và kích thước
của chúng.Trong việc tìm kiếm phù hợp nhất, cửa sổ tương quan được di chuyển đếntừng vị trí có thể chọn trong cửa sổ tìm kiếm Có nghĩa là, có một tổng (2d+1)x(2d+1)các vị trí mà cần được kiểm tra.Sự khác nhau tối thiểu cho kết quả phù hợp nhất.Rõràng, đây là phương pháp tìm kiếm đầy đủ là một thuật toán trong trạng thái tự nhiên.Tìm kiếm đầy đủ cung cấp độ chính xác khá tốt trong sự tìm kiếm phù hợp nhất (Do đó
độ chính xác cao trong sự ước lượng chuyển động ),một số lượng lớn các phép tính làphức tạp
Để làm giảm tính toán phức tạp,một số thủ tục tìm kiếm nhanh đã được pháttriển Chúng được giới thiệu dưới đây
1.3.2 Tìm kiếm logarit-2D
Jain (1981) đã phát triển một quy trình tìm kiếm logarit-2D.Dựa trên thủ tục tìmkiếm logarit-1D (1973), phương pháp 2D đã liên tục giảm được diện tích vùng tìmkiếm, do đó làm giảm được gánh nặng tính toán
Những bước đầu tiên tính toán tiêu chuẩn phù hợp cho 5 điểm trong cửa sổ tìmkiếm.Năm điểm này là như sau : Điểm trung tâm của cửa sổ tìm kiếm và bốn điểmxung quanh nó,với một điểm giữa là điểm trung tâm bốn ranh giới của cửa sổ
Bước 1: Trong số 5 điểm này , sẽ tương ứng mỗi điểm có một mức (các mức
khác nhau) so sánh với một mức tối thiểu và sẽ chọn ra điểm chiến thằng
Trang 16Bước 2: Xung quanh điểm chiến thắng một bộ năm điểm khác lại được lựa
chọn trong trong cách tương tự như bước đầu tiên, với khoảng cách giữa các điểmtrung tâm và năm điểm còn lại không thay đổi
Trong trường hợp ngoại lệ xảy ra khi điểm tiếp theo hoặc là một điển trung tâmcủa một bộ 5 điểm hoặc một điểm nằm trên cửa sổ tìm kiếm cho một giá trị D nhỏnhất
Trong các trường hợp như thế này , khoảng cách giữa năm điểm cần phải đượcgiảm.Phương pháp cứ tiếp tục cho tới bước cuối cùng , trong đó một tập hợp các điểm
có thể chọn được đặt trong một mạng lưới 2D 3x3 Hình 1.4 và 1.5 giải thích haitrường hợp của phương pháp.Hình 1.4 thấy được rằng giá trị D tối thiểu nằm trên mộtranh giới của 5 điểm, khi hình 1.5 cho thấy rằng giá trị D tối thiểu nằm trong trung tâm
vị trí trùng vị trí sai lệch
Trang 17Hình 1 4: Phương pháp-2D tìm kiếm logarit.Tại điểm (j;k+2),(j+2;k+1),(j+2,k+4) và
(j+1,k+4) dựa trên sự tối thiểu các điểm khác nhau trong từng bước 1,2,3 và 4 riêng từng vị
trí.
Trang 18Hình 1 5 Phương thức tìm kiếm logarit 2D.Tại điểm (j,k-2),(j+2,k-2) và (j+2,k-1) là dựa trên
sự tối thiểu các điểm khác nhau trong bước 1,2,3 và 4 riêng từng vị trí.
Một bằng chứng hội tụ của các phương pháp được trình bày bởi jain và jain(1981),theo giả định rằng sự khác nhau đều tăng lên như là cách di chuyển các điểmtìm kiếm từ các điểm tương ứng tới điểm tối thiểu khác nhau
Trang 191.3.3 Thuật toán tìm kiếm ba bước
Hình 1 6 Phương thức tìm kiếm 3 bước.Điểm( j+4,k-4) ,( j+4 , k-6 ) và ( j+5,k-7) cho các
điểm tối thiểu khác nhau trong bước 1 ,2,3 riêng từng bước.
Một công việc quan trọng kỹ thuật ánh xạ khối đã được hoàn thành và gần nhưcùng một lúc bởi Koge (1981).Một Phương pháp ba bước đã được phát triển cho tìmkiếm một cách nhanh chóng
Một phương pháp ba bước được phát triển để tìm kiếm nhanh.Ba bước tìm kiếmtương tự như trong thuật toán 2D.Tuy nhiên ba bước này khác 2D chính là ở 2 thủ tục
Trang 20Thứ 1 : Mỗi bước trong việc tìm kiếm ba bước được so sánh với một tập hợp 9 điểm
đã tạo thành một cấu trúc lưới 3x3 2D
Thứ 2 : Khoảng cách giữu các điểm trong cấu trúc dạng lưới 3x3 2D trong ba bước tìm
kiếm sẽ giảm đơn điệu trong bước 2 và bước 3.Tổng cộng chỉ có ba bước được thựchiện
Rõ ràng, Đây là ba bước khác nhau so với tìm kiếm logarit 2-D được mô tảtrong phần 1.3.2 Để minh họa cho điều này ta xem xét ví dụ của tìm kiếm ba bướcnhìn trong hình 1.6
Ví dụ
Nó bắt đầu tìm kiếm tại vị trí trung tâm và được thiết lập “step size” S = 4, chomột tham số tìm kiếm thông thường có giá trị là 7 Sau đó, nó tìm kiếm 8 điểm +/- Spixel xung quanh điểm (0,0) Từ 8 vị trí đã tìm kiếm được nó chọn một điểm có giá trịthấp nhất và biến nó thành vị trí gốc tìm kiếm mới Sau đó tiếp tục thiết lập kích thướcbước mới S = S/2, rồi tiếp tục tìm kiếm tương tự như trên, lặp đi lặp lại khoảng 2 lầncho đến khi S = 1 Lúc đó vị trí tìm kiếm có giá trị hàm thấp nhất và macro block tại đó
là phù hợp nhất Tính toán vector chuyển động rồi lưu lại để truyền Giúp giảm cácphép toán khi hệ số tính toán là 9 Vì vậy với p=7, ES sẽ tính toán giá trị cho 225macro block trong khi đó TSS chỉ tính toán giá trị cho 25 macro block
Ý tưởng đằng sau TSS là các bề mặt lỗi do chuyển động trong mọi macro blocktrở thành unimodal Một unimodal surface là là một bowl shaped surface như bộ tạotrọng số cho bởi các giá trị của hàm tăng đều từ giá trị nhỏ nhất
Trang 21Hình 1 7 Quá trình tìm kiếm 3 bước Vector chuyển động là (5,-3)
1.3.4 Thuật toán tìm kiếm ba bước mới
NTSS là cải tiến kết quả từ thuật toán TSS bằng cách cung cấp một chương tìnhtìm kiếm center biased và quy định cách ngăn chặn để giảm giá trị tính toán Nó là mộttrong các thuật toán nhanh đầu tiên được công nhận rộng rãi và thường được sử dụngcho việc thực hiện các tiêu chuẩn trước đó như MPEG 1 và H.261
Trang 22Hình 1 8 Ánh xạ khối tìm kiếm 4 bước: Phạm vi kiểm tra của TSS trong bước đầu tiên là khá
lớn và the quares là việc mở rộng thêm 8 điểm được thêm vào trong bước đầu tiên của NTSS Hình tam giác và diamond là bước thứ hai của NTSS để biểu diễn 3, 5 điểm được kiểm tra khi trọng số thấp nhất trong bước đầu tiên là một trong những 8 điểm của của sổ trung tâm.
TSS sử dụng một mô hình kiểm tra phân bố đều để phát hiện chuyển động vàcác chuyển động nhỏ bị khuyết Quá trình NTSS được minh họa bằng hình 1.8 Trongbước đầu tiên 16 điểm được kiểm tra thêm vào đó tìm ra trọng số thấp nhất bằng cách
sử dụng một giá trị của hàm Trong những vị trí tìm kiếm bổ sung, khoảng cách củaS=4 là 8 (tương tự như TSS) và khác 8 nếu S=1 từ vị trí tìm kiếm ban đầu Nếu giá trịtại vị trí ban đầu là thấp nhất thì việc tìm kiếm sẽ dừng lại tại đó và vector chuyển độngđược mặc định là (0, 0) Nếu trọng số thấp nhất ở bất kì vị trí nào trong 8 vị trí tại S=1,thì chúng ta thay đổi vị trí tìm kiếm ban đầu và kiểm tra các trọng số xùng quanh nó.Tùy thuộc vào các điểm mà chúng ta chỉ kiểm 5 hoặc 3 điểm (hình 7(b) & (c)) Vị trícho trọng số thấp nhất phù hợp nhất và vector chuyển động sẽ được thiết đặt tại đây
Trang 23Mặt khác nếu trọng số tìm được là thấp nhất sau bước đầu tiên là một trong 8 vị trí tại
S = 4, thì chúng ta sẽ tiến hành TSS theo cách thông thường Do đó, mặc dù quá trìnhnày có thể cần tối thiểu 17 điểm để kiểm tra mỗi macro block, nhưng nó cũng cótrường hợp xấu nhất của 33 vị trí được kiểm tra
1.3.5 Thuật toán tìm kiếm bốn bước
Tương tự như NTSS, 4SS cũng sử dụng tìm kiếm center biased và qui định cáchchặn nửa chừng 4SS thiết đặt một kích thước mẫu cố định của S = 2 trong bước đầu
tiên, không cần biết giá trị tham số tìm kiếm p là gì Vì vậy, nó trông như 9 vị trí trong
một của sổ cỡ 5x5 Nếu trọng số tìm được tại trung tâm của của sổ tìm kiếm thì việctìm kiếm được nhảy sang bước bốn Nếu trọng số là một trong 8 vị trí ngoại trừ trungtâm, thì ta có vị trí tìm kiếm ban đầu và chuyển đến bước thứ hai Cửa sổ tìm kiếm vẫnđược duy trì như là một điểm ảnh cỡ 5x5 Tùy thuộc vào nơi có trọng số thấp nhất,chúng ta chỉ kiểm tra trọng số tại 3 hoặc 5 vị trí Mô hình mẫu được biểu diễn tronghình 1.9 Lặp lại lần nữa nếu vị trí có trọng số thấp nhất ở trung tâm của cửa sổ tìmkiếm 5 x 5 chúng ta nhảy đến bước bốn hoặc chuyển sang bước ba Bước thứ 3 giống ynhư bước thứ 2 Trong bước thứ tư kích thước cửa sổ giảm xuống còn 3 x 3, tức là S =
1 Vị trí với trọng số thấp nhất có ánh xạ macro block tốt nhất và vector chuyển độngđược thiết lập để chỉ ở địa điểm đó Quá trình lấy mẫu được thể hiện trong hình 8 Đây
là thuật toán tìm kiếm tốt nhất trong trường hợp 17 điểm kiểm tra và xấu nhất trongtrường hợp 27 điểm kiểm tra
Trang 24Hình 1 9 Quá trình tìm kiếm 4 bước Vecto chuyển động là (3, -7)
1.3.6 Ánh xạ khối đa phân giải
Xết cấu trúc Kim Tự Tháp đây là một phương pháp rất mạnh trong các tác vụtính toán và xử lý hình ảnh khác nhau.Để tiết kiệm tính toán trong các khối phù hợp,Nó
là phải nhờ tới cấu trúc kim tự tháp.Trong thực tế, kỹ thuật đa phân giải đã được coinhư là một phương pháp hiệu quả nhất trong ánh xạ khối (Tz,1994).Trong một kỹ thuật
đa phân giải có tên là top –down, một kim tự tháp gauss điển hình được hình thành đầutiên
Trang 25(a) Bắt đầu khối 16x16 trong khung tại tn (b) So sánh cửa sổ của 16x16 trong khung tại t
Hình 1 10 Một ví dụ về 2x2 mẫu phụ trong khối và sự tương quan cửa sổ ban đầu cho tìm
kiếm nhanh.
Trước khi đi sâu vào mô tả kỹ hơn,Chúng tạm dừng ở đây để cung cấp chonhững độc giả,những người không được tiếp xúc với các kim tự tháp Gauss một cáchngắn gọn giới thiệu nội dung này.Nói ngắn gọn kim tự tháp gauss có thể được hiểu nhưnhư là một tập hợp các hình ảnh với độ phân giải khác nhau liên quan đến một hìnhảnh ban đầu theo một cách nhất định Những hình ảnh ban đầu có độ phân giải cao nhấtđược coi là mức thấp nhất, đôi khi gọi là cấp dưới trong bộ này Từ cấp dưới lên cấpcao nhất độ phân giải giảm đơn điệu Cụ thể , giữa hai cấp độ liên tiếp, mức trên là làbằng một nửa như là độ lớn thấp hơn so với cả hai chiều ngang và dọc.Mức trên đượctạo ra bằng cách áp dụng một bộ lọc thông thấp cho mức thấp, dưới đây là một mẫuphụ 2x2 Đó là, mỗi điểm ảnh ở mức trên là trọng số trung bình của một số điểm ảnhtrong mức thấp Nhìn chung,thủ tục được lặp đi lặp lại tạo ra một mức độ trong các