TIỂU LUẬN Ánh xạ khối Block MATCHING về xử lý âm thanh và hình ảnh

Lời nói đầu Công nghệ xử lý ảnh ngày càng phát triển và được chú trọng , chất lượng ảnh và video ngày càng được nâng cao để đáp ứng nhu cầu trao đổi thông tin của con người.Tài liệu của

Trang 1

TIỂU LUẬN Ánh xạ khối Block Matching

Hà Nội, tháng 10 năm 2014.

Trang 2

Lời nói đầu

Công nghệ xử lý ảnh ngày càng phát triển và được chú trọng , chất lượng ảnh

và video ngày càng được nâng cao để đáp ứng nhu cầu trao đổi thông tin của con

người.Tài liệu của chúng tôi chủ yếu tập trung nói về phần xử lý ảnh trong đó phương

pháp mà chúng tôi muốn nói tới và nghiên cứu ở đây là vấn đề Ánh xạ khối.Để hiểu

được tầm quan trọng của nó cũng như lợi ích của nó mang lại ta sẽ cùng nhau tìm hiểu

nó.Bằng cách loại bỏ dư thiều trong ảnh sẽ tiếp kiệm số bits dành cho mã hóa và sẽ tiết

kiệm được băng thông trên môi trường internet qua đó ta thấy được tầm quan trọng của

vấn đề đang nghiên cứu.Làm cách nào để ta đánh giá sự chuyển động của video, khi

truyền trên đường truyền ta truyền cái gì và như thế nào những câu hỏi sẽ dần được

giải đáp qua tài liệu nghiên cứu của chúng ta.Vì thời gian có hạn nên sẽ không thể

tránh được những sai sót mong độc giả và các bạn góp ý để hoàn thiện hơn tài liệu

nghiên cứu của chúng tôi

Nhóm tác giả

Nguyễn Quyết Tiến Nguyễn Hữu Đức Phạm Quang Ánh

Hà Nội tháng 10/2014

Lời nói đầu 2

Trang 3

Bảng biểu và hình ảnh 4

1.Giới thiệu tổng quan 6

1.1 Ánh xạ khối 8

1.1.1 Không chồng lên nhau,cách đều nhau, cố định kích thước , ánh xạ khối với kích thước chữ nhật nhỏ 9

1.1.2 Tiêu chuẩn ánh xạ 11

1.2.3 Thuật toán ánh xạ khối 14

1.3 Thủ tục tìm kiếm 15

1.3.1 Tìm kiếm đầy đủ 15

1.3.2 Tìm kiếm logarit-2D 16

1.3.3 Thuật toán tìm kiếm ba bước 19

1.3.4 Thuật toán tìm kiếm ba bước mới 21

1.3.5 Thuật toán tìm kiếm bốn bước 23

1.3.6 Ánh xạ khối đa phân giải 24

1.3.7 Ngưỡng đa phân giải ánh xạ khối 27

1.4 Phù hợp với độ chính xác 34

1.5 Hạn chế của kỹ thuật ánh xạ khối 35

1.6 Cải tiến mới 37

1.6.1 Cấu trúc phân cấp ánh xạ khối 37

1.6.2 Lưới đa ô trong ánh xạ khối 41

1.6.3 Ánh xạ khối qua OVERLAPPER 45

2.Kết luận 48

3.Tài liệu tham khảo 51

Trang 4

Bảng biểu và hình ảnh

Hình 1 1 Ánh xạ khối 10 Hình 1 2 Cửa sổ tìm kiếm và cửa sổ tương quan 11 Hình 1 3 Ánh xạ khối của một macro block có cạnh bên là 16 pixel và tham số tìm

kiếm p có kích cỡ là 7 pixels 14

Hình 1 4: (a) Phương pháp-2D tìm kiếm logarit.Tại điểm (j;k+2),(j+2;k+1),(j+2,k+4)

và (j+1,k+4) dựa trên sự tối thiểu các điểm khác nhau trong từng bước 1,2,3 và 4 riêngtừng vị trí 17

Hình 1 5 (b) Phương thức tìm kiếm logarit 2D.Tại điểm (j,k-2),(j+2,k-2) và (j+2,k-1)

là dựa trên sự tối thiểu các điểm khác nhau trong bước 1,2,3 và 4 riêng từng vị trí 18

Hình 1 6 Phương thức tìm kiếm 3 bước.Điểm( j+4,k-4) ,( j+4 , k-6 ) và ( j+5,k-7) cho

các điểm tối thiểu khác nhau trong bước 1 ,2,3 riêng từng bước 19

Hình 1 7 Quá trình tìm kiếm 3 bước Vector chuyển động là (5,-3) 21 Hình 1 8 Ánh xạ khối tìm kiếm 4 bước: Phạm vi kiểm tra của TSS trong bước đầu

tiên là khá lớn và the quares là việc mở rộng thêm 8 điểm được thêm vào trong bướcđầu tiên của NTSS Hình tam giác và diamond là bước thứ hai của NTSS để biểu diễn

3, 5 điểm được kiểm tra khi trọng số thấp nhất trong bước đầu tiên là một trong những

8 điểm của của sổ trung tâm 22

Hình 1 9 Quá trình tìm kiếm 4 bước Vecto chuyển động là (3, -7) 24 Hình 1 10 Một ví dụ về 2x2 mẫu phụ trong khối và sự tương quan cửa sổ ban đầu cho

tìm kiếm nhanh 25

Hình 1 11 Cấu trúc kim tự tháp gauss 27

Trang 5

Hình 1 12 Sơ đồ khối của ánh xạ khối đa phân giải ngưỡng ba mức 30

Hình 1 13 Xử lý ngưỡng 32

Hình 1 14 Khung thứ 20 của con tàu đang chuyển động 33

Hình 1 15 Khung thứ 20 trong chuỗi “Football” 34

Hình 1 16 Dựng lại 21 chuỗi khung của "Miss America" sử dụng một bộ mã hóa cho H.263 36

Hình 1 17 Kiến trúc phân tầng ánh xạ khối 38

Hình 1 18 Một phần của một ảnh với các điểm ảnh đã được xử lí trong cả 3 mức 40

Hình 1 19 Minh họa 3 mức của cấu trúc phân tầng 42

Hình 1 20 Sơ đồ thuật toán đa ô lưới ánh xạ khối 44

Hình 1 21 Tạo ngưỡng đa ô lưới ánh xạ khối 45

Hình 1 22 Overlapped block matching 46

Bảng 1 2 Kết quả thực nghiệm (II) 39

Bảng 1 3 Các thông số được sử dụng trong 3 mức của kiến trúc phân tầng ánh xạ khối 40

Trang 6

1.Giới thiệu tổng quan

Với sự tiến tới thế hệ đa phương tiện và sự trải rộng internet, tài nguyên dữ liệuvideo trên CD/DVD và dòng video đã dành được nhiều sự ưa chuộng.Trong cả hai tiêuchuẩn cơ bản lưu lượng toàn bộ quá trình nén-giải nén là giống nhau và miêu tả tronghình 1 Mã hóa ước lượng trên khía cạnh chuyển động trong khung hiện tại với cácquan hệ tới khung trước

Một ảnh bù chuyển động của khung hiện tại tạo nên khối của ảnh từ khungtrước đó.Vector chuyển động của khối sử dụng ước lượng chuyển động được truyền đi,cũng như sự khác biệt của ảnh bù với khung hiện tại mặc dù JPEG đã mã hóa và gửi

Mã hóa ảnh gửi đi sau đó giải mã khi đã mã hóa và sử dụng khung tham chiếu cho cáckhung tiếp theo.Tất cả ý tưởng đằng sau ước lượng chuyển động dựa trên nén video tớitiết kiệm bits gửi đi bởi JPEG được mã hóa ảnh ,khác biệt khi đó dùng ít năng lượng và

có thể nén cao so việc với gửi một khung đầy đủ JPEG được mã hóa

Hình 1: MPEG/H.26x tiến trình nén video.

Motion JPEG, tất cả khung JPEG được mã hóa, đạt mục địch giữa 10:1 đến 15:1

tỷ lệ nén, MPEG có thể đạt tỷ lệ nén 30:1 vàn sử dụng tỷ lệ 100:1 [1] [2] [3] Chú ý

Trang 7

rằng khung đầu tiên luôn gửi toàn bộ, và vài khung khác có thể xảy ra một số khoảngthường xuyên Các tiêu chuẩn không chỉ định điều này và có thể thay đổi với tất cảvideo được gửi dựa trên năng động của video.

Các tính toán đắt tiền và hoạt động thiếu tài nguyên trong quá trình nén toàn bộ

là ước lượngchuyển động Hơn nữa, trường này hoạt động cao nhất và nghiên cứutham gia trong hai thập kỷ trước Bài viết này thực hiện và ước lượngthuật toán ánh xạkhối cơ bản từ giữa năm 1980 cho đến năm 2002 Các thuật toán đã được thực hiện làtìm kiếm nghiên cứu toàn diện (ES),tìm kiếm ba bước (TSS),tìm kiếm bốn bước (4SS),Diamond Search (DS) và thuật toán 2D logarit

Trang 8

1.1 Ánh xạ khối

Biện pháp vector chuyển động và sử dụng chúng trong việc bù chuyển độngtrong mã hóa liên khung của tín hiệu truyền hình có thể tìm thấy từ những năm 1970.Netravali và Robbins (1979) đã phát triển một kỹ thuật điểm ảnh đệ quy, trong đó ướclượng vector chuyển động của mỗi điểm ảnh đệ quy từ ảnh lân cận sử dụng mộtphương pháp tối ưu Limb và Rocca (1977) đã phát triển kỹ thuật cho ước lượngvector chuyển động của một khối và điểm ảnh Gần như sau đó, một ảnh đầu tiên đượcphân chia thành các khu vực với nhau một khoảng cách bằng nhau Sau đó vectorchuyển động được ước lượng cho mỗi khu vực Phân đoạn và ước lượng chuyển độngkết hợp với khối khuôn dạng tùy ý là rất khó khăn Khi có nhiều khu vực chuyển độngphức tạp trong ảnh, tình hình trở lên khó khăn Thêm vào những vector chuyển động,những thông tin hình dạng này trong mỗi khu vực cần được mã hóa Kể từ đây, khi khuvực dịch chuyển có hình dạng khác nhau, đồng thời tính toán và mã hóa tăng lên đángkể

Kỹ thuật ánh xạ khối được tập trung trong phần này, đơn giản, không phức tạp

và còn rất hiệu quả Cho đến nay được sử dụng phổ biến nhất trong kỹ thuật ước lượngchuyển động trong mã hóa ảnh Trên thực tế, nó đã được chấp nhận bởi các tiêu chuẩn

mã hóa video quốc tế: ISO, MPEG-1 và MPEG-2, và ITU H.261, và H.263

Được quan tâm cho tới ngày nay, với sự tiến bộ to lớn trong kỹ thuật đa phươngtiện, và dựa trên nội dung sự vận dụng của thông tin nghe nhìn vẫn còn khắt khe, đặcbiệt trong kho dữ liệu nghe nhìn, thu hồi và phân phối Các ứng dụng bao gồm thư viện

kỹ thuật số, video theo yêu cầu, cơ sở dữ liệu nghe nhìn và tương tự bởi vậy, mã hóađối tượng theo hình dạng tùy ý là được thu hút tham dự nghiên cứu to lớn cho đến ngàynay Nó bao gồm trong phạm vi hoạt động MPEG-4 (Brailean, 1997).Trong phần này,các khía cạnh khác nhau của ánh xạ khối là được chú ý Chúng bao gồm khái niệm vàthuật toán, tiêu chuẩn phù hợp, chiến lược tìm kiếm, hạn chế, và cải tiến mới

Trang 9

1.1.1 Không chồng lên nhau,cách đều nhau, cố định kích thước , ánh xạ khối với kích thước chữ nhật nhỏ

Để không gặp phải sự khó khăn gặp trong ước lượng chuyển động và bù chuyểnđộng với khối khuôn dạng tùy ý, kỹ thuật ánh xạ khối được đề nghị bởi Jain and Jain(1981) dựa trên mô hình chuyển động đơn giản

Một ảnh được chia để tập hợp không chồng lên nhau, cách đều, cố định kíchthước, khối chữ nhật nhỏ, và chuyển động tịnh tiến trong mỗi khối được giả định làđều nhau Mặc dù mô hình đơn giản coi như chỉ là chuyển động tịnh tiến, các loạichuyển động khác, chẳng hạn như xoay và phóng to trên các đối tượng, có thể gần như

là dịch từng phần theo các khối nhỏ với điều kiện là các khối phải đủ nhỏ

Vector chuyển động cho các khối này được ước lượng bằng cách tìm các khốigiống với chúng nhất trong các khung cho trước Theo cách này, ước lượng chuyểnđộng là một cách dễ dàng nhất so với các khối hình dạng tùy ý Từ dịch chuyển mỗikhối được mô tả bởi vector chuyển động, thông tin khía cạnh vector chuyển động giảmdần

Trang 10

Hơn nữa thông tin hình chữ nhật nhỏ được biết ở cả hai bộ mã hóa và giải mã,không cần phải mã hóa,tiết kiệm đồng thời tính toán và thông tin phụ.

Kích thước khối cần chọn chính xác Rõ ràng, kích thước khối nhỏ hơn dẫn đếnnhiều vector dịch chuyển được ước lượng và mã hóa, trong đó tăng đồng thời tính toán

và thông tin phụ Người ta khuyến nghị kích thước 16 X 16 là được xem xét là một lựachọn tốt (điều này chỉ rõ tiêu chuẩn mã hóa video quốc tế như là H.261, H.263, vàMPEG-1 và MPEG-2.) chú ý rằng ước lượng chính xác một kích thước khối 8 x 8thường hay sử dụng

Hình 1.1 là dùng minh họa kỹ thuật ánh xạ khối Trong hình 1.1(a) một khungảnh tại tn là được phân đoạn thành khung chồng lên khung p x q khối hình chữ nhật Đềcập trước, trong thực tiễn, khối hình vuông p=q=16 được sử dụng nhiều Xem xét mộtkhối có tâm tọa độ (x, y).Giả sử khối dịch chuyển toàn bộ.Do đó, chỉ một vectorchuyển động cần được ước tính bằng khối này Hình 1.1(b) hiển thị khung trước:khung tại tại tn-1 Để mà ước lượng vector chuyển động, một cửa sổ tìm hình chữ nhậtđược mở trong khung tn-1 và tâm tại điểm ảnh (x, y) Xem xét một điểm ảnh trong cửa

sổ tìm kiếm, một cửa sổ hình tương quan chữ nhật có kích thước gần như là p x q đượcđạt tại điểm ảnh tại tâm Chắc chắn biện pháp (tương quan) tương tự được tính toán.Sau đó quá trình ánh xạ này được hoàn thành tất cả điểm ảnh ứng viên trong cửa sổ tìmkiếm, của sổ tương quan tương tự giống nhau nhất trở thành các khối giống nhau hợplại nhất dưới sự xem xét như một khung tn Vị trí tương đối của hai khối này( khối vàkhối hợp lại nhất) đã cho vector chuyển động Điều này hiển thị trong Hình 1.1(b)

Kích thước cửa sổ tìm kiếm là xác định rõ bởi kích thước cửa sổ tương quan vàkhoảng cách dịch chuyển tối đa có thể theo bốn phương diện: trên, dưới và về phíaphải và phía trái

Trong hình 1.2 bốn hướng theo giả thiết là giống nhau và được biểu thị là d

Trang 11

Chú ý rằng d là ước tính từ một kiến thức tiên nghiệm về chuyển động tịnh tiến,trong đó bao gồm tốc độ chuyển dịch lớn nhất có thể và khoảng thời gian giữa haikhung hình liên tiếp.

1.1.2 Tiêu chuẩn ánh xạ

Hình 1 2 Cửa sổ tìm kiếm và cửa sổ tương quan.

Ánh xạ khối thuộc ánh xạ ảnh và có thể nhìn thầy từ một gốc độ rộng hơn nhiều.Trong tiến trình xử lý ảnh, chúng ta cần phải kiểm tra hai hình ảnh hoặc haiphần của ảnh trên một điểm ảnh bởi một điểm ảnh cơ sở Hai hình ảnh hoặc hai khuvực hình ảnh có thể chọn lựa từ trình tự ảnh không gian,từ hai khung lấy tại khung thờigian giống nhau với hai cảm biến khác nhau cùng một đối tượng, hoặc từ trình tự hìnhảnh thời gian từ hai khung tại hai thời điểm khác nhau bởi cảm biến giống nhau

Mục đích của việc kiểm tra là để xác định sự giống nhau giữa hai hình ảnh hoặchai phần của ảnh Ví dụ như là các loại ứng dụng này bao gồm ghi ảnh ( Pratt, 1974) vàánh xạ mẫu (Jain, 1989)

Biện pháp đồng dạng, hoặc biện pháp tương quan, là yếu tố chìa khóa trong tiếntrình ánh xạ Phép đo tương quan cơ bản giữa hai ảnh tn và tn-1, C (s, t), là vạch rõ nhusau ( Anuta, 1969)

Trang 12

Trong đó M (u, v) là thước đo tính không đồng dạng giữa hai arguments u và v.D( s, t) là quy vào tiêu chuẩn phù hợp của giá trị D.Trong các tài liệu có một số tiêu chítiêu chuẩn phù hợp: Giữa sai số bình phương trung bình (MSE) (Jain and Jain, 1981)

và sai số tuyệt đối trung bình (MAD) (Koga et al., 1981) được sử dụng thường xuyên.Ghi nhớ rằng tổng sai số bình phương (SSD) (Anandan, 1987) hoặc tổng sai số bìnhphương (SSE) (Chan et al., 1990) về cơ bản giống như MSE Sai số tuyệt đối trungbình thường quy về sai số tuyệt đối trung bình (MAE) trong tài liệu (Nogaki andOhta, 1972)

Trong MSE tiêu chuẩn ánh xạ, tính không đồng dạng giá trị M (u, v) chỉ địnhnhư

M(u,v) = (u-v)2 (1.3)

Trang 13

1.2.3 Thuật toán ánh xạ khối

Hình 1 3 Ánh xạ khối của một macro block có cạnh bên là 16 pixel và tham số tìm kiếm p có

kích cỡ là 7 pixels.

Xết với khối tìm kiếm là khối vuông

Trang 14

Giả thiết nền móng cho dự đoán chuyển động đó là các mô hình tương ứng vớicác đối tượng và nền trong một khung của chuỗi video di chuyển trong khung để tạothành các đối tượng tương ứng trên khung tiếp theo Ý tưởng đằng sau ánh xạ khối là

để phân chia khung hình hiện thời thành một ma trận ‘macro block’, sau đó so sánh vớiblock tương ứng và các khối lân cận trong khung trước để tạo ra một vector quy định

sự chuyển động một macro block từ điểm này đến điểm khác trong khung trước đó.Chuyển động này được tính cho tất cả các macro block bao gồm một khung, việc thiếtlập dự đoán chuyển động trong khung hiện thời Vùng tìm kiếm tốt cho một macroblock phù hợp được quy định lên đến p điểm ảnh trên bốn phía của macro block tươngứng trong khung ảnh trước đó “p” được gọi là tham số tìm kiếm Chuyển động cànglớn thì yêu cầu p cũng phải lớn, và độ lớn của tham số tìm kiếm được tính toán kĩ đểquá trình này trở thành dự đoán chuyển động Thông thường macro block được chonhư một ô vuông với cạnh là 16 pixel với tham số p là 7 pixels hình 3 Một macroblock được ánh xạ thành một block khác dựa trên giá trị đầu ra của một hàm Giá trị đó

là kết quả thấp nhất thu được từ việc ánh xạ block hiện tại gần nhất để thu được mộtmacro block mới Một hàm thì có nhiều giá trị khác nhau, trong đó phổ biến nhất vàđược tính toán kĩ nhất là trung bình sai khác tuyệt đối (Mean Absolute Difference -MAD) cho bởi phương trình (1.5) Một giá trị khác của hàm là trung bình sai số bìnhphương (Mean Squared Error - MSE) cho bởi phương trình (1.6)

1 1

ij ij 2

0 0

2

1 1

ij ij 2

 N là cạnh bên của macro block

 Cij và Rij là điểm ảnh của macro block hiện tại và macro block qui chuẩn tươngứng

Trang 15

1.3 Thủ tục tìm kiếm

Vấn đề tìm kiếm là một vấn đề quan trọng để đối phó với ánh xạ khối.Một sốchiến lược được thảo luận dưới đây

1.3.1 Tìm kiếm đầy đủ

Hình 1.2 : Cho thấy một cửa sổ tìm kiếm, một cửa sổ tương quan, và kích thước

của chúng.Trong việc tìm kiếm phù hợp nhất, cửa sổ tương quan được di chuyển đếntừng vị trí có thể chọn trong cửa sổ tìm kiếm Có nghĩa là, có một tổng (2d+1)x(2d+1)các vị trí mà cần được kiểm tra.Sự khác nhau tối thiểu cho kết quả phù hợp nhất.Rõràng, đây là phương pháp tìm kiếm đầy đủ là một thuật toán trong trạng thái tự nhiên.Tìm kiếm đầy đủ cung cấp độ chính xác khá tốt trong sự tìm kiếm phù hợp nhất (Do đó

độ chính xác cao trong sự ước lượng chuyển động ),một số lượng lớn các phép tính làphức tạp

Để làm giảm tính toán phức tạp,một số thủ tục tìm kiếm nhanh đã được pháttriển Chúng được giới thiệu dưới đây

1.3.2 Tìm kiếm logarit-2D

Jain (1981) đã phát triển một quy trình tìm kiếm logarit-2D.Dựa trên thủ tục tìmkiếm logarit-1D (1973), phương pháp 2D đã liên tục giảm được diện tích vùng tìmkiếm, do đó làm giảm được gánh nặng tính toán

Những bước đầu tiên tính toán tiêu chuẩn phù hợp cho 5 điểm trong cửa sổ tìmkiếm.Năm điểm này là như sau : Điểm trung tâm của cửa sổ tìm kiếm và bốn điểmxung quanh nó,với một điểm giữa là điểm trung tâm bốn ranh giới của cửa sổ

Bước 1: Trong số 5 điểm này , sẽ tương ứng mỗi điểm có một mức (các mức

khác nhau) so sánh với một mức tối thiểu và sẽ chọn ra điểm chiến thằng

Trang 16

Bước 2: Xung quanh điểm chiến thắng một bộ năm điểm khác lại được lựa

chọn trong trong cách tương tự như bước đầu tiên, với khoảng cách giữa các điểmtrung tâm và năm điểm còn lại không thay đổi

Trong trường hợp ngoại lệ xảy ra khi điểm tiếp theo hoặc là một điển trung tâmcủa một bộ 5 điểm hoặc một điểm nằm trên cửa sổ tìm kiếm cho một giá trị D nhỏnhất

Trong các trường hợp như thế này , khoảng cách giữa năm điểm cần phải đượcgiảm.Phương pháp cứ tiếp tục cho tới bước cuối cùng , trong đó một tập hợp các điểm

có thể chọn được đặt trong một mạng lưới 2D 3x3 Hình 1.4 và 1.5 giải thích haitrường hợp của phương pháp.Hình 1.4 thấy được rằng giá trị D tối thiểu nằm trên mộtranh giới của 5 điểm, khi hình 1.5 cho thấy rằng giá trị D tối thiểu nằm trong trung tâm

vị trí trùng vị trí sai lệch

Trang 17

Hình 1 4: Phương pháp-2D tìm kiếm logarit.Tại điểm (j;k+2),(j+2;k+1),(j+2,k+4) và

(j+1,k+4) dựa trên sự tối thiểu các điểm khác nhau trong từng bước 1,2,3 và 4 riêng từng vị

trí.

Trang 18

Hình 1 5 Phương thức tìm kiếm logarit 2D.Tại điểm (j,k-2),(j+2,k-2) và (j+2,k-1) là dựa trên

sự tối thiểu các điểm khác nhau trong bước 1,2,3 và 4 riêng từng vị trí.

Một bằng chứng hội tụ của các phương pháp được trình bày bởi jain và jain(1981),theo giả định rằng sự khác nhau đều tăng lên như là cách di chuyển các điểmtìm kiếm từ các điểm tương ứng tới điểm tối thiểu khác nhau

Trang 19

1.3.3 Thuật toán tìm kiếm ba bước

Hình 1 6 Phương thức tìm kiếm 3 bước.Điểm( j+4,k-4) ,( j+4 , k-6 ) và ( j+5,k-7) cho các

điểm tối thiểu khác nhau trong bước 1 ,2,3 riêng từng bước.

Một công việc quan trọng kỹ thuật ánh xạ khối đã được hoàn thành và gần nhưcùng một lúc bởi Koge (1981).Một Phương pháp ba bước đã được phát triển cho tìmkiếm một cách nhanh chóng

Một phương pháp ba bước được phát triển để tìm kiếm nhanh.Ba bước tìm kiếmtương tự như trong thuật toán 2D.Tuy nhiên ba bước này khác 2D chính là ở 2 thủ tục

Trang 20

Thứ 1 : Mỗi bước trong việc tìm kiếm ba bước được so sánh với một tập hợp 9 điểm

đã tạo thành một cấu trúc lưới 3x3 2D

Thứ 2 : Khoảng cách giữu các điểm trong cấu trúc dạng lưới 3x3 2D trong ba bước tìm

kiếm sẽ giảm đơn điệu trong bước 2 và bước 3.Tổng cộng chỉ có ba bước được thựchiện

Rõ ràng, Đây là ba bước khác nhau so với tìm kiếm logarit 2-D được mô tảtrong phần 1.3.2 Để minh họa cho điều này ta xem xét ví dụ của tìm kiếm ba bướcnhìn trong hình 1.6

Ví dụ

Nó bắt đầu tìm kiếm tại vị trí trung tâm và được thiết lập “step size” S = 4, chomột tham số tìm kiếm thông thường có giá trị là 7 Sau đó, nó tìm kiếm 8 điểm +/- Spixel xung quanh điểm (0,0) Từ 8 vị trí đã tìm kiếm được nó chọn một điểm có giá trịthấp nhất và biến nó thành vị trí gốc tìm kiếm mới Sau đó tiếp tục thiết lập kích thướcbước mới S = S/2, rồi tiếp tục tìm kiếm tương tự như trên, lặp đi lặp lại khoảng 2 lầncho đến khi S = 1 Lúc đó vị trí tìm kiếm có giá trị hàm thấp nhất và macro block tại đó

là phù hợp nhất Tính toán vector chuyển động rồi lưu lại để truyền Giúp giảm cácphép toán khi hệ số tính toán là 9 Vì vậy với p=7, ES sẽ tính toán giá trị cho 225macro block trong khi đó TSS chỉ tính toán giá trị cho 25 macro block

Ý tưởng đằng sau TSS là các bề mặt lỗi do chuyển động trong mọi macro blocktrở thành unimodal Một unimodal surface là là một bowl shaped surface như bộ tạotrọng số cho bởi các giá trị của hàm tăng đều từ giá trị nhỏ nhất

Trang 21

Hình 1 7 Quá trình tìm kiếm 3 bước Vector chuyển động là (5,-3)

1.3.4 Thuật toán tìm kiếm ba bước mới

NTSS là cải tiến kết quả từ thuật toán TSS bằng cách cung cấp một chương tìnhtìm kiếm center biased và quy định cách ngăn chặn để giảm giá trị tính toán Nó là mộttrong các thuật toán nhanh đầu tiên được công nhận rộng rãi và thường được sử dụngcho việc thực hiện các tiêu chuẩn trước đó như MPEG 1 và H.261

Trang 22

Hình 1 8 Ánh xạ khối tìm kiếm 4 bước: Phạm vi kiểm tra của TSS trong bước đầu tiên là khá

lớn và the quares là việc mở rộng thêm 8 điểm được thêm vào trong bước đầu tiên của NTSS Hình tam giác và diamond là bước thứ hai của NTSS để biểu diễn 3, 5 điểm được kiểm tra khi trọng số thấp nhất trong bước đầu tiên là một trong những 8 điểm của của sổ trung tâm.

TSS sử dụng một mô hình kiểm tra phân bố đều để phát hiện chuyển động vàcác chuyển động nhỏ bị khuyết Quá trình NTSS được minh họa bằng hình 1.8 Trongbước đầu tiên 16 điểm được kiểm tra thêm vào đó tìm ra trọng số thấp nhất bằng cách

sử dụng một giá trị của hàm Trong những vị trí tìm kiếm bổ sung, khoảng cách củaS=4 là 8 (tương tự như TSS) và khác 8 nếu S=1 từ vị trí tìm kiếm ban đầu Nếu giá trịtại vị trí ban đầu là thấp nhất thì việc tìm kiếm sẽ dừng lại tại đó và vector chuyển độngđược mặc định là (0, 0) Nếu trọng số thấp nhất ở bất kì vị trí nào trong 8 vị trí tại S=1,thì chúng ta thay đổi vị trí tìm kiếm ban đầu và kiểm tra các trọng số xùng quanh nó.Tùy thuộc vào các điểm mà chúng ta chỉ kiểm 5 hoặc 3 điểm (hình 7(b) & (c)) Vị trícho trọng số thấp nhất phù hợp nhất và vector chuyển động sẽ được thiết đặt tại đây

Trang 23

Mặt khác nếu trọng số tìm được là thấp nhất sau bước đầu tiên là một trong 8 vị trí tại

S = 4, thì chúng ta sẽ tiến hành TSS theo cách thông thường Do đó, mặc dù quá trìnhnày có thể cần tối thiểu 17 điểm để kiểm tra mỗi macro block, nhưng nó cũng cótrường hợp xấu nhất của 33 vị trí được kiểm tra

1.3.5 Thuật toán tìm kiếm bốn bước

Tương tự như NTSS, 4SS cũng sử dụng tìm kiếm center biased và qui định cáchchặn nửa chừng 4SS thiết đặt một kích thước mẫu cố định của S = 2 trong bước đầu

tiên, không cần biết giá trị tham số tìm kiếm p là gì Vì vậy, nó trông như 9 vị trí trong

một của sổ cỡ 5x5 Nếu trọng số tìm được tại trung tâm của của sổ tìm kiếm thì việctìm kiếm được nhảy sang bước bốn Nếu trọng số là một trong 8 vị trí ngoại trừ trungtâm, thì ta có vị trí tìm kiếm ban đầu và chuyển đến bước thứ hai Cửa sổ tìm kiếm vẫnđược duy trì như là một điểm ảnh cỡ 5x5 Tùy thuộc vào nơi có trọng số thấp nhất,chúng ta chỉ kiểm tra trọng số tại 3 hoặc 5 vị trí Mô hình mẫu được biểu diễn tronghình 1.9 Lặp lại lần nữa nếu vị trí có trọng số thấp nhất ở trung tâm của cửa sổ tìmkiếm 5 x 5 chúng ta nhảy đến bước bốn hoặc chuyển sang bước ba Bước thứ 3 giống ynhư bước thứ 2 Trong bước thứ tư kích thước cửa sổ giảm xuống còn 3 x 3, tức là S =

1 Vị trí với trọng số thấp nhất có ánh xạ macro block tốt nhất và vector chuyển độngđược thiết lập để chỉ ở địa điểm đó Quá trình lấy mẫu được thể hiện trong hình 8 Đây

là thuật toán tìm kiếm tốt nhất trong trường hợp 17 điểm kiểm tra và xấu nhất trongtrường hợp 27 điểm kiểm tra

Trang 24

Hình 1 9 Quá trình tìm kiếm 4 bước Vecto chuyển động là (3, -7)

1.3.6 Ánh xạ khối đa phân giải

Xết cấu trúc Kim Tự Tháp đây là một phương pháp rất mạnh trong các tác vụtính toán và xử lý hình ảnh khác nhau.Để tiết kiệm tính toán trong các khối phù hợp,Nó

là phải nhờ tới cấu trúc kim tự tháp.Trong thực tế, kỹ thuật đa phân giải đã được coinhư là một phương pháp hiệu quả nhất trong ánh xạ khối (Tz,1994).Trong một kỹ thuật

đa phân giải có tên là top –down, một kim tự tháp gauss điển hình được hình thành đầutiên

Trang 25

(a) Bắt đầu khối 16x16 trong khung tại tn (b) So sánh cửa sổ của 16x16 trong khung tại t

Hình 1 10 Một ví dụ về 2x2 mẫu phụ trong khối và sự tương quan cửa sổ ban đầu cho tìm

kiếm nhanh.

Trước khi đi sâu vào mô tả kỹ hơn,Chúng tạm dừng ở đây để cung cấp chonhững độc giả,những người không được tiếp xúc với các kim tự tháp Gauss một cáchngắn gọn giới thiệu nội dung này.Nói ngắn gọn kim tự tháp gauss có thể được hiểu nhưnhư là một tập hợp các hình ảnh với độ phân giải khác nhau liên quan đến một hìnhảnh ban đầu theo một cách nhất định Những hình ảnh ban đầu có độ phân giải cao nhấtđược coi là mức thấp nhất, đôi khi gọi là cấp dưới trong bộ này Từ cấp dưới lên cấpcao nhất độ phân giải giảm đơn điệu Cụ thể , giữa hai cấp độ liên tiếp, mức trên là làbằng một nửa như là độ lớn thấp hơn so với cả hai chiều ngang và dọc.Mức trên đượctạo ra bằng cách áp dụng một bộ lọc thông thấp cho mức thấp, dưới đây là một mẫuphụ 2x2 Đó là, mỗi điểm ảnh ở mức trên là trọng số trung bình của một số điểm ảnhtrong mức thấp Nhìn chung,thủ tục được lặp đi lặp lại tạo ra một mức độ trong các

Định dạng
Số trang	50
Dung lượng	1,35 MB