Đang tải... (xem toàn văn)
trình bày về xử lý ảnh đa phân giải
Đại Học Quốc Gia Tp. Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA ------------------------- NGUYỄN NGỌC HẢI XỬ LÝ ẢNH ĐA PHÂN GIẢI Chuyên ngành: Kỹ thuật điện tử Mã số ngành: 02. 07. 01 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 7 năm 2005 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán bộ hướng dẫn khoa học : PGS. TSKH NGUYỄN KIM SÁCH Cán bộ chấm nhận xét 1 : PGS. TS VŨ ĐÌNH THÀNH Cán bộ chấm nhận xét 2 : TS. PHAN HỒNG PHƯƠNG Luận văn thạc só được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA Ngày 22 tháng 07 năm 2005 TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG ĐÀO TẠO SĐH ĐỘC LẬP – TỰ DO – HẠNH PHÚC Tp. HCM, ngày tháng năm 2005 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN NGỌC HẢI Phái: Nam Ngày, tháng, năm sinh: 28/04/1980 Nơi sinh: Quảng Nam Chuyên ngành: Kỹ thuật điện tử MSHV: 01403314 I. TÊN ĐỀ TÀI: Xử lý ảnh đa phân giải II. NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu lý thuyết về cơ sở xử lý đa phân giải, biễu diễn Gaussian pyramid, Laplacian pyramid, wavelet và các ứng dụng. Nghiên cứu, viết chương trình ứng dụng cụ thể của đa phân giải trong phân đoạn ảnh màu theo trực quan. III. NGÀY GIAO NHIỆM VỤ: IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 06/07/2005 V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS. TSKH NGUYỄN KIM SÁCH CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN Đ.T–V.THÔNG PGS.TSKH NGUYỄN KIM SÁCH PGS. TS VŨ ĐÌNH THÀNH TS. PHẠM HỒNG LIÊN Nội dung và đề cương luận văn thạc só đã được Hội Đồng Chuyên Ngành thông qua. Ngày tháng năm 2005 PHÒNG ĐÀO TẠO SĐH KHOA QUẢN LÝ NGÀNH LỜI CẢM ƠN Chân thành cảm ơn tất cả các thầy cô đã dạy chúng em. Được sự chỉ bảo, truyền đạt kiến thức, kinh nghiệm của các thầy cô; chúng em đã học được nhiều cách tiếp cận các vấn đề mới, các giải quyết các vấn đề kỹ thuật, tự tin hơn và hiệu quả hơn trong công tác. Trân trọng cảm ơn Thầy PGS. TSKH Nguyễn Kim Sách đã rất quan tâm, đưa ra các đònh hướng, các yêu cầu và nhiều bài báo đăng trên tạp chí IEEE trong quá trình em thực hiện luận văn này. Cảm ơn gia đình (ba, mẹ và em) đã nuôi dưỡng và tạo mọi điều kiện cho con học tập tốt. Sẽ nhớ mãi các anh, chò và các bạn cùng lớp sau hai năm học tập, gắn bó với nhau. TÓM TẮT NỘI DUNG LUẬN VĂN Phân tích đa phân giải là một cách xử lý tín hiệu hiệu quả, cho phép xem xét thông tin ở nhiều cấp độ. Trong những năm gần đây, phân tích đa phân giải được áp dụng rất nhiều trong các vấn đề của xử lý tín hiệu và xử lý ảnh. Tuy nhiên, ý tưởng phân tích ảnh tại các độ phân giải khác nhau không phải là mới. Các nghiên cứu trong nhiều lónh vực như toán học, vật lý học, xử lý tín hiệu và phân tích dữ liệu về đòa chấn đã đặt nền móng cho sự phát triển của phân tích đa phân giải. So với biến đổi Fourier, đa phân giải có ưu điểm vượt trội, cung cấp một mô hình hiệu quả cho việc tách thông tin từ ảnh, cho phép hiểu rõ sự phân bố thông tin trong ảnh tốt hơn và có thể khử nhiễu rất tốt. Hiện tại, có rất nhiều ứng dụng của đa phân giải liên tục được đăng trên tạp chí IEEE [21], [22], [23]. Nội dung chính của luận văn là tìm hiểu, nghiên cứu cơ sở, những đặc điểm chính và ứng dụng của các biến đổi đa phân giải. Sau đó, vận dụng viết chương trình ứng dụng thực tế. Hướng ứng dụng được chọn là phân đoạn ảnh theo trực quan. Phân đoạn ảnh là cơ sở phát triển cho nhiều hướng ứng dụng trong xử lý ảnh như nhận dạng, đánh giá chuyển động, phân tích cảnh vật… Các kết quả chương trình được xem xét, rút ra các kết luận và so sánh với kết quả của giải thuật phân đoạn khác. Cụ thể, nội dung của luận án bao gồm: Cơ sở, tiên đề của một biểu diễn đa phân giải. Từ đó, có thể xây dựng các phép biến đổi đa phân giải. Liên hệ phân tích đa phân giải với quá trình xử lý trong hệ thống thò giác con người. Cơ sở toán học, sơ đồ thực hiện và các ứng dụng của biễu diễn Gaussian pyramid, Laplacian pyramid và wavelet. So sánh các biễu diễn này. Đây là ba biễu diễn đa phân giải có vai trò quan trọng. Như vậy, qua nội dung trình bày trên, mục tiêu nghiên cứu những đặc điểm và những ứng dụng chính của đa phân giải đã được hoàn thành. Để tìm hiểu thêm những chứng minh toán học phức tạp và các ứng dụng của đa phân giải, có thể xem các tài liệu [1], [3], [4], [5]. Về ứng dụng cụ thể, nội dung của luận văn bao gồm: Cơ sở để đánh giá một kết quả phân đoạn là tốt hay xấu. Trình bày tổng hợp, phân loại các cách tiếp cận phân đoạn bao gồm phân đoạn theo histogram, theo vùng lân cận và theo tính chất vật lý. Trình bày giải thuật phân đoạn ảnh màu theo trực quan. Qua tham khảo nhiều giải thuật phân đoạn, giải thuật này được chọn bởi phạm vi ứng dụng rộng rãi, không hạn chế trên một số loại ảnh. Vì vậy, đây cũng là giải thuật phân đoạn phức tạp nhất trong các kiểu phân đoạn, đối tượng phân đoạn là ảnh tự nhiên. Cách tiếp cận của giải thuật này có nhiều điểm mới mẻ, nổi bật, áp dụng những kết quả đạt được trong lónh vực nghiên cứu về hệ thống thò giác con người. Đó là áp dụng bộ lọc do Zhang và Wandell [6] đo đạc được từ thực nghiệm và cơ chế giãn nỡ theo xác suất mới do Petrou và Mirmehdi [15] đưa ra. Vận dụng viết chương trình ứng dụng trên MATLAB và C. Chương trình thử nghiệm trên nhiều loại ảnh và với nhiều cấp độ phân giải, số lượng cluster khởi tạo khác nhau. Từ các kết quả đạt được, trả lời câu hỏi “Tham số nào có vai trò quyết đònh trong kết quả phân đoạn?” và rút ra các kết luận. Cuối cùng, luận văn phân tích các hạn chế của giải thuật và đề nghò giải pháp khắc phục. Hạn chế này xuất phát từ đối tượng xử lý của giải thuật là ảnh tự nhiên, có đặc tính ngẫu nhiên. Do đó, để có được kết quả phân đoạn chính xác, chúng ta phải khởi tạo ngẫu nhiên một số lượng lớn các cluster ban đầu, thậm chí lớn hơn nhiều lần so với số pixel của ảnh. Nhìn từ khía cạnh này, chúng ta thấy điều này chưa hợp lý. Ý tưởng đề nghò là dựa vào mối quan hệ giữa các pixel lân cận để tạo ra các cluster ban đầu. Nếu khoảng cách giữa các pixel lân cận trong không gian màu đồng nhất LUV nhỏ hơn mức ngưỡng cho phép thì chúng ta nhóm các pixel này thành một cluster. Về khía cạnh tính toán, giải pháp đề nghò này sẽ cải thiện tốc độ chạy chương trình. Hiện nay, phân tích đa phân giải đang thu hút sự nghiên cứu phát triển về mặt lý thuyết toán học phức tạp cũng như các ứng dụng phong phú, đa dạng của chúng. Trong xử lý ảnh, phân tích đa phân giải là một giải pháp đem lại nhiều triển vọng để giải quyết các bài toán đặt ra. MỤC LỤC Chương 1: BIỂU DIỄN ẢNH ĐA PHÂN GIẢI . 1 1.1 Tổng quan 2 1.2 Các ký hiệu, đònh nghóa 2 1.3 Các tiên đề của phân tích đa phân giải 5 1.4 Biểu diễn pyramid . 8 1.4.1 Cơ sở toán học . 8 1.4.2 Loại trừ và nội suy 11 1.4.3 Gaussian pyramid 13 1.4.4 Laplacian pyramid . 15 1.5 Biểu diễn wavelet . 16 1.5.1 Cơ sở toán học . 16 1.5.2 Các băng lọc 29 1.5.3 Phân rã wavelet . 31 1.5.4 Ma trận biến đổi wavelet rời rạc 34 1.5.5 Liên hệ với hệ thống thò giác con người 36 1.5.6 p dụng 37 1.6 Những đa phân giải khác 37 1.6.1 Biến đổi wavelet không giảm tốc độ lấy mẫu . 37 1.6.2 Wavelet packet 37 Chương 2: PHÂN ĐOẠN ẢNH MÀU ĐA PHÂN GIẢI THEO TRỰC QUAN .39 2.1 Các tiêu chuẩn đánh giá kết quả của phân đoạn ảnh . 40 2.2 Phân loại các cách phân đoạn ảnh màu . 40 2.2.1 Phân đoạn dựa vào histogram . 41 2.2.2 Phân đoạn dựa vào vùng lân cận . 41 2.2.3 Phân đoạn theo tính chất vật lý 42 2.3 Phân đoạn ảnh màu đa phân giải theo trực quan . 43 2.3.1 Các cách tiếp cận 43 2.3.2 Xây dựng tower theo trực quan 46 2.3.3 Hồi phục đa phân giải theo xác suất 49 2.3.4 Các nhóm chung 54 2.3.5 Prior probabilistic 55 2.3.6 Histogram màu 3 chiều . 56 2.3.7 Từ điển thành phần hàm Q . 56 Chương 3: ĐÁNH GIÁ CÁC KẾT QUẢ ĐẠT ĐƯC VÀ GIẢI PHÁP ĐỀ XUẤT .58 3.1 Chương trình MATLAB . 59 3.2 Lưu đồ thực hiện giải thuật . 60 3.3 Các kết quả 76 3.4 So sánh với kết quả của giải thuật phân đoạn Edge Flow 78 3.5 Nhận xét, giải pháp đề xuất . 79 KẾT LUẬN .85 HƯỚNG PHÁT TRIỂN .87 TÀI LIỆU THAM KHẢO 89 Trang 1 Chương 1: Biễu diễn ảnh đa phân giải CHƯƠNG 1: BIỄU DIỄN ẢNH ĐA PHÂN GIẢI [...]... ví dụ trên, khái niệm độ phân giải gần như tương ứng với kích thước của các chi tiết mà người quan sát có thể thấy được Dó nhiên có thể công thức hóa những khái niệm trực quan trên và lý thuyết xử lý tín hiệu đã đưa ra những khái niệm rất rõ ràng về độ phân giải Những khái niệm này rất có ích trong lónh vực xử lý ảnh và video Nhiều giải thuật xử lý ảnh số, phân rã ảnh đang phân tích thành nhiều thành... ảnh đa phân giải theo Gaussian pyramid và Laplacian pyramid Chương 1: Biễu diễn ảnh đa phân giải Trang 18 Để tính toán phép chiếu vuông góc của hàm f(x) lên O 2 , chúng ta cần tìm j một cơ sở trực chuẩn của O 2 Giống như đònh lý 1, đònh lý 3 chứng minh một cơ j sở như vậy được xây dựng bằng cách giãn nở và dòch chuyển hàm ψ(x) Đònh lý 3 [4]: Gọi (V2 j ) j∈Z là một chuỗi không gian vector đa phân giải, ... xỉ đa phân giải của j L2(R2), hàm φ(x,y) là duy nhất GS Meyer [1] đã nghiên cứu về xấp xỉ đa phân giải có thể tách rời của L2(R2) Với mỗi xấp xỉ đa phân giải như vậy, mỗi không gian vector V2 có thể j phân rã thành hai không gian con giống nhau của L2(R) V2 j = V21j ⊗ V21j Chuỗi các không gian vector (V2 L2(R2) khi và chỉ khi (V21 j ) j∈Z j ) j∈Z thành lập một xấp xỉ đa phân giải của là một xấp xỉ đa. .. xấp xỉ của hàm f(x) tại hai độ phân giải 2j+1 và 2j được gọi là tín hiệu chi tiết tại độ phân giải 2j Xấp xỉ tại độ phân giải 2j+1 và 2j Chương 1: Biễu diễn ảnh đa phân giải Trang 17 của một tín hiệu lần lượt là phép chiếu vuông góc của tín hiệu này lên V2 và j +1 V2 j Từ đònh lý về phép chiếu vuông góc, chúng ta dễ dàng chứng minh được tín hiệu chi tiết tại độ phân giải 2j được cho bởi phép chiếu... khác nhau Để tính sự khác biệt giữa một ảnh N x M và xấp xỉ của nó tại độ phân giải N/2 x M/2, ta cần nội suy ảnh nhỏ thành ảnh có độ phân giải N x M trước khi thực hiện phép trừ Biễu diễn Laplacian thường là “thưa thớt” khi hầu hết giá trò của các pixel là 0 hoặc gần bằng 0 Các pixel có ý nghóa trong ảnh chi tiết tương ứng với các Chương 1: Biễu diễn ảnh đa phân giải Trang 16 biên Cũng giống như biễu... lại giải thuật này với –J ≤j ≤d 1, chúng ta có thể tái tạo A1 f từ biểu diễn wavelet của nó Chương 1: Biễu diễn ảnh đa phân giải Trang 26 1.5.1.4 Biểu diễn wavelet trực giao đối với ảnh nh là một hàm f(x,y) có năng lượng xác đònh, f(x,y) ∈ L2(R2) Một xấp xỉ đa phân giải của L2(R2) là một chuỗi các không gian con của L2(R2) thỏa mãn các tính chất (1.14) đến (1.20) Gọi (V2 ) j∈Z là một xấp xỉ đa phân giải. .. cầu phải xử lý thêm gì nữa Kỹ thuật này đã được sử dụng trong Kodak CD-I, trong đó ảnh được truyền từ CD-ROM và hiển thò trên màn hình với độ phân giải do người sử dụng lựa chọn Một ứng dụng khác của Gaussian pyramid là trong ước lượng chuyển động của video: ở bước đầu tiên, các ước lượng chuyển động thô được tính toán dựa Chương 1: Biễu diễn ảnh đa phân giải Trang 15 vào dữ liệu ảnh độ phân giải thấp... biễu diễn ảnh gốc Gaussian pyramid được ứng dụng rất nhiều trong các vấn đề lưu trữ ảnh Giả sử một người sử dụng từ xa truy cập vào cơ sở dữ liệu ảnh (ví dụ Internet) nhưng có những yêu cầu khác nhau về độ phân giải của ảnh Việc trình bày ảnh dưới dạng pyramid cho phép mỗi người sử dụng có thể trực tiếp lấy ra ảnh ở độ phân giải mong muốn Mặc dù kỹ thuật lưu trữ này có dư thừa về pixel nhưng ảnh mong... Biễu diễn ảnh đa phân giải (1.16) Trang 7 Dòch chuyển của xấp xỉ: ∀k ∈Z,Al fk (x) = Al f(x − k), fk (x) = f(x- k) (1.17) Dòch chuyển các mẫu: I(Al f(x))= (αi )i∈Z ⇔ I(Al fk (x))= (αi−k )i∈Z (1.18) 6) Khi tính toán một xấp xỉ của f(x) tại độ phân giải 2j, một số thông tin về f(x) bò mất Tuy nhiên, khi độ phân giải tăng đến +∞ tín hiệu xấp xỉ sẽ , hội tụ về tín hiệu ban đầu Ngược lại, khi độ phân giải giảm... của hàm f(x) tại độ phân giải 2j thì A2j f(x) sẽ không thay đổi nếu ta xấp xỉ nó một lần nữa tại độ phân giải 2j Tính chất này được viết như sau: A2j o A2j = A2j Vì Chương 1: Biễu diễn ảnh đa phân giải Trang 6 vậy, phép toán A2j là phép chiếu trên không gian vector V2j ⊂ L2(R) Có thể xem không gian vector V2j là tập hợp tất cả những xấp xỉ có thể có của các hàm trong L2(R) ở độ phân giải 2j 2) Trong tất