phân đoạn ảnh màu đa phân giải theo trực quan
Đại Học Quốc Gia Tp. Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA ------------------------- NGUYỄN NGỌC HẢI XỬ LÝ ẢNH ĐA PHÂN GIẢI Chuyên ngành: Kỹ thuật điện tử Mã số ngành: 02. 07. 01 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 7 năm 2005 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán bộ hướng dẫn khoa học : PGS. TSKH NGUYỄN KIM SÁCH Cán bộ chấm nhận xét 1 : PGS. TS VŨ ĐÌNH THÀNH Cán bộ chấm nhận xét 2 : TS. PHAN HỒNG PHƯƠNG Luận văn thạc só được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA Ngày 22 tháng 07 năm 2005 TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG ĐÀO TẠO SĐH ĐỘC LẬP – TỰ DO – HẠNH PHÚC Tp. HCM, ngày tháng năm 2005 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN NGỌC HẢI Phái: Nam Ngày, tháng, năm sinh: 28/04/1980 Nơi sinh: Quảng Nam Chuyên ngành: Kỹ thuật điện tử MSHV: 01403314 I. TÊN ĐỀ TÀI: Xử lý ảnh đa phân giải II. NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu lý thuyết về cơ sở xử lý đa phân giải, biễu diễn Gaussian pyramid, Laplacian pyramid, wavelet và các ứng dụng. Nghiên cứu, viết chương trình ứng dụng cụ thể của đa phân giải trong phân đoạn ảnh màu theo trực quan. III. NGÀY GIAO NHIỆM VỤ: IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 06/07/2005 V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS. TSKH NGUYỄN KIM SÁCH CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN Đ.T–V.THÔNG PGS.TSKH NGUYỄN KIM SÁCH PGS. TS VŨ ĐÌNH THÀNH TS. PHẠM HỒNG LIÊN Nội dung và đề cương luận văn thạc só đã được Hội Đồng Chuyên Ngành thông qua. Ngày tháng năm 2005 PHÒNG ĐÀO TẠO SĐH KHOA QUẢN LÝ NGÀNH LỜI CẢM ƠN Chân thành cảm ơn tất cả các thầy cô đã dạy chúng em. Được sự chỉ bảo, truyền đạt kiến thức, kinh nghiệm của các thầy cô; chúng em đã học được nhiều cách tiếp cận các vấn đề mới, các giải quyết các vấn đề kỹ thuật, tự tin hơn và hiệu quả hơn trong công tác. Trân trọng cảm ơn Thầy PGS. TSKH Nguyễn Kim Sách đã rất quan tâm, đưa ra các đònh hướng, các yêu cầu và nhiều bài báo đăng trên tạp chí IEEE trong quá trình em thực hiện luận văn này. Cảm ơn gia đình (ba, mẹ và em) đã nuôi dưỡng và tạo mọi điều kiện cho con học tập tốt. Sẽ nhớ mãi các anh, chò và các bạn cùng lớp sau hai năm học tập, gắn bó với nhau. TÓM TẮT NỘI DUNG LUẬN VĂN Phân tích đa phân giải là một cách xử lý tín hiệu hiệu quả, cho phép xem xét thông tin ở nhiều cấp độ. Trong những năm gần đây, phân tích đa phân giải được áp dụng rất nhiều trong các vấn đề của xử lý tín hiệu và xử lý ảnh. Tuy nhiên, ý tưởng phân tích ảnh tại các độ phân giải khác nhau không phải là mới. Các nghiên cứu trong nhiều lónh vực như toán học, vật lý học, xử lý tín hiệu và phân tích dữ liệu về đòa chấn đã đặt nền móng cho sự phát triển của phân tích đa phân giải. So với biến đổi Fourier, đa phân giải có ưu điểm vượt trội, cung cấp một mô hình hiệu quả cho việc tách thông tin từ ảnh, cho phép hiểu rõ sự phân bố thông tin trong ảnh tốt hơn và có thể khử nhiễu rất tốt. Hiện tại, có rất nhiều ứng dụng của đa phân giải liên tục được đăng trên tạp chí IEEE [21], [22], [23]. Nội dung chính của luận văn là tìm hiểu, nghiên cứu cơ sở, những đặc điểm chính và ứng dụng của các biến đổi đa phân giải. Sau đó, vận dụng viết chương trình ứng dụng thực tế. Hướng ứng dụng được chọn là phân đoạn ảnh theo trực quan. Phân đoạn ảnh là cơ sở phát triển cho nhiều hướng ứng dụng trong xử lý ảnh như nhận dạng, đánh giá chuyển động, phân tích cảnh vật… Các kết quả chương trình được xem xét, rút ra các kết luận và so sánh với kết quả của giải thuật phân đoạn khác. Cụ thể, nội dung của luận án bao gồm: Cơ sở, tiên đề của một biểu diễn đa phân giải. Từ đó, có thể xây dựng các phép biến đổi đa phân giải. Liên hệ phân tích đa phân giải với quá trình xử lý trong hệ thống thò giác con người. Cơ sở toán học, sơ đồ thực hiện và các ứng dụng của biễu diễn Gaussian pyramid, Laplacian pyramid và wavelet. So sánh các biễu diễn này. Đây là ba biễu diễn đa phân giải có vai trò quan trọng. Như vậy, qua nội dung trình bày trên, mục tiêu nghiên cứu những đặc điểm và những ứng dụng chính của đa phân giải đã được hoàn thành. Để tìm hiểu thêm những chứng minh toán học phức tạp và các ứng dụng của đa phân giải, có thể xem các tài liệu [1], [3], [4], [5]. Về ứng dụng cụ thể, nội dung của luận văn bao gồm: Cơ sở để đánh giá một kết quả phân đoạn là tốt hay xấu. Trình bày tổng hợp, phân loại các cách tiếp cận phân đoạn bao gồm phân đoạn theo histogram, theo vùng lân cận và theo tính chất vật lý. Trình bày giải thuật phân đoạn ảnh màu theo trực quan. Qua tham khảo nhiều giải thuật phân đoạn, giải thuật này được chọn bởi phạm vi ứng dụng rộng rãi, không hạn chế trên một số loại ảnh. Vì vậy, đây cũng là giải thuật phân đoạn phức tạp nhất trong các kiểu phân đoạn, đối tượng phân đoạn là ảnh tự nhiên. Cách tiếp cận của giải thuật này có nhiều điểm mới mẻ, nổi bật, áp dụng những kết quả đạt được trong lónh vực nghiên cứu về hệ thống thò giác con người. Đó là áp dụng bộ lọc do Zhang và Wandell [6] đo đạc được từ thực nghiệm và cơ chế giãn nỡ theo xác suất mới do Petrou và Mirmehdi [15] đưa ra. Vận dụng viết chương trình ứng dụng trên MATLAB và C. Chương trình thử nghiệm trên nhiều loại ảnh và với nhiều cấp độ phân giải, số lượng cluster khởi tạo khác nhau. Từ các kết quả đạt được, trả lời câu hỏi “Tham số nào có vai trò quyết đònh trong kết quả phân đoạn?” và rút ra các kết luận. Cuối cùng, luận văn phân tích các hạn chế của giải thuật và đề nghò giải pháp khắc phục. Hạn chế này xuất phát từ đối tượng xử lý của giải thuật là ảnh tự nhiên, có đặc tính ngẫu nhiên. Do đó, để có được kết quả phân đoạn chính xác, chúng ta phải khởi tạo ngẫu nhiên một số lượng lớn các cluster ban đầu, thậm chí lớn hơn nhiều lần so với số pixel của ảnh. Nhìn từ khía cạnh này, chúng ta thấy điều này chưa hợp lý. Ý tưởng đề nghò là dựa vào mối quan hệ giữa các pixel lân cận để tạo ra các cluster ban đầu. Nếu khoảng cách giữa các pixel lân cận trong không gian màu đồng nhất LUV nhỏ hơn mức ngưỡng cho phép thì chúng ta nhóm các pixel này thành một cluster. Về khía cạnh tính toán, giải pháp đề nghò này sẽ cải thiện tốc độ chạy chương trình. Hiện nay, phân tích đa phân giải đang thu hút sự nghiên cứu phát triển về mặt lý thuyết toán học phức tạp cũng như các ứng dụng phong phú, đa dạng của chúng. Trong xử lý ảnh, phân tích đa phân giải là một giải pháp đem lại nhiều triển vọng để giải quyết các bài toán đặt ra. MỤC LỤC Chương 1: BIỂU DIỄN ẢNH ĐA PHÂN GIẢI . 1 1.1 Tổng quan 2 1.2 Các ký hiệu, đònh nghóa 2 1.3 Các tiên đề của phân tích đa phân giải 5 1.4 Biểu diễn pyramid . 8 1.4.1 Cơ sở toán học . 8 1.4.2 Loại trừ và nội suy 11 1.4.3 Gaussian pyramid 13 1.4.4 Laplacian pyramid . 15 1.5 Biểu diễn wavelet . 16 1.5.1 Cơ sở toán học . 16 1.5.2 Các băng lọc 29 1.5.3 Phân rã wavelet . 31 1.5.4 Ma trận biến đổi wavelet rời rạc 34 1.5.5 Liên hệ với hệ thống thò giác con người 36 1.5.6 p dụng 37 1.6 Những đa phân giải khác 37 1.6.1 Biến đổi wavelet không giảm tốc độ lấy mẫu . 37 1.6.2 Wavelet packet 37 Chương 2: PHÂN ĐOẠN ẢNH MÀU ĐA PHÂN GIẢI THEO TRỰC QUAN .39 2.1 Các tiêu chuẩn đánh giá kết quả của phân đoạn ảnh . 40 2.2 Phân loại các cách phân đoạn ảnh màu . 40 2.2.1 Phân đoạn dựa vào histogram . 41 2.2.2 Phân đoạn dựa vào vùng lân cận . 41 2.2.3 Phân đoạn theo tính chất vật lý 42 2.3 Phân đoạn ảnh màu đa phân giải theo trực quan . 43 2.3.1 Các cách tiếp cận 43 2.3.2 Xây dựng tower theo trực quan 46 2.3.3 Hồi phục đa phân giải theo xác suất 49 2.3.4 Các nhóm chung 54 2.3.5 Prior probabilistic 55 2.3.6 Histogram màu 3 chiều . 56 2.3.7 Từ điển thành phần hàm Q . 56 Chương 3: ĐÁNH GIÁ CÁC KẾT QUẢ ĐẠT ĐƯC VÀ GIẢI PHÁP ĐỀ XUẤT .58 3.1 Chương trình MATLAB . 59 3.2 Lưu đồ thực hiện giải thuật . 60 3.3 Các kết quả 76 3.4 So sánh với kết quả của giải thuật phân đoạn Edge Flow 78 3.5 Nhận xét, giải pháp đề xuất . 79 KẾT LUẬN .85 HƯỚNG PHÁT TRIỂN .87 TÀI LIỆU THAM KHẢO 89 Trang 1 Chương 1: Biễu diễn ảnh đa phân giải CHƯƠNG 1: BIỄU DIỄN ẢNH ĐA PHÂN GIẢI [...]... những ước lượng ban đầu được cải tiến dựa vào dữ liệu ảnh ở độ phân giải cao hơn Ưu điểm của cách tiếp cận ước lượng chuyển động theo đa phân giải này là giảm đáng kể tính toán trong các giải thuật phức tạp (các bước chủ yếu được thực hiện ở ảnh đã giảm kích thước) Kết quả ước lượng chuyển động cũng rất tốt bởi vì những ước lượng ban đầu (ở mức thô) được coi là khá gần giống với kết quả ước lượng lý tưởng... “tách ra được Nói cụ thể, phép loại trừ 2-D có thể thực hiện bằng cách áp dụng phép loại trừ 1-D vào mỗi hàng của ảnh, sau đó tiếp tục áp dụng phép loại trừ 1-D vào mỗi cột của ảnh Chương 1: Biễu diễn ảnh đa phân giải Trang 14 đã được loại trừ theo hàng Có thể đạt được kết quả giống như vậy bằng cách xử lý cột trước và sau đó mới đến hàng Tương tự, phép nội suy 2-D cũng có thể thực hiện bằng cách áp... j (u − 2 − j k ) (1.46) k = −∞ Phương trình này cho thấy A2d f có thể được tái tạo bằng cách đặt các giá j +1 trò 0 giữa mỗi mẫu của A2d f và D2 f và sau đó chập các tín hiệu này theo thứ tự j j với các bộ lọc H và G Sơ đồ khối hình 1.8 mô tả giải thuật này Tín hiệu rời rạc ban đầu A1d f tại độ phân giải 1 được tái tạo lại bằng cách lặp lại tiến trình này với –J ≤j ≤-1 Từ xấp xỉ rời rạc A1d f , chúng... xử lý ảnh và video Nhiều giải thuật xử lý ảnh số, phân rã ảnh đang phân tích thành nhiều thành phần Mỗi thành phần chứa những thông tin ở một độ phân giải Có rất nhiều các phương pháp phân rã ảnh đa phân giải, chúng ta xem xét ba phương pháp chính là Gaussian pyramid, Laplacian pyramid và wavelet 1.2 Các ký hiệu, đònh nghóa Tập hợp các số nguyên, số nguyên dương, số thực và số thực dương được ký hiệu... phân giải 2j+1 chứa đựng tất cả những thông tin cần thiết để tính toán tín hiệu này tại độ phân giải nhỏ hơn 2j Đây là tính chất nhân quả Vì A2j là phép chiếu trên V2j , tính chất này tương đương j∈ ∀ Z, V2j ⊂ V2(j+1) (1.14) 4) Một phép toán xấp xỉ giống nhau tại tất cả các độ phân giải Các không gian của các hàm xấp xỉ có thể xuất phát từ không gian của các hàm xấp xỉ khác bằng cách giãn nở các hàm... Kỹ thuật này đã được sử dụng trong Kodak CD-I, trong đó ảnh được truyền từ CD-ROM và hiển thò trên màn hình với độ phân giải do người sử dụng lựa chọn Một ứng dụng khác của Gaussian pyramid là trong ước lượng chuyển động của video: ở bước đầu tiên, các ước lượng chuyển động thô được tính toán dựa Chương 1: Biễu diễn ảnh đa phân giải Trang 15 vào dữ liệu ảnh độ phân giải thấp và trong các bước tiếp theo,... rạc này được xem như tín hiệu f(x) đã được lọc thông thấp sau đó được lấy mẫu đều ở tốc độ 2j Trong thực tế, một thiết bò đo đạc vật lý chỉ có thể đo một tín hiệu ở một độ d phân giải xác đònh Ta giả sử độ phân giải này là mức 1 A1 f là xấp xỉ rời rạc tại d độ phân giải 1 Theo tính chất nhân quả, từ A1 f chúng ta có thể tính được tất cả các xấp xỉ rời rạc A d f với mọi j < 0 Phần này mô tả một giải thuật... của hàm f(x) tại hai độ phân giải 2j+1 và 2j được gọi là tín hiệu chi tiết tại độ phân giải 2j Xấp xỉ tại độ phân giải 2j+1 và 2j Chương 1: Biễu diễn ảnh đa phân giải Trang 17 của một tín hiệu lần lượt là phép chiếu vuông góc của tín hiệu này lên V2 và j +1 V2 j Từ đònh lý về phép chiếu vuông góc, chúng ta dễ dàng chứng minh được tín hiệu chi tiết tại độ phân giải 2j được cho bởi phép chiếu vuông... hạn Vì vậy, trong thực tế, các bộ lọc FIR có chiều dài ngắn được sử dụng 1.4.3 Gaussian pyramid ([1], [3]) Việc xây dựng Gaussian pyramid có liên quan đến các phép toán lọc thông thấp 2-D và giảm tốc độ lấy mẫu Các bộ lọc 2-D được sử dụng trong thực tế là có thể “tách ra được , nghóa là chúng có thể thực hiện bằng các thực hiện liên tiếp các phép toán lọc 1-D theo các hàng và cột của ảnh Điều này rất... pyramid, nhưng ở đây sự khác biệt giữa hai ảnh liên tiếp trong Gaussian pyramid được tính toán và được trình bày nh được trình bày trên Laplacian pyramid biểu diễn cho các chi tiết có ý nghóa của ảnh tại mỗi độ phân giải Một cách để tạo ảnh ở độ phân giải nào đó là áp dụng sự khác biệt giữa hai bộ lọc Gaussian vào ảnh gốc Đây là cách tương đương với lọc ảnh bởi bộ lọc Laplacian, một kỹ thuật phổ biến ứng