Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 142 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
142
Dung lượng
4,05 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHI MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - LÊ PHƯỚC LÂM PHÂN LỚP ĐỐI TƯNG BẰNG DỮ LIỆU ẢNH ĐA PHỔ Chuyên ngành: KỸ THUẬT VÔ TUYẾN ĐIỆN TỬ Mã số ngành: LUẬN ÁN CAO HỌC Thành Phố Hồ Chí Minh, Ngày 10 Tháng 10 Năm 2003 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH Cán hướng dẫn khoa học: TS LÊ TIẾN THƯỜNG PGS.TS NGUYỄN ĐỨC PHONG Cán chấm nhận xét 1: Cán chấm nhận xét 2: LUẬN ÁN CAO HỌC ĐƯC BẢO VỆ TẠI HỘI ĐỒNG CHẤM BẢO VỆ LUẬN ÁN CAO HỌC TRƯỜNG ĐẠI HỌC BÁCH KHOA NGÀY THÁNG NĂM 2003 CÓ THỂ TÌM HIỂU TẠI THƯ VIỆN CAO HỌC TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC NHIỆM VỤ LUẬN ÁN CAO HỌC Họ tên: Lê Phước Lâm Ngày sinh: 27-7-1967 Chuyên ngành: Kỹ Thuật Vô Tuyến Điện Tử Khóa (Năm trúng tuyển): 12 (2001) Giới tính: nam Nơi sinh: Long An I Tên đề tài: PHÂN LỚP ĐỐI TƯNG BẰNG DỮ LIỆU ẢNH ĐA PHỔ II Nhiệm vụ nội dung: • Nghiên cứu liệu ảnh đa phổ xử lý • Phân lớp đối tượng liệu ảnh đa phổ • Viết chương trình ứng dụng Matlab III Ngày giao nhiệm vụ: 15-4-2003 IV Ngày hoàn thành nhiệm vụ: 25-10-2003 V Họ tên cán hướng dẫn: TS Lê Tiến Thường PGS.TS Nguyễn Đức Phong VI Họ tên cán nhận xét 1: VII Họ tên cán nhận xét 2: Cán hướng dẫn Cán phản biện Cán phản biện Nội dung đề cương Luận án thông qua Hội Đồng Chuyên Ngành, Phòng Quản Lý Khoa Học – Sau Đại Học Ngày Tháng Năm 2003 Chủ nhiệm Ngành PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong LỜI CẢM ƠN Tôi xin bày tỏ lòng kính yêu với Cha Mẹ, Người cho sống thành đạt ngày hôm Tôi xin chân thành gửi tới thầy Tiến sỹ Lê Tiến Thường thầy Phó Giáo sư - Tiến sỹ Nguyễn Đức Phong lòng biết ơn sâu sắc Xin cảm ơn thầy hướng dẫn tận tình trình thực để hoàn thành Luận án tốt nghiệp Tôi xin gởi lời cám ơn tất tất thầy cô Khoa Điện–Điện tử, đặc biệt thầy cô môn Điện Tử–Viễn Thông trang bị cho có kiến thức q báu năm học qua Tôi xin cảm ơn giúp đỡ, động viên nhiệt tình tất bạn bè suốt trình học tập thời gian thực Luận án Học viên Lê Phước Lâm HV: KS Lê Phước Lâm HYPERSPECTRAL IMAGE THD: TS Lê Tiến Thường DATA ANALYSIS PGS.TS Nguyễn Đức Phong ABSTRACT Multispectral methods for deriving information about the Earth’s resources using spaceborne sensors began to be studied in the mid-1960’s, not long after the launch of the first Earth-looking satellites The question of how to use aerospace technology for gathering Earth resources data, such as that for the fields of agriculture and food production, geology and the location of oil and mineral resources, geography and urban and non-urban land use was the focus The motivation for this was to take advantage of both the synoptic view space provides and the economies of scale, since data over large areas could be gathered very quickly and economically from such platforms Via such platforms, information is available from the electromagnetic fields that emanate from the Earth’s surface, and in particular, from the spatial, spectral, and temporal variations of those electromagnetic fields The first question that had to be addressed was how to take advantage of these spectral, spatial and temporal variations to derive useful information Since utilizing temporal variations would require multiple looks at a given area, the study of this one was postponed, because of the added complexity multiple looks and their merging would entail Use of spatial variations was also postponed, since the spatial resolution that would be required to identify classes of ground cover of interest would be very high For example, to use airborne or spaceborne data to discrimination between two agricultural crops such as soybeans and corn would require a spatial resolution of the order of a few centimeters, something that would result in extremely large quantities of data if a large area were to be surveyed This meant that conventional image processing methods would not be appropriate These factors placed the focus upon the use of spectral variations, i.e., using the spectral distribution of energy emanating from a pixel to label the contents of that pixel Then, with the use of pattern recognition methods, a thematic map of a region could be made displaying the amount and distribution of a set of classes of ground cover, both subjectively and quantitatively The goal of this research is to show an overview of multispectral data analysis and give algorithms to classify multispectral data more accurately and efficiently than currently possible Besides, this research also introduce several methods which solve problem lacking of training samples This research consists of three parts: • The theory for multispectral data analysis • Real data experiments using Hyperspec, an application program that is written by Matlab • Conclusion and Suggestions for further work HV: KS Lê Phước Lâm Abstract PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong MỤC LỤC GIỚI THIỆU Nhận dạng đối tượng liệu ảnh đa phổ Mô hình hệ thoáng Phân loại ứng dụng phân tích liệu đa phổ -Nội dung Luận aùn PHẦN LÝ THUYẾT 10 CHƯƠNG TỔNG QUAN QUÁ TRÌNH XỬ LYÙ - 11 1.1 Ba cách nhìn nhận liệu ảnh đa phổ - 12 1.1.1 Không gian ảnh 12 1.1.2 Không gian phổ 13 1.1.3 Không gian phổ đặc trưng 14 1.2 Tập liệu ảnh đa phổ - 15 1.3 Xử lý liệu đa phổ 16 1.3.1 Giảm số chiều - 17 1.3.2 Phân lớp (Classification) - 19 1.3.3 Dò tìm mục tiêu (Target Detection) 21 1.3.4 Phân tách hỗn hợp (Unmixing) 22 1.4 Một sơ đồ xử lý liệu - 24 1.5 Các thủ tục cho toán phân lớp 26 1.6 Một ví dụ mẫu phân lớp liệu ña phoå 27 Tham khaûo - 29 CHƯƠNG PHÂN TÍCH THÀNH PHẦN CƠ BẢN (PCA) - 30 2.1 Caùc sở PCA 32 2.2 Các thành phần xác định từ biến chuẩn hóa - 35 2.3 Ước lượng thành phần baûn - 36 2.4 Một vài tính chất mẫu lớn giá trị riêng vectors riêng 37 2.5 Phương pháp biến đổi Karhunen Loeve 38 2.6 Thực nghiệm với liệu thực - 40 2.7 Kết luận 41 Tham khaûo - 42 CHƯƠNG ƯỚC LƯNG COVARIANCE 43 3.1 Nền tảng nghiên cứu trước - 44 HV: KS Lê Phước Lâm Mục lục PHÂN LỚP ĐỐI TƯNG BẰNG DỮ LIỆU ẢNH ĐA PHỔ THD: TS Lê Tiến Thường PGS.TS Nguyễn Đức Phong 3.1.1 Regularized Discriminant Analysis (RDA) 45 3.1.2 Leave-One-Out Covariance (LOOC) - 45 3.1.3 Bayesian Leave-One-Out Covariance (BLOOC) - 47 3.2 Mixed Leave-One-Out Covariance (Mixed-LOOC) - 48 3.2.1 Mixed-LOOC1 - 48 3.2.2 Mixed-LOOC2 - 48 3.3 Đơn giản hóa phép tính cho LOOL - 49 3.3.1 LOOC - 49 3.3.2 BLOOC1 52 3.4 Các thực nghiệm 55 Tham khaûo - 59 CHƯƠNG TRÍCH ĐẶC TRÖNG 60 4.1 Caùc nghiên cứu trước 61 4.1.1 Discriminant Analysis Feature Extraction (DAFE) - 61 4.1.2 Decision Boundary Feature Extraction (DBFE) - 63 4.1.2.1 Trích đặc trưng không gian 63 4.1.2.2 Caùc định nghóa - 65 4.1.2.3 Phương pháp trích đặc trưng đường biên định - 68 4.1.2.4 Giải thuật tìm ma trận đặc trưng đường biên định - 73 4.1.3 Nonparametric Discriminant Analysis (NDA) - 76 4.2 Nonparametric Weighted Feature Extraction (NWFE) 77 4.3 Một số thực nghiệm - 79 4.3.1 Thiết kế thực nghiệm với liệu phát từ máy tính 79 4.3.2 Thiết kế thực nghiệm với liệu thực 80 4.3.3 Các kết thực nghiệm - 80 Tham khaûo - 86 CHƯƠNG ƯỚC LƯNG CÁC CLUSTERS - 87 5.1 Cơ sở trình ước lượng clusters - 89 5.2 Các thuật toán clustering - 90 5.2.1 Thuật toán phân nhóm Single Pass - 91 5.2.2 Thuật toán phân nhóm ISODATA 92 5.3 Moät số kết clustering 93 Tham khaûo - 96 CHƯƠNG HỆ PHÂN LỚP HỖN HP GAUSSIAN 97 HV: KS Lê Phước Lâm Mục lục PHÂN LỚP ĐỐI TƯNG BẰNG DỮ LIỆU ẢNH ĐA PHỔ THD: TS Lê Tiến Thường PGS.TS Nguyễn Đức Phong 6.1 Hàm mật độ trộn chuẩn 99 6.2 Các nghiên cứu trước 99 6.2.1 Kỹ thuật phân nhóm trung bình gần 100 6.2.2 Kỹ thuật phân nhóm Maximum Likelihood - 100 6.3 Ước lượng số lượng thành phần sử dụng kỹ thuật phân nhóm trung bình gần - 101 6.3.1 Mô tả thuật toán ước lượng 101 6.3.2 LOOL cho phân nhóm trung bình gần 102 6.3.3 Thực biến đổi hiệu cho việc tính toán giá trị LOOL - 103 6.3.4 Các thực nghiệm với liệu phát máy tính - 103 6.3.5 Các thực nghiệm với liệu thực - 107 6.3.6 Thảo luận thực nghiệm 109 6.4 Ước lượng số lượng Clusters sử dụng phân nhóm ML - 109 6.4.1 Mô tả thuật toán ước lượng 110 6.4.2 Sử dụng LOOL cho phân nhóm ML - 110 6.4.3 Các thực nghiệm với liệu phát máy tính - 111 6.4.4 Các thực nghiệm với liệu thực - 113 6.4.5 Thảo luận thực nghiệm 116 6.5 Kết luận 116 Tham khaûo - 117 PHAÀN THỰC NGHIỆM VỚI DỮ LIỆU THỰC DÙNG HYPERSPEC I Các tập liệu dùng thực nghiệm -1 FLC.lan 92AV3C.lan vaø 92AV 3C9.lan -II Phân lớp cho tập liệu FLC -1 Hiển thị ảnh -2 Phân lớp sơ ban đầu Chọn tập mẫu huấn luyện cho lớp Ước lượng mean covariance cho lớp Phân lớp -III Phân lớp Gaussian với cách ước lượng covariance khác IV Trích đặc trưng - 119 120 120 121 122 122 123 124 125 126 127 128 PHAÀN KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN LUẬN ÁN 130 I Kết luận 131 II Hướng phát triển luận án - 133 HV: KS Lê Phước Lâm Mục lục PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong GIỚI THIỆU Nhận dạng đối tượng liệu ảnh đa phổ Mô hình hệ thống Phân loại ứng dụng phân tích liệu đa phổ Nội dung Luận án HV: KS Lê Phước Lâm Giới Thiệu PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong GIỚI THIỆU Vệ tinh nhân tạo Sputnik phóng thành công vào năm 1957, với phát triển mạnh máy tính số kỹ thuật nhận dạng mẫu vật thể, tạo tiền đề khởi đầu cho kỹ nguyên không gian Sự phát triển song song ba lónh vực vệ tinh nhân tạo, kỹ thuật nhận dạng mẫu máy tính số làm nảy sinh ý tưởng làm để thu thập thông tin hữu ích đối tượng mặt đất trình quan sát từ thiết bị đặt vệ tinh Mục đích ban đầu việc phân biệt nguồn tài nguyên tái tạo Trái Đất, kể từ năm 1960, vấn đề quan tâm cách toàn tâm toàn ý tạo nhiều ứng dụng hữu ích, việc phát triển mô hình môi trường toàn cầu, phân vùng quản lý nguồn tài nguyên, nghiên cứu phân bố dịch bệnh theo mùa côn trùng phá hoại mùa màng, lập kế hoạch cho đề án xây dựng diện rộng… Để thực ý tưởng này, phải giải hai vấn đề sau đây: • Thông tin cần thu thập cách thức thu thập thông tin • Cách xử lý thông tin thu để đáp ứng nhu cầu thực tế Vào thập niên 1960, cách tự nhiên, người ta thực ý tưởng theo cách thức thu nhận ảnh rõ nét kỹ thuật xử lý ảnh số Thế nhưng, không sau, cách vấp phải nhiều giới hạn lớn để phát triển cho nhiều ứng dụng thực tế Với cách này, hình ảnh nhận phải có đủ độ phân giải theo yêu cầu, cho tranh cảnh vật chi tiết mặt đất Tuy nhiên, đặt mục đích nhận dạng, phân loại, hay rút số đặc trưng cần thiết đối tượng mà không quan tâm đến chi tiết cụ thể cách tỏ không hiệu mặt kinh tế thực mặt kỹ thuật: • Ví dụ để nhận dạng, phân loại vật thể có kích thước nhỏ khoảng vài centimeters, độ phân giải không gian phải theo centimeters Với khoảng cách xa từ vệ tinh đến mặt đất, để có độ phân giải cao thế, góc nhìn sensors phải nhỏ Các sensors trở nên khó chế tạo, khó điều khiển hoạt động đắt tiền • Khi quan sát đến vùng rộng lớn, số điểm ảnh tăng nhanh (theo bình phương đường kính vùng), phải xử lý khối lượng liệu lớn • Dữ liệu ảnh bao gồm ba màu vùng khả kiến (đỏ, lục, lam) nên chứa đựng lượng thông tin thỏa đáng để xác định nhiều tính chất đa dạng đối tượng cần nghiên cứu HV: KS Lê Phước Lâm Giới Thiệu PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong KẾT LUẬN HƯỚNG PHÁT TRIỂN LUẬN ÁN I KẾT LUẬN Luận án cố gắng đưa nhìn tổng quan cách thức phương pháp phân tích liệu đa phổ nhiều chiều phục vụ cho tiến trình phân lớp đối tượng, đồng thời giới thiệu số kỹ thuật nhận dạng mẫu thống kê phục vụ cho việc phân tích liệu Phần Giới thiệu nói ý tưởng khởi điểm cho việc nhận dạng đối tượng từ xa sở thông tin chứa đựng phổ điện từ phát từ đối tượng Một mô hình chung cho hệ thống quan sát đối tượng từ xa ứng dụng phân tích liệu đa phổ giới thiệu phần Trong chương 1, khái niệm liệu đa phổ nhiều chiều đề cập đến với phát triển hệ thống cảm biến với độ phân giải ngày cao ngày nhiều băng phổ hẹp liên tiếp dải bước sóng từ vùng khả kiến đến vùng hồng ngoại Qua đó, giới thiệu hệ thống khái quát trình nhận liệu từ cảm biến trình xử lý liệu tiền xử lý, trích đặc trưng, lựa chọn đặc trưng, phân lớp Ngoài khái niệm thông thường biểu diễn liệu không gian ảnh, khái niệm khác không gian phổ không gian phổ đặc trưng giới thiệu Đặc biệt, khái niệm không gian phổ đặc trưng đưa đến đời hệ thống cảm biến ngày đại ngày để thu thập liệu đa phổ nhiều chiều Khái niệm giúp cho liệu thu thập có độ xác cao, đồng thời tạo thuận lợi cho kỹ thuật nhận dạng mẫu thống kê Một sơ đồ khối giải thuật tiêu biểu để phân tích liệu giới thiệu Cuối chương ví dụ minh họa phân tích liệu vùng thành phố Washington DC cho thấy tính ưu việt trình phân tích này, vùng hay vật thể cần xác định rõ đồ chủ thể (thematic map) Cũng cần lưu ý hình ảnh ban đầu đối tượng thể vài băng phổ số băng phổ tập liệu Chương nêu phương pháp trích đặc trưng PCA (Principal Component Analysis) PCA phương pháp thuận lợi nghiên cứu, khai thác xử lý liệu đa chiều Bằng cách nén lượng thông tin vào thành phần vector bản, PCA loại bỏ số lượng lớn số chiều ban đầu giữ lại lượng nhỏ số HV: KS Lê Phước Lâm 131 Kết luận hướng phát triển PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong chiều cần thiết cho trình xử lý, đem lại kết mong muốn PCA làm giảm thời gian, chi phí xử lý, đồng thời hạn chế xác suất lỗi trung bình bình phương đến mức nhỏ Tuy nhiên, bất lợi PCA không bám sát mục đích xử lý hay tình ứng dụng thực tế Ví dụ ứng dụng phân lớp, lượng thông tin chiều thấp lại cho phân cách lớp tốt Điều nhận thấy rõ ràng qua so sánh PCA cách trích đặc trưng đường biên định (DBFE) Chương 3, giới thiệu phương pháp ước lượng ma trận covariance cho lớp, đề nghị phương pháp ước lượng covariance Mixed-LOOC Khi số lượng mẫu huấn luyện lớn, dạng Sample covariance hay Common covariance thường dùng cho kết tốt Nhưng số lượng mẫu huấn luyện cho lớp có giới hạn (nhỏ số chiều hay số băng phổ) ma trận Sample Common covariance bị suy biến dùng hệ phân lớp Gaussian MixedLOOC tránh bất lợi đồng thời đưa cách chọn lựa tốt từ sáu dạng ma trận covariance Mixed-LOOC phát triển từ LOOC, BLOOC, nên cho độ xác cao hầu hết trường hợp Chương nêu số phương pháp trích đặc trưng với mục đích PCA hiệu cho trình phân lớp Hiện nay, cảm biến đa phổ có khả lấy mẫu tín hiệu phổ hàng trăm băng liên tiếp, cho tập liệu hàng trăm chiều Mỗi mẫu số liệu mã hóa đến 16 bits nhị phân Do độ phức hợp (complexity) tập liệu cao, nên hiệu ứng Hughes làm giảm đáng kể độ xác phân lớp tập mẫu thống kê có giới hạn Trích đặc trưng khâu quan trọng thiếu phân tích liệu nhiều chiều Tránh bất lợi PCA, số phương pháp trích đặc trưng thường dùng DAFE, DBFE, NDA, NWFE giới thiệu Sau DAFE số đặc trưng (số chiều) lại nhỏ (bằng số lượng lớp trừ 1) Đây lợi ích DAFE, số trường hợp, lại khuyết điểm Ví dụ cần nhiều đặc trưng để tăng độ xác DAFE không đáp ứng Hơn nữa, số lượng mẫu huấn luyện ít, ma trận tán xạ DAFE thường bị suy biến Với DBFE, số mẫu huấn luyện lớp ma trận đường biên định không xác Việc chọn giá trị ngưỡng Rt1 , Rt đặc biệt Lmin DBFE theo kinh nghiệm, khó xác định giá trị tối ưu NWFE khắc phục bất lợi DAFE DBFE có ưu điểm chúng Trong hầu hết trường hợp NWFE cho kết với độ xác cao Tuy nhiên, thời gian tính toán NWFE lớn HV: KS Lê Phước Lâm 132 Kết luận hướng phát triển PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong Vấn đề thống kê tập mẫu đại điện cho lớp (các tập mẫu huấn luyện) khâu quan trọng toàn tiến trình phân lớp Để đạt độ tin cậy cao, tập mẫu huấn luyện cần phải toàn diện, đầy đủ thỏa đáng Để có điều này, thường phải nhiều thời gian chi phí Một trình phân lớp sơ ban đầu trình bày chương giúp giảm nhẹ trình thống kê Bản đồ phân lớp sơ ban đầu trợ giúp cách hiệu để có tập mẫu huấn luyện cho lớp Hai phương pháp clustering trình bày ISODATA tiến trình lặp, nhiều thời gian Single Pass cho kết tốt Chương trình bày hệ phân lớp hỗn hợp Gaussian sở hàm mật độ trộn chuẩn Trên thực tế, trình không theo luật phân bố Gaussian biểu diễn gần tổng có trọng số phân bố Gaussian Đặc trưng cho lớp tập liệu hàm mật độ trộn chuẩn cho kết phân lớp xác nhiều so với hàm mật độ Gaussian Trong phương pháp ước lượng hàm mật độ trộn chuẩn, ước lượng sử dụng phương pháp phân nhóm maximum likelihood với LOOL cho kết tốt hầu hết trường hợp thực tế II HƯỚNG PHÁT TRIỂN LUẬN ÁN Các phương pháp phân tích liệu đa phổ nêu luận án cho trình phân lớp chắn chưa đích đến cuối nhìn nhà phân tích liệu Việc nâng cao độ xác, rút ngắn thời gian xử lý, xây dựng nhiều tiện ích… mục tiêu quan tâm Hơn nữa, thông tin tiềm tàng tập liệu đa phổ lớn Việc khai thác thông tin để tạo nhiều ứng dụng hữu ích thực tế quy việc xử lý, phân tích tập liệu Trong phần này, vài đề nghị nêu để phát triển cho luận án • Trong phương pháp trích đặc trưng NWFE (chương 4), số lượng đặc trưng chọn sở vectors riêng S w−1Sb tương ứng với giá trị riêng lớn m đặc trưng chọn sau cho: ⎛ m ⎜ ∑ λi ⎝ i =1 ⎞ n ∑ λ ⎟⎠ > η i =1 i λi (i = 1, n) n giá trị riêng ma trận tích S w−1Sb xếp theo thứ tự giảm dần η thường chọn theo kinh nghiệm thực tế η = 95% Hoàn toàn η lớn tốt Ở đề nghị công việc tìm số lượng đặc trưng tối ưu NWFE HV: KS Lê Phước Lâm 133 Kết luận hướng phát triển PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong • Trong thủ tục phân lớp sơ ban đầu (chương 5), với việc sử dụng khoảng cách Euclidean, clusters tạo có dạng hình siêu cầu Điều không thích hợp với phân bố ngẫu nhiên thực tế Một cách hợp lý thủ tục clustering có thêm số thông tin lớp lượng thông tin không nhiều Ví dụ dựa vào lượng nhỏ mẫu chắn thuộc lớp định trước • Trong luận án khâu xử lý hiệu chỉnh cho tập liệu để bù tác động môi trường (đã đề cập đến phần Giới thiệu Chương 1) Đây khâu quan trọng, hiển nhiên liệu vào sai cho kết sai (garbage in, garbage out) Hiện nay, vấn đề toán lớn, thách thức lớn cho nhà khoa học • Như đề cập đề mục Xử lý liệu đa phổ Chương 1, Detection Unmixing nghiên cứu thêm vào luận án Một số giải thuật Classification phát triển ứng dụng cho Detection Unmixing Đặc biệt với Unmixing, thông tin tiềm tàng tập liệu đa phổ khai thác tối đa Unmixing tạo nhiều ứng dụng hữu ích, ví dụ Y học việc phân tích thành phần quan giúp ích cho việc chẩn đoán bệnh • Hệ phân lớp thích nghi Trong thủ tục phân lớp giám sát, tập mẫu huấn luyện yếu tố quan trọng nhất, đóng vai trò định cho kết phân lớp Với số lượng mẫu huấn luyện cố định cho lớp, kết phân lớp xấu số chiều (số băng phổ hay số đặc trưng) tăng lên Hiệu ứng tác động rõ rệt việc phân tích tập liệu đa phổ (hyperspectral) tỉ số mẫu huấn luyện số chiều nhỏ Ở đề nghị ý tưởng để giảm nhẹ tác động Đó phương pháp lặp, semi-labeled samples (là kết trình phân lớp trước đó) sử dụng lại với mẫu huấn luyện gốc ban đầu để ước lượng lại thông số cho trình phân lớp Cứ trình lặp lại nhiều lần độ xác kết phân lớp sau có sai lệch mức độ cho phép so với độ xác kết phân lớp trước Quá trình xây dựng ý tưởng chia thành bốn khâu Thứ đưa quy luật chọn semi-labeled samples để ước lượng thông số Thứ hai thiết kế hệ phân lớp thích nghi Thứ ba thiết lập ước lượng covariance thích nghi Và cuối lựa chọn đầy đủ thỏa đáng thông tin tập liệu đa phổ để tiến hành phân lớp Khó khăn phải bảo đảm hội tụ tiến trình lặp Điều phụ thuộc chủ yếu khâu thứ thứ hai Sau xác định semi-labeled samples, việc ước lượng covariance thích nghi phát triển từ LOOC hay BLOOC HV: KS Lê Phước Lâm 134 Kết luận hướng phát triển PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong PHẦN THỰC NGHIỆM VỚI DỮ LIỆU THỰC DÙNG HYPERSPEC I Các tập liệu dùng thực nghiệm FLC.lan 92AV3C.lan 92AV 3C9.lan II Phân lớp cho tập liệu FLC Hiển thị ảnh Phân lớp sơ ban đầu Chọn tập mẫu huấn luyện cho lớp Ước lượng mean covariance cho lớp Phân lớp III Phân lớp Gaussian với cách ước lượng covariance khác IV Trích đặc trưng HV: KS Lê Phước Lâm 119 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong Trong phần lý thuyết, số thực nghiệm liệu phát từ máy tính vài thực nghiệm tập liệu thực trình bày minh họa cho thuật toán chương Phần đưa trình đầy đủ cho toàn việc phân lớp đối tượng tập liệu thực dùng hyperspec Chương trình ứng dụng hyperspec viết ngôn ngữ Matlab I CÁC TẬP DỮ LIỆU DÙNG TRONG CÁC THỰC NGHIỆM FLC.lan FLC.lan tập liệu đa phổ vùng phía nam tỉnh Tippecanoe thuộc Ấn độ, chạy dọc theo tỉnh lộ từ cầu Grandville bắt qua sông Wabash đến gần quốc lộ 25 Mặc dù tập liệu thu thập cách lâu (vào tháng năm 1966 cảm biến đặt máy bay) mang tính đương đại có ích cho việc nghiên cứu xử lý ảnh đa phổ FLC.lan bao gồm 949 dòng quét, 220 pixels dòng Dữ liệu lấy mẫu 12 băng phổ mã hóa bits Góc nhìn cảm biến khoảng miliradian Độ cao cảm biến so với mặt đất 2600 feet Bảng cho bước sóng băng phổ Hình cho ảnh hiển thị số 12 băng phổ đồ vùng (lớp) thực tế dùng để so sánh đánh giá kết Hình (a) (b) a Ảnh FLC.lan hiển thị băng 11, 9, tương ứng red, green, blue b Bản đồ lớp thực tế dùng so sánh đánh giá kết HV: KS Lê Phước Lâm 120 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong Băng phổ Bước soùng ( μm) 0.40 – 0.44 0.44 – 0.46 0.46 – 0.48 0.48 – 0.50 0.50 – 0.52 0.52 – 0.55 0.55 – 0.58 0.58 – 0.62 0.62 – 0.66 10 0.66 – 0.72 11 0.72 – 0.80 12 0.80 – 1.00 Bảng Các băng phổ tập liệu FLC.lan 92AV3C.lan 92AV3C9.lan 92AV3C.lan tập liệu đa phổ vùng nông nghiệp khoảng 100 miles vuông tây bắc Ấn Độ, thu thập vào tháng năm 1992 92AV3C.lan bao gồm 145 dòng quét với 145 pixels dòng Dữ liệu lấy mẫu 220 băng phổ mã hóa 16 bits Độ rộng băng phổ hẹp đến khoảng 10nm trải dài tữ vùng bước sóng khả kiến đến vùng bước sóng hồng ngoại 92AV3C9.lan tập liệu trích từ 92AV3C.lan, bao gồm băng phổ cho bảng Hình cho ảnh hiển thị số băng phổ đồ vùng (lớp) thực tế dùng để so sánh đánh giá kết Băng phổ Băng phổ tương ứng Bước sóng ( μm) 92AV3C9.lan 92AV3C.lan 0.4795 16 0.5584 27 0.6675 39 0.7560 46 0.8235 70 1.0550 86 1.2092 136 1.6589 186 2.2186 Bảng Các băng phổ tập liệu 92AV3C9.lan HV: KS Lê Phước Lâm 121 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ (a) Ảnh 92AV3C9.lan hiển thị băng 9, 7, tương ứng red, green, blue PGS.TS Nguyễn Đức Phong (b) Bản đồ lớp thực tế 92AV3C.lan dùng so sánh đánh giá kết Hình Ảnh 92AV3C.lan đồ lớp thực tế II PHÂN LỚP CHO TẬP DỮ LIỆU FLC Đề mục trình bày tiến trình thông thường để phân lớp tập liệu đa phổ Tập liệu dùng FLC.lan Đồng thời đưa số kết phân lớp dùng dạng ước lượng covariance hệ phân lớp khác để so sánh Với FLC.lan, số băng phổ (số chiều không gian phổ) không lớn (12) nên trình trích đặc trưng không cần thiết Để tiến hành phân lớp tập liệu, cửa sổ lệnh Matlab chạy hyperspec Hiển thị ảnh Trong menu File hyperspec chọn Open file chọn tập tin FLC.lan Cửa sổ Set Display Specifications for… (hình 3) cho thấy thông tin tập tin chọn Giải thích • Line, Column: khai báo phần hay toàn tập liệu hiển thị • Mode: Hiển thị ba màu, hai màu hay ảnh mức xám tương ứng với băng phổ • Red, Green, Blue: băng phổ tương ứng cho ba màu • Stretch: Tăng độ tương phản cực đại Hình Cửa sổ Set Display Specifications HV: KS Lê Phước Lâm 122 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong Mật định, toàn ảnh hiển thị với ba băng phổ 11, 9, tương ứng cho ba màu red, green, blue (hình 4a) Các băng phổ nên chọn cho có phân cách tốt lớp với đánh giá mắt người sử dụng Hình 4b dùng băng 8, 7, Hình 4c dùng ba băng 3, 2, Rõ ràng hình 3a cho ảnh phân biệt tốt Điều lớp có phân cách tốt băng phổ 11, 9, Có thể chọn lựa băng phổ cách nhanh tiện ích Display Image menu Processor (a) 11, 9, (b) 8, 7, (c) 3, 2, Hình Ảnh FLC với băng phổ khác chọn Phân lớp sơ ban đầu Giải thích • Distance: khoảng cách Euclidean làm sở phát sinh cluster • Minimum Cluster Size: số pixels tối thiểu chuster • Convergence: phần trăm pixels không thay đổi tiến trình lặp ISODATA Hình Cửa sổ Clustering HV: KS Lê Phước Lâm 123 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong Trong menu Processor, chọn Cluster…, cửa sổ Clustering xuất (hình 5) Thiết lập chế độ cho trình phân lớp sơ cửa sổ (ý nghóa thông số nêu chương 5) Có hai thuật toán cho clustering: • Single Pass thực nhanh hơn, cho kết với độ tin cậy không cao (hình 6a) • ISO Data thực lâu hơn, cho kết tốt (hình 6b) (a) Single Pass (b) ISO Data Hình Các kết Clustering với thuật toán khác Các thông số thiết lập trình clustering thay đổi để chọn kết phù hợp Số lượng lớp tạo tùy thuộc vào thông số thiết lập Lặp lại vài lần công việc clustering để có số lớp mong muốn Kết clustering cho đồ phân lớp sơ bộ, sở tập mẫu huấn luyện cho lớp chọn cách thích hợp Chọn tập mẫu huấn luyện cho lớp Kế đến, tập mẫu huấn luyện cho lớp thực Trong menu Processor, chọn Statistics…, cửa sổ Statistics xuất (hình 7a) phục vụ cho việc huấn luyện mẫu đại diện cho lớp (hình 7b) HV: KS Lê Phước Lâm 124 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong Giải thích • Rectangle Enter: nhập fields hình chữ nhật cho lớp Ấn giữ phím phải chuột, di chuyển chuột để định field, nhả phím • Polygon Enter: nhập fields hình đa giác cho lớp Một lần click phím phải chuột, đỉnh đa giác thiết lập Double click kết thúc đa giác • Add to list: nhập fields lớp • Có thể xóa fields hay class Remove Field hay Remove Class • Coordinate (L,C): tọa độ đỉnh field hành (hàng, cột) • Sau thống kê lớp, click Apply để lưu thông tin thống kê (a) (b) Hình (a) Cửa sổ công cụ Statistics (b) Các tập mẫu huấn luyện cho tám lớp Dùng mouse định fields cho tất lớp Sau lần định field, click Add cửa sổ Statistics để xác định field thuộc lớp Có thể loại bỏ số fields hay số lớp cách chọn chúng List Box tương ứng click Remove Field, Remove Class Sau xác định tập mẫu huấn luyện thỏa đáng cho tất lớp, click Apply để lưu thông tin thống kê cho tất lớp Hình 7b cho thấy kết sau trình thống kê lớp, có lớp chọn Lớp thứ lớp kết clustering bao gồm pixels nên ta bỏ qua lớp Ước lượng mean covariance cho lớp Ước lượng mean covariance (chương 3) cho lớp chương trình thủ tục phân lớp Gaussian thủ tục trích đặc trưng Khi tiến hành phân lớp hay trích đặc trưng, cửa sổ xuất để người sử dụng khai báo dạng ước lượng covariance Có dạng ước lượng covariance chọn sau: Sample covariance, Common covariance, LOOC, BLOOC1, BLOOC2 Mixed-LOOC HV: KS Lê Phước Lâm 125 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong Phân lớp Trong menu Processor chọn Classify chọn hệ phân lớp (hình 8) Ở đây, phân lớp thực caùch khaùc nhau: Minimum distance to mean, Fisher’s linear discriminant, Quadratic (Gaussian) Hình cho kết phân lớp Hình Các hệ phân lớp đươc chọn (a) (b) (c) Hình Kết phân lớp với hệ phân lớp khác (a) Minimum distance to mean (b) Fisher’s linear discriminant (c) Quadratic với Sample covariance Kết cho thấy độ xác tăng theo thứ tự hình 5a, 5b, 5c, trình bày phần lý thuyết (chương 1) HV: KS Lê Phước Lâm 126 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong II PHÂN LỚP GUASSIAN VỚI CÁC CÁCH ƯỚC LƯNG COVARIANCE KHÁC NHAU (a) Định nghóa lớp (b) Sample covariance (c) LOOC (d) BLOOC1 (e) BLOOC2 (f) Mixed-LOOC Hình 10 Kết phân lớp với ước lượng covariance khác Mixed-LOOC thực với thời gian ngắn (ngoại trừ Sample cov.) HV: KS Lê Phước Lâm 127 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong Trong đề mục này, đưa số kết thực nghiệm phân lớp với cách ước lượng covariance khác (hình 10) Tập liệu sử dụng 92AV3C9.lan Mỗi cách ước lượng covariance thích ứng trường hợp cụ thể (như đề cập chương 3) Trong thực nghiệm này, độ xác kết không chênh lệch nhiều lớp có phân cách tương đối tốt BLOOC1 cho kết tốt nhất, thời gian tính toán lâu Ngoại trừ Sample covariance, Mixed-LOOC thực thời gian ngắn III TRÍCH ĐẶC TRƯNG Để tiến hành trích đặc trưng, sau thông kê tất lớp, menu Processor chọn Feature Extraction… Cửa sổ Feature Extraction xuất (hình 11) Có thể chọn cách trích đặ trưng (hình 11a) với cách ước lượng covariance (hình 11b) (a) Các cách trích đặc trưng (b) Các dạng covariance Hình 11 Cửa sổ Feature Extraction Trong thực nghiệm này, tập liệu 92AV3C.lan sử dụng Số băng phổ tập liệu lên đến 220 băng, tương ứng số chiều ban đầu không gian phổ 220 chiều Để ma trận Samples covariance không bị suy biến, số mẫu huấn luyện lớp phải lớn 220 Điều khó đạt cách thỏa đáng Hơn nữa, dùng đầy đủ số chiều để phân lớp, kết đạt có độ xác không cao hiệu ứng Hughes 13 lớp chọn thực nghiệm cho hình 12a (các lớp có số lượng mẫu nhỏ bỏ qua) Sau trích đặc trưng, số chiều từ 220 giảm xuống 12 với DAFE, 17 với DBFE với NWFE HV: KS Lê Phước Lâm 128 Thực nghiệm với liệu thực PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong (Cơ sở để chọn số chiều DBFE NWFE trình bày chương 4) Tất cách trích đặc trưng thực nghiệm sử dụng dạng ước lượng covariance Mixed-LOOC Các kết hình 12 cho thấy NWFE cho độ xác cao số chiều giảm nhỏ DAFE DBFE (9 so với 12 17) Độ xác DAFE thấp DBFE số lượng đặc trưng trích rút DAFE (bằng số lượng lớp trừ 1) không đủ để chứa đựng nhiều thông tin phân cách lớp Nếu chọn số lượng đặc trưng DBFE với DAFE, độ xác DAFE DBFE gần tương đương (a) 13 lớp định nghóa (b) DAFE (c) DBFE (d) NWFE Hình 12 (a): Các tập mẫu huấn luyện cho 13 lớp (b), (c), (d): Các kết phân lớp với cách trích đặc trưng DAFE, DBFE NWFE HV: KS Lê Phước Lâm 129 Thực nghiệm với liệu thực ... Nơi sinh: Long An I Tên đề tài: PHÂN LỚP ĐỐI TƯNG BẰNG DỮ LIỆU ẢNH ĐA PHỔ II Nhiệm vụ nội dung: • Nghiên cứu liệu ảnh đa phổ xử lý • Phân lớp đối tượng liệu ảnh đa phổ • Viết chương trình ứng dụng... PHÂN LỚP ĐỐI TƯNG THD: TS Lê Tiến Thường BẰNG DỮ LIỆU ẢNH ĐA PHỔ PGS.TS Nguyễn Đức Phong GIỚI THIỆU Nhận dạng đối tượng liệu ảnh đa phổ Mô hình hệ thống Phân loại ứng dụng phân tích liệu đa phổ. .. cách nhìn nhận liệu ảnh đa phổ 1.1.1 Không gian ảnh 1.1.2 Không gian phổ 1.1.3 Không gian phổ đặc trưng 1.2 Tập liệu ảnh đa phổ 1.3 Xử lý liệu đa phổ 1.3.1 Giảm số chiều 1.3.2 Phân lớp (Classification)