Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
580,29 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN THỊ PHƯƠNG PHÂN CỤM MỜ SỬ DỤNG LÝ THUYẾT ĐẠI SỐ GIA TỬ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SỸ KĨ THUẬT HÀ NỘI – NĂM 2012 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS NGUYỄN MẠNH HÙNG Phản biện 1:…………………………… …………………… Phản biện 2: ………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày .tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng I MỞ ĐẦU Công nghệ Logic mờ giáo sư Lotfi Zadeh công bố lần Mỹ vào năm 1965 Sự bùng nổ thời đại thông tin nay, lượng thông tin tạo hàng ngày lớn Nhu cầu cần thiết đến trình tự động tìm kiếm thơng tin hữu ích, quan hệ phát tri thức Để làm điều nhà nghiên cứu đề xuất nghiên cứu lĩnh vực phân lớp nhận dạng mẫu, hồi quy dự báo, phân cụm… dựa tâp mờ Lý thuyết tập mờ coi tảng lập luận xấp xỉ, lý thuyết tập mờ chưa mơ đầy đủ, hồn chỉnh cấu trúc ngơn ngữ mà người sử dụng Vì năm 1990 N.C.Ho & W.Wechler khởi xướng phương pháp tiếp cận đại số dựa miền giá trị biến ngôn ngữ Với ý nghĩa mục tiêu luận văn đặt cụ thể sau: - Trình bày tập mờ, logic mờ - Trình bày thuật tốn FCM - Trình bày Đại số gia tử - Ứng dụng đại số gia tử - Giải thuật di truyền để tối ưu số gia tử Về bố cục luận văn chia làm chương: Chương 1: Trình bày vấn đề logic mờ tốn phân cụm Trong tìm hiểu giải thuật Fuzzy C-Means, so sánh với K-Means để thấy ưu/nhược điểm thuật toán Chương 2: Trong chương trình bày đại số gia tử, tìm hiểu cấu trúc, định lý, tính mờ ngôn ngữ Sử dụng đại số gia tử sửa đổi khoảng cách từ mẫu tới tâm cụm, đo độ mờ giá trị ngôn ngữ Chương 3: Là chương phân tích thiết kế cài đặt thử nghiệm Bộ hoa Iris tập liệu đầu vào, qua chương trình đánh giá tính hiệu thuật toán, thấy tỉ lệ nhận dạng phân loại hoa Iris Chương 4: Đánh giá kết cài đặt tối ưu Để có tỉ lệ nhận dạng cao, sử dụng giải thuật di truyền để tối ưu số gia tử 2 II NỘI DUNG Chương 1: LOGIC MỜ VÀ BÀI TOÁN PHÂN CỤM Thực tế cho thấy khái niệm mờ luôn tồn tại, ứng dụng toán cách thức suy luận người Bằng phương pháp tiếp cận khác nhà nghiên cứu đưa kết lý thuyết ứng dụng toán điều khiển mờ, hệ hỗ trợ định… Vậy để làm điều luận văn trình bày ngữ nghĩa thơng tin mờ, tìm cách biểu diễn chúng khái niệm toán học tập mờ xét toán phân cụm 1.1 Logic mờ 1.1.1 Lý thuyết tập mờ Lý thuyết tập mờ lần Lotfi.A.Zadeh, giáo sư thuộc trường Đại học Caliornia, Berkley giới thiệu cơng trình nghiên cứu vào năm 1965 Lý thuyết tập mờ bao gồm logic mờ, số học mờ, quy hoạch tốn học mờ, hình học tơpơ mờ, lý thuyết đồ thị mờ, phân tích liệu mờ, thuật ngữ logic mờ thường dùng chung cho tất Không giống tập rõ mà ta biết trước đây, phần tử xác định thuộc khơng thuộc nó, với tập mờ xác định phần tử liệu thuộc vào nhiều hay ít, tức đối tượng phần tử tập mờ với khả định mà Trọng tâm lý thuyết tập mờ việc đề xuất khái niệm tập mờ (fuzzy sets) Về mặt toán học, tập mờ A hàm số (gọi hàm thuộc ( membership function)) xác định khoảng giá trị số mà đối số x chấp nhận (gọi tập vũ trụ (universe of discourse)) X, cho bởi: A (x) : X [0.0;1.0] Trong đó, A nhãn mờ biến x, thường mang ý nghĩa ngơn ngữ đó, mơ tả định tính thuộc tính đối tượng, chẳng hạn cao, thấp, nóng, lạnh, sáng, tối … Một khái niệm khác đưa - biến ngôn ngữ (linguistic variables) Biến ngôn ngữ biến nhận giá trị ngôn ngữ (linguistic terms) chẳng hạn "già ", " trẻ " "trung niên ", đó, giá trị ngơn ngữ thực chất tập mờ xác định hàm thuộc khoảng giá trị số tương ứng, chẳng hạn giá trị ngôn ngữ "trung niên" tập mờ có hàm thuộc dạng hình tam giác cân xác định khoảng độ tuổi [25 , 55] Logic mờ cho phép tập xếp phủ lên (chẳng hạn, người tuổi 50 trực thuộc tập mờ " trung niên ” lẫn tập mờ " già ", với mức độ trực thuộc với tập khác nhau) 1.1.2 Logic mờ Trong logic rõ mệnh đề câu phát biểu đúng, sai Trong logic mờ mệnh đề mờ câu phát biểu không thiết sai Mệnh đề mờ gán cho giá trị khoảng từ đến để mức độ (độ thuộc) Các phép tốn mệnh đề logic mờ định nghĩa nhưsau: - Phép phủ định : v(Pphủ định) = - v(P) - Phép tuyển :v(P1∨P2) = max(v(P1), v(P2)) - Phép hội :v(P1∧P2) = min(v(P1), v(P2)) - Phép kéo theo: v(P→Q) = v(Pphủ định∨Q) = max(v( Pphủ định), v(Q)) Xét cho cùng, tập mờ cơng cụ tốn học cho phép chuyển đổi từ giá trị định lượng sang giá trị định tính Như nói, đời lý thuyết tập mờ mở nhánh quan trọng việc biểu diễn tri thức ý nghĩ người Đây cơng cụ tốn học logic để tiến hành xây dựng ứng dụng phân cụm mờ cụ thể hóa chương 1.2 Bài toán phân cụm mờ Bài toán phân cụm mờ ứng dụng nhiều việc nhận dạng mẫu (vân tay, ảnh), xử lí ảnh, y học (phân loại bệnh lí, triệu chứng)… Tuy nhiên với giải thuật thứ 2, tức sử dụng logic mờ để phân cụm liệu mềm dẻo nhiều (so với giải thuật K-means) Nó cho phép đối tượng thuộc vào hay nhiều phân vùng khác biểu diễn thông qua khái niệm hàm thuộc hay mức độ thuộc 4 1.2.1 Phân cụm rõ Phương pháp đơn giản dễ hiểu dùng phổ biến nhiều ứng dụng Với giải thuật này, việc phân cụm thực qua bước: - Tính tốn tâm cụm - Sắp xếp lại đối tượng cho gần với tâm vùng 1.2.2 Phân cụm mờ Tập đối tượng phân vùng X={x1,…,xN} ; (k=1,2,…,N) Việc đánh giá quan hệ không đồng dạng không gian cho trước thường sử dụng nhiều đến khái niệm metric, metric đối tượng x,y m(x,y) cần thỏa mãn: Khái niệm gần gũi khoảng cách Euclid: D2(x,y) = p j j=1(x − yj )2 = x − y Với ứng dụng xây dựng không gian Euclid, hàm quan hệ đánh giá mức độ không đồng dạng D(X,Y) dùng (được mơ tả đây) xác định bình phương khoảng cách Euclid : D(x,y) = d22(x,y) = x − y = =1( − )2 Tiến hành phân chia X={x1,…, xN} vào c phân vùng Gi (i=1,2,…,c) Trong vùng, giá trị tâm vùng xác định Thuật tốn mơ tả sau : - Bước 1: tạo ngẫu nhiên c phân vùng với c tâm vùng Vi tương ứng - Bước 2: xếp đối tượng cho gần tâm vùng nhất, điều có nghĩa là: xk ∈ Gi D(xk , vi ) = min1≤j≤c D(xk , vj ) - Bước 3: Tính tốn lại tâm vùng: vi = xk ∈Gi xk Gi - Bước 4: Dừng vùng hội tụ, quay lại bước trường hợp khác Như với việc đưa vào G,V hàm mục tiêu J, ta mơ tả lại việc xác định tâm vùng gom cụm sau: - Bước : Tối thiểu hàm J với G V cố định - Bước : Tối thiểu J với V G cố định Bằng việc xây dựng ma trận U (NxC) U = (Uki ) xk ∈ Gi , Uki = (xk ∉ Gi ) Trong N số đối tượng, C số phân vùng, viết lại hàm mục tiêu J sau: , = ( , ) =1 =1 Nhược điểm lớn Fuzzy C- Means việc xử lí gặp khó khăn tập liệu lớn, tập liệu nhiều chiều, nhạy cảm nhiễu phần tử ngoại lai liệu, tức trung tâm cụm nằm xa so với trung tâm thực cụm Để giải vấn đề này, có nhiều phương pháp đề xuất phân cụm dựa xác suất (Keller, 1993), phân cụm nhiễu mờ (Dave, 1991), thuật toán Є – Intensitive Fuzzy C- Means FCM cải tiến 1.3 Kết luận chương Như qua chương luận văn trình bày sở lý thuyết logic mờ khái niệm ban đầu giải thuật phân cụm.Trong chương luận văn đề cập tới lý thuyết đại số gia tử áp dụng lý thuyết vào toán phân cụm liệu 6 Chương 2: PHÂN CỤM MỜ SỬ DỤNG ĐẠI SỐ GIA TỬ Trong chương luận văn trình bày: - Lý thuyết đại số gia tử - Phân cụm mờ sử dụng lý thuyết đại số gia tử 2.1 Lý thuyết đại số gia tử Một đặc điểm quan trọng cần ý cải thiện giải thuật FCM hình dạng cụm Trong trường hợp tâm cụm điểm, hình dạng cụm phụ thuộc hồn tồn vào việc tính tốn khoảng cách Vì thay đổi cách tính tốn khoảng cách cho phép ta xử lí với nhiều hình dạng phân cụm Ví dụ giải thuật GustafsonKessel (GK) xử lí tốt với phân cụm dạng elip Trong số nghiên cứu, tác giả [12] khả đại số gia tử với việc biểu diễn giá trị biến ngôn ngữ dựa cấu trúc ngữ nghĩa chúng Việc ứng dụng đại số gia tử thực thông qua bước: - Sử dụng cấu trúc đại số gia tử thay đổi ước lượng khoảng cách từ mẫu liệu tới tâm cụm - Mẫu liệu chắn thuộc vào phân cụm mức độ thuộc khơng nhỏ giá trị phần tử trung lập đại số gia tử (w) Chỉ mẫu liệu rơi ngưỡng w tham gia tiếp vào trình tính tốn tâm cụm q trình cập nhật lại tâm cụm, chịu ảnh hưởng nhiễu 2.1.1 Định nghĩa đại số gia tử Một cấu trúc đại số AT = (T, G, H, ≤) với H phân hoặch thành H+ Hcác gia tử ngược gọi đại số gia tử thỏa mãn tiên đề sau: (1) Mỗi gia tử dương âm gia tử khác, kể với (2) Nếu hai khái niệm u v độc lập nhau, nghĩa u∉H(v) v∉H(u), (∀x ∈H(u)) {x∉H(v)} Ngồi u v khơng sánh x∈H(u) khơng sánh với y∈H(v) (H(u) tập giá trị sinh tác động gia tử H vào u) (3) Nếu x ≠ hx x∉H(hx) h ≠ k hx ≤ kx h’hx ≤ k’kx, với gia tử h, k, h’ k’ Hơn hx ≠ kx hx kx độc lập 7 (4) Nếu u∉H(v) u ≤ v (hoặc u ≥ v) u ≤ hv (hoặc u ≥ hv) gia tử h Xét đại số gia tử AT có phần tử sinh: dương, âm phần tử trung hòa w nằm hai phần tử sinh có tính chất hw = w, với h∈H Một phần tử y gọi phần tử đối nghịch phần tử x có tồn biểu diễn x có dạng x = hn…h1g, w ≠ g ∉ G, cho y = hn…h1g’, với w ≠ g’∈G g’ ≠ g (nói cách khác: hai phần tử đại số gia tử gọi đối nghịch chúng có dạng biểu diễn với dãy gia tử phần tử sinh chúng khác nhau, dương âm) Đặc biệt phần đối nghịch w định nghĩa w Phần tử đối nghịch x ký hiệu –x với số cần thiết Nhìn chung phần tử có nhiều phần tử đối nghịch 2.1.2 Các định lý Định lý : Một đại số gia tử AT đối xứng với x, x điểm dừng –x điểm dừng Định lý : Nếu tập tốn tử (gia tử) H+ H- có quan hệ thứ tự xếp tuyến tính có tồn đẳng cấu từ đại số gia tử đối xứng AT = (T, G, H, -, ∪, ∩, ⇒, ≤) vào cấu trúc logic đa trị tựa đoạn [0, 1] Định lý : Có tồn hệ tiên đề hố cho miền ngơn ngữ AT biến ngôn ngữ trở thành dàn đầy đủ (complete lattice) có phần tử 0, phần tử đơn vị phần tử trung hồ 2.1.3 Tính mờ giá trị ngôn ngữ Cho trước hàm định lượng ngữ nghĩa f X Xét x∈X, tính mờ x đo đường kính tập f(H(x)) ⊆ [0, 1] 8 2.2 Phân cụm mờ sử dụng lý thuyết đại số gia tử Việc cải tiến giải thuật gồm nội dung sau: Sử dụng lí thuyết đại số gia tử cho việc sửa đổi khoảng cách từ mẫu tới tâm cụm Độ đo mờ giá trị ngôn ngữ dùng trọng số tương ứng với mẫu Một mẫu thuộc phân vùng xác định mức độ thuộc cụm có giá trị lớn phần tử trung gian w đại số gia tử Theo có mẫu có giá trị độ thuộc vượt w tham gia vào q trình tính tốn lại tâm cụm sau Việc làm hạn chế tầm ảnh hưởng phần tử nhiễu Do việc sử dụng đại số gia tử cho phép ta tạo lập trọng số phù hợp với mẫu liệu dựa khoảng cách từ đến tâm vùng Tâm cụm thu qua phép biểu diễn có sử dụng đại số gia tử ta tạm gọi tâm cụm ngôn ngữ (LCC-linguistic cluster center) Việc xác định LCC thực qua bước: Xác định giá trị k-level ngôn ngữ độ đo mờ chúng (Ở đây, klevel ngôn ngữ xác định thông qua số lượng gia tử kèm theo phần tử sinh, lấy ví dụ Very very True 3-level, nhiên suốt đồ án làm việc liên quan tới 2-level linguistic tức giá trị ngơn ngữ có dạng Very True Độ đo mờ chúng tính tốn dựa giá trị biến gia tử(Very) giá trị phần tử sinh(True)) Xác định khoảng cách lớn từ mẫu liệu tới tâm cụm cj kí hiệu dmax Sau hồn thành việc xây dựng tâm cụm ngôn ngữ, cần xác định giải thuật tính tốn trọng số cho mẫu liệu tương ứng với tâm cụm ngôn ngữ Đầu vào: mẫu xi, 1