Khoảng cách giữa các tập mờ trong phân cụm dữ liệu nhờ SOM thử nghiệm phân cụm sinh viên

LỜI CẢM ƠN Trƣớc hết, xin gửi lời cảm ơn chân thành tới thầy Nguyễn Tân Ân, ngƣời hƣớng dẫn, tận tình bảo, giúp đỡ hoàn thành luận văn tốt nghiệp Tôi xin chân thành cảm ơn tất thầy cô giáo trƣờng Đại học Sƣ phạm Hà Nội, ngƣời cung cấp cho kiến thức quý báu, cảm ơn Bộ môn Khoa học Máy tính khoa Công nghệ Thông tin trƣờng ĐHSP Hà Nội tạo điều kiện tốt để học tập nghiên cứu Tôi xin chân thành cảm ơn đồng nghiệp phòng Thiết bị - Công nghệ Ban giám hiệu trƣờng Cao đẳng Sơn La tạo điều kiện giúp hoàn thành tốt nhiệm vụ học tập Mặc dù có gắng hoàn thành luận văn với tất nỗ lực thân, nhƣng luận văn vẵn thiếu sót Kính mong nhận đƣợc góp ý thầy cô bạn Tôi xin chân thành cảm ơn! Hà Nội, ngày tháng .năm 2011 Tác giả Nguyễn Thu Huyền i MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Nhiệm vụ nghiên cứu Phƣơng pháp nghiên cứu Nội dung đề tài: CHƢƠNG I PHÂN CỤM DỮ LIỆU 1.1 Khai phá liệu: 1.1.1 Xác định vấn đề 1.1.2 Thu thập tiền xử lý 1.1.3 Khai phá liệu 1.1.3.1 Nhận định công việc 1.1.3.2 Nhận định liệu 1.1.3.3 Chuẩn bị liệu 1.1.3.4 Mô hình 10 1.1.3.5 Đánh giá 10 1.1.3.6 Triển khai 11 1.2 Phân cụm liệu 11 1.2.1 Giới thiệu 11 1.2.2 Các yêu cầu phân cụm 12 1.2.3 Các kiểu liệu 14 1.2.4 Một số phương pháp phân cụm liệu 15 1.2.4.1 Phương pháp phân cụm phân hoạch 15 1.2.4.2 Phương pháp phân cụm phân cấp 16 1.2.4.3 Phương pháp phân cụm dựa mật độ 17 1.2.4.4 Phương pháp phân cụm dựa lưới 18 1.2.4.5 Phương pháp phân cụm dựa mô hình 18 1.2.4.6 Phân cụm liệu mờ 19 CHƢƠNG PHÂN CỤM DỮ LIỆU NHỜ SOM 21 2.1 Mạng Nơron nhân tạo 21 ii 2.2 Sơ đồ tự tổ chức (Self Organizing Map - SOM) 25 2.2.1 Thuật toán sở 25 2.2.2 Các biến thể SOM 27 2.2.3 Các thuật toán liên quan 29 2.2.4 Phân tích liệu sử dụng SOM 31 2.2.4.1 Lượng tử hoá 31 2.2.4.2 Phép chiếu 33 2.2.4.3 Lợi ích rủi ro 34 2.2.4.4 Độ co dãn 35 2.3 Sử dụng SOM khai phá liệu 37 2.3.1 Sự chuẩn bị 39 2.3.2 Nhận định liệu 40 2.3.3 Sự minh hoạ 40 2.3.4 Tính trực quan SOM 43 2.3.5 Sự phân nhóm tổng kết 48 CHƢƠNG III KHOẢNG CÁCH GIỮA CÁC TẬP MỜ 58 3.1 Khoảng cách 58 3.2 Lý thuyết mờ 58 3.2.1 Giới thiệu: 58 3.2.2 Định nghĩa tập mờ 59 3.2.3 Quan hệ mờ 59 3.2.3.1 Khái niệm quan hệ mờ 59 3.2.3.2 Các phép toán quan hệ mờ 59 3.2.4 Những phép toán tập mờ 60 3.3 Một số khoảng cách thƣờng gặp 61 3.3.1 Khoảng cách Hamming 61 3.3.1.1 Trường hợp tập thông thuờng 62 3.3.1.2 Trường hợp tập mờ 62 3.3.2 Khoảng cách Ơclid 66 3.3.2.1 Trường hợp tập thông thường 66 3.3.2.2 Trường hợp tập mờ: 66 3.3.3 Khoảng cách hai tập 70 iii CHƢƠNG PHÂN CỤM DỮ LIỆU SINH VIÊN 71 4.1 Ví dụ tính toán: 71 4.2 Thử nghiệ m phân cụm liệu sinh viên trƣờng Cao đẳng Sơn La 74 KẾT LUẬN 76 TÀI LIỆU THAM KHẢO 77 iv MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, tốc độ phát triển nhanh chóng khoa học công nghệ, đồng thời kỹ thuật thu thập lƣu trữ thông tin không ngừng đƣợc cải tiến nên kho liệu khổng lồ xuất Làm để tìm kiếm, khai thác xử lý thông tin kho liệu khổng lồ vấn đề đƣợc nhà tin học quan tâm Cách giải vấn đề có hai hƣớng chính: Theo hƣớng thứ tác giả cải tiến mô hình sở liệu, kho liệu để tìm mô hình sở liệu, kho liệu thích hợp, thứ hai cải tiến phƣơng pháp tìm kiếm, khai phá liệu nhằm khai thác triệt để kho liệu có Khi cải tiến phƣơng pháp tìm kiếm phân lớp, phân cụm thƣờng đƣợc sử dụng nhiều Phân lớp (Classification) đối tƣợng thực chất huấn luyện để hệ thống thực hàm phân loại với tập lớp với tiêu chuẩn cho trƣớc Phân cụm (Clustering) gần giống với phân lớp song có điểm khác tập lớp không đƣợc cho trƣớc mà cụm đƣợc xác định dựa tiêu chí: phần tử cụm gần phần tử khác cụm, cụm giống nhiều phải gần cụm gần Phân lớp phân cụm có nhiều phƣơng pháp Mỗi phƣơng pháp có ƣu điểm, nhƣợc điểm phƣơng pháp có phạm vi ứng dụng định Không có phuơng pháp đắc dụng tất trƣờng hợp Một phƣơng pháp phân cụm dùng sơ đồ tự tổ chức SOM SOM (Self Organized Map – sơ đồ tự tổ chức), đƣợc biết đến SOFM (Self Organized Feature Map) mô hình mạng nơron, đƣợc Kohonen phát triển vào đầu thập niên năm 80, nên thƣờng đƣợc gọi mạng Kohonen SOM đƣợc dùng để gom cụm liệu (data clustering), nghĩa học không giám sát (unsupervised learning) Thuật toán phân cụm sử dụng SOM đƣợc nêu tóm tắt nhƣ sau: - Khởi tạo liệu - Khởi động ma trận trọng số cho mạng nơron - Lựa chọn liệu đầu vào - Tính toán khoảng cách xác định nút gần tâm tức thời cụm - Cập nhật trọng số "chiến thắng" nút phạm vi bán kính huấn luyện - Kiểm tra tỉ lệ hội tụ để tiếp tục kết thúc vòng lặp thao tác - Kiểm tra chất lƣợng - Lƣu giữ trọng số tính đƣợc nhƣ nhãn lớp nhƣ thuộc tính để xem xét - Sử dụng thuộc tính xem xét để phân loại liệu đầu vào - Kiểm tra tính hợp lệ kết Khi phân cụm, vấn đề đƣợc đặt hai phần tử gần nhau? Trong trƣờng hợp liệu vào đƣợc thu thập từ nhiều nguồn khác nhau, có nhiều dạng khác nhau, không gian vào có nhiều chiều, chiều thông tin rõ hay thông tin mờ vấn đề rắc rối Trong khuôn khổ luận văn thạc sỹ, chọn đề tài: “Khoảng cách tập mờ phân cụm liệu nhờ SOM Thử nghiệm phân cụm sinh viên” Nhằm tìm hiểu khoảng cách mờ đối tƣợng, áp dụng phân cụm liệu mờ Mục đích nghiên cứu Nghiên cứu cách tính khoảng cách đối tƣợng mờ ứng dụng phân cụm liệu nhờ SOM nhằm nâng cao hiệu phân cụm ứng dụng thực tế Nhiệm vụ nghiên cứu - Tìm hiểu chung khai phá liệu phân cụm liệu - Tìm hiểu kỹ thuật phân cụm nhờ SOM - Nghiên cứu cách tính khoảng cách (hoặc xác định độ tƣơng tự) tập mờ mờ để áp dụng phân cụm liệu nhờ SOM - Thử nghiệm số cách tính khoảng cách khác phân cụm sinh viên với ứng dụng SOM Phƣơng pháp nghiên cứu - Nghiên cứu lý thuyết: Đọc tài liệu, phân tích tổng hợp, biên soạn thành luận văn - Nghiên cứu thử nghiệm: Thử nghiệm phân cụm liệu sinh viên với cách tính khoảng cách khác Nội dung đề tài: Ngoài phần mở đầu kết luận luân văn gồm chƣơng: Chƣơng I: Phân cụm liệu Chƣơng II: Phân cụm liệu nhờ SOM Chƣơng III: Khoảng cách tập mờ Chƣơng IV: Phân cụm liệu sinh viên Trong khuôn khổ thời gian điều kiện, trình độ có hạn, luận văn chắn không tránh khỏi thiếu sót, mong góp ý thầy cô bạn CHƢƠNG I PHÂN CỤM DỮ LIỆU 1.1 Khai phá liệu: Do bùng nổ thông tin tiến vƣợt bậc kỹ thuật lƣu trữ, thêm vào hầu hết máy tính đƣợc nối với internet, kho liệu khổng lồ đƣợc tạo Tuy nhiên, liệu đƣợc bố trí phân tán Với kỹ thuật đơn giản việc tìm kiếm, khai thác thông tin khó khăn không xác, nhiều thời gian Vấn đề đặt làm để làm chủ đƣợc công nghệ, tìm kiếm, khai thác thông tin từ kho liệu đƣợc nhanh chóng xác? Ngày nay, nghiên cứu kho liệu, vấn đề không tập trung cải tiến việc lƣu trữ mà ngƣời ta thƣờng dành nhiều thời gian, công sức vào việc quản trị kho Do lƣợng thông tin lƣu trữ kho lớn, liệu lƣu trữ kho đa dạng, đƣợc thu thập từ nhiều nguồn khác nhau, vấn đề tìm kiếm, rút trích, khai thác thông tin, phát tri thức từ kho vấp phải nhiều thách thức Nhìn trình khai phá liệu thƣờng gồm pha sau 1.1.1 Xác định vấn đề Đây trình mang tính định tính với mục đích xác định đƣợc lĩnh vực yêu cầu phát tri thức xây dựng toán tổng thể Trong thực tế, sở liệu đƣợc chuyên môn hóa phân chia theo lĩnh vực khác nhƣ sản xuất, kinh doanh, tài Với tri thức phát đƣợc, có giá trị lĩnh vực nhƣng lại không mang nhiều ý nghĩa lĩnh vực khác Vì việc xác định lĩnh vực định nghĩa toán giúp định hƣớng cho giai đoạn – thu thập tiền xử lý liệu 1.1.2 Thu thập tiền xử lý Các sở liệu thu đƣợc thƣờng chứa nhiều thuộc tính nhƣng lại không đầy đủ, không nhất, có nhiều lỗi giá trị đặc biệt Vì vậy, giai đoạn thu thập tiền xử lý liệu trở nên quan trọng trình phát tri thức từ sở liệu phục vụ cho việc tìm kiếm liệu 1.1.3 Khai phá liệu Giai đoạn khai phá liệu đƣợc bắt đầu sau liệu đƣợc thu thập tiến hành tiền xử lý Trong giai đoạn này, công việc chủ yếu xác định đƣợc toán khai phá liệu, tiến hành lựa chọn phƣơng pháp khai phá phù hợp với liệu có đƣợc tách tri thức cần thiết Thông thƣờng, toán khai phá liệu bao gồm: toán mang tính mô tả - đƣa tính chất chung liệu, toán khai phá dự báo – bao gồm việc thực suy diễn, dựa liệu có Tùy theo toán xác định đƣợc mà ta lựa chọn phƣơng pháp khai phá nhƣ thuật toán tìm kiếm liệu cho phù hợp Thực chất khai phá liệu tiến trình định hƣớng toán: Có câu hỏi, vấn đề, cần câu trả lời, cách giải đuợc đặt Câu trả lời thông thƣờng đƣợc tìm từ liệu Dĩ nhiên, tìm kiếm câu trà lời từ liệu vấn đề nghiên cứu từ lâu dựa tảng môn thống kê Bắt đầu vào thập kỷ 90, khai phá liệu đƣợc coi nhƣ lĩnh vực nghiên cứu độc lập đến đƣợc thừa nhận nhƣ ngành công nghiệp Trong khứ, thuật ngữ “Data mining” mang sắc thái tiêu cực Ngày từ chuyên môn mang ý nghĩa tích cực Đó tìm kiếm “quặng vàng” sở liệu Tiến trình khai phá liệu chu kỳ có bƣớc rõ ràng bƣớc có quan hệ với Các bƣớc thƣờng là: nhận định công việc, nhận định liệu, chuẩn bị liệu, tìm kiếm mô hình, đánh giá triển khai Qui trình đƣợc lặp lại bƣớc tiến trình khai phá liệu tạo hiểu biết mới, cho phép vài bƣớc làm việc tốt Đây điều quan trọng bƣớc đầu làm móng cho bƣớc sau: Nếu nhƣ chúng làm không tốt, bƣớc sau trở nên khó khăn nhiều Nhận định công việc Nhận định liệu Chuẩn bị liệu Triển khai Mô hình Đánh giá a) Khám phá công việc Làm liệu Phát triển mô hình Khám phá liệu Phân tích liệu Thế hệ đầu b) Chuẩn bị Bài toán, giải pháp lựa chọn liệu Khảo sát (b) Phát triển mô hình Đánh giá Mô hình c) Hình 1.1: (a) Mô hình tiến trình khai phá sở liệu (b) Tiến trình khai phá tri thức sở liệu Brachman (c) Xây dựng mô hình phác thảo Pyle Hình 1.1 sơ đồ khối trình khai phá liệu bƣớc xây dựng mô hình *Xét tập mờ x1 x2 xn  A~ (xi) = a1 a2 an ~ (x ) B i = b1 b2 bn  C~ (xi) = c1 c2 cn Giả sử định nghĩa khoảng cách: (ai, bi) : Khoảng cách ai, bi với i = 1, 2, , n (ai, c i) : Khoảng cách ai, ci (bi, c i) : Khoảng cách b i, ci Theo tiêu chuẩn khoảng cách ta có: i = 1, 2, , n (ai, c i)  (ai, bi) + (bi, c i) Theo định lý ta có: n  (ai, c i)  i 1 n  (ai, bi) + i 1 n  (bi, ci) i 1 Theo định lý ta có: n  i 1 (a i , c i )  n  i 1 n (a i , b i ) +  i 1 (b i , ci ) Nếu M = [0,1] tức i = 1, 2, , n ; ai, bi, ci lấy giá trị đoạn [0,1] lấy (ai, c i) = | - c i | ; (ai, bi) = | - bi | ; (bi, c i) = | b i - c i | ta có: (ai, c i)  (ai, bi) + (bi, c i) (Chú ý rằng: | - c i | = Max(ai , c i) - Min (ai , c i) ) Từ kết ta định nghĩa hai loại khoảng cách sau: * Khoảng cách Hamming hay khoảng cách tuyến tính: ~ ~ d( A , B ) = n  | A~ (xi) -  B~ (xi) | (3.5) i 1 ~ (x ) lấy giá trị đoạn [0,1] i = 1, 2, , n  A~ (xi),  B i 65 ~ Và  d( A~ , B )n * Khoảng cách Hamming tƣơng đối tổng quát ~ ( A~ , B )= ~ ~ d(A, B) n n = n  | A~ (xi) -  B~ (xi)| (3.6) i 1 Dễ dàng kiểm tra để thấy khoảng cách thoả điều kiện khoảng cách Thật chia cho n tính chất không thay đổi ~  ( A~ , B )1 ~ (x ) nhận giá trị đoạn [0,1] Đây trƣờng hợp  A~ (xi),  B i 3.3.2 Khoảng cách Ơclid 3.3.2.1 Trường hợp tập thông thường * Khoảng cách Ơclid hay khoảng cách bình phƣơng ~ e( A~ , B )= n  (μ i 1 ~ A ( xi )  μ B~ ( xi )) (3.7) ~ ~ Ta có:  e( A , B ) n ~ ~ e2( A , B ) đƣợc gọi chuẩn ơclid n ~ ~ e2( A , B )=  ( A~ (xi) -  B~ (xi) ) (3.8) i 1 *Khoảng cách ơclid tƣơng đối tổng quát: ~ ~  (A ,B )= ~ ~ e (A ,B )= n n (μ A~ ( xi )  μ B~ ( xi ))  n i 1 (3.9) Dễ dàng kiểm tra để thấy khoảng cách thoả điều kiện khoảng cách Thật chia cho n tính chất không thay đổi ~ ~   (A ,B)  3.3.2.2 Trường hợp tập mờ: *Khoảng cách Ơclid hay khoảng cách bình phƣơng: ~ ~ e( A , B ) = n  (μ i 1 ~ A ( xi )  μ B~ ( xi )) 66 (3.10) Ta có ~  e( A~ , B ) n ~ e2( A~ , B ) đƣợc gọi chuẩn ơclid ~ e2( A~ , B )= n  ( A~ (xi) -  B~ (xi) ) i 1 * Khoảng cách ơclid tƣơng đối tổng quát:  ~ ( A~ , B )= n ~ e ( A~ , B )= n (μ A~ ( xi )  μ B~ ( xi )) (3.11)  n i 1 Dễ dàng kiểm tra để thấy khoảng cách thoả điều kiện khoảng cách Thật chia cho n tính chất không thay đổi ~   ( A~ , B )1 ~ (x ) nhận giá trị đoạn [0,1] Đây trƣờng hợp  A~ (xi),  B i ~ Ta gọi  2( A~ , B ) chuẩn ơclid tƣơng đối ~ ~  2( A , B )= ~ ~ e (A ,B )= n n  ( A~ (xi) -  B~ (xi)) i 1 ~ (x ) nhận giá trị tập Trong trƣờng hợp đặc biệt  A~ (xi),  B i {0,1} thì: ~ ~ ~ ~ e2 ( A , B ) = d( A , B ) ~ ~ ~ ~  2( A , B ) =  (A ,B ) Điều tƣơng ứng với tính chất boolean a2 = a , a {0,1} Vì ta nói: ~ ~ d (A ,B) = n  | A~ (xi) -  B~ (xi) | i 1 ~ ~ ( A , B ) = ~ ~ d(A, B) n = n n  | A~ (xi) -  B~ (xi)| i 1 dạng tổng quát khoảng Hamming (tuyệt đối hay tƣơng đối) 67 n d(A,B) =  | ( A (xi) -  B (xi)) | i 1 (A,B) = d(A,B) n Chúng ta không liệt dạng chuẩn ơclid vào khoảng cách không thoả điều kiện d(X, Z)  d(X, Y) * d( Y, Z) (transitivity) Chọn khoảng cách hay khoảng cách tuỳ thuộc vào ứng dụng cụ thể Ví dụ: Xét hai tập mờ: x1 x2 x3 x4 x5 x6 x7  A~ (xi) = 0.7 0.2 0.6 0.5 ~ (x ) B i = 0.2 0 0.6 0.8 0.4 ~ ~ d( A , B ) = 2.6 ~ ~ ( A , B )= ~ ~ d( A , B ) = 0.37 ~ ~ e2( A , B ) = 1.74 ~ ~ e( A , B ) = 1.74 = 1.32 ~ ~ e(A, B) 1.32 ~ ~ ( A , B )= = = 0.49 7 Trường hợp tập tham chiếu tập vô hạn ~ ~ ~ ~ ~ ~ Các khoảng cách d( A , B ), e( A , B ), e2( A , B ) mở rộng trƣờng hợp tập tham chiếu tập vô hạn với hạn chế tổng n  phải hội tụ i 1 Nếu E tập vô hạn thì: 68 ~ d( A~ , B )= n  | A~ (xi) -  B~ (xi) | chuỗi hội tụ i 1 ~ Khi E = R ta có d( A~ , B )=  n  i 1   | A~ (xi) -  B~ (xi) | dx tích phân hội tụ ~ Tƣơng tự e( A~ , B )= n  (μ i 1 ~ e( A~ , B )=   (μ ~ A ~ A ( xi )  μ B~ ( xi )) chuỗi hội tụ Và ( xi )  μ B~ ( xi ))2 tích phân hội tụ  Các khoảng cách tƣơng đối không đƣợc dùng trƣờng hợp tập tham chiếu vô hạn Tuy nhiên cần thiết dùng định nghĩa khác Nếu tập E tập R, tích phân ~ d( A~ , B )= ~ ~ e( A , B )=  n  i 1   | A~ (xi) -  B~ (xi) | dx n  (μ i 1 ~ A ( xi )  μ B~ ( xi )) hữu hạn (hình vẽ bên dƣới) Trong trƣờng hợp viết: ~ ~ ( A , B )= ~ ~ d(A, B) β - ~ ~ e(A, B) ~ ~  (A ,B) = β -  69  Qua phần ta thấy, khoảng cách đƣợc định nghĩa cách tổng quát Sau số trƣờng hợp cụ thể ngƣời ta đƣa khoảng cách l khác Tuy nhiên khoảng cách khác tùy tiện mà phải tuân theo định nghĩa khoảng cách ban đầu 3.3.3 Khoảng cách hai tập Sau “khoảng cách” thỏa định nghĩa khoảng cách nêu trên: D(A,B) = S(AB)/S(AB) Trong đó: S(AB) diện tích phần giao hai tập A, B Trong nhiều trƣờng hợp lực lƣợng AB S(AB) diện tích phần AB Tƣơng tự nhƣ trên, lực lƣợng AB Dễ kiểm tra để thấy “khoảng cách” thỏa yêu cầu khoảng cách 70 CHƢƠNG PHÂN CỤM DỮ LIỆU SINH VIÊN 4.1 Ví dụ tính toán: Mỗi đối tƣợng đƣợc xét theo tiêu chí: C1 , C2 , C3 , C4 Trong C1 thông tin rõ (số thực) tiêu chí lại đƣợc cho số mờ tam giác lấy thang điểm sau, điểm thang điểm đƣợc cho số mờ tƣơng ứng Số mờ thay đổi tùy theo trƣờng hợp đánh giá cụ thể: Thang điểm Số mờ tƣơng ứng Tốt (T): (7, 8, 9) Khá (KH): (6, 7, 8) Trung bình (TB): (5, 6, 7) Kém (K) : (4, 5, 6) Yêu cầu: Phân đối tƣợng thành cụm Mô hình: Dùng mạng Kohonen có nơron vào nơron Trong ví dụ tính toán dƣới đây, không giảm tính tổng quát để đơn giản trình tính toán tới mức tối thiểu ta chọn bán kính huấn luyện (Mỗi lần nơron đƣợc làm trọng số), tốc độ huấn luyện 0.5 Với số thực x ta mờ hóa số mờ (x-1, x, x+1) Khoảng cách số mờ đƣợc dùng khoảng cách Ơclid Với đối tƣợng: Đối C1l C 2l C3l C 4l tƣợng l l 1 8.5 (7.5, 8.5, 9.5) T (7, 8, 9) KH (6,7,8) KH (6,7,8) l2 (6, 7, 8) KH (6,7,8) KH (6,7,8) TB (5,6,7) l 3 7.5 (6.5, 7.5, 8.5) TB (5,6,7) KH (6,7,8) KH (6,7,8) … 71 C1l Ci l 1C Ci l 2C3 Ci Cl Ci P1 P2 P3 Hình 4.1 Mạng Kohonen, phân đối tượng cho thuộc tính làm cụm Trọng số khởi tạo  w11 w  21  w31   w41 w12 w13  (4.2, 5.9, 6.0) w22 w23  (3.5, 4.9, 5.9)  w32 w33  = (3.0, 4.0, 5.2)   w42 w43  (2.6, 3.5, 4.0) (4.5, 6.2, 8.3) (3.7, 5.0, 6.6) (3.0, 4.3, 5.2) (2.6, 3.5, 4.0) (4.8, 7.2, 9.1)  (3.4, 5.0, 6.1)  (2.8, 3.6, 4.1)   (2.2, 2.8, 3.0) Bƣớc 1: Cho đối tƣợng l vào Tính khoảng cách từ mẫu với phần tử j lớp ra: d lj   (Cil wij )  (C1l  w1 j )  (C2l  w2 j )  (C3l  w3 j )  (C4l  w4 j ) i Cụ thể: d11  (C11  w11)  (C21  w21)  (C31  w31)  (C41  w41) Với (C11  w11)  ((7.5  4.2) , (8.5  5.9) , (9.5  6.0) )  (10.89, 06.76, 12.25) (C21  w21)  ((7.0  3.5) , (8.0  4.9) , (9.0  5.9) )  (12.25, 09.61, 09.61) (C31  w31)  ((6.0  3.0) , (7.0  4.0) , (8.0  5.2) )  (09.00, 09.00, 07.84) (C41  w41)  ((6.0  2.6) , (7.0  3.5) , (8.0  4.0) )  (11.56, 12.25, 16.00) Từ d11  (43.70, 37.62, 45.70) Giải mờ ta có e11  43.7  37.62  45.7  42.34 Khoảng cách từ mẫu đến phần tử lớp 2: 72 d12   (Ci1 w12 )  (C11  w12 )  (C21  w22 )  (C31  w32 )  (C41  w42 ) i (C11  w12 )  ((7.5  4.5) , (8.5  6.2) , (9.5  8.3) )  (09.00, 05.29, 01.44) (C21  w22 )  ((7.0  3.7) , (8.0  5.0) , (9.0  6.6) )  (10.89, 09.00, 05.76) (C31  w32 )  ((6.0  3.0) , (7.0  4.3) , (8.0  5.2) )  (09.90, 07.29, 07.84) (C41  w42 )  ((6.0  2.6) , (7.0  3.5) , (8.0  4.0) )  (40.45, 33.83, 31.04) d12  (40.45, 33.83, 31.04) Giải mờ ta có e12  40.45  33.83  31.04  35.1 Khoảng cách từ mẫu đến phần tử lớp 3: d13   (Ci1  wi )  (C11  w13 )  (C21  w23 )  (C31  w33 )  (C41  w43 ) i (C11  w13 )  ((7.5  4.8) , (8.5  7.2) , (9.5  9.1) )  (07.29, 01.69, 00.16) (C21  w23 )  ((7.0  3.4) , (8.0  5.0) , (9.0  6.1) )  (12.96, 09.00, 08.41) (C31  w33 )  ((6.0  2.8) , (7.0  3.6) , (8.0  4.1) )  (10.24, 11.56, 15.21) (C41  w43 )  ((6.0  2.2) , (7.0  2.8) , (8.0  3.0) )  (14.44, 17.64, 25.00) d13  (44.93, 39.89, 48.78) Giải mờ ta có e13  44.93  39.89  48.78  44.53 Từ kết ta thấy phần tử thứ phần tử chiến thắng Cập nhật trọng số cho phần tử Chú ý tốc độ huấn luyện 0.5, ta có: w12 (1)  w12 (0)  [C11  w12 (0)]  (4.5, 6.2,8.30)  0.5[(7.5,8.5,9.5)  (4.5, 6.2,8.3)]  (6.00, 7.35,8.90) w22 (1)  w22 (0)  [C21  w226.50 (0)]  (3.7,5.0, 6.6)  0.5[(7.0,8.0,9.0)  (3.7,5.0, 6.6)]  (5.35, 6.50, 7.80) w32 (1)  w32 (0)  [C31  w32 (0)]  (3.0, 4.3,5.2)  0.5[(6.0, 7.0,8.0)  (3.0, 4.3,5.2)]  (4.50,5.65, 6.60) w42 (1)  w42 (0)  [C41  w42 (0)]  (2.6,3.5, 4.0)  0.5[(6.0, 7.0,8.0)  (2.6,3.5, 4.0)]  (4.30,5.25, 6.00) 73 Ma trận trọng số (4.2, 5.9, 6.0) (3.5, 4.9, 5.9)  (3.0, 4.0, 5.2)  (2.6, 3.5, 4.0) (6.00, 7.35, 8.90) (5.35, 6.50, 7.80) (4.50, 5.65, 6.60) (4.30, 5.25, 6.00) (4.8, 7.2, 9.1)  (3.4, 5.0, 6.1)  (2.8, 3.6, 4.1)   (2.2, 2.8, 3.0) Ta thấy cột thứ có thay đổi Cho mẫu thứ vào việc tính toán tƣơng tự… hết mẫu Sau mẫu đƣợc đƣa vào lặp lại trọng số không đổi đừng 4.2 Thử nghiệm phân cụm liệu sinh viên trƣờng Cao đẳng Sơn La Với liệu thử nghiệm thông tin 200 sinh viên khoa có thông tin mờ thông tin rõ nhƣ sau: Họ tên, Điểm trung bình học tập, sở thích âm nhạc, sở thích thể thao, lực hoạt động xã hội Trong thông tin họ tên không tham gia vào trình phân cụm, Điểm trung bình học tập thông tin rõ, thông tin lại đƣợc cho nhãn ngôn ngữ: Tốt, Khá, Trung bình, Kém lấy sinh viên tự đánh giá Các nhãn ngôn ngữ đƣợc qui định thành số mờ tam giác có thông số thay đổi ngƣời lập trình tùy theo ngữ cảnh Vấn đề đặt cần phân số sinh viên thành cụm Sao cho sinh viên cụm có khả gần sinh viên cụm so với sinh viên cụm khác Mạng Kohonen đƣợc chọn nhƣ mạng hình 4.1 Số nơron vào 4, số nơron Bán kính huấn luyện (Mỗi lần phần tử đƣợc làm trọng số) tốc độ huấn luyện   0.5 Quá trình tính toán tƣơng tự nhƣ ví dụ Qua nhiều lần thử nghiệm với thang điểm mờ đƣợc cho số mờ tam giác khác nhau, cố định thang điểm, thay đổi khoảng khởi tạo trọng 74 số, với thông tin 200 đối tƣợng tham gia vào trình phân cụm sau 2000 vòng lặp kết hợp lý Một số nhận xét: - Nếu chọn phƣơng pháp tính toán số mờ phức tạp hệ thống trở nên phức tạp mà kết không tốt nên bao Vì nên chọn phƣơng pháp tính toán hợp lý đủ đảm bảo kết chấp nhận đƣợc Cách tính toán nhƣ báo trƣờng hợp liệu thử nghiệm chấp nhận đƣợc - Số cụm chia không đƣợc nhiều quá, Số cụm quá, nhiều phần tử không giống đƣợc xếp chung cụm Trƣờng hợp ta bỏ qua nhiều thông tin đối tƣợng Số cụm nhiều việc khai thác liệu không đạt hiệu cao, ta không thấy nét chung liệu Trong trƣờng hợp liệu thử nghiệm, số cụm vừa, cụm 75 KẾT LUẬN Trong luận văn em trình bày số nét lớn, chung khai phá liệu phân cụm liệu nhƣ phƣơng pháp khai phá liệu Tiếp sâu vào phƣơng pháp phân cụm phân cụm nhờ mạng nơron nhân tạo, cụ thể nhờ SOM Khi phân cụm vấn đề đặt phải xác định hai phân tử giống Độ giống đƣợc thể khoảng cách Hai phần tử giống khoảng cách chúng nhỏ, hai phần tử khác khoảng cách chúng lớn Khoảng cách số công trình đƣợc dùng tùy tiện chủ yếu đƣợc định nghĩa cách cảm tính, luận văn khoảng cách đƣợc định nghĩa cách chặt chẽ Theo định nghĩa số khoảng cách Hamming, Ơclid, khoảng cách hai tập nói chung đƣợc đƣa Và nhiều khoảng cách nữa, nhiên khuôn khổ luận văn em tìm hiểu hai khoảng cách hay đƣợc dùng khoảng cách Hamming khoảng cách Ơclid Các khoảng cách đƣợc tính trƣờng hợp tập thông thƣờng tập mờ Thử nghiệm em thử nghiệm khoảng cách Ơclid Kết tính toán cho thấy việc phân cụm hợp lý Thử nghiệm minh họa cho thấy việc phân cụm mạng nơ ron tính toán không phức tạp nhƣng cho kết tốt Điều này, lần nữa, cho thấy ƣu điểm mạng nơron nhân tạo Những phát triển tiếp theo: Nghiên cứu tiếp khoảng cách khác, Thử nghiệm khoảng cách phƣơng pháp phân cụm khác không mạng nơron Và thử nghiệm phân cụm đối tƣợng khác không liệu quản lý sinh viên 76 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đinh Mạnh Tƣờng, Trí tuệ nhân tạo, NXB Đại học Quốc Gia Hà Nội, 2003, Hà Nội [2] Nguyễn Hoàng Phƣơng, Nhập môn trí tuệ tính toán, NXB Khoa học kỹ thuật, 2002, Hà Nội [3] Phan Đình Diệu, Logic hệ tri thức, NXB Đại học Quốc gia Hà Nội, 1999, Hà Nội [4] Đinh mạnh Tƣờng Hệ mờ, mạng Nơron ứng dụng - NXB Khoa học Kỹ thuật, Hà Nội http://www.seattlerobotics.org/encoder/mar98/fuz/fl_part4.html [5] Nguyễn Hoàng Phƣơng (2002), Nhập môn trí tuệ tính toán - NXB Khoa học Kỹ thuật, Hà Nội Tiếng Anh [6] James C Bezdek Pattern Recognition with Fuzzy Objective Function Algorithms Plenum Press, New York, 1981 [7] James C Bezdek Some New Indexes of Cluster Validity IEEE Transactions on Systems, Man, and Cybernetics – Part B: Cybernetics, 28(3):301 – 315, 1998 [8] James C Bezdek and Sankar K Pal, editors Fuzzy Models for Pattern Recognition: Methods That Search for Structures in Data IEEE Press, 1992 [9] Guido Deboeck and Teuvo Kohonen, editors Visual explorations in Finance using Self Organizing Maps Springer-Verlag, London, 1998 [10] Inderjit S Dillon, Dharmendra S Modha, and W Scott Spangler Visualizing class structure of multidimensional data In Proceedings of 77 the 30 th symposium on the Interface: Computing Science and Statistics, Minneapolis, MN, May 1998 [11] Arthut Flexer Limitations of Self Organizing Maps for vector quantization and multidimensional scaling In Advances in Neural Information Processing Systems (NIPS) 9, pages 445-451 MIT Press, 1997 [12] Bernd Fritzke Let it grow – self – organizing feature maps with problem dependemt cell structure In Kohonen et al [56], pages 403408 [13] Thore Graepel, Matthias Burger, and Klaus Obermayer Phase transition in stochastic self organizing maps Physical Review E, 56:3876-3890, 1997 [14] Anil K Jain and Richard C Dubes Algorithms for Clustering Data Prentice – Hall, 1988 [15] Jari A Kangas, Teuvo K Kohonen, and Jorma T Laaksonen Variants of Self Organizing Maps IEEE Transactions on Neural Networks, 1(1):93-99, March 1990 [16] Teuvo Kohonen Self Organizing Maps, volume 30 of Springer Series in Information Sciences [17] Teuvo Kohonen Comparison of SOM Point Densities Based on Different Criteria Neural Computation, 11(8):2081-1095, 1999 [18] Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salojarvi, Jukka Honkela, Vesa Paatero, and Antti Saarela Self organizing of a massive document collection IEEE Transactions on Neural Networks Accepted for publication [19] Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salojarvi, Jukka Honkela, Vesa Paatero, and Antti Saarela Self organizing of a massive 78 text document collection In Erkki Oja and Samuel Kaki, editors, Kohonen maps, pages 171-182 [20] Bart Kosko Fuzzy Engineering Prentice Hall International 1997 Các trang Web [1] http://www.kdnutggets.com [2] http://www.data-miner.com [3] http://www.generation5.org [4] http://www.cis.hut.fi [5] http://www.websom.hut.fi/websom 79 [...]... nhị phân, kiểu dữ liệu tuyển tập, và kiểu dữ liệu có thứ tự hay dạng hỗn hợp của các kiểu dữ liệu trên - Khám phá các cụm với hình dạng bất kỳ: Một số thuật toán phân cụm xác định các cụm dựa trên độ đo khoảng cách Euclidean hoặc khoảng cách Manhattan Các thuật toán dựa trên độ đo khoảng cách hƣớng tới việc tìm kiếm các cụm hình cầu với mật độ và kích cỡ tƣơng tự nhau Tuy nhiên, một cụm có thể có hình... một cụm phải giống nhau hơn một phần tử ở cụm này so với một phần tử ở cụm khác và các cụm giống nhau phải gần nhau hơn các cụm không giống nhau 11 Phân cụm khác phân lớp ở chỗ tiêu chuẩn để xác định xem một phần tử ở cụm nào không cho trƣớc Kết quả phân cụm phụ thuộc nhiều vào số cụm cần phân ra và tập dữ liệu cần phải phân cụm Mục tiêu của phân cụm là xác định đƣợc bản chất nhóm trong tập dữ liệu. .. đến khi các điều kiện kết thúc thỏa mãn Nhƣ vậy, cách tiếp cận này sử dụng chiến lƣợc ăn tham trong quá trình phân cụm Thực tế áp dụng, có nhiều trƣờng hợp kết hợp cả hai phƣơng pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu đƣợc của phƣơng pháp phân cấp có thể cải tiến thông qua bƣớc phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phƣơng pháp phân cụm dữ liệu. .. dạng dữ liệu trong phép chiếu Trong tọa độ đa chiều [45] tất cả các cặp khoảng cách thông minh đƣợc đánh trọng số nhƣ nhau Hàm năng lƣợng đƣợc giảm đến mức tối thiểu là: N N ' E   (d ij  d ij ) 2 (2.7) i 1 j 1 Trong đó dij là khoảng cách giữa các mẫu dữ liệu i và j trong không gian ' đầu vào ||xi-xj||, và d ij là khoảng cách tƣơng ứng giữa phép chiếu kết hợp trong không gian đầu ra Khoảng cách. .. pháp phân cụm cần có cách thức biểu diễn cấu trúc của các cụm dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tƣơng ứng một thuật toán phân cụm phù hợp Phân cụm là vấn đề cơ bản, bao gồm: xây dựng hàm tính độ tƣơng tự, xây dựng mô hình cho cấu trúc cụm dữ liệu, xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo, xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm 1.2.2 Các yêu... dữ liệu lƣới để phân cụm, phƣơng pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phƣơng pháp này là lƣợng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu lƣới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tƣợng trong từng ô này Cách tiếp cận dựa trên lƣới này không di chuyển các đối tƣợng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tƣợng trong. .. lƣợc phân cụm phân hoạch hoặc chiến lƣợc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch Phƣơng pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu đƣợc tạo ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa trên... dữ liệu mờ Phân cụm dữ liệu mờ (FCM) là phƣơng pháp phân cụm dữ liệu cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua bậc thành viên Ruspini(1969) giới thiệu khái quát khái niệm phân hoạch mờ để mô tả cấu trúc cụm của tập dữ liệu và đề xuất một thuật toán để tính toán tối ƣu phân hoạch mờ Dunn(1973) mở rộng phƣơng pháp phân cụm và đã phát triển thuật toán phân cụm mờ Ý tƣởng của thuật... định, nhất là với các tập dữ liệu lớn Do đó, nó không chỉ trở thành gánh nặng đối với ngƣời sử dụng mà còn làm cho chất lƣợng phân cụm khó kiểm soát - Khả năng thích nghi với dữ liệu nhiễu: Đa số những cơ sở dữ liệu trong thế giới thực đều chứa các dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu không đầy đủ Một số thuật toán phân cụm nhạy cảm với dữ liệu nhƣ vậy và có thể dẫn đến chất lƣợng phân cụm thấp - Ít... một tập dữ liệu lớn có thể không hiệu quả Vì vậy, khả năng mở rộng là một trong những yêu cầu cần thiết đối với thuật toán phân cụm 12 - Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật toán đƣợc thiết kế cho việc phân cụm dữ liệu dựa trên khoảng cách (dữ liệu kiểu số) Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, nhƣ kiểu dữ liệu nhị phân, ... phá liệu phân cụm liệu - Tìm hiểu kỹ thuật phân cụm nhờ SOM - Nghiên cứu cách tính khoảng cách (hoặc xác định độ tƣơng tự) tập mờ mờ để áp dụng phân cụm liệu nhờ SOM - Thử nghiệm số cách tính khoảng. .. tin mờ vấn đề rắc rối Trong khuôn khổ luận văn thạc sỹ, chọn đề tài: Khoảng cách tập mờ phân cụm liệu nhờ SOM Thử nghiệm phân cụm sinh viên” Nhằm tìm hiểu khoảng cách mờ đối tƣợng, áp dụng phân. .. phân cụm liệu sinh viên với cách tính khoảng cách khác Nội dung đề tài: Ngoài phần mở đầu kết luận luân văn gồm chƣơng: Chƣơng I: Phân cụm liệu Chƣơng II: Phân cụm liệu nhờ SOM Chƣơng III: Khoảng

Định dạng
Số trang	83
Dung lượng	760,45 KB