Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
1,1 MB
Nội dung
i TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MƠN TỐN LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC PHÂN TÍCH CHÙM DỮ LIỆU RỜI RẠC GIÁO VIÊN HƯỚNG DẪN SINH VIÊN THỰC HIỆN ThS VÕ VĂN TÀI TRẦN THỊ XUÂN THẮM NGÀNH: TỐN ỨNG DỤNG (BỘ MƠN TỐN – KHOA KHTN) Cần Thơ-05/2010 ii LỜI CẢM ƠN - -Tơi xin bày tỏ lịng kính trọng biết ơn sâu sắc tới Thầy Võ Văn Tài , người trực tiếp hướng dẫn, giúp đỡ, động viên suốt thời gian thực luận văn Tôi xin chân thành c ảm ơn Thầy Cô mơn Tốn khoa Khoa Học Tự Nhiên trang bị cho kiến thức bản, kỹ cần thiết để làm luận văn Xin cám ơn bạn bè giúp đ ỡ q trình học tập, sưu tầm, tìm tịi tài liệu để tơi hồn thành luận văn Xin bày tỏ lòng biết ơn đặc biệt đến Cha, Mẹ người thân d ạy dỗ, khuyến khích, động viên tạo điều kiện tốt cho tơi suốt q trình học tập Dù cố gắng với tận tâm Thầy hướng dẫn song trình độ cịn hạn chế nên khó tránh khỏi thiếu sót Rất mong nhận thơng cảm góp ý Thầy Cơ bạn Cần Thơ, tháng 05 năm 2010 Sinh viên Trần Thị Xuân Thắm iii DANH MỤC CÁC BẢNG STT TÊN BẢNG NỘI DUNG Bảng 1.1 TRANG Mối quan hệ khoảng cách thông dụng với khoảng cách William Lance 10 11 Bảng 1.2 Dữ liệu kiểu nhị phân Bảng 3.1 Điểm thi môn xác suất thống kê sinh viên bảy nhóm trường Đại học Moncton-Canada năm 2008 33 Bảng 3.2 Các bước tính tốn khoảng cách 35 Bảng 3.3 Các bước tính tốn khoảng cách max 38 Bảng 3.4 Các bước tính tốn khoảng cách trung bình 40 iv DANH MỤC CÁC HÌNH STT TÊN HÌNH NỘI DUNG TRANG Hình 1.1 Minh họa khoảng cách hai chùm K L Hình 1.2 Minh họa khoảng cách max hai chùm K L Hình 1.3 Minh họa khoảng cách trung bình hai chùm K L Hình 2.1.a Minh họa liệu ban đầu 18 Hình 2.1.b Dữ liệu sau thực phân tích chùm 18 Hình 2.2 Cây phân loại thứ bậc cho phần tử với khoảng cách 22 Hình 2.3 Ma trận khoảng cách hình vẽ minh họa cho việc thành lập chùm với khoảng cách 22 24 Hình 2.4 Cây phân loại thứ bậc cho phần tử với khoảng cách max Hình 2.5 Ma trận khoảng cách hình vẽ minh họa cho việc thành lập chùm với khoảng cách max 10 Hình 2.6 24 Cây phân loại thứ bậc cho phần tử với khoảng cách trung bình 26 27 11 Hình 2.7 Minh họa cho phương pháp Ward 12 Hình 2.8 Cây phân loại thứ bậc cho phần tử với phương pháp Ward 29 13 Hình 3.1 Số liệu rời rạc tổng thể hai chiều 34 14 Hình 3.2 Cây phân loại sử dụng khoảng cách 37 15 Hình 3.3 Cây phân loại sử dụng khoảng cách max 40 16 Hình 3.4 Cây phân loại sử dụng khoảng cách trung bình 43 17 Hình 3.5 Cây phân loại sử dụng khoảng cách Ward 44 18 Hình 3.6 Minh họa cho chùm phương pháp K-trung bình 47 v MỤC LỤC PHẦN MỞ ĐẦU .1 Giới thiệu tốn phân tích chùm… Sơ lược phát triển tính ứng dụng tốn phân tích chùm Bố cục luận văn… .2 PHẦN NỘI DUNG Chương KHOẢNG CÁCH .4 1.1 Giới thiệu… 1.2 Khoảng cách hai phần tử 1.2.1 Định nghĩa 1.2.2 Các loại khoảng cách phổ biến 1.3 Khoảng cách hai nhóm liệu 1.4 Khoảng cách cho liệu định tính 11 1.4.1 Dữ liệu kiểu nhị phân 11 1.4.2 Dữ liệu kiểu định giá 12 1.4.3 Dữ liệu kiểu thứ tự 13 1.4.2 Dữ liệu kiểu hỗn hợp 14 Chương XÂY DỰNG CHÙM CÁC DỮ LIỆU RỜI RẠC 15 2.1 Giới thiệu … 15 2.2 Một số khái niệm liên quan 16 2.2.1 Khái niệm chùm 16 2.2.2 Sự tương tự liệu 16 2.3 Phương pháp thứ bậc 17 vi 2.3.1 Bài toán 18 2.3.2 Thuật toán 18 2.3.3 Ví dụ 20 2.4 Phương pháp không thứ bậc 29 2.4.1 Bài toán 30 2.4.2 Thuật toán 30 2.4.3 Ví dụ 30 Chương VÍ DỤ ỨNG DỤNG 33 3.1 Dữ liệu… 33 3.2 Phương pháp thứ bậc 35 3.2.1 Khoảng cách 35 3.2.2 Khoảng cách max 38 3.2.3 Khoảng cách trung bình 40 3.2.4 Khoảng cách Ward 43 3.3 Phương pháp không thứ bậc 44 3.3.1 Phương pháp ba trung bình 44 3.3.2 Lập trình Matlab 46 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 49 PHẦN MỞ ĐẦU Giới thiệu tốn phân tích chùm Xuất phát từ đòi hỏi cần phải giải thực tế, toán nhận dạng đời Bài toán nhận dạng phát triển theo hai hướng chính: Nhận dạng giám sát nhận dạng không giám sát Trong nhận dạng không giám sát, gọi phân tích chùm, khơng có dự kiến trước phân nhóm Tập liệu đến từ tổng thể, cần phân chia phần tử tập hợp thành nhóm với mức độ khác nhau, cho phần tử nhóm gần theo tiêu chí phần tử khác nhóm gần Việc xác định nhóm phân chia tùy thuộc vào tập liệu có tùy thuộc vào chủ quan người thực Phần tử phân tích chùm thơng thường phần tử rời rạc hàm mật độ xác suất Trong luận văn xét phần tử rời rạc, kiểu liệu mang tính thực tế có tính ứng dụng cao Biến quan sát phân tích chùm đa dạng Nó bao gồm kiểu định lượng định tính Sơ lược phát triển tính ứng dụng tốn phân tích chùm Theo Jain Dubes (1988), Kaufman Rousseeuw (1990), Sharma (1996) Everitt et al (2001) phân tích chùm phương pháp thống kê đa biến nhằm nhóm tập đối tượng lại thành chùm theo đặc điểm định trước Phân tích chùm xem mở rộng tốn phân loại phân biệt Phân tích chùm sử dụng Tryon (1939) với số ý tưởng đơn giản ban đầu Các ý tư ởng phát triển thành thuật toán phân tích chùm cụ thể Sibson (1973), Defays (1977) Rohlf (1982) Các thuật toán dựa tiêu chuẩn khoảng cách phần tử rời rạc Nhiều tác giả phát triển thuật toán cách thay đổi khoảng cách khác Webb (2002) tổng kết đầy đủ tốn phân tích chùm liệu rời rạc Ý tưởng phân tích chùm với phần tử hàm mật độ xác suất lần nhóm tác giả Võ Văn Tài, Phạm Gia Thụ (2009) đưa dựa tiêu chuẩn mới, khác với tiêu chuẩn khoảng cách Phân tích chùm áp dụng nhiều thập kỷ qua cho nhiều lĩnh vực thực tế sinh học, y học, kinh tế, kỹ thuật, xã hội,…và lĩnh vực nơi mà việc nhóm phần tử lại với đòi h ỏi Hartigan (1975) cung cấp bảng tóm tắt tương đối đa dạng đầy đủ nghiên cứu thực tế cơng bố tốn phân tích chùm Ví dụ lĩnh vực y học phân tích chùm giúp phân loại bệnh có dấu hiệu gần Trong khoa học khí tượng, phân tích chùm phát tri ển rộng rãi năm 1990 ngày Gong Richman (1995) ứng dụng phân tích chùm nghiên cứu khí tượng Trong lĩnh vực tâm thần học, chuẩn đốn xác triệu chứng hoang tưởng, tâm thần phân liệt, …Trong khảo cổ học, phân loại công cụ đá Eshref Shevki Wendell Bell (1955) sử dụng phân tích chùm điều tra liệu dân số Nhà sinh thái học Ba Lan Kulczyski (1928) sử dụng phân tích chùm để nhóm quan sát có đặc tính giống Trong nước số tác Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu, Trần Minh Ngọc, Lê Hồng Phương (2002) ứng dụng phân tích chùm việc phân loại khách hàng lĩnh v ực ngân hàng (Ngân hàng Techcombank) Bố cục luận văn Nội dung luận văn gồm có phần mở đầu, phần nội dung, phần kết luận, danh mục tài liệu tham khảo Phần nội dung gồm có chương: Chương 1, chương chương Chương 1: Khoảng cách Trình bày kiến thức liên quan sử dụng luận văn: kiến thức khoảng cách phần tử rời rạc, nhóm liệu khoảng cách cho liệu định tính Chương 2: Xây dựng chùm liệu rời rạc Giới thiệu tốn phân tích chùm phương pháp gi ải Ở chùm xây dựng theo hai phương pháp: phương pháp thứ bậc phương pháp không thứ bậc Trong phương pháp, nhiều ví dụ cụ thể đưa để minh họa cho vấn đề lý thuyết nêu Chúng tơi có lập trình phần mềm Matlab hỗ trợ cho việc tính tốn số liệu cụ thể Chương 3: Ví dụ áp dụng Sử dụng thuật tốn đư ợc trình bày chương 2, áp dụng vào liệu thực tế “Điểm thi môn xác suất thống kê sinh viên trường đại học Moncton – Canada năm 2008” Chương KHOẢNG CÁCH 1.1 GIỚI THIỆU Bài tốn phân tích chùm thực dựa vào việc đánh giá mức độ “gần” hay “xa” phần tử mà chúng xác định qua đại lượng khoảng cách Ta nói việc giải tốn phân tích chùm việc giải tốn khoảng cách Có nhiều định nghĩa khoảng cách hai phần tử rời rạc khoảng cách hai chùm liệu Nhiều tác giả bàn luận việc chọn khoảng khoảng cách tối ưu, khẳng định cuối chọn khoảng cách tốt Bởi việc chọn khoảng cách thích hợp để đánh giá mức độ gần xa phụ thuộc vào kinh nghiệm, liệu xem xét, tốc độ tính tốn, Luận văn giải chùm phần tử rời rạc, chương chúng tơi tổng kết loại khoảng cách phần tử rời rạc Cấu trúc chương sau: Trong phần từ định nghĩa tổng quát hai phần tử nêu khoảng cách thơng dụng Phần trình bày loại định nghĩa khoảng cách chùm phần tử rời rạc Phần cuối trình bày liệu định tính loại khoảng cách khác chúng 1.2 KHOẢNG CÁCH CỦA HAI PHẦN TỬ 1.2.1 Định nghĩa Gọi d ( x, y ) khoảng cách hai phần tử x y Khoảng cách metric, nghĩa thỏa điều kiện sau với x , y z i) d ( x, y ) ≥ ii) d ( x, x) = iii) d ( x, y ) = d ( y, x) iv) d ( x, y ) + d ( y, z ) ≥ d ( x, z ) 35 Từ hình thấy nhóm 1, tách rời nhóm khác, riêng nhóm 2, 5, 6, có phần tử thuộc vùng chung Giá trị trung bình lần thi sinh viên nhóm cho bảng sau: Nhóm Nhóm Nhóm Nhóm Nhóm Nhóm Nhóm X Y X Y X Y X Y X Y X Y X Y 55.65 60.115 80.6 80.3 67.2 55.6 86.8 63.5 64.8 76.8 74.0 71.4 85.1 85 3.2 PHƯƠNG PHÁP THỨ BẬC 3.2.1 Khoảng cách i) Sử dụng khoảng cách Euclide hai phần tử khoảng cách hai chùm Theo thuật tốn q trình tính tốn theo bước sau: Bảng 3.2 Các bước tính tốn khoảng cách Bước 0: f1 f2 f3 f4 f5 f6 f1 f2 32.093 f3 12.401 28.101 f4 31.333 17.908 21.132 f5 19.029 16.183 21.335 25.708 f6 21.542 11.080 17.201 15.042 10.668 f7 38.556 6.507 34.420 21.567 21.894 17.555 f(27) f1 f3 f4 Bước 1: f5 f(27) f1 32.093 f3 28.101 12.401 f4 17.908 31.333 21.132 f5 16.183 19.029 21.335 25.708 f6 11.080 21.542 17.201 15.042 10.668 Bước 2: f6 f7 36 f(27) f(56) f1 f3 f(27) f(56) 11.080 f1 32.093 19.029 f3 28.107 17.201 12.401 f4 17.908 15.042 31.333 21.132 f(2756) f1 f3 f4 f4 Bước 3: f(2756) f1 19.029 f3 17.201 12.401 f4 15.042 31.333 21.132 f(2756) f(13) f4 Bước 4: f(2756) f(13) 17.201 f4 15.042 21.132 f(27564) f(13) Bước 5: f(27564) f(13) 17.201 Như ta có bước thực tốn phân tích chùm sau: Bước 0: f , f , f , f , f , f , f Bước 1: f (27) , f , f , f , f , f Bước 2: f (27) , f (56) , f , f , f Bước 3: f (2756), f , f , f Bước 4: f (2756) , f (13) , f Bước 5: f (27564) , f (13) Bước 6: f (1234567) 37 ii) Sử dụng phần mềm Matlab Khai báo biến syms x y z1 z2 z3 d1 d2 d3 Khai báo giá trị trung bình nhóm dạng ma trận x = [55.65 60.115;80.6 80.3;67.2 55.6;86.8 63.5;64.8 76.8;74 71.4;85.1 85] Sử dụng khoảng cách Euclide để tìm khoảng nhóm y=pdist(x,'euclide') Đưa dạng ma trận vng squareform(y) Kết khoảng cách chùm theo khoảng cách z1=linkage(y,'single') (3.1) Đồ thị d1=dendrogram(z1,'colorthreshold','default') set(d1,'linewidth',2) Cây phân loại cho hình 3.2 DO THI KHOANG CACH MIN Khoang cach giua cac chum 16 14 12 10 Nhom sinh vien Hình 3.2 Cây phân loại sử dụng khoảng cách Cây phân loại phù hợp với bước phân tích chùm i) 3.2.2 Khoảng cách max i) Sử dụng khoảng cách Euclide hai phần tử khoảng cách max hai chùm Theo thuật toán q trình tính tốn theo bước sau: 38 Bảng 3.3 Các bước tính tốn khoảng cách max Bước 0: f1 f2 f3 f4 f5 f6 f7 f1 f2 32.093 f3 12.401 28.101 f4 31.333 17.908 21.132 f5 19.029 16.183 21.335 25.708 f6 21.542 11.080 17.201 15.042 10.668 f7 38.556 6.507 34.420 21.567 21.894 17.555 f(27) f1 f3 f4 f5 f6 Bước 1: f(27) f1 38.556 f3 34.420 12.401 f4 21.567 31.333 21.132 f5 21.894 19.029 21.335 25.708 f6 17.555 21.542 17.201 15.042 10.668 f(27) f(56) f1 f3 f4 Bước 2: f(27) f(56) 21.894 f1 38.556 21.542 f3 34.420 21.335 12.401 f4 21.567 25.708 31.333 21.132 f(27) f(56) f(13) f4 Bước 3: f(27) f(56) 21.894 f(13) 38.556 21.542 0 0 39 f4 21.567 25.708 31.333 f(27) f(5613) f4 Bước 4: f(27) f(5613) 38.556 f4 21.567 31.333 f(274) f(5613) Bước 5: f(274) f(5613) 38.556 Như vậy, khoảng cách max tốn phân tích chùm thực qua bước sau: Bước 0: f , f , f , f , f , f , f Bước 1: f (27) , f , f , f , f , f Bước 2: f (27) , f (56) , f , f , f Bước 3: f (27) , f (56) , f (13) , f Bước 4: f (27) , f (5613) , f Bước 5: f (274) , f (5613) Bước 6: f (1234567) ii) Sử dụng Matlab thực bước 3.2.1.ii) thay z1 (3.1) thành z2 với z2=linkage(y,'complete') Lúc phân loại vẽ lệnh d2=dendrogram(z2,'colorthreshold','default') set(d2,'linewidth',2) Khi đó, phân loại cho hình 3.3 40 DO THI KHOANG CACH MAX 40 Khoang cach giua cac chum 35 30 25 20 15 10 Nhom sinh vien Hình 3.3 Cây phân loại sử dụng khoảng cách max 3.2.3 Khoảng cách trung bình i) Sử dụng khoảng cách Euclide hai phần tử khoảng cách trung bình hai chùm Theo thuật tốn q trình tính tốn theo bước sau: Bảng 3.4 Các bước tính tốn khoảng cách trung bình Bước 0: f1 f2 f3 f4 f5 f6 f7 f1 f2 32.093 f3 12.401 28.101 f4 31.333 17.908 21.132 f5 19.029 16.183 21.335 25.708 f6 21.542 11.080 17.201 15.042 10.668 f7 38.556 6.507 34.420 21.567 21.894 17.555 f(27) f1 f3 f4 f5 f6 Bước 1: f(27) 0 41 f1 38.556 f3 34.420 12.401 f4 21.567 31.333 21.132 f5 21.894 19.029 21.335 25.708 f6 17.555 21.542 17.201 15.042 10.668 f(27) f(56) f1 f3 f4 Bước 2: f(27) f(56) 16.678 f1 35.325 20.286 f3 31.261 19.268 12.401 f4 19.738 20.375 31.333 21.132 f(27) f(56) f(13) f4 Bước 3: f(27) f(56) 16.678 f(13) 33.293 19.777 f4 19.738 20.375 26.233 f(2756) f(13) f4 Bước 4: f(2756) f(13) 26.535 f4 20.056 26.233 f(27564) f(13) Bước 5: f(27564) f(13) 26.474 0 0 42 Như vậy, khoảng cách trung bình tốn phân tích chùm thực qua bước sau: Bước 0: f , f , f , f , f , f , f Bước 1: f (27) , f , f , f , f , f Bước 2: f (27) , f (56) , f , f , f Bước 3: f (27) , f (56) , f (13) , f Bước 4: f (2756) , f (13) , f Bước 5: f (27564) , f (13) Bước 6: f (1234567) ii) Sử dụng Matlab thực bước 3.2.1.ii) thay z1 (3.1) thành z3 với z3=linkage(y,'average') Lúc phân loại vẽ lệnh d3=dendrogram(z3,'colorthreshold','default') set(d3,'linewidth',2) Khi đó, phân loại cho hình 3.4 DO THI KHOANG CACH TRUNG BINH 26 24 Khoang cach giua cac chum 22 20 18 16 14 12 10 Nhom sinh vien Hình 3.4 Cây phân loại sử dụng khoảng cách trung bình 3.2.4 Khoảng cách Ward 43 i) Với khoảng cách Ward hai chùm, áp dụng thuật tốn q trình tính toán kết qua bước sau: Giải Bước 0: f , f , f , f , f , f , f Bước 1: f (27) , f , f , f , f , f Bước 2: f (27) , f (56) , f , f , f Bước 3: f (27) , f (56) , f (13) , f Bước 4: f (2756) , f (13) , f Bước 5: f (27564) , f (13) Bước 6: f (1234567) ii) Sử dụng Matlab thực bước 3.2.1.ii) thay z1 (3.1) thành z với z=linkage(y,'ward') Lúc phân loại vẽ lệnh d=dendrogram(z,'colorthreshold','default') set(d,'linewidth',2) Khi đó, phân loại cho hình 3.5 DO THI PHUONG PHAP WARD 40 Khoang cach giua cac chum 35 30 25 20 15 10 Nhom sinh vien Hình 3.5 Cây phân loại sử dụng phương pháp Ward 44 Nhận xét: Cùng với số liệu ban đầu với phương pháp thứ bậc, với loại khoảng cách khác bước thành lập phân loại giống khác Cụ thể ta có Bước 1: Cả khoảng cách có kết giống Bước 2: Cả khoảng cách có kết giống Bước 3: Kết khoảng cách khác với kết khoảng cách lại Bước 4: Kết khoảng cách max khác với kết khoảng cách lại Bước 5: Kết khoảng cách max khác với kết khoảng cách cịn lại 3.3 PHƯƠNG PHÁP KHƠNG THỨ BẬC 3.3.1 Phương pháp ba trung bình Giả sử cần chia nhóm sinh viên thành chùm phương pháp 3trung bình Lúc đầu, ta chia thành chùm cách ngẫu nhiên { f1 , f } , { f3, f } { f , f5 , f7 } Ta có Chùm Tọa độ trọng tâm X Y f (16) 64.825 65.758 f (34) 77.00 59.55 f (257) 76.833 80.70 1) d ( f1 , { f , f5 , f } ) = 29.537 , d ( f1 , { f1 , f } ) = 10.771 , d ( f1 , { f3 , f } ) = 21.357 Bởi d ( f1 , { f1 , f } ) nhỏ nên N (1) = { f , f5 , f } , { f1 , f } , { f3 , f } (không thay đổi so với bước trước) 2) d ( f ,{ f , f5 , f } ) = 3.788 , d ( f ,{ f1 , f } ) = 21.455 , d ( f ,{ f3 , f } ) = 21.060 Bởi d ( f ,{ f , f5 , f } ) nhỏ nên N (2) = { f , f5 , f } ,{ f1 , f } ,{ f3 , f } (không thay đổi so với bước trước) 3) d ( f3 ,{ f , f5 , f } ) = 26.885 , d ( f3 , { f1 , f } ) = 10.432 , d ( f3 , { f3 , f } ) = 10.566 45 Bởi d ( f3 ,{ f1 , f } ) nhỏ nên N (3) = { f , f5 , f } ,{ f1 , f3 , f } ,{ f } (có thay đổi so với bước trước) Lúc ta tính lại tọa độ trọng tâm, cụ thể sau: Tọa độ trọng tâm Chùm X Y f (136) 65.617 62.372 f (4) 86.80 63.50 f (257) 76.833 80.70 4) d ( f ,{ f , f5 , f } ) = 19.879 , d ( f , { f1 , f3 , f } ) = 21.213 , d ( f ,{ f } ) = Bởi d ( f ,{ f } ) nhỏ nên N (4) = { f , f5 , f } , { f1 , f3 , f } , { f } (không thay đổi so với bước trước) 5) d ( f5 , { f , f5 , f } ) = 12.649 , d ( f5 ,{ f1 , f3 , f } ) = 14.451 , d ( f5 ,{ f }) = 25.708 Bởi d ( f5 ,{ f , f5 , f } ) nhỏ nên N (5) = { f , f5 , f } ,{ f1 , f3 , f } ,{ f } (không thay đổi so với bước trước) 6) d ( f ,{ f , f5 , f } ) = 9.722 , d ( f , { f1 , f3 , f } ) = 12.320 , d ( f5 ,{ f }) = 25.708 Bởi d ( f ,{ f , f5 , f } ) nhỏ nên N (6) = { f , f5 , f , f } , { f1 , f3} , { f } (có thay đổi so với bước trước) 7) d ( f ,{ f , f5 , f , f } ) = 11.155 , d ( f ,{ f1 , f3} ) = 36.017 , d ( f ,{ f } ) = 21.567 Bởi d ( f ,{ f , f5 , f , f } ) nhỏ nên N (7) = { f , f5 , f , f } ,{ f1 , f3} ,{ f } (không thay đổi so với bước trước) Khi đó, kết nhận chùm { f , f5 , f , f } , { f1 , f3 } , { f } 3.3.2 Lập trình Matlab Khai báo giá trị trung bình nhóm sinh viên x = [55.65 60.115;80.6 80.3;67.2 55.6;86.8 63.5;64.8 76.8;74 71.4;85.1 85] Nhập vào số k chùm k=3 Tìm chùm z tọa độ trọng tâm c cho chùm [z c]=kmeans(x,k,'Distance','Euclide') 46 Kết z=2 1 c = 61.4250 57.857 76.1250 78.3750 86.8000 63.5000 Sau sử dụng khoảng cách Euclide để tìm khoảng cách chùm với phần tử cho for i=1:7 mi=m(i,:) for j=1:3 cj=c(j,:) kc=sqrt(sum((mi-cj).^2)) end end Kết q trình tính tốn sau: f1 f2 f3 f4 f5 f6 f7 f4 31.333 17.908 21.132 25.708 15.042 21.567 f(13) 6.200 29.518 6.201 25.995 19.240 18.480 36.017 f(2567) 27.435 4.871 24.461 18.309 11.434 7.292 11.155 Cluster 0.2 0.4 0.6 Silhouette Value 0.8 47 Hình 3.6 Minh họa cho chùm phương pháp K-trung bình Nhận xét: Kết phương pháp khơng thứ bậc bước phương pháp thứ bậc với khoảng cách min, khoảng cách trung bình khoảng cách Ward PHẦN KẾT LUẬN Luận văn tổng kết cách có hệ thống đầy đủ khoảng cách phần tử rời rạc chùm d ữ liệu rời rạc Dựa tiêu chuẩn khoảng cách, hai phương pháp xây dựng chùm với thuật tốn cụ thể trình bày rõ ràng: Phương pháp thứ bậc phương pháp khơng thứ bậc Nhiều ví dụ cụ thể với tiêu chuẩn khoảng cách khác lấy để minh họa cho thuật tốn nêu M ột ví dụ liệu thực điểm thi môn xác suất nhóm sinh viên trường đại học Moncton-Canada sử dụng để xây dựng chùm phương pháp Trong phương pháp thứ bậc tiêu chuẩn khoảng 48 cách min, max, trung bình, Ward đư ợc sử dụng; với phương pháp không thứ bậc khoảng cách Euclide sử dụng Việc tính tốn cụ thể minh họa kiểm chứng chương trình tơi viết phần mềm Matlab Tuy đạt kiến thức định, tơi nhận thấy phân tích chùm lĩnh vực nghiên cứu rộng lớn, nhiều triển vọng Do hạn chế tài liệu thời gian, nên tơi tìm hiểu số kỹ thuật điển hình phân tích chùm thử nghiệm số ứng dụng cụ thể Trong thời gian tới, tiếp tục nghiên cứu thêm số kỹ thuật phân tích chùm khơng cho liệu rời rạc mà cho hàm mật độ xác suất Đặc biệt áp dụng tốn phân tích chùm vào lĩnh vực cụ thể sống TÀI LIỆU THAM KHẢO - A Tiếng Việt [1] Phạm Thọ Hoàn, Bài tập lớn: Data mining-chuyên đề Clustering, trường ĐHSP Hà Nội, 2006 [2] GVPT TS Đỗ Phúc, Gom cụm (Clustering), ĐHQG TP Hồ Chí Minh, Trường ĐH CNTT, 2006 [3] Nguyễn Thị Hồng Thúy, Cơ sở Matlab, Geoengineering Community Forums, 3-10-2007 B Tiếng Anh 49 [4] Đinh Quang Huy, Đinh Mạnh Tường, Link-connected: A New Approach of Clustering Algorithm for Categorical Attributes, ĐHQG Hà Nội, Trường ĐHCN, 8-2005 [5] Jain & Dubes (1988), Kardi Teknom, PhD, Linkages between Objects, 2009 [6] Morgan Kaufmann , Data Mining:Conceps and Techniques, 2001 [7] Naresh C.Jain(1), Abhaya Indrayan(2), Lajpat R Goel(3), Monto Carlo Comparison of Six Hierarchical Clustering, 1-3-1985 (1) Cục Thống Kê, Bộ Kế Hoạch, New Delhi, Ấn Độ (2) Đại học y khoa, New Delhi, Ấn Độ (3) Đại học Meerut, Meerut, Ấn Độ [8] Tamela Serensits,Wan Ning, Haigue He, Jonathan Lui, Ph.D, Soft Gentics Application Note Genetic Analysis with GeneMarker, 1- 2008 [9] Tamela Serensits, Wan Ning, Haigus He, Janathan Lui, PhD, Clustering Algorithms for Genetic Analysis with Gene Marker, 1-2007 [10] Wendy L.Martinez, Angle.R.Martinez, Exploratory Data Analysis with Matlab, 2005 C Trang Web [11] http://en.wikipedia.org/wiki/cluster-analysis [12] http://people.revoledu.com/Kardi/tutorial/KMean/matlab-Kmeans.htm [13] http://www.dostor.com/does/2775536/Hierarchical-clustering-in-Matlab [14] http://www.chms.ucdavis.edu/reseach/web/pse/AEArticel 2006.pdf [15] http://www.plantbio.ohiou.edu/instruct/multivariate/Week7Lectures.PDF [16] http://www.docstoc.com/docs/25285698/Cluster-Analysis/ ... tính khoảng cách cho liệu kiểu nhị phân, liệu kiểu định giá, liệu kiểu thứ tự liệu kiểu hỗn hợp 1.4.1 Dữ liệu kiểu nhị phân Xét bảng liệu nhị phân sau Bảng 1.2 Dữ liệu kiểu nhị phân Đối tượng j Đối... trình phân nhóm tập liệu thành k chùm cho trước chùm không chứa chùm khác bên Đây khác biệt phân tích chùm theo thứ bậc không thứ bậc Các thuật tốn phân tích chùm khơng thứ bậc cho chùm rời thao... et al (2001) phân tích chùm phương pháp thống kê đa biến nhằm nhóm tập đối tượng lại thành chùm theo đặc điểm định trước Phân tích chùm xem mở rộng tốn phân loại phân biệt Phân tích chùm sử dụng