1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10

118 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 118
Dung lượng 3,71 MB

Nội dung

1 MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU LỜI CẢM ƠN MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 11 1.1 KHÁM PHÁ TRI THỨC 11 1.2 KHAI PHÁ DỮ LIỆU 13 1.3 PHÂN CỤM DỮ LIỆU 16 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 Học có giám sát học khơng có giám sát 16 Khái niệm phân cụm 16 Mục tiêu phân cụm 19 Các yêu cầu phân cụm 20 Các ứng dụng phân cụm 20 CHƯƠNG CÁC KỸ THUẬT PHÂN CỤM 22 2.1 CÁC KIỂU DỮ LIỆU 22 2.1.1 2.1.2 Phân loại kiểu liệu dựa kích thước miền 22 Phân kiểu liệu dựa hệ đo 23 2.2 CÁC PHÉP ĐO ĐỘ TƯƠNG TỰ VÀ KHOẢNG CÁCH ĐỐI VỚI CÁC KIỂU DỮ LIỆU 24 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.3 Khái niệm tương tự phi tương tư 24 Thuộc tính khoảng 25 Thuộc tính nhị phân 28 Thuộc tính định danh 29 Thuộc tính có thứ tự 29 Thuộc tính tỉ lệ 30 NHỮNG KỸ THUẬT TIẾP CẬN TRONG PHÂN CỤM DỮ LIỆU 31 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 Phương pháp phân cụm phân hoạch 31 Phương pháp phân cụm phân cấp 32 Phương pháp phân cụm dựa mật độ 33 Phương pháp phân cụm dựa lưới 34 Phương pháp phân cụm dựa mơ hình 35 Phương pháp phân cụm có liệu ràng buộc 35 CHƯƠNG CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 38 3.1 GIỚI THIỆU 38 3.2 CÁC THUẬT TOÁN PHÂN CỤM PHÂN HOẠCH 40 3.2.1 Thuật toán K-MEANS 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2.2 3.2.3 3.2.4 3.3 CÁC THUẬT TOÁN PHÂN CỤM PHÂN CẤP 52 3.3.1 3.3.2 3.3.3 3.3.4 3.4 Thuật toán DBSCAN 64 Thuật toán OPTICS 71 CÁC THUẬT TOÁN PHÂN CỤM DỰA TRÊN LƯỚI 72 3.5.1 3.5.2 3.5.3 3.6 Thuật toán BIRCH 52 Thuật toán CURE 56 Thuật toán AGNES & DIANA 61 Thuật toán CHAMELEON 62 CÁC THUẬT TOÁN PHÂN CỤM DỰA TRÊN MẬT ĐỘ 63 3.4.1 3.4.2 3.5 Thuật toán PAM 45 Thuật toán CLARA 49 Thuật toán CLARANS 51 Thuật toán STING 73 Thuật toán CLIQUE 76 Thuật toán WAVECLUSTER 79 CÁC THUẬT TOÁN PHÂN CỤM DỰA TRÊN MƠ HÌNH 81 3.6.1 3.6.2 Thuật toán EM 81 Thuật toán COBWEB 82 CHƯƠNG PHÂN CỤM DỮ LIỆU WEB 85 4.1 GIỚI THIỆU 85 4.2 PHÂN CỤM THEO NỘI DUNG WEB 86 4.2.1 4.2.2 4.3 PHÂN CỤM THEO CẤU TRÚC WEB 90 4.3.1 4.3.2 4.4 4.5 Các lựa chọn đặc trưng 86 Phép đo tương tự 87 Đặc điểm phép đo tương tự 90 Khám phá cộng đồng 92 PHÂN CỤM THEO SỬ DỤNG WEB 99 PHÂN CỤM THEO KẾT QUẢ TÌM KIẾM WEB 104 KẾT LUẬN 108 TÀI LIỆU THAM KHẢO 110 PHỤ LỤC 112 THỬ NGHIỆM PHÂN CỤM DỮ LIỆU VỚI K-MEANS 112 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH VẼ Hình 1.1 Quá trình Khám phá tri thức 11 Hình 1.2 Cách phân chia khác trình KPTT 13 Hình 1.3 Các kỹ thuật khai phá liệu 15 Hình 1.4 Quy trình phân cụm 17 Hình 1.5 Ví dụ phân cụm tập ảnh thành cụm 18 Hình 1.6 Các phần tử ngoại lai liệu 19 Hình 1.7 Tích hợp Clusters Oracle9i 21 Hình 2.1 Mối quan hệ tỷ lệ phép đo phân cụm 25 Hình 2.2 Ví dụ phép đo khoảng cách 27 Hình 2.3 Một số loại khoảng cách hai cụm 27 Hình 2.4 Các chiến lược phân cụm phân cấp 33 Hình 2.5 Cấu trúc liệu lưới 34 Hình 2.6 Một số cách phân chia cụm 36 Hình 3.1 Tổng quan phương pháp phân cụm 38 Hình 3.2 Các thuật tốn phân cụm liệu khơng ràng buộc 39 Hình 3.3 Các thuật tốn phân cụm liệu có ràng buộc 39 Hình 3.4 Xác định ranh giới cụm khởi tạo 41 Hình 3.5 Tính tốn trọng tâm cụm 42 Hình 3.6 Ví dụ thuật tốn K-MEANS với k=2 43 Hình 3.7 Một số dạng cụm khám phá k-means 45 Hình 3.8 Khởi tạo đối tượng medoid 45 Hình 3.9 Trường hợp Cjmp không âm 46 Hình 3.10 Trường hợp Cjmp âm dương 47 Hình 3.11 Trường hợp Cjmp=0 47 Hình 3.12 Trường hợp Cjmp âm 48 Hình 3.13 Thuật tốn Pam với k=2 49 Hình 3.14 Cây CF dùng thuật toán BIRCH 53 Hình 3.15 Giải thuật BIRCH 54 Hình 3.16 Ý tưởng thuật tốn phân cụm phân cấp 56 Hình 3.17 Các điểm liệu cụm CURE 57 Hình 3.18 Tổng quan thuật toán CURE 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 3.19 Phân hoạch phân cụm liệu 59 Hình 3.20 Co cụm điểm biểu diễn 59 Hình 3.21 Chương trình thực nghiệm thuật tốn CURE 60 Hình 3.22 Kết thực nghiệm CURE 60 Hình 3.23 Các thức thực AGNES & DIANA 61 Hình 3.24 Tổng quan thuật tốn CHAMELEON 62 Hình 3.25 Lân cận với ngưỡng ε điểm P 64 Hình 3.26 Mật độ liên lạc 65 Hình 3.27 Mật độ liên thơng 66 Hình 3.28 Cụm nhiễu 67 Hình 3.29 Một cụm khám phá DBSCAN 69 Hình 3.30 Chương trình thực nghiệm thuật tốn DBSCAN 70 Hình 3.31 Kết thực nghiệm DBSCAN 70 Hình 3.32 Thứ tự phân cụm đối tượng OPTICS 72 Hình 3.33 Cấu trúc lưới phân cụm 73 Hình 3.34 Các mức lưới khác trình truy vấn 74 Hình 3.35 Q trình nhận dạng CLIQUE 77 Hình 3.36 Chương trình thực nghiệm thuật tốn CLIQUE 78 Hình 3.37 Kết thực nghiệm CLIQUE 78 Hình 3.38 Thực nghiệm thuật tốn WAVECLUSTER 80 Hình 3.39 Kết thực nghiệm WAVECLUSTER 81 Hình 3.40 Phân phối xác suất thuật tốn EM 82 Hình 3.41 Quá trình nối hai nút 84 Hình 3.42 Quá trình tách nút 84 Hình 4.1 Phân chia liệu Web 85 Hình 4.2 Phân cụm liệu Web 86 Hình 4.3 Mơ hình vectơ khoảng cách 88 Hình 4.4 Ví dụ vectơ khoảng cách 89 Hình 4.5 Quan hệ hai trang web 91 Hình 4.6 Số đo độ tương tự hai trang web 91 Hình 4.7 Độ tương tự mục 91 Hình 4.8 Các cộng đồng máy tính 92 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 4.9 Cộng đồng web liên quan đến ca sỹ 93 Hình 4.10 Trung tâm Ủy quyền 94 Hình 4.11 Kết HITS 95 Hình 4.12 Đồ thị trù mật phân đôi trực tiếp 96 Hình 4.13 A(i=3,j=3) nhân phân đôi 97 Hình 4.14 Nguồn liệu tiềm 100 Hình 4.15 Phiên sử dụng Heristics 102 Hình 4.16 Hồn thành đường dẫn 102 Hình 4.17 Phân cum dựa theo truy cập người sử dụng 105 Hình 5.1 Chương trình mơ thuật tốn K-means 112 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BẢNG BIỂU Bảng 2.1 Bảng tham số 28 Bảng 4.1 Tỷ lệ từ sử dụng trang web 87 Bảng 4.2 Phân loại giá trị biểu thị trang Web 87 Bảng 4.3 Phân cụm chủ đề Salsa 99 Bảng 4.4 Mối liên kết chủ đề đường dẫn URL 107 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT CỤM TỪ TỪ TIẾNG ANH VIẾT TẮT Công nghệ thông tin Information Technology CNTT Cơ sở liệu Database CSDL Khai phá liệu Data Mining KPDL Khám phá tri thức Knowledge sở liệu Database Khám phá tri thức Knowledge Discovery KPTT Phân cụm liệu Data Clustering PCDL Discovery In KDD LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn sâu sắc đến cán hướng dẫn khoa học, PGS, TS Vũ Đức Thi, Phó Viện trưởng Viện Công nghệ thông tin, người hướng dẫn nghiên cứu lĩnh vực này, đồng thời thầy giáo thời gian học cao học trường ĐHCN-ĐHQGHN Tôi xin bày tỏ lịng biết ơn thầy giáo trường ĐHCN-ĐHQGHN cộng tác viên nhà trường tận tình giảng dạy cho tơi suốt thời gian học trường vừa qua Là cựu sinh viên từ khóa gắn bó với khoa Công nghệ thông tin trường ĐHCN, ĐHQGHN suốt thời kỳ học đại học, cao học, tự hào trường đào tạo tự tin với vốn kiến thức học tập từ thầy cô giáo trường Tôi hy vọng làm việc với nhà trường thời gian tới mong mỏi đến ngày lại có hội tiếp tục quay trở lại học tập rèn luyện mái trường Cuối cùng, cho phép gửi lời cảm ơn tới người thân gia đình, bạn bè, học viên lớp cao học K10T3, đồng nghiệp Bộ mơn Tốn - Tin học, Học viện Cảnh sát nhân dân, người khích lệ động viên nhiều thời gian qua Họ thực nguồn động lực lớn lao giúp tơi vượt lên cơng việc sống Học viên thực luận văn Cao Chính Nghĩa LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Trong năm gần đây, phát triển mạnh mẽ ngành CNTT làm cho khả thu thập lưu trữ liệu hệ thống thông tin tăng cách vũ bão Kho liệu, nguồn tri thức nhân loại trở nên vô tận làm để khai thác nguồn tri thức vấn đề nóng bỏng CNTT giới Vấn đề Khám phá tri thức Cơ sở liệu (Knowledge Discovery in Databases) nhiều nhà khoa học quan tâm nghiên cứu Khai phá liệu bước quan trọng trình khám phá tri thức KPDL có nhiều hướng tiếp cận, kỹ thuật KPDL liên quan đến nhiều ngành khoa học khác như: Hệ CSDL, thống kê, học máy, trực quan hoá,…Tuỳ vào cách tiếp cận cụ thể sử dụng, KPDL áp dụng số kỹ thuật khác mạng nơ ron, lý thuyết tập mờ, biểu diễn tri thức,… PCDL kỹ thuật KPDL phổ biến nhất, nằm nhóm kỹ thuật KPDL mơ tả, có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có Luận văn tập trung trình bày số vấn đề PCDL, cụ thể luận văn phân chia thành bốn chương lý thuyết, phần kết luận phần phụ lục chương trình mơ thuật toán phân cụm liệu Chương 1: Tổng quan phân cụm liệu, bao gồm số vấn đề khám phá tri thức, khai phá liệu tập trung trình bày số khái niệm phân cụm liệu lĩnh vực ứng dụng liên quan Chương 2: Các kỹ thuật phân cụm, có đề cập đến số kiến thức sở tảng cho phân cụm liệu kiểu liệu, phép đo khoảng cách đối tượng liệu, kỹ thuật tiếp cận phân cụm liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 Chương 3: Các thuật toán phân cụm liệu, tập trung trình bày số thuật tốn tiêu biểu phân cụm liệu phân chia theo kỹ thuật tiếp cận thuật toán phân cụm phân hoạch, thuật toán phân cụm phân cấp, thuật toán phân cụm dựa mật độ, thuật toán phân cụm dựa lưới, thuật toán phân cụm dựa mơ hình Chương 4: Trình bày tổng quát PCDL Web, lĩnh vực quan tâm thời điểm Qua trình bày vắn tắt kỹ thuật phân cụm Web như: Phân cụm theo nội dung, phân cụm theo cấu trúc, phân cụm theo sử dụng phân cụm theo kết tìm kiếm Kết luận: Tổng kết lại nội dung trình bày kết đạt luận văn Qua đề cập đến vấn đề chưa giải đề xuất hướng nghiên cứu Phụ lục: Trình bày chương trình mơ thuật tốn PCDL Kmeans, thuật toán phân cụm liệu phổ biến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 104 - 75% khách thường tải phần mềm từ /products/software/demos/ visit vào quãng từ đến 11 tối ngày cuối tuần 4.5 PHÂN CỤM THEO KẾT QUẢ TÌM KIẾM WEB Tìm kiếm theo nội dung web thường tổ chức thành nhóm, nhóm khác tương ứng với nhu cầu khác Ví dụ: Tại khơng có kỹ thuật tìm kiếm khác ? [8][16] v Sử dụng nội dung tài liệu - Tạo cụm dựa đoạn trích cơng cụ tìm kiếm web - Các cụm dựa đoạn trích hầu hết có chất lượng với cụm tạo từ nội dung đầy đủ web - Tiếp hậu tố phân cụm (STC-Suffix Tree Clustering) có độ phức tạp giải thuật đạt đến cỡ O(n) Cây có đặc điểm (tuyến tính, lớn dần, chồng chéo, mở rộng để phân cấp) Ø Thuật tốn STC Bước 1: Q trình làm - Bù vào phần khuyết thiếu câu - Xác định ranh giới câu - Loại bỏ dấu câu Bước 2: Cấu tạo tiếp hậu tố - Đưa cụm sở (những nút trong) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 105 - Những cụm sở tính điểm dựa cỡ (nó phụ thuộc vào độ dài chất lượng từ tìm kiếm) Bước 3: Nối lại cụm sở - Những cụm bị chồng chéo nối lại v Sử dụng truy cập người sử dụng - Thuận lợi: Sự phù hợp thông tin đối tượng phản hồi từ truy cập sử dụng - Một kết thí nghiệm cụ thể tham khảo www.nasa.gov/ hình 4.17 Hình 4.17 Phân cum dựa theo truy cập người sử dụng v Sử dụng siêu liên kết - Với đường dẫn URL P kết tìm kiếm R, mở rộng cho tất đường liên kết đỉnh n đường vào dịch vụ Alta Vista LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 106 - Chúng ta nhận N đường liên kết phân biệt M đường liên kết vào phân biệt cho tất URL R - Đối với trang P R (tập kết quả) biểu diễn vectơ + POut (N- chiều) + PIn (M- chiều) - Phép đo tương tự: Chúng ta chấp nhận phép đo cosine truyền thống để biết đường liên kết phổ biến (đường liên kết liên kết ngoài) chia sẻ trang P Q Cụ thể sau: + Tổng số liên kết liên kết của trang P tính bởi: + Tổng số liên kết liên kết của trang Q tính bởi: (POut—QOut) giá trị tích vectơ POut QOut biết đến liên kết trang web P Q nơi mà (PIn—QIn) biết đến liên kết web P Q ||P|| độ dài vectơ P - Ví dụ minh họa chủ đề URL cụm với chủ đề bảng 4.4 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 107 Bảng 4.4 Mối liên kết chủ đề đường dẫn URL Tóm lại, PCDL Web lĩnh vực quan tâm có phạm vi ứng dụng rộng rãi Những nội dung đề cập phần mang tính chất tóm lược, khái qt hố để mở Đối với phần, sâu nghiên cứu phát triển thêm để sở xây dựng ứng dụng cho lớp liệu web, lĩnh vực phát triển phổ biến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 108 KẾT LUẬN Các vấn đề tìm hiểu luận văn Luận văn tổng hợp nét KPDL sâu trình bày PCDL, kỹ thuật phổ biến KPDL Trong lĩnh vực PCDL, có số thành định Hiện nay, hệ thống CSDL ngày phát triển đa dạng, nhu cầu KPTT CSDL ngày lớn, việc nghiên cứu mơ hình liệu áp dụng phương pháp PCDL xu tất yếu, vừa có ý nghĩa khoa học thực tiễn Chương 1, luận văn trình bày nét tổng quan PCDL, bao gồm vấn đề khám phá tri thức, khai phá liệu phân cụm liệu Trên sở đó, chương tập trung sâu giới thiệu PCDL giải thích PCDL lại phương pháp KPDL phổ biến nhất, có nhiều ý nghĩa khoa học thực tiễn Luận văn có tóm lược lại kiến thức tảng PCDL kiểu liệu, phép đo sở tổng hợp lại số phương pháp tiếp cận PCDL Đây chủ đề trọng tâm nội dung luận văn Trên sở đó, chương tập trung giới thiệu tổng quát hóa thuật tốn PCDL, có số thuật tốn tảng phương pháp tiếp cận, số thuật toán mở rộng, cải tiến thuật toán sở để giải đa dạng liệu, xử lý vấn đề nhiễu ngoại lai Có chương trình thực nghiệm minh họa cho số thuật tốn phổ biến có tính ứng dụng cao Chương trình bày tóm lược phân cụm liệu Web, lĩnh vực quan tâm nhiều PCDL tính ứng dụng cao Chương trình bày nét PCDL Web, kỹ thuật tiếp cận PCDL Web LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 109 Phần phụ lục, trình bày chương trình thực nghiệm mơ thuật toán K-means, thuật toán sở tảng PCDL Tóm lại, PCDL lĩnh vực quan tâm nghiên cứu nhiều, có phạm vi ứng dụng rộng, liên quan đến nhiều ngành khoa học khác Trong trình làm luận văn, tác giả cố gắng nghiên cứu, sưu tầm, tập trung trình bày vấn đề cách tổng hợp trình độ thời gian có hạn, phạm vi trình bày lĩnh vực nghiên cứu rộng nên có vấn đề trình bày kỹ, vấn đề trình bày một cách sơ lược Do vậy, luận văn chắn có nhiều hạn chế thiếu sót, nhiều vấn đề để mở cho hướng nghiên cứu Tác giả mong nhận ý kiến đánh giá, đóng góp, bảo thầy giáo bạn bè Hướng nghiên cứu PCDL kỹ thuật nghiên cứu nhiều có ứng dụng rộng rãi Trong luận văn có trình bày số phương pháp, kỹ thuật áp dụng PCDL Với kiến thức sở đó, thời gian tới tơi tiếp tục tìm hiểu mơ hình liệu đặc thù, lựa chọn kỹ thuật PCDL phù hợp nhằm xây dựng ứng dụng thực tiễn Hướng nghiên cứu cụ thể sau: Tập trung nghiên cứu phát triển vấn đề để mở dựa kiến thức sở trình bày Xây dựng phát triển kỹ thuật phân cụm cho lớp liệu Web Kết hợp kỹ thuật phân cụm với kỹ thuật khác kỹ thuật mờ, mạng nơron để giải số ứng dụng thực tế LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 110 TÀI LIỆU THAM KHẢO Tiếng Việt Phan Đình Diệu (1999), Logic Trong Các Hệ Tri Thức, NXB ĐHQG Hà Nội, Hà Nội Đinh Mạnh Tường (2003), Trí Tuệ Nhân Tạo, NXB ĐHQG Hà Nội, Hà Nội Tiếng Anh K Jain and R C Dubes (1988), Algorithms for Clustering Data, Printice Hall D Fisher (1987), Knowledge acquisition via incremental conceptual clustering, Machine Learning D Gibson, J Kleinberg and P Raghavan (1998), Clustering categorical data: An approach based on dynamic systems, In Proc, VLDB’98 Douglass Cutting, David Karger, Jan Pedersen and John W Tukey (1992), Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen Ho Tu Bao (2000), Knowledge Discovery And Data Mining, Institute of Information HiTechnology, National Center for Natural Science and Technology O Zamir and O Etzioni (1999), Groupera dynamic clustering interface to web search results, In Proceedings of the Eighth International World Wide Web Conference, Toronto, Canada, M Steinbach, G J Srivastava et al (1999), Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data, SIGKDD Exploration 10 L Kaufman and P J Rousseeuw (1990), Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 111 11 M Ankerst, M Breunig, H.-P Kriegel and J Sander (1999), Optics: Ordering points to identify the clustering structure, SIGMOD’99 12 M Ester, H.-P Kriegel, J Sander and X Xu (1996), A density-based algorithm for discovering clusters in large spatial databases, KDD'96 13 M R Anderberg (1973), Cluster Analysis for Applications, Academic Press 14 P Arabie, L J Hubert and G De Soete (1996), Clustering and Classification, World Scietific 15 P Michaud (1997), Clustering techniques, Future Generation Computer systems 16 R Kosala and H Blockeel (2000), Web Mining Research: A Survey, SIGKDD Exploration 17 R Ng and J Han (1994), Efficient and effective clustering method for spatial data mining, VLDB'94 18 T Zhang, R Ramakrishnan and M Livny (1996), BIRCH : an efficient data clustering method for very large databases, SIGMOD'96 19 Y.S Maarek, R Fagin, I.Z Ben-Shaul, D Pelleg (2000), Ephemeral document clustering for web applications, Technical Report RJ 10186, IBM Research 20 Zhong Su, Qiang Yang, HongHiang Zhang, Xiaowei Xu and Yuhen Hu (2001), Correlation-based Document Clustering using Web Logs LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 112 PHỤ LỤC THỬ NGHIỆM PHÂN CỤM DỮ LIỆU VỚI K-MEANS Chương trình mơ thuật tốn K-Means viết ngôn ngữ Visual Basic, chạy môi trường Windows Chương trình mơ việc phân cụm thơng qua việc dịch chuyển trọng tâm cụm Mở đầu chương trình yêu cầu nhập số cụm kích chuột để nhập liệu cho cụm Trong trình nhập liệu, điểm liệu vừa nhập vào thuộc cụm dựa theo phép đo khoảng cách điểm với trọng tâm cụm Khi điểm sát nhập vào cụm để hình thành cụm trọng tâm cụm thay đổi theo cho phù hợp Giao diện chương trình hình 5.1 Hình 5.1 Chương trình mơ thuật tốn K-means LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 113 @ Mã nguồn chương trình viết cụ thể sau: Option Explicit '#################################################################' Chương trình mô thuật toán K-MEANS ' Khi người sử dụng nhập số lượng cụm kích chuột để khởi tạo cụm ban đầu ' Sau người sử dụng kích chuột để nhập điểm liệu thông qua tọa độ (X,Y) ' Chương trình tự động xác nhận điểm liệu thuộc cụm ' cách so sánh khoảng cách điểm vừa nhập với trọng tâm cụm ' cụm thành lập thông qua việc di chuyển trọng tâm cụm ' Giải thuật sử dụng thuộc loại học không giám sát mạng n¬ron '################################################################# Private Data() Private Centroid() As Single Private totalData As Integer Private numCluster As Integer Private Sub Form_Load() Dim i As Integer Picture1.BackColor = &HFFFFFF Picture1.DrawWidth = 10 Picture1.ScaleMode = lblExplanation.Caption = "Các cụm phân biệt màu sắc trọng tâm cụm!" numCluster = Int(txtNumCluster) ReDim Centroid(1 To 2, To numCluster) For i = To numCluster - If i > Then Load lblCentroid(i) lblCentroid(i).Caption = i + lblCentroid(i).Visible = False LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 114 Next i End Sub Private Sub cmdReset_Click() Dim i As Integer Picture1.Cls Erase Data totalData = For i = To numCluster - lblCentroid(i).Visible = False Next i txtNumCluster.Enabled = True End Sub Private Sub txtNumCluster_Change() Dim i As Integer For i = To numCluster - Unload lblCentroid(i) Next i numCluster = Int(txtNumCluster) ReDim Centroid(1 To 2, To numCluster) For i = To numCluster - If i > Then Load lblCentroid(i) lblCentroid(i).Caption = i + lblCentroid(i).Visible = False Next i End Sub Private Sub Picture1_MouseDown(Button As Integer, Shift As Integer, X As Single, Y As Single) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 115 Dim colorCluster As Integer Dim i As Integer txtNumCluster.Enabled = False totalData = totalData + ReDim Preserve Data(0 To 2, To totalData) Data(1, totalData) = X Data(2, totalData) = Y Call kMeanCluster(Data, numCluster) Picture1.Cls For i = To totalData colorCluster = Data(0, i) - If colorCluster = Then colorCluster = 12 X = Data(1, i) Y = Data(2, i) Picture1.PSet (X, Y), QBColor(colorCluster) Next i For i = To min2(numCluster, totalData) lblCentroid(i - 1).Left = Centroid(1, i) lblCentroid(i - 1).Top = Centroid(2, i) lblCentroid(i - 1).Visible = True Next i End Sub Private Sub Picture1_MouseMove(Button As Integer, Shift As Integer, X As Single, Y As Single) lblXYValue.Caption = X & "," & Y End Sub LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 116 '#################################################################' FUNCTIONS ' + kMeanCluster: ' + dist: Tính toán khoảng cách ' + min2: Trả lại giá trị nhỏ hai số '################################################################# Sub kMeanCluster(Data() As Variant, numCluster As Integer) Dim i As Integer Dim j As Integer Dim X As Single Dim Y As Single Dim As Single Dim cluster As Integer Dim d As Single Dim sumXY() Dim isStillMoving As Boolean isStillMoving = True If totalData

Ngày đăng: 05/12/2022, 16:00

HÌNH ẢNH LIÊN QUAN

BẢNG CÁC Kí HIỆU VÀ TỪ VIẾT TẮT - Luận văn thạc sĩ VNU UET một số vấn đề về phân cụm dữ liệu  luận văn ths  công nghệ thông tin 1 01 10
BẢNG CÁC Kí HIỆU VÀ TỪ VIẾT TẮT (Trang 7)
Bảng 2.1. Bảng tham số - Luận văn thạc sĩ VNU UET một số vấn đề về phân cụm dữ liệu  luận văn ths  công nghệ thông tin 1 01 10
Bảng 2.1. Bảng tham số (Trang 28)
Tỷ lệ cỏc từ sử dụng trong một trang web sử dụng thẻ HTML như bảng 4.1. [6][9][19]  - Luận văn thạc sĩ VNU UET một số vấn đề về phân cụm dữ liệu  luận văn ths  công nghệ thông tin 1 01 10
l ệ cỏc từ sử dụng trong một trang web sử dụng thẻ HTML như bảng 4.1. [6][9][19] (Trang 87)
Bảng 4.1. Tỷ lệ từ sử dụng trong một trang web - Luận văn thạc sĩ VNU UET một số vấn đề về phân cụm dữ liệu  luận văn ths  công nghệ thông tin 1 01 10
Bảng 4.1. Tỷ lệ từ sử dụng trong một trang web (Trang 87)
Bảng 4.3. Phõn cụm của chủ đề Salsa - Luận văn thạc sĩ VNU UET một số vấn đề về phân cụm dữ liệu  luận văn ths  công nghệ thông tin 1 01 10
Bảng 4.3. Phõn cụm của chủ đề Salsa (Trang 99)
Bảng 4.4. Mối liờn kết giữa chủ đề và đường dẫn URL - Luận văn thạc sĩ VNU UET một số vấn đề về phân cụm dữ liệu  luận văn ths  công nghệ thông tin 1 01 10
Bảng 4.4. Mối liờn kết giữa chủ đề và đường dẫn URL (Trang 107)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN