Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 119 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
119
Dung lượng
1,3 MB
Nội dung
Header Page of 16 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU VÀ CÀI ĐẶT MỘT SỐ GIẢI THUẬT PHÂN CỤM, PHÂN LỚP VŨ LAN PHƯƠNG HÀ NỘI 2006 Footer Page of 16 Header Page of 16 -1MỤC LỤC MỞ ĐẦU MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG DANH MỤC BẢNG DANH MỤC HÌNH CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung 1.2 Các kỹ thuật khai phá liệu 10 1.3 Lợi khai phá liệu so với phương pháp khác 13 1.4 Các ứng dụng KDD thách thức KDD 15 1.5 Kết luận 17 CHƯƠNG 2: KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮ LIỆU 18 2.1 Phân loại gì? 18 2.2 Các vấn đề quan tâm phân loại 20 2.3 Phân loại định quy nạp 22 2.4 Phân loại Bayesian 30 2.5 Phân loại lan truyền ngược 37 2.6 Phân loại dựa kết hợp 48 2.7 Các phương pháp phân loại khác 50 2.8 Độ xác classifier 56 2.9 Kết luận 59 CHƯƠNG 3: KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 60 3.1 Phân cụm 60 3.2 Các kiểu liệu phép phân cụm 64 3.3 Phân loại phương pháp phân cụm 74 3.4 Các phương pháp phân chia 77 3.5 Các phương pháp phân cấp 84 3.6 Các phương pháp phân cụm dựa mật độ 94 3.7 Các phương pháp phân cụm dựa lưới 101 3.8 Kết luận 107 CHƯƠNG 4: CÀI ĐẶT THỬ NGHIỆM 108 4.1 Thiết kế tổng thể 108 4.2 Chuẩn bị liệu 108 4.3 Thiết kế chương trình 109 4.4 Kết thực nghiệm đánh giá 110 4.5 Kết luận 114 KẾT LUẬN 116 TÀI LIỆU THAM KHẢO 118 Footer Page of 16 -2- Header Page of 16 LỜI CẢM ƠN Trước tiên em xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn Ngọc Bình tận tình hướng dẫn, bảo em thời gian qua Em xin bày tỏ lòng biết ơn tới thầy cô giáo khoa Công nghệ Thông tin nói riêng trường Đại học Bách Khoa Hà Nội nói chung dạy bảo, cung cấp kiến thức quý báu cho em suốt trình học tập nghiên cứu trường Em xin gửi lời cảm ơn tới gia đình, bạn bè, người cổ vũ, quan tâm giúp đỡ em suốt thời gian học tập làm luận văn Do thời gian kiến thức có hạn nên luận văn không tránh khỏi thiếu sót định Em mong nhận góp ý quý báu thầy cô bạn Hà Nội, 11-2006 Vũ Lan Phương Footer Page of 16 Header Page of 16 -3MỞ ĐẦU • Giới thiệu Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số lại họ phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Bước quan trọng trình Khai phá liệu (Data Mining - DM), giúp người sử dụng thu tri thức hữu ích từ CSDL nguồn liệu khổng lồ khác Rất nhiều doanh nghiệp tổ chức giới ứng dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Nhưng để làm điều đó, phát triển mô hình toán học giải thuật hiệu chìa khoá quan trọng Vì vậy, luận văn này, tác giả đề cập tới hai kỹ Footer Page of 16 Header Page of 16 -4- thuật thường dùng Khai phá liệu, Phân loại (Classification) Phân cụm (Clustering hay Cluster Analyse) • Bố cục luận văn Ngoài phần Mở đầu, Mục lục, Danh mục hình, Danh mục bảng, Kết luận, Tài liệu tham khảo, luận văn chia làm phần: Phần I: Tổng quan Phát tri thức Khai phá liệu Phần giới thiệu cách tổng quát trình phát tri thức nói chung khai phá liệu nói riêng Đặc biệt nhấn mạnh hai kỹ thuật nghiên cứu luận văn Kỹ thuật phân loại Kỹ thuật phân cụm Phần II: Kỹ thuật phân loại (Classification) Trong phần này, kỹ thuật phân loại giới thiệu cách chi tiết Có nhiều kiểu phân loại phân loại định quy nạp, phân loại Bayesian, phân loại mạng lan truyền ngược, phân loại dựa kết hợp phương pháp phân loại khác Ngoài đánh giá độ xác phân loại thông qua classifier - người phân loại Phần III: Kỹ thuật phân cụm (Clustering) Kỹ thuật phân cụm chia làm nhiều kiểu: phân cụm phân chia, phân cụm phân cấp, phân cụm dựa mật độ phân cụm dựa lưới Phần IV: Cài đặt thử nghiệm Phần trình bày số kết đạt tiến hành áp dụng giải thuật khai phá liệu để khai thác thông tin liệu mẫu Footer Page of 16 -5- Header Page of 16 MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG KDD Phát tri thức DM Khai phá liệu Classification Phân loại Clustering Phân cụm CSDL Cơ sở liệu Footer Page of 16 Header Page of 16 -6- DANH MỤC BẢNG Bảng 2.1: Các liệu huấn luyện từ sở liệu khách hàng AllElectronics .25 Bảng 2.2: Dữ liệu mẫu cho lớp mua máy tính .30 Bảng 2.3: Các giá trị đầu vào, trọng số bias khởi đầu 45 Bảng 2.4: Các tính toán mạng đầu vào đầu 45 Bảng 2.5: Tính toán sai số nút 45 Bảng 2.6: Tính toán việc cập nhật trọng số bias .45 Bảng 3.1: Bảng ngẫu nhiên cho biến nhị phân .69 Bảng 3.2: Bảng quan hệ chứa hầu hết thuộc tính nhị phân 70 Bảng 4.1: Một ví dụ tệp định dạng liệu *.names 109 Bảng 4.2: Một ví dụ tệp liệu *.data 109 Bảng 4.3: Kết thí nghiệm phân lớp .111 Bảng 4.4: Kết cải thiện chất lượng phân lớp 112 Bảng 4.5: Kết thí nghiệm phân loại Kmeans Kmedoids 113 Bảng 4.6: Kết thí nghiệm phân loại Kmedoids See5 113 Footer Page of 16 Header Page of 16 -7DANH MỤC HÌNH Hình 1.1: Quá trình phát tri thức .9 Hình 1.2: Tập liệu với lớp: có khả trả nợ .11 Hình 1.3: Phân loại học mạng nơron cho tập liệu cho vay 12 Hình 1.4: Phân cụm tập liệu cho vay vào cụm 13 Hình 2.1: Xử lý phân loại liệu 19 Hình 2.2: Cây định cho khái niệm mua máy tính 22 Hình 2.3: Giải thuật ID3 cho định 23 Hình 2.4: Thuộc tính tuổi có thông tin thu cao 26 Hình 2.5: Các cấu trúc liệu danh sách thuộc tính danh sách lớp dùng SLIQ cho liệu mẫu bảng 2.2 30 Hình 2.6: a) Mạng belief Bayesian đơn giản, b) Bảng xác suất có điều kiện cho giá trị biến LungCancer (LC) 35 Hình 2.7: Một mạng nơron truyền thẳng đa mức 38 Hình 2.8: Giải thuật lan truyền ngược 41 Hình 2.9: Một unit lớp ẩn hay lớp đầu 42 Hình 2.10: Ví dụ mạng nơron truyền thẳng đa mức 45 Hình 2.11: Các luật trích từ mạng nơron huấn luyện 48 Hình 2.12: Một xấp xỉ tập thô tập mẫu thuộc lớp C .54 Hình 2.13: Các giá trị mờ thu nhập 55 Hình 2.14: Đánh giá độ xác classifier với phương pháp holdout 56 Hình 2.15: Tăng độ xác classifier 58 Hình 3.1: Giải thuật k-means .79 Hình 3.2: Phân cụm tập điểm dựa phương pháp k-means 79 Hình 3.3: Giải thuật k-medoids 82 Hình 3.4: Phân cụm tập điểm dựa phương pháp k-medoids 82 Hình 3.5: Phân cụm tập điểm dựa phương pháp "Tích đống lồng" 86 Hình 3.6: Phân cụm tập điểm CURE 91 Hình 3.7: CHAMELEON: Phân cụm phân cấp dựa k-láng giềng gần mô hình hoá động 93 Hình 3.8: Mật độ tiến mật độ liên kết phân cụm dựa mật độ 95 Hình 3.9: Sắp xếp cụm OPTICS 98 Hình 3.10: Hàm mật độ attractor mật độ 99 Hình 3.11: Các cụm định nghĩa trung tâm cụm có hình dạng tuỳ ý .100 Hình 3.12: Một cấu trúc phân cấp phân cụm STING .101 Hình 3.13: Giải thuật phân cụm dựa wavelet .105 Hình 3.14: Một mẫu không gian đặc trưng chiều 105 Hình 3.15: Đa phân giải không gian đặc trưng hình 3.14 a) tỷ lệ 1; b) tỷ lệ 2; c) tỷ lệ .106 Hình 4.1: Thiết kế chương trình 110 Hình 4.2: Biểu đồ so sánh Kmeans Kmedoids toán phân lớp với K=10 111 Hình 4.3: Biểu đồ so sánh Kmeans Kmedoids toán phân loại 113 Hình 4.4: Biểu đồ so sánh Kmedoids See5 toán phân loại .114 Footer Page of 16 Header Page of 16 -8- CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung Trong năm gần đây, phát triển mạnh mẽ CNTT ngành công nghiệp phần cứng làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách chóng mặt Bên cạnh việc tin học hoá cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu CSDL sử dụng hoạt động sản xuất, kinh doanh, quản lí , có nhiều CSDL cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kĩ thuật khai phá liệu trở thành lĩnh vực thời CNTT giới 1.1.1 Khái niệm khai phá liệu Khai phá liệu (Data Mining) khái niệm đời vào năm cuối thập kỷ 1980 Nó trình trích xuất thông tin có giá trị tiềm ẩn bên lượng lớn liệu lưu trữ CSDL, kho liệu Hiện nay, thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL, trích lọc liệu, phân tích liệu/mẫu, khảo cổ liệu, nạo vét liệu Nhiều người coi Khai phá liệu thuật ngữ thông dụng khác Phát tri thức CSDL (Knowlegde Discovery in Databases - KDD) Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình Phát tri thức CSDL Có thể nói Data Mining giai đoạn quan trọng tiến trình Phát tri thức từ sở liệu, tri thức hỗ trợ việc định khoa học kinh doanh 1.1.2 Các bước trình phát tri thức Quá trình phát tri thức tiến hành qua giai đoạn hình 1.1: Footer Page of 16 -9- Header Page 10 of 16 Đánh giá luật Khai phá liệu Chuyển đổi liệu Làm sạch, tiền xử lý liệu Tri thức Mô hình Trích lọc liệu Gom liệu Internet, Dữ liệu đích Dữ liệu làm sạch, tiền xử lý Dữ liệu chuyển đổi Dữ liệu Hình 1.1: Quá trình phát tri thức Bắt đầu trình kho liệu thô kết thúc với tri thức chiết xuất Về lý thuyết đơn giản thực trình khó khăn gặp phải nhiều vướng mắc như: quản lý tập liệu, phải lặp lặp lại toàn trình, v.v (1) Gom liệu: Tập hợp liệu bước trình khai phá liệu Đây bước khai thác sở liệu, kho liệu chí liệu từ nguồn ứng dụng Web (2) Trích lọc liệu: Ở giai đoạn liệu lựa chọn phân chia theo số tiêu chuẩn phục vụ mục đích khai thác, ví dụ chọn tất người có tuổi đời từ 25 - 35 có trình độ đại học (3) Làm sạch, tiền xử lý chuẩn bị trước liệu: Giai đoạn thứ ba giai đoạn hay bị lãng, thực tế bước quan trọng trình khai phá liệu Một số lỗi thường mắc phải gom liệu tính không đủ chặt chẽ, logíc Vì vậy, liệu thường chứa giá trị vô nghĩa khả kết nối liệu Ví dụ: tuổi = 673 Giai đoạn tiến hành xử lý dạng liệu không chặt chẽ nói Những liệu dạng xem thông tin dư thừa, giá trị Bởi vậy, trình Footer Page 10 of 16 Header Page 105 of 16 -104- đặc trưng Cho đối tượng với n thuộc tính số, vectơ đặc trưng điểm không gian đặc trưng n chiều Phép biến đổi wavelet kỹ thuật xử lý tín hiệu, phân tích tín hiệu vào dải tần số Mô hình wavelet làm việc tín hiệu n chiều cách áp dụng phép biến đổi chiều n lần Trong phép biến đổi wavelet, liệu không gian chuyển đổi vào miền tần số Kết hợp với hàm nòng cốt thích hợp cho kết không gian biến đổi, cụm tự nhiên liệu trở nên dễ phân biệt Các cụm sau nhận biết cách tìm miền đông đúc vùng biến đổi Phép biến đổi wavelet cung cấp đặc trưng thú vị sau: Trước tiên cung cấp phân cụm không giám sát Các lọc dạng nón làm bật miền mà điểm phân cụm, đồng thời có khuynh hướng ngăn chặn thông tin yếu đường bao chúng Do vậy, miền đông đúc không gian đặc trưng gốc đóng vai trò miền thu hút (attractor) điểm gần miền hạn chế (inhibitor) điểm không đủ gần Điều nghĩa cụm liệu tự động bật lên làm miền xung quanh chúng Thứ hai, lọc thông thấp dùng phép biến đổi wavelet tự động loại bỏ outlier Hơn nữa, đặc tính đa phân giải phép biến đổi wavelet giúp dò cụm độ xác khác Cuối cùng, ứng dụng phép biến đổi wavelet nhanh việc xử lý thực song song Giải thuật phân cụm dựa wavelet phác thảo sau: Giải thuật 3.7.1: Giải thuật phân cụm dựa wavelet phân cụm đa phân giải phép biến đổi wavelet Đầu vào: Các vectơ đặc trưng đối tượng liệu đa chiều Đầu ra: Các đối tượng phân cụm Giải thuật: 1) Lượng tử hoá không gian đặc trưng, sau phân đối tượng vào Footer Page 105 of 16 -105- Header Page 106 of 16 unit; 2) Áp dụng phép biến đổi wavelet không gian đặc trưng; 3) Tìm phần hợp thành kết nối (các cụm) dải không gian đặc trưng biến đổi mức khác nhau; 4) Gắn nhãn vào unit; 5) Làm bảng tra cứu ánh xạ đối tượng vào cụm Hình 3.13: Giải thuật phân cụm dựa wavelet Độ phức tạp tính toán giải thuật O(N) với N số đối tượng sở liệu Hình 3.14: Một mẫu không gian đặc trưng chiều Ví dụ: Hình 3.14 (lấy từ Sheikholeslami, Chatterjee Zhang (1998)) cho thấy mẫu không gian đặc trưng chiều, đó, điểm ảnh đại diện cho giá trị đặc trưng đối tượng tập liệu không gian Hình 3.15 (lấy từ Sheikholeslami, Chatterjee Zhang (1998)) cho thấy kết phép biến đổi wavelet tỷ lệ khác nhau, từ mịn (tỷ lệ 1) thô (tỷ lệ 3) Tại mức, dải LL (bình thường) cung phần tư phía bên trái, dải LH (các cạnh nằm ngang) cung phần tư phía bên phải dải HL (các cạnh nằm dọc) cung phần tư phía bên trái dải HH (các góc) cung phần tư phía bên phải WaveCluster giải thuật dựa mật độ lưới WaveCluster thích hợp với tất yêu cầu giải thuật phân cụm tốt: xử lý tập liệu lớn cách hiệu quả, tìm cụm với hình dạng tuỳ ý, thành công việc xử lý outlier, không nhạy cảm trật tự đầu vào So với Footer Page 106 of 16 Header Page 107 of 16 -106- BIRCH, CLARANS DBSCAN, WaveCluster làm tốt phương pháp hiệu suất chất lượng phân cụm Hình 3.15: Đa phân giải không gian đặc trưng hình 3.14 a) tỷ lệ 1; b) tỷ lệ 2; c) tỷ lệ 3.7.3 CLIQUE: Phân cụm không gian số chiều cao Một giải thuật phân cụm khác, CLIQUE, Agrawal et al (1998), tích hợp phương pháp phân cụm dựa lưới mật độ theo cách khác Nó hữu ích cho phân cụm liệu với số chiều cao sở liệu lớn Cho trước tập lớn điểm liệu đa chiều, điểm liệu thường nằm không đồng không gian liệu Phân cụm liệu nhận biết vị trí thưa thớt hay đông đúc, tìm toàn mẫu phân bố tập liệu Một unit dày đặc phần nhỏ điểm liệu chứa unit vượt tham số mô hình đầu vào Một cụm tập lớn unit dày đặc có kết nối CLIQUE phân chia không gian liệu m chiều thành unit hình chữ nhật không chồng lên nhau, nhận biết unit dày đặc, tìm cụm toàn không gian không gian liệu gốc, sử dụng phương pháp phát sinh candidate (ứng cử) giống với giải thuật Apriori cho khai phá luật kết hợp CLIQUE thực phân cụm đa chiều theo hai bước: Trước tiên, CLIQUE nhận biết cụm cách xác định unit dày đặc toàn không gian interest sau xác định unit dày đặc có kết nối toàn không gian interest Footer Page 107 of 16 Header Page 108 of 16 -107- Một heuristic quan trọng mà CLIQUE thông qua nguyên lý Apriori phân cụm số chiều cao: Nếu unit k chiều dày đặc hình chiếu (project) không gian (k-1) chiều Đó unit thứ (k-1) dày đặc, unit thứ k tương ứng unit ứng cử dày đặc (candidate dense) Bởi vậy, tất unit dày đặc k chiều ứng cử sinh từ unit dày đặc (k-1) chiều Thứ hai, CLIQUE sinh mô tả tối thiểu cho cụm sau: Trước tiên xác định miền tối đa phủ cụm unit dày đặc có kết nối cho cụm sau xác định phủ tối thiểu cho cụm CLIQUE tự động tìm không gian số chiều cao để cụm mật độ cao tồn không gian Nó không nhạy cảm với trật tự ghi đầu vào không đoán phân bố liệu tiêu chuẩn Nó tỷ lệ tuyến tính với kích thước đầu vào có khả mở rộng tốt số chiều liệu tăng lên Tuy nhiên, độ xác kết phân cụm bị suy giảm phụ phí tính đơn giản phương pháp 3.8 Kết luận Chương đề cập tới phương pháp phân cụm truyền thống cải tiến phương pháp phân cụm truyền thống Ngoài chương đề cập tới khái niệm độ không tương đồng (hay tương đồng) đối tượng Qua ta thấy khả phân cụm phương pháp, khả áp dụng vào toán thực tiễn Footer Page 108 of 16 -108- Header Page 109 of 16 CHƯƠNG 4: CÀI ĐẶT THỬ NGHIỆM Chương đưa kết cài đặt thử nghiệm giải thuật Kmeans Kmedoids liệu UCI đánh giá kết thực nghiệm 4.1 Thiết kế tổng thể Chương trình gồm khối chức sau: - Khối chức tiền xử lý - Khối chức phân cụm 4.1.1 Khối chức tiền xử lý Nhiệm vụ khối chức đọc liệu, xác định số mẫu, số thuộc tính, số lớp, giá trị thuộc tính mẫu liệu 4.1.2 Khối chức phân cụm Khối chức tiến hành phân cụm mẫu liệu Dữ liệu học không giám sát (unsupervised learning) theo hai giải thuật khác nhau: Kmeans Kmedoids Cuối gắn nhãn lớp cho cụm Sau gắn nhãn lớp cho cụm tiến hành xác định hiệu phân lớp, phân loại 4.2 Chuẩn bị liệu Dữ liệu đầu vào chương trình tệp văn chia thành hai loại: - Tệp định dạng liệu (*.names): Định nghĩa tên lớp, tên thuộc tính, giá trị thuộc tính, kiểu thuộc tính - Tệp mẫu liệu (*.data): Gồm mẫu liệu chứa đầy đủ thông tin giá trị thuộc tính giá trị lớp 4.2.1 Tệp định dạng liệu - Dòng 1: liệt kê giá trị lớp Các giá trị cách dấu phẩy "," kết thúc dấu chấm "." - Từ dòng 2: + Mỗi mẫu dòng Footer Page 109 of 16 -109- Header Page 110 of 16 + Bắt đầu tên thuộc tính, dấu ":", sau giá trị rời rạc thuộc tính (nếu thuộc tính xác thực hay nhị phân) kiểu thuộc tính (nếu thuộc tính có kiểu liên tục) - Tất phần thích đặt sau dấu "|" Bảng 4.1: Một ví dụ tệp định dạng liệu *.names 1, 2, 1: continuous 2: 1, 2, 3, |categorical 3: continuous 4: 0, |binary 4.2.2 Tệp mẫu liệu Mỗi mẫu dòng Các giá trị thuộc tính mẫu ghi trước, cuối giá trị lớp Mỗi giá trị cách dấu "," Bảng 4.2: Một ví dụ tệp liệu *.data 0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4 0,0,0,1,0,1,1,1,1,1,0,1,0,1,0,1,1 0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2 0,1,1,0,1,1,0,0,1,1,0,0,2,1,0,0,2 1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1 0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,1,2 4.2.3 Nguồn liệu Trong khuôn khổ luận văn, liệu lấy từ địa web site: - ftp://ftp.ics.uci.edu/pub/ 4.3 Thiết kế chương trình Với khối chức liệu trên, chương trình thiết kế sau: Footer Page 110 of 16 -110- Header Page 111 of 16 Tệp định dạng liệu Module GetData Tệp mẫu liệu Cải tiến phân lớp Hiển thị kết Các thông tin: - Số lớp, tên lớp - Số thuộc tính, tên thuộc tính, kiểu thuộc tính hay giá trị rời rạc thuộc tính - Số mẫu, giá trị thuộc tính tên lớp mẫu Module GetNames Phân lớp Các module phân cụm Kết phân lớp, phân loại Phân loại Hình 4.1: Thiết kế chương trình 4.4 Kết thực nghiệm đánh giá 4.4.1 Các bước tiến hành thực nghiệm - Phân cụm liệu giải thuật Kmeans Kmedoids - Gắn nhãn cho cụm, đánh giá, so sánh hiệu gắn nhãn hai giải thuật cho số liệu UCI (chỉ dùng liệu có thuộc tính liên tục) - Gắn nhãn cho cụm, đánh giá hiệu gắn nhãn cho liệu có thuộc tính hỗn hợp - Cải tiến hiệu phân lớp - So sánh chất lượng phân loại với chương trình See5 Chương trình See5 (phiên 2.03) công cụ sử dụng kỹ thuật định với giải thuật C5.0 dùng để phân loại liệu viết Ross Quinlan Tính hiệu chương trình nhiều người công nhận Vì thế, luận văn sử dụng làm công cụ để so sánh với kết phân loại thực Hạn chế See5 (phiên 2.03) dùng tối đa 400 mẫu liệu Footer Page 111 of 16 -111- Header Page 112 of 16 4.4.2 Thực nghiệm Dưới kết đạt được: 4.4.2.1 Bài toán phân lớp: thực với số lượng cụm K = 2, 4, 6,8,10, 16 (Kmeans: ma; Kmedoids: md) Bảng 4.3: Kết thí nghiệm phân lớp Tên DL Số mẫu Brea Haber Iris Pima Glass Wine Balan 500 306 150 768 214 178 625 Số mẫu phân lớp K=2 ma md 328 480 225 225 100 51 532 504 78 82 107 72 293 369 K=4 ma md 485 481 229 226 126 53 539 537 105 84 173 80 407 423 K=6 ma md 484 481 230 231 126 55 541 528 117 86 169 85 448 441 K=8 ma md 481 482 228 232 125 57 525 554 117 88 168 84 503 451 K=10 ma md 481 482 233 234 121 59 554 558 125 90 166 87 438 453 K=16 ma md 481 482 237 240 142 65 558 561 140 96 173 93 483 459 So sánh Kmeans Kmedoids Phần trăm phân lớp 120 100 80 Kmeans 60 Kmedoids 40 20 e ba la nc e wi n gl as s a pi m s iri br ea st ca nc el be rm an Các liệu Hình 4.2: Biểu đồ so sánh Kmeans Kmedoids toán phân lớp với K=10 Biểu đồ cho thấy với liệu kiểu liên tục khả phân lớp Kmedoids liệu UCI thường thấp so với Kmeans điểm đại diện Kmedoids điểm đối tượng gần tâm cụm, tâm cụm Footer Page 112 of 16 -112- Header Page 113 of 16 Kmeans giá trị trung bình phần tử cụm Nếu liệu nhiễu Kmeans cho kết hiệu Kmedoids, trường hợp ngược lại, nhiễu với giá trị cực lớn, bóp méo phân bố liệu dùng Kmeans, lúc dùng Kmeadoids hiệu Theo biểu đồ so sánh ta nhận thấy liệu nhiễu Tuy nhiên, phép đo độ tương đồng đối tượng Kmedoids dường chưa hiệu lắm, phần trăm phân lớp chưa cao Để cải thiện độ xác phân lớp, luận văn đưa phương pháp sau: Với mẫu bị phân lớp sai cụm, ta đưa vào cụm thích hợp (giả sử cụm A) thoả mãn điều kiện: + Khoảng cách từ tới cụm thời khoảng cách tới cụm A + Nhãn lớp cụm A giống nhãn lớp mẫu + Nếu thêm mẫu vào cụm A, tâm cụm không thay đổi (hoặc thay đổi khoảng cách epsilon đủ bé cho trước) Thực nghiệm cho thấy độ xác phân lớp tăng lên Ví dụ số liệu sau: (Cũ: C; Mới: M) Bảng 4.4: Kết cải thiện chất lượng phân lớp Tên DL C K=4 M C K=6 M C K=8 M C K=10 M C K=16 M C K=20 M C K=25 M Footer Page 113 of 16 Iris 53 54 55 57 57 61 59 65 65 77 69 85 74 95 Wine 80 89 85 85 84 86 87 90 93 102 97 110 102 120 Balance 423 447 441 459 451 475 453 477 459 483 463 487 468 492 Haberman 226 226 231 231 232 233 234 237 240 249 244 257 249 267 -113- Header Page 114 of 16 4.4.2.2 Bài toán phân loại Bảng 4.5: Kết thí nghiệm phân loại Kmeans Kmedoids Tên liệu Breastcancel Haberman Iris Pima Glass Soybean Wine Balance Số mẫu phân loại ma md 318 480 179 115 125 52 532 504 93 72 32 22 172 70 313 336 Số mẫu 500 306 150 768 214 47 178 625 Tỷ lệ phân loại (%) ma md 63.6 96 58.4967 50.6536 83.3333 34.6667 69.2708 65.625 43.4579 33.6449 68.0851 46.8085 96.6292 39.3258 50.08 53.76 So sánh Kmeans Kmedoids Phần trăm phân loại 120 100 80 Kmeans 60 Kmedoids 40 20 e ba la nc e wi n so yb ea n gl as s a s pi m iri br ea st ca nc el be rm an Các liệu Hình 4.3: Biểu đồ so sánh Kmeans Kmedoids toán phân loại Bảng 4.6: Kết thí nghiệm phân loại Kmedoids See5 Tên liệu Breastcancel Haberman Footer Page 114 of 16 Số mẫu 400 306 Số mẫu phân loại See5 md 391 344 236 115 Tỷ lệ phân loại (%) See5 md 97.75 86 77.12418 50.6536 -114- Header Page 115 of 16 Iris Pima Car Balance 150 400 298 400 106 307 289 336 52 262 202 238 83.3333 76.75 72.25 84 34.6667 65.5 67.7852 64.8501 So sánh Kmedoids See5 120 Phần trăm phân loại 100 80 60 40 20 Ba la nc e Ca r Pi m a s Iri Br ea st ca nc el Ha be rm an Kmedoids See5 Các liệu Hình 4.4: Biểu đồ so sánh Kmedoids See5 toán phân loại Theo biểu đồ ta nhận thấy hiệu phân loại See5 tốt có mô hình phân loại dạng thực hiệu quả, mô hình hạn chế nhánh phản ánh nhiễu nên chất lượng phân loại cao Còn Kmedoids xử lý liệu kiểu hỗn hợp chất lượng tính độ tương đồng đối tượng chưa cao nên khả phân loại See5 4.5 Kết luận Như vậy, sau tiến hành thực nghiệm số liệu UCI ta nhận thấy kết phân lớp, phân loại liệu có thuộc tính liên tục Kmeans tốt so với Kmedoids Với liệu có thuộc tính hỗn hợp, Kmeans không xử lý Kmedoids với phương pháp tính độ tương đồng hai mẫu Ducker (1965) đề xuất, Kaufman Rousseeuw cải tiến (1990) xử lý liệu với độ xác trung bình chi phí tính toán O(k(n-k)2) Footer Page 115 of 16 Header Page 116 of 16 -115- Đối với giá trị n k lớn, chi phí cao Vậy nên việc cải tiến độ xác tốc độ tính toán hướng phát triển sau Footer Page 116 of 16 -116- Header Page 117 of 16 KẾT LUẬN Luận văn tập trung nghiên cứu lý thuyết áp dụng số kỹ thuật khai phá liệu liệu UCI Đây bước khởi đầu trình tìm hiểu vấn đề cần quan tâm giải toán khai phá liệu thực tế Trong khuôn khổ luận văn chưa áp dụng cụ thể vào CSDL thực tế nào, dừng lại liệu UCI nên kết thực nghiệm chưa mang ý nghĩa thực tế Tuy nhiên có số kết ban đầu phát tri thức từ liệu Những kết mà luận văn thực hiện: + Về lý thuyết, luận văn tập trung tìm hiểu kỹ thuật phân loại, phân cụm truyền thống phương pháp cải tiến chúng + Về thực tiễn, luận văn đưa kết cài đặt thử nghiệm liệu UCI bao gồm kết phân loại, phân lớp, cải tiến chất lượng phân lớp Qua trình thực nghiệm nghiên cứu lý thuyết đưa số kết luận sau: • Mỗi giải thuật phân loại, phân cụm áp dụng cho số mục tiêu kiểu liệu định • Mỗi giải thuật có mức độ xác riêng khả thực kích thước liệu khác Điều tuỳ thuộc vào cách thức tổ chức liệu nhớ chính, nhớ giải thuật • Khai phá liệu hiệu bước tiền xử lý, lựa chọn thuộc tính, mô hình giải tốt Với mà luận văn thực hiện, hướng phát triển sau luận văn sau: Footer Page 117 of 16 Header Page 118 of 16 -117- • Độ xác phân lớp, phân loại phụ thuộc vào nhiều yếu tố chất lượng liệu, thuật toán cài đặt, phương pháp tính độ tương đồng đối tượng liệu Ngoài ra, giá trị khuyết hay thuộc tính dư thừa phần làm ảnh hưởng đến chúng Vì hướng phát triển sau xử lý giá trị khuyết, phát loại bỏ thuộc tính dư thừa, cải tiến phương pháp tính độ tương đồng, nhằm nâng cao chất lượng tốc độ phân lớp, phân loại • Tiến hành cài đặt tiếp tục nghiên cứu nhiều kỹ thuật khai phá liệu nữa, đặc biệt triển khai giải toán cụ thể thực tế Footer Page 118 of 16 -118- Header Page 119 of 16 TÀI LIỆU THAM KHẢO Anil K Jain and Richard C Dubes (1988), Algorithms for clustering data, Prentice-Hall, Inc., USA Ho Tu Bao (1998), Introduction to knowledge discovery and data mining Jiawei Han and Micheline Kambel (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers Joydeep Ghosh (2003), Scalable Clustering, Chapter 10, pp 247-278, Formal version appears in: The Handbook of Data Mining, Nong Ye (Ed) J.Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers Mercer (2003), Clustering large datasets, Linacre College Pavel Berkhin, Survey of Clustering Data Mining Techniques Accrue Software, Inc., San Jose Footer Page 119 of 16 ... Kỹ thuật phân cụm (Clustering) Kỹ thuật phân cụm chia làm nhiều kiểu: phân cụm phân chia, phân cụm phân cấp, phân cụm dựa mật độ phân cụm dựa lưới Phần IV: Cài đặt thử nghiệm Phần trình bày số. .. hai kỹ thuật nghiên cứu luận văn Kỹ thuật phân loại Kỹ thuật phân cụm Phần II: Kỹ thuật phân loại (Classification) Trong phần này, kỹ thuật phân loại giới thiệu cách chi tiết Có nhiều kiểu phân. .. Hình 3.12: Một cấu trúc phân cấp phân cụm STING .101 Hình 3.13: Giải thuật phân cụm dựa wavelet .105 Hình 3.14: Một mẫu không gian đặc trưng chiều 105 Hình 3.15: Đa phân giải không