Nghiên cứu cán cân thương mại trong sự nghiệp công nghiệp hóa, hiện đại hóa ở Việt Nam

-1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU VÀ CÀI ĐẶT MỘT SỐ GIẢI THUẬT PHÂN CỤM, PHÂN LỚP VŨ LAN PHƯƠNG HÀ NỘI 2006 MỤC LỤC MỞ ĐẦU MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG DANH MỤC BẢNG DANH MỤC HÌNH CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung 1.2 Các kỹ thuật khai phá liệu 10 1.3 Lợi khai phá liệu so với phương pháp khác 13 1.4 Các ứng dụng KDD thách thức KDD 15 1.5 Kết luận 17 CHƯƠNG 2: KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮ LIỆU 18 2.1 Phân loại gì? 18 2.2 Các vấn đề quan tâm phân loại 20 2.3 Phân loại định quy nạp 22 2.4 Phân loại Bayesian 30 2.5 Phân loại lan truyền ngược 37 2.6 Phân loại dựa kết hợp 48 2.7 Các phương pháp phân loại khác 50 2.8 Độ xác classifier 56 2.9 Kết luận 59 CHƯƠNG 3: KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 60 3.1 Phân cụm 60 3.2 Các kiểu liệu phép phân cụm 64 3.3 Phân loại phương pháp phân cụm 74 3.4 Các phương pháp phân chia 77 3.5 Các phương pháp phân cấp 84 3.6 Các phương pháp phân cụm dựa mật độ 94 3.7 Các phương pháp phân cụm dựa lưới 101 3.8 Kết luận 107 CHƯƠNG 4: CÀI ĐẶT THỬ NGHIỆM 108 4.1 Thiết kế tổng thể 108 4.2 Chuẩn bị liệu 108 4.3 Thiết kế chương trình 109 4.4 Kết thực nghiệm đánh giá 110 4.5 Kết luận 114 KẾT LUẬN 116 TÀI LIỆU THAM KHẢO 118 -2- -3- LỜI CẢM ƠN MỞ ĐẦU Trước tiên em xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn Ngọc • Giới thiệu Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông Bình tận tình hướng dẫn, bảo em thời gian qua Em xin bày tỏ lòng biết ơn tới thầy cô giáo khoa Công nghệ Thông tin nói riêng trường Đại học Bách Khoa Hà Nội nói chung dạy bảo, cung cấp kiến thức quý báu cho em suốt trình học tập tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nghiên cứu trường Em xin gửi lời cảm ơn tới gia đình, bạn bè, người cổ vũ, quan tâm giúp đỡ em suốt thời gian học tập làm luận văn Do thời gian kiến thức có hạn nên luận văn không tránh khỏi thiếu sót định Em mong nhận góp ý quý báu nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số lại họ phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc thầy cô bạn Hà Nội, 11-2006 Vũ Lan Phương định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Bước quan trọng trình Khai phá liệu (Data Mining - DM), giúp người sử dụng thu tri thức hữu ích từ CSDL nguồn liệu khổng lồ khác Rất nhiều doanh nghiệp tổ chức giới ứng dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Nhưng để làm điều đó, phát triển mô hình toán học giải thuật hiệu chìa khoá quan trọng Vì vậy, luận văn này, tác giả đề cập tới hai kỹ -4- -5- thuật thường dùng Khai phá liệu, Phân loại (Classification) MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG Phân cụm (Clustering hay Cluster Analyse) KDD Phát tri thức DM Khai phá liệu Classification Phân loại Phần I: Tổng quan Phát tri thức Khai phá liệu Clustering Phân cụm Phần giới thiệu cách tổng quát trình phát tri thức nói CSDL Cơ sở liệu • Bố cục luận văn Ngoài phần Mở đầu, Mục lục, Danh mục hình, Danh mục bảng, Kết luận, Tài liệu tham khảo, luận văn chia làm phần: chung khai phá liệu nói riêng Đặc biệt nhấn mạnh hai kỹ thuật nghiên cứu luận văn Kỹ thuật phân loại Kỹ thuật phân cụm Phần II: Kỹ thuật phân loại (Classification) Trong phần này, kỹ thuật phân loại giới thiệu cách chi tiết Có nhiều kiểu phân loại phân loại định quy nạp, phân loại Bayesian, phân loại mạng lan truyền ngược, phân loại dựa kết hợp phương pháp phân loại khác Ngoài đánh giá độ xác phân loại thông qua classifier - người phân loại Phần III: Kỹ thuật phân cụm (Clustering) Kỹ thuật phân cụm chia làm nhiều kiểu: phân cụm phân chia, phân cụm phân cấp, phân cụm dựa mật độ phân cụm dựa lưới Phần IV: Cài đặt thử nghiệm Phần trình bày số kết đạt tiến hành áp dụng giải thuật khai phá liệu để khai thác thông tin liệu mẫu -6- -7DANH MỤC HÌNH DANH MỤC BẢNG Bảng 2.1: Các liệu huấn luyện từ sở liệu khách hàng AllElectronics .25 Bảng 2.2: Dữ liệu mẫu cho lớp mua máy tính .30 Bảng 2.3: Các giá trị đầu vào, trọng số bias khởi đầu 45 Bảng 2.4: Các tính toán mạng đầu vào đầu 45 Bảng 2.5: Tính toán sai số nút 45 Bảng 2.6: Tính toán việc cập nhật trọng số bias .45 Bảng 3.1: Bảng ngẫu nhiên cho biến nhị phân .69 Bảng 3.2: Bảng quan hệ chứa hầu hết thuộc tính nhị phân 70 Bảng 4.1: Một ví dụ tệp định dạng liệu *.names 109 Bảng 4.2: Một ví dụ tệp liệu *.data 109 Bảng 4.3: Kết thí nghiệm phân lớp .111 Bảng 4.4: Kết cải thiện chất lượng phân lớp 112 Bảng 4.5: Kết thí nghiệm phân loại Kmeans Kmedoids 113 Bảng 4.6: Kết thí nghiệm phân loại Kmedoids See5 113 Hình 1.1: Quá trình phát tri thức .9 Hình 1.2: Tập liệu với lớp: có khả trả nợ .11 Hình 1.3: Phân loại học mạng nơron cho tập liệu cho vay 12 Hình 1.4: Phân cụm tập liệu cho vay vào cụm 13 Hình 2.1: Xử lý phân loại liệu 19 Hình 2.2: Cây định cho khái niệm mua máy tính 22 Hình 2.3: Giải thuật ID3 cho định 23 Hình 2.4: Thuộc tính tuổi có thông tin thu cao 26 Hình 2.5: Các cấu trúc liệu danh sách thuộc tính danh sách lớp dùng SLIQ cho liệu mẫu bảng 2.2 30 Hình 2.6: a) Mạng belief Bayesian đơn giản, b) Bảng xác suất có điều kiện cho giá trị biến LungCancer (LC) 35 Hình 2.7: Một mạng nơron truyền thẳng đa mức 38 Hình 2.8: Giải thuật lan truyền ngược 41 Hình 2.9: Một unit lớp ẩn hay lớp đầu 42 Hình 2.10: Ví dụ mạng nơron truyền thẳng đa mức 45 Hình 2.11: Các luật trích từ mạng nơron huấn luyện 48 Hình 2.12: Một xấp xỉ tập thô tập mẫu thuộc lớp C .54 Hình 2.13: Các giá trị mờ thu nhập 55 Hình 2.14: Đánh giá độ xác classifier với phương pháp holdout 56 Hình 2.15: Tăng độ xác classifier 58 Hình 3.1: Giải thuật k-means .79 Hình 3.2: Phân cụm tập điểm dựa phương pháp k-means 79 Hình 3.3: Giải thuật k-medoids 82 Hình 3.4: Phân cụm tập điểm dựa phương pháp k-medoids 82 Hình 3.5: Phân cụm tập điểm dựa phương pháp "Tích đống lồng" 86 Hình 3.6: Phân cụm tập điểm CURE 91 Hình 3.7: CHAMELEON: Phân cụm phân cấp dựa k-láng giềng gần mô hình hoá động 93 Hình 3.8: Mật độ tiến mật độ liên kết phân cụm dựa mật độ 95 Hình 3.9: Sắp xếp cụm OPTICS 98 Hình 3.10: Hàm mật độ attractor mật độ 99 Hình 3.11: Các cụm định nghĩa trung tâm cụm có hình dạng tuỳ ý .100 Hình 3.12: Một cấu trúc phân cấp phân cụm STING .101 Hình 3.13: Giải thuật phân cụm dựa wavelet .105 Hình 3.14: Một mẫu không gian đặc trưng chiều 105 Hình 3.15: Đa phân giải không gian đặc trưng hình 3.14 a) tỷ lệ 1; b) tỷ lệ 2; c) tỷ lệ .106 Hình 4.1: Thiết kế chương trình 110 Hình 4.2: Biểu đồ so sánh Kmeans Kmedoids toán phân lớp với K=10 111 Hình 4.3: Biểu đồ so sánh Kmeans Kmedoids toán phân loại 113 Hình 4.4: Biểu đồ so sánh Kmedoids See5 toán phân loại .114 -8- -9- CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ Đánh giá luật LIỆU Khai phá liệu Chuyển đổi liệu Làm sạch, tiền xử lý liệu 1.1 Giới thiệu chung Trong năm gần đây, phát triển mạnh mẽ CNTT ngành công nghiệp phần cứng làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách chóng mặt Bên cạnh việc tin học hoá cách ạt nhanh chóng hoạt động sản xuất, kinh doanh doanh, quản lí , có nhiều CSDL cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kĩ Mô hình Trích lọc liệu Gom liệu nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu CSDL sử dụng hoạt động sản xuất, kinh Tri thức Internet, Dữ liệu đích Dữ liệu làm sạch, tiền xử lý Dữ liệu chuyển đổi Dữ liệu Hình 1.1: Quá trình phát tri thức thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành Bắt đầu trình kho liệu thô kết thúc với tri thức chiết tri thức có ích Từ đó, kĩ thuật khai phá liệu trở thành lĩnh vực xuất Về lý thuyết đơn giản thực trình thời CNTT giới khó khăn gặp phải nhiều vướng mắc như: quản lý tập liệu, phải lặp 1.1.1 Khái niệm khai phá liệu lặp lại toàn trình, v.v Khai phá liệu (Data Mining) khái niệm đời vào năm (1) Gom liệu: Tập hợp liệu bước trình khai phá cuối thập kỷ 1980 Nó trình trích xuất thông tin có giá trị tiềm ẩn liệu Đây bước khai thác sở liệu, kho liệu bên lượng lớn liệu lưu trữ CSDL, kho liệu Hiện chí liệu từ nguồn ứng dụng Web nay, thuật ngữ khai phá liệu, người ta dùng số thuật ngữ khác (2) Trích lọc liệu: Ở giai đoạn liệu lựa chọn phân chia có ý nghĩa tương tự như: khai phá tri thức từ CSDL, trích lọc liệu, phân tích theo số tiêu chuẩn phục vụ mục đích khai thác, ví dụ chọn tất liệu/mẫu, khảo cổ liệu, nạo vét liệu Nhiều người coi Khai phá liệu người có tuổi đời từ 25 - 35 có trình độ đại học thuật ngữ thông dụng khác Phát tri thức CSDL (Knowlegde (3) Làm sạch, tiền xử lý chuẩn bị trước liệu: Giai đoạn thứ ba Discovery in Databases - KDD) Tuy nhiên thực tế, khai phá giai đoạn hay bị lãng, thực tế bước quan trọng liệu bước thiết yếu trình Phát tri thức CSDL Có trình khai phá liệu Một số lỗi thường mắc phải gom liệu tính thể nói Data Mining giai đoạn quan trọng tiến trình Phát tri không đủ chặt chẽ, logíc Vì vậy, liệu thường chứa giá trị vô nghĩa thức từ sở liệu, tri thức hỗ trợ việc định khoa khả kết nối liệu Ví dụ: tuổi = 673 Giai đoạn tiến hành học kinh doanh xử lý dạng liệu không chặt chẽ nói Những liệu dạng 1.1.2 Các bước trình phát tri thức xem thông tin dư thừa, giá trị Bởi vậy, trình Quá trình phát tri thức tiến hành qua giai đoạn hình 1.1: -10- -11- quan trọng liệu không “làm - tiền xử lý - chuẩn bị Nî trước” gây nên kết sai lệch nghiêm trọng Kh«ng cã kh¶ n¨ng tr¶ nî (4) Chuyển đổi liệu: Tiếp theo giai đoạn chuyển đổi liệu, liệu đưa sử dụng điều khiển việc tổ chức lại nó, tức liệu Cã kh¶ n¨ng tr¶ nî chuyển đổi dạng phù hợp cho việc khai phá cách thực Thu nhËp thao tác nhóm tập hợp (5) Khai phá liệu: Đây bước mang tính tư khai phá liệu Ở giai đoạn nhiều thuật toán khác sử dụng để trích mẫu Hình 1.2: Tập liệu với lớp: có khả trả nợ 1.2.1 Khai phá liệu dự đoán từ liệu Thuật toán thường dùng nguyên tắc phân loại, nguyên tắc kết, v.v Nhiệm vụ khai phá liệu dự đoán đưa dự đoán dựa vào (6) Đánh giá luật biểu diễn tri thức: Ở giai đoạn này, mẫu suy diễn liệu thời Nó sử dụng biến hay trường sở liệu chiết xuất phần mềm khai phá liệu Không phải mẫu liệu để dự đoán giá trị hay giá trị tương lai Bao gồm liệu hữu ích, bị sai lệch Vì vậy, cần phải ưu tiên kĩ thuật: phân loại (classification), hồi quy (regression) tiêu chuẩn đánh giá để chiết xuất tri thức (Knowlege) cần chiết 1.2.1.1 Phân loại xuất Đánh giá hữu ích mẫu biểu diễn tri thức dựa số phép Mục tiêu phương pháp phân loại liệu dự đoán nhãn lớp cho đo Sau sử dụng kỹ thuật trình diễn trực quan hoá liệu để biểu diễn mẫu liệu Quá trình phân loại liệu thường gồm bước: xây dựng mô hình tri thức khai phá cho người sử dụng sử dụng mô hình để phân loại liệu Trên giai đoạn trình phát tri thức, giai đoạn • Bước 1: Xây dựng mô hình dựa việc phân tích mẫu liệu cho - khai phá liệu (hay gọi Data Mining) giai đoạn quan tâm trước Mỗi mẫu thuộc lớp, xác định thuộc tính gọi thuộc nhiều tính lớp Các mẫu liệu gọi tập liệu huấn luyện Các nhãn 1.2 Các kỹ thuật khai phá liệu lớp tập liệu huấn luyện phải xác định trước xây dựng mô Hình 1.2 biểu diễn tập liệu giả hai chiều bao gồm 23 case (trường hợp) Mỗi điểm hình đại diện cho người vay tiền ngân hàng hình, phương pháp gọi học có giám sát y Bước 2: Sử dụng mô hình để phân loại liệu Trước hết phải số thời điểm khứ Dữ liệu phân loại vào hai lớp: người tính độ xác mô hình Nếu độ xác chấp nhận được, mô hình khả trả nợ người tình trạng vay nợ trạng thái tốt sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tương lai (tức thời điểm có khả trả nợ ngân hàng) Hai mục đích khai phá liệu thực tế dự đoán mô tả Hay nói cách khác, phân loại học hàm ánh xạ mục liệu vào số lớp cho trước Hình 1.3 cho thấy phân loại liệu vay nợ vào hai miền lớp Ngân hàng sử dụng miền phân loại để tự động định liệu người vay nợ tương lai có nên cho vay hay không -12- -13không thể biết kết cụm thu bắt đầu trình Vì Nî vậy, thông thường cần có chuyên gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài phân cụm liệu sử dụng bước tiền xử lí cho Thu nhËp thuật toán khai phá liệu khác Hình 1.4 cho thấy phân cụm tập liệu cho vay vào cụm: lưu ý Hình 1.3: Phân loại học mạng nơron cho tập liệu cho vay 1.2.1.2 Hồi quy Phương pháp hồi qui khác với phân loại liệu chỗ, hồi qui dùng để dự cụm chồng lên cho phép điểm liệu thuộc nhiều cụm đoán giá trị liên tục phân loại liệu dùng để dự đoán Nî giá trị rời rạc Côm Côm Hồi quy học hàm ánh xạ mục liệu vào biến dự báo giá trị thực Các ứng dụng hồi quy có nhiều, ví dụ đánh giá xác xuất bệnh nhân chết dựa tập kết xét nghiệm chẩn đoán, dự báo nhu cầu Côm người tiêu dùng sản phẩn dựa hoạt động quảng cáo tiêu Thu nhËp dùng 1.2.2 Khai phá liệu mô tả Kỹ thuật có nhiệm vụ mô tả tính chất đặc tính chung liệu CSDL có Bao gồm kỹ thuật: phân cụm (clustering), phân tích luật kết hợp (association rules) 1.2.2.1 Phân cụm Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học không giám sát Không giống phân loại liệu, phân cụm liệu không đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân loại liệu học ví dụ (learning by example) Trong phương pháp bạn Hình 1.4: Phân cụm tập liệu cho vay vào cụm 1.2.2.2 Luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm Khai phá luật kết hợp thực qua bước: • Bước 1: tìm tất tập mục phổ biến, tập mục phổ biến xác định qua tính độ hỗ trợ thỏa mãn độ hỗ trợ cực tiểu • Bước 2: sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu Phương pháp sử dụng hiệu lĩnh vực marketing có chủ đích, phân tích định, quản lí kinh doanh,… 1.3 Lợi khai phá liệu so với phương pháp khác -14- -15- Khai phá liệu lĩnh vực liên quan tới nhiều ngành học khác Mỗi phương pháp hệ chuyên gia cách suy diễn luật từ ví dụ như: hệ CSDL, thống kê, Hơn nữa, tuỳ vào cách tiếp cận sử dụng, khai giải pháp toán chuyên gia đưa Phương pháp hệ chuyên gia khác phá liệu áp dụng số kĩ thuật mạng nơ ron, lí thuyết tập với khai phá liệu chỗ ví dụ chuyên gia thường mức chất lượng thô tập mờ, biểu diễn tri thức… Như vậy, khai phá liệu thực dựa cao nhiều so với liệu CSDL, chúng thường bao hàm phương pháp biết Tuy nhiên, khác biệt khai phá trường quan trọng Hơn chuyên gia xác nhận giá trị tính liệu so với phương pháp gì? Tại khai phá liệu lại có ưu hữu ích mẫu phát hẳn phương pháp cũ? Ta xem xét giải câu hỏi 1.3.3 Thống kê (Statistics) Mặc dù phương pháp thống kê cung cấp tảng lý thuyết vững 1.3.1 Học máy (Machine Learning) So với phương pháp học máy, khai phá liệu có lợi chỗ, khai phá liệu sử dụng với sở liệu thường động, không đầy đủ, bị cho toán phân tích liệu có tiếp cận thống kê tuý chưa đủ bởi: y Các phương pháp thống kê không phù hợp với kiểu liệu có cấu nhiễu lớn nhiều so với tập liệu học máy điển hình Trong phương pháp học máy chủ yếu áp dụng CSDL đầy đủ, biến trúc nhiều sở liệu y Thống kê hoàn toàn tính toán liệu, không sử dụng tri thức sẵn động tập liệu không lớn Thật vậy, học máy, thuật ngữ sở liệu chủ yếu đề cập tới tập có lĩnh vực quan tâm y Các kết phân tích thống kê nhiều khó làm rõ mẫu lưu tệp Các mẫu thường vectơ với độ dài cố định, thông tin đặc điểm, dãy giá trị chúng lưu lại từ điển liệu Một giải thuật học sử dụng tập liệu thông tin kèm theo tập liệu làm đầu vào đầu biểu thị kết việc học Học y Các phương pháp thống kê cần có hướng dẫn người dùng để xác định phân tích liệu đâu máy có khả áp dụng cho sở liệu, lúc này, học máy Phương pháp thống kê tảng lí thuyết khai phá học tập mẫu mà học tập ghi sở liệu Tuy liệu Sự khác khai phá liệu thống kê chỗ khai phá nhiên, thực tế, sở liệu thường động, không đầy đủ bị nhiễu, lớn liệu phương tiện dùng người sử dụng đầu cuối không nhiều so với tập liệu học máy điển hình Các yếu tố làm cho hầu phải nhà thống kê Khai phá liệu khắc phục yếu điểm hết giải thuật học máy trở nên không hiệu Khai phá liệu lúc thống kê, tự động trình thống kê cách hiệu giảm bớt công xử lý vấn đề vốn điển hình học máy vượt khả học việc người dùng đầu cuối, tạo công cụ dễ sử dụng máy, sử dụng CSDL chứa nhiều nhiễu, liệu không đầy đủ 1.4 Các ứng dụng KDD thách thức KDD biến đổi liên tục 1.4.1 Các ứng dụng KDD 1.3.2 Hệ chuyên gia (Expert Systems) Các hệ chuyên gia nắm bắt tri thức cần thiết cho toán Các kỹ thuật thu thập giúp cho việc lấy tri thức từ chuyên gia người Các kỹ thuật KDD áp dụng vào nhiều lĩnh vực: • Thông tin thương mại: Phân tích liệu tiếp thị bán hàng, phân tích vốn đầu tư, chấp thuận cho vay, phát gian lận, -16- -17- • Thông tin sản xuất: Điều khiển lập lịch, quản lý mạng, phân tích • Mối quan hệ phức tạp trường: Các thuộc tính hay giá trị có cấu trúc phân cấp, quan hệ thuộc tính phương tiện tinh vi kết thí nghiệm, • Thông tin khoa học: Địa lý: Phát động đất, cho việc biểu diễn tri thức nội dung sở liệu đòi hỏi • giải thuật phải có khả sử dụng hiệu thông tin Về mặt lịch sử, giải thuật khai phá liệu phát triển cho ghi có giá trị thuộc 1.4.2 Những thách thức KDD • Các sở liệu lớn nhiều: sở liệu với hàng trăm trường bảng, hàng triệu ghi kích thước lên tới nhiều gigabyte vấn đề hoàn 12 toàn bình thường sở liệu terabyte (10 bytes) bắt đầu xuất tính đơn giản, kỹ thuật bắt nguồn từ mối quan hệ biến phát triển • Tính dễ hiểu mẫu: Trong nhiều ứng dụng, điều quan trọng khai thác phải dễ hiểu người tốt Các • Số chiều cao: Không thường có số lượng lớn ghi giải pháp thực bao gồm việc biểu diễn minh hoạ sở liệu mà có số lượng lớn trường (các thuộc tính, đồ thị, cấu trúc luật với đồ thị có hướng, biểu diễn ngôn ngữ tự nhiên biến) làm cho số chiều toán trở nên cao Thêm vào đó, tăng thêm kỹ thuật hình dung liệu tri thức hội cho giải thuật khai phá liệu tìm mẫu không hợp lệ Vậy nên • Người dùng tương tác tri thức sẵn có: Nhiều phương pháp KDD cần giảm bớt hiệu kích thước toán tính hữu ích tri thức cho hành công cụ không tương tác thực với người dùng dễ trước để nhận biết biến không hợp lệ dàng kết hợp chặt chẽ với tri thức có sẵn toán loại trừ theo cách • Over-fitting (quá phù hợp): Khi giải thuật tìm kiếm tham số tốt cho mô hình đặc biệt sử dụng tập hữu hạn liệu, kết mô hình biểu diễn nghèo nàn liệu kiểm định Các giải pháp bao gồm hợp lệ chéo, làm theo quy tắc chiến lược thống kê tinh vi khác • Thay đổi liệu tri thức: Thay đổi nhanh chóng liệu (động) đơn giản Việc sử dụng miền tri thức quan trọng toàn bước xử lý KDD • Tích hợp với hệ thống khác: Một hệ thống phát đứng không hữu ích Các vấn đề tích hợp điển hình gồm có việc tích hợp với DBMS (tức qua giao diện truy vấn), tích hợp với bảng tính làm cho mẫu phát trước không hợp lệ Thêm vào đó, công cụ trực quan điều tiết dự đoán cảm biến thời gian thực biến đo sở liệu ứng dụng cho trước bị sửa đổi, xoá bỏ 1.5 Kết luận hay tăng thêm phép đo Các giải pháp hợp lý bao gồm phương pháp tăng trưởng để cập nhật mẫu xử lý thay đổi • Dữ liệu thiếu bị nhiễu: Bài toán đặc biệt nhạy sở Khai phá liệu lĩnh vực trở thành hướng nghiên cứu thu hút quan tâm nhiều chuyên gia CNTT giới Trong năm gần đây, nhiều phương pháp thuật toán liệu thương mại Dữ liệu điều tra dân số U.S cho thấy tỷ lệ lỗi lên tới 20% Các liên tục công bố Điều chứng tỏ ưu thế, lợi ích khả ứng thuộc tính quan trọng bị sở liệu không thiết kế với dụng thực tế to lớn khai phá liệu Phần trình bày số kiến thức khám phá trí tuệ Các giải pháp gồm nhiều chiến lược thống kê phức tổng quan khai phá liệu, kiến thức phương pháp tạp để nhận biết biến ẩn biến phụ thuộc phân cụm liệu, phân loại liệu khai phá luật kết hợp -18CHƯƠNG 2: KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮ LIỆU Các sở liệu với nhiều thông tin ẩn sử dụng để tạo nên định kinh doanh thông minh Phân loại dạng phân tích liệu, dùng để trích mô hình mô tả lớp liệu quan trọng hay để dự -19có độ tín nhiệm tốt hay tốt (Hình 2.1a) Các luật dùng để phân loại mẫu liệu tương lai cung cấp cách hiểu tốt nội dung sở liệu a) Giải thuật phân loại Dữ liệu huấn luyện đoán khuynh hướng liệu tương lai Phân loại dùng để dự đoán nhãn xác thực (hay giá trị rời rạc) Nhiều phương pháp phân loại đề xuất nhà nghiên cứu lĩnh vực học máy, hệ chuyên gia, thống kê Hầu hết giải thuật dùng với giả thiết kích thước liệu nhỏ Các nghiên cứu khai phá sở liệu gần phát triển, xây dựng mở rộng kỹ thuật phân loại có khả sử dụng liệu thường trú đĩa lớn Các kỹ thuật thường xem xét xử lý song song phân tán Trong chương này, ta xem xét kỹ thuật để phân loại liệu Tuổi Tên Sandy 40 Andre 30-40 Thu nhập Độ tín nhiệm Thấp Khá tốt Thấp Tốt Cao Tốt Trung bình Khá tốt Trung bình Khá tốt Cao Tốt b) Các luật phân loại IF Tuổi 30-40 AND Thu nhập = Cao THEN Độ tín nhiệm = Tốt Các luật phân loại định quy nạp, phân loại Bayesian, mạng belief Bayesian, mạng nơron phân loại dựa kết hợp Các tiếp cận khác phân loại Dữ liệu kiểm định kỹ thuật classifier k-láng giềng gần nhất, lập luận dựa tình huống, giải thuật di truyền, tập thô logic mờ đề cập 2.1 Phân loại gì? Phân loại liệu xử lý bao gồm hai bước (Hình 2.1) Ở bước đầu tiên, xây dựng mô hình mô tả tập cho trước lớp liệu Mô hình có cách phân tích sở liệu Mỗi giả định thuộc lớp cho trước, lớp giá trị thuộc tính định, gọi thuộc tính nhãn lớp Các liệu để xây dựng mô hình gọi tập liệu huấn luyện Do nhãn lớp mẫu huấn luyện biết trước nên bước biết đến học có giám sát Điều trái ngược với học giám sát, mẫu huấn luyện chưa biết thuộc nhãn lớp số lượng hay tập lớp học chưa biết trước Mô hình học biểu diễn dạng luật phân loại, định hay công thức toán học Ví dụ, cho trước sở liệu thông tin độ tín nhiệm khách hàng, luật phân loại học để nhận biết khách hàng Tuổi Thu nhập Độ tín nhiệm Tên Frank >40 Cao Khá tốt Sylvia 1; (4) Khử outlier cách lấy mẫu ngẫu nhiên: Nếu cụm tăng trưởng chậm, loại bỏ nó; (5) Phân cụm cụm cục bộ, xử lý co nhiều điểm đại diện phía trọng tâm phân số α định người dùng, đại diện có hình dạng cụm; (6) Đánh dấu liệu với nhãn cụm tương ứng Sau ta biểu diễn ví dụ để thấy cách làm việc CURE Ví dụ 3.5: Giả sử có tập đối tượng định vị hình chữ nhật Cho p = 2, người dùng cần phân cụm đối tượng vào hai cụm Hình 3.6: Phân cụm tập điểm CURE Trước tiên, 50 đối tượng lấy mẫu hình 3.6 a) Sau đó, đối tượng phân chia ban đầu vào hai cụm, cụm chứa 50 điểm Ta phân cụm cục phần chia thành 10 cụm dựa khoảng cách trung bình tối thiểu Mỗi đại diện cụm đánh dấu chữ thập nhỏ, hình 3.6 b) Các đại diện di chuyển phía trọng tâm phân số α, hình 3.6 c).Ta có hình dạng cụm thiết lập thành cụm Do vậy, đối tượng phân chia vào hai cụm với outlier gỡ bỏ biểu diễn hình 3.6 d) CURE đưa cụm chất lượng cao với hữu outlier, hình dạng phức tạp cụm với kích thước khác Nó có khả mở rộng tốt cho sở liệu lớn mà không cần hy sinh chất lượng phân cụm CURE cần tham số định người dùng, kích thước mẫu ngẫu nhiên, số lượng cụm mong muốn hệ số co α Độ nhạy phép phân cụm cung cấp dựa kết việc thay đổi tham số Mặc dầu nhiều tham số bị thay đổi mà không ảnh hưởng tới chất lượng phân cụm tham số thiết lập nhìn chung có ảnh hưởng đáng kể Một giải thuật phân cụm phân cấp tích đống khác phát triển (Guha, Rastogi Shim 1999) gọi ROCK, phù hợp cho việc phân cụm thuộc tính xác thực Nó đo độ tương đồng cụm cách so sánh toàn liên kết nối cụm dựa mô hình liên kết nối tĩnh định người dùng, liên kết nối hai cụm C1 C2 định nghĩa số -92- -93- lượng liên kết chéo hai cụm liên kết link(pi, pj) số lượng láng giềng chung hai điểm pi pj ROCK trước tiên xây dựng đồ thị thưa từ ma trận tương đồng liệu cho trước, sử dụng ngưỡng tương đồng khái niệm láng giềng chia sẻ, sau biểu diễn giải thuật phân cụm phân cấp đồ thị thưa 3.5.4 CHAMELEON: Một giải thuật phân cụm phân cấp sử dụng mô hình động Một giải thuật phân cụm thú vị khác gọi CHAMELEON, khảo sát mô hình hoá động phân cụm phân cấp, phát triển Karypis, Han Kumar (1999) Khi xử lý phân cụm, cụm hoà nhập liên kết nối độ chặt (độ gần) hai cụm liên kết cao với liên kết nối độ chặt nội đối tượng nằm phạm vi cụm Xử lý hoà nhập dựa mô hình động tạo điều kiện thuận lợi cho khám phá cụm tự nhiên đồng nhất, áp dụng cho tất kiểu liệu miễn hàm tương đồng định CHAMELEON có dựa quan sát yếu điểm hai giải thuật phân cụm phân cấp: CURE ROCK CURE lược đồ quan hệ bỏ qua thông tin liên kết nối tổng thể đối tượng cụm; ngược lại, ROCK, lược đồ quan hệ lờ thông tin độ chặt cụm nhấn mạnh liên kết nối chúng CHAMELEON trước tiên sử dụng giải thuật phân chia đồ thị để phân cụm mục liệu vào số lượng lớn cụm tương đối nhỏ Sau dùng giải thuật phân cụm phân cấp tập hợp để tìm cụm xác thực cách lặp lại việc kết hợp cụm với Để xác định cặp cụm giống nhất, cần đánh giá liên kết nối độ chặt cụm, đặc biệt đặc tính nội thân cụm Do không tuỳ thuộc Hình 3.7: CHAMELEON: Phân cụm phân cấp dựa k-láng giềng gần mô hình hoá động Như hình 3.7, CHAMELEON miêu tả đối tượng dựa tiếp cận đồ thị dùng phổ biến: k-láng giềng gần Mỗi đỉnh đồ thị k-láng giềng gần đại diện cho đối tượng liệu, tồn cạnh hai đỉnh (đối tượng), đối tượng k đối tượng giống so với đối tượng khác Đồ thị k-láng giềng gần Gk có khái niệm láng giềng động: Bán kính láng giềng điểm liệu xác định mật độ miền mà đối tượng cư trú Trong miền dày đặc, láng giềng định nghĩa hẹp, miền thưa thớt, láng giềng định rộng So sánh với mô hình định nghĩa phương pháp dựa mật độ DBSCAN (giới thiệu mục sau), DBSCAN dùng mật độ láng giềng toàn cục, Gk có láng giềng tự nhiên Hơn nữa, mật độ miền ghi trọng số cạnh Cạnh miền dày đặc theo trọng số lớn so với miền thưa thớt CHAMELEON rõ tương đồng cặp cụm Ci Cj theo liên kết nối tương đối RI(Ci,Cj) độ chặt tương đối RC(Ci,Cj) chúng Liên kết nối tương đối RI(Ci,Cj) hai cụm Ci Cj định nghĩa liên kết nối tuyệt đối Ci Cj tiêu chuẩn hoá liên kết nối nội hai cụm Ci Cj Đó là: RI (Ci , C j ) = vào mô hình tĩnh cung cấp người dùng tự động thích ứng với đặc tính nội cụm hoà nhập ( EC{Ci ,C j } ECCi + ECC j ) (3.24) với EC{C ,C } cạnh cắt (edge-cut) cụm chứa Ci Cj để cụm i j rơi vào Ci Cj, tương tự vậy, ECCi (hay ECCj) kích thước -94- -95- min-cut bisector (tức tổng trọng số cạnh mà chia đồ thị thành hai tượng cụm, láng giếng bán kính cho trước (ε) (gọi ε -láng phần thô nhau) Độ chặt tương đối cặp cụm Ci Cj RC(Ci,Cj) định nghĩa độ chặt tuyệt đối Ci Cj tiêu chuẩn hoá liên kết nối nội hai cụm Ci Cj Đó là: RC (Ci , C j ) = Ci Ci , C j } S ECC i + Cj Ci + C j (3.25) S ECC j trọng số trung bình cạnh kết nối đỉnh Ci tới đỉnh Cj S EC Ci giềng) phải chứa chứa số lượng tối thiểu đối tượng (MinPts) Một đối tượng nằm bán kính cho trước (ε) chứa không số lượng tối thiểu đối tượng láng giềng (MinPts), gọi đối tượng S EC {Ci ,C j } Ci + C j với S EC{ Ý tưởng phân cụm dựa mật độ sau: Đối với đối (hay S EC ) trọng số trung bình cạnh thuộc Cj min-cut bisecter cụm Ci (hay Cj) nòng cốt (core object) (đối với bán kính ε số lượng tối thiểu điểm MinPts) Một đối tượng p mật độ trực tiếp tiến (directly density-reachable) từ đối tượng q với bán kính ε số lượng tối thiểu điểm MinPts tập đối tượng D p phạm vi ε -láng giềng q với q chứa số lượng tối thiểu điểm MinPts Như vậy, CHAMELEON có nhiều khả khám phá cụm có hình Một đối tượng p mật độ tiến (density-reachable) từ đối tượng q với bán dạng tuỳ ý với chất lượng cao so với DBSCAN CURE Tuy vậy, thời kính ε MinPts tập đối tượng D có chuỗi đối tượng gian chi phí xử lý cho liệu có chiều cao O(n2) cho n đối tượng p1,p2, ,pn, p1=q pn=p với ≤ i ≤ n, pi ∈ D pi+1 mật độ trực tiếp tiến từ pi tình xấu ε MinPts 3.6 Các phương pháp phân cụm dựa mật độ Để tìm cụm với hình dạng tuỳ ý, phương pháp phân cụm dựa mật độ phát triển, kết nối miền với mật độ đủ cao vào cụm hay phân cụm đối tượng dựa phân bố hàm mật độ 3.6.1 DBSCAN: Phương pháp phân cụm dựa mật độ miền có kết nối với mật độ đủ cao DBSCAN (Density-Based Spatial Clustering of Applications with Noise) giải thuật phân cụm dựa mật độ, phát triển Ester, Kriegel, Một đối tượng p mật độ liên kết với đối tượng q ε MinPts tập đối tượng D có đối tượng o ∈ D để p q mật độ tiến từ o ε MinPts Ví dụ 3.6: Trong hình 3.8, ε cho trước đại diện cho bán kính đường tròn, cho MinPts=3, M mật độ trực tiếp tiến từ P; Q mật độ (không trực tiếp) tiến từ P Tuy nhiên P mật độ tiến từ Q Tương tự vậy, R S mật độ tiến từ O; O, R S tất mật độ liên kết Sander Xu (1996) Giải thuật tăng trưởng miền với mật độ đủ cao vào cụm tìm cụm với hình dạng tuỳ ý sở liệu không gian có nhiễu Một cụm định nghĩa tập cực đại điểm có kết nối dựa mật độ Hình 3.8: Mật độ tiến mật độ liên kết phân cụm dựa mật độ -96Lưu ý mật độ tiến bắc cầu đóng (transitive closure) mật độ trực tiếp tiến, quan hệ không đối xứng Chỉ đối tượng nòng cốt mật -97đựng thông tin tương đương với phân cụm dựa mật độ phù hợp với phạm vi rộng thiết lập tham số độ tiến lẫn (giao hoán) Mật độ liên kết quan hệ đối xứng Bằng cách khảo sát giải thuật phân cụm dựa mật độ, DBSCAN Một cụm dựa mật độ tập đối tượng mật độ liên kết tối đa dễ dàng thấy giá trị số MinPts, cụm dựa mật độ mật độ tiến; đối tượng không chứa cụm mật độ cao (tức giá trị ε thấp hơn) chứa hoàn toàn nhiễu tập mật độ liên kết mật độ thấp Bởi vậy, để đưa cụm Dựa khái niệm mật độ tiến, giải thuật phân cụm dựa mật độ dựa mật độ với tập tham số khoảng cách, giải thuật cần lựa chọn DBSCAN phát triển để phân cụm liệu sở liệu Nó kiểm đối tượng để xử lý theo trật tự cụ thể để đối tượng mật độ tiến soát ε -láng giềng điểm sở liệu Nếu ε -láng giềng giá trị ε thấp kết thúc trước tiên điểm p chứa nhiều MinPts, cụm với p đối tượng nòng cốt Dựa ý tưởng này, hai giá trị cần lưu trữ đối tượng: thiết lập Sau lặp lại việc tập hợp đối tượng trực tiếp từ đối khoảng cách nòng cốt (core-distance) khoảng cách tiến (reachability- tượng nòng cốt này, bao gồm việc hoà nhập vài cụm mật độ tiến distance) Xử lý dừng điểm thêm vào cụm 3.6.2 OPTICS: Sắp xếp điểm để nhận biết cấu trúc phân cụm Mặc dầu giải thuật phân cụm dựa mật độ DBSCAN tìm cụm đối tượng với việc lựa chọn tham số đầu vào ε MinPts, người Khoảng cách nòng cốt đối tượng p khoảng cách nhỏ ε' p đối tượng ε - láng giềng để p đối tượng nòng cốt ε' láng giềng chứa ε - láng giềng p Nếu không khoảng cách nòng cốt không xác định dùng chịu trách nhiệm lựa chọn giá trị tham số tốt để tìm cụm Khoảng cách tiến đối tượng p đối tượng o khác xác Trên thực tế, toán có kết hợp nhiều giải thuật phân khoảng cách nhỏ để p mật độ trực tiếp tiến từ o o đối tượng cụm khác Các thiết lập tham số thường khó để xác định, đặc biệt nòng cốt Nếu o đối tượng nòng cốt, khoảng cách giới thực, tập liệu số chiều cao Hầu hết giải thuật nhạy phát sinh ε, khoảng cách tiến đối tượng p o không xác định với giá trị tham số: thiết lập có khác biệt nhỏ dẫn tới phân Giải thuật OPTICS tạo lập trật tự sở liệu, thêm vào lưu chia liệu khác Hơn nữa, tập liệu thực số chiều cao thường có trữ khoảng cách nòng cốt khoảng cách tiến phù hợp với đối tượng phân bố lệch, chí không tồn thiết lập tham số toàn cục cho Thông tin đủ cho rút trích tất phân cụm dựa mật độ đầu vào, kết giải thuật phân cụm mô tả chất cấu trúc khoảng cách ε' nhỏ khoảng cách phát sinh ε từ trật tự phân cụm cách xác Để khắc phục khó khăn này, phương pháp xếp cụm gọi OPTICS (Ordering Points To Identify the Clustering Structure) phát triển (Ankerst, Breunig, Kriegel Sander 1999) Nó tính xếp phân cụm tăng dần cho phép phân tích cụm tự động tương tác Sắp xếp phân cụm chứa Sắp xếp cụm tập liệu trình bày hiểu đồ thị Ví dụ, hình 3.9 biểu đồ tiến cho tập liệu hai chiều đơn giản, biểu diễn nhìn tổng quát liệu cấu trúc phân cụm -98- -99f By = f B ( x, y ) Các phương pháp phát triển để quan sát cấu trúc phân cụm cho liệu số chiều cao (3.26) Theo nguyên tắc, hàm tác động hàm tuỳ ý nên phản xạ đối xứng Nó hàm khoảng cách Euclidean, hàm tác động wave bình phương: if d ( x, y ) > σ ⎧0 f Square ( x, y ) = ⎨ ⎩1 otherwise (3.27) hay hàm tác động Gaussian: f Gause ( x, y ) = e − d ( x , y )2 (3.28) 2σ Hình 3.9: Sắp xếp cụm OPTICS Bởi tương đương cấu trúc giải thuật OPTICS tới DBSCAN, giải thuật OPTICS có độ phức tạp thời gian chạy DBSCAN Các cấu trúc đánh số không gian dùng để nâng cao khả biểu diễn 3.6.3 DENCLUE: Phân cụm dựa hàm phân bố mật độ DENCLUE (DENsity -based CLUstEring - phân cụm dựa mật độ) (Hinneburg Keim 1998) phương pháp phân cụm dựa tập hàm phân bố mật độ Phương pháp dựa ý tưởng sau: (1) Tác động điểm liệu làm mô hình thức sử dụng hàm toán học gọi hàm tác động, hàm tác động xem hàm mô tả tác động điểm liệu phạm vi láng giềng nó; (2) Toàn mật độ không gian liệu làm mô hình theo phép phân tích tổng hàm tác động tất điểm liệu; (3) Các cụm sau xác định xác cách nhận biết attractor mật độ, attractor mật độ cực đại cục toàn hàm mật độ Hàm tác động điểm liệu y ∈ Fd, với Fd không gian đặc trưng d chiều, hàm f By : F d → R0+ , định nghĩa dạng hàm tác động fB: Hình 3.10: Hàm mật độ attractor mật độ Một hàm mật độ định nghĩa tổng hàm tác động tất điểm liệu Cho trước N đối tượng liệu mô tả tập vectơ đặc trưng D = {x1, ,xN} ⊂ FD, hàm mật độ định nghĩa sau: f BD = ∑i =1 f Bxi (x ) N (3.29) Ví dụ, hàm mật độ cho kết từ hàm tác động Gaussian (3.28) là: D f Gaussian ( x) = ∑i =1 e N − d ( x , y )2 2σ (3.30) Từ hàm mật độ, ta định nghĩa độ dốc (gradient) hàm attractor mật độ (attractor mật độ cực đại cục toàn hàm mật độ) Đối với hàm tác động liên tục phân biệt, giải thuật leo đồi (hill climbing), độ dốc (gradient), dùng để xác định attractor mật độ tập điểm liệu -100Dựa khái niệm này, cụm định nghĩa trung tâm cụm hình dạng tuỳ ý định nghĩa thức Một cụm có định nghĩa trung -1013.7 Các phương pháp phân cụm dựa lưới Một tiếp cận dựa lưới dùng cấu trúc liệu lưới đa phân giải Trước tâm tập C mật độ rút trích, với hàm mật độ không tiên lượng tử hoá không gian vào số hữu hạn ô mà hình ngưỡng ξ, ngược lại (tức hàm mật độ nhỏ ngưỡng ξ) thành nên cấu trúc lưới, sau thực tất thao tác cấu trúc lưới outlier Một cụm hình dạng tuỳ ý tập tập C, tập Thuận lợi tiếp cận thời gian xử lý nhanh, điển hình độc mật độ rút trích, với hàm mật độ không ngưỡng ξ, tồn lập số lượng đối tượng liệu độc lập số lượng ô đường P từ miền tới miền khác hàm mật độ cho điểm chiều không gian lượng tử hóa dọc theo đường không ξ Các ví dụ điển hình tiếp cận dựa lưới bao gồm STING - khảo sát DENCLUE có thuận lợi sau so sánh với giải thuật thông tin thống kê lưu trữ ô lưới; WaveCluster - cụm đối phân cụm khác: (1) Nó có tảng toán học vững chắc, tổng quát hoá tượng sử dụng phương pháp biến đổi wavelet; CLIQUE - miêu tả tiếp cận phương pháp phân cụm khác, bao gồm phương pháp dựa phân chia, dựa lưới mật độ cho phân cụm không gian liệu số chiều cao phân cấp dựa vị trí; (2) Nó có đặc tính phân cụm tốt tập 3.7.1 STING: Một tiếp cận lưới thông tin thống kê liệu với số lượng nhiễu lớn; (3) Nó cho phép mô tả toán học cô đọng STING (STatistical INformation Grid) (Wang, Yang Munz 1997) cụm có hình dạng tuỳ ý tập liệu số chiều cao; (4) Nó sử dụng tiếp cận đa phân giải dựa lưới Trong tiếp cận này, miền không gian ô lưới giữ thông tin ô lưới mà thực chứa đựng điểm chia thành ô hình chữ nhật Thường có vài mức ô hình chữ nhật liệu quản lý ô cấu trúc truy cập dựa tương ứng với mức khác phân giải ô thiết lập nên nhanh đáng kể so với giải thuật tác động, nhanh cấu trúc phân cấp: ô mức cao phân chia để hình thành nên DBSCAN tới 45 lần Tuy vậy, phương pháp cần chọn lựa cẩn thận tham số lượng ô mức thấp Hơn nữa, phần quan trọng số, tham số mật độ σ ngưỡng nhiễu ξ, việc lựa chọn tham số có thông tin thống kê mean, max, min, count, độ lệch chuẩn (standard ảnh hưởng đáng kể chất lượng kết phân cụm deviation), v.v kết hợp với giá trị thuộc tính ô lưới tính toán trước lưu trữ trước truy vấn submit tới hệ thống Hình 3.12 cho thấy cấu trúc phân cấp phân cụm STING Hình 3.11: Các cụm định nghĩa trung tâm cụm có hình dạng tuỳ ý Hình 3.12: Một cấu trúc phân cấp phân cụm STING -102- -103- Tập tham số dựa thống kê bao gồm: - tham số độc lập với thuộc trưởng thuận lợi; (3) Thuận lợi chủ yếu phương pháp hiệu tính n (count) tham số phụ thuộc thuộc tính m (mean), s (độ lệch chuẩn), phương pháp: STING xuyên suốt liệu lần để tính toán tham số thống (minimum), max (maximum), kiểu phân bố mà giá trị thuộc tính kê ô, độ phức tạp thời gian phát sinh cụm O(N), với N ô normal- bình thường, uniform-đồng nhất, exponential- số tổng số đối tượng Sau phát sinh cấu trúc phân cấp này, thời gian xử lý mũ, hay none (nếu phân bố không biết) Khi liệu tải vào truy vấn O(G), với G tổng số ô lưới mức thấp nhất, thường nhỏ sở liệu, tập tham số n, m, s, min, max ô mức đáy tính toán nhiều so với N - tổng số đối tượng trực tiếp từ liệu Giá trị phân bố ấn định người dùng Tuy vậy, từ STING sử dụng tiếp cận đa phân giải để thực phép kiểu phân bố trước hay có kiểm định giả phân tích cụm, chất lượng phân cụm STING tuỳ thuộc vào độ sần thuyết kiểm định χ2 Các tham số ô mức cao dễ dàng (granularity) mức thấp cấu trúc lưới Nếu độ sần tốt, chi phí tính từ tham số ô mức thấp Kiểu phân bố ô mức cao xử lý tăng lên; nhiên mức đáy cấu trúc lưới tính toán dựa kiểu phân bố theo số đông ô thô, giảm chất lượng tốt (độ mịn) phép phân cụm Hơn nữa, tương đương mức thấp cộng với ngưỡng xử lý lọc Nếu STING không xem xét mối quan hệ không gian ô ô láng phân bố ô mức thấp không giống thiếu ngưỡng kiểm định, kiểu giềng chúng để xây dựng ô cha Kết hình dạng cụm kết phân bố ô mức cao đặt "none" quán (isothetic), tất đường bao cụm theo chiều ngang Thông tin thống kê có hữu ích trả lời truy vấn Top- theo chiều dọc, chiều chéo dò thấy Điều dẫn tới down phương pháp trả lời truy vấn dựa lưới thông tin thống kê chất lượng độ xác cụm thấp có thời gian xử lý nhanh khái quát sau: Trước tiên xác định lớp để bắt đầu, thường bao gồm số lượng nhỏ ô Đối với ô lớp thời, ta tính toán 3.7.2 WaveCluster: Phân cụm sử dụng phép biến đổi wavelet khoảng tin cậy (hay phạm vi đánh giá) khả mà ô có liên quan tới WaveCluster (Sheikholeslami, Chatterjee Zhang 1998) tiếp cận truy vấn Các ô không liên quan gỡ bỏ khỏi xem xét sau này, xử lý phân cụm đa phân giải, trước tiên tóm tắt liệu cách lợi dụng cấu trúc mức sâu xem xét ô liên quan Xử lý lặp lại lưới đa phân giải không gian liệu, sau biến đổi không gian đặc trưng tiến đến lớp đáy Tại thời điểm này, đạt truy vấn định trả gốc phép biến đối wavelet tìm miền đông đúc không gian lại miền ô liên quan đáp ứng yêu cầu truy vấn; mặt khác, lấy biến đổi liệu nằm ô liên quan, tiếp tục xử lý; trả lại kết thoả mãn yêu cầu truy vấn Trong tiếp cận này, ô lưới tóm tắt thông tin nhóm điểm, thông tin tóm tắt vừa đủ để đưa vào nhớ cho phép biến đổi Tiếp cận đưa số thuận lợi so với phương pháp phân cụm wavelet đa phân giải phép phân tích cụm sau Trong cấu trúc lưới, khác: (1) Tính toán dựa lưới truy vấn độc lập, từ thông tin thống kê thuộc tính số đối tượng không gian đại diện vectơ lưu trữ ô đại diện cho thông tin tóm tắt liệu ô lưới, đặc trưng, phần tử vectơ tương đương với thuộc tính số, hay độc lập với truy vấn; (2) Cấu trúc lưới làm cho xử lý song song cập nhật tăng -104đặc trưng Cho đối tượng với n thuộc tính số, vectơ đặc trưng điểm không gian đặc trưng n chiều Phép biến đổi wavelet kỹ thuật xử lý tín hiệu, phân tích tín -105unit; 2) Áp dụng phép biến đổi wavelet không gian đặc trưng; 3) Tìm phần hợp thành kết nối (các cụm) dải hiệu vào dải tần số Mô hình wavelet làm việc tín không gian đặc trưng biến đổi mức khác nhau; hiệu n chiều cách áp dụng phép biến đổi chiều n lần 4) Gắn nhãn vào unit; Trong phép biến đổi wavelet, liệu không gian chuyển đổi vào miền tần số Kết hợp với hàm nòng cốt thích hợp cho kết không gian biến đổi, cụm tự nhiên liệu trở nên dễ phân biệt Các cụm sau nhận biết cách tìm miền đông 5) Làm bảng tra cứu ánh xạ đối tượng vào cụm Hình 3.13: Giải thuật phân cụm dựa wavelet Độ phức tạp tính toán giải thuật O(N) với N số đối tượng sở liệu đúc vùng biến đổi Phép biến đổi wavelet cung cấp đặc trưng thú vị sau: Trước tiên cung cấp phân cụm không giám sát Các lọc dạng nón làm bật miền mà điểm phân cụm, đồng thời có khuynh hướng ngăn chặn thông tin yếu đường bao chúng Do vậy, miền đông đúc không gian đặc trưng gốc đóng vai trò miền thu hút (attractor) điểm gần miền hạn chế (inhibitor) điểm Hình 3.14: Một mẫu không gian đặc trưng chiều không đủ gần Điều nghĩa cụm liệu tự động bật lên Ví dụ: Hình 3.14 (lấy từ Sheikholeslami, Chatterjee Zhang (1998)) cho làm miền xung quanh chúng Thứ hai, lọc thông thấp dùng thấy mẫu không gian đặc trưng chiều, đó, điểm ảnh đại diện phép biến đổi wavelet tự động loại bỏ outlier Hơn nữa, đặc tính đa cho giá trị đặc trưng đối tượng tập liệu không gian phân giải phép biến đổi wavelet giúp dò cụm độ xác Hình 3.15 (lấy từ Sheikholeslami, Chatterjee Zhang (1998)) cho thấy kết khác Cuối cùng, ứng dụng phép biến đổi wavelet nhanh việc xử phép biến đổi wavelet tỷ lệ khác nhau, từ mịn (tỷ lệ 1) lý thực song song thô (tỷ lệ 3) Tại mức, dải LL (bình thường) cung phần tư phía Giải thuật phân cụm dựa wavelet phác thảo sau: bên trái, dải LH (các cạnh nằm ngang) cung phần tư phía Giải thuật 3.7.1: Giải thuật phân cụm dựa wavelet phân cụm đa bên phải dải HL (các cạnh nằm dọc) cung phần tư phía bên phân giải phép biến đổi wavelet trái dải HH (các góc) cung phần tư phía bên phải Đầu vào: Các vectơ đặc trưng đối tượng liệu đa chiều WaveCluster giải thuật dựa mật độ lưới WaveCluster thích Đầu ra: Các đối tượng phân cụm hợp với tất yêu cầu giải thuật phân cụm tốt: xử lý tập Giải thuật: liệu lớn cách hiệu quả, tìm cụm với hình dạng tuỳ ý, thành công 1) Lượng tử hoá không gian đặc trưng, sau phân đối tượng vào việc xử lý outlier, không nhạy cảm trật tự đầu vào So với -106BIRCH, CLARANS DBSCAN, WaveCluster làm tốt phương pháp hiệu suất chất lượng phân cụm -107Một heuristic quan trọng mà CLIQUE thông qua nguyên lý Apriori phân cụm số chiều cao: Nếu unit k chiều dày đặc hình chiếu (project) không gian (k-1) chiều Đó unit thứ (k-1) dày đặc, unit thứ k tương ứng unit ứng cử dày đặc (candidate dense) Bởi vậy, tất unit dày đặc k chiều ứng cử sinh từ unit dày đặc (k-1) chiều Thứ hai, CLIQUE sinh mô tả tối thiểu cho cụm sau: Trước tiên Hình 3.15: Đa phân giải không gian đặc trưng hình 3.14 a) tỷ lệ 1; b) tỷ lệ 2; c) tỷ lệ 3.7.3 CLIQUE: Phân cụm không gian số chiều cao xác định miền tối đa phủ cụm unit dày đặc có kết nối cho cụm sau xác định phủ tối thiểu cho cụm CLIQUE tự động tìm không gian số chiều cao để cụm mật Một giải thuật phân cụm khác, CLIQUE, Agrawal et al (1998), tích hợp độ cao tồn không gian Nó không nhạy cảm với trật tự phương pháp phân cụm dựa lưới mật độ theo cách khác Nó hữu ghi đầu vào không đoán phân bố liệu tiêu chuẩn Nó tỷ lệ ích cho phân cụm liệu với số chiều cao sở liệu lớn tuyến tính với kích thước đầu vào có khả mở rộng tốt số Cho trước tập lớn điểm liệu đa chiều, điểm liệu chiều liệu tăng lên Tuy nhiên, độ xác kết phân thường nằm không đồng không gian liệu Phân cụm liệu nhận cụm bị suy giảm phụ phí tính đơn giản phương pháp biết vị trí thưa thớt hay đông đúc, tìm toàn mẫu phân bố 3.8 Kết luận tập liệu Chương đề cập tới phương pháp phân cụm truyền thống cải Một unit dày đặc phần nhỏ điểm liệu chứa unit tiến phương pháp phân cụm truyền thống Ngoài chương đề cập tới vượt tham số mô hình đầu vào Một cụm tập lớn unit khái niệm độ không tương đồng (hay tương đồng) đối tượng Qua ta dày đặc có kết nối thấy khả phân cụm phương pháp, khả áp dụng CLIQUE phân chia không gian liệu m chiều thành unit hình chữ nhật không chồng lên nhau, nhận biết unit dày đặc, tìm cụm toàn không gian không gian liệu gốc, sử dụng phương pháp phát sinh candidate (ứng cử) giống với giải thuật Apriori cho khai phá luật kết hợp CLIQUE thực phân cụm đa chiều theo hai bước: Trước tiên, CLIQUE nhận biết cụm cách xác định unit dày đặc toàn không gian interest sau xác định unit dày đặc có kết nối toàn không gian interest vào toán thực tiễn -108- -109+ Bắt đầu tên thuộc tính, dấu ":", sau giá trị rời CHƯƠNG 4: CÀI ĐẶT THỬ NGHIỆM rạc thuộc tính (nếu thuộc tính xác thực hay nhị phân) kiểu Chương đưa kết cài đặt thử nghiệm giải thuật Kmeans thuộc tính (nếu thuộc tính có kiểu liên tục) Kmedoids liệu UCI đánh giá kết thực nghiệm - Tất phần thích đặt sau dấu "|" 4.1 Thiết kế tổng thể Bảng 4.1: Một ví dụ tệp định dạng liệu *.names Chương trình gồm khối chức sau: - Khối chức tiền xử lý 1, 2, - Khối chức phân cụm 1: continuous 2: 1, 2, 3, 4.1.1 Khối chức tiền xử lý Nhiệm vụ khối chức đọc liệu, xác định số mẫu, số 4: 0, thuộc tính, số lớp, giá trị thuộc tính mẫu liệu 4.1.2 Khối chức phân cụm |binary 4.2.2 Tệp mẫu liệu Mỗi mẫu dòng Các giá trị thuộc tính mẫu ghi trước, cuối Khối chức tiến hành phân cụm mẫu liệu Dữ liệu học không giám sát (unsupervised learning) theo hai giải thuật khác nhau: |categorical 3: continuous giá trị lớp Mỗi giá trị cách dấu "," Bảng 4.2: Một ví dụ tệp liệu *.data Kmeans Kmedoids Cuối gắn nhãn lớp cho cụm Sau gắn nhãn lớp cho cụm tiến hành xác định hiệu phân lớp, phân loại 0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4 4.2 Chuẩn bị liệu 0,0,0,1,0,1,1,1,1,1,0,1,0,1,0,1,1 Dữ liệu đầu vào chương trình tệp văn chia thành hai 0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2 loại: 0,1,1,0,1,1,0,0,1,1,0,0,2,1,0,0,2 - Tệp định dạng liệu (*.names): Định nghĩa tên lớp, tên thuộc 1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1 tính, giá trị thuộc tính, kiểu thuộc tính 0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,1,2 - Tệp mẫu liệu (*.data): Gồm mẫu liệu chứa đầy đủ thông tin giá trị thuộc tính giá trị lớp 4.2.3 Nguồn liệu Trong khuôn khổ luận văn, liệu lấy từ địa web site: 4.2.1 Tệp định dạng liệu - ftp://ftp.ics.uci.edu/pub/ - Dòng 1: liệt kê giá trị lớp Các giá trị cách dấu phẩy "," kết thúc dấu chấm "." 4.3 Thiết kế chương trình Với khối chức liệu trên, chương trình thiết kế - Từ dòng 2: + Mỗi mẫu dòng sau: -110- Phân loại Tên DL Số mẫu Brea Haber Iris Pima Glass Wine Balan 500 306 150 768 214 178 625 - Gắn nhãn cho cụm, đánh giá, so sánh hiệu gắn nhãn hai giải thuật cho số liệu UCI (chỉ dùng liệu có thuộc tính liên tục) - Gắn nhãn cho cụm, đánh giá hiệu gắn nhãn cho liệu có thuộc tính hỗn hợp - Cải tiến hiệu phân lớp - So sánh chất lượng phân loại với chương trình See5 Chương trình See5 (phiên 2.03) công cụ sử dụng kỹ thuật định với giải thuật C5.0 dùng để phân loại liệu viết Ross Quinlan Phần trăm phân lớp - Phân cụm liệu giải thuật Kmeans Kmedoids K=6 ma md 484 481 230 231 126 55 541 528 117 86 169 85 448 441 K=8 ma md 481 482 228 232 125 57 525 554 117 88 168 84 503 451 K=10 ma md 481 482 233 234 121 59 554 558 125 90 166 87 438 453 K=16 ma md 481 482 237 240 142 65 558 561 140 96 173 93 483 459 120 100 80 Kmeans 60 Kmedoids 40 20 br ea st ca nc el be rm an 4.4.1 Các bước tiến hành thực nghiệm K=4 ma md 485 481 229 226 126 53 539 537 105 84 173 80 407 423 So sánh Kmeans Kmedoids Hình 4.1: Thiết kế chương trình 4.4 Kết thực nghiệm đánh giá Số mẫu phân lớp K=2 ma md 328 480 225 225 100 51 532 504 78 82 107 72 293 369 e ba la nc e Kết phân lớp, phân loại Bảng 4.3: Kết thí nghiệm phân lớp wi n Các module phân cụm 6,8,10, 16 (Kmeans: ma; Kmedoids: md) a Phân lớp 4.4.2.1 Bài toán phân lớp: thực với số lượng cụm K = 2, 4, gl as s Cải tiến phân lớp Dưới kết đạt được: s Module GetData 4.4.2 Thực nghiệm pi m Module GetNames Tệp mẫu liệu Hiển thị kết Các thông tin: - Số lớp, tên lớp - Số thuộc tính, tên thuộc tính, kiểu thuộc tính hay giá trị rời rạc thuộc tính - Số mẫu, giá trị thuộc tính tên lớp mẫu iri Tệp định dạng liệu -111- Các liệu Hình 4.2: Biểu đồ so sánh Kmeans Kmedoids toán phân lớp với K=10 Tính hiệu chương trình nhiều người công nhận Vì thế, luận Biểu đồ cho thấy với liệu kiểu liên tục khả phân lớp văn sử dụng làm công cụ để so sánh với kết phân loại thực Kmedoids liệu UCI thường thấp so với Kmeans điểm đại Hạn chế See5 (phiên 2.03) dùng tối đa 400 mẫu liệu diện Kmedoids điểm đối tượng gần tâm cụm, tâm cụm -112- -113- Kmeans giá trị trung bình phần tử cụm Nếu liệu nhiễu Kmeans cho kết hiệu Kmedoids, trường hợp ngược lại, 4.4.2.2 Bài toán phân loại Bảng 4.5: Kết thí nghiệm phân loại Kmeans Kmedoids nhiễu với giá trị cực lớn, bóp méo phân bố liệu dùng Kmeans, lúc dùng Kmeadoids hiệu Theo biểu đồ so sánh ta nhận thấy liệu nhiễu Tuy nhiên, phép đo độ tương đồng đối tượng Kmedoids dường chưa hiệu lắm, phần trăm phân lớp chưa cao Để cải thiện độ xác phân lớp, luận văn đưa phương pháp sau: Với mẫu bị phân lớp sai cụm, ta đưa vào cụm thích hợp (giả sử cụm A) thoả mãn điều kiện: Tên liệu Breastcancel Haberman Iris Pima Glass Soybean Wine Balance + Khoảng cách từ tới cụm thời khoảng cách tới cụm A Số mẫu phân loại ma md 318 480 179 115 125 52 532 504 93 72 32 22 172 70 313 336 Số mẫu 500 306 150 768 214 47 178 625 Tỷ lệ phân loại (%) ma md 63.6 96 58.4967 50.6536 83.3333 34.6667 69.2708 65.625 43.4579 33.6449 68.0851 46.8085 96.6292 39.3258 50.08 53.76 So sánh Kmeans Kmedoids + Nhãn lớp cụm A giống nhãn lớp mẫu Balance 423 447 441 459 451 475 453 477 459 483 463 487 468 492 Haberman 226 226 231 231 232 233 234 237 240 249 244 257 249 267 20 wi ne ba la nc e Wine 80 89 85 85 84 86 87 90 93 102 97 110 102 120 so yb ea n Iris 53 54 55 57 57 61 59 65 65 77 69 85 74 95 Kmedoids 40 a gl as s Tên DL C K=4 M C K=6 M C K=8 M C K=10 M C K=16 M C K=20 M C K=25 M Kmeans 60 s Bảng 4.4: Kết cải thiện chất lượng phân lớp 80 iri số liệu sau: (Cũ: C; Mới: M) 100 pi m Thực nghiệm cho thấy độ xác phân lớp tăng lên Ví dụ Phần trăm phân loại khoảng cách epsilon đủ bé cho trước) 120 br ea st ca nc el be rm an + Nếu thêm mẫu vào cụm A, tâm cụm không thay đổi (hoặc thay đổi Các liệu Hình 4.3: Biểu đồ so sánh Kmeans Kmedoids toán phân loại Bảng 4.6: Kết thí nghiệm phân loại Kmedoids See5 Tên liệu Breastcancel Haberman Số mẫu 400 306 Số mẫu phân loại See5 md 391 344 236 115 Tỷ lệ phân loại (%) See5 md 97.75 86 77.12418 50.6536 -114Iris Pima Car Balance 150 400 298 400 106 307 289 336 -11552 262 202 238 83.3333 76.75 72.25 84 34.6667 65.5 67.7852 64.8501 So sánh Kmedoids See5 120 Phần trăm phân loại 100 80 60 40 20 Ba la nc e Ca r Pi m a s Iri Br ea st ca nc el Ha be rm an Kmedoids See5 Các liệu Hình 4.4: Biểu đồ so sánh Kmedoids See5 toán phân loại Theo biểu đồ ta nhận thấy hiệu phân loại See5 tốt có mô hình phân loại dạng thực hiệu quả, mô hình hạn chế nhánh phản ánh nhiễu nên chất lượng phân loại cao Còn Kmedoids xử lý liệu kiểu hỗn hợp chất lượng tính độ tương đồng đối tượng chưa cao nên khả phân loại See5 4.5 Kết luận Như vậy, sau tiến hành thực nghiệm số liệu UCI ta nhận thấy kết phân lớp, phân loại liệu có thuộc tính liên tục Kmeans tốt so với Kmedoids Với liệu có thuộc tính hỗn hợp, Kmeans không xử lý Kmedoids với phương pháp tính độ tương đồng hai mẫu Ducker (1965) đề xuất, Kaufman Rousseeuw cải tiến (1990) xử lý liệu với độ xác trung bình chi phí tính toán O(k(n-k)2) Đối với giá trị n k lớn, chi phí cao Vậy nên việc cải tiến độ xác tốc độ tính toán hướng phát triển sau -116KẾT LUẬN -117• Độ xác phân lớp, phân loại phụ thuộc vào nhiều yếu tố chất Luận văn tập trung nghiên cứu lý thuyết áp dụng số kỹ thuật khai lượng liệu, thuật toán cài đặt, phương pháp tính độ tương đồng phá liệu liệu UCI Đây bước khởi đầu trình tìm đối tượng liệu Ngoài ra, giá trị khuyết hay thuộc tính dư thừa hiểu vấn đề cần quan tâm giải toán khai phá liệu phần làm ảnh hưởng đến chúng Vì hướng phát triển sau thực tế xử lý giá trị khuyết, phát loại bỏ thuộc tính dư thừa, cải Trong khuôn khổ luận văn chưa áp dụng cụ thể vào CSDL thực tế nào, tiến phương pháp tính độ tương đồng, nhằm nâng cao chất lượng tốc dừng lại liệu UCI nên kết thực nghiệm chưa mang ý độ phân lớp, phân loại nghĩa thực tế Tuy nhiên có số kết ban đầu phát tri thức từ • Tiến hành cài đặt tiếp tục nghiên cứu nhiều kỹ thuật khai phá liệu liệu nữa, đặc biệt triển khai giải toán cụ thể thực tế Những kết mà luận văn thực hiện: + Về lý thuyết, luận văn tập trung tìm hiểu kỹ thuật phân loại, phân cụm truyền thống phương pháp cải tiến chúng + Về thực tiễn, luận văn đưa kết cài đặt thử nghiệm liệu UCI bao gồm kết phân loại, phân lớp, cải tiến chất lượng phân lớp Qua trình thực nghiệm nghiên cứu lý thuyết đưa số kết luận sau: • Mỗi giải thuật phân loại, phân cụm áp dụng cho số mục tiêu kiểu liệu định • Mỗi giải thuật có mức độ xác riêng khả thực kích thước liệu khác Điều tuỳ thuộc vào cách thức tổ chức liệu nhớ chính, nhớ giải thuật • Khai phá liệu hiệu bước tiền xử lý, lựa chọn thuộc tính, mô hình giải tốt Với mà luận văn thực hiện, hướng phát triển sau luận văn sau: -118TÀI LIỆU THAM KHẢO Anil K Jain and Richard C Dubes (1988), Algorithms for clustering data, Prentice-Hall, Inc., USA Ho Tu Bao (1998), Introduction to knowledge discovery and data mining Jiawei Han and Micheline Kambel (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers Joydeep Ghosh (2003), Scalable Clustering, Chapter 10, pp 247-278, Formal version appears in: The Handbook of Data Mining, Nong Ye (Ed) J.Ross Quinlan (1993), C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers Mercer (2003), Clustering large datasets, Linacre College Pavel Berkhin, Survey of Clustering Data Mining Techniques Accrue Software, Inc., San Jose [...]... nhau Do số nhau trong phạm vi cùng một cụm và không giống nhau với các đối tượng trong lượng lớn các dữ liệu đã thu thập trong cơ sở dữ liệu nên phép phân tích cụm các cụm khác gần đây trở thành một chủ đề tích cực cao trong nghiên cứu khai phá dữ liệu Phép phân tích cụm là một hoạt động quan trọng Thời kì đầu, nó học làm Như là một nhánh của thống kê, phép phân tích cụm được nghiên cứu mở thế nào để... khiển Việc nghiên cứu mục đích của ứng dụng ảnh hưởng như thế nào đến việc lựa 5 Khả năng giải quyết dữ liệu nhiễu: Hầu hết các cơ sở dữ liệu thế giới thực chứa các outlier hay các dữ liệu khuyết, dữ liệu không biết hay dữ liệu sai chọn các phương pháp phân cụm là thực sự quan trọng Với các yêu cầu này, ta sẽ lần lượt nghiên cứu các xử lý phép phân tích cụm như sau: Trước tiên ta nghiên cứu các kiểu... thuộc tính A có thể được thay thế bởi giá trị phổ biến biểu diễn bởi liên kết của một mục (entry) từ mỗi danh sách thuộc tính sang một nhất của A mục trong danh sách lớp, nó lần lượt được liên kết tới nút lá tương ứng trong 2.3.5 Khả năng mở rộng và cây quyết định quy nạp cây quyết định Danh sách lớp vẫn ở trong bộ nhớ vì nó thường được truy cập, -30- -31- sửa đổi trong các pha xây dựng và cắt tỉa Kích... chuyển đổi sang ma trận không 3.2 Các kiểu dữ liệu trong phép phân cụm tương đồng trước khi áp dụng các giải thuật phân cụm Trong phần này, ta nghiên cứu các kiểu dữ liệu thường xuất hiện trong các Cụm các đối tượng được tính toán dựa trên sự tương đồng hay không tương phép phân cụm và tiền xử lý chúng như thế nào cho phép phân tích này Giả sử đồng của chúng Trong phần này, trước tiên ta thảo luận chất lượng... học bằng sự giống nhau Các ứng dụng thương mại của CBR gồm bài toán giải quyết dịch vụ khách hàng Các mẫu huấn luyện được mô tả bởi các thuộc tính số n - chiều Mỗi mẫu đại trợ giúp tại chỗ, ví dụ, tại đó các tình huống mô tả các bài toán chẩn đoán có liên diện cho một điểm trong một không gian n - chiều Vì vậy tất cả các mẫu huấn quan tới sản phẩm CBR cũng được áp dụng cho nhiều lĩnh vực như công trình... chính xác này -60CHƯƠNG 3: KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 3.1 Phân cụm là gì -61Phân cụm dữ liệu là một môn khoa học trẻ đang phát triển mạnh mẽ Có một số lượng lớn các bài báo nghiên cứu trong nhiều hội nghị, hầu hết trong các Xử lý nhóm một tập các đối tượng vào trong các lớp các đối tượng giống lĩnh vực của khai phá dữ liệu: thống kê, học máy, cơ sở dữ liệu không gian, sinh nhau được gọi là... gỡ bỏ các nhánh này Cây cắt quyết định quy nạp nổi tiếng Mở rộng giải thuật được thảo luận trong mục 2.3.4 tỉa được mô tả trong mục 2.3.3 Cải tiến giải thuật cây quyết định cơ bản được tới 2.3.6 đề cập tới trong mục 2.3.4 Các vấn đề về khả năng mở rộng cho cây quyết định * Phép đo lựa chọn thuộc tính: quy nạp từ cơ sở dữ liệu lớn được đề cập trong mục 2.3.5 Phép đo thông tin thu được (information gain)... nghiên cứu các phương pháp để dùng như là một công cụ độc lập để có thể nhìn thấu được bên trong sự phân bố phép phân cụm ngày càng hiệu quả trong các cơ sở dữ liệu lớn Các chủ đề tích dữ liệu, để quan sát các đặc điểm của mỗi cụm và tập trung trên một tập đặc biệt cực của nghiên cứu tập trung trên khả năng mở rộng của các phương pháp phân các cụm cho phép phân tích xa hơn Tiếp theo, nó phục vụ như... phân cụm có sự pha trộn của dữ liệu số và dữ liệu xác thực trong các cơ sở dữ liệu lớn -62Phân cụm là một lĩnh vực nghiên cứu có nhiều thách thức, tại đó các ứng dụng tiềm năng của nó đưa ra các yêu cầu đặc biệt Sau đây là các yêu cầu điển hình của phân cụm trong khai phá dữ liệu: -63Nhiều giải thuật phân cụm nhạy cảm với dữ liệu như thế này và có thể dẫn tới chất lượng các cụm kém 6 Sự không nhạy... các đầu vào về phía trước: Ở bước này, mạng đầu vào và đầu ra của 1) Khởi tạo giá trị ban đầu cho các trọng số và các bias trong network; mỗi unit trong các lớp ẩn và lớp đầu ra được tính toán 2) while điều kiện dừng chưa thỏa { + Cung cấp mẫu huấn luyện cho lớp đầu vào 3) + Tính mạng đầu vào cho mỗi unit ở các lớp ẩn và lớp đầu ra, đó là sự kết for mỗi mẫu huấn luyện X trong samples { 4) //Truyền

Định dạng
Số trang	60
Dung lượng	1,18 MB