Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
0,98 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU ĐỀ TÀI: TÌM HIỂU GOM CỤM DỮ LIỆU ỨNG DỤNG CÀI ĐẶT K-MEANS GVHD : PGS. TS. Đỗ Phúc Học viên : Ngô Thanh Tuấn (CH1101054) Thành phố Hồ Chí Minh Tháng 11/2012 Trang 2 Khai Phá Dữ Liệu và Kho Dữ Liệu LỜI MỞ ĐẦU Trong bối cảnh thông tin đang bùng nổ như hiện nay. Khai thác và ứng dụng thông tin sao cho có hiểu quả là là điều rất cần thiết. Các cơ quan, tổ chức đều mong muốn có được càng nhiều thông tin về lĩnh vực mình hoạt động càng tốt: các khách hàng tiềm năng, hoạt động của công ty cạnh tranh, biến động của thị trường… Tuy nhiên, thông tin cũng sẽ không giúp ích được nhiều nếu như người nắm giữ thông tin không biết khai thác nó. Bản thân thông tin mang những hiện tượng và xu hướng phổ biến. Nếu nắm được các hiện tượng, xu hướng phổ biến này, chúng sẽ hoạt động hiệu quả nhất, bởi vì “Biết người biết ta trăm trận trăm thắng”. Có thể nói, trong tất cả các lĩnh vực như kinh tế, xã hội, chính trị…, ai có được thông tin và khai thác thông tin hiệu quả sẽ là người có thể điều khiển được đại cuộc, là những người thành công. Thông qua bài luận của môn học khai phá dữ liệu, sau phần khái quát về khai phá dữ liệu, đi sâu hơn về khai phá dữ liệu. Đồng thời giới thiệu và cài đặt thuật toán K- means để mô tả cho ứng dụng của kỹ thuật gom cụm dữ liệu trong khai phá dữ liệu. Em xin chân thành cảm ơn thầy Phúc đã hướng dẫn, giúp em tiếp cận và làm quen với những vấn đề rất nổi bật trong thế giới thông tin vô tận để tổng hợp thành bài báo cáo chuyên đề này. Tuy nhiên, với kiến thức còn hạn chế và thời gian có hạn nên bài báo cáo và ứng dụng demo khó tránh khỏi các thiếu sót. Em mong thầy cho em các ý kiến để em có thể hoàn thiện bài báo cáo hơn đồng thời cũng có thể đút kết cho mình những kinh nghiệm để làm tốt hơn những chuyên đề khác. Trang 3 Khai Phá Dữ Liệu và Kho Dữ Liệu NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Trang 4 Khai Phá Dữ Liệu và Kho Dữ Liệu NỘI DUNG 1 CƠ SỞ LÝ THUYẾT 7 1.1 Tổng quan về khai phá dữ liệu 7 1.1.1 Ý nghĩa của việc khai phá dữ liệu: 7 1.1.2 Các bước khám phá tri thức: 8 1.1.3 Tổng quan các kỹ thuật khai phá dữ liệu: 9 1.2 Cluster (gom cụm) là gì: 10 1.2.1 Phương pháp phân hoạch: 11 1.2.2 Phương pháp phân cấp (hierarchical clustering): 12 1.2.3 Phương pháp dựa trên mật độ: 13 1.2.4 Phương pháp dựa trên mô hình: 15 1.2.5 Phương pháp dựa trên lưới: 15 1.3 K-Means 15 1.3.1 Giới thiệu 15 1.3.2 Thuật toán 15 1.3.3 Ưu điểm 19 1.3.4 Hạn chế 20 1.3.5 Các thuật toán cải tiến K-Means 20 2 Chương trình Demo thuật toán K-MEANS 21 2.1 Giao diện chính của chương trình: 21 2.2 Hướng dẫn sử dụng: 22 3 KẾT LUẬN 22 3.1 Kết quả đạt được 22 Trang 5 Khai Phá Dữ Liệu và Kho Dữ Liệu 3.2 Hạn chế 23 3.3 Hướng phát triển 23 4 TÀI LIỆU THAM KHẢO 23 Trang 6 Khai Phá Dữ Liệu và Kho Dữ Liệu DANH SÁCH HÌNH Hình 1: Gom cụm K-means 12 Hình 2: Một đồ thị cây phân cấp 13 Hình 3: Ví dụ gom cụm DBSCAN 14 Hình 4: Ví dụ gom cụm OPTICS 14 Hình 5: K-Means với 2 cụm 17 Hình 6: Giao diện chính của chương trình demo 21 Hình 7: Kết quả của chạy một chương trình 22 Trang 7 Khai Phá Dữ Liệu và Kho Dữ Liệu 1 CƠ SỞ LÝ THUYẾT 1.1 Tổng quan về khai phá dữ liệu Sự phát triển nhanh chóng của khoa học kỹ thuật, công nghệ đồng thời ứng dụng của công nghệ thông tin vào nhiều lĩnh vực trong cuộc sống xã hội, kinh tế, chính trị, khoa học kỹ thuật, du lịch, … đã tạo ra nhiều cơ sở dữ liệu khổng lồ. Do đó, để sử dụng hiệu quả nguồn dữ liệu thì đòi hỏi chúng ta cần có các công cụ hỗ trợ ra quyết định bên cạnh các phương pháp khai thác thông tin đã có. Khai phá dữ liệu – data mining là tiến trình khám phá tri thức tiềm ẩn trong các cơ sở dữ liệu. Đó là các quá trình trích lọc, tìm ra các tri thức hay các mẫu tiềm ẩn, chưa biết nhưng có ích từ các cơ sở dữ liệu lớn. Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, quy luật hỗ trợ tích cực cho các tiến trình ra quyết định, hay dự đoán, dự báo giá trị cho các đối tượng nhắm vào phục vụ lợi ích của con người. Có thể chia khai phá dữ liệu thành hai dạng chính: Khai phá dữ liệu theo hướng kiểm tra: là việc người ta dùng các đề xuất giả thiết, hệ thống kiểm tra tính đúng đắn của giả thiết. Nó bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thông kê … Khai phá dữ liệu theo hướng khám phá: là việc tìm kiếm các tri thức tiềm ẩn trong cơ sở dữ liệu thông qua việc tiến hành xem xét tất cả các giả thiết có khả năng hiện thực. 1.1.1 Ý nghĩa của việc khai phá dữ liệu: Tri thức được rút ra từ khai phá dữ liệu được dùng để: Trang 8 Khai Phá Dữ Liệu và Kho Dữ Liệu Giải thích dữ liệu: sẽ cung cấp sự hiểu biết sâu sắc và hữu ích về hành vi của các đối tượng, giúp người quản lý hiểu rõ hơn về các đối tượng mà họ đang quản lý. Dự báo: dự báo các giá trị của các đối tượng mới: o Khuynh hướng mua hàng của khách hàng. o Xác định rủi ro tín dụng với một khách hàng. o Định hướng tập trung nguồn lực doanh nghiệp. Cung cấp cơ chế hỗ trợ ra quyết định 1.1.2 Các bước khám phá tri thức: Quá trình khám phá tri thức từ cơ sở dữ liệu bao gồm ba công đoạn: a) Chuẩn bị dữ liệu Chọn lọc dữ liệu: rút trích, chọn các dữ liệu cần thiết từ cơ sở dữ liệu từ cơ sở dữ liệu gốc vào một cơ sở dữ liệu riêng. Làm sạch dữ liệu: phần lớn dữ liệu đều mang ít nhiều tính không nhất quán, do đó khai phá dữ liệu trên các cơ sở dữ liệu thường không bảo đảm được tính đúng đắn. Chúng ta cần phải loại bỏ, hay xóa dữ liệu sai càng nhiều càng tốt. Một số vấn đề chúng ta cần quan tâm khi tiến hành làm sạch dữ liệu: trùng lặp dữ liệu, giá trị vượt quá ngưỡng cho phép. Làm giàu dữ liệu: bổ sung thêm nhiều loại dữ thông tin có liên quan đến cơ sở dữ liệu gốc. Mã hóa dữ liệu: mục đích là chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khám phá dữ liệu. b) Khai thác dữ liệu: là quá trình “điều chỉnh đúng” các mô hình dữ liệu. c) Tường trình, báo cáo kết quả: giải thích và hiển thị trực quan các kết quả của quá trình khai phá dữ liệu để hỗ trợ việc đánh giá chất lượng dữ liệu, đánh giá mô hình dữ liệu đã lựa chọn có phù hợp hay không. Trang 9 Khai Phá Dữ Liệu và Kho Dữ Liệu 1.1.3 Tổng quan các kỹ thuật khai phá dữ liệu: Nội dung chính của phần này sẽ giới thiệu các kỹ thuật khai phá dữ liệu phổ biến a) Khai thác tập phổ biến và luật kết hợp Là quá trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ đó có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong các tập đối tượng. b) Khai thác mẫu tuần tự: Là quá trình khám phá các mẫu tuần tự phổ biến phản án mối quan hệ giữa các biến cố trong các cơ sở dữ liệu hướng thời gian. Một luật mô tả mẫu tuần tự có dạng X Y phản ánh sự xuất hiện của của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Do đó có thể khám phá được các xu thế phát triển của đối tượng. c) Phân lớp dữ liệu: Là quá trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp. Tập dữ liệu học bao gồm tập đối tượng đã được xác định sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Các luật phân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trò quan trọng trong việc dự báo các khuynh hướng, quy luật phát triển. Phân lớp dữ liệu là hình thức học có giám sát (supervised learning). d) Gom cụm dữ liệu: Là quá trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp. Tiến hành khai thác cụm dựa trên mức độ tương tự với nhau giữa các đối tượng. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng cụm là cực đại, và mức độ tương tự giữa các đối tượng trong cụm khác là cực tiểu. Các đối tượng trong cùng một cùng có cùng một tính chất đặc trưng. Do đó khảo sát gom cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn. Trang 10 Khai Phá Dữ Liệu và Kho Dữ Liệu 1.2 Cluster (gom cụm) là gì: Gom cụm dữ liệu là hình thức học không giám sát (unsupervised learning) trong đó các mẫu dùng trong quá trình học chưa được gán nhãn. Mục đích của gom cụm dữ liệu là tìm những mẫu đại diện hoặc gom dữ liệu tương tự nhau (theo một chuẩn đánh giá nào đó) thành những cụm. Một số ứng dụng tiêu biểu của gom cụm như: Phân loại nhà theo vị trí, giá trị … Phân loại khách hàng để có chính sách hỗ trợ khách hàng phù hợp. Phân loại bệnh nhân. Xem xét phân bố dữ liệu. Phân loại đất theo công năng hay thực tế sử dụng để có chính sách quy hoạch hợp lý. … Một phương pháp gom cụm tốt nếu đạt được các tính chất sau: Có độ tương tự cao trong cùng cụm Có độ tương thự thấp giữa các cụm Có khả năng phát hiện các mẫu tiềm ẩn Có khả năng làm việc hiệu quả cao với các cơ sở dữ liệu với lượng dữ liệu lớn. Có khả năng làm việc với nhiều loại dữ liệu khác nhau Có khả năng khám phá ra các cụm có phân bố theo các dạng khác nhau Có khả năng làm việc với nhiễu và mẫu cá biệt Không bị ảnh hưởng bởi thứ tự nhập dữ liệu Làm việc tốt trên cơ sở dữ liệu có số chiều cao Chấp nhận các ràng buộc do người dùng chỉ định Có thể hiểu và sử dụng được kết quả gom cụm Các phương pháp gom cụm phổ biến: [...]... số đối tượng trong không gian dữ liệu k: số cụm cần gom nhóm t: số lần lặp, t khá nhỏ so với n Khai Phá Dữ Liệu và Kho Dữ Liệu Trang 21 Thuật toán Fuzzy c-means: o Chung chiến lược phân cụm với K-mean o Nếu K-mean là phân cụm dữ liệu cứng (một đối tượng dữ liệu chỉ thuộc về một cụm) thì FCM là phân cụm dữ liệu mờ (một đối tượng dữ liệu có thể thuộc về nhiều hơn một cụm với xác suất nhất định) o... Chưa có áp dụng K-Means hay các cải tiến của K-Means vào các ứng dụng như gom cụm tài liệu, gom cụm ảnh Chưa chạy trên một cơ sở dữ liệu thực tế 3.3 Hướng phát triển Với những hạn chế đã được nêu trên, hướng mở rộng đề tài có thể là: Xây dựng hoàn chỉnh ứng dụng truy xuất từ một cơ sở dữ liệu thực tế Ứng dụng có thể hoàn thiện trong việc phân nhóm văn bản, tài liệu thành những cụm cụ thể để... các phương pháp khai phá dữ liệu nói chung Ngoài ra việc nghiên cứu và học tập khai phá dữ liệu đã Khai Phá Dữ Liệu và Kho Dữ Liệu Trang 23 giúp cho em hiểu thêm về vai trò của cơ sở dữ liệu và việc khai thác dữ liệu đúng cách sẽ mang cho chúng ta những tri thức về cơ sở dữ liệu hiện tại, có khả năng đưa ra những tri thức dự đoán các giá trị của các đối tượng mới Khai phá dữ liệu còn là một hệ thống... 1.2.3 Phương pháp dựa trên mật độ: Trong phương pháp gom cụm dựa trên mật độ, các cụm được định nghĩa là những vùng có mật độ cao hơn các phần còn lại của tập dữ liệu Các đối tượng trong những vùng rời rạc – vùng này dùng trong gom cụm dữ liệu – thường được xem như là các dữ liệu dư thừa và các vùng biên của cụm dữ liệu Phương pháp phổ biến của gom cụm theo mật độ: DBSCAN(Density Based Spatial Clustering... vậy gom cụm phân hoạch phải có các thuật toán nhanh và có sử dụng heuristic để có giải pháp gom cụm đủ tốt, K-means là một trong những thuật toán như vậy 1.3.2 Thuật toán Cho k là số cụm sau khi phân hoạch (1 . CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU ĐỀ TÀI: TÌM HIỂU GOM CỤM DỮ LIỆU ỨNG DỤNG CÀI ĐẶT K-MEANS GVHD : PGS. TS. Đỗ Phúc Học viên : Ngô Thanh. dữ liệu bao gồm ba công đoạn: a) Chuẩn bị dữ liệu Chọn lọc dữ liệu: rút trích, chọn các dữ liệu cần thiết từ cơ sở dữ liệu từ cơ sở dữ liệu gốc vào một cơ sở dữ liệu riêng. Làm sạch dữ. khai phá dữ liệu, sau phần khái quát về khai phá dữ liệu, đi sâu hơn về khai phá dữ liệu. Đồng thời giới thiệu và cài đặt thuật toán K- means để mô tả cho ứng dụng của kỹ thuật gom cụm dữ liệu trong