KHAI PHÁ DỮ LIỆU VỚI TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP

33 707 1
KHAI PHÁ DỮ LIỆU VỚI TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN _____  _____ BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU Đề tài: KHAI PHÁ DỮ LIỆU VỚI TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP Giao viên hƣớng dẫn : PGS.TS Đỗ Phúc Học viên thực hiện: Nguyễn Thị Thu Thủy Mã học viên: CH1101142 TP. Hồ Chí Minh, tháng 11 năm 2012 MỤC LỤC CHƢƠNG 1 : TỔNG QUAN KHAI PHÁ DỮ LIỆU 4 1.1 Giới thiệu 4 1.2 Khá phá dữ liệu là gì? 4 1.3 Quá trình khai phá dữ liệu: 6 1.4 Nhiệm vụ của khai phá dữ liệu: 7 1.5 Các ứng dụng tiềm năng 9 CHƢƠNG 2 : TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 10 2.1 Giới thiệu: 10 2.2 Các khái niệm cơ bản: 10 2.2.1 Độ hỗ trợ 10 2.2.2 Độ tin cậy 10 2.2.3 Tập phổ biến 11 2.2.4 Tập phổ biến tối đại 11 2.3 Khai phá luật kết hợp: 11 2.4 Phân loại luật kết hợp: 13 2.5 Thuật toán Apriori - ứng dụng theo phƣơng pháp luật kết hợp: 14 2.5.1 Ý tưởng chính của thuật toán Apriori: 14 2.5.2 Thuật toán Apriori Algorithm: 15 2.5.3 Mã giả: 21 2.5.4 Cải tiến thuật toán Apriori 23 CHƢƠNG 3 CÀI ĐẶT THỬ NGHIỆM APRIORI 26 3.1 Giao diện chƣơng trình: 26 3.2 Hƣớng dẫn sử dụng chƣơng trình 27 CHƢƠNG 4 NHẬN XÁT – ĐÁNH GIÁ 30 * * * Bài thu hoạch môn học “Khai phá dữ liệu” GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 2 LỜI MỞ ĐẦU Ngày nay, chúng ta đang sống trong thế kỷ bùng nổ về khoa học công nghệ mà đặc biệt là sự phát triển vƣợt bậc về công nghệ tông tin. Công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lƣợng dữ liệu đã đƣợc các cơ quan thu thập và lƣu trữ ngày một tích lũy nhiều lên. Bên cạnh đó, các thiết bị thu thập dữ liệu tự động tƣơng đối phát triển đã tạo ra những kho dữ liệu khổng lồ, nhƣ các dữ liệu ngân hàng, hàng không, giáo dục.…. Cùng với sự phát triển mạnh mẽ của công nghệ, các thiết bị lƣu trữ và các thiết bị thu thập thông tin tự động đã cho phép xây dựng đƣợc những hệ thống thông tin có khả năng tự động hoá ngày càng cao. Vấn đề đặt ra là làm thế nào để xử lý khối lƣợng thông tin cực lớn nhƣ vậy để phát hiện ra các tri thức tiềm ẩn trong núi dữ liệu khổng lồ này. Những tri thức thu đƣợc nhƣ vậy chúng đƣợc chuyên môn hoá, phân chia theo các lĩnh vực ứng dụng nhƣ sản xuất, kinh doanh, tài chính, nghiên cứu… Các cơ sở dữ liệu cần phải đem lại tri thức hơn là chính dữ liệu đó. Để hiểu hơn về vấn đề này em xin trình bày báo cáo khóa luận môn học với đề tài “ Khai phá dữ liệu bằng luật kết hợp và ứng dụng”. Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học “Khai phá dữ liệu” đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơn ban cố vấn học tập và ban quản trị chƣơng trình đào tạo thạc sĩ Công nghệ thông tin qua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham khảo để em có thể hoàn thành môn học này. Bài thu hoạch môn học “Khai phá dữ liệu” GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 3 NHẬN XÉT CỦA GIẢNG VIÊN HƢỚNG DẪN Bài thu hoạch môn học “Khai phá dữ liệu” GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 4 CHƢƠNG 1 : TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu Khoảng hơn một thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, .v.v.) không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Ngƣời ta ƣớc đoán rằng lƣợng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lƣợng cũng nhƣ kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng. Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhƣng lại “đói” tri thức. Câu hỏi đặt ra là liệu chúng ta có thể khai thác đƣợc gì từ những “núi” dữ liệu tƣởng chừng nhƣ “bỏ đi” ấy không ? Data Mining ra đời nhƣ một hƣớng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa về Data Mining và sẽ đƣợc đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining nhƣ là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu đƣợc tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó. 1.2 Khá phá dữ liệu là gì? Khai phá dữ liệu (Data mining) là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu. Khái niệm về khai phá dữ liệu (Data Mining) hay phát hiện tri thức (Knowledge Discovery) có rất nhiều cách diễn đạt khác nhau nhƣng về bản chất đó là quá trình tự động trích xuất thông tin có giá trị (thông tin dự đoán – Predictive Information) ẩn chứa trong khối lƣợng dữ liệu khổng lồ trong thực tế. Bài thu hoạch môn học “Khai phá dữ liệu” GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 5 Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá dữ liệu là một bƣớc đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu từ dữ liệu. Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp. Bƣớc tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu đƣợc. Về lý thuyết thì có vẻ rất đơn giản nhƣng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải nhiều vƣớng mắc nhƣ: các dữ liệu phải đƣợc sao ra nhiều bản (nếu đƣợc chiết xuất vào các tệp), quản lý các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),… Bƣớc tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm đƣợc các mẫu (pattern) có ý nghĩa dƣới dạng biểu diễn tƣơng ứng với các ý nghĩa đó (thƣờng thì đƣợc biểu diễn dƣới dạng các luật xếp loại, cây quyết định, phát sinh luật, biểu thức hồi quy,…). Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. Data mining nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin có ích Tự động (Automated) và thông tin mang tính dự đoán (Predictive). Data Mining liên quan chặt chẽ đến các lĩnh vực sau: - Statistics (Thống kê): Kiểm định model và đánh giá tri thức phát hiện đƣợc. Bài thu hoạch môn học “Khai phá dữ liệu” GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 6 - Machine Learning (Máy học): Nghiên cứu xây dựng các giải thuật trên nền tảng của trí tuệ nhân tạo giúp cho máy tính có thể suy luận (dự đoán) kết quả tƣơng lai thông qua quá trình huấn luyện (học) từ dữ liệu lịch sử. - Databases (Cơ sở dữ liệu): Công nghệ quản trị dữ liệu nhất là kho dữ liệu 1.3 Quá trình khai phá dữ liệu: Từ dữ liệu ban đầu, qua quá trình khai phá và xử lý dữ liệu, con ngƣời đã chọn lọc ra những tri thức và đƣa đến quyết định đúng đắn. Khai phá dữ liệu là một bƣớc trong bảy bƣớc của quá trình KDD (Knowleadge Discovery in Database) và KDD đƣợc xem nhƣ 7 quá trình khác nhau theo thứ tự sau: 1. Làm sạch dữ liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu và các dữ liệu không cần thiết. 2. Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing). 3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), .v.v. Bài thu hoạch môn học “Khai phá dữ liệu” GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 7 4. Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù hợp cho quá trình xử lý. 5. Khai phá dữ liệu(data mining): Là một trong các bƣớc quan trọng nhất, trong đó sử dụng những phƣơng pháp thông minh để chắt lọc ra những mẫu dữ liệu. 6. Ƣớc lƣợng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm đƣợc thông qua các độ đo nào đó. 7. Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho ngƣời dùng. 1.4 Nhiệm vụ của khai phá dữ liệu: Khai phá dữ liệu có thể chia thành một số hƣớng chính nhƣ sau: Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản. Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản. Bài thu hoạch môn học “Khai phá dữ liệu” GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 8 Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp đƣợc ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin- sinh, tài chính & thị trƣờng chứng khoán, .v.v. Phân lớp và dự toán (classification & prediction): xếp một đối tƣợng vào một trong những lớp đã biết trƣớc. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hƣớng tiếp cận này thƣờng sử dụng một số kỹ thuật của machine learning nhƣ cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Phân cụm (clustering): xếp các đối tƣợng theo từng cụm (số lƣợng cũng nhƣ tên của cụm chƣa đƣợc biết trƣớc. Khai phá chuỗi (seuqential/temporal patterns): tƣơng tự nhƣ khai phá luật kết hợp nhƣng có thêm tính thứ tự và tính thời gian. Hƣớng tiếp cận này đƣợc ứng dụng nhiều trong lĩnh vực tài chính và thị trƣờng chứng khoán vì nó có tính dự báo cao. Dƣới đây là một số thuật toán phổ biến đƣợc dùng trong Khai phá dữ liệu: 1. Decision tree: Cây quyết định (Classification Task) 2. Nearest Neighbor: Láng giềng gần nhất (Classification Task) 3. Neural Network: Mạng Neural (Classification and Clustering Task) 4. Rule Induction: Luật qui nạp (Classification Task) 5. K-Means: Thuật toán K-Means ( Clustering Task) Bài thu hoạch môn học “Khai phá dữ liệu” GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 9 1.5 Các ứng dụng tiềm năng • • P P h h â â n n t t í í c c h h d d ữ ữ l l i i ệ ệ u u , , h h ỗ ỗ t t r r ợ ợ r r a a q q u u y y ế ế t t đ đ ị ị n n h h ( ( d d a a t t a a a a n n a a l l y y s s i i s s & & d d e e c c i i s s i i o o n n s s u u p p p p o o r r t t ) ) – Phân tích và quản lý thị trƣờng – Quản lý và phân tích rủi ro – Quản lý và phân tích các sai hỏng • • Đ Đ i i ề ề u u t t r r ị ị y y h h ọ ọ c c ( ( m m e e d d i i c c a a l l t t r r e e a a t t m m e e n n t t ) ) • Text mining & Web mining • Tin-sinh (bio-informatics) • Tài chính và thị trƣờng chứng khoán (finance & stock market), Phân tích cổ phiếu • Bảo hiểm (insurance) • Nhận dạng (pattern recognition) • Bán lẻ, siêu thị • Ngân hàng • Khai thác gen • Phân tích cổ phiếu • Khai thác dữ liệu Web • Phân tích dữ liệu • … [...]... tìm tất cả các tập k mục phổ biến (với k=1,2, 0 chỉ trong một lần duyệt cơ sở dữ liệu Các tập mục phổ biến địa phƣơng có thể hoặc không là tập mục phổ biến của toàn bộ cơ sở dữ liệu D Nhƣng bất kỳ tập mục nào là phổ biến tiềm năng của D cũng phải là tập mục phổ biến của ít nhất một vùng Do đó, tất cả các tập mục phổ biến địa phƣơng là các tập mục ứng cử cho D Tập hợp các tập mục phổ biến từ tất cả... chứa S và Cho S số lƣợng giao tác trong O Nói cách khác SP(S)=|p(S)| / |O| Cho S I, S là một tập các mặt hàng phổ biến theo ngƣỡng minsupp nếu và chỉ nếu SP(S) ≥ minsupp Trong các phần sau tập mặt hàng phổ biến sẽ đƣợc gọi tắt là tập phổ biến Ký hiệu FS(O,I,R, minsupp) = {S € P(I) | SP(S) ≥ minsup} 2.2.4 Tập phổ biến tối đại M là tập phổ biến tối đại nếu M là tập phổ biến và không tồn tại tập phổ biến. .. học Khai phá dữ liệu - Quantitative association rules (luật kết hợp định lƣợng): weight in [70kg – 90kg] => height in [170cm – 190cm] - Fuzzy association rules (Luật kết hợp mờ): weight in HEAVY => height in TALL Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary association rules 2.4 Phân loại luật kết hợp: - Boolean association rule (luậtkếthợpluận Boolean association rule (luật. .. quan về khai thác dữ liệu (Data Mining) : Các loại tri thức trong cơ sở dữ liệu và kỹ thuật khai thác chúng - Trình bày vả khái niệm , định nghĩa, tính chất của luật kết hợp, cách xác định độ hỗ trợ của tập luật và độ tin cậy của nó - Đƣa mô hình một bài toán và sau đó khai thác luật kết hợp sau đó đánh giá so sánh các thuật toán - Trình bày thuật toán khai thác luật kêt hợp, thuật toán Apriori và cải... là chi tiết tìm ra các tập phổ biến của cơ sở dữ liệu, phần 2 là tìm ra các luật từ các tập phổ biến tìm đƣợc ở phần 1 28 GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy Bài thu hoạch môn học Khai phá dữ liệu 29 GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy Bài thu hoạch môn học Khai phá dữ liệu CHƢƠNG 4 NHẬN XÁT – ĐÁNH GIÁ Qua môn học này, em đã hiểu rõ đƣợc khai phá dữ liệu là gì , nắm rõ đƣợc... rule (luật kết hợp luận lý)/quantitative association rule (luật kết hợp lƣợng số) - Single-dimensional association rule (luậtkếthợp Single-dimensional association rule (luật kết hợp đơn chiều)/ multidimensional association rule (luật đơn chiều)/ multidimensional association rule (luật kết hợp đa chiều) - Single-level association rule (luậtkếthợp đơn mức)/multilevel association rule (luậtkếthợp đa mức)... Bƣớc 2: nhập 2 giá trị minsupp và minconf Mặc định chƣơng trình sẽ khởi tạo sẵn 2 giá trị này, bạn có thể thay đổi giá trị này theo yêu cầu 27 GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy Bài thu hoạch môn học Khai phá dữ liệu Bƣớc 3: nhấn vào nút “Tìm tập phổ biến và luật kết hợp để chƣơng trình thực hiện khai phá dữ liệu vừa nhập và tìm ra luật cho bài toán Bƣớc 4: kết quả chi tiết chƣơng trình... tác vụ không chứa bất kỳ tập k mục phổ biến nào thì cũng không thể chứa bất kỳ tập (k+1) mục phổ biến Do đó, tác vụ đó có thể đánh dấu hoặc loại bỏ khỏi lần xét sau Phân hoạch (partitioning) tức phân chia dữ liệu để tìm tập mục ứng cử: Kĩ thuật phân hoạch có thể sử dụng bởi nó chỉ đòi hỏi quét cơ sở dữ liệu 2 lần để khai phá tập mục phổ biến Việc khai phá bằng phân hoạch dữ liệu gồm 2 giai đoạn trong... Bài thu hoạch môn học Khai phá dữ liệu Nếu ta nói độ tin cậy là 80% thì có nghĩa là 80% các giao tác có chứa X thì cũng chứa Y Độ tin cậy của một luật là thể hiện mức độ trƣờng quan trong dữ liệu giữa hai tập X và Y Độ tin cậy là độ đo mức độ tin cậy của một luật 2.2.3 Tập phổ biến Cho cơ sở dữ liệu giao dịch (O,I,R) và minsup € (0,1] là ngƣỡng phổ biến tối thiểu I, độ phổ biến của S ký hiệu là sp(S)... rule (luậtkếthợp)/correlation rule (luật tƣơng quan thống kê) - Boolean association rule (luật kết hợpluận lý)/quantitative association rule (luật kết hợp lƣợng số): Boolean association rule luật mô tả sự kết hợp giữa sự hiện diện/vắng mặt của các phần tử; Quantitative association rule luật mô tả sự kết hợp giữa các phần tử/thuộc tính định lƣợng - Single-dimensional association rule (luật kết hợp đơn . 2.2.4 Tập phổ biến tối đại M là tập phổ biến tối đại nếu M là tập phổ biến và không tồn tại tập phổ biến S khác M mà M S. 2.3 Khai phá luật kết hợp: Trong lĩnh vực Data Mining, mục đích của luật. KHAI PHÁ DỮ LIỆU 4 1.1 Giới thiệu 4 1.2 Khá phá dữ liệu là gì? 4 1.3 Quá trình khai phá dữ liệu: 6 1.4 Nhiệm vụ của khai phá dữ liệu: 7 1.5 Các ứng dụng tiềm năng 9 CHƢƠNG 2 : TẬP PHỔ BIẾN. • Khai thác dữ liệu Web • Phân tích dữ liệu • … Bài thu hoạch môn học Khai phá dữ liệu GVHD: PGS.TS Đỗ Phúc SVTH: Nguyễn Thị Thu Thủy 10 CHƢƠNG 2 : TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP

Ngày đăng: 10/04/2015, 00:12

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan