Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng

1 MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT iv DANH MỤC CÁC BẢNG BIỂU v DANH MỤC CÁC HÌNH VẼ . vi MỞ ĐẦU 1 CHƯƠNG 1 3 KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 3 1.1. Khai phá dữ liệu 3 1.1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu 3 1.1.2. Kiến trúc của hệ thống khai phá dữ liệu Error! Bookmark not defined 1.1.3. Quá trình khai phá dữ liệu 5 1.1.4. Nhiệm vụ của khai phá dữ liệu. . Error! Bookmark not defined 1.1.5. Các ứng dụng của khai phá dữ liệu . 6 1.2. Khai phá luật kết hợp trong cơ sở dữ liệu 7 1.2.1. Bài toán mở đầu Error! Bookmark not defined 1.2.2. Các khái niệm cơ sở 7 1.2.2.1. Cơ sở dữ liệu giao tác 7 1.2.2.2. Tập mục phổ biến 7 1.2.2.3. Luật kết hợp 8 1.2.3. Khai phá luật kết hợp 9 1.2.4. Các cách tiếp cận khai phá tập mục phổ biến Error! Bookmark not defined 1.2.5. Các thuật tốn điển hình khai phá tập mục phổ biến 10 1.2.5.1 Thuật toán Apriori . 10 1.2.5.2.Thuật toán FP_growth 12 1.2.6. Thuật toán sinh luật kết hợp: . 14 1.2.7. Một số mở rộng khai phá luật kết hợp 17 Kết luận chương 1 18 Chương 2: LUẬT KẾT HỢP HIẾM 19 2.1. Giới thiệu chung về luật kết hợp hiếm. 19 2.2. Một số hướng nghiên cứu chính phát hiện luật kết hợp hiếm . 19 2.2.1. Sử dụng ràng buộc phần hệ quả của luật . 20 2.2.2. Thiết lập đường biên phân chia các tập phổ biến và không phổ biến 21 2.2.3. Phát hiện luật kết hợp hiếm từ các CSDL định lượng 22 2.3. Khuynh hướng nghiên cứu về luật hiếm 22 2.4. Phát hiện luật kết hợp hiếm Sporadic trên CSDL giao tác 24 2.4.1. Khái niệm về luật hiếm Sporadic 24 2.4.2.Thuật toán Apriori-Inverse 26 2.4.3. Thuật tốn tìm tập Sporadic tuyệt đối hai ngưỡng đóng 31 2.4.3.1. Tập Sporadic tuyệt đối hai ngưỡng . 32 2.4.3.2. Thuật tốn MCPSI tìm tập Sporadic tuyệt đối hai ngưỡng đóng 34 Kết luận chương 2 37 Chương 3 . 38 THỰC NGHIỆM TÌM LUẬT HIẾM SPORADIC TUYỆT ĐỐI 38 3.1. Giới thiệu bài tốn . 38 3.2. Dữ liệu thực nghiệm 39 3.3. Xây dựng chương trình . 41 3.4. Thực nghiệm khai phá . 42 3.5. Kết quả thực nghiệm 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 47 TÀI LIỆU THAM KHẢO 49 LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “KHAI PHÁ LUẬT KẾT HỢP HIẾM TRÊN CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG” là công trình nghiên cứu của riêng tơi dưới sự hướng dẫn của TS. Nguyễn Huy Đức. Kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, khơng sao chép lại của người khác. Trong tồn bộ luận văn, những điều được trình bày trong luận văn là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trính dẫn hợp pháp. Tơi xin chịu hồn tồn trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Thái Ngun, ngày tháng năm 2015 Người cam đoan Nguyễn Thị Hải Lý LỜI CẢM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới TS. Nguyễn Huy Đức - Trường Cao đẳng Sư phạm Trung ương, Thầy đã chỉ bảo và hướng dẫn tận tình cho tơi trong suốt q trình nghiên cứu khoa học và thực hiện luận văn này. Tôi xin chân thành cám ơn sự dạy bảo, giúp đỡ, tạo điều kiện và khuyến khích tơi trong q trình học tập và nghiên cứu của các thầy cơ giáo của Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin và Truyền thơng - Đại học Thái Ngun. Và cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè, những người ln ở bên tơi những lúc khó khăn nhất, ln động viên tơi khuyết khích tơi trong cuộc sống và trong cơng việc. Tơi xin chân thành cảm ơn! Thái Ngun, ngày tháng Tác giả Nguyễn Thị Hải Lý năm 2015 DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu Diễn giải KPDL Khai phá dữ liệu CSDL Cơ sở dữ liệu DB Cơ sở dữ liệu giao tác TID Định danh của giao tác I Tập các mục dữ liệu T Giao tác (transaction) Ck Tập các ứng viên là tập mục có k mục dữ liệu Lk Tập các tập mục phổ biến có k mục dữ liệu k-itemset Tập mục gồm k mục BFS Breadth First Search (Duyệt theo chiều rộng) DFS Depth First Search (Duyệt theo chiều sâu) FP-growth Frequent-Pattern Growth FP-tree Frequent pattern tree Sup Độ hỗ trợ (support) Conf Độ tin cậy (Confiden) Minsup Ngưỡng hỗ trợ tối thiểu Minconf Ngưỡng tin cậy tối thiểu DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Danh mục các tập mục trong CSDLError! Bookmark not defined Bảng 1.2: Biểu diễn ngang của CSDL giao tác.Error! Bookmark not defined Bảng 1.3: Biểu diễn dọc của CSDL giao tác. . Error! Bookmark not defined Bảng 1.4: Ma trận giao tác của CSDL bảng 1.2Error! Bookmark not defined Bảng 1.5: Cơ sở dữ liệu DB Error! Bookmark not defined Bảng 1.6 : Độ hỗ trợ của các mục Error! Bookmark not defined Bảng 1.7: Độ hỗ trợ của các tập mục Error! Bookmark not defined Bảng 1.8: Độ tin cậy của các luật Error! Bookmark not defined Bảng 1.10 : Cơ sở dữ liệu minh họa thực hiện thuật toán COFI-tree.Error! Bookmark not de Bảng 1.11 : Các mục dữ liệu và độ hỗ trợ. Error! Bookmark not defined Bảng 1.12 : Các mục dữ liệu phổ biến đã sắp thứ tự.Error! Bookmark not defined Bảng 1.13 : Các mục dữ liệu trong giao tác giảm dần theo độ hỗ trợ.Error! Bookmark not d Bảng 2.1 : Ví dụ CSDL giao tác D cho thuật tốn Apriori-Inverse . 28 Bảng 2.2 : Biểu diễn dọc của CSDL D trong bảng 2.1 . 29 Bảng 2.3 : Độ hỗ trợ của từng mục dữ liệu của CSDL D 29 Bảng 2.4 : Các mục sporadic và độ hỗ trợ 29 Bảng 2.5 : Các 2- tập mục ứng viên 30 Bảng 2.6 : Các tập mục sporadic tuyệt đối 30 Bảng 2.7 : Các luật sporadic tuyệt đối 31 Bảng 2.8: CSDL giao tác minh họa thuật toán MCPSI 36 Bảng 3.1: Dữ liệu đã trích chọn để khai phá 39 Bảng 3.2: Mã hóa các mặt hàng 39 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Q trình khám phá tri thức 4 Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệuError! Bookmark not defined Hình 1.3: Quá trình khai phá dữ liệu 6 Hình 1.4 : Phân loại các thuật tốn khai phá tập mục phổ biến.Error! Bookmark not defined Hình 1.5: Cây FP-tree của CSDL bảng 1.10. Error! Bookmark not defined Hình 1.6: Cây COFI-tree của mục D. Error! Bookmark not defined Hình 1.7: Các bước khai phá cây D-COFI-tree.Error! Bookmark not defined Hình 2.1: Minh họa tìm các tập Sporadic tuyệt đối hai ngưỡng đóng. 37 Hình 3.1: Dữ liệu đã mã hóa chuẩn bị cho khai phá 41 Hình 3.2: Giao diện chương trình . 42 Hình 3.3: Giao diện chương trình tìm tập Sporadic tuyệt đối 43 Hình 3.4: Kết quả tìm tập Sporadic tuyệt đối 44 Hình 3.5: Giao diện chương trình tìm luật Sporadic tuyệt đối . 45 Hình 3.6: Kết quả tìm luật Sporadic tuyệt đối . 45 MỞ ĐẦU Đặt vấn đề Trong lĩnh vực khai phá dữ liệu (data mining), luật kết hợp (association rule) được dùng để chỉ mối quan hệ kiểu “điều kiệnhệ quả” giữa các phần tử dữ liệu (chẳng hạn, sự xuất hiện của tập mặt hàng này “kéo theo” sự xuất hiện của tập mặt hàng khác) trong một tập bao gồm nhiều đối tượng dữ liệu (chẳng hạn, các giao dịch mua hàng) …. Phát hiện luật kết hợp là phát hiện các mối quan hệ đó trong phạm vi của một tập dữ liệu đã cho. Bài tốn phát hiện luật kết hợp được Rakesh Agrawal và cộng sự giới thiệu lần đầu tiên vào năm 1993 [4] và nhanh chóng trở thành một trong những hướng nghiên cứu quan trọng của khai phá dữ liệu, đặc biệt trong những năm gần đây. Phát hiện luật kết hợp [5, 10] đã được ứng dụng thành công trong nhiều lĩnh vực kinh tế-xã hội khác nhau như: thương mại, y tế, sinh học, tài chính - ngân hàng,…Hiện tại, nhiều khuynh hướng nghiên cứu và ứng dụng liên quan đến phát hiện luật kết hợp đã và đang tiếp tục được hình thành. Một trong những vấn đề về phát hiện luật kết hợp hiện đang nhận được nhiều quan tâm của các nhà nghiên cứu là phát hiện luật kết hợp hiếm. Luật kết hợp hiếm là những luật kết hợp ít xảy ra. Mặc dù tần suất xảy ra thấp, nhưng trong nhiều trường hợp, các luật này lại rất có giá trị. Từ những yêu cầu, thực tế trên, em đã chọn đề tài “Khai phá luật kết hợp sở liệu ứng dụng”. Đối tượng phạm vi nghiên cứu Nghiên cứu các phương pháp, thuật toán khai phá luật kết hợp, đi sâu vào bài toán phát hiện luật kết hợp hiếm thuộc lĩnh vực phát hiện tri thức từ dữ liệu và ứng dụng. Luận văn tìm hiểu luật kết hợp hiếm Sporadic, trong hai loại của luật hiếm Sporadic là luật hiếm Sporadic tuyệt đối và luật hiếm Sporadic khơng tuyệt đối, luận văn đi sâu tìm hiểu luật hiếm Sporadic tuyệt đối trên cơ sở dữ liệu giao tác. Hướng nghiên cứu đề tài - Nghiên cứu các kỹ thuật, phương pháp khai phá luật kết hợp. - Tìm hiểu sâu về khai phá luật hiếm Sporadic tuyệt đối trên cơ sở dữ liệu giao tác. - Cài đặt, thực nghiệm phát hiện luật kết hợp hiếm trên CSDL. Những nội dung nghiên cứu Từ những mục tiêu và yêu cầu của đề tài nghiên cứu, đề tài được xây dựng gồm phần mở đầu, 3 chương nội dung và phần kết luận, cụ thể như sau: Chương 1: Khai phá dữ liệu và bài tốn khai phá luật kết hợp Chương 2: Luật kết hợp hiếm. Chương 3: Thực nghiệm tìm luật hiếm Sporadic tuyệt đối Phương pháp nghiên cứu Phương pháp nghiên cứu chính là nghiên cứu lý thuyết kết hợp với đánh giá thực nghiệm. Cụ thể là: tổng hợp các kết quả nghiên cứu về khai phá luật kết hợp và luật kết hợp hiếm đã cơng bố trên các bài báo khoa học, hội thảo chun ngành trong và ngồi nước, từ đó trình bày làm rõ vấn đề phát triển khai phá luật kết hợp hiếm và xây dựng chương trình thực nghiệm đánh giá ứng dụng. Ý nghĩa khoa học đề tài Phần lớn các thuật toán phát hiện luật kết hợp hiện nay thường thực hiện tìm các luật có độ hỗ trợ và độ tin cậy cao. Việc ứng dụng các thuật tốn này để tìm các luật kết hợp hiếm (có độ hỗ trợ thấp, độ tin cậy cao) là khơng hiệu quả do phải đặt ngưỡng độ hỗ trợ cực tiểu rất nhỏ, nên số lượng các tập phổ biến tìm được sẽ khá lớn (trong khi chỉ có một phần trong các tập tìm được có độ hỗ trợ nhỏ hơn ngưỡng độ hỗ trợ cực tiểu minSup) và như vậy chi phí cho việc tìm kiếm sẽ tăng lên. Nhằm khắc phục những khó khăn này, cần có những nghiên cứu các phương pháp, thuật toán riêng cho phát hiện luật kết hợp hiếm. CHƯƠNG KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 1.1 Khai phá liệu 1.1.1 Quá trình phát tri thức từ sở liệu Trong thời đại hiện đại của thế kỷ 21, với sự phát triển vượt bậc của cơng nghệ thơng tin, các hệ thống thơng tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Lượng dữ liệu được lưu trữ dẫn đến một địi hỏi cấp bách phải có những kỹ thuật mới, những cơng cụ tự động mới trợ giúp con người một cách thơng minh trong việc chuyển đổi một lượng lớn dữ liệu thành thơng tin hữu ích. Một số nhà khoa học xem khai phá dữ liệu như là một cách gọi khác của một thuật ngữ cũng rất thơng dụng là khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD)[5], vì cho rằng mục đích của q trình khám phá tri thức là thông tin và tri thức có ích, nhưng đối tượng mà chúng ta phải xử lý rất nhiều trong suốt q trình khám phá tri thức lại chính là dữ liệu. Một số nhà khoa học khác thì xem khai phá dữ liệu như là một bước chính trong q trình khám phá tri thức. Hiểu q trình khám phá, phát hiện tri thức ở đây là gì? Thơng thường chúng ta coi dữ liệu như là một dãy các bit, các số và các ký hiệu, hoặc các “đối tượng” được gửi cho một chương trình dưới một định dạng nhất định nào đó. Chúng ta sử dụng các bit để đo lường thơng tin, khi sử dụng xem nó như là dữ liệu đã được lọc bỏ dư thừa, được rút gọn tới mức tối thiểu. Bít được dùng làm đơn vị đặc trưng cho dữ liệu. Chúng ta có thể xem tri thức như là các thơng tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể được học, được hiểu, được phát hiện ra. Nói cách khác, tri thức có thể coi là dữ liệu có độ trừu tượng và tổ chức cao. Thuật ngữ KPDL ra đời vào những năm cuối của thập kỷ 1980. Khai phá dữ liệu bao gồm nhiều hướng tiếp cận, là sự kết hợp của nhiều ngành như: Cơ sở dữ liệu; Học máy; Trí tuệ nhân tạo; Lý thuyết thơng tin; Xác suất thống kê; Tính tốn hiệu năng cao và các phương pháp tính tốn mềm v. v…. Có rất nhiều định nghĩa khác nhau về "KPDL" đã được đưa ra, ta có thể hiểu khai phá dữ liệu là q trình tìm kiếm những thơng tin (tri thức) có ích, tiềm ẩn và mang tính dự đốn trong các khối cơ sở dữ liệu lớn. 37 nhỏ hơn minSup nên bị loại. Khi kết hợp với F được tập BCF cũng có độ hỗ trợ nhỏ hơn minSup nên cũng bị loại. Kết hợp với H, g(BC) ⊂g(H) nên thay BC bằng BCH (X = BCH), tập này có độ hỗ trợ khơng nhỏ hơn minSup. Kết thúc trên nhánh B chỉ tìm được tập BCH. Tập mục dữ liệu BCH có sup(BCH) = 0,25 thỏa mãn điều kiện minSup ≤sup(BCH)

Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan