Một số phương pháp khai phá dữ liệu sinh luật kết hợp luận văn ths công nghệ thông tin 1 01 10

137 18 0
Một số phương pháp khai phá dữ liệu sinh luật kết hợp  luận văn ths công nghệ thông tin 1 01 10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĨNH HOÀNG MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU SINH LUẬT KẾT HỢP LUẬN VĂN THẠC SĨ Hà Nội - 2007 Mục lục Lời cảm ơn MỞ ĐẦU Chương 1: Tổng quan khai phá liệu (KPDL) 1.1 Khái niệm 1.2 Các hướng tiếp cận KPDL 10 1.3 Một số phương pháp KPDL phổ biến 10 1.3.1 Phương pháp suy diễn quy nạp 10 1.3.2 Cây định luật 10 1.3.3 Phát luật kết hợp 11 1.3.4 Phân nhóm phân đoạn 11 1.3.5 Mạng Neural 12 1.3.6 Giải thuật di truyền 12 1.4 Lựa chọn kỹ thuật khai phá 13 1.5 Các dạng CSDL thường sử dụng để KPDL 14 1.6 Một số ứng dụng KPDL 14 Chương 2: Một số vấn đề Luật kết hợp 16 2.1 Định nghĩa luật kết hợp 16 2.1.1 Ví dụ luật kết hợp 16 2.1.2 Các định nghĩa tính chất 16 2.1.2.1 Các định nghĩa 16 2.1.2.2 Một số tính chất tập mục phổ biến 19 2.1.2.3 Một số tính chất luật kết hợp 19 2.2 Các loại luật kết hợp hướng tiếp cận 20 2.2.1 Luật kết hợp nhị phân 20 2.2.2 Luật kết hợp định lượng 20 2.2.2.1 Giới thiệu 20 2.2.2.2 Khai phá luật kết hợp định lượng 20 2.2.3 Luật kết hợp đơn chiều 22 2.2.4 Luật kết hợp đa chiều 22 2.2.5 Luật kết hợp đa mức 22 2.2.5.1 Giới thiệu 22 2.2.5.2 Khai phá luật kết hợp đa mức 24 2.2.6 Luật kết hợp với thuộc tính có trọng số 27 2.2.7 Luật kết hợp mờ 27 2.2.8 Luật kết hợp đóng 27 Một số phương pháp khai phá liệu sinh luật kết hợp Chương 3: Một số phương pháp KPDL sinh luật kết hợp 29 3.1 Thuật toán Apriori 29 3.1.1 Giới thiệu 29 3.1.2 Thuật toán 33 3.1.3 Nâng cao hiệu thuật toán Apriori 35 3.1.3.1 Sử dụng kỹ thuật băm 35 3.1.3.2 Rút gọn số giao dịch sau lần quét CSDL 37 3.1.3.3 Phân hoạch (Partitioning) 37 3.1.3.4 Lấy mẫu (Sampling) 38 3.1.4 Sinh luật kết hợp từ tập mục phổ biến 39 3.1.4.1 Thuật toán đơn giản sinh luật kết hợp từ tập mục phổ biến 39 3.1.4.2 Thuật toán nhanh sinh luật kết hợp từ tập mục phổ biến 40 3.2 Thuật toán FP-Growth 42 3.2.1 Giới thiệu 42 3.2.2 Thuật toán 47 3.2.3 Tổng kết 49 3.3 Thuật toán Charm 50 3.3.1 Giới thiệu 50 3.3.1.1 Một số khái niệm 50 3.3.1.2 Tốn tử đóng tập đóng 52 3.3.1.3 Cây tìm kiếm “tập mục – tập định danh” Lớp tương đương 53 3.3.2 Thuật toán 56 3.3.3 Sinh luật kết hợp từ tập mục đóng phổ biến 59 3.3.4 Tổng kết 60 3.4 Thuật toán Closet 63 3.4.1 Giới thiệu 63 3.4.2 Thuật toán 67 3.4.3 Tổng kết 68 Chương 4: Xây dựng ứng dụng minh hoạ 70 4.1 Giới thiệu 70 4.2 Phân tích Thiết kế hệ thống 71 4.3 Cài đặt Đánh giá 79 KẾT LUẬN 80 Danh sách tài liệu tham khảo tiếng Việt 82 Danh sách tài liệu tham khảo tiếng Anh 82 Danh sách WebSites tham khảo 83 Phụ lục (Mã nguồn chương trình) 83 Một số phương pháp khai phá liệu sinh luật kết hợp Ký hiệu Từ viết tắt Stt Ký hiệu viết tắt CSDL HQTCSDL KPDL KDD đpcm Một số phương pháp khai phá liệu sinh luật kết hợp Danh sách bảng luận văn Bảng 2.1: Ví dụ CSDL giao dịch 17 Bảng 2.2: Ví dụ tập mục phổ biến 17 Bảng 2.3: Các luật kết hợp sinh từ tập mục phổ biến ACW 19 Bảng 2.4: Dữ liệu điều tra dân số 21 Bảng 2.5: Danh sách thuộc tính sau rời rạc hố 22 Bảng 2.6: Ví dụ CSDL giao dịch bán hàng 23 Bảng 3.1: Ký hiệu mơ tả thuật tốn Apriori 30 Bảng 3.2: Cơ sở liệu minh hoạ thuật toán Apriori 31 Bảng 3.3: Thuật toán Apriori 34 Bảng 3.4: Thủ tục Apriori_Gen 34 Bảng 3.5: Thủ tục Has_Infrequent_Subset 35 Bảng 3.6: Thủ tục tính tích luỹ độ hỗ trợ ứng cử tập giao dịch t .37 Bảng 3.7: Thuật toán đơn giản sinh luật kết hợp từ tập mục phổ biến 40 Bảng 3.8: Thủ tục GenRules 40 Bảng 3.9: Thuật toán nhanh sinh luật kết hợp từ tập mục phổ biến 40 Bảng 3.10: Thủ tục Ap_GenRules 41 Bảng 3.11: Cơ sở liệu minh hoạ thuật toán FP-Growth 43 Bảng 3.12: Mô tả FP-tree 43 Bảng 3.13: Kết khai phá liệu thuật toán FP-Growth 46 Bảng 3.14: Thủ tục thêm tập mục vào FP-tree 47 Bảng 3.15: Thủ tục tạo FP-tree T từ CSDL D 47 Bảng 3.16: Thủ tục tạo CSDL phụ thuộc mẫu từ T 48 Bảng 3.17: Thủ tục FP_Growth 48 Bảng 3.18: Cơ sở liệu minh hoạ thuật toán Charm 51 Bảng 3.19: Mô tả IT-tree 54 Bảng 3.20: Thuật toán Charm 56 Bảng 3.21: Thủ tục Charm_Extend 57 Bảng 3.22: Thủ tục Charm_Property 57 Bảng 3.23: Thủ tục Subsumption_Check 58 Bảng 3.24: Thủ tục GenAllClosedRules 60 Bảng 3.25: Cơ sở liệu minh hoạ thuật toán Closet 63 Bảng 3.26: Thủ tục ClosetMining 67 Bảng 3.27: Thủ tục Closet 67 Bảng 4.1: Cấu trúc file liệu RawDataFile 70 Bảng 4.2: Cấu trúc file liệu StandardData 72 Bảng 4.3: Cấu trúc file ItemMap 73 Một số phương pháp khai phá liệu sinh luật kết hợp Bảng 4.4: Cấu trúc file DirectData 73 Bảng 4.5: Cấu trúc file DirectItemsets 73 Bảng 4.6: Cấu trúc file StandardItemsets 73 Bảng 4.7: Cấu trúc file DirectRules 74 Bảng 4.8: Cấu trúc file StandardRules 74 Bảng 4.9: Cấu trúc file ActualRules 74 Bảng 4.10: Cấu trúc file CompareInfo 75 Danh sách hình vẽ luận văn Hình 1.1: Các bước trình KDD Hình 2.1: Sự phân cấp mức độ trừu tượng liệu 23 Hình 2.2: Khai phá luật kết hợp đa mức với minsup giống mức 24 Hình 2.3: Khai phá luật kết hợp đa mức với minsup giảm dần 25 Hình 2.4: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc 25 Hình 2.5: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc k-mục .26 Hình 3.1: Minh hoạ thuật tốn Apriori 32 Hình 3.2: Minh hoạ băm (Hash tree) 36 Hình 3.3: Sơ đồ khai phá phân hoạch liệu 38 Hình 3.4: Minh hoạ xây dựng FP-tree 45 Hình 3.5: So sánh FP-Growth Apriori 49 Hình 3.6: Cây IT-tree (Itemset-Tidset Search Tree) 54 Hình 3.7: Minh hoạ thuật tốn Charm 58 Hình 3.8: So sánh Charm với Apriori, Close, Pascal, Mafia Closet 61 Hình 3.9: Minh hoạ thuật tốn Closet 64 Hình 3.10: So sánh Closet với A-Close Charm 68 Hình 4.1: Mơ hình quan hệ CSDL đơn hàng thực tế 70 Hình 4.2: Sơ đồ luồng liệu trường hợp dùng thuật toán cụ thể 71 Hình 4.3: Sơ đồ luồng liệu trường hợp so sánh thuật toán 72 Hình 4.4: Màn hình nhập liệu dạng Text 76 Hình 4.5: Màn hình nhập liệu dạng Grid (Visual) 76 Hình 4.6: Màn hình tiến trình thực khai phá liệu 77 Hình 4.7: Màn hình tiến trình so sánh giải thuật 77 Hình 4.8: Màn hình kết khai phá liệu dạng Text 78 Hình 4.9: Màn hình kết khai phá liệu dạng Grid (Visual) 78 Một số phương pháp khai phá liệu sinh luật kết hợp MỞ ĐẦU Ngày với Hệ quản trị sở liệu (HQTCSDL) mạnh, doanh nghiệp dễ dàng tổ chức, lưu trữ hàng triệu hồ sơ khách hàng, hợp đồng, số liệu kinh doanh, công văn, chứng từ, tài liệu, khai thác chúng cách có hiệu Có thể nói với ngơn ngữ truy vấn SQL, HQTCSDL ngày đáp ứng khoảng 80% nhu cầu khai thác thơng tin người Tuy nhiên, có chuyên viên phân tích thị trường đầy kinh nghiệm đưa kết luận như: “Khách hàng độ tuổi 18-22 mua hoa quà lưu niệm thường mua thêm thiệp” hay “Khi giá dầu thơ tăng đột biến số chứng khốn giảm” Vấn đề đặt liệu máy tính tự phát kết luận sau phân tích khối lượng lớn liệu hay khơng? Câu trả lời hồn tồn Trong vài thập niên gần đây, Khai phá liệu (KPDL) trở thành hướng nghiên cứu lĩnh vực khoa học máy tính cơng nghệ tri thức Trong q trình phát triển với hàng loạt nghiên cứu, đề xuất thử nghiệm ứng dụng thành công vào đời sống, chứng tỏ KPDL lĩnh vực nghiên cứu ổn định, có tảng lý thuyết vững KPDL bao hàm nhiều hướng tiếp cận Các kỹ thuật áp dụng lĩnh vực phần lớn thừa kế từ lĩnh vực sở liệu (CSDL), máy học (Machine Learning), trí tuệ nhân tạo (AI – Artificial Intelligence), lý thuyết thông tin, xác xuất thống kê tính tốn hiệu cao (High performance computing) Các toàn chủ yếu KPDL khai phá luật kết hợp (Association rules mining), phân lớp/dự đoán (Classification/Prediction), phân cụm (Clustering), khai phá chuỗi (Sequence mining), … Lĩnh vực điểm hội tụ giao thoa nhiều lĩnh vực khác KPDL ứng dụng thành cơng thương mại, tài & thị trường chứng khoán, sinh học, y học, giáo dục, viễn thông, … Khai phá luật kết hợp nội dung quan trọng KPDL đề xuất lần năm 1993 chí có chun gia khẳng định Phát luật kết hợp mục tiêu lĩnh vực khai phá liệu [002] Vì lĩnh vực nghiên cứu có nhiều triển vọng, nên chọn Một số phương pháp khai phá liệu sinh luật kết hợp làm đề tài cho luận văn Luận văn xây dựng dựa số nghiên cứu yếu lĩnh vực khai phá luật kết hợp năm gần Một số phương pháp khai phá liệu sinh luật kết hợp Luận văn tổ chức thành chương: Chương 1: Tổng quan Khai phá liệu Trình bày nét khái quát KPDL, hướng tiếp cận, phương pháp ứng dụng Chương 2: Một số vấn đề Luật kết hợp Trình bày vấn đề chung, Luật kết hợp, hướng tiếp cận vấn đề liên quan Chương 3: Một số phương pháp khai phá liệu sinh luật kết hợp Trình bày phương pháp, giải thuật khai phá luật kết hợp từ liệu Apriori, FP-Growth, Charm Closet Chương 4: Xây dựng ứng dụng minh hoạ Triển khai giải thuật khai phá luật kết hợp trình bày Chương áp dụng vào CSDL đơn hàng thực tế so sánh chúng với Một số phương pháp khai phá liệu sinh luật kết hợp Chương 1: Tổng quan khai phá liệu (KPDL) 1.1 Khái niệm KPDL (Data Mining) trình tìm kiếm, phát tri thức tiềm ẩn hữu dụng CDSL định Trong tri thức ngầm hiểu thơng tin mang tính chất quy luật hữu ích người sử dụng KPDL bước quan trọng trình Khai phá tri thức (KDD – Knowledge Discovery in Database) - gồm bước sau [006]: + Thu thập liệu (Data colection): bước thu thập, trích chọn tập liệu cần khai phá từ tập liệu lớn (Databases, Data marts, Data warehouses, Data repositories) ban đầu theo số tiêu chí định + Tiền xử lý liệu (Data preprocessing): bước làm liệu (xử lý với liệu không đầy đủ, liệu nhiễu, liệu không quán, …), rút gọn liệu (sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng histograms, lấy mẫu, …), rời rạc hoá liệu (rời rạc hoá dựa vào histograms, entropy, phân khoảng, …) Sau bước này, liệu quán, đầy đủ, rút gọn, rời rạc hóa + Biến đổi liệu (Data Transformation): bước chuẩn hoá làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai phá bước sau + KPDL (Data mining): bước áp dụng kỹ thuật phân tích (phần nhiều kỹ thuật máy học) nhằm để khai phá liệu, trích chọn mẫu thơng tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian tồn q trình KDD + Đánh giá biểu diễn tri thức (Knowledge presentation and evaluation): chuyển biểu diễn mẫu thông tin mối liên hệ liệu khám phá bước dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, … Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định Dữ liệu thơ Tri thức Hình 1.1: Các bước trình KDD Một số phương pháp khai phá liệu sinh luật kết hợp ... chọn Một số phương pháp khai phá liệu sinh luật kết hợp làm đề tài cho luận văn Luận văn xây dựng dựa số nghiên cứu yếu lĩnh vực khai phá luật kết hợp năm gần Một số phương pháp khai phá liệu sinh. .. trọng số 27 2.2.7 Luật kết hợp mờ 27 2.2.8 Luật kết hợp đóng 27 Một số phương pháp khai phá liệu sinh luật kết hợp Chương 3: Một số phương pháp KPDL sinh luật. .. Một số phương pháp khai phá liệu sinh luật kết hợp Ký hiệu Từ viết tắt Stt Ký hiệu viết tắt CSDL HQTCSDL KPDL KDD đpcm Một số phương pháp khai phá liệu sinh luật kết hợp Danh sách bảng luận văn

Ngày đăng: 11/11/2020, 21:45

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan