Một số phương pháp khai phá dữ liệu sinh luật kết hợp

83 60 0
Một số phương pháp khai phá dữ liệu sinh luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĨNH HOÀNG MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU SINH LUẬT KẾT HỢP LUẬN VĂN THẠC SĨ Hà Nội - 2007 Mục lục Lời cảm ơn MỞ ĐẦU Chương 1: Tổng quan khai phá liệu (KPDL) 1.1 Khái niệm 1.2 Các hướng tiếp cận KPDL 10 1.3 Một số phương pháp KPDL phổ biến 10 1.3.1 Phương pháp suy diễn quy nạp 10 1.3.2 Cây định luật 10 1.3.3 Phát luật kết hợp 11 1.3.4 Phân nhóm phân đoạn 11 1.3.5 Mạng Neural 12 1.3.6 Giải thuật di truyền 12 1.4 Lựa chọn kỹ thuật khai phá 13 1.5 Các dạng CSDL thường sử dụng để KPDL 14 1.6 Một số ứng dụng KPDL 14 Chương 2: Một số vấn đề Luật kết hợp 16 2.1 Định nghĩa luật kết hợp 16 2.1.1 Ví dụ luật kết hợp 16 2.1.2 Các định nghĩa tính chất 16 2.1.2.1 Các định nghĩa 16 2.1.2.2 Một số tính chất tập mục phổ biến 19 2.1.2.3 Một số tính chất luật kết hợp 19 2.2 Các loại luật kết hợp hướng tiếp cận 20 2.2.1 Luật kết hợp nhị phân 20 2.2.2 Luật kết hợp định lượng 20 2.2.2.1 Giới thiệu 20 2.2.2.2 Khai phá luật kết hợp định lượng 20 2.2.3 Luật kết hợp đơn chiều 22 2.2.4 Luật kết hợp đa chiều 22 2.2.5 Luật kết hợp đa mức 22 2.2.5.1 Giới thiệu 22 2.2.5.2 Khai phá luật kết hợp đa mức 24 2.2.6 Luật kết hợp với thuộc tính có trọng số 27 2.2.7 Luật kết hợp mờ 27 2.2.8 Luật kết hợp đóng 27 Một số phương pháp khai phá liệu sinh luật kết hợp Chương 3: Một số phương pháp KPDL sinh luật kết hợp 29 3.1 Thuật toán Apriori 29 3.1.1 Giới thiệu 29 3.1.2 Thuật toán 33 3.1.3 Nâng cao hiệu thuật toán Apriori 35 3.1.3.1 Sử dụng kỹ thuật băm 35 3.1.3.2 Rút gọn số giao dịch sau lần quét CSDL 37 3.1.3.3 Phân hoạch (Partitioning) 37 3.1.3.4 Lấy mẫu (Sampling) 38 3.1.4 Sinh luật kết hợp từ tập mục phổ biến 39 3.1.4.1 Thuật toán đơn giản sinh luật kết hợp từ tập mục phổ biến 39 3.1.4.2 Thuật toán nhanh sinh luật kết hợp từ tập mục phổ biến 40 3.2 Thuật toán FP-Growth 42 3.2.1 Giới thiệu 42 3.2.2 Thuật toán 47 3.2.3 Tổng kết 49 3.3 Thuật toán Charm 50 3.3.1 Giới thiệu 50 3.3.1.1 Một số khái niệm 50 3.3.1.2 Tốn tử đóng tập đóng 52 3.3.1.3 Cây tìm kiếm “tập mục – tập định danh” Lớp tương đương 53 3.3.2 Thuật toán 56 3.3.3 Sinh luật kết hợp từ tập mục đóng phổ biến 59 3.3.4 Tổng kết 60 3.4 Thuật toán Closet 63 3.4.1 Giới thiệu 63 3.4.2 Thuật toán 67 3.4.3 Tổng kết 68 Chương 4: Xây dựng ứng dụng minh hoạ 70 4.1 Giới thiệu 70 4.2 Phân tích Thiết kế hệ thống 71 4.3 Cài đặt Đánh giá 79 KẾT LUẬN 80 Danh sách tài liệu tham khảo tiếng Việt 82 Danh sách tài liệu tham khảo tiếng Anh 82 Danh sách WebSites tham khảo 83 Phụ lục (Mã nguồn chương trình) 83 Một số phương pháp khai phá liệu sinh luật kết hợp Ký hiệu Từ viết tắt Stt Ký hiệu viết tắt CSDL HQTCSDL KPDL KDD đpcm Nghĩa tiếng Việt Cơ sở liệu Hệ quản trị sở liệu Khai phá liệu Khai phá tri thức Điều phải chứng minh Một số phương pháp khai phá liệu sinh luật kết hợp Nghĩa tiếng Anh Database Database Management System Data Mining Knowledge Discovery in Database Danh sách bảng luận văn Bảng 2.1: Ví dụ CSDL giao dịch 17 Bảng 2.2: Ví dụ tập mục phổ biến 17 Bảng 2.3: Các luật kết hợp sinh từ tập mục phổ biến ACW 19 Bảng 2.4: Dữ liệu điều tra dân số 21 Bảng 2.5: Danh sách thuộc tính sau rời rạc hố 22 Bảng 2.6: Ví dụ CSDL giao dịch bán hàng 23 Bảng 3.1: Ký hiệu mô tả thuật toán Apriori .30 Bảng 3.2: Cơ sở liệu minh hoạ thuật toán Apriori 31 Bảng 3.3: Thuật toán Apriori 34 Bảng 3.4: Thủ tục Apriori_Gen 34 Bảng 3.5: Thủ tục Has_Infrequent_Subset 35 Bảng 3.6: Thủ tục tính tích luỹ độ hỗ trợ ứng cử tập giao dịch t 37 Bảng 3.7: Thuật toán đơn giản sinh luật kết hợp từ tập mục phổ biến 40 Bảng 3.8: Thủ tục GenRules .40 Bảng 3.9: Thuật toán nhanh sinh luật kết hợp từ tập mục phổ biến 40 Bảng 3.10: Thủ tục Ap_GenRules 41 Bảng 3.11: Cơ sở liệu minh hoạ thuật toán FP-Growth 43 Bảng 3.12: Mô tả FP-tree .43 Bảng 3.13: Kết khai phá liệu thuật toán FP-Growth 46 Bảng 3.14: Thủ tục thêm tập mục vào FP-tree 47 Bảng 3.15: Thủ tục tạo FP-tree T từ CSDL D .47 Bảng 3.16: Thủ tục tạo CSDL phụ thuộc mẫu từ T .48 Bảng 3.17: Thủ tục FP_Growth 48 Bảng 3.18: Cơ sở liệu minh hoạ thuật toán Charm 51 Bảng 3.19: Mô tả IT-tree 54 Bảng 3.20: Thuật toán Charm .56 Bảng 3.21: Thủ tục Charm_Extend .57 Bảng 3.22: Thủ tục Charm_Property 57 Bảng 3.23: Thủ tục Subsumption_Check 58 Bảng 3.24: Thủ tục GenAllClosedRules .60 Bảng 3.25: Cơ sở liệu minh hoạ thuật toán Closet 63 Bảng 3.26: Thủ tục ClosetMining .67 Bảng 3.27: Thủ tục Closet 67 Bảng 4.1: Cấu trúc file liệu RawDataFile 70 Bảng 4.2: Cấu trúc file liệu StandardData 72 Bảng 4.3: Cấu trúc file ItemMap 73 Một số phương pháp khai phá liệu sinh luật kết hợp Bảng 4.4: Cấu trúc file DirectData 73 Bảng 4.5: Cấu trúc file DirectItemsets 73 Bảng 4.6: Cấu trúc file StandardItemsets 73 Bảng 4.7: Cấu trúc file DirectRules 74 Bảng 4.8: Cấu trúc file StandardRules 74 Bảng 4.9: Cấu trúc file ActualRules 74 Bảng 4.10: Cấu trúc file CompareInfo 75 Danh sách hình vẽ luận văn Hình 1.1: Các bước trình KDD Hình 2.1: Sự phân cấp mức độ trừu tượng liệu 23 Hình 2.2: Khai phá luật kết hợp đa mức với minsup giống mức 24 Hình 2.3: Khai phá luật kết hợp đa mức với minsup giảm dần 25 Hình 2.4: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc .25 Hình 2.5: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc k-mục .26 Hình 3.1: Minh hoạ thuật toán Apriori 32 Hình 3.2: Minh hoạ băm (Hash tree) 36 Hình 3.3: Sơ đồ khai phá phân hoạch liệu .38 Hình 3.4: Minh hoạ xây dựng FP-tree 45 Hình 3.5: So sánh FP-Growth Apriori 49 Hình 3.6: Cây IT-tree (Itemset-Tidset Search Tree) 54 Hình 3.7: Minh hoạ thuật tốn Charm 58 Hình 3.8: So sánh Charm với Apriori, Close, Pascal, Mafia Closet 61 Hình 3.9: Minh hoạ thuật toán Closet 64 Hình 3.10: So sánh Closet với A-Close Charm 68 Hình 4.1: Mơ hình quan hệ CSDL đơn hàng thực tế 70 Hình 4.2: Sơ đồ luồng liệu trường hợp dùng thuật toán cụ thể .71 Hình 4.3: Sơ đồ luồng liệu trường hợp so sánh thuật tốn 72 Hình 4.4: Màn hình nhập liệu dạng Text .76 Hình 4.5: Màn hình nhập liệu dạng Grid (Visual) .76 Hình 4.6: Màn hình tiến trình thực khai phá liệu 77 Hình 4.7: Màn hình tiến trình so sánh giải thuật 77 Hình 4.8: Màn hình kết khai phá liệu dạng Text 78 Hình 4.9: Màn hình kết khai phá liệu dạng Grid (Visual) 78 Một số phương pháp khai phá liệu sinh luật kết hợp MỞ ĐẦU Ngày với Hệ quản trị sở liệu (HQTCSDL) mạnh, doanh nghiệp dễ dàng tổ chức, lưu trữ hàng triệu hồ sơ khách hàng, hợp đồng, số liệu kinh doanh, công văn, chứng từ, tài liệu, khai thác chúng cách có hiệu Có thể nói với ngơn ngữ truy vấn SQL, HQTCSDL ngày đáp ứng khoảng 80% nhu cầu khai thác thông tin người Tuy nhiên, có chun viên phân tích thị trường đầy kinh nghiệm đưa kết luận như: “Khách hàng độ tuổi 18-22 mua hoa quà lưu niệm thường mua thêm thiệp” hay “Khi giá dầu thơ tăng đột biến số chứng khoán giảm” Vấn đề đặt liệu máy tính tự phát kết luận sau phân tích khối lượng lớn liệu hay không? Câu trả lời hồn tồn Trong vài thập niên gần đây, Khai phá liệu (KPDL) trở thành hướng nghiên cứu lĩnh vực khoa học máy tính cơng nghệ tri thức Trong q trình phát triển với hàng loạt nghiên cứu, đề xuất thử nghiệm ứng dụng thành công vào đời sống, chứng tỏ KPDL lĩnh vực nghiên cứu ổn định, có tảng lý thuyết vững KPDL bao hàm nhiều hướng tiếp cận Các kỹ thuật áp dụng lĩnh vực phần lớn thừa kế từ lĩnh vực sở liệu (CSDL), máy học (Machine Learning), trí tuệ nhân tạo (AI – Artificial Intelligence), lý thuyết thông tin, xác xuất thống kê tính tốn hiệu cao (High performance computing) Các toàn chủ yếu KPDL khai phá luật kết hợp (Association rules mining), phân lớp/dự đoán (Classification/Prediction), phân cụm (Clustering), khai phá chuỗi (Sequence mining), … Lĩnh vực điểm hội tụ giao thoa nhiều lĩnh vực khác KPDL ứng dụng thành công thương mại, tài & thị trường chứng khốn, sinh học, y học, giáo dục, viễn thông, … Khai phá luật kết hợp nội dung quan trọng KPDL đề xuất lần năm 1993 chí có chuyên gia khẳng định Phát luật kết hợp mục tiêu lĩnh vực khai phá liệu [002] Vì lĩnh vực nghiên cứu có nhiều triển vọng, nên tơi chọn Một số phương pháp khai phá liệu sinh luật kết hợp làm đề tài cho luận văn Luận văn xây dựng dựa số nghiên cứu yếu lĩnh vực khai phá luật kết hợp năm gần Một số phương pháp khai phá liệu sinh luật kết hợp Luận văn tổ chức thành chương: Chương 1: Tổng quan Khai phá liệu Trình bày nét khái quát KPDL, hướng tiếp cận, phương pháp ứng dụng Chương 2: Một số vấn đề Luật kết hợp Trình bày vấn đề chung, Luật kết hợp, hướng tiếp cận vấn đề liên quan Chương 3: Một số phương pháp khai phá liệu sinh luật kết hợp Trình bày phương pháp, giải thuật khai phá luật kết hợp từ liệu Apriori, FP-Growth, Charm Closet Chương 4: Xây dựng ứng dụng minh hoạ Triển khai giải thuật khai phá luật kết hợp trình bày Chương áp dụng vào CSDL đơn hàng thực tế so sánh chúng với Một số phương pháp khai phá liệu sinh luật kết hợp Chương 1: Tổng quan khai phá liệu (KPDL) 1.1 Khái niệm KPDL (Data Mining) trình tìm kiếm, phát tri thức tiềm ẩn hữu dụng CDSL định Trong tri thức ngầm hiểu thơng tin mang tính chất quy luật hữu ích người sử dụng KPDL bước quan trọng trình Khai phá tri thức (KDD – Knowledge Discovery in Database) - gồm bước sau [006]: + Thu thập liệu (Data colection): bước thu thập, trích chọn tập liệu cần khai phá từ tập liệu lớn (Databases, Data marts, Data warehouses, Data repositories) ban đầu theo số tiêu chí định + Tiền xử lý liệu (Data preprocessing): bước làm liệu (xử lý với liệu không đầy đủ, liệu nhiễu, liệu không quán, …), rút gọn liệu (sử dụng hàm nhóm tính tổng, phương pháp nén liệu, sử dụng histograms, lấy mẫu, …), rời rạc hoá liệu (rời rạc hoá dựa vào histograms, entropy, phân khoảng, …) Sau bước này, liệu quán, đầy đủ, rút gọn, rời rạc hóa + Biến đổi liệu (Data Transformation): bước chuẩn hoá làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai phá bước sau + KPDL (Data mining): bước áp dụng kỹ thuật phân tích (phần nhiều kỹ thuật máy học) nhằm để khai phá liệu, trích chọn mẫu thơng tin, mối liên hệ đặc biệt liệu Đây xem bước quan trọng tốn nhiều thời gian tồn q trình KDD + Đánh giá biểu diễn tri thức (Knowledge presentation and evaluation): chuyển biểu diễn mẫu thông tin mối liên hệ liệu khám phá bước dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, … Đồng thời bước đánh giá tri thức khám phá theo tiêu chí định Dữ liệu thơ Tri thức Trích chọn DL Tiền xử lý DL Biến đổi DL Đánh giá Biểu diễn TT Khai phá DL Hình 1.1: Các bước trình KDD Một số phương pháp khai phá liệu sinh luật kết hợp 10 1.2 Các hướng tiếp cận KPDL Các hướng tiếp cận KPDL phân chia theo chức hay lớp toán khác nhau, số hướng tiếp cận chính: + Phân lớp Dự đốn (Classification and Prediction): xếp đối tượng vào lớp biết trước Ví dụ: phân lớp bệnh nhân theo liệu hồ sơ bệnh án Hướng tiếp cận thường sử dụng số kỹ thuật học máy định (Decision tree), mạng nơron nhân tạo (Neural network), … Phân lớp dự đốn cịn gọi học có giám sát (Supervised learning) + Khai phá luật kết hợp (Association rules mining): khai phá tri thức dạng luật kết hợp Ví dụ: “60% nam giới vào siêu thị mua bia có tới 80% số họ mua thêm đậu phộng” Luật kết hợp ứng dụng nhiều lĩnh vực kinh doanh, y học, tin-sinh, tài thị trường chứng khốn, … + Phân tích chuỗi theo thời gian (Sequential/Temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Phương pháp ứng dụng nhiều lĩnh vực tài thị trường chứng khốn có tính dự báo cao + Phân cụm (Clustering/Segmentation): xếp đối tượng theo cụm liệu tự nhiên Phân cụm cịn gọi học khơng giám sát (Unsupervised learning) + Mô tả khái niệm (Concept description and summarization): thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn 1.3 Một số phương pháp KPDL phổ biến 1.3.1 Phương pháp suy diễn quy nạp + Phương pháp suy diễn: Rút thông tin kết logic từ thông tin nằm CSDL dựa quan hệ liệu Phương pháp suy diễn dựa kiện xác để suy tri thức từ thông tin cũ Mẫu chiết suất cách sử dụng phương pháp thường luật suy diễn + Phương pháp quy nạp: Các thông tin suy từ CSDL cách tự tìm kiếm, tạo mẫu sinh tri thức không bắt đầu với tri thức biết trước 1.3.2 Cây định luật + Cây định: Cây định phương pháp mô tả tri thức dạng đơn giản nhằm phân đối tượng liệu thành số lớp định Các nút gán nhãn tên thuộc tính, cạnh gán giá trị thuộc tính, miêu tả lớp khác Các đối tượng phân lớp theo đường cây, qua cạnh tương ứng với giá trị thuộc tính đối tượng tới Một số phương pháp khai phá liệu sinh luật kết hợp 69 trì đầy đủ thơng tin cho khai thác mẫu phổ biến Cây FP-tree không lớn CSDL gốc áp dụng kỹ thuật xếp giảm dần theo tần suất mục phổ biến chia sẻ nhiều hơn, độ nén cao tốc độ khai phá nhanh Độ cao tổng thể kích thước tác vụ lớn (sau lọc bỏ mục không thoả minsup) (3) Áp dụng tốt cho mẫu phổ biến ngắn hay dài, CSDL thưa hay dày Chỉ quét CSDL lần (4) Tính đắn thuật tốn Closet chứng minh [107] Thời gian xây dựng FP-tree O(n) với n số lượng giao dịch Tuy nhiên tổng thời gian khai phá FP-tree phụ thuộc tương đối khó đánh giá tỉ lệ với số mẫu phổ biến sinh Ngoài giải thuật tương đối phức tạp, không đơn giản Charm Một số phương pháp khai phá liệu sinh luật kết hợp 70 Chương 4: Xây dựng ứng dụng minh hoạ 4.1 Giới thiệu Chương trình bày kết xây dựng chương trình thử nghiệm khai phá luật kết hợp tinh thần áp dụng giải thuật trình bày vào khai phá CSDL đơn hàng thực tế so sánh thời gian chạy chúng với Customers Orders CustomerID: nvarchar(30) OrderID: nvarchar(30) CompanyName: nvarchar(40) ContactName: nvarchar(30) ContactTitle: nvarchar(30) Address: nvarchar(60) City: nvarchar(15) Country: nvarchar(15) Phone: nvarchar(24) Fax: nvarchar(24) CustomerID: nvarchar(30) EmployeeID: nvarchar(30) OrderDate: datetime RequiredDate: datetime Order_Details OrderID: nvarchar(30) ProductID: nvarchar(30) UnitPrice: float Quantity: float Discount: float Products ProductID: nvarchar(30) ProductName: nvarchar(40) SupplierID: nvarchar(30) CategoryID: nvarchar(30) Hình 4.1: Mơ hình quan hệ CSDL đơn hàng thực tế Ở liệu CSDL thực tế phản ánh đơn hàng đặt mua thiết bị phần cứng phần mềm công ty tin học phản ánh bảng Orders Order_Details CSDL qua bước tiền xử lý kết xuất tệp (file) liệu dạng văn (text) chứa giao dịch liên quan tới đơn hàng có dạng sau: Bảng 4.1: Cấu trúc file liệu RawDataFile FILETYPE=RAWDATAFILE BEGIN SYSTEMINFO MinSupport=0.4 MinConfidence=0.75 Separator=, END SYSTEMINFO BEGIN DATA PC, Windows98, Office97, SmallTotal Laptop, WindowsXP, Office2003, SmallTotal Laptop, Windows2000Pro, MaintainService, InstallService, SmallTotal END DATA Một số phương pháp khai phá liệu sinh luật kết hợp 71 4.2 Phân tích Thiết kế hệ thống Sơ đồ luồng liệu (data-flow diagram) hệ thống trường hợp sử dụng giải thuật để khai phá liệu: RawData Input data RawData ItemMap Mine request Standardize data M i n e U s e r StandardData Refine data DirectData Find freq itemsets DirectItemsets d a t a Result Std itemsets Std.Itemsets Generate rules DirectRules Standardize rules StdardRules Refine rules ActualRules Trong Tác nhân (actor) Tên Tác nhân Chức (function) Tên chức Kho liệu (data store) Tên kho liệu Hình 4.2: Sơ đồ luồng liệu trường hợp dùng thuật toán cụ thể Một số phương pháp khai phá liệu sinh luật kết hợp 72 Sơ đồ luồng liệu (data-flow diagram) hệ thống trường hợp so sánh giải thuật với trình khai phá liệu: CompareInfo Input data U s e r Compare request Result C o m p a r e CompareInfo DirectData Find freq itemsets DirectItemsets Hình 4.3: Sơ đồ luồng liệu trường hợp so sánh thuật tốn Trong đó: Bảng 4.2: Cấu trúc file liệu StandardData FILETYPE=STANDARDDATAFILE BEGIN SYSTEMINFO MINSUPPORT=0.04 MINCONFIDENCE=0.75 SEPARATOR=, SEPARATORBLOCKINFO=| SOURCEDATAFILE=E:\HoangTV\F0_RawData01.dat STANDARDDATAFILE=E:\HoangTV\F1_StandardData.dat ITEMMAPFILE=E:\HoangTV\F1a_ItemMap.dat END SYSTEMINFO BEGIN DATA 1,2,3,4 12,6,7,4 12,13,14,15,4 END DATA Một số phương pháp khai phá liệu sinh luật kết hợp 73 Bảng 4.3: Cấu trúc file ItemMap FILETYPE=ITEMMAPFILE BEGIN SYSTEMINFO END SYSTEMINFO BEGIN DATA 1=PC 2=Windows98 3=Office97 END DATA Bảng 4.4: Cấu trúc file DirectData 1,2,3,4 4,6,7,12 4,12,13,14,15 Bảng 4.5: Cấu trúc file DirectItemsets 1|79 1,4|25 1,4,7|10 Bảng 4.6: Cấu trúc file StandardItemsets FILETYPE=STANDARDITEMSETSFILE BEGIN SYSTEMINFO MINSUPPORT=0.04 TOTALTRANSACTIONS=235 MINSUPPORTINTEGER=9 END SYSTEMINFO BEGIN DATA 1|79 1,4|25 1,4,7|10 END DATA Một số phương pháp khai phá liệu sinh luật kết hợp 74 Bảng 4.7: Cấu trúc file DirectRules 10,24|1|9,0.0383,0.7500 1,19|11|14,0.0596,0.7778 1,23|11|21,0.0894,0.7500 Bảng 4.8: Cấu trúc file StandardRules FILETYPE=STANDARDRULESFILE BEGIN SYSTEMINFO MINSUPPORT=0.04 MINCONFIDENCE=0.75 END SYSTEMINFO BEGIN DATA 10,24|1|9,0.0383,0.7500 1,19|11|14,0.0596,0.7778 1,23|11|21,0.0894,0.7500 END DATA Bảng 4.9: Cấu trúc file ActualRules FILETYPE=ACTUALRULESFILE BEGIN SYSTEMINFO MINSUPPORT=0.04 MINCONFIDENCE=0.75 SEPARATOR=, SEPARATORBLOCKINFO=| TOTALTRANSACTIONS=235 MINSUPPORTINTEGER=9 TOTALITEMSETS=228 TOTALRULES=59 END SYSTEMINFO BEGIN DATA SqlServer2000, Office2000 -> PC (9, 0.0383, 0.7500) PC, Windows2003Server -> MediumTotal (14, 0.0596, 0.7778) PC, MultimediaTool -> MediumTotal (21, 0.0894, 0.7500) END DATA Một số phương pháp khai phá liệu sinh luật kết hợp 75 Bảng 4.10: Cấu trúc file CompareInfo FILETYPE=COMPAREINFO BEGIN SYSTEMINFO DirectDataFile=E:\HOANGTV\F2_DirectData.dat AlgorithmList=Apriori, FP-Growth MinSupportList=0.01, 0.02, 0.04 END SYSTEMINFO BEGIN DATA Apriori|0.01|1.152 FP-Growth|0.01|0.204 Apriori|0.02|0.750 FP-Growth|0.02|0.135 Apriori|0.04|0.350 FP-Growth|0.04|0.056 END DATA Một số phương pháp khai phá liệu sinh luật kết hợp 76 Các hình chức hệ thống: Hình 4.4: Màn hình nhập liệu dạng Text Hình 4.5: Màn hình nhập liệu dạng Grid (Visual) Một số phương pháp khai phá liệu sinh luật kết hợp 77 Hình 4.6: Màn hình tiến trình thực khai phá liệu Hình 4.7: Màn hình tiến trình so sánh giải thuật Một số phương pháp khai phá liệu sinh luật kết hợp 78 Hình 4.8: Màn hình kết khai phá liệu dạng Text Hình 4.9: Màn hình kết khai phá liệu dạng Grid (Visual) Một số phương pháp khai phá liệu sinh luật kết hợp 79 4.3 Cài đặt Đánh giá Chương trình viết ngơn ngữ lập trình C#.Net ngơn ngữ lập trình hướng đối tượng hướng thành phần đại Microsoft Chi tiết mã nguồn (Source code) trình bày phụ lục đính kèm Giao diện thiết kế đẹp mắt, hiệu nhập liệu (hỗ trợ nhập liệu dạng văn (Text) dạng lưới (Grid)) đơn giản việc lấy kết đầu – xem giới thiệu chương trình Thời gian chạy thực tế nhanh (xử lý 10,000 ghi đơn hàng khoảng giây máy Pentium IV 2.67 GHz 512MB RAM áp dụng giải thuật Apriori FP-Growth với minsup = 0.01) Chương trình cho phép khai phá liệu thực tế, cụ thể liệu đơn hàng thực tế cơng ty tin học Chương trình hồn tồn áp dụng trực tiếp khai phá sở liệu khác điều tra dân số, chẩn đoán bệnh, nhận dạng nấm, Tuy nhiên tương lai, cần cải tiến để chương trình khai phá luật kết hợp định lượng, luật kết hợp mờ CSDL có kích thước cực lớn Một số phương pháp khai phá liệu sinh luật kết hợp 80 KẾT LUẬN Khai phá liệu lĩnh vực cịn tương đối mới, bao gồm nhiều lĩnh vực nhiều kỹ thuật khác khai phá luật kết hợp mục tiêu quan trọng lĩnh vực khai phá liệu [002] Trên tinh thần cố gắng trình bày đầy đủ vấn đề phương pháp khai phá liệu, đặc biệt trình bày chi tiết, làm rõ vấn đề khai phá luật kết hợp thuật toán từ kinh điển Apriori tới thuật toán đại hiệu FP-Growth, Charm Closet Việc đánh giá độ phức tạp thuật toán khai phá luật kết hợp so sánh chúng với mặt lý thuyết việc khó, nhiên trường hợp tổng qt tốn khai phá luật kết hợp quy tốn Clique hai phía, tức trường hợp tổng quát ta phải chấp nhận giải tốn NP-Complete [112] Tuy nhiên, thực tế CSDL thưa, mẫu phổ biến thường ngắn, thuật tốn khai phá thường có độ phức tạp đa thức với kích thước liệu mà thơi Cụ thể hơn: Chương 1: Tổng quan Khai phá liệu Trình bày nét khái quát từ khái niệm bước trình KPDL Sơ lược hướng tiếp cận như: Phân lớp Dự đoán, Khai phá luật kết hợp, Phân cụm, phương pháp như: Suy diễn, Quy nạp, Cây định, Phát luật kết hợp, Phân nhóm, Mạng Nơron, Giải thuật di truyền, Và cuối nêu số ứng dụng thực tiễn KPDL Chương 2: Một số vấn đề Luật kết hợp Trình bày vấn đề chung, luật kết hợp định nghĩa tính chất loại luật kết hợp hướng tiếp cận tương ứng vấn đề liên quan Chương 3: Một số phương pháp khai phá liệu sinh luật kết hợp Trình bày chi tiết giải thuật khai phá luật kết hợp thông thường Apriori FPGrowth giải thuật khai phá luật kết hợp đóng Charm Closet Các giải thuật đại diện cho hướng tiếp cận: hướng Sinh ứng cử - kiểm tra (Apriori, Charm) hướng Không sinh ứng cử (FP - Growth, Closet) Mỗi thuật tốn trình bày chi tiết từ ý tưởng, chi tiết thuật toán minh hoạ tổng kết ưu nhược điểm riêng Chương 4: Xây dựng ứng dụng minh hoạ Xây dựng ứng dụng triển khai giải thuật trình bày Chương 3, gồm đầy đủ giải thuật: Apriori, FP-Growth, Charm, Closet CSDL đơn hàng thực tế so sánh chúng Một số phương pháp khai phá liệu sinh luật kết hợp 81 Hướng phát triển luận văn: + Nghiên cứu, đánh giá bổ sung giải thuật giải thuật cải tiến Mafia, Closet+, Charm-L + Nghiên cứu bổ sung chi tiết khai phá luật kết hợp đa mức, luật kết hợp định lượng luật kết hợp mờ + Ứng dụng kết nghiên cứu vào thực tiễn ngân hàng, thị trường chứng khoán, bệnh viện, Một số phương pháp khai phá liệu sinh luật kết hợp 82 Danh sách tài liệu tham khảo tiếng Việt [001] Nguyễn Huy Đức (2003), Một số vấn đề khai phá liệu, Luận văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội [002] Hoàng Kiếm (4/2005), Giải tốn máy tính nào, Tập (tái lần thứ nhất) NXB Giáo dục [003] Nguyễn Hùng Sơn (2006), Bài giảng Tập thô Khai phá liệu [004] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động kho liệu [005] Vũ Đức Thi (1997), Cơ sở liệu – Kiến thức thực hành NXB Thống Kê [006] Nguyễn Thanh Thuỷ (8/2001), Bài giảng Khai phá liệu - Kỹ thuật ứng dụng Danh sách tài liệu tham khảo tiếng Anh [101] R.Agrwal, R.Srikant (1994), Fast Algorithms for Mining Association Rules [102] Y.Bastide, R.Taouil, N.Pasquier, G.Stumme, and L.Lakhal (12/2000), Mining frequent patterns with counting inference SIGKDD Exploration, 2(2) [103] D.Burdick, M.Calimlim, and J.Gehrke (4/2001), Mafia: a maximal frequent itemset algorithm for transactional databases In Intl Conf on Data Engineering [104] A.Gyensei (2000), A fuzzy approach for mining quantitive association rules Turku centre for computer science, TUCS technical reports, No 336 [105] J.Han and M.Kamber (2001), Data Mining: Concepts and Techniques, Hacours Science and Technology Company, USA [106] J.Han, J.Pei, and Y.Yin (5/2000), Mining frequent patterns without candidate generation In Proc 2000 ACM-SIGMOD Int Conf Management of Data (SIGMOD’00), Dallas, TX [107] J.Han, J.Pei, and R.Mao (5/2000), Closet: An efficient algorithm for mining frequent closed itemsets In SIGMOD Intl Workshop on Data Mining and Knowledge Discovery [108] N.Pasquier, Y.Bastide, R.Taouil, and L.Lakhal (1/1999), Discovering frequent closed itemsets for association rules In 7th Intl Conf on Database Theory [109] J.Wiley & Sons (2003), Data Mining: Concepts, Models, Methods and Algorithms [110] M.J.Zaki and C.Hsiao (1999), Charm: An efficient algorithm for closed association rule mining In Technical Report, Computer Science, Rensselaer Polytechnic Institute [111] M.J.Zaki and C.Hsiao (4/2005), Charm and Charm-L: Efficient algorithm for mining closed itemsets and their lattice structure IEEE transactions on knowledge and data engineering, vol 17, no Một số phương pháp khai phá liệu sinh luật kết hợp 83 [112] M.J.Zaki and M.Ogihara (6/1998), Theoretical Foundations of Association Rules In 3rd ACM SIGMOD Workshop on Research Issues in Data mining and Knowledge Discovery Danh sách WebSites tham khảo [L01] http://en.wikipedia.org/wiki/Data_mining [L02] http://en.wikipedia.org/wiki/Association_rule_mining [L03] http://citeseer.ist.psu.edu/ [L04] http://citeseer.ist.psu.edu/agrawal93mining.html [L05] http://citeseer.ist.psu.edu/han99mining.html [L06] http://citeseer.ist.psu.edu/zaki02charm.html [L07] http://citeseer.ist.psu.edu/pei00closet.html [L08] http://citeseer.ist.psu.edu/zaki98theoretical.html [L09] http://citeseer.ist.psu.edu/goil99mafia.html [L10] http://www.cs.sfu.ca/ [L11] http://www.cs.sfu.ca/~jpei/publications/closed-gradient-tkde.pdf [L12] http://www.cs.sfu.ca/CC/741/jpei/slides/freqpat05.pdf [L13] http://fuzzy.cs.uni-magdeburg.de/ [L14] http://fuzzy.cs.uni-magdeburg.de/wiki/pmwiki.php [L15] http://www.comp.nus.edu.sg/~atung/publication/ [L16] http://www.oracle.com/technology/products/bi/odm/ [L17] http://ieeexplore.ieee.org/iel5/8907/28247/01264439.pdf [L18] http://ieeexplore.ieee.org/iel5/9681/30565/01410311.pdf Phụ lục (Mã nguồn chương trình) Một số phương pháp khai phá liệu sinh luật kết hợp ... chọn Một số phương pháp khai phá liệu sinh luật kết hợp làm đề tài cho luận văn Luận văn xây dựng dựa số nghiên cứu yếu lĩnh vực khai phá luật kết hợp năm gần Một số phương pháp khai phá liệu sinh. .. vấn đề chung, Luật kết hợp, hướng tiếp cận vấn đề liên quan Chương 3: Một số phương pháp khai phá liệu sinh luật kết hợp Trình bày phương pháp, giải thuật khai phá luật kết hợp từ liệu Apriori,... (insurance), Giáo dục (education), … Một số phương pháp khai phá liệu sinh luật kết hợp 16 Chương 2: Một số vấn đề Luật kết hợp Khai phá liệu sinh luật kết hợp hướng tiếp cận quan trọng KPDL nói

Ngày đăng: 16/03/2021, 10:19

Từ khóa liên quan

Mục lục

  • Mục lục

  • Ký hiệu và Từ viết tắt

  • Danh sách các bảng trong luận văn

  • MỞ ĐẦU

  • 1. Chương 1: Tổng quan về khai phá dữ liệu (KPDL)

  • 1.1. Khái niệm

  • 1.2. Các hướng tiếp cận chính trong KPDL

  • 1.3. Một số phương pháp KPDL phổ biến

  • 1.3.1. Phương pháp suy diễn và quy nạp

  • 1.3.2. Cây quyết định và luật

  • 1.3.3. Phát hiện các luật kết hợp

  • 1.3.4. Phân nhóm và phân đoạn

  • 1.3.5. Mạng Neural

  • 1.3.6. Giải thuật di truyền

  • 1.4. Lựa chọn các kỹ thuật khai phá

  • 1.5. Các dạng CSDL thường được sử dụng để KPDL

  • 1.6. Một số ứng dụng của KPDL

  • 2. Chương 2: Một số vấn đề cơ bản về Luật kết hợp

  • 2.1. Định nghĩa luật kết hợp

  • 2.1.1. Ví dụ về luật kết hợp

Tài liệu cùng người dùng

Tài liệu liên quan