Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong

23 4 0
Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/342787298 Khai thác tập phổ biến với ràng buộc kép mở rộng Thesis · May 2015 CITATIONS READS 132 author: Ngan Hoang Nguyen Thuy University of Louisiana at Lafayette 16 PUBLICATIONS   12 CITATIONS    SEE PROFILE All content following this page was uploaded by Ngan Hoang Nguyen Thuy on 14 December 2020 The user has requested enhancement of the downloaded file TRƯỜNG ĐẠI HỌC ĐÀ LẠT KHOA TOÁN – TIN HỌC  HOÀNG NGUYỄN THÙY NGÂN KHAI THÁC TẬP PHỔ BIẾN VỚI RÀNG BUỘC KÉP MỞ RỘNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHUYÊN NGÀNH TOÁN – TIN Đà Lạt, 5/2015 TRƯỜNG ĐẠI HỌC ĐÀ LẠT KHOA TOÁN – TIN HỌC  HOÀNG NGUYỄN THÙY NGÂN KHAI THÁC TẬP PHỔ BIẾN VỚI RÀNG BUỘC KÉP MỞ RỘNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHUYÊN NGÀNH TOÁN – TIN GIẢNG VIÊN HƯỚNG DẪN: TS TRƯƠNG CHÍ TÍN Đà Lạt, 5/2015 -3- MỤC LỤC KÝ HIỆU VÀ VIẾT TẮT trang 04 DANH MỤC CÁC BẢNG BIỂU trang 05 DANH MỤC CÁC HÌNH ẢNH trang 06 TÓM TẮT, ABSTRACT, TỪ KHÓA trang 07 CHƯƠNG 1: TỔNG QUAN trang 08 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT trang 11 CHƯƠNG 3: NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU trang 13 I Khai thác tập phổ biến với ràng buộc kép mở rộng trang 13 Phân hoạch tập phổ biến với ràng buộc kép mở rộng trang 13 Sinh phân biệt tập phổ biến thỏa ràng buộc lớp tương đương ℱ ∗ ⊆ ,⊈ ( ) trang 22 Các thủ tục thuật toán sinh tập phổ biến thỏa ràng buộc kép mở rộng trang 29 II Kết thử nghiệm trang 35 KẾT LUẬN VÀ ĐỀ NGHỊ trang 42 PHỤ LỤC trang 43 Phụ lục Các trường hợp có tốn trang 43 Phụ lục Chứng minh kết lý thuyết trang 45 Phụ lục Chi tiết ví dụ minh họa thuật tốn trang 61 Phụ lục Chi tiết kết thử nghiệm trang 73 Phụ lục Hướng dẫn sử dụng chương trình trang 76 TÀI LIỆU THAM KHẢO trang 85 CHỈ MỤC trang 86 -4- KÝ HIỆU VÀ VIẾT TẮT Hệ thống ký hiệu: (xem [1] tr.80, 81) : tập tập thuộc tính phổ biến Apriori: thuật toán đơn giản sinh đầy đủ, trùng lặp tất tập phổ biến ℱ CHARM-L: thuật toán sinh tất tập phổ biến đóng dàn ℒ : lớp chứa tất tập (con thuộc tính) đóng : lớp chứa tất tập phổ biến đóng ứng với : lớp chứa tất tập (con thuộc tính) phổ biến ( ): lớp chứa tất tập (con thuộc tính) sinh ∅ ⊂ ⊆ GFI: thuật toán sinh đầy đủ, khơng trùng lặp bảo tồn độ hỗ trợ tất tập phổ biến ℱ từ dàn ℒ : dàn chứa tập (con thuộc tính) đóng tập sinh tương ứng MFS_EDC (MFS_ExtendedDoubleConstraints): thuật toán sinh nhanh, đầy đủ, không trùng lặp itemset phổ biến thỏa ràng buộc kép mở rộng MinimalGenerators: thuật tốn tìm tất tập sinh từ tập phổ biến đóng dàn ℒ = , = : ngưỡng hỗ trợ tối thiểu ngưỡng hỗ trợ tối đa tập thuộc tính ≝( , , ): ngữ cảnh khai thác liệu tương ứng với bảng sở liệu nhị phân ( x ); đối tượng , tập thuộc tính ∈ , tập đối tượng ⊆ ⊆ ; thuộc tính ∈ -5- DANH MỤC CÁC BẢNG BIỂU Bảng 3.1: Dataset Bảng 3.2: Bảng sở liệu nhị phân ứng với Dataset Bảng 3.3: Kỹ thuật loại nhánh, nút tạo biên trên, biên Bảng 3.4.a-b: Kết thử nghiệm Bảng PL.1: Các trường hợp có tập ràng buộc cho toán ℱ ⊆ ,⊈ ( , )≝ ∈ℱ ( , Bảng PL.4.a-b: Chi tiết kết thử nghiệm ): ⊆ ′⊆ , ′⊈ -6- DANH MỤC CÁC HÌNH ẢNH Hình 3.1: Dàn đóng sinh ℒ ứng với Dataset Hình 3.2.a-b: Mơ tả quy trình thực giải pháp Hình 3.3: Thủ tục MFCS_ExtendedDoubleConstraints Hình 3.4: Thuật tốn MFS_ExtendedDoubleConstraints Hình 3.5: Thủ tục MFS_ExtendedDoubleConstraints_OneClass Hình 3.6: Thủ tục MFS_ExtendedDoubleConstraints_OneClass_Detail Hình 3.7.a-f: Mơ tả bước thực thủ tục MFCS_ExtendedDoubleConstraints dàn ℒ Hình 3.8.a: Biểu đồ thể thời gian trung bình thực thuật tốn MFS_EDC PP_MFS_EDC_2 file Chess Hình 3.8.b: Biểu đồ thể thời gian trung bình thực thuật tốn MFS_EDC PP_MFS_EDC_2 file Mushroom Hình 3.8.c: Biểu đồ thể tỷ lệ thời gian trung bình thực thuật tốn MFS_EDC PP_MFS_EDC_2 file Chess Hình 3.8.d: Biểu đồ thể tỷ lệ thời gian trung bình thực thuật tốn MFS_EDC PP_MFS_EDC_2 file Mushroom Hình 3.8.e: Biểu đồ thể tương quan lớp tương đương chứa / không chứa lời giải sinh thuật tốn MFS_EDC file Chess Hình 3.8.f: Biểu đồ thể tương quan lớp tương đương chứa / khơng chứa lời giải sinh thuật tốn MFS_EDC file Mushroom Hình 3.8.g: Biểu đồ thể tương quan tập phổ biến thỏa ràng buộc với ứng viên thừa sinh thuật toán PP_MFS_EDC_2 file Chess Hình 3.8.h: Biểu đồ thể tương quan tập phổ biến thỏa ràng buộc với ứng viên thừa sinh thuật tốn PP_MFS_EDC_2 file Mushroom Hình PL.2.1: Minh họa tập ràng buộc -8- CHƯƠNG 1: TỔNG QUAN Việc lưu trữ sử dụng liệu toán lớn đặt ra, đặc biệt khả bùng nổ liệu tương lai Chính từ điều đó, vấn đề đặt làm rút tri thức từ nguồn liệu cách nhanh xác, đồng thời chi phí bỏ thấp tốt Trong số đó, tốn khai thác tập phổ biến đóng vai trò thiết yếu, tảng cho nhiệm vụ khai thác khác như: tìm tập luật kết hợp, phân tích mối tương quan, tìm tượng thường xuyên xảy đồng thời với nhau, phân tích sở liệu bán hàng, phân tích chiến lược kinh doanh, vạch tính chất ẩn, tiềm tàng khối liệu khổng lồ… Dưới số kết nghiên cứu quan trọng lĩnh vực này:  Trong nước: [TQ.1] Anh, T., Hai, D., Tin, T., Bac, L Efficient algorithms for mining frequent itemsets with constraint In Proceedings of the Third International Conference on Knowledge and Systems Engineering, pp 19-25 (2011) [TQ.2] Anh, T., Hai, D., Tin, T., Bac, L Mining frequent itemsets with dualistic constraints In Proceedings of the PRICAI 2012, LNAI, vol 7458, Springer, pp 807813 (2012) [TQ.3] Hai, D., Tin, T., Bac, L An efficient algorithm for mining frequent itemsets with single constraint In Proceedings of ICCSAMA 2013, Advanced Computational Methods for Knowledge Engineering, Springer, pp 367-378 (2013)  Nước ngoài: [TQ.4] Bonchi, F., Lucchese, C On closed constrained frequent pattern mining In Proceedings of the IEEE ICDM’04, pp 35-42 (2004) -9- [TQ.5] Bonchi, F., Giannotti, F., Mazzanti, A., Pedreschi, D Examiner: optimized level-wise frequent pattern mining with monotone constraints In Proceedings of the IEEE ICDM’03, pp 11-18 (2003) [TQ.6] Pei, J., Han, J., & Mao, R CLOSET: an efficient algorithm for mining frequent closed itemsets SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, p 11-20 (2000) [TQ.7] Zaki, M.J., Hsiao, C.J, 2005: Efficient algorithms for mining closed itemsets and their lattice structure IEEE Transactions on Knowledge and Data Engineering 17 (4), 462-478 (2005) Tuy nhiên, toán khai thác tập phổ biến, ta vấp phải khó khăn sau đây: thứ bùng nổ tổ hợp tập lời giải, thứ hai khó khăn người dùng khai thác tập lời giải có độ phức tạp cỡ mũ trường hợp xấu Trước đây, có nhiều kết lý thuyết thuật tốn hiệu nhằm giải khó khăn thứ Trong thời gian gần đây, có số kết giải khó khăn thứ hai nhằm rút tập bé tập phổ biến thỏa mãn yêu cầu ràng buộc thực tế người dùng, đặc biệt ràng buộc kép mở rộng tập thuộc tính, chẳng hạn khai thác trực tuyến Internet Vì vậy, vấn đề đặt làm khai thác nhanh, đầy đủ, không trùng lắp tập phổ biến thỏa ràng buộc kép mở rộng Đề tài thực nhằm tìm hiểu xây dựng sở lý thuyết thuật toán hiệu tương ứng nhằm khai thác tập phổ biến với ràng buộc kép mở rộng tập thuộc tính Đồng thời, chương trình ứng dụng minh họa thuật toán hiệu đề thể ngôn ngữ C# Winform thực kiểm tra chương trình liệu lớn - 10 - Đề tài tích hợp nhiều phương pháp khác sau đây:  Phương pháp phân tích tổng hợp: đọc, hiểu số kết lý thuyết liên quan đăng tạp chí khoa học mục Tài liệu tham khảo qua cách nhìn tốn học, từ rút kết vấn đề trọng tâm làm sở nghiên cứu; tìm hiểu xây dựng sở lý thuyết, chứng minh kết lý thuyết thuộc phạm vi nghiên cứu đề tài  Phương pháp so sánh: đối chiếu kết nghiên cứu đề tài để tìm điểm so với kết nghiên cứu trước cơng bố tạp chí khoa học  Phương pháp thực nghiệm: tham khảo kỹ thuật lập trình có liên quan đến đề tài; minh họa thuật toán đề việc chạy bước ví dụ nhỏ; thực cài đặt chương trình kiểm tra lại sở liệu lớn Đề tài thuộc lĩnh vực khoa học tự nhiên thực theo quy trình khái quát sau: đọc hiểu, rút kết vấn đề trọng tâm tài liệu tham khảo liên quan; xây dựng chứng minh kết lý thuyết; tham khảo kỹ thuật lập trình liên quan; cài đặt chương trình kiểm tra sở liệu lớn; tổng hợp kết viết báo cáo Đối tượng nghiên cứu đề tài bảng sở liệu nhằm trích rút tri thức ẩn tàng chúng Phạm vi nghiên cứu đề tài khám phá tri thức dạng tập phổ biến từ bảng sở liệu nhị phân - 42 - KẾT LUẬN VÀ ĐỀ NGHỊ Đề tài tìm hiểu xây dựng sở lý thuyết để giải toán khai thác tập phổ biến với ràng buộc kép mở rộng Đồng thời, đề tài chứng minh chi tiết kết lý thuyết xây dựng cách chặt chẽ, làm sở để đề thuật toán hiệu nhằm sinh nhanh, đầy đủ, không trùng lắp tập lời giải cho tốn Bên cạnh đó, đề tài thực cài đặt chương trình C# Winform nhằm minh họa trực quan thuật toán MFS_EDC đề Mặt khác, việc phân tích khái quát kết thử nghiệm sở liệu lớn đặc thù cho lĩnh vực (Chess Mushroom) thông qua bảng số liệu biểu đồ thu chứng tỏ tính hiệu thuật tốn MFS_EDC Trong thời gian tới, đề tài áp dụng kỹ thuật loại nhánh, nút tạo biên phần cài đặt nhằm mong muốn loại nhanh tập đóng phổ biến dàn khơng thỏa điều kiện cần; đồng thời tối ưu chương trình cách tối ưu hàm thực cài đặt song song môi trường phân tán Đề tài đề xuất lĩnh vực ứng dụng kết nghiên cứu: lĩnh vực gắn với nhu cầu người sử dụng việc khám phá tập phổ biến thỏa ràng buộc tương ứng (cơ sở để tìm quy luật “bất thường” theo nghĩa dù phổ biến, khai thác trực tuyến Internet, ứng dụng lọc trang web…) - 76 - PHỤ LỤC – HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH Cài đặt chương trình: Mở file: CHUONG TRINH CAI DAT SETUPHoangNguyenThuyNgan_LuanVan_Setup, thực cài đặt chương trình sau: Nhấn “Next” bảng chọn: Chương trình cài đặt lưu thao tác làm việc trong: C:\Program Files\HoangNguyenThuyNgan_LuanVan_Setup - 77 - Giao diện chương trình: Nhấn chọn biểu tượng chương trình hình Desktop: Mặc định độ phân giải hình 1024 x768: - 78 - Trên giao diện chương trình, tính lựa chọn bao gồm: a.Mở file sở liệu b.Cơng cụ máy tính cầm tay c.Thay đổi độ phân giải hình, chế độ hiển thị dàn, phóng to dàn d.Xem dàn e.Lưu ảnh dàn vào ổ cứng f.Các chức thực chương trình - 79 - Thực thuật toán hiệu MFS_EDC: a.Chọn file liệu nguồn  kiểm tra lại tính lời giải (Yes) / (No) b Nhập liệu cho ràng buộc: Chọn MFS_EDC nút “Các tính năng” chờ tiến trình xử lý: Sau có thơng báo thực xong thuật tốn, mở file thống kê kết (Yes) không (No): - 80 - File thống kê kết xuất dạng file Excel, đó:  Liệt kê 〈 , ′〉:  Thống kê tổng quát: Nhật ký phát lỗi trùng lắp sai lưu trong: C:\Program Files\ HoangNguyenThuyNgan_LuanVan_Setup\Data\KetQua_KiemLoi*.xls - 81 - Bật ON chế độ xem dàn: Có chế độ hiển thị dàn: “Spread” “TopToBottom” “BottomToTop” “LeftToRight” “RightToLeft” Xem nút Phóng to nhánh Lưu ảnh dàn kiểu ExpandAll vào ổ cứng - 82 - Ảnh dàn sau lưu vào ổ cứng: Thực ràng buộc khác thực lại file liệu khác: Thực thuật toán hậu xử lý: - 83 - Thực đồng thời thuật toán MFS_EDC PP_MFS_EDC_2: - 84 - Thực kiểm tra tự động file liệu lớn: Chọn file Nhập số ví dụ / Chọn “Test Tự Động” Các thông báo lựa chọn: Kết thống kê lưu dạng bảng bao gồm thông tin kết sau thực MFS_EDC (và PP_MFS_EDC_2): Thốt chương trình Nhật ký làm việc lưu thư mục Data - 85 - TÀI LIỆU THAM KHẢO TIẾNG VIỆT: [1] Trương Chí Tín, Trần Ngọc Anh Bài giảng tóm tắt Chun đề trí tuệ nhân tạo Đại học Đà Lạt, tr 15-81 (2012) TIẾNG ANH: [2] Tin Truong, Anh Tran, Hai Duong Structure of Frequent Itemsets with Extended Double Constraints Seminar khoa Toán – Tin học, Đại học Đà Lạt (2015) [3] Hai Duong, Tin Truong, Bay Vo An efficient method for mining frequent itemsets with double constraints Engineering Applications of Artificial Intelligence, vol 27, pp 148-154 (2014) [4] Anh Tran, Hai Duong, Tin Truong, Bac Le Mining Frequent Itemsets with Dualistic Constraints In Proceedings of the PRICAI 2012, LNAI, vol 7458, Springer, pp 807-813 (2012) [5] Anh Tran, Hai Duong, Tin Truong, Bac Le Efficent Mining of Association Rules Based on Double Constraint Seminar khoa Toán – Tin học, Đại học Đà Lạt (2014) [6] Anh Tran, Tin Truong, Bac Le Simultaneous mining of frequent closed itemsets and their generators: Foundation and algorithm Engineering Applications of Artificial Intelligence, vol 36, pp 64-80 (2014) [7] Frequent Itemset Mining Dataset Repository (FIMDR) http://fimi.cs.helsinki.fi/ data/ (accessed 2009) - 86 - CHỈ MỤC A Anti-monotonic, 11, 30 B L Lớp tương đương, 3, 6, 7, 14, 18, 22, 24, 26, 29, 34, 35, 36, 37, 40, 45, 54, 75 Biểu thức điều kiện logic, 28 M Bổ đề, 27, 28, 49, 58 Mệnh đề, 14, 15, 17, 19, 24, 30, 45, 46, C Chú ý, 13, 14, 24, 26, 27, 30, 31, 32, 48 Monotonic, 11, 30 33, 34 P D Phân hoạch, 3, 7, 13, 14, 15, 18, 22, 45, Dàn đóng, 6, 7, 15, 17, 34, 35, 67 Đ Điều kiện cần, 18, 19, 20, 21, 34, 35, 47 Q Quan hệ tương đương, 7, 14, 45 42, 46, 47 Điều kiện đủ, 18, 19, 34, 47 R Ràng buộc đơn, 11, 13 Điều kiện dừng, 27 Ràng buộc kép, 12 Định lý, 22, 29, 31, 32, 47, 54 Ràng buộc kép mở rộng, 3, 7, 9, 12, 26, Định nghĩa, 11, 14, 22, 23, 26, 27, 45, 29, 42 50, 58 S H Sinh phân biệt, 3, 22, 24, 48 Hậu xử lý, 7, 14, 15, 26, 34, 35, 82 - 87 - T Thuật toán Tập đóng phổ biến, 7, 15, 34 MFS_ExtendedDoubleConstraints, 4, Tập lời giải, 7, 9, 15, 18, 19, 34, 35, 42 6, 7, 30, 31, 34, 35, 36, 37, 38, 39, 40, 42, 67, 73, 74, 75, 79, 83 Tập phổ biến, 3, 4, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 18, 22, 26, 29, 41, 42, 45, 47, 61, 62 Post Processing-Mining Tập sinh, 4, 7, 11, 49 Frequent Itemsets with Tập tối tiểu, 48 Extended Double Constraints-2, Thủ tục 6, 35, 36, 37, 38, 39, 41, 73, 74, 75, MFCS_ExtendedDoubleConstraints, 6, 29, 30, 67, 70, 71, 72 Thủ tục MFS_ExtendedDoubleConstraints_ OneClass, 6, 30, 31, 32, 88 Thủ tục MFS_ExtendedDoubleConstraints_ OneClass_Detail, 6, 31, 32, 33, 68 Thuật toán Apriori, 4, 15, 61 Thuật toán CHARM-L MinimalGenerators, 4, 15, 16 Thuật toán GFI, 4, 17, 62 View publication stats Thuật toán 83

Ngày đăng: 08/04/2022, 19:18

Hình ảnh liên quan

DANH MỤC CÁC BẢNG BIỂU .............................................................. - Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong
DANH MỤC CÁC BẢNG BIỂU Xem tại trang 4 của tài liệu.
Nhấn “Next” trong các bảng chọn: - Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong

h.

ấn “Next” trong các bảng chọn: Xem tại trang 12 của tài liệu.
2. Giao diện chương trình: - Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong

2..

Giao diện chương trình: Xem tại trang 13 của tài liệu.
Nhấn chọn biểu tượng chương trình ở màn hình Desktop: Mặc định độ phân giải màn hình là 1024 x768:    - Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong

h.

ấn chọn biểu tượng chương trình ở màn hình Desktop: Mặc định độ phân giải màn hình là 1024 x768: Xem tại trang 13 của tài liệu.
c.Thay đổi độ phân giải màn hình, chế độ hiển thị dàn, phóng to dàn - Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong

c..

Thay đổi độ phân giải màn hình, chế độ hiển thị dàn, phóng to dàn Xem tại trang 14 của tài liệu.
7. Thực hiện kiểm tra tự động trên file dữ liệu lớn: - Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong

7..

Thực hiện kiểm tra tự động trên file dữ liệu lớn: Xem tại trang 20 của tài liệu.
Kết quả thống kê được lưu dưới dạng bảng bao gồm thông tin kết quả sau khi - Khai-thac-tap-pho-bien-voi-rang-buoc-kep-mo-rong

t.

quả thống kê được lưu dưới dạng bảng bao gồm thông tin kết quả sau khi Xem tại trang 20 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan