1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)

103 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 103
Dung lượng 3,12 MB

Nội dung

(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)(Luận văn thạc sĩ) Tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán Ant Colony Optimization (ACO)

LỜI CẢM ƠN Em xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo trường Đại học Sư Phạm Kỹ Thuật – Thành phố Hồ Chí Minh Khoa cơng nghệ thơng tin dạy dỗ chúng em suốt trình học tập chương trình cao học trường Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Nguyễn Thành Sơn, Trường Đại học Sư Phạm Kỹ Thuật – Thành phố Hồ Chí Minh quan tâm, định hướng đưa góp ý, gợi ý, chỉnh sửa quý báu cho em trình làm luận văn tốt nghiệp Cuối cùng, em xin chân thành cảm ơn bạn bè đồng nghiệp, gia đình người thân quan tâm, giúp đỡ chia sẻ với em suốt trình làm luận văn tốt nghiệp Em xin chân thành cảm ơn! TP Hồ Chí Minh, tháng 10 năm 2020 Học viên Hồ Nhật Tân xii LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tơi tìm hiểu, nghiên cứu hướng dẫn TS Nguyễn Thành Sơn Các chương trình thực nghiệm thân tơi lập trình, kết hoàn toàn trung thực Các tài liệu tham khảo trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Hồ Nhật Tân xiii LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC Họ & tên: Hồ Nhật Tân Giới tính: Nam Ngày, tháng, năm sinh: 26/09/1995 Nơi sinh: Thừa Thiên Huế Quê quán: Thừa Thiên Huế Dân tộc: Kinh Chỗ riêng địa liên lạc: 36/31, đường số 5, Khu phố 5, phường Linh Chiểu, quận Thủ Đức, Tp Hồ Chí Minh Điện thoại quan: Điện thoại: 0963 203 213 Fax: E-Mail: nhattan260995@gmail.com II QUÁ TRÌNH ĐÀO TẠO Đại học: Hệ đào tạo: Đại Học Chính quy Thời gian đào tạo từ 09/2013 đến 09/2017 Nơi học (trường, thành phố): Trường Đại học Sư Phạm Kỹ Thuật, Tp Hồ Chí Minh Ngành học: Cơng nghệ Kỹ thuật Máy Tính Hệ đào tạo: Chính quy Thời gian đào tạo 09/2013 đến 09/2017 III Q TRÌNH CƠNG TÁC CHUN MƠN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian 12/2016-đến Nơi công tác Công ty phần mềm FPT – Khu công nghệ cao, Quận xiv Cơng việc đảm nhiệm Lập trình viên MỤC LỤC MỤC LỤC xiv DANH SÁCH KÍ HIỆU, TỪ VIẾT TẮT xviii DANH MỤC BẢNG BIỂU xix DANH MỤC HÌNH ẢNH xxi MỞ ĐẦU 1 Giới thiệu Mục tiêu, đối tượng, phạm vi nghiên cứu Nhiệm vụ hướng tiếp cận Kết đạt Cấu trúc luận văn CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ LUẬT KẾT HỢP 1.1 Giới thiệu khai phá luật kết hợp 1.2 Định nghĩa luật kết hợp 1.3 Các khái niệm luật kết hợp 1.3.1 Độ hỗ trợ (Support) 1.3.2 Độ tin cậy (Confident) 1.3.3 Tập mục phổ biến (Frequent itemset) 1.4 Các cơng trình nghiên cứu CHƯƠNG 2: PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP 14 2.1 Giới thiệu chung 14 2.2 Luật phân lớp 15 2.3 Các khái niệm toán phân lớp dựa luật kết hợp 16 2.4 Các cơng trình liên quan 17 2.4.1 Thuật toán CMAR (classification based on multiple association rules) 17 2.4.2 Thuật toán PRM (Predictive Rule Mining) 18 2.4.3 Thuật toán CPAR 19 2.4.4 Thuật toán FCBA : Fast Classification Based on Association Rules Algorithm 20 2.4.5 Phân loại liệu dựa chọn lọc tính 21 2.4.6 CBIR: Phân lớp dựa luật kết hợp cách tiếp cận Datamining 21 xv 2.4.7 MISFP-Growth:Mơ hình khai thác hỗ trợ nhiều mặt hàng 22 CHƯƠNG 3: PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP SỬ DỤNG GIẢI THUẬT ĐÀN KIẾN (ACO) 23 3.1 Kiến thức từ thực tế đến nhân tạo 23 3.1.1 Kiến thật 23 3.1.2 Kiến nhân tạo 25 3.2 Mơ tả thuật tốn ACO tổng quát 26 3.3 Các cơng trình liên quan đến giải thuật đàn kiến 30 3.3.1 Hệ Kiến (AS) 31 3.3.2 Hệ đàn kiến (ACS) 34 3.3.3 Hệ kiến MIN-MAX 37 3.4 Một số vấn đề khác áp dụng ACO 40 3.4.1 Đặc tính hội tụ 40 3.4.2 Thực song song 40 3.4.3 ACO kết hợp với tìm kiếm cục 42 3.5 Phân lớp dựa luật kết hợp sử dụng giải thuật đàn kiến Ant-system 43 3.5.1 Tìm luật phân lớp 43 3.5.2 Phân lớp (classification): 44 3.6 Phân lớp dựa luật kết hợp sử dụng giải thuật lai ghép ACO-AC 45 3.6.1 Tìm luật phân lớp 45 3.6.2 Phân lớp (classification): 53 3.6.3 Nhận xét thuật toán ACO-AC 54 3.7 Phân lớp dựa luật kết hợp sử dụng giải thuật ACO cải tiến 55 3.8 Cách tiếp cận chung giải thuật khai phá luật kết hợp 59 3.9 Đánh giá độ xác luật 59 CHƯƠNG 4: ĐÁNH GIÁ THỰC NGHIỆM 64 4.1 Môi trường cài đặt chương trình thực nghiệm 64 4.2 Mô tả liệu thực nghiệm 65 4.3 Tiêu chí đánh giá 66 4.4 Giao diện chương trình thực nghiệm 66 4.5 Các trường hợp thực nghiệm đánh giá kết 70 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 81 xvi 5.1 Kết luận 81 5.2 Hạn chế 82 5.3 Hướng phát triển 82 TÀI LIỆU THAM KHẢO 83 xvii DANH SÁCH KÍ HIỆU, TỪ VIẾT TẮT Viết tắt Viết đầy đủ ACO Ant Colony Optimization (Tối ưu hóa đàn kiến) ACS Ant Colony System (Hệ kiến ACS) AS Ant System (Hệ kiến AS) IEM Iterative Exact Method MEM Modified Exact Method MLAS Multi-level Ant System (Hệ kiến đa mức MLAS) MMAS PSO Max-Min Ant System (Hệ kiến MMAS) Particle Swarm Optimization (Tối ưu hóa bầy đàn) SMMAS Smooth-Max Min Ant System (Hệ kiến MMAS trơn) TƯTH Tối ưu tổ hợp VNS Variable Neighborhood Search xviii DANH MỤC BẢNG BIỂU Bảng 1 Dữ liệu mua hàng siêu thị Bảng CSDL với giao dịch Bảng Ví dụ sở liệu huấn luyện mẫu 16 Bảng Thuật toán ACO theo thứ tự thời gian xuất 30 Bảng Thuật toán ACO - AC 45 Bảng 3 Business Database Itemsets 57 Bảng Frequent one itemset 57 Bảng Initial Global power set 57 Bảng The statistics of candidate itemsets with frequency 58 Bảng Prune the candidate itemsets with frequency 58 Bảng Frequency itemsets 59 Bảng Ví dụ độ bao phủ Coverage độ xác Accuracy 60 Bảng 10 Ví dụ hình thành luật dựa tập huấn luyện 61 Bảng 11 Sử dụng tập luật để xác định lớp cho mẫu 62 Bảng Kết thời gian thực thi (mili giây) thuật theo độ hỗ trợ thay đổi từ 14% đến 18% với liệu đơn hàng 71 Bảng Kết độ xác thuật tốn dự liệu đơn hàng với độ hỗ trợ thay đổi từ 14% đến 18% 72 Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 16% với liệu hàng 73 Bảng 4 Kết thực nghiệm thời gian thực thi (mili giây) thuật toán liệu mushroom với độ hỗ trợ thay đổi từ 50% đến 80% 73 Bảng Kết độ xác thuật toán liệu mushroom với độ hỗ trợ 80% 74 Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 60% với liệu mushrom 75 Bảng Kết thực nghiệm thời gian thực thi (mili giây) thuật toán liệu T10I4D100K với độ hỗ trợ thay đổi từ 5% đến 9% 76 Bảng Kết độ xác thuật tốn liệu T10I4D100K với độ hỗ trợ từ 5% đến 7% 76 xix Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 7% với liệu T10I4D100K 77 Bảng 10 Kết thực nghiệm thời gian thực thi (mili giây) thuật toán liệu BMS_WebView_1 với độ hỗ trợ thay đổi từ 2.5% đến 4.5% 78 Bảng 11 Kết độ xác thuật tốn liệu BMS_WebView_1 với độ hỗ trợ từ 5% đến 7% 78 Bảng 12 Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 3.5% với liệu BMS_WebView_1 80 xx DANH MỤC HÌNH ẢNH Hình 1 Minh họa định nghĩa Item, Itemset, Transaction Hình Thí nghiệm cầu đôi 24 Hình Thí nghiệm ban đầu nhánh dài sau 30 phút thêm nhánh ngắn 25 Hình 3 Đặc tả thuật toán ACO 27 Hình Sơ đồ tìm đường kiến từ tổ đến nguồn thức ăn 29 Hình Lựa chọn đỉnh kiến 30 Hình Giao diện liệu đầu vào 67 Hình Giao diện thực thuật toán ACO (Ant-System) 68 Hình Giao diện thực thuật toán ACO-AC 69 Hình 4 Giao diện thực thuật toán ACO cải tiến 70 xxi {33449} (s:6.14%) {33449} (s:6.14%) {12895} (s:6.08%) {12895} (s:6.08%) {33469} (s:6.06%) {33469} (s:6.06%) {10315} (s:5.79%) {10315} (s:5.79%) {10307} (s:4.69%) {10307} (s:4.69%) {10311} (s:3.98%) {10311} (s:3.98%) {12487} (s:3.81%) {12487} (s:3.81%) 4.5 {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {10311} (s:3.98%) {12487} (s:3.81%) {12483} (s:3.44%) {12483} (s:3.44%) {12483} (s:3.44%) {10295} (s:3.37%) {10295} (s:3.37%) {10295} (s:3.37%) {12703} (s:3.27%) {12703} (s:3.27%) {12703} (s:3.27%) {12663} (s:3.01%) {12663} (s:3.01%) {12663} (s:3.01%) 3.5 {33449} (s:6.14%) {33449} (s:6.14%) {33449} (s:6.14%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {10311} (s:3.98%) {12487} (s:3.81%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {10311} (s:3.98%) {12487} (s:3.81%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {10311} (s:3.98%) {12487} (s:3.81%) {33449} (s:6.14%) {33449} (s:6.14%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) Bảng 4.12 trình bày kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 3.5% với liệu BMS_WebView_1 Kết thực 79 nghiệm bảng cho thấy tài nguyên sử dụng thuật toán ACO-AC gấp khoảng 1.9 lần thuật toán ACO cải tiến gấp khoảng 1.7 lần so với thuật toán ACO Bảng 12 Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 3.5% với liệu BMS_WebView_1 Độ hỗ trợ (%) 3.5 Tài nguyên CPU(%) RAM(MB) ACO (Ant - System) 24.90 79.61 ACO-AC 24.97 81.42 ACO cải tiến 24.95 80.09 Chương trình cài đặt thử nghiệm sinh luật kết hợp thuật toán ACO (Ant-System), ACO-AC ACO cải tiến Cơ sở liệu vào chương trình lưu trữ đĩa cục Khi thực thi chương trình yêu cầu nhập vào độ hỗ trợ độ tin cậy luật cần khai phá Thời gian thực thuật tốn tính từ bắt đầu chạy xử lý cuối nhóm truyền thông thực xong Kết thực nghiệm cho thấy thời gian thực thi thuật toán ACO cải tiến nhỏ thuật toán ACO tuần tự, ACO-AC liệu Ta thấy ACO cải tiến thời gian thực nhanh ACO ổn định liệu Thuật toán ACO cải tiến thời gian thực thi nhanh thuật toán ACO với độ hỗ trợ lớn, với đỗ hỗ trợ nhỏ thời gian thực thi ACO cải tiến lớn nhiều so với ACO Ngoài ra, kết thực thuật tốn cịn phụ thuộc nhiều vào việc chọn độ hỗ trợ, độ tin cậy, kích thước liệu cần khai phá, 80 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Khai phá liệu lĩnh vực nghiên cứu việc phát tri thức sở liệu rộng lớn phương thức thông minh thu hút nhà nghiên cứu người dùng ngành tin học Nghiên cứu lĩnh vực địi hỏi tích hợp kết nghiên cứu nhiều lĩnh vực khoa học máy tính việc áp dụng nhiệm vụ khai phá liệu Sau thời gian nghiên cứu, đề tài đạt kết sau: Về mặt lý thuyết: Trình bày cách khái quát khai phá liệu phát tri thức, quy trình khai phá liệu, lựa chọn phương pháp khai phá liệu Trình bày số ứng dụng, khó khăn thách thức khai phá liệu Nghiên cứu tìm hiểu thuật tốn đàn kiến, phiên thuật toán đàn kiến tập thuật toán tối ưu đàn kiến ACO, cách nâng cao hiệu thuật toán đàn kiến, ứng dụng ACO Giới thiệu chi tiết vấn đề khai phá luật kết hợp như: khái niệm sở, thuật toán khai phá luật kết hợp Trên sở thuật toán ACO thuật toán thuộc họ ACO, luận văn trình bày chi tiết số thuật toán khai phá luật kết hợp sử dụng giải thuật khai phá liệu, phân tích, đánh giá số thuật toán khai phá Về mặt thực nghiệm: Cài đặt thuật toán khai phá luật kết hợp thuật toán khai phá luật kết hợp sử dụng giải thuật ACO- Ant System, ACO-AC ACO cải tiến để ứng dụng cho toán khai phá liệu Luận văn áp dụng thuật toán tối ưu đàn kiến ACO để giải toán phân lớp so sánh kết thực so với thuật toán phân lớp trước Lập trình đơn giản, ngắn gọn, kết xác, áp dụng cho nhiều liệu lớn 81 Thực nghiệm toán phân lớp áp dụng cho nhiều nguồn liệu khác nhau: liệu ngẫu nhiên, liệu từ tập tin khoảng cách điểm 5.2 Hạn chế Đề tài tồn nhiều hạn chế:  Chưa thực nghiệm nhiều tập liệu lớn, khác  Kết phân lớp chưa đạt ngưỡng xác hoàn toàn code chưa tối ưu  Chưa thể phân lớp trường hợp thiếu liệu đầu vào 5.3 Hướng phát triển Phương pháp tối ưu đàn kiến phương pháp có hiệu suất hiệu cao, điều chứng minh thông qua thực nghiệm Phương pháp tối ưu đàn kiến quan tâm, phát triển kể từ giới thiệu thể qua phong phú, đa dạng thuật tốn Tuy nhiên, cịn số vấn đề cần hoàn thiện nêu phần hạn chế Trong tương lai em cải tiến khắc phục hạn chế:  Thực nghiệm nhiều tập liệu lớn  Cần cải thiện thời gian tìm kiếm…  Nghiên cứu cách dự đoán phân lớp với trường hợp thiếu liệu đầu vào  Nghiên cứu việc thực giảm thời gian tính tốn giá trị heuristic cập nhật chức pheromone, giảm thời gian dài tìm kiếm luật 82 TÀI LIỆU THAM KHẢO [1] R Agrawal, T I T and A Swami, "Mining association rules between sets of items in large database," Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, 1993, p 207–216 [2] V T N Châu, "Luật kết hợp," Đại học Bách Khoa Tp Hồ Chí Minh, 2012 [3] J Han, J Pei and Y Yin, "Mining frequent patterns without candidate generation," In MOD 2000, 2000, pp 1-12 [4] W Li, J Han and J Pei, "CMAR: Accurate and Efficient Classification Based on Multiple Class-Association Rules," Burnaby, B.C., Canada V5A 1S6, Proceedings of IEEE International Conference on Data Mining, 2001, pp 369376 [5] X Yin and J Han, "CPAR: Classification based on Predictive Association Rules," Urbana-Champaign, Proceedings of the 2003 SIAM International Conference on Data Mining, 2003, pp 331-335 [6] J Alwidian, B Hammo and N Obeid, "FCBA: Fast Classification Based on Association Rules Algorithm," Jordan, Amman, IJCSNS International Journal of Computer Science and Network Security, VOL.16 No.12, December 2016, December 2016, pp 117-126 [7] N Kaoungku, K Suksut, R Chanklan, K Kerdprasop and N Kerdprasop, "Data Classification Based on Feature Selection with Association Rule Mining," Hong Kong, Proceedings of the International MultiConference of Engineers and Computer Scientists 2017 Vol I, IMECS 2017, March 15 - 17, 2017, Hong Kong, 2017, pp ISBN: 978-988-14047-3-2 ; ISSN: 2078-0958 (Print); ISSN: 2078-0966 (Online) [8] P Pavankumar and R Agarwal, "CBIR: Classification Based Association Rules and Approaches in Datamining," Sirohi, Rajasthan, International Journal of 83 Pure and Applied Mathematics Volume 119 No 18 2018, 689-702, 2018, pp 689-702 [9] C.-S Wang and J.-Y Chang, "MISFP-Growth: Hadoop-Based Frequent Pattern Mining with Multiple Item Support," Taiwan, 20 May 2019, 2019 [10] M Dorigo, V Maniezzo and A Colorni, in Ant system: optimization by a colony of cooperating agents, IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 1996, pp 29-41 [11] M Dorigo and L Gambardella, "Ant colony system: A cooperative learning approach to the traveling salesman problem," IEEE Trans on evolutionary computation 1(1), 1997, pp 53-66 [12] T Stützle and H H Hoos, in Max-min ant system, Future Gene Comput Syst 26(8), 2000, pp 889-914 [13] W Gutjahr, "ACO algorithms with guaranteed convergence to the optimal solution," Info.Proc Lett 83(3), 2002, pp 145-153 [14] P Pellegrini and A Ellero, in The Small World of Pheromone Trails, Brussels, Belgium., Proc of the 6th international conference on Ant Colony Optimization and Swarm Intelligence, 2008, pp 51-79 [15] G Shankar and L Bargadiya, in A New Improved Apriori Algorithm For Association Rules Mining,, International Journal of Engineering Research & Technology (IJERT), no Vol Issue 6, June 2013 [16] "Frequent Itemset Mining Dataset Repository," [Trực tuyến] Available: http://fimi.ua.ac.be/data [17] S Pathania and H Singh, "ICCCT '15: Proceedings of the Sixth International Conference on Computer and Communication Technology," in A New Associative Classifier based on CFP-Growth++ Algorithm, New York, NY, United States, Association for Computing Machinery, 2011, p 20–25 84 TÌM HIỂU THUẬT TỐN PHÂN LỚP DỰA TRÊN KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) EVALUATING THE EFFECTIVENESS OF UNDERSTANDING CLASS-BASED ALGORITHM ON LAW COMBINATION COMBINED ANT COLONY OPTIMIZATION (ACO) Hồ Nhật Tân, Nguyễn Thành Sơn Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Khai phá luật kết hợp là toán quan tâm nghiên cứu lĩnh vực khai phá liệu Phân lớp liệu xem q trình “học có giám sát” Sau xây dựng, mơ hình phân lớp sử dụng để phân lớp liệu Tìm hiểu thuật toán phân lớp dựa luật kết hợp tương quan sử dụng thuật toán đường ngắn hay cịn gọi thuật tốn đàn kiến Cài đặt thuật toán khai phá luật kết hợp sử dụng giải thuật ACO- Ant System, ACO-AC ACO cải tiến để ứng dụng cho tốn khai phá liệu Có đối chiếu, so sánh hiệu suất, độ xác thông qua thực nghiệm để đưa nhận xét kết luận ưu điểm khuyết điểm cải tiến thuật toán đời sau Việc so sánh thuật toán dựa vào hai yếu tố thời gian thực thi hiệu suất thuật toán sử dụng Từ khóa: Khai phá liệu; Khai phá luật kết hợp; Phân lớp dựa khai phá luật kết hợp; Ant-system; ACO-AC ABSTRACT Association law mining is a problem that has been interested in research in the field of data mining Data classification is considered a "supervised learning" process Once built, the classification model can be used to classify new data Explore classification algorithms based on correlation association rules using the shortest path algorithm, also known as ant colony algorithm Installed association rule mining algorithm using algorithm ACO- Ant System, ACOAC and improved ACO to apply to data mining problem There is a comparison and comparison of performance and accuracy through experiment to make conclusive comments on the advantages and disadvantages of the improvements in the algorithm that came out later The comparison of algorithms is based on two factors of the execution time and performance of the algorithm used Keywords: Data mining; Mining association law; Classification based on association rule mining; Ant-system; ACO-AC GIỚI THIỆU Khai phá liệu trình đầy hứa hẹn phát triển phân tích liệu ứng dụng nhiều lĩnh vực Khai phá liệu cốt lõi trình “Phát tri thức từ sở liệu” (Knowledge Discovery in Database-KDD), q trình khai phá, trích xuất, khai thác sử dụng liệu có giá trị tiềm ẩn từ bên lượng lớn liệu lưu trữ sở liệu (CSDL), kho liệu, trung tâm liệu… lớn Big Data Các thuật toán khai phá luật kết hợp sử dụng với liệu lớn nhiều thời gian Vì vậy, u cầu cần có thuật tốn tối ưu hoá hiệu suất để mang lại hiệu cho việc phát luật kết hợp khai phá liệu cần thiết Hai hướng tiếp cận thiết kế thuật tốn phân lớp dựa khai phá luật kết hợp mơ hình tối ưu hố liệu, mơ hình thao tác Bài báo nhằm mục đích đánh giá hiệu thuật toán ACO- Ant System, ACO-AC ACO cải tiến Phần cịn lại báo bao gồm: Phần trình bày phân lớp dựa luật kết hợp Phần trình bày chi tiết thuật tốn tối ưu hóa đàn kiến Phân lớp dựa luật kết hợp sử dụng giải thuật đàn kiến (ACO) Phần đánh giá thực nghiệm Trình bày cài đặt chương trình, thử nghiệm so sánh kết với số cơng trình cơng bố gần phân tích phần Phần kết thực nghiệm, nêu kết luận hướng phát triển đề tài CÁC KHÁI NIỆM CƠ BẢN VÀ CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các khái niệm  I = {i1, i2, …in} tập bao gồm n mục phân biệt (item – cịn gọi thuộc tính – attribute)  D = {t1, t2, …tm} tập gồm m giao dịch gọi sở liệu giao dịch, t có định danh ký hiệu TID (Transaction Identification) chứa tập mục I  Một luật định nghĩa kéo theo có dạng X ⇒ Y X,Y ⊆ I X ∩ Y = Ø X gọi phần mệnh đề điều kiện Y gọi mệnh đề kết luật tương ứng  Độ phổ biến Supp(X) = |X| / |D| Supp(X ⇒ Y) = |{T ⊆ D:X ∪ Y ⊆T}| / |D| - Thuật toán CFP-growth++ (Kiran et al., 2011) đề xuất cải tiến thuật tốn CFPgrowth cách rút gọn khơng gian tìm kiếm xây dựng MIStree nhỏ gọn dựa MIS-tree[2] Thuật toán đề xuất bốn kỹ thuật rút gọn khơng gian tìm kiếm : ngưỡng phổ biến tối thiểu thấp nhất, ngưỡng phổ biến tối thiểu có điều kiện, tính chất bao đóng có điều kiện tỉa nút khơng phổ biến Thuật tốn cải thiện hiệu suất đáng kể so với thuật toán CFP-growth - Trong [3], Zhi-Hong Deng Sheng Long Lv trình bày thuật toán hiệu gọi FIN để khai thác tập mục thường xuyên Để đánh giá hiệu suất FIN, họ tiến hành thí nghiệm để so sánh với PrePost FP-growth∗ nhiều liệu thực tổng hợp Kết thử nghiệm cho thấy FIN có hiệu suất cao thời gian chạy mức sử dụng nhớ - Trong [4],Dawen Xia, Yanhui Zhou, Zhuobo Rong, Zili Zhang đề xuất thuật toán FP-Growth sử dụng giải thuật cải tiến cải tiến (IPFP), sử dụng MapReduce để thực thuật toán FPGrowth sử dụng giải thuật Do cải thiện hiệu suất tổng thể hiệu khai phá tập mục phổ biến 2.2 Các cơng trình liên quan - Mơ hình toán khai phá luật kết hợp mơ hình nhị phân hay cịn gọi mơ hình (Agrawal et al., 1993) [1], phân tích liệu giao dịch, phát mối liên hệ tập mục hàng hoá bán siêu thị Từ đó, doanh nghiệp có kế hoạch bố trí, xếp, kinh doanh hợp lý, đồng thời tổ chức xếp quầy gần để có doanh thu phiên giao dịch lớn MỘT SỐ GIẢI THUẬT KHAI PHÁ LUẬT KẾT HỢP VÀ KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TOÁN ACO 3.1 Các cơng trình liên quan đến giải thuật đàn kiến Thuật toán ACO Tác giả thời gian công bố Dorigo (1992); Dorigo, Ant System (AS) Maniezzo & Colorni (1991, 1996) Elitist AS Dorigo (1992); Dorigo, Maniezzo & Colorni (1991, 1996) Ant-Q Gambardella & Dorigo(1995); Dorigo & Gambardella (1996) Ant Colony System Dorigo & Gambardella (1997a,b) Max-Min Ant Stützle & Hoos (1996, 2000); Stützle (1999) System Rank-based AS ANTS Bullnheimer, Hartl & Strauss (1997, 1999c) Maniezzo (1999) Blum, Roli, & Dorigo Hyper-cube AS (2001); Blum & Dorigo (2004) 3.2 Giải thuật khai phá luật kết hợp 3.2.1 Thuật toán ACO Một thuật toán khai phá luật kết hợp RaKesh Agrawal, Tomasz Imielinski, Anin Sawami đưa vào năm 1993 [5], tảng cho việc phát triển thuật toán sau Thuật toán sinh tập mục ứng cử từ tập mục phổ biến bước trước, sử dụng kĩ thuật “cắt tỉa” để bỏ tập mục ứng cử không thoả mãn ngưỡng hỗ trợ cho trước Nội dung thuật toán ACO - (1) Chọn tất luật thỏa mãn ví dụ; - (2) Từ luật chọn bước (1), chọn k luật tốt cho lớp; - (3) So sánh độ xác k luật tốt lớp chọn lớp có độ xác cao để làm lớp dự đoán Mã giả thuật toán ACO Dữ liệu vào: Tập giao dịch D, ngưỡng hỗ trợ minsup Dữ liệu ra: Tập trả lời bao gồm tập mục phổ biến D Phương pháp: Procedure Thuật toán Ant-System Begin Initialize: Khởi tạo vết mùi while Khi điều kiện dừng chưa thỏa mãn for i=1 to n_ants Xây dựng lời giải; Cải tiến lời giải kiến xây dựng tìm kiếm cục bộ; Cập nhật lời giải tốt Cập nhật mùi end while End Ưu điểm thuật toán ACO - Là thuật toán đơn giản, dễ hiểu dễ cài đặt - Thuật toán ACO tìm tập mục phổ biến thực tốt rút gọn kích thước tập ứng cử nhờ kỹ thuật “tỉa” Nhược điểm thuật toán ACO Phải duyệt CSDL nhiều lần - Số lượng lớn tập ứng cử tạo làm gia tăng phức tạp không gian - Để xác định độ support tập ứng cử, thuật tốn ln phải qut lại tồn CSDL 3.2.2 Thuật toán ACO cải tiến Để nâng cao hiệu khai phá itemset phổ biến, Girja Shankar Latita Bargadiya [6] thảo luận hai vấn đề thuật toán ACO Đầu tiên, cần phải quét sở liệu nhiều lần lần thứ hai, tạo itemset ứng cử lớn, tăng thời gian phức tạp không gian Để khắc phục khuyết điểm tìm frequent_one_itemset sở liệu sau tạo tập power frequent_one_itemset khởi tạo itemset count = Gọi power set thiết lập Global power set Khi quét sở liệu để đếm itemset, chúng tơi xóa item từ giao dịch khơng có mặt danh sách frequent_one_itemset Sau q trình xóa chúng tơi tạo Local Power set item lại giao dịch so sánh với Global power set Khi phù hợp tăng số lượng itemset lên Bước làm giảm nhiều lần quét sở liệu Nội dung thuật toán: Input: 1) Cơ sở liệu D với định dạng (Tid, itemset) 2) Ngưỡng hỗ trợ tối thiểu: min-sup; Output: Li, itemset D; Dưới biểu đồ xử lý: 1) L1 = tìm frequent_one_itemset (D); 2) Tạo power set L1 (frequent_one_itemset (D)) khởi tạo itemset count = 0, gọi Global power set; 3) Quét sở liệu D đến hết i) Đọc itemset từ giao dịch xóa item khơng L1 sau tạo local power set item lại giao dịch ii) So sánh local power set với Global power set itemset phù hợp tăng số lượng itemset lên Global power set Tỉa ứng cử itemset 4) Quét Global power set kiểm tra itemset đếm ứng cử itemset; Nếu độ hỗ trợ ứng cử itemset nhỏ minsup sau xóa item set từ Global power set 5) Giữ lại itemset Global power set itemset phổ biến yêu cầu 3.1.2 Thuật toán ACO-AC Thuật toán ACO-AC giới thiệu Jiawei Hai, Jian Pei Yiwen Yin 2000 [7], khắc phục nhược điểm thuật toán Ant-system Nội dung thuật toán: Bước 1: Xây dựng FP-Tree: - Duyệt CSDL lần một, xác định mục phổ biến L xếp chúng theo độ hỗ trợ - Duyệt qua CSDL lần hai, với giao dịch T xếp mục theo thứ tự tập L Giả sử mục phổ biến T có dạng [p|P] với p mục cần đưa vào FP-Tree P danh sách mục lại, N nút cần chèn Nếu nút N giống p, tăng count nút lên Ngược lại, tạo nút cho N có tên mục p, count = Tiếp tục chèn P vào nút vừa xét Bước 2: Xây dựng sở mẫu điều kiện (Conditional Patern Bases) cho mục phổ biến Bước 3: Xây dựng FP-Tree điều kiện (Conditional FP-Tree) cho mục phổ biến sở mẫu điều kiện Bước 4: Đệ quy xây dựng FP-Tree điều kiện đến FP-Tree điều kiện nhánh (single path) tiến hành sinh tất tổ hợp mục phổ biến 3.1.3 Thuật toán cải tiến sử dụng ACO Dựa vào thuật toán Fp-Tree Thuật toán [8], ta xây dựng số Fp-tree cục môi trường nhớ phân tán sử dụng mơ hình “Chủ - Tớ” Thuật toán khai phá luật kết hợp gồm hai nhiệm vụ chính: Xây dựng cải tiến FP-Tree Khai phá cải tiến sinh tập mục phổ biến (1) Xây dựng cải tiến FP-Tree  Ta chia CSDL giao dịch D cho P xử lý  Mỗi xử lý tính tốn đếm hỗ trợ (flocal(i)) mục i cách quét phân hoạch CSDL cục DN/P, tất xử lý đếm flocal (i) cục đến xử lý Chủ  Bộ xử lý Chủ tập hợp tất mục kết hợp chúng lại để sinh số đếm hỗ trợ tổng thể (fglocal (i))  Tập 1-itemset phổ biến thu truyền cho tất xử lý nhóm  Bước xây dựng FPTree cục bộ, Mỗi xử lý quét CSDL cục DN/P chèn mục phổ biến vào FP-Tree (2) Khai phá cải tiến sinh tập mục phổ biến  Trong giai đoạn đầu, ta xét toàn FPTree tạo mẫu điều kiện sở  Trong giai đoạn tiếp theo, ta tập hợp mẫu điều kiện sở từ xử lý để xây dựng FP-Tree điều kiện sở (CFPT) cho mục phổ biến  Giai đoạn cuối thực thi việc khai phá cách xây dựng đệ qui mẫu điều kiện sở CFPTs sinh tất tập mục phổ biến KHAI PHÁ LUẬT KẾT HỢP TRONG MÔI TRƯỜNG XỬ LÝ TUẦN TỰ 4.1 Cách tiếp cận chung giải thuật khai phá luật kết hợp Cách tiếp cận chung giải thuật khai phá luật kết hợp thường thực qua hai giai đoạn: (1) Tìm tất tập mục liệu có độ hỗ trợ thỏa ngưỡng tối thiểu cho trước, gọi tập mục liệu thường xuyên (2) Tìm luật kết hợp từ tập mục liệu thường xuyên thỏa độ tin cậy cho trước Các cơng trình nghiên cứu tốn khai phá luật kết hợp thường tập trung đề xuất cải tiến thuật toán thực giai đoạn tìm tất tập mục phổ biến 4.2 Khai phá luật kết hợp sử dụng giải thuật đàn kiến Khai phá luật kết hợp sử dụng giải thuật đàn kiến dựa ý tưởng khai phá luật kết hợp, thực cải tiến hóa nhằm đáp ứng tăng lên nhanh chóng liệu giảm thời gian thực Các giải thuật xử lý cải tiến áp dụng giai đoạn tìm tập mục phổ biến nhằm giảm thời gian thực thi giai đoạn Trong thuật toán dùng khai phá luật kết hợp, thuật toán ACO thường sử dụng giải thuật xử lý cải tiến tuần tính hiệu Khai phá luật kết hợp môi trường xử lý cải tiến thực qua bước sau: (1) Cơ sở liệu ban đầu phân hoạch cho xử lý; (2) Mỗi xử lý thực thuật toán FP-Growth để phát sinh tập mục phổ biến cục bộ; (3) Bộ xử lý chủ tổng hợp tập mục phổ biến cục từ xử lý khác để phát sinh tập mục phổ biến toàn cục; (4) Các luật kết hợp phát sinh từ tập mục phổ biến tồn cục Hình minh họa bước thực thuật toán khai phá luật kết hợp FP-Growth môi trường xử lý cải tiến Hình Mơ hình giải thuật cải tiến dùng thuật toán FP-Growth KẾT QUẢ THỰC NGHIỆM 5.1 Mơi trường thực nghiệm Cấu hình phần cứng máy tính cài đặt trương trình: Dell Inspiron 15, Inter® core™ i5-4200U CPU @1.60GHz, 4GB RAM, hệ điều hành Windows 10 Sử dụng phần mềm để xây dựng chương trình: Visual Studio 2019 Ngơn ngữ lập trình: C# Hệ thống phần mềm sử dụng: [9] Visual Studio 2017 Enterprise, Microsoft’s Message Passing Interface (MS-MPI) 5.2 Các tập liệu thực nghiệm Gồm CSDL: Dữ liệu mushroom.dat lấy từ liệu UCI, có 8124 giao dịch; liệu T10I4D100K tạo cách sử dụng trình tạo từ nhóm nghiên cứu IBM Almaden Quest, có 100000 giao dịch; liệu BMS_WebView_1 chứa 59.602 giao dịch liệu nhấp chuột từ trang web thương mại điện tử 5.3 Kết thực nghiệm Chúng tơi cài đặt thuật tốn AntSystems, ACO – AC, ACO cải tiến sử dụng giải thuật cải tiến tuần tự, so sánh thuật toán dựa vào thời gian thực thi số lượng tài nguyên mà thuật tốn sử dụng 5.3.1 Thời gian thực thi Hình 2, 3, Mô tả kết thực nghiệm thời gian thực thi thuật tốn tính giây Độ hỗ trợ 50 55 60 70 80 (%) ACO (Ant21805 7674 2613 1461 1340 System) ACO-AC 3156 2184 1633 1466 1416 ACO cải 68896 8248 2752 1083 1185 tiến Hình Thời gian thực thi thuật toán với liệu mushroom Độ hỗ trợ (%) ACO (Ant- 45278 43493 41098 42616 40293 System) ACO43931 42520 42705 44895 43196 AC ACO 66515 42167 41723 42358 42671 cải tiến Hình Thời gian thực thi thuật toán với liệu T10I4D100K Độ hỗ trợ (%) Tài nguyên 3.5 3.5 CPU (%) RAM (MB) ACO-Ant System 24.93 86.09 ACO-AC 24.97 89.65 ACO cải tiến 50.32 283.68 Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 3.5% với liệu BMS_WebView_1 Độ hỗ trợ (%) 3.5 Tài nguyên CPU (%) RAM (MB) ACO-Ant System 24.90 79.61 ACO-AC 24.95 80.09 ACO cải tiến 24.97 81.42 Hình Thời gian thực thi thuật toán với liệu BMS_WebView_1 Kết thực nghiệm cho thấy thời gian thực thi thuật toán ACO sử dụng giải thuật cải tiến nhanh nhất, thời gian thực thi thuật toán Ant systems ACOAC đồng thời tăng đột biến độ hỗ trợ nhỏ 5.3.2 Tài ngun thuật tốn sử dụng Bảng trình bày kết thực nghiệm hiệu suất (số lượng tài nguyên sử dụng) thuật toán Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 60% với liệu mushrom Độ hỗ trợ (%) 60 CPU RAM Tài nguyên (%) (MB) ACO-Ant System 24.94 68.15 ACO-AC 24.86 67.41 ACO cải tiến 24.97 71.54 Kết thực nghiệm cho thấy số lượng tài nguyên sử dụng thuật tốn mơi trường xử lý cải tiến gần gấp hai lần thuật toán nhớ RAM (Mb) phần trăm % CPU 5.4 Nhận xét kết thực nghiệm Kết thực nghiệm cho thấy thời gian thực thi thuật toán ACO cải tiến nhỏ thuật toán ACO tuần tự, ACO-AC liệu Ta thấy ACO cải tiến thời gian thực nhanh ACO ổn định liệu Thuật toán ACO cải tiến thời gian thực thi nhanh thuật toán ACO với độ hỗ trợ lớn, với đỗ hỗ trợ nhỏ thời gian thực thi ACO cải tiến lớn nhiều so với ACO Chương trình cài đặt thử nghiệm sinh luật kết hợp thuật toán ACO (AntSystem), ACO-AC ACO cải tiến Cơ sở liệu vào chương trình lưu trữ đĩa cục Khi thực thi chương trình yêu cầu nhập vào độ hỗ trợ độ tin cậy luật cần khai phá Thời gian thực thuật toán tính từ bắt đầu chạy xử lý cuối nhóm truyền thơng thực xong KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo trình bày so sánh hiệu số thuật toán khai phá luật kết hợp thuật toán khai phá luật kết hợp sử dụng giải thuật cải tiến tuần tự, qua ta thấy thuật tốn sử dụng giải thuật cải tiến giải vấn đề khai phá liệu liệu lớn tốc độ xử lý Trong tương lai tiếp tục nghiên cứu sâu thuật toán khai phá luật kết hợp sử dụng giải thuật cải tiến tuần tự, tìm cách cải tiến khắc phục nhược điểm giải thuật cải tiến có, xây dựng thuật tốn nhằm đạt hiệu tốt TÀI LIỆU THAM KHẢO [1] Z H Deng, Z Wang,and J Jiang, A New Algorithm for Fast Mining Frequent Itemsets Using N-Lists SCIENCE CHINA Information Sciences, 55 (9), 2008 - 2030, 2012 [2] Aiman Moyaid SaidA, Dr P D D DominicB, Dr Azween B AbdullahC, "A Comparative Study of FP-growth Variations," In IJCSNS International Journal of Computer Science and Network Security, no VOL.9 No.5, pp 266-272, May 2009 [3] Zhi-HongDeng and Sheng-LongLv, "Fast mining frequent itemsets using Nodesets," Expert Systems with Applications, no Volume 41, Issue 10, pp 4505-4512, August 2014 [4] Dawen Xi, Yanhui Zhou, Zhuobo Rong and Zili Zhang, "IPFP: An Improved Parallel FPGrowth Algorithm for Frequent Itemsets Mining," Proceedings 59th ISI World Statistics Congress, vol Hong Kong (Session CPS026), p 4034, 25-30 August 2013 [5] R Agrawal and R Srikant, Fast algorithms for minning association rules, In 20th VL.DBConf, Sept, 1994 [6] Girja Shankar and Latita Bargadiya, "A New Improved Apriori Algorithm For Association Rules Mining," International Journal of Engineering Research & Technology (IJERT), no Vol Issue 6, June 2013 [7] Jiawei Han, Jian Pei, and Yiwen Yin, "Mining Frequent Patterns without Candidate Generation," SIGMOD', p 196, 2000 [8] Yi Wang, Haoyuan Li, Dong Zhang, Ming Zhang, Edward Chang, PFP: Parallel FP-Growth for Query Recommendation, ACM, 2001 [9] Douglas Gregor and Benjamin Martin, MPI.NET Tutorial in C#, Open Systems Laboratory Tác giả chịu trách nhiệm viết: Họ tên: Hồ Nhật Tân Đơn vị: Trường ĐH Sư Phạm Kỹ Thuật Tp.HCM Điện thoại: 0963203213 Email: nhattan260995@gmail.com TP.HCM, ngày….tháng… năm… Xác nhận giảng viên hướng dẫn (Ký & ghi rõ họ tên) S K L 0 ...  Tìm hiểu tốn liên quan đến phân lớp dựa luật kết hợp  Tìm hiểu tốn Khai Phá Luật Kết Hợp Tương Quan Sử Dụng Thuật Toán Ant Colony Optimization Đối tượng nghiên cứu  Luật kết hợp  Bài toán. .. vào phân lớp liệu Nhiệm vụ hướng tiếp cận  Tìm hiểu thuật tốn Ant Colony Optimization  Tìm hiểu tốn phân lớp  Tìm hiểu tổng quan khai phá luật kết hợp  Tìm hiểu tốn phân lớp dựa vào khai phá. .. xuất để tích hợp khai phá luật kết hợp phân lớp Sử dụng thuật toán khai phá luật kết hợp, chẳng hạn Apriori FPgrowth, để tạo luật kết hợp hồn chỉnh Sau đó, chọn luật tốt sử dụng luật để dự đoán

Ngày đăng: 09/12/2022, 14:17

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w