1. Trang chủ
  2. » Tất cả

(Luận văn thạc sĩ hcmute) tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán ant colony optimization (aco)

117 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 117
Dung lượng 7,55 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HỒ NHẬT TÂN TÌM HIỂU THUẬT TỐN PHÂN LỚP DỰA TRÊN KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 SKC007261 Tp Hồ Chí Minh, tháng 05/2021 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TÌM HIỂU THUẬT TỐN PHÂN LỚP DỰA TRÊN KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TỐN ANT COLONY OPTIMIZATION (ACO) NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 8480101 HỌ VÀ TÊN HỌC VIÊN: HỒ NHẬTTÂN GIẢNG VIÊN HƯỚNG DẪN: TS NGUYỄN THÀNH SƠN Tp Hồ Chí Minh, tháng 05 năm 2021 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TÌM HIỂU THUẬT TỐN PHÂN LỚP DỰA TRÊN KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 8480101 HỌ VÀ TÊN HỌC VIÊN: HỒ NHẬT TÂN GIẢNG VIÊN HƯỚNG DẪN: TS NGUYỄN THÀNH SƠN Tp Hồ Chí Minh, tháng 05 năm 2021 Luan van i Luan van ii Luan van iii Luan van iv Luan van v Luan van vi Luan van vii Luan van {33449} (s:6.14%) {33449} (s:6.14%) {12895} (s:6.08%) {12895} (s:6.08%) {33469} (s:6.06%) {33469} (s:6.06%) {10315} (s:5.79%) {10315} (s:5.79%) {10307} (s:4.69%) {10307} (s:4.69%) {10311} (s:3.98%) {10311} (s:3.98%) {12487} (s:3.81%) {12487} (s:3.81%) 4.5 {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {10311} (s:3.98%) {12487} (s:3.81%) {12483} (s:3.44%) {12483} (s:3.44%) {12483} (s:3.44%) {10295} (s:3.37%) {10295} (s:3.37%) {10295} (s:3.37%) {12703} (s:3.27%) {12703} (s:3.27%) {12703} (s:3.27%) {12663} (s:3.01%) {12663} (s:3.01%) {12663} (s:3.01%) 3.5 {33449} (s:6.14%) {33449} (s:6.14%) {33449} (s:6.14%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {10311} (s:3.98%) {12487} (s:3.81%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {10311} (s:3.98%) {12487} (s:3.81%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {10311} (s:3.98%) {12487} (s:3.81%) {33449} (s:6.14%) {33449} (s:6.14%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) {33449} (s:6.14%) {12895} (s:6.08%) {33469} (s:6.06%) {10315} (s:5.79%) {10307} (s:4.69%) Bảng 4.12 trình bày kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 3.5% với liệu BMS_WebView_1 Kết thực 79 Luan van nghiệm bảng cho thấy tài nguyên sử dụng thuật toán ACO-AC gấp khoảng 1.9 lần thuật toán ACO cải tiến gấp khoảng 1.7 lần so với thuật toán ACO Bảng 12 Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 3.5% với liệu BMS_WebView_1 Độ hỗ trợ (%) 3.5 Tài nguyên CPU(%) RAM(MB) ACO (Ant - System) 24.90 79.61 ACO-AC 24.97 81.42 ACO cải tiến 24.95 80.09 Chương trình cài đặt thử nghiệm sinh luật kết hợp thuật toán ACO (Ant-System), ACO-AC ACO cải tiến Cơ sở liệu vào chương trình lưu trữ đĩa cục Khi thực thi chương trình yêu cầu nhập vào độ hỗ trợ độ tin cậy luật cần khai phá Thời gian thực thuật tốn tính từ bắt đầu chạy xử lý cuối nhóm truyền thơng thực xong Kết thực nghiệm cho thấy thời gian thực thi thuật toán ACO cải tiến nhỏ thuật toán ACO tuần tự, ACO-AC liệu Ta thấy ACO cải tiến thời gian thực nhanh ACO ổn định liệu Thuật toán ACO cải tiến thời gian thực thi nhanh thuật toán ACO với độ hỗ trợ lớn, với đỗ hỗ trợ nhỏ thời gian thực thi ACO cải tiến lớn nhiều so với ACO Ngoài ra, kết thực thuật tốn cịn phụ thuộc nhiều vào việc chọn độ hỗ trợ, độ tin cậy, kích thước liệu cần khai phá, 80 Luan van CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Khai phá liệu lĩnh vực nghiên cứu việc phát tri thức sở liệu rộng lớn phương thức thông minh thu hút nhà nghiên cứu người dùng ngành tin học Nghiên cứu lĩnh vực địi hỏi tích hợp kết nghiên cứu nhiều lĩnh vực khoa học máy tính việc áp dụng nhiệm vụ khai phá liệu Sau thời gian nghiên cứu, đề tài đạt kết sau: Về mặt lý thuyết: Trình bày cách khái quát khai phá liệu phát tri thức, quy trình khai phá liệu, lựa chọn phương pháp khai phá liệu Trình bày số ứng dụng, khó khăn thách thức khai phá liệu Nghiên cứu tìm hiểu thuật tốn đàn kiến, phiên thuật toán đàn kiến tập thuật toán tối ưu đàn kiến ACO, cách nâng cao hiệu thuật toán đàn kiến, ứng dụng ACO Giới thiệu chi tiết vấn đề khai phá luật kết hợp như: khái niệm sở, thuật toán khai phá luật kết hợp Trên sở thuật toán ACO thuật tốn thuộc họ ACO, luận văn trình bày chi tiết số thuật toán khai phá luật kết hợp sử dụng giải thuật khai phá liệu, phân tích, đánh giá số thuật toán khai phá Về mặt thực nghiệm: Cài đặt thuật toán khai phá luật kết hợp thuật toán khai phá luật kết hợp sử dụng giải thuật ACO- Ant System, ACO-AC ACO cải tiến để ứng dụng cho toán khai phá liệu Luận văn áp dụng thuật toán tối ưu đàn kiến ACO để giải toán phân lớp so sánh kết thực so với thuật toán phân lớp trước Lập trình đơn giản, ngắn gọn, kết xác, áp dụng cho nhiều liệu lớn 81 Luan van Thực nghiệm tốn phân lớp áp dụng cho nhiều nguồn liệu khác nhau: liệu ngẫu nhiên, liệu từ tập tin khoảng cách điểm 5.2 Hạn chế Đề tài tồn nhiều hạn chế:  Chưa thực nghiệm nhiều tập liệu lớn, khác  Kết phân lớp chưa đạt ngưỡng xác hồn tồn code chưa tối ưu  Chưa thể phân lớp trường hợp thiếu liệu đầu vào 5.3 Hướng phát triển Phương pháp tối ưu đàn kiến phương pháp có hiệu suất hiệu cao, điều chứng minh thông qua thực nghiệm Phương pháp tối ưu đàn kiến quan tâm, phát triển kể từ giới thiệu thể qua phong phú, đa dạng thuật toán Tuy nhiên, cịn số vấn đề cần hồn thiện nêu phần hạn chế Trong tương lai em cải tiến khắc phục hạn chế:  Thực nghiệm nhiều tập liệu lớn  Cần cải thiện thời gian tìm kiếm…  Nghiên cứu cách dự đoán phân lớp với trường hợp thiếu liệu đầu vào  Nghiên cứu việc thực giảm thời gian tính tốn giá trị heuristic cập nhật chức pheromone, giảm thời gian dài tìm kiếm luật 82 Luan van TÀI LIỆU THAM KHẢO [1] R Agrawal, T I T and A Swami, "Mining association rules between sets of items in large database," Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, 1993, p 207–216 [2] V T N Châu, "Luật kết hợp," Đại học Bách Khoa Tp Hồ Chí Minh, 2012 [3] J Han, J Pei and Y Yin, "Mining frequent patterns without candidate generation," In MOD 2000, 2000, pp 1-12 [4] W Li, J Han and J Pei, "CMAR: Accurate and Efficient Classification Based on Multiple Class-Association Rules," Burnaby, B.C., Canada V5A 1S6, Proceedings of IEEE International Conference on Data Mining, 2001, pp 369376 [5] X Yin and J Han, "CPAR: Classification based on Predictive Association Rules," Urbana-Champaign, Proceedings of the 2003 SIAM International Conference on Data Mining, 2003, pp 331-335 [6] J Alwidian, B Hammo and N Obeid, "FCBA: Fast Classification Based on Association Rules Algorithm," Jordan, Amman, IJCSNS International Journal of Computer Science and Network Security, VOL.16 No.12, December 2016, December 2016, pp 117-126 [7] N Kaoungku, K Suksut, R Chanklan, K Kerdprasop and N Kerdprasop, "Data Classification Based on Feature Selection with Association Rule Mining," Hong Kong, Proceedings of the International MultiConference of Engineers and Computer Scientists 2017 Vol I, IMECS 2017, March 15 - 17, 2017, Hong Kong, 2017, pp ISBN: 978-988-14047-3-2 ; ISSN: 2078-0958 (Print); ISSN: 2078-0966 (Online) [8] P Pavankumar and R Agarwal, "CBIR: Classification Based Association Rules and Approaches in Datamining," Sirohi, Rajasthan, International Journal of 83 Luan van Pure and Applied Mathematics Volume 119 No 18 2018, 689-702, 2018, pp 689-702 [9] C.-S Wang and J.-Y Chang, "MISFP-Growth: Hadoop-Based Frequent Pattern Mining with Multiple Item Support," Taiwan, 20 May 2019, 2019 [10] M Dorigo, V Maniezzo and A Colorni, in Ant system: optimization by a colony of cooperating agents, IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 1996, pp 29-41 [11] M Dorigo and L Gambardella, "Ant colony system: A cooperative learning approach to the traveling salesman problem," IEEE Trans on evolutionary computation 1(1), 1997, pp 53-66 [12] T Stützle and H H Hoos, in Max-min ant system, Future Gene Comput Syst 26(8), 2000, pp 889-914 [13] W Gutjahr, "ACO algorithms with guaranteed convergence to the optimal solution," Info.Proc Lett 83(3), 2002, pp 145-153 [14] P Pellegrini and A Ellero, in The Small World of Pheromone Trails, Brussels, Belgium., Proc of the 6th international conference on Ant Colony Optimization and Swarm Intelligence, 2008, pp 51-79 [15] G Shankar and L Bargadiya, in A New Improved Apriori Algorithm For Association Rules Mining,, International Journal of Engineering Research & Technology (IJERT), no Vol Issue 6, June 2013 [16] "Frequent Itemset Mining Dataset Repository," [Trực tuyến] Available: http://fimi.ua.ac.be/data [17] S Pathania and H Singh, "ICCCT '15: Proceedings of the Sixth International Conference on Computer and Communication Technology," in A New Associative Classifier based on CFP-Growth++ Algorithm, New York, NY, United States, Association for Computing Machinery, 2011, p 20–25 84 Luan van TÌM HIỂU THUẬT TỐN PHÂN LỚP DỰA TRÊN KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) EVALUATING THE EFFECTIVENESS OF UNDERSTANDING CLASS-BASED ALGORITHM ON LAW COMBINATION COMBINED ANT COLONY OPTIMIZATION (ACO) Hồ Nhật Tân, Nguyễn Thành Sơn Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Khai phá luật kết hợp là toán quan tâm nghiên cứu lĩnh vực khai phá liệu Phân lớp liệu xem q trình “học có giám sát” Sau xây dựng, mơ hình phân lớp sử dụng để phân lớp liệu Tìm hiểu thuật tốn phân lớp dựa luật kết hợp tương quan sử dụng thuật toán đường ngắn hay cịn gọi thuật tốn đàn kiến Cài đặt thuật toán khai phá luật kết hợp sử dụng giải thuật ACO- Ant System, ACO-AC ACO cải tiến để ứng dụng cho toán khai phá liệu Có đối chiếu, so sánh hiệu suất, độ xác thơng qua thực nghiệm để đưa nhận xét kết luận ưu điểm khuyết điểm cải tiến thuật toán đời sau Việc so sánh thuật toán dựa vào hai yếu tố thời gian thực thi hiệu suất thuật tốn sử dụng Từ khóa: Khai phá liệu; Khai phá luật kết hợp; Phân lớp dựa khai phá luật kết hợp; Ant-system; ACO-AC ABSTRACT Association law mining is a problem that has been interested in research in the field of data mining Data classification is considered a "supervised learning" process Once built, the classification model can be used to classify new data Explore classification algorithms based on correlation association rules using the shortest path algorithm, also known as ant colony algorithm Installed association rule mining algorithm using algorithm ACO- Ant System, ACOAC and improved ACO to apply to data mining problem There is a comparison and comparison of performance and accuracy through experiment to make conclusive comments on the advantages and disadvantages of the improvements in the algorithm that came out later The comparison of algorithms is based on two factors of the execution time and performance of the algorithm used Keywords: Data mining; Mining association law; Classification based on association rule mining; Ant-system; ACO-AC Luan van GIỚI THIỆU Khai phá liệu trình đầy hứa hẹn phát triển phân tích liệu ứng dụng nhiều lĩnh vực Khai phá liệu cốt lõi trình “Phát tri thức từ sở liệu” (Knowledge Discovery in Database-KDD), trình khai phá, trích xuất, khai thác sử dụng liệu có giá trị tiềm ẩn từ bên lượng lớn liệu lưu trữ sở liệu (CSDL), kho liệu, trung tâm liệu… lớn Big Data Các thuật toán khai phá luật kết hợp sử dụng với liệu lớn nhiều thời gian Vì vậy, yêu cầu cần có thuật tốn tối ưu hố hiệu suất để mang lại hiệu cho việc phát luật kết hợp khai phá liệu cần thiết Hai hướng tiếp cận thiết kế thuật toán phân lớp dựa khai phá luật kết hợp mơ hình tối ưu hố liệu, mơ hình thao tác Bài báo nhằm mục đích đánh giá hiệu thuật toán ACO- Ant System, ACO-AC ACO cải tiến Phần lại báo bao gồm: Phần trình bày phân lớp dựa luật kết hợp Phần trình bày chi tiết thuật tốn tối ưu hóa đàn kiến Phân lớp dựa luật kết hợp sử dụng giải thuật đàn kiến (ACO) Phần đánh giá thực nghiệm Trình bày cài đặt chương trình, thử nghiệm so sánh kết với số cơng trình cơng bố gần phân tích phần Phần kết thực nghiệm, nêu kết luận hướng phát triển đề tài CÁC KHÁI NIỆM CƠ BẢN VÀ CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các khái niệm  I = {i1, i2, …in} tập bao gồm n mục phân biệt (item – cịn gọi thuộc tính – attribute)  D = {t1, t2, …tm} tập gồm m giao dịch gọi sở liệu giao dịch, t có định danh ký hiệu TID (Transaction Identification) chứa tập mục I  Một luật định nghĩa kéo theo có dạng X ⇒ Y X,Y ⊆ I X ∩ Y = Ø X gọi phần mệnh đề điều kiện Y gọi mệnh đề kết luật tương ứng  Độ phổ biến Supp(X) = |X| / |D| Supp(X ⇒ Y) = |{T ⊆ D:X ∪ Y ⊆T}| / |D| - Thuật toán CFP-growth++ (Kiran et al., 2011) đề xuất cải tiến thuật toán CFPgrowth cách rút gọn khơng gian tìm kiếm xây dựng MIStree nhỏ gọn dựa MIS-tree[2] Thuật toán đề xuất bốn kỹ thuật rút gọn khơng gian tìm kiếm : ngưỡng phổ biến tối thiểu thấp nhất, ngưỡng phổ biến tối thiểu có điều kiện, tính chất bao đóng có điều kiện tỉa nút khơng phổ biến Thuật toán cải thiện hiệu suất đáng kể so với thuật toán CFP-growth - Trong [3], Zhi-Hong Deng Sheng Long Lv trình bày thuật tốn hiệu gọi FIN để khai thác tập mục thường xuyên Để đánh giá hiệu suất FIN, họ tiến hành thí nghiệm để so sánh với PrePost FP-growth∗ nhiều liệu thực tổng hợp Kết thử nghiệm cho thấy FIN có hiệu suất cao thời gian chạy mức sử dụng nhớ - Trong [4],Dawen Xia, Yanhui Zhou, Zhuobo Rong, Zili Zhang đề xuất thuật toán FP-Growth sử dụng giải thuật cải tiến cải tiến (IPFP), sử dụng MapReduce để thực thuật toán FPGrowth sử dụng giải thuật Do cải thiện hiệu suất tổng thể hiệu khai phá tập mục phổ biến 2.2 Các công trình liên quan - Mơ hình tốn khai phá luật kết hợp mơ hình nhị phân hay cịn gọi mơ hình (Agrawal et al., 1993) [1], phân tích liệu giao dịch, phát mối liên hệ tập mục hàng hoá bán siêu thị Từ đó, doanh nghiệp có kế hoạch bố trí, xếp, kinh doanh hợp lý, Luan van đồng thời tổ chức xếp quầy gần để có doanh thu phiên giao dịch lớn MỘT SỐ GIẢI THUẬT KHAI PHÁ LUẬT KẾT HỢP VÀ KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TOÁN ACO 3.1 Các cơng trình liên quan đến giải thuật đàn kiến Thuật tốn ACO Tác giả thời gian cơng bố Dorigo (1992); Dorigo, Ant System (AS) Maniezzo & Colorni (1991, 1996) Elitist AS Dorigo (1992); Dorigo, Maniezzo & Colorni (1991, 1996) Ant-Q Gambardella & Dorigo(1995); Dorigo & Gambardella (1996) Ant Colony System Dorigo & Gambardella (1997a,b) Max-Min Ant Stützle & Hoos (1996, 2000); Stützle (1999) System Rank-based AS ANTS Bullnheimer, Hartl & Strauss (1997, 1999c) Maniezzo (1999) Blum, Roli, & Dorigo Hyper-cube AS (2001); Blum & Dorigo (2004) 3.2 Giải thuật khai phá luật kết hợp 3.2.1 Thuật toán ACO Một thuật toán khai phá luật kết hợp RaKesh Agrawal, Tomasz Imielinski, Anin Sawami đưa vào năm 1993 [5], tảng cho việc phát triển thuật toán sau Thuật toán sinh tập mục ứng cử từ tập mục phổ biến bước trước, sử dụng kĩ thuật “cắt tỉa” để bỏ tập mục ứng cử không thoả mãn ngưỡng hỗ trợ cho trước Nội dung thuật toán ACO - (1) Chọn tất luật thỏa mãn ví dụ; - (2) Từ luật chọn bước (1), chọn k luật tốt cho lớp; - (3) So sánh độ xác k luật tốt lớp chọn lớp có độ xác cao để làm lớp dự đoán Mã giả thuật toán ACO Dữ liệu vào: Tập giao dịch D, ngưỡng hỗ trợ minsup Dữ liệu ra: Tập trả lời bao gồm tập mục phổ biến D Phương pháp: Procedure Thuật toán Ant-System Begin Initialize: Khởi tạo vết mùi while Khi điều kiện dừng chưa thỏa mãn for i=1 to n_ants Xây dựng lời giải; Cải tiến lời giải kiến xây dựng tìm kiếm cục bộ; Cập nhật lời giải tốt Cập nhật mùi end while End Ưu điểm thuật toán ACO - Là thuật toán đơn giản, dễ hiểu dễ cài đặt - Thuật tốn ACO tìm tập mục phổ biến thực tốt rút gọn kích thước tập ứng cử nhờ kỹ thuật “tỉa” Nhược điểm thuật toán ACO Phải duyệt CSDL nhiều lần - Số lượng lớn tập ứng cử tạo làm gia tăng phức tạp không gian - Để xác định độ support tập ứng cử, thuật toán ln phải qut lại tồn CSDL 3.2.2 Thuật tốn ACO cải tiến Để nâng cao hiệu khai phá itemset phổ biến, Girja Shankar Latita Luan van Bargadiya [6] thảo luận hai vấn đề thuật toán ACO Đầu tiên, cần phải quét sở liệu nhiều lần lần thứ hai, tạo itemset ứng cử lớn, tăng thời gian phức tạp không gian Để khắc phục khuyết điểm tìm frequent_one_itemset sở liệu sau tạo tập power frequent_one_itemset khởi tạo itemset count = Gọi power set thiết lập Global power set Khi quét sở liệu để đếm itemset, chúng tơi xóa item từ giao dịch khơng có mặt danh sách frequent_one_itemset Sau q trình xóa chúng tơi tạo Local Power set item lại giao dịch so sánh với Global power set Khi phù hợp tăng số lượng itemset lên Bước làm giảm nhiều lần quét sở liệu Nội dung thuật toán: Input: 1) Cơ sở liệu D với định dạng (Tid, itemset) 2) Ngưỡng hỗ trợ tối thiểu: min-sup; Output: Li, itemset D; Dưới biểu đồ xử lý: 1) L1 = tìm frequent_one_itemset (D); 2) Tạo power set L1 (frequent_one_itemset (D)) khởi tạo itemset count = 0, gọi Global power set; 3) Quét sở liệu D đến hết i) Đọc itemset từ giao dịch xóa item khơng L1 sau tạo local power set item lại giao dịch ii) So sánh local power set với Global power set itemset phù hợp tăng số lượng itemset lên Global power set Tỉa ứng cử itemset 4) Quét Global power set kiểm tra itemset đếm ứng cử itemset; Nếu độ hỗ trợ ứng cử itemset nhỏ minsup sau xóa item set từ Global power set 5) Giữ lại itemset Global power set itemset phổ biến yêu cầu 3.1.2 Thuật toán ACO-AC Thuật toán ACO-AC giới thiệu Jiawei Hai, Jian Pei Yiwen Yin 2000 [7], khắc phục nhược điểm thuật toán Ant-system Nội dung thuật toán: Bước 1: Xây dựng FP-Tree: - Duyệt CSDL lần một, xác định mục phổ biến L xếp chúng theo độ hỗ trợ - Duyệt qua CSDL lần hai, với giao dịch T xếp mục theo thứ tự tập L Giả sử mục phổ biến T có dạng [p|P] với p mục cần đưa vào FP-Tree P danh sách mục lại, N nút cần chèn Nếu nút N giống p, tăng count nút lên Ngược lại, tạo nút cho N có tên mục p, count = Tiếp tục chèn P vào nút vừa xét Bước 2: Xây dựng sở mẫu điều kiện (Conditional Patern Bases) cho mục phổ biến Bước 3: Xây dựng FP-Tree điều kiện (Conditional FP-Tree) cho mục phổ biến sở mẫu điều kiện Bước 4: Đệ quy xây dựng FP-Tree điều kiện đến FP-Tree điều kiện nhánh (single path) tiến hành sinh tất tổ hợp mục phổ biến 3.1.3 Thuật toán cải tiến sử dụng ACO Dựa vào thuật toán Fp-Tree Thuật toán [8], ta xây dựng số Fp-tree cục môi trường nhớ phân tán sử dụng mơ hình “Chủ - Tớ” Thuật toán khai phá luật kết hợp gồm hai nhiệm vụ chính: Xây dựng cải tiến FP-Tree Khai phá cải tiến sinh tập mục phổ biến (1) Xây dựng cải tiến FP-Tree  Ta chia CSDL giao dịch D cho P xử lý  Mỗi xử lý tính tốn đếm hỗ trợ (flocal(i)) mục i cách quét phân Luan van hoạch CSDL cục DN/P, tất xử lý đếm flocal (i) cục đến xử lý Chủ  Bộ xử lý Chủ tập hợp tất mục kết hợp chúng lại để sinh số đếm hỗ trợ tổng thể (fglocal (i))  Tập 1-itemset phổ biến thu truyền cho tất xử lý nhóm  Bước xây dựng FPTree cục bộ, Mỗi xử lý quét CSDL cục DN/P chèn mục phổ biến vào FP-Tree (2) Khai phá cải tiến sinh tập mục phổ biến  Trong giai đoạn đầu, ta xét toàn FPTree tạo mẫu điều kiện sở  Trong giai đoạn tiếp theo, ta tập hợp mẫu điều kiện sở từ xử lý để xây dựng FP-Tree điều kiện sở (CFPT) cho mục phổ biến  Giai đoạn cuối thực thi việc khai phá cách xây dựng đệ qui mẫu điều kiện sở CFPTs sinh tất tập mục phổ biến KHAI PHÁ LUẬT KẾT HỢP TRONG MÔI TRƯỜNG XỬ LÝ TUẦN TỰ 4.1 Cách tiếp cận chung giải thuật khai phá luật kết hợp Cách tiếp cận chung giải thuật khai phá luật kết hợp thường thực qua hai giai đoạn: (1) Tìm tất tập mục liệu có độ hỗ trợ thỏa ngưỡng tối thiểu cho trước, gọi tập mục liệu thường xuyên (2) Tìm luật kết hợp từ tập mục liệu thường xuyên thỏa độ tin cậy cho trước Các cơng trình nghiên cứu toán khai phá luật kết hợp thường tập trung đề xuất cải tiến thuật toán thực giai đoạn tìm tất tập mục phổ biến 4.2 Khai phá luật kết hợp sử dụng giải thuật đàn kiến Khai phá luật kết hợp sử dụng giải thuật đàn kiến dựa ý tưởng khai phá luật kết hợp, thực cải tiến hóa nhằm đáp ứng tăng lên nhanh chóng liệu giảm thời gian thực Các giải thuật xử lý cải tiến áp dụng giai đoạn tìm tập mục phổ biến nhằm giảm thời gian thực thi giai đoạn Trong thuật toán dùng khai phá luật kết hợp, thuật toán ACO thường sử dụng giải thuật xử lý cải tiến tuần tính hiệu Khai phá luật kết hợp môi trường xử lý cải tiến thực qua bước sau: (1) Cơ sở liệu ban đầu phân hoạch cho xử lý; (2) Mỗi xử lý thực thuật toán FP-Growth để phát sinh tập mục phổ biến cục bộ; (3) Bộ xử lý chủ tổng hợp tập mục phổ biến cục từ xử lý khác để phát sinh tập mục phổ biến toàn cục; (4) Các luật kết hợp phát sinh từ tập mục phổ biến toàn cục Hình minh họa bước thực thuật tốn khai phá luật kết hợp FP-Growth mơi trường xử lý cải tiến Hình Mơ hình giải thuật cải tiến dùng thuật toán FP-Growth KẾT QUẢ THỰC NGHIỆM 5.1 Môi trường thực nghiệm Cấu hình phần cứng máy tính cài đặt trương trình: Dell Inspiron 15, Inter® core™ i5-4200U CPU @1.60GHz, 4GB RAM, hệ Luan van điều hành Windows 10 Sử dụng phần mềm để xây dựng chương trình: Visual Studio 2019 Ngơn ngữ lập trình: C# Hệ thống phần mềm sử dụng: [9] Visual Studio 2017 Enterprise, Microsoft’s Message Passing Interface (MS-MPI) 5.2 Các tập liệu thực nghiệm Gồm CSDL: Dữ liệu mushroom.dat lấy từ liệu UCI, có 8124 giao dịch; liệu T10I4D100K tạo cách sử dụng trình tạo từ nhóm nghiên cứu IBM Almaden Quest, có 100000 giao dịch; liệu BMS_WebView_1 chứa 59.602 giao dịch liệu nhấp chuột từ trang web thương mại điện tử 5.3 Kết thực nghiệm Chúng cài đặt thuật toán AntSystems, ACO – AC, ACO cải tiến sử dụng giải thuật cải tiến tuần tự, so sánh thuật toán dựa vào thời gian thực thi số lượng tài nguyên mà thuật toán sử dụng 5.3.1 Thời gian thực thi Hình 2, 3, Mơ tả kết thực nghiệm thời gian thực thi thuật tốn tính giây Độ hỗ trợ 50 55 60 70 80 (%) ACO (Ant21805 7674 2613 1461 1340 System) ACO-AC 3156 2184 1633 1466 1416 ACO cải 68896 8248 2752 1083 1185 tiến Hình Thời gian thực thi thuật toán với liệu mushroom Độ hỗ trợ (%) ACO (Ant- 45278 43493 41098 42616 40293 System) ACO43931 42520 42705 44895 43196 AC ACO 66515 42167 41723 42358 42671 cải tiến Hình Thời gian thực thi thuật toán với liệu T10I4D100K Độ hỗ trợ (%) Tài nguyên 3.5 3.5 CPU (%) RAM (MB) ACO-Ant System 24.93 86.09 ACO-AC 24.97 89.65 ACO cải tiến 50.32 283.68 Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 3.5% với liệu BMS_WebView_1 Độ hỗ trợ (%) 3.5 Tài nguyên CPU (%) RAM (MB) ACO-Ant System 24.90 79.61 ACO-AC 24.95 80.09 ACO cải tiến 24.97 81.42 Hình Thời gian thực thi thuật toán với liệu BMS_WebView_1 Kết thực nghiệm cho thấy thời gian thực thi thuật toán ACO sử dụng giải thuật cải tiến nhanh nhất, thời gian thực thi thuật toán Ant systems ACOAC đồng thời tăng đột biến độ hỗ trợ nhỏ 5.3.2 Tài nguyên thuật toán sử dụng Bảng trình bày kết thực nghiệm hiệu suất (số lượng tài nguyên sử dụng) thuật toán Bảng Kết số lượng tài nguyên (mà thuật toán cần sử dụng) với độ hỗ trợ chọn 60% với liệu mushrom Độ hỗ trợ (%) 60 CPU RAM Tài nguyên (%) (MB) ACO-Ant System 24.94 68.15 ACO-AC 24.86 67.41 ACO cải tiến 24.97 71.54 Kết thực nghiệm cho thấy số lượng tài ngun sử dụng thuật tốn mơi trường xử lý cải tiến gần gấp hai lần thuật toán nhớ RAM (Mb) phần trăm % CPU Luan van 5.4 Nhận xét kết thực nghiệm Kết thực nghiệm cho thấy thời gian thực thi thuật toán ACO cải tiến nhỏ thuật toán ACO tuần tự, ACO-AC liệu Ta thấy ACO cải tiến thời gian thực nhanh ACO ổn định liệu Thuật toán ACO cải tiến thời gian thực thi nhanh thuật toán ACO với độ hỗ trợ lớn, với đỗ hỗ trợ nhỏ thời gian thực thi ACO cải tiến lớn nhiều so với ACO Chương trình cài đặt thử nghiệm sinh luật kết hợp thuật toán ACO (AntSystem), ACO-AC ACO cải tiến Cơ sở liệu vào chương trình lưu trữ đĩa cục Khi thực thi chương trình yêu cầu nhập vào độ hỗ trợ độ tin cậy luật cần khai phá Thời gian thực thuật tốn tính từ bắt đầu chạy xử lý cuối nhóm truyền thơng thực xong KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo trình bày so sánh hiệu số thuật toán khai phá luật kết hợp thuật toán khai phá luật kết hợp sử dụng giải thuật cải tiến tuần tự, qua ta thấy thuật tốn sử dụng giải thuật cải tiến giải vấn đề khai phá liệu liệu lớn tốc độ xử lý Trong tương lai tiếp tục nghiên cứu sâu thuật toán khai phá luật kết hợp sử dụng giải thuật cải tiến tuần tự, tìm cách cải tiến khắc phục nhược điểm giải thuật cải tiến có, xây dựng thuật toán nhằm đạt hiệu tốt TÀI LIỆU THAM KHẢO [1] Z H Deng, Z Wang,and J Jiang, A New Algorithm for Fast Mining Frequent Itemsets Using N-Lists SCIENCE CHINA Information Sciences, 55 (9), 2008 - 2030, 2012 [2] Aiman Moyaid SaidA, Dr P D D DominicB, Dr Azween B AbdullahC, "A Comparative Study of FP-growth Variations," In IJCSNS International Journal of Computer Science and Network Security, no VOL.9 No.5, pp 266-272, May 2009 [3] Zhi-HongDeng and Sheng-LongLv, "Fast mining frequent itemsets using Nodesets," Expert Systems with Applications, no Volume 41, Issue 10, pp 4505-4512, August 2014 [4] Dawen Xi, Yanhui Zhou, Zhuobo Rong and Zili Zhang, "IPFP: An Improved Parallel FPGrowth Algorithm for Frequent Itemsets Mining," Proceedings 59th ISI World Statistics Congress, vol Hong Kong (Session CPS026), p 4034, 25-30 August 2013 [5] R Agrawal and R Srikant, Fast algorithms for minning association rules, In 20th VL.DBConf, Sept, 1994 [6] Girja Shankar and Latita Bargadiya, "A New Improved Apriori Algorithm For Association Rules Mining," International Journal of Engineering Research & Technology (IJERT), no Vol Issue 6, June 2013 [7] Jiawei Han, Jian Pei, and Yiwen Yin, "Mining Frequent Patterns without Candidate Generation," SIGMOD', p 196, 2000 [8] Yi Wang, Haoyuan Li, Dong Zhang, Ming Zhang, Edward Chang, PFP: Parallel FP-Growth for Query Recommendation, ACM, 2001 [9] Douglas Gregor and Benjamin Martin, MPI.NET Tutorial in C#, Open Systems Laboratory Luan van Tác giả chịu trách nhiệm viết: Họ tên: Hồ Nhật Tân Đơn vị: Trường ĐH Sư Phạm Kỹ Thuật Tp.HCM Điện thoại: 0963203213 Email: nhattan260995@gmail.com TP.HCM, ngày….tháng… năm… Xác nhận giảng viên hướng dẫn (Ký & ghi rõ họ tên) Luan van S K L 0 Luan van ... tốn phân lớp  Tìm hiểu tốn liên quan đến phân lớp dựa luật kết hợp  Tìm hiểu toán Khai Phá Luật Kết Hợp Tương Quan Sử Dụng Thuật Toán Ant Colony Optimization Đối tượng nghiên cứu  Luật kết hợp. .. vào phân lớp liệu Nhiệm vụ hướng tiếp cận  Tìm hiểu thuật tốn Ant Colony Optimization  Tìm hiểu tốn phân lớp  Tìm hiểu tổng quan khai phá luật kết hợp  Tìm hiểu tốn phân lớp dựa vào khai phá. .. TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TÌM HIỂU THUẬT TOÁN PHÂN LỚP DỰA TRÊN KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO) NGÀNH: KHOA HỌC

Ngày đăng: 02/02/2023, 10:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w