Bộ dữ liệu chuẩn - Khai thác tập mục lợi ích cao s- 123docz.net

Dữ liệu chuẩn để chạy thuật toán là bộ dữ liệu được công bố tại địa chỉ:

http://fimi.uantwerpen.be/data/. Đây là các bộ dữ liệu thực tế được sử dụng rộng rãi trong các nghiên cứu về HUIM, bao gồm: Chess, Foodmart, Mushroom, Retail, Accident, Connect.

Database Transaction Count Item Count

Chess 287640 6750 Foodmart 1940130 140310 Mushroom 731160 10710 Retail 7934580 1482300 Bảng 3.1: Bộ dữ liệu chạy thử nghiệm 3.2. Tiến hành chạy thực nghiệm

Các thuật toán trong thí nghiệm được thực hiện bằng ngôn ngữ C++ trên máy tính cài đặt hệ điều hành Centos 7.5, bộ xử lý AMD Ryzen 5 1600x 3.6 GHz với 6 lõi, 12 luồng, 8GB RAM trên 04 bộ dữ liệu tiêu chuẩn: Chess, Foodmart, Mushroom, Retail với các ngưỡng lợi ích lần lượt là:

Database Threshold 1 Threshold 2 Threshold 3

Chess 25.00% 25.50% 26.00%

Foodmart 0.11% 0.12% 0.13%

Retail 0.30% 0.40% 0.50%

Mushroom 14.00% 14.25% 14.50%

Bảng 3.2: Ngưỡng tiện ích thiết lập chạy thực nghiệm

Các thông số chạy thuật toán được thiết lập chạy thực nghiệm để so sánh hai thuật toán: số lần lặp tối đa là 3000, kích thước quần thể kiến là 15, mỗi thí nghiệm sẽ thực hiện 20 lần và hiển thị các kết quả tối ưu, initPheromone = 1, rho=0.05.

3.3. Kết quả thực nghiệm và đánh giá

Do thuật toán có tính ngẫu nhiên nên kết quả so sánh là giá trị trung bình của các lần lặp. So sánh các thuật toán về thời gian chạy, số lượng HUI, tốc độ hội thụ của các thuật toán, kết quả cụ thể để đánh giá như sau:

1. Sốlượng HUIs:

Trong phần này, thí nghiệm đánh giá số lượng HUIs để phân tích hiệu suất của các thuật toán. Các kết quả tiến hành thí nghiệm được thể hiện trong hình 3.3.1:

Hình 3.3.1: So sánh số lượng HUI tìm được của 2 thuật toán

Từ hình 3.3.1, các kết quả thí nghiệm cho thấy HUIM-SMMAS có thể tìm ra được số lượng HUIs tốt hơn thuật toán HUIM-ACS trong điều kiện thí nghiệm. Bên cạnh đó, HUIM-SMMAS có hiệu quả tốt hơn HUIM-ACS với cơ sở dữ liệu lớn như Foodmart. Điều này thực sự có ý nghĩa với mục tiêu của bài toán là tìm ra được số HUI càng nhiều càng tốt trong cơ sở dữ liệu đang có.

2. Thời gian chạy thuật toán:

Tiến hành thí nghiệm với các thuật toán với các ngưỡng tối thiểu khác nhau và so sánh thời gian thực hiện thuật toán. Kết quả chi tiết được thể hiện trong hình 3.3.2.

Từ kết quả thực nghiệm, có thể thấy rằng thuật toán HUIM-SMMAS tốt hơn thuật toán HUIM-ACS về thời gian chạy thực nghiệm với phần lớn các bộ dữ liệu.

Kết quả này có được nhờ quy tắc cập nhật mùi SMMAS đơn giản, ít tính toán hơn quy tắc cập nhật mùi của hệ kiến ACS truyền thống.

Hình 3.3.2: So sánh thời gian thực hiện của các thuật toán

3. Tốc độ hội tụ:

Hình 3.3.3 cho thấy số lượng HUI trong các lần lặp khác nhau cho hai thuật toán. Nhìn chung, tốc độ hội tụ của thuật toán HUIM-SMMAS chậm hơn so với HUIM-ACS, tuy nhiên, với các cơ sở dữ liệu lớn như Foodmart, tốc độ hội tụ của HUIM-SMMAS vượt trội hơn hẳn HUIM-ACS. Nói chung, thuật toán mới tính toán các cơ sở dữ liệu lớn tốt hơn HUIM-ACS.

KẾT LUẬN

Các bài toán TƯTH NP-hard có nhiều ứng dụng quan trọng trong thực tiễn, đặc biệt là bài toán HUIM trong kinh tế, giúp định hướng kinh doanh cũng như tối ưu hóa lợi nhuận thu được.

Khi dùng phương pháp ACO, quy tắc cập nhật mùi đóng vai trò quan trọng, quyết định hiệu quả thuật toán được dùng. Luận văn cài đặt thuật toán HUIM- SMMAS áp dụng quy tắc cập nhật mùi của hệ kiến SMMAS. Thuật toán này bất biến đối với phép biến đổi đơn điệu hàm mục tiêu, thực nghiệm trên các bài toán cơ bản như TSP, UBQP, lập lịch sản xuất với dữ liệu chuẩn cho thấy các thuật toán đề xuất có hiệu quả và dễ sử dụng hơn so với các thuật toán thông dụng nhất hiện nay như ACS và MMAS.

Thuật toán HUIM-SMMAS sử dụng đồ thị cấu trúc định tuyến rõ ràng, thu gọn không gian tìm kiếm và các đặc tính của thuật toán ACO, ngoài ra, việc áp dụng quy tắc cập nhật mùi của SMMAS giúp cho thuật toán đơn giản hơn, tăng khả năng khám phá. Kết quả thực nghiệm cho thấy thuật toán HUIM-SMMAS tốt hơn so với thuật toán HUIM-ACS đã công bố trước đó..

Thuật toán HUIM-SMMAS có thể áp dụng đồ thị cấu trúc khác và kỹ thuật tìm kiếm địa phương để có kết quả tốt hơn.

TÀI LIỆU THAM KHẢO

[1] R. Agrawal, R. Srikant, Fast algorithms for mining association rules in large databases, in: The International Conference on Very Large Data Bases, volume 1215, 1994, pp. 487–499.

[2] M.S. Chen, J. Han, P.S. Yu, Data mining: an overview from a database perspective, IEEE Trans. Knowl. Data. Eng. 8 (6) (1996) 866–883.

[3] C.F. Ahmed, S.K. Tanbeer, B.S. Jeong, Y.K. Lee, Efficient tree structures for high utility pattern mining in incremental databases, IEEE Trans. Knowl. Data. Eng.21 (12) (2009) 1708–1721.

[4] H. Yao, H.J. Hamilton, C.J. Butz, A foundational approach to mining itemset utilities from databases., SIAM, 2004, pp. 221–225.

[5] H. Yao, H.J. Hamilton, Mining itemset utilities from transaction databases, Data Knowl. Eng. 59 (3) (2006) 603–626.

[6] S.J. Yen, Y.S. Lee, Mining high utility quantitative association rules, in: Data Warehousing and Knowledge Discovery, 2007, pp. 283–292.

[7] R.C. Chan, Q. Yang, Y.D. Shen, Mining high utility itemsets, in: IEEE Interna- tional Conference on Data Mining, 2003, pp. 19–26.

[8] Y. Liu, W.k. Liao, A. Choudhary, A two-phase algorithm for fast discovery of high utility itemsets, in: Advances in Knowledge Discovery and Data Mining, 2005, pp. 689–695.

[9] C.W. Lin, T.P. Hong, W.H. Lu, An effective tree structure for mining high utility itemsets, Expert Syst. Appl. 38 (6) (2011) 7419–7424.

[10] G.C. Lan, T.P. Hong, V.S. Tseng, An efficient projection-based indexing approach for mining high utility itemsets, Knowl. Inf. Syst. 38 (1) (2014) 85–107.

[11] V.S. Tseng, C.W. Wu, B.E. Shie, P.S. Yu, UP-Growth: An Efficient Algorithm for High Utility Itemset Mining, in: ACM SIGKDD international conference on Knowledge Discovery and Data Mining, 2010, pp. 253–262.

[12] M. Liu, J. Qu, Mining high utility itemsets without candidate generation, in: ACM International Conference on Information and Knowledge Management, 2012, pp. 55–64.

[13] M. Zihayat, A. An, Mining top-k high utility patterns over data streams, Inf. Sci. 285 (2014) 138–161.

[14] H. Ryang, U. Yun, Top-k high utility pattern mining with effective threshold raising strategies, Knowl. Based Syst. 76 (2015) 109–126.

[15] V.S. Tseng, C.W. Wu, P. Fournier-Viger, S.Y. Philip, Efficient algorithms for mining top-k high utility itemsets, IEEE Trans. Knowl. Data Eng. 28 (1) (2016) 54– 67.

[16] S. Krishnamoorthy, Pruning strategies for mining high utility itemsets, Expert Syst. Appl. 42 (5) (2015) 2371–2381.

[17] U. Yun, J. Kim, A fast perturbation algorithm using tree structure for privacy preserving utility mining, Expert Syst. Appl. 42 (3) (2015) 1149–1165.

[18] J.C.W. Lin, W. Gan, P. Fournier-Viger, T.P. Hong, H.C. Chao, Fdhup: fast algorithm for mining discriminative high utility patterns, Knowl Inf Syst (2016).

[19] J.C.W. Lin, W. Gan, P. Fournier-Viger, T.P. Hong, V.S. Tseng, Efficient algorithms for mining high-utility itemsets with uncertain databases, Knowl. Based Syst. 96 (2016) 171–187.

[20] S. Kannimuthu, K. Premalatha, Discovery of high utility itemsets using genetic algorithm with ranked mutation, Appl. Artif. Intell. 28 (4) (2014) 337–359.

[21] R. Cattral, F. Oppacher, K. Graham, Techniques for evolutionary rule discovery in data mining, in: IEEE Congress on Evolutionary Computation, 2009, pp. 1737–1744.

[22] H. John, Adaptation in Natural and Artificial Systems, MIT Press, Cambridge, MA, 1992.

[23] Y. Zhang, S. Wang, G. Ji, A comprehensive survey on particle swarm optimization algorithm and its applications, Math. Probl. Eng. 2015 (2015).

[24] J.C.W. Lin, L. Yang, P. Fournier-Viger, T.-P. Hong, M. Voznak, A binary PSO approach to mine high-utility itemsets, Soft Comput. (2016) 1–19.

[25] J. Kennedy, R.C. Eberhart, A discrete binary version of the particle swarm algorithm, in: IEEE International Conference on Systems, Man, and Cybernetics, volume 5, 1997, pp. 4104–4108.

[26] Y. Zhang, S. Wang, G. Ji, A rule-based model for bankruptcy prediction based on an improved genetic ant colony algorithm, Math. Probl. Eng. 2013 (2013).

[27] M. Dorigo, L.M. Gambardella, Ant colony system: a cooperative learning approach to the traveling salesman problem, IEEE Trans. Evol. Comput. 1 (1) (1997) 53–66.

[28] A. Colorni, M. Dorigo, V. Maniezzo, Distributed optimization by ant colonies, in: The first European conference on artificial life, 142, 1991, pp. 134–142.

[29] M. Dorigo, V. Maniezzo, A. Colorni, Ant system: optimization by a colony of cooperating agents, IEEE Trans. Syst. Man Cybern. Part B 26 (1) (1996) 29–41.

[30] J. Han, J. Pei, Y. Yin, R. Mao, Mining frequent patterns without candidate generation: a frequent-pattern tree approach, Data Min. Knowl. Discov. 8 (1) (2004) 53–87.

[31] S. Zida, P. Fournier-Viger, J.C.W. Lin, C.W. Wu, V.S. Tseng, EFIM: a highly efficient algorithm for high-utility itemset mining, in: Mexican International Conference on Artificial Intelligence, 2015, pp. 530–546.

[32] P. Fournier-Viger, J.C.W. Lin, A. Gomariz, T. Gueniche, A. Soltani, Z. Deng, H.T. Lam, The SPMF Open-Source Data Mining Library Version 2 and Beyond, 2016, pp. 36–40.

[33] J.C.W. Lin, W. Gan, P. Fournier-Viger, T.P. Hong, Mining high-utility itemsets with multiple minimum utility thresholds, in: International C∗ Conference on Computer Science & Software Engineering, 2015, pp. 9–17.

[34] Jimmy Ming-Tai Wu, Justin Zhan, Jerry Chun-Wei Lin, An ACO-based approach to mine high-utility itemsets, Knowledge-Based Systems, Volume 116, 15 January 2017, Pages 102–113.

[35] Huan H.X, Trung N.L, Dong D.D, Tue H.H, Solving the Traveling Salesman Problem with Ant Colony Optimization: A Revisit and New Efficient Algorithms, Journal on Electronics and Communications, Vol. 2, No. 3–4, July – December, 2012.