Khai phá luật kết hợp sử dụng thuật toán apriori, hỗ trợ cho hoạt động bán hàng tại siêu thị

6 0 0
Khai phá luật kết hợp sử dụng thuật toán apriori, hỗ trợ cho hoạt động bán hàng tại siêu thị

Đang tải... (xem toàn văn)

Thông tin tài liệu

TNU Journal of Science and Technology 226(16): 211 - 216 ASSOCIATION RULES MINING USING APRIORI ALGORITHM, SUPPORT FOR SALES ACTIVITIES IN SUPERMARKET Tran Thi Xuan1*, Nguyen Van Nui2 TNU - University of Economics and Business Administration TNU - University of Information and Communication Technology ARTICLE INFO Received: 07/10/2021 Revised: 15/11/2021 Published: 15/11/2021 KEYWORDS Data mining Association rule mining Association rule Apriori Sale activity ABSTRACT Currently, data mining is gaining popularity in the retail sector and is an effective analytical method for detecting useful and unknown information in retail data The organization of goods and related business activities towards enhancing the customer satisfaction is one of the very important jobs This study will focus on analyzing, mining and finding association rules based on past data, thereby proposing some recommendations to support the business operation of the supermarket to be more optimized For example, if a supermarket wants to arrange its stores in the most reasonable way, they can look at the purchase history and arrange the sets of products that are often bought together into one store Or a news website that wants to introduce users to the most related articles, the same rule can be applied In this paper, we calculate and analyze the relationship between products to help a supermarket arrange reasonable items for customers to buy goods by using association rule mining algorithm Aprori KHAI PHÁ LUẬT KẾT HỢP SỬ DỤNG THUẬT TOÁN APRIORI, HỖ TRỢ CHO HOẠT ĐỘNG BÁN HÀNG TẠI SIÊU THỊ Trần Thị Xuân1*, Nguyễn Văn Núi2 Trường Đại học Kinh tế Quản trị kinh doanh – ĐH Thái Nguyên Trường Đại học Công nghệ Thông tin Truyền thông – ĐH Thái Nguyên THÔNG TIN BÀI BÁO Ngày nhận bài: 07/10/2021 Ngày hoàn thiện: 15/11/2021 Ngày đăng: 15/11/2021 TỪ KHÓA Khai phá liệu Khai phá luật kết hợp Luật kết hợp Apriori Hoạt động bán hàng TÓM TẮT Hiện nay, khai phá liệu trở nên phổ biến lĩnh vực bán lẻ phương pháp phân tích hiệu cho phát thơng tin hữu ích chưa biết liệu bán lẻ Việc xếp tổ chức hàng hoá hoạt động kinh doanh có liên quan nhằm nâng cao hài lịng khách hàng công việc quan trọng Nghiên cứu tập trung phân tích, khai phá tìm luật kết hợp dựa liệu khư, từ đề xuất số kiến nghị để hỗ trợ cho hoạt động kinh doanh siêu thị tối ưu Ví dụ siêu thị muốn xếp gian hàng cách hợp lí nhất, họ nhìn vào lịch sử mua hàng sếp tập sản phẩm thường mua vào gian hàng Hoặc trang web tin tức muốn giới thiệu cho người dùng viết liên quan đến nhất, áp dụng quy luật tương tự Trong báo này, chúng tơi tính tốn phân tích tìm mối liên hệ sản phẩm giúp siêu thị xếp mặt hàng hợp lý để khách hàng thuận tiện mua hàng phương pháp khai phá luật kết hợp thuật toán Apriori DOI: https://doi.org/10.34238/tnu-jst.5122 * Corresponding author Email: tranxuantbhd@tueba.edu.vn http://jst.tnu.edu.vn 211 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 211 - 216 Giới thiệu chung Khai phá liệu lĩnh vực nghiên cứu quan trọng ngày phát triển với mục đích trích xuất thơng tin từ số lượng lớn tập liệu tích lũy Sự phát triển công nghệ thông tin dần thể rõ vai trò định hướng cho ngành bán lẻ, kinh doanh sản phẩm doanh nghiệp Xu thị trường cạnh tranh ngày gay gắt địi hỏi doanh nghiệp cần phải có chiến lược, giải pháp riêng để đáp ứng tốt mong muốn khách hàng Các doanh nghiệp cần tìm hiểu thơng tin có giá trị chi tiết hàng hóa để bán tốt nâng cao hiệu hoạt động thị trường Hiện nay, doanh nghiệp bán lẻ thu thập quy trình thơng qua phân tích mẫu tìm kiếm liệu với liên kết nhằm cung cấp dịch vụ tốt cho người tiêu dùng Dữ liệu lớn mơ hình hóa, chọn lọc khai phá để thu thập thơng tin hiểu hữu ích cho người Khai phá liệu triển vọng lĩnh vực cập nhật phần khoa học máy tính Sự tồn liệu lớn quan trọng để sử dụng cách việc trích xuất kiến thức ẩn kho liệu data mart, kho lưu trữ Thuật toán Apriori thuật tốn học máy khơng giám sát quy tắc tìm luật kết hợp Thuật tốn apriori áp dụng cho tập hợp giao dịch nhóm khách hàng tìm mối liên hệ sản phẩm Trong năm gần đây, kỹ thuật khai phá liệu phân lớp áp dụng thành công việc đề xuất mơ hình hỗ trợ khác để nâng cao chất lượng dịch vụ bán lẻ [1]-[7] Tác giả Eni Heni Hermaliani [1] sử dụng thuật toán Apriori để hỗ trợ tìm quy luật mua bán sản phẩm trái Tác giả J.Silva [2] cách sử dụng thuật toán Arpriori để khai phá quy tắc liên kết để phân khúc khách hàng khu vực doanh nghiệp vừa nhỏ Nhóm tác giả M Kavitha Subbaiah [3] sử dụng thuật tốn Aprori để trích xuất sản phẩm cửa hàng tạp hóa Mục đích nghiên cứu nhằm xác định mức độ mà thuật toán Apriori giúp phát triển chiến lược tiếp thị, có mơ hình liên kết xác định sản phẩm bán chạy Do vai trò quan trọng việc phát triển chiến lược tiếp thị, chủ đề nghiên cứu để tìm hiểu sâu rộng mơ hình để xác định quy luật, xác định sản phẩm bán chạy… tăng nhanh năm qua Gần đây, có vài mơ hình phân lớp nghiên cứu, đề xuất để hỗ trợ nhà nghiên cứu việc xây dựng mơ hình xác định quy luật, sản phẩm bán chạy [1]-[15] Tuy nhiên, thời điểm tại, cịn thiếu mơ hình tính tốn phù hợp cơng cụ dự đốn với độ xác cao hỗ trợ hiệu cho việc tìm kiếm luật xác Bên cạnh đó, tiến khoa học kỹ thuật ảnh hưởng cách mạng công nghiệp 4.0, liệu khách hàng kiểm chứng thực nghiệm ngày bổ sung nhiều Chính vậy, việc thiếu hụt mơ hình dự đốn vấn đề cấp thiết cần quan tâm giải Tiếp tục phát triển ý tưởng nghiên cứu trước đây, viết nhóm tác giả tập trung vào vấn đề phân tích tìm quy luật liên kết mặt hàng siêu thị dựa liệu khứ mua hàng khách thuật toán Apriori, sử dụng công cụ Weka [16] Xây dựng, huấn luyện mơ hình 2.1 Thu thập, tiền xử lý liệu Bài báo sử dụng liệu Kaggle [17] đánh giá hiệu kỹ thuật học máy Kaggle có nhiều liệu khác cho lĩnh vực nhằm hỗ trợ cho nghiên cứu học máy khoa học liệu Kaggle nhà nghiên cứu giới sử dụng rộng rãi Bộ liệu sau bước tiền xử lý, liệu bao gồm 4627 thông tin giao dịch mua hàng với 108 thuộc tính mặt hàng tổng giá trị giao dịch 2.2 Xây dựng huấn luyện mô hình Mơ hình tổng thể nghiên cứu thể chi tiết Hình bên Trong nghiên cứu này, để tìm luật kết hợp hỗ trợ hiệu cho hoạt động kinh doanh siêu thị, điều kiện trước tiên thỏa mãn giá trị cho trước độ hỗ trợ cực tiểu (minimum http://jst.tnu.edu.vn 212 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 211 - 216 support) độ tin cậy cực tiểu (minimum confidence) từ sở liệu có sẵn, cơng việc thực chia làm hai bước: Hình Mơ hình tổng thể hệ thống (1) Tìm tất tập mục phổ biến: tập mục phổ biến xác định qua việc tính độ hỗ trợ thoả mãn độ hỗ trợ cực tiểu (2) Sinh luật kết hợp mạnh từ tập mục phổ biến: Các luật phải thoả mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu Giả sử có tập mục phổ biến Lk, Lk = {I1, I2, I3, …, Ik}, luật kết hợp tập mục sinh sau: khởi tạo luật {I1, {I1, I2, I3, …, Ik-1}, → {Ik}, sau tiến hành kiểm tra độ tin cậy (confidence) để xác định luật có thỏa mãn hay khơng Thực cắt bỏ phần tử cuối vế trái, chuyển sang vế phải để tạo thành luật mới, lại kiểm tra độ tin cậy Quá trình thực vế trái trở thành tập rỗng Do bước thứ đơn giản nên hầu hết nghiên cứu khai phá luật kết hợp tập trung vào bước Đối với bước thứ khai phá luật kết hợp, ta lại chia làm bước con: sinh tập mục ứng viên (candidate frequent itemsets) sinh tập mục phổ biến (frequent itemsets) Trong đa số trường hợp, số lượng tập mục phổ biến sinh lớn, kéo theo số lượng luật kết hợp tạo thường hàng nghìn, chí hàng triệu luật Người dùng cuối gần hiểu đánh giá hết lượng lớn luật phức tạp trên, hạn chế phần giá trị kết thu Hiện có nhiều thuật toán hiệu đưa để giải vấn đề này, cách sinh luật phù hợp với nhu cầu người dùng (interest rules), sinh luật “không dư thừa” (“non-redundant” rules), sinh luật thỏa mãn tiêu chuẩn cụ thể coverage, leverage, lift strength Cho tập hợp I = {I1, I2, I3, …, In} gồm n phần tử khác nhau, I gọi tập mục (itemset), T giao tác (transaction) chứa tập phần tử thuộc I (T ⊆ I), D sở liệu chứa m giao tác T khác Một luật kết hợp phát biểu có dạng X→Y, X ⊆ I, Y ⊆ I X∩Y=Ø Vế phải X gọi tiền đề, vế trái Y gọi kết luận luật Có hai độ đo cho luật kết hợp, độ hỗ trợ (support) độ tin cậy (confidence) Độ hỗ trợ tập mục X D, kí kiệu supp(X), tính phần trăm số giao tác T D có chứa X (hay cịn gọi hỗ trợ X) Giả sử độ hỗ trợ phần tử 0,1%, điều có nghĩa có 0,1% số giao tác có chứa phần tử Độ hỗ trợ luật kết hợp r = X→Y, kí hiệu supp(r), biểu thị tần số luật có giao tác Độ hỗ trợ thể phần trăm liệu điều vế trái vế phải xảy Như vậy, độ hỗ trợ xác suất P(X∪Y): http://jst.tnu.edu.vn 213 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 211 - 216 Độ tin cậy luật kết hợp r = X→Y, kí hiệu conf(r), số phần trăm giao tác D chứa X Y số giao tác D chứa X Độ tin cậy xác suất có điều kiện P(Y|X), thể vế trái xảy có khả vế phải xảy ra: Độ tin cậy biểu thị độ mạnh luật kết hợp, giả sử độ tin cậy luật r 90%, có nghĩa 90% số giao tác có chứa X chứa Y Do sở liệu có kích thước lớn người dùng thường quan tâm tới tập phần tử định, người ta đưa ngưỡng giá trị cho độ hỗ trợ độ tin cậy nhằm loại bỏ luật không phù hợp với yêu cầu người dùng luật vô dụng Hai ngưỡng gọi độ hỗ trợ cực tiểu (minimum support) độ tin cậy cực tiểu (minimum confidence) Tập mục X có supp(X) ≥ minsupp, với minsupp độ hỗ trợ cực tiểu, gọi tập mục phổ biến (frequent itemset hay large itemset) Một số tính chất điển hình tập mục phổ biến: Nếu A⊆B với A, B tập mục supp(A) ≥ supp(B) Một tập chứa tập khơng phổ biến tập không phổ biến Các tập tập phổ biến tập phổ biến Các luật kết hợp thoả mãn hai ngưỡng độ hỗ trợ cực tiểu (minsupp) độ tin cậy cực tiểu (minconf) gọi luật kết hợp mạnh (strong), tức supp(X→Y) ≥ minsupp conf(X∪Y) ≥ minconf Người ta thường viết giá trị độ hỗ trợ độ tin cậy 0% 100% thay Nếu độ hỗ trợ cực tiểu minsupp có giá trị cao ta thu tập mục phổ biến, có luật hợp lệ phổ biến xuất hiện; ngược lại đặt minsupp thấp xuất nhiều luật hợp lệ Cịn độ tin cậy cực tiểu minconf, giá trị minconf cao thu luật, tất luật "gần đúng" Còn minconf có giá trị thấp ta thu nhiều luật phần lớn "rất không chắn" Trong thực tế, người ta thường đặt giá trị minsupp khoảng - 10% minconf khoảng 70 - 90% Hiện nay, Apriori [4] thuật toán khai phá luật kết hợp tiếng, sử dụng chiến lược tìm kiếm theo chiều rộng (Breath-first search) để tính độ hỗ trợ tập mục tận dụng bổ đề downward closure [4] để tìm tập ứng viên Apriori hiệu trình sinh tập ứng viên áp dụng sử dụng kĩ thuật cắt tỉa để tránh phải đánh giá số tập mục định mà bảo đảm tính tồn vẹn Apriori thuật toán Rakesh Agrawal, Tomasz Imielinski, Arun Swami đề xuất lần đầu vào năm 1994 Thuật toán Apriori dùng cách tiếp cận lặp, với tập mục k_itemsets dùng để thăm dò tập (k+1)_itemsets Đầu tiên, tập mục phổ biến 1_itemsets tìm thấy cách quét sở liệu (CSDL) để đếm số lượng item thu thập item thỏa mãn độ hỗ trợ cực tiểu, tập kết đặt L1 Tiếp theo, L1 dùng để tìm L2, tập mục phổ biến 2-itemsets, lại dùng tìm L3, tiếp tục tập mục phổ biến kitemsets khơng thể tìm thấy Việc tìm kiếm cho Lk địi hỏi lần qt toàn sở liệu Đầu vào: CSDL, độ hỗ trợ cực tiểu minsup Đầu ra: Tập mục phổ biến Thuật tốn Apriori có độ phức tạp thời gian O(k*(k2+t*n)) với k kích thước tập mục phổ biến, t kích thước sở liệu n số tập mục t Độ phức tạp thời gian thuật toán Apriori O(k3+k*t*n) Kết số thảo luận Như trình bày trước đó, nghiên cứu này, chúng tơi tiến hành sử dụng thuật tốn tìm luật kết hợp Apriori Kết thuật tốn trình bày Bảng Với tất quy tắc mà thuật tốn tìm quy tắc khách mua biscuits frozen tỉ lệ mua Bread and cake chiếm tới 91% tổng số tiền giao dịch cao Do đó, nên đặt mặt hàng biscuits, frozen, bread cake cạnh cửa hàng http://jst.tnu.edu.vn 214 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 788 760 705 746 779 725 701 866 757 877 Bảng Kết thuật toán Apriori Antecedents Consequents Fruit, frozen food, biscuits, total = hight Bread and cake Fruit, baking needs, biscuits, total = hight Bread and cake Fruit, baking needs, frozen foods, total = hight Bread and cake Fruit, vegestables, biscuits, total = hight Bread and cake Party snack foods, total = hight Bread and cake Vegetables, frozen foods, biscuits, total = hight Bread and cake Vegetables, baking needs, biscuits, total = hight Bread and cake Fruit, biscuits, total = hight Bread and cake Fruit vegetables, frozen foods, total = hight Bread and cake Fruit, frozen foods, total = hight Bread and cake 226(16): 211 - 216 Support 0,03 0,03 0,03 0,03 0,04 0,03 0,03 0,04 0,03 0,04 Confidence 0,92 0,92 0,92 0,92 0,91 0,91 0,91 0,91 0,91 0,91 lift 1,27 1,27 1,27 1,27 1,27 1,26 1,26 1,26 1,26 1,26 Kết luận Qua kết ta thấy, thuật toán Apriori hỗ trợ tốt việc tìm quy luật liên kết sản phẩm cửa hàng Theo kết phân tích cho thấy, khách mua biscuits frozen tỉ lệ khách định mua bread cake 91% Do đó, cửa hàng nên đặt mặt hàng cạnh để khách hàng thuận lợi việc mua hàng TÀI LIỆU THAM KHẢO/ REFERENCES [1] E H Hermaliani et al, “Data Mining Technique to Determine the Pattern of Fruits Sales & Supplies Using Apriori Algorithm,” Journal of Physics: conference series, vol 1641, 2020, Art no 012070 [2] J Silva et al, “Association Rules Extraction for Customer Segmentation in the SMEs Sector Using the Apriori Algorithm,” International Workshop on Web Search and Data Mining (WSDM), April 29 May 02, 2019, Leuven, Belgium [3] M Kavitha and S Subbaiah, “Association Rule Mining using Apriori Algorithm for Extracting Product Sales Patterns in Groceries,” Int J Eng Res Technol., vol 08, no 03, pp 1-4, 2020 [4] I R V Srinivasa Kumar, R Renganathan, and C.VijayaBanu, “Consumer Buying Pattern Analysis using Apriori Association Rule,” International Journal of Pure and Applied Mathematics, vol 119, no 7, pp 2341-2349, 2018 [5] N Verma, D Malhotra, and S Jatinder, “Big data analytics for retail industry using MapReduceApriori framework,” J Manag Anal, vol 7, pp 424-442, 2020 [6] P Yazgan, Association Rules And Market Basket Analysis: A Case Study In Retail Sector, Istanbul Commerce University, 2016 [7] Y Kurnia, Y Isharianto, Y C Giap, A Hermawan, and Riki, “Study of application of data mining market basket analysis for knowing sales pattern (association of items) at the O! Fish restaurant using apriori algorithm,” 1st International Conference on Advance and Scientific Innovation (ICASI) - IOP Conf Series: Journal of Physics: Conf Series 1175, 2019, pp 1-6 [8] R Husna, R Lestari, and Y Hendra, “Inventory model of goods availability with apriori algorithm,” ICOMSET, IOP Conf Series: Journal of Physics: Conf Series 1317, vol 2018, pp 1-8, 2018 [9] V Singh and K Kumar, “Data Mining and Knowledge Management,” Int Res J Eng Technol., vol 4, no 2, pp 200-206, 2017 [10] J Han, J Pei, and M Kamber, Data mining: concepts and techniques, Elsevier, vol 2, 2011 [11] S Hussain, N A Dahan, F M Ba-Alwib, and N Ribata, “Educational Data Mining and Analysis of Students’ Academic Performance Using WEKA,” Indones J Electr Eng Comput Sci., vol 9, no 2, pp 447-459, 2018 [12] F M Ba-Alwi and H M Hintaya, “Comparative Study for Analysis the Prognostic in Hepatitis Data: Data Mining Approach,” Int J Sci Eng Res., vol 4, no 8, p 64, 2013 [13] U Fayyad, P G Shapiro, and P Smyth, “From Data Mining to Knowledge Discovery in Databases,” American Association for Artificial Intelligence Magazine, vol.17, pp 36-54, 1996 [14] F Ba-Alwi, “Discovery of novel association rules based on genetic algorithms,” Br J Math Comput Sci., vol 4, no 23, p 17, 2014 http://jst.tnu.edu.vn 215 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 211 - 216 [15] M Z Susac and Adela, “Discovering market basket patterns using hierarchical association rules,” Croatian Operational Research Review, 2015, pp 475-487 [16] A K Shrivastav and R N Panda, “Implementation of Apriori Algorithm using WEKA,” KIET International Journal of Intelligent Computing and Informatics, vol 1, no 1, pp 12-15, January 2021 [17] Kaggle Inc, “Kaggle: Your Machine Learning and Data Science Community”, 2021 https://www.kaggle.com/ [Accessed June 20, 2021] http://jst.tnu.edu.vn 216 Email: jst@tnu.edu.vn ... Một luật kết hợp phát biểu có dạng X→Y, X ⊆ I, Y ⊆ I X∩Y=Ø Vế phải X gọi tiền đề, vế trái Y gọi kết luận luật Có hai độ đo cho luật kết hợp, độ hỗ trợ (support) độ tin cậy (confidence) Độ hỗ trợ. .. cịn gọi hỗ trợ X) Giả sử độ hỗ trợ phần tử 0,1%, điều có nghĩa có 0,1% số giao tác có chứa phần tử Độ hỗ trợ luật kết hợp r = X→Y, kí hiệu supp(r), biểu thị tần số luật có giao tác Độ hỗ trợ thể... Tiếp tục phát triển ý tưởng nghiên cứu trước đây, viết nhóm tác giả tập trung vào vấn đề phân tích tìm quy luật liên kết mặt hàng siêu thị dựa liệu khứ mua hàng khách thuật toán Apriori, sử dụng

Ngày đăng: 10/11/2022, 08:03

Tài liệu cùng người dùng

Tài liệu liên quan