Nghiên Cứu Ứng Dụng Một Số Thuật Toán Khai Phá Dữ Liệu Hỗ Trợ Phân Tích Cơ Sở Dữ Liệu Bán Hàng Siêu Thị.pdf

96 5 0
Nghiên Cứu Ứng Dụng Một Số Thuật Toán Khai Phá Dữ Liệu Hỗ Trợ Phân Tích Cơ Sở Dữ Liệu Bán Hàng Siêu Thị.pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

0 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số CS20 42 Chủ nhiệm đề t[.]

0 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số: CS20 - 42 Chủ nhiệm đề tài: ThS GVC NGUYỄN HƯNG LONG Thành viên tham gia: ThS Nguyễn Thị Vân Trang ThS Lê Kim Anh Hà Nội, 03/2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Chủ nhiệm đề tài: ThS GVC NGUYỄN HƯNG LONG Thành viên tham gia: ThS Nguyễn Thị Vân Trang ThS Lê Kim Anh Xác nhận Trường Đại học Thương mại Hà Nội, 03/2021 Chủ nhiệm đề tài MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH DANH MỤC CÁC TỪ VIẾT TẮT CHƯƠNG TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI Tính cấp thiết đề tài Tổng quan đề tài nghiên cứu 10 Mục tiêu nghiên cứu 15 Đối tượng phạm vi nghiên cứu 15 Phương pháp nghiên cứu 15 Kết cấu báo cáo nghiên cứu 16 CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ, MƠ HÌNH VÀ THUẬT TỐN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 17 2.1 Hệ thống bán hàng siêu thị 17 2.1.1 Hệ thống quản lí bán hàng 17 2.1.2 Siêu thị đặc trưng siêu thị 17 2.1.3 Công việc chức siêu thị 18 2.2 Cơ sở liệu bán hàng siêu thị 19 2.2.1 Cơ sở liệu tầm quan trọng quản lí sở liệu 19 2.2.2 Cơ sở liệu bán hàng siêu thị 21 2.3 Khai phá liệu khai phá liệu bán hàng siêu 23 2.3.1 Khai phá liệu 23 2.3.2 Khai phá liệu bán hàng siêu thị 24 2.4 Mơ hình tốn thuật toán khai phá TMTX 25 2.4.1 Mơ hình tốn thuật tốn khai phá tập mục thường xuyên đa ngưỡng/một ngưỡng 25 2.4.2 Mơ hình tốn thuật toán khai phá tập mục thường xuyên với trọng số thích nghi 28 CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ 34 3.1 Ứng dụng thuật toán khai phá tập mục thường xuyên phân tích sở liệu bán hàng siêu thị 34 3.1.1 Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng 34 3.1.2 Ứng dụng thuật toán BMB khai phá TMTX 39 3.2 Ứng dụng thuật toán khai phá tập mục thường xuyên với trọng số thích nghi phân tích sở liệu bán hàng siêu thị 43 3.2.1 Đặt toán 43 3.2.2 Tổ chức khai phá liệu 43 3.2.3 Nhận xét, đánh giá kết khai phá 46 CHƯƠNG KẾT LUẬN, THẢO LUẬN VÀ ĐỀ XUẤT VẤN ĐỀ NGHIÊN CỨU 48 4.1 Các kết luận 48 4.2 Các dự báo phát triển vấn đề nghiên cứu 48 4.3 Các đề xuất kiến nghị vấn đề nghiên cứu 48 Tài liệu tham khảo 50 DANH MỤC CÁC BẢNG Bảng Biểu diễn ngang CSDL giao tác 25 Bảng Dòng liệu thời điểm T1 29 Bảng Trọng số mục theo lô thời điểm T1 .30 Bảng Dữ liệu giỏ hàng bán siêu thị (sau mã hóa tên hàng) 34 Bảng Bảng tập TMTX tương ứng với ngưỡng 35 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟏 = 𝟎 𝟓 36 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟐 = 𝟎 𝟓𝟓 𝐯à 𝛆𝐭𝟑 = 𝟎 𝟔 36 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟒 = 𝟎 𝟔𝟓 𝐯à 𝛆𝐭𝟓 = 𝟎 𝟕 37 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟔 = 𝟎 𝟕𝟓 𝐯à 𝛆𝐭𝟕 = 𝟎 𝟖 37 Bảng 10 Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟖 = 𝟎 𝟖𝟓 37 Bảng 11 Dữ liệu khác giỏ hàng bán siêu thị (sau mã hóa tên hàng) 39 Bảng 12 Ma trận nhị phân A 39 Bảng 13 Ma trận rút gọn A1 40 Bảng 14 Ma trận rút gọn A2 .41 Bảng 15 Ma trận nhị phân thu gọn A3 .41 Bảng 16 Tập mặt hàng thường xuyên độ hỗ trợ 42 DANH MỤC CÁC HÌNH Hình Cây SAWFI-tree sau chèn 12 giao tác lơ dịng liệu 32 Hình Cây SAWFI-tree(e) điều kiện “e” 44 Hình Cây SAWFI-tree(d), điều kiện “d” “cd” 45 Hình Cây SAWFI-tree(c), điều kiện “c” 45 DANH MỤC CÁC TỪ VIẾT TẮT Danh mục từ viết tắt tiếng Việt TT Cụm từ đầy đủ Từ viết tắt KPDL Khai phá liệu CSDL Cơ sở liệu DHTVTS Độ hỗ trợ với trọng số TMTX Tập mục thường xuyên TMUV Tập mục ứng viên Ngĩa từ tiếng Anh TT Nghĩa tiếng Việt Cụm từ tiếng Anh Downward Closure Property Bao đóng xuống Data Mining Khai phá liệu Frequent Items Mining Khai phá tập mục thường xuyên Frequnet Pattern Mẫu thường xuyên Itemset Tập mục Transaction Giao tác Transaction Data Base Cơ sở liệu giao tác BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NCKH CẤP TRƯỜNG Thông tin chung: - Tên đề tài: NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số: CS20 - 42 - Chủ nhiệm: ThS, GVC NGUYỄN HƯNG LONG - Cơ quan chủ trì: Trường Đại học Thương mại - Thời gian thực hiện: 30/08/2020 – 31/03/2021 Mục tiêu: Đề tài tập trung nghiên cứu khía cạnh sau: - Nghiên cứu lý thuyết khai phá liệu bán hàng siêu thị, khai phá TMTX - Xây dựng mơ hình áp dụng số thuật tốn khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị - Đề xuất mơ hình áp dụng số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị Tính sáng tạo: Đề tài vận dụng tính khoa học lĩnh vực Khai phá liệu, cụ thể số thuật toán khai phá tập mục thường xuyên ứng dụng thuật toán cho toán phân tích sở liệu bán hàng siêu thị Đây xu hướng cần thiết việc giải toán khai phá sở liệu lớn phức tạp bối cảnh kinh tế tri thức Trong số thuật toán trình bày đề tài tác giả vận dụng đề xuất thuật tốn khác có tính hiệu nhớ độ phức tạp thời gian Đây cần thiết cho nhà nghiên cứu nghiên cứu lĩnh vực khai phá liệu Kết đề tài ứng dụng nhiều mặt đời sống - xã hội khơng cho tốn phân tích sở liệu bán hàng siêu thị Kết nghiên cứu: - Đề tài đạt mục tiêu đề - Có cơng bố sản phẩm khoa học - Một Báo cáo tổng kết Công bố sản phẩm khoa học từ kết nghiên cứu đề tài Để thực đề tài tác giả cộng công bố viết cho Hội thảo quốc gia Hội thảo cấp Trường có uy tín 1) Nguyễn Hưng Long, Nguyễn Minh Hồng (2020), Ứng dụng thuật tốn khai phá tập phổ biến dựa ma trận nhị phân phân tích sở liệu bán hàng siêu thị, Kỷ yếu Hội thảo quốc gia “Phát triển Thương mại điện tử Việt Nam kỷ nguyên số”, tr 717 – 727 2) Nguyễn Hưng Long, Nguyễn Minh Hoàng (2021), Thuật toán khai phá tập mục thường xuyên sở liệu lớn thông qua mẫu đại diện, Hội thảo khoa học cấp trường “Ứng dụng phân tích định lượng kinh tế - xã hội”, tr 284 – 294 Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Đề tài có ý nghĩa lý luận thực tiễn Đề tài tài liệu tham khảo cho giảng viên sinh viên thuộc chuyên ngành Quản trị HTTT kinh tế trường Đại học Thương mại trường đại học cao đẳng khác có đào tạo chuyên ngành tương đồng Ngày 20 tháng 03 năm 2021 Chủ nhiệm đề tài NGUYỄN HƯNG LONG CHƯƠNG TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI Tính cấp thiết đề tài Ngày nay, với xu hội nhập kinh tế quốc tế mở cho quốc gia nhiều hội phát triển mặt kinh tế - xã hội Xét góc độ thị trường bán lẻ (siêu thị, đại siêu thị, trung tâm thương mại - gọi chung siêu thị), siêu thị ngày gia tăng qui mô, số lượng chất lượng Các siêu thị lớn kinh doanh đến hàng chục nghìn mặt hàng, với hàng triệu, chục triệu lượt khách hàng năm siêu thị hàng ngày phải xử lí đến hàng chục nghìn đơn hàng với chủng loại đa dạng khác Do vậy, CSDL bán hàng siêu thị phức tạp, lớn số giỏ hàng (mặt hàng/nhóm mặt hàng) mà siêu thị bán theo thời điểm (ngày, tuần, quí, ) Mặt khác, hành vi (sự quan tâm) khách hàng siêu thị thường bị ảnh hưởng nhiều yếu tố như: nhu cầu, thời gian, tính phổ biến, vấn đề trị, kiện xã hội, … Do vậy, giá (trọng số) mặt hàng bán siêu thị thay đổi theo nhằm mục đích lưu chuyển hàng hóa nhanh tăng doanh thu cho siêu thị Một yêu cầu đặt nhà quản lí siêu thị cần trả lời cho câu hỏi CSDL bán hàng siêu thị thì: mặt hàng/nhóm mặt hàng mà khách hàng thường xuyên mua giỏ hàng? Mối quan hệ mặt hàng giỏ hàng nào? để từ nhà quản lí xây dựng kế hoạch kinh doanh với mục đích góp phần tăng doanh thu đạt lợi nhuận tối đa cho siêu thị Khai phá liệu lĩnh vực nghiên cứu quan trọng cơng nghệ thơng tin nhằm trích lọc thơng tin hữu ích chưa biết, tiềm ẩn CSDL lớn Khai phá TMTX đóng vai trị quan trọng nhiều nhiệm vụ khai phá liệu như: khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tương quan, phân lớp, gom cụm liệu, khai phá web, Khai phá TMTX nhà nghiên cứu liên tục xây dựng phát triển cơng cụ (thuật tốn) để giải tốn kinh tế - xã hội nói chung tốn phân tích CSDL bán hàng siêu thị không ngoại lệ nhằm hỗ trợ nhà quản lí siêu thị định đắn chiến lược phát triển siêu thị Hầu hết thuật toán khai phá liệu, khai phá TMTX nhà nghiên cứu, đề xuất mang tính lý thuyết khơng/ít đề xuất mơ hình ứng dụng cụ thể thuật toán khai phá hỗ trợ phân tích hoạt động kinh doanh nói chung hay hỗ trợ phân tích CSDL bán hàng siêu thị nói riêng Mặt khác, với phát triển lĩnh vực khai phá liệu, yêu cầu đòi hỏi ngày hoàn thiện, phát triển, tái cấu trúc học phần chương trình đào tạo trường đại học thuộc khối kinh tế, quản trị, kinh doanh, mà đặc biệt Trường Đại học Thương mại với chun ngành Quản trị hệ thống thơng tin, việc nghiên cứu ứng dụng cơng cụ (thuật tốn) khai phá liệu hoạt động kinh doanh thương mại nói chung, bán hàng siêu thị nói riêng cần thiết Xuất phát từ sở lý luận, nhu cầu thực tiễn yêu cầu đòi hỏi đổi đại học tình hình mới, chúng tơi lựa chọn đề xuất đề tài “Nghiên cứu ứng dụng - Nhóm mặt hàng mua nên bố trí xếp chúng gian hàng siêu thị để đánh trúng tâm lí khách hàng (khi mua mặt hàng họ họ mua ln nhóm mặt hàng) tùy theo nhu cầu sở thích họ - Nhà quản lí xây dựng chiến lược quảng cáo, sách khuyến mại cho tập khách hàng tiềm siêu thị, … KẾT LUẬN Trong viết chúng tơi nghiên cứu thuật tốn BMB khai phá TPB ứng dụng thuật tốn phân tích CSDL bán hàng siêu thị Về lí thuyết, BMB giảm chi phí đáng kể q trình xử lí không gian lưu trữ thông qua chuyển đổi CSDL giao tác ma trận nhị phân ma trận nhị phân rút gọn Về thực tiễn, kết khai phá CSDL bán hàng siêu thị sở để giúp cho nhà quản lí xây dựng chiến lược bán hàng hiệu mang lại lợi nhuận cho siêu thị Thuật tốn BMB áp dụng cho giải số toán khác thực tiễn như: phân tích dịng kích hoạt web, phân tích nhu cầu khách hàng sử dụng mạng viễn thơng, phân tích dầu tư chứng khốn, phân tích rủi ro tài chính, TÀI LIỆU THAM KHẢO Trương Đình Chiến (2015), Quản trị Marketing, NXB Đại học Kinh tế quốc dân, Hà Nội [2] Lê Văn Đông, (2011), Nghiên cứu luật kết hợp ứng dụng cơng tác quản lí kho hàng Siêu thị Metro, Luận văn thạc sĩ, Đại học Đà Nẵng [3] Vũ Minh Đức, Vũ Huy Thơng, (2018) Giáo trình quản trị bán hàng, NXB Đại học Kinh tế Quốc Dân, Hà Nội [4] Nguyễn Hưng Long (2018), Ứng dụng số thuật toán toán khai thác liệu cho hoạt động kinh doanh thương mại, Đề tài NCKH CN cấp sở, Trường Đại học Thương mại [5] Nguyễn Hưng Long, Nguyễn Thị Vân Trang, (2019), Khai phá tập phổ biến đa ngưỡng phân tích sở liệu bán hàng siêu thị, Hội thảo quốc tế Khởi nghiệp Sáng tạo - Cơ hội thách thức doanh nghiệp Việt Nam (tập 2), NXB Hà Nội, tr 217-231 [6] Nguyễn Thanh Tùng, Phạm Quang Trung (2008), Thuật toán khai phá tập mục thường xuyên dựa ma trận nhị phân, Tạp chí Khoa học Công nghệ, Tập 2, Số 1(45), tr 15-21 [7] Aggarwal, C In C Aggarwal (Ed.) (2007), Data Streams: Models and algorithms Springer [8] Agrawal R., Srikant, R (1994), Fast Algorithms for Mining Association Rules In: 20th Int Conf on Very Large Data Bases (VLDB), pp 487-499 [9] Wu X, Kumar V., Ross Q J., Ghosh J., Yang Q., Motoda H., McLachlan G J., Angus Ng., Liu B., Yu P S., Zhou Z H., Steinbach M., Hand D J., Steinberg D., (2008), Top 10 algorithm in data mining, Knowledge and Information Systems, pp 1-37 http://tapchibanle.org/ https://vi.wikipedia.org/wiki/ [12] http://www.brandsvietnam.com/ 727 Giải phát phát triển hạ tầng, dịch vụ điện toán đám mây nhằm thúc đẩy chuyển đổi số cho doanh nghiệp Việt Nam ThS Hàn Minh Phương Khoa hệ thống thông tin kinh tế Thương mại điện tử Trường Đại học Thương mại Nâng cao hiệu sản xuất may cơng nghiệp sở số hóa quy trình sản xuất lập kế hoạch điều phối luồng công việc ThS Đặng Quốc Hữu Trường Đại học Thương Mại TS Nguyễn Thế Lộc Trường Đại học Sư phạm Hà Nội TS Nguyễn Dỗn Cường Viện Khoa học Cơng nghệ Quân Nền tảng công nghệ hướng phát triển du lịch thông minh Việt Nam ThS Trần Thị Nhung, ThS Nguyễn Quang Trung Khoa Hệ thống thông tin kinh tế Thương mại điện tử Đại học Thương mại Du lịch thông minh - thách thức giải pháp phát triển Việt Nam ThS Đào Thị Thu Hường Trường Đại học Công nghệ thông tin TT Việt Hàn Đại học Đà Nẵng Xu khả ứng dụng công nghệ Blockchain Việt Nam ThS.Vũ Quang Huy, ThS Hoàng Ngọc Cảnh; ThS Trần Lê Kim Danh Trung tâm Công nghệ thông tin Trường Đại học Thương mại Ứng dụng thuật toán khai phá tập phổ biến dựa ma trận nhị phân phân tích sở liệu bán hàng siêu thị Th.S Nguyễn Hưng Long Khoa Hệ thống thông tin kinh tế Thương mại điện tử Trường Đại học Thương mại Nguyễn Minh Hồng Khoa Tốn - Cơ - Tin học Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội 738 28 THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN THÔNG QUA MẪU ĐẠI DIỆN 285 Nguyễn Hưng Long Khoa Hệ thống thông tin KT Thương mại ĐT, Đại học Thương mại Nguyễn Minh Hồng Khoa Tốn - Cơ - Tin học, Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội 29 ĐO LƯỜNG CHẤT LƯỢNG DỊCH VỤ CỦA CÔNG TY TNHH XÂY DỰNG KIẾN TRÚC NHÀ TA VỚI KHÁCH HÀNG CÁ NHÂN TẠI KHU VỰC HÀ NỘI VÀ MỘT SỐ TỈNH THÀNH LÂN CẬN Ths Lê Văn Hùng, Ths Nguyễn Thanh Thụy, Ths Lê Thanh Phúc 296 Khoa Hệ thống Thông tin Quản lý - Học viện Ngân hàng 30 ƯỚC LƯỢNG HIỆU QUẢ KĨ THUẬT BẰNG PHƯƠNG PHÁP PHÂN TÍCH BIÊN NGẪU NHIÊN ThS Hồng Thị Thu Hà Bộ mơn tốn, Đại học Thương mại 304 THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN THÔNG QUA MẪU ĐẠI DIỆN Nguyễn Hưng Long Khoa Hệ thống thông tin kinh tế Thương mại điện tử, Đại học Thương mại Nguyễn Minh Hồng Khoa Tốn - Cơ - Tin học, Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Tóm tắt Bài viết đề xuất thuật tốn RSFPGrowth khai phá tập mục thường xuyên sở liệu lớn thơng qua mẫu đại diện Thuật tốn RSFPGrowth cho phép thay tìm tập tất tập mục thường xuyên sở liệu lớn cách tìm tập chứa hầu hết tập tập mục thường xuyên từ tập mẫu đại diện giao tác Bởi cỡ mẫu n cần lấy cho tập mẫu tăng chậm so với cỡ tổng thể nên độ hiệu việc khai phá tập tập mục thường xuyên thông qua lấy mẫu đại diện giao tác cao kích thước sở liệu ban đầu lớn Từ khóa: Khai phá liệu, tập mục thường xuyên, sở liệu, mẫu đại diện, FPGrowth Mở đầu Trong năm gần đây, khai phá liệu (KPDL) trở thành đề tài thu hút quan tâm nhiều nhà nghiên cứu ứng dụng thành công mặt đời sống - xã hội Khai phá liệu định nghĩa q trình trích lọc khơng tầm thường thơng tin hữu ích chưa biết từ sở liệu (CSDL) lớn (có chứa đến hàng vạn, triệu giao tác) Khai phá tập mục thường xuyên (TMTX) biết đến toán toán khai phá liệu giới thiệu lần vào năm 1993 Agrawal R Srikant R [5, 6], thuộc Trung tâm nghiên cứu Almaden IBM (Mỹ), nhằm phân tích CSDL bán hàng siêu thị Qua q trình phân tích giúp cho nhà phân tích lựa chọn phương án tốt hoạt động kinh doanh siêu thị Để giải toán này, tác giả đề xuất thuật toán Apriori Tại hội nghị quốc tế khai phá liệu vào tháng 12 năm 2006 đánh giá thuật toán Apriori đứng top 10 thuật toán khai phá liệu [9] Hiện có nhiều nghiên cứu, xây dựng thuật tốn khai phá TMTX dựa thuật toán Apriori (gọi thuật toán kiểu Apriori) Thuật toán Apriori thuật tốn kiểu Apriori có hai nhược điểm lớn: Phải sinh khối lượng khổng lồ tập ứng viên duyệt CSDL giao tác nhiều lần TMTX công cụ hiệu để khai phá luật kết hợp (association rule), tập mục đóng (closed itemset), tập mục (sequential itemset), phụ thuộc hàm (functional dependencies), Để khắc phục hạn chế thuật toán Apriori, Han J cộng [7, 8] Trường Đại học Simon Fraser (Canada) đề xuất thuật toán FP-growth Thuật toán FP-growth khai phá TMTX xây dựng dựa kĩ thuật sau: (1) Nén toàn CSDL giao tác lên cấu trúc cây, gọi FP-tree, nhờ giảm chi phí cho số lần duyệt CSDL giao tác trình khai phá (2) Dùng phương pháp chia để trị (devide285 and-conquer), cách trình xây dựng khai phá liệu chia làm thành toán nhỏ hơn, theo nghĩa xây dựng FP-tree có điều kiện khai phá TMTX FP-tree có điều kiện tạo Do vậy, trình khai phá phát triển dần mẫu mà không sinh nhiều tập mục ứng viên làm giảm khối lượng thời gian tính tốn Quá trình khai phá TMTX thực theo hai pha: Pha xây dựng FP-tree pha khai phá FP-tree thuật toán FP-growth Mặc dù thuật toán FP-growth có ưu điểm (về tổ chức liệu, nhớ, thời gian tính tốn) thuật tốn Apriori CSDL giao tác lớn cần khai phá khơng hiệu Để áp dụng thuật tốn FP-growth CSDL kích thước lớn, viết chúng tơi trình bày phương pháp tiếp cận xấp xỉ Thay tìm tập TMTX CSDL cần khai phá, ta tìm tập chứa hầu hết tập mục từ CSDL mẫu đại diện Độ hiệu việc khai phá thông qua lấy mẫu cao kích thước CSDL ban đầu lớn, cỡ mẫu n cần lấy tăng chậm so với cỡ tổng thể Nội dung viết sau: Mục giới thiệu mơ hình tốn thuật tốn FP-Growth khai phá TMTX CSDL giao tác; Mục trình bày phương pháp tiếp cận xấp xỉ: khai phá TMTX thông qua khai phá mẫu đại diện cuối kết luận Khai phá tập mục thường xuyên csdl giao tác thuật toán fp-growth 2.1 Bài toán khai phá tập mục thường xuyên CSDL giao tác [5, 6] Định nghĩa Cho I = {i , i , … , i } tập phần tử Mỗi phần tử I gọi mục (item) Một tập X ⊆ I gọi tập mục (itemset) Số phần tử X kí hiệu Card(X) Nếu Card (X) = k, (k ∈ Z) X gọi k-tập mục Nếu Card(X)=1 X 1-tập mục hay cịn gọi mục đơn Để đơn giản, thay viết k-tập mục {i , i , … , i } ta viết i i … i Chẳng hạn, tập mục {a, b, c} viết ngắn gọn abc Định nghĩa Một giao tác (transaction) T = 〈TI D, X〉, với TID định danh giao tác (transaction identifier) X ⊆ I tập mục Giao tác T gọi chứa tập mục Y Y ⊆ T Định nghĩa CSDL giao tác (transaction database) tập giao tác TDB = {T , T , … , T } Biểu diễn CSDL giao tác ngang : CSDL tập giao tác Trong đó, giao tác bao gồm định danh (thứ tự) TID danh sách mục Ví dụ Trong Bảng biểu diễn ngang CSDL giao tác Bảng Biểu diễn ngang CSDL giao tác TID Tập mục T1 abcdef T2 T3 bcefh acdefgh 286 Định nghĩa Cho I = {i , i , … , i } tập mục tập mục X ⊆ I Ta gọi độ hỗ trợ (support) X CSDL giao tác DT ký hiệu supp(X), tỷ lệ phần trăm giao tác DT chứa X, tức là: supp(X) = card({T ∈ DT|X ⊆ T}) card(DT) Với card(TDB) số giao tác DT Ta có: ≤ supp(X) ≤ 1, ∀X ⊆ I Định nghĩa Cho tập mục X ⊆ I ngưỡng độ hỗ trợ tối thiểu minsupp (minimum support) xác định người dùng, < minsupp ≤ Nếu supp(X) ≥ minsupp X gọi TMTX (frequent itemset) với độ hỗ trợ tối thiểu minsupp, hay ta nói X thỏa minsupp, trường hợp ngược lại ta nói X tập khơng thường xun (infrequent itemset), hay ta nói X khơng thỏa minsupp 2.2 Thuật tốn FP-growth Nội dung thuật toán FP-growth [7, 8] với ý tưởng sau: - Nén tồn giao tác lên cấu trúc cây, gọi FP-tree, nhờ giảm chi phí cho số lần duyệt CSDL giao tác Mỗi nút FP-tree có mục, nút chúng xếp để tiện cho việc chèn giao tác lên nút xuất thường xuyên dễ dàng chia sẻ với nút xuất hơn, đồng thời nút không thường xuyên bị sớm loại bỏ mà không làm ảnh hưởng kết khai phá Bước cần duyệt CSDL giao tác lần - Áp dụng phương pháp chia để trị (devide and conquer) Quá trình khai phá liệu chia làm thành phần việc nhỏ hơn, tiến hành xây dựng FPtree có điều kiện khai phá TMTX FP-tree có điều kiện tạo Do vậy, trình khai phá phát triển dần mẫu mà không sinh nhiều tập mục ứng viên đồng thời làm giảm khối lượng tính toán Bước xây dựng FP-tree cần duyệt thêm lần CSDL giao tác - Quá trình khai phá thực theo hai pha chính: (1) Xây dựng cấu trúc FPtree; (2) Khai phá FP-tree thuật toán FP-growth Khai phá tập mục thường xuyên thơng qua mẫu đại diện Thuật tốn FP-growth có ưu điểm thuật toán Apriori [7], khai thác CSDL lớn thuật tốn FP-growth khơng hiệu Để áp dung thuật toán FP-growth CSDL lớn đề nghị phương pháp tiếp cận xấp xỉ Thay tìm tập tất cácTMTX CSDL cần khai phá, ta tìm tập chứa hầu hết tập mục từ CSDL mẫu đại diện [1, 2, 3] Trên thực tế đối tượng loại mà nhà thống kê quan tâm nghiên cứu gọi tổng thể Tổng thể thường bao gồm số lượng lớn, có lớn đối tượng Nghiên cứu toàn đối tượng tổng thể việc làm khó khăn khơng thể thực được, chưa kể có khơng có nghĩa Vì người ta thường dùng phương pháp chọn mẫu, tức từ tổng thể có N đối tượng (N gọi kích thước tổng thể) rút n đối tượng (n gọi kích thước mẫu), tiến hành nghiên cứu mẫu vào kết thu mà suy rộng cho tổng thể Các kết suy rộng tránh khỏi sai lệch Độ lớn sai lệch phụ thuộc 287 vào hai yếu tố phương pháp chọn mẫu kích thước mẫu Vì vậy, vấn đề quan trọng đảm bảo cho mẫu phải phản ánh đắn cấu trúc tổng thể, tức mẫu phải mang tính đại diện sai lệch chọn mẫu nhỏ tốt Kích thước mẫu lớn, tính đại diện mẫu cao, nhiên chi phí lớn [1, 2, 3] Trong thực hành, tùy vào tình cụ thể, người ta áp dụng phương pháp chọn mẫu khác Mỗi phương pháp có ưu điểm nhược điểm riêng Có số phương pháp chon mẫu sau: Chọn mẫu ngẫu nhiên đơn giản (Simple Random Sampling); Chọn mẫu ngẫu nhiên phân vùng (Stratified Random Sampling); Chọn mẫu có hệ thống (Systematic Sampling); [1, 2, 3] Để chọn mẫu khai phá liệu, người ta thường sử dụng phương pháp chọn mẫu ngẫu nhiên đơn giản (khơng hồn lại), lý sau: (1) Dễ mơ cài đặt (2) Việc chọn mẫu ngẫu nhiên đơn giản mơ thực cách sử dụng thuật toán (hàm) tạo số ngẫu nhiên (3) Ước lượng tỷ lệ dựa mẫu ngẫu nhiên đơn giản ước lượng khơng chệch (4) Khơng cần có thông tin tiên nghiệm quần thể [1, 2, 3] 3.1 Xác định cỡ mẫu sở liệu giao tác Tư tưởng thuật toán sau: Trước tiên, từ CSDL giao tác ban đầu, chọn mẫu ngẫu nhiên đơn giản giao tác Sau đó, áp dụng thuật tốn FP-growth [7, 8] khai phá TMTX CSDL mẫu Trong [1, 4] phân tích, việc chọn mẫu ngẫu nhiên đơn giản đây: Xác định cỡ mẫu Giả sử CSDL DT bao gồm N giao tác, có SC(DT,X) giao tác chứa tập mục X Khi xác suất để giao tác chứa X p=sup(X)=SC(DT,X)/N Ký hiệu S mẫu gồm n giao tác chọn phương pháp chọn ngẫu nhiên khơng hồn lại từ DT Gọi SC(S,X) số giao tác S chứa tập mục X Khi SC(S,X) tuân theo luật phân phối siêu bội với hàm xác suất: Pr ( , ) = )= , (1) = 0,1, … , Giá trị kỳ vọng, phương sai SC(S,X) [1]: (2) ( , ) = ( , ) = 1− (1 − ) ≈ − (1 − ) (3) Với mẫu cỡ n, người ta thường lấy ̂ = ( , )/ làm giá trị ước lượng cho xác suất p (tức support(DT,X)) Từ (2) (3) suy ra: ( ̂) = ( ̂) = − ( ) ≈ 1− ( ) Vì E(p) = p, ̂ ước lượng khơng chệch p (4) (5) Trong [1] chứng minh rằng, n đủ lớn (n>=30), đại lượng ngẫu nhiên chuẩn hóa 288 = ( (6) ) có phân phối tiệm cận phân phối chuẩn chuẩn tắc ( )= (0,1) với hàm phân phối: (7) ∫ √ Giả sử với sai số tuyệt đối d xác suất rủi ro α cho trước, ta muốn ước lượng xác suất p p cho (8) (| − ̂ | < ) = − Ký hiệu z phân vị mức − α đại lượng Z có phân phối (3.7), nghĩa z giá trị thỏa mãn hệ thức: < (9) =1− Khi | |< (10) =1− Kết hợp hệ thức (6), (8) (9) suy ra, muốn ước lượng p với sai số tuyệt đối d xác suất rủi ro α cho trước cỡ mẫu n phải thỏa hệ thức: = Hay = ( ( 1− ) ( ) (11) ) (12) Trong công thức (11), p giá trị chưa biết, cần ước lượng Tuy vậy, tích p(1p) đạt cực đại 1/4 p=1/2, ta lấy = max ( ( ) ) (13) = Do cỡ mẫu số nguyên, nên lấy (14) = 3.2 Thuật toán khai phá TMTX CSDL giao tác thơng qua mẫu đại diện 3.2.1 Ý tưởng Với cỡ mẫu n xác định theo (14), việc lấy mẫu S từ CSDL giao tác DT tiến hành sau: - Đánh số thứ tự tất giao tác DT - Tạo n số nguyên ngẫu nhiên khác khoảng [1, N], - Lấy CSDL mẫu S tập n giao tác có số thứ tự số nguyên ngẫu nhiên tạo Trong thực hành, sai số tuyệt đối d rủi ro 0.01 289 thường chọn tương ứng 0.05 3.2.2 Thuật tốn RSFPGrowth Bảng Bảng kí hiệu thuật toán RSFPGrowth Ký hiệu DT minsupp Ý nghĩa CSDL giao tác ban đầu Độ hỗ trợ tối thiểu Z Phân vị mức − /2 phân phối chuẩn chuẩn tắc (tức giá trị (0,1)) a Độ rủi ro d Cận sai số N Tổng số giao tác CSDL ban đầu n Cỡ mẫu S Tập giao tác chọn vào mẫu Nội dung thuật toán RSFPGrowth khai phá TMTX CSDL mẫu sau: Input: CSDL DT, tổng số giao tác N CSDL giao tác, cỡ mẫu n, hai ngưỡng hỗ trợ minsupp, cận sai số d, độ rủi ro Output: Tập TMTX Method: Thuật toán RSFPGrowth 1) if n>=30 2) 3) { 4) z = Calculate(a); 5) = 6) for (i = 1; i

Ngày đăng: 21/06/2023, 20:12