(Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

96 3 0
(Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

0 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số: CS20 - 42 Chủ nhiệm đề tài: ThS GVC NGUYỄN HƯNG LONG Thành viên tham gia: ThS Nguyễn Thị Vân Trang ThS Lê Kim Anh Hà Nội, 03/2021 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TỐN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Chủ nhiệm đề tài: ThS GVC NGUYỄN HƯNG LONG Thành viên tham gia: ThS Nguyễn Thị Vân Trang ThS Lê Kim Anh Xác nhận Trường Đại học Thương mại Chủ nhiệm đề tài Hà Nội, 03/2021 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH DANH MỤC CÁC TỪ VIẾT TẮT CHƯƠNG TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI Tính cấp thiết đề tài Tổng quan đề tài nghiên cứu 10 Mục tiêu nghiên cứu 15 Đối tượng phạm vi nghiên cứu 15 Phương pháp nghiên cứu 15 Kết cấu báo cáo nghiên cứu 16 CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ, MƠ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 17 2.1 Hệ thống bán hàng siêu thị 17 2.1.1 Hệ thống quản lí bán hàng 17 2.1.2 Siêu thị đặc trưng siêu thị 17 2.1.3 Cơng việc chức siêu thị 18 2.2 Cơ sở liệu bán hàng siêu thị 19 2.2.1 Cơ sở liệu tầm quan trọng quản lí sở liệu 19 2.2.2 Cơ sở liệu bán hàng siêu thị 21 2.3 Khai phá liệu khai phá liệu bán hàng siêu 23 2.3.1 Khai phá liệu 23 2.3.2 Khai phá liệu bán hàng siêu thị 24 2.4 Mơ hình tốn thuật tốn khai phá TMTX 25 2.4.1 Mô hình tốn thuật tốn khai phá tập mục thường xuyên đa ngưỡng/một ngưỡng 25 2.4.2 Mơ hình tốn thuật tốn khai phá tập mục thường xuyên với trọng số thích nghi 28 CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ 34 3.1 Ứng dụng thuật toán khai phá tập mục thường xuyên phân tích sở liệu bán hàng siêu thị 34 3.1.1 Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng 34 3.1.2 Ứng dụng thuật toán BMB khai phá TMTX 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2 Ứng dụng thuật toán khai phá tập mục thường xuyên với trọng số thích nghi phân tích sở liệu bán hàng siêu thị 43 3.2.1 Đặt toán 43 3.2.2 Tổ chức khai phá liệu 43 3.2.3 Nhận xét, đánh giá kết khai phá 46 CHƯƠNG KẾT LUẬN, THẢO LUẬN VÀ ĐỀ XUẤT VẤN ĐỀ NGHIÊN CỨU 48 4.1 Các kết luận 48 4.2 Các dự báo phát triển vấn đề nghiên cứu 48 4.3 Các đề xuất kiến nghị vấn đề nghiên cứu 48 Tài liệu tham khảo 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC BẢNG Bảng Biểu diễn ngang CSDL giao tác 25 Bảng Dòng liệu thời điểm T1 29 Bảng Trọng số mục theo lô thời điểm T1 .30 Bảng Dữ liệu giỏ hàng bán siêu thị (sau mã hóa tên hàng) 34 Bảng Bảng tập TMTX tương ứng với ngưỡng 35 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟏 = 𝟎 𝟓 36 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟐 = 𝟎 𝟓𝟓 𝐯à 𝛆𝐭𝟑 = 𝟎 𝟔 36 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟒 = 𝟎 𝟔𝟓 𝐯à 𝛆𝐭𝟓 = 𝟎 𝟕 37 Bảng Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟔 = 𝟎 𝟕𝟓 𝐯à 𝛆𝐭𝟕 = 𝟎 𝟖 37 Bảng 10 Bảng mặt hàng/nhóm hàng thường xuyên xuất xuất với ngưỡng 𝛆𝐭𝟖 = 𝟎 𝟖𝟓 37 Bảng 11 Dữ liệu khác giỏ hàng bán siêu thị (sau mã hóa tên hàng) 39 Bảng 12 Ma trận nhị phân A 39 Bảng 13 Ma trận rút gọn A1 40 Bảng 14 Ma trận rút gọn A2 .41 Bảng 15 Ma trận nhị phân thu gọn A3 .41 Bảng 16 Tập mặt hàng thường xuyên độ hỗ trợ 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC HÌNH Hình Cây SAWFI-tree sau chèn 12 giao tác lơ dịng liệu 32 Hình Cây SAWFI-tree(e) điều kiện “e” 44 Hình Cây SAWFI-tree(d), điều kiện “d” “cd” 45 Hình Cây SAWFI-tree(c), điều kiện “c” 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC TỪ VIẾT TẮT Danh mục từ viết tắt tiếng Việt TT Cụm từ đầy đủ Từ viết tắt KPDL Khai phá liệu CSDL Cơ sở liệu DHTVTS Độ hỗ trợ với trọng số TMTX Tập mục thường xuyên TMUV Tập mục ứng viên Ngĩa từ tiếng Anh TT Nghĩa tiếng Việt Cụm từ tiếng Anh Downward Closure Property Bao đóng xuống Data Mining Khai phá liệu Frequent Items Mining Khai phá tập mục thường xuyên Frequnet Pattern Mẫu thường xuyên Itemset Tập mục Transaction Giao tác Transaction Data Base Cơ sở liệu giao tác LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NCKH CẤP TRƯỜNG Thông tin chung: - Tên đề tài: NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số: CS20 - 42 - Chủ nhiệm: ThS, GVC NGUYỄN HƯNG LONG - Cơ quan chủ trì: Trường Đại học Thương mại - Thời gian thực hiện: 30/08/2020 – 31/03/2021 Mục tiêu: Đề tài tập trung nghiên cứu khía cạnh sau: - Nghiên cứu lý thuyết khai phá liệu bán hàng siêu thị, khai phá TMTX - Xây dựng mơ hình áp dụng số thuật toán khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị - Đề xuất mơ hình áp dụng số thuật tốn khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị Tính sáng tạo: Đề tài vận dụng tính khoa học lĩnh vực Khai phá liệu, cụ thể số thuật toán khai phá tập mục thường xuyên ứng dụng thuật tốn cho tốn phân tích sở liệu bán hàng siêu thị Đây xu hướng cần thiết việc giải toán khai phá sở liệu lớn phức tạp bối cảnh kinh tế tri thức Trong số thuật tốn trình bày đề tài tác giả vận dụng đề xuất thuật tốn khác có tính hiệu nhớ độ phức tạp thời gian Đây cần thiết cho nhà nghiên cứu nghiên cứu lĩnh vực khai phá liệu Kết đề tài ứng dụng nhiều mặt đời sống - xã hội không cho tốn phân tích sở liệu bán hàng siêu thị LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết nghiên cứu: - Đề tài đạt mục tiêu đề - Có cơng bố sản phẩm khoa học - Một Báo cáo tổng kết Công bố sản phẩm khoa học từ kết nghiên cứu đề tài Để thực đề tài tác giả cộng công bố viết cho Hội thảo quốc gia Hội thảo cấp Trường có uy tín 1) Nguyễn Hưng Long, Nguyễn Minh Hoàng (2020), Ứng dụng thuật toán khai phá tập phổ biến dựa ma trận nhị phân phân tích sở liệu bán hàng siêu thị, Kỷ yếu Hội thảo quốc gia “Phát triển Thương mại điện tử Việt Nam kỷ nguyên số”, tr 717 – 727 2) Nguyễn Hưng Long, Nguyễn Minh Hồng (2021), Thuật tốn khai phá tập mục thường xuyên sở liệu lớn thông qua mẫu đại diện, Hội thảo khoa học cấp trường “Ứng dụng phân tích định lượng kinh tế - xã hội”, tr 284 – 294 Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Đề tài có ý nghĩa lý luận thực tiễn Đề tài tài liệu tham khảo cho giảng viên sinh viên thuộc chuyên ngành Quản trị HTTT kinh tế trường Đại học Thương mại trường đại học cao đẳng khác có đào tạo chuyên ngành tương đồng Ngày 20 tháng 03 năm 2021 Chủ nhiệm đề tài NGUYỄN HƯNG LONG LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI Tính cấp thiết đề tài Ngày nay, với xu hội nhập kinh tế quốc tế mở cho quốc gia nhiều hội phát triển mặt kinh tế - xã hội Xét góc độ thị trường bán lẻ (siêu thị, đại siêu thị, trung tâm thương mại - gọi chung siêu thị), siêu thị ngày gia tăng qui mô, số lượng chất lượng Các siêu thị lớn kinh doanh đến hàng chục nghìn mặt hàng, với hàng triệu, chục triệu lượt khách hàng năm siêu thị hàng ngày phải xử lí đến hàng chục nghìn đơn hàng với chủng loại đa dạng khác Do vậy, CSDL bán hàng siêu thị phức tạp, lớn số giỏ hàng (mặt hàng/nhóm mặt hàng) mà siêu thị bán theo thời điểm (ngày, tuần, quí, ) Mặt khác, hành vi (sự quan tâm) khách hàng siêu thị thường bị ảnh hưởng nhiều yếu tố như: nhu cầu, thời gian, tính phổ biến, vấn đề trị, kiện xã hội, … Do vậy, giá (trọng số) mặt hàng bán siêu thị thay đổi theo nhằm mục đích lưu chuyển hàng hóa nhanh tăng doanh thu cho siêu thị Một yêu cầu đặt nhà quản lí siêu thị cần trả lời cho câu hỏi CSDL bán hàng siêu thị thì: mặt hàng/nhóm mặt hàng mà khách hàng thường xuyên mua giỏ hàng? Mối quan hệ mặt hàng giỏ hàng nào? để từ nhà quản lí xây dựng kế hoạch kinh doanh với mục đích góp phần tăng doanh thu đạt lợi nhuận tối đa cho siêu thị Khai phá liệu lĩnh vực nghiên cứu quan trọng cơng nghệ thơng tin nhằm trích lọc thơng tin hữu ích chưa biết, tiềm ẩn CSDL lớn Khai phá TMTX đóng vai trị quan trọng nhiều nhiệm vụ khai phá liệu như: khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tương quan, phân lớp, gom cụm liệu, khai phá web, Khai phá TMTX nhà nghiên cứu liên tục xây dựng phát triển cơng cụ (thuật tốn) để giải tốn kinh tế - xã hội nói chung tốn phân tích CSDL bán hàng siêu thị không ngoại lệ nhằm hỗ trợ nhà quản lí siêu thị định đắn chiến lược phát triển siêu thị Hầu hết thuật toán khai phá liệu, khai phá TMTX nhà nghiên cứu, đề xuất mang tính lý thuyết khơng/ít đề xuất mơ hình ứng dụng cụ thể thuật tốn khai phá hỗ trợ phân tích hoạt động kinh doanh nói chung hay hỗ trợ phân tích CSDL bán hàng siêu thị nói riêng Mặt khác, với phát triển lĩnh vực khai phá liệu, yêu cầu đòi hỏi ngày hoàn thiện, phát triển, tái cấu trúc học phần chương trình đào tạo trường đại học thuộc khối kinh tế, quản trị, kinh doanh, mà đặc biệt Trường Đại học Thương mại với chun ngành Quản trị hệ thống thơng tin, việc nghiên cứu ứng dụng cơng cụ (thuật tốn) khai phá liệu hoạt động kinh doanh thương mại nói chung, bán hàng siêu thị nói riêng cần thiết Xuất phát từ sở lý luận, nhu cầu thực tiễn yêu cầu đòi hỏi đổi đại học tình hình mới, chúng tơi lựa chọn đề xuất đề tài “Nghiên cứu ứng dụng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - Nhóm mặt hàng mua nên bố trí xếp chúng gian hàng siêu thị để đánh trúng tâm lí khách hàng (khi mua mặt hàng họ họ mua ln nhóm mặt hàng) tùy theo nhu cầu sở thích họ - Nhà quản lí xây dựng chiến lược quảng cáo, sách khuyến mại cho tập khách hàng tiềm siêu thị, … KẾT LUẬN Trong viết chúng tơi nghiên cứu thuật tốn BMB khai phá TPB ứng dụng thuật tốn phân tích CSDL bán hàng siêu thị Về lí thuyết, BMB giảm chi phí đáng kể q trình xử lí khơng gian lưu trữ thông qua chuyển đổi CSDL giao tác ma trận nhị phân ma trận nhị phân rút gọn Về thực tiễn, kết khai phá CSDL bán hàng siêu thị sở để giúp cho nhà quản lí xây dựng chiến lược bán hàng hiệu mang lại lợi nhuận cho siêu thị Thuật tốn BMB áp dụng cho giải số toán khác thực tiễn như: phân tích dịng kích hoạt web, phân tích nhu cầu khách hàng sử dụng mạng viễn thơng, phân tích dầu tư chứng khốn, phân tích rủi ro tài chính, TÀI LIỆU THAM KHẢO Trương Đình Chiến (2015), Quản trị Marketing, NXB Đại học Kinh tế quốc dân, Hà Nội [2] Lê Văn Đông, (2011), Nghiên cứu luật kết hợp ứng dụng công tác quản lí kho hàng Siêu thị Metro, Luận văn thạc sĩ, Đại học Đà Nẵng [3] Vũ Minh Đức, Vũ Huy Thơng, (2018) Giáo trình quản trị bán hàng, NXB Đại học Kinh tế Quốc Dân, Hà Nội [4] Nguyễn Hưng Long (2018), Ứng dụng số thuật toán toán khai thác liệu cho hoạt động kinh doanh thương mại, Đề tài NCKH CN cấp sở, Trường Đại học Thương mại [5] Nguyễn Hưng Long, Nguyễn Thị Vân Trang, (2019), Khai phá tập phổ biến đa ngưỡng phân tích sở liệu bán hàng siêu thị, Hội thảo quốc tế Khởi nghiệp Sáng tạo - Cơ hội thách thức doanh nghiệp Việt Nam (tập 2), NXB Hà Nội, tr 217-231 [6] Nguyễn Thanh Tùng, Phạm Quang Trung (2008), Thuật toán khai phá tập mục thường xuyên dựa ma trận nhị phân, Tạp chí Khoa học Công nghệ, Tập 2, Số 1(45), tr 15-21 [7] Aggarwal, C In C Aggarwal (Ed.) (2007), Data Streams: Models and algorithms Springer [8] Agrawal R., Srikant, R (1994), Fast Algorithms for Mining Association Rules In: 20th Int Conf on Very Large Data Bases (VLDB), pp 487-499 [9] Wu X, Kumar V., Ross Q J., Ghosh J., Yang Q., Motoda H., McLachlan G J., Angus Ng., Liu B., Yu P S., Zhou Z H., Steinbach M., Hand D J., Steinberg D., (2008), Top 10 algorithm in data mining, Knowledge and Information Systems, pp 1-37 http://tapchibanle.org/ https://vi.wikipedia.org/wiki/ [12] http://www.brandsvietnam.com/ 727 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giải phát phát triển hạ tầng, dịch vụ điện toán đám mây nhằm thúc đẩy chuyển đổi số cho doanh nghiệp Việt Nam ThS Hàn Minh Phương Khoa hệ thống thông tin kinh tế Thương mại điện tử Trường Đại học Thương mại Nâng cao hiệu sản xuất may công nghiệp sở số hóa quy trình sản xuất lập kế hoạch điều phối luồng công việc ThS Đặng Quốc Hữu Trường Đại học Thương Mại TS Nguyễn Thế Lộc Trường Đại học Sư phạm Hà Nội TS Nguyễn Dỗn Cường Viện Khoa học Cơng nghệ Qn Nền tảng công nghệ hướng phát triển du lịch thông minh Việt Nam ThS Trần Thị Nhung, ThS Nguyễn Quang Trung Khoa Hệ thống thông tin kinh tế Thương mại điện tử Đại học Thương mại Du lịch thông minh - thách thức giải pháp phát triển Việt Nam ThS Đào Thị Thu Hường Trường Đại học Công nghệ thông tin TT Việt Hàn Đại học Đà Nẵng Xu khả ứng dụng công nghệ Blockchain Việt Nam ThS.Vũ Quang Huy, ThS Hoàng Ngọc Cảnh; ThS Trần Lê Kim Danh Trung tâm Công nghệ thông tin Trường Đại học Thương mại Ứng dụng thuật toán khai phá tập phổ biến dựa ma trận nhị phân phân tích sở liệu bán hàng siêu thị Th.S Nguyễn Hưng Long Khoa Hệ thống thông tin kinh tế Thương mại điện tử Trường Đại học Thương mại Nguyễn Minh Hoàng Khoa Toán - Cơ - Tin học Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội 738 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 28 THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN THÔNG QUA MẪU ĐẠI DIỆN 285 Nguyễn Hưng Long Khoa Hệ thống thông tin KT Thương mại ĐT, Đại học Thương mại Nguyễn Minh Hoàng Khoa Toán - Cơ - Tin học, Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội 29 ĐO LƯỜNG CHẤT LƯỢNG DỊCH VỤ CỦA CÔNG TY TNHH XÂY DỰNG KIẾN TRÚC NHÀ TA VỚI KHÁCH HÀNG CÁ NHÂN TẠI KHU VỰC HÀ NỘI VÀ MỘT SỐ TỈNH THÀNH LÂN CẬN Ths Lê Văn Hùng, Ths Nguyễn Thanh Thụy, Ths Lê Thanh Phúc 296 Khoa Hệ thống Thông tin Quản lý - Học viện Ngân hàng 30 ƯỚC LƯỢNG HIỆU QUẢ KĨ THUẬT BẰNG PHƯƠNG PHÁP PHÂN TÍCH BIÊN NGẪU NHIÊN ThS Hồng Thị Thu Hà 304 Bộ mơn toán, Đại học Thương mại LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN TRONG CƠ SỞ DỮ LIỆU LỚN THÔNG QUA MẪU ĐẠI DIỆN Nguyễn Hưng Long Khoa Hệ thống thông tin kinh tế Thương mại điện tử, Đại học Thương mại Nguyễn Minh Hồng Khoa Tốn - Cơ - Tin học, Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Tóm tắt Bài viết đề xuất thuật toán RSFPGrowth khai phá tập mục thường xuyên sở liệu lớn thông qua mẫu đại diện Thuật tốn RSFPGrowth cho phép thay tìm tập tất tập mục thường xuyên sở liệu lớn cách tìm tập chứa hầu hết tập tập mục thường xuyên từ tập mẫu đại diện giao tác Bởi cỡ mẫu n cần lấy cho tập mẫu tăng chậm so với cỡ tổng thể nên độ hiệu việc khai phá tập tập mục thường xuyên thông qua lấy mẫu đại diện giao tác cao kích thước sở liệu ban đầu lớn Từ khóa: Khai phá liệu, tập mục thường xuyên, sở liệu, mẫu đại diện, FPGrowth Mở đầu Trong năm gần đây, khai phá liệu (KPDL) trở thành đề tài thu hút quan tâm nhiều nhà nghiên cứu ứng dụng thành công mặt đời sống - xã hội Khai phá liệu định nghĩa trình trích lọc khơng tầm thường thơng tin hữu ích chưa biết từ sở liệu (CSDL) lớn (có chứa đến hàng vạn, triệu giao tác) Khai phá tập mục thường xuyên (TMTX) biết đến toán toán khai phá liệu giới thiệu lần vào năm 1993 Agrawal R Srikant R [5, 6], thuộc Trung tâm nghiên cứu Almaden IBM (Mỹ), nhằm phân tích CSDL bán hàng siêu thị Qua trình phân tích giúp cho nhà phân tích lựa chọn phương án tốt hoạt động kinh doanh siêu thị Để giải toán này, tác giả đề xuất thuật toán Apriori Tại hội nghị quốc tế khai phá liệu vào tháng 12 năm 2006 đánh giá thuật toán Apriori đứng top 10 thuật toán khai phá liệu [9] Hiện có nhiều nghiên cứu, xây dựng thuật toán khai phá TMTX dựa thuật toán Apriori (gọi thuật toán kiểu Apriori) Thuật toán Apriori thuật tốn kiểu Apriori có hai nhược điểm lớn: Phải sinh khối lượng khổng lồ tập ứng viên duyệt CSDL giao tác nhiều lần TMTX công cụ hiệu để khai phá luật kết hợp (association rule), tập mục đóng (closed itemset), tập mục (sequential itemset), phụ thuộc hàm (functional dependencies), Để khắc phục hạn chế thuật toán Apriori, Han J cộng [7, 8] Trường Đại học Simon Fraser (Canada) đề xuất thuật toán FP-growth Thuật toán FP-growth khai phá TMTX xây dựng dựa kĩ thuật sau: (1) Nén toàn CSDL giao tác lên cấu trúc cây, gọi FP-tree, nhờ giảm chi phí cho số lần duyệt CSDL giao tác trình khai phá (2) Dùng phương pháp chia để trị (devide285 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com and-conquer), cách trình xây dựng khai phá liệu chia làm thành toán nhỏ hơn, theo nghĩa xây dựng FP-tree có điều kiện khai phá TMTX FP-tree có điều kiện tạo Do vậy, trình khai phá phát triển dần mẫu mà không sinh nhiều tập mục ứng viên làm giảm khối lượng thời gian tính tốn Q trình khai phá TMTX thực theo hai pha: Pha xây dựng FP-tree pha khai phá FP-tree thuật toán FP-growth Mặc dù thuật toán FP-growth có ưu điểm (về tổ chức liệu, nhớ, thời gian tính tốn) thuật tốn Apriori CSDL giao tác lớn cần khai phá khơng hiệu Để áp dụng thuật tốn FP-growth CSDL kích thước lớn, viết chúng tơi trình bày phương pháp tiếp cận xấp xỉ Thay tìm tập TMTX CSDL cần khai phá, ta tìm tập chứa hầu hết tập mục từ CSDL mẫu đại diện Độ hiệu việc khai phá thông qua lấy mẫu cao kích thước CSDL ban đầu lớn, cỡ mẫu n cần lấy tăng chậm so với cỡ tổng thể Nội dung viết sau: Mục giới thiệu mô hình tốn thuật tốn FP-Growth khai phá TMTX CSDL giao tác; Mục trình bày phương pháp tiếp cận xấp xỉ: khai phá TMTX thông qua khai phá mẫu đại diện cuối kết luận Khai phá tập mục thường xuyên csdl giao tác thuật toán fp-growth 2.1 Bài toán khai phá tập mục thường xuyên CSDL giao tác [5, 6] Định nghĩa Cho I = {i , i , … , i } tập phần tử Mỗi phần tử I gọi mục (item) Một tập X ⊆ I gọi tập mục (itemset) Số phần tử X kí hiệu Card(X) Nếu Card (X) = k, (k ∈ Z) X gọi k-tập mục Nếu Card(X)=1 X 1-tập mục hay gọi mục đơn Để đơn giản, thay viết k-tập mục {i , i , … , i } ta viết i i … i Chẳng hạn, tập mục {a, b, c} viết ngắn gọn abc Định nghĩa Một giao tác (transaction) T = 〈TI D, X〉, với TID định danh giao tác (transaction identifier) X ⊆ I tập mục Giao tác T gọi chứa tập mục Y Y ⊆ T Định nghĩa CSDL giao tác (transaction database) tập giao tác TDB = {T , T , … , T } Biểu diễn CSDL giao tác ngang : CSDL tập giao tác Trong đó, giao tác bao gồm định danh (thứ tự) TID danh sách mục Ví dụ Trong Bảng biểu diễn ngang CSDL giao tác Bảng Biểu diễn ngang CSDL giao tác TID Tập mục T1 abcdef T2 T3 bcefh acdefgh 286 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Định nghĩa Cho I = {i , i , … , i } tập mục tập mục X ⊆ I Ta gọi độ hỗ trợ (support) X CSDL giao tác DT ký hiệu supp(X), tỷ lệ phần trăm giao tác DT chứa X, tức là: supp(X) = card({T ∈ DT|X ⊆ T}) card(DT) Với card(TDB) số giao tác DT Ta có: ≤ supp(X) ≤ 1, ∀X ⊆ I Định nghĩa Cho tập mục X ⊆ I ngưỡng độ hỗ trợ tối thiểu minsupp (minimum support) xác định người dùng, < minsupp ≤ Nếu supp(X) ≥ minsupp X gọi TMTX (frequent itemset) với độ hỗ trợ tối thiểu minsupp, hay ta nói X thỏa minsupp, trường hợp ngược lại ta nói X tập khơng thường xun (infrequent itemset), hay ta nói X khơng thỏa minsupp 2.2 Thuật tốn FP-growth Nội dung thuật tốn FP-growth [7, 8] với ý tưởng sau: - Nén toàn giao tác lên cấu trúc cây, gọi FP-tree, nhờ giảm chi phí cho số lần duyệt CSDL giao tác Mỗi nút FP-tree có mục, nút chúng xếp để tiện cho việc chèn giao tác lên nút xuất thường xuyên dễ dàng chia sẻ với nút xuất hơn, đồng thời nút không thường xuyên bị sớm loại bỏ mà không làm ảnh hưởng kết khai phá Bước cần duyệt CSDL giao tác lần - Áp dụng phương pháp chia để trị (devide and conquer) Quá trình khai phá liệu chia làm thành phần việc nhỏ hơn, tiến hành xây dựng FPtree có điều kiện khai phá TMTX FP-tree có điều kiện tạo Do vậy, trình khai phá phát triển dần mẫu mà không sinh nhiều tập mục ứng viên đồng thời làm giảm khối lượng tính tốn Bước xây dựng FP-tree cần duyệt thêm lần CSDL giao tác - Quá trình khai phá thực theo hai pha chính: (1) Xây dựng cấu trúc FPtree; (2) Khai phá FP-tree thuật toán FP-growth Khai phá tập mục thường xuyên thông qua mẫu đại diện Thuật tốn FP-growth có ưu điểm thuật toán Apriori [7], khai thác CSDL lớn thuật tốn FP-growth khơng hiệu Để áp dung thuật toán FP-growth CSDL lớn đề nghị phương pháp tiếp cận xấp xỉ Thay tìm tập tất cácTMTX CSDL cần khai phá, ta tìm tập chứa hầu hết tập mục từ CSDL mẫu đại diện [1, 2, 3] Trên thực tế đối tượng loại mà nhà thống kê quan tâm nghiên cứu gọi tổng thể Tổng thể thường bao gồm số lượng lớn, có lớn đối tượng Nghiên cứu toàn đối tượng tổng thể việc làm khó khăn khơng thể thực được, chưa kể có khơng có nghĩa Vì người ta thường dùng phương pháp chọn mẫu, tức từ tổng thể có N đối tượng (N gọi kích thước tổng thể) rút n đối tượng (n gọi kích thước mẫu), tiến hành nghiên cứu mẫu vào kết thu mà suy rộng cho tổng thể Các kết suy rộng tránh khỏi sai lệch Độ lớn sai lệch phụ thuộc 287 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com vào hai yếu tố phương pháp chọn mẫu kích thước mẫu Vì vậy, vấn đề quan trọng đảm bảo cho mẫu phải phản ánh đắn cấu trúc tổng thể, tức mẫu phải mang tính đại diện sai lệch chọn mẫu nhỏ tốt Kích thước mẫu lớn, tính đại diện mẫu cao, nhiên chi phí lớn [1, 2, 3] Trong thực hành, tùy vào tình cụ thể, người ta áp dụng phương pháp chọn mẫu khác Mỗi phương pháp có ưu điểm nhược điểm riêng Có số phương pháp chon mẫu sau: Chọn mẫu ngẫu nhiên đơn giản (Simple Random Sampling); Chọn mẫu ngẫu nhiên phân vùng (Stratified Random Sampling); Chọn mẫu có hệ thống (Systematic Sampling); [1, 2, 3] Để chọn mẫu khai phá liệu, người ta thường sử dụng phương pháp chọn mẫu ngẫu nhiên đơn giản (khơng hồn lại), lý sau: (1) Dễ mô cài đặt (2) Việc chọn mẫu ngẫu nhiên đơn giản mơ thực cách sử dụng thuật toán (hàm) tạo số ngẫu nhiên (3) Ước lượng tỷ lệ dựa mẫu ngẫu nhiên đơn giản ước lượng không chệch (4) Khơng cần có thơng tin tiên nghiệm quần thể [1, 2, 3] 3.1 Xác định cỡ mẫu sở liệu giao tác Tư tưởng thuật tốn sau: Trước tiên, từ CSDL giao tác ban đầu, chọn mẫu ngẫu nhiên đơn giản giao tác Sau đó, áp dụng thuật toán FP-growth [7, 8] khai phá TMTX CSDL mẫu Trong [1, 4] phân tích, việc chọn mẫu ngẫu nhiên đơn giản đây: Xác định cỡ mẫu Giả sử CSDL DT bao gồm N giao tác, có SC(DT,X) giao tác chứa tập mục X Khi xác suất để giao tác chứa X p=sup(X)=SC(DT,X)/N Ký hiệu S mẫu gồm n giao tác chọn phương pháp chọn ngẫu nhiên khơng hồn lại từ DT Gọi SC(S,X) số giao tác S chứa tập mục X Khi SC(S,X) tuân theo luật phân phối siêu bội với hàm xác suất: Pr ( , ) = )= , (1) = 0,1, … , Giá trị kỳ vọng, phương sai SC(S,X) [1]: (2) ( , ) = ( , ) = 1− (1 − ) ≈ − (1 − ) (3) Với mẫu cỡ n, người ta thường lấy ̂ = ( , )/ làm giá trị ước lượng cho xác suất p (tức support(DT,X)) Từ (2) (3) suy ra: ( ̂) = ( ̂) = − ( ) ≈ 1− ( ) (4) (5) Vì E(p) = p, ̂ ước lượng không chệch p Trong [1] chứng minh rằng, n đủ lớn (n>=30), đại lượng ngẫu nhiên chuẩn hóa 288 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com = ( (6) ) có phân phối tiệm cận phân phối chuẩn chuẩn tắc ( )= (0,1) với hàm phân phối: (7) ∫ √ Giả sử với sai số tuyệt đối d xác suất rủi ro α cho trước, ta muốn ước lượng xác suất p p cho (8) (| − ̂ | < ) = − Ký hiệu z phân vị mức − α đại lượng Z có phân phối (3.7), nghĩa z giá trị thỏa mãn hệ thức: < (9) =1− Khi | |< (10) =1− Kết hợp hệ thức (6), (8) (9) suy ra, muốn ước lượng p với sai số tuyệt đối d xác suất rủi ro α cho trước cỡ mẫu n phải thỏa hệ thức: = Hay = ( ( 1− ) ( ) (11) ) (12) Trong công thức (11), p giá trị chưa biết, cần ước lượng Tuy vậy, tích p(1p) đạt cực đại 1/4 p=1/2, ta lấy = max ( ( ) ) (13) = Do cỡ mẫu số nguyên, nên lấy (14) = 3.2 Thuật toán khai phá TMTX CSDL giao tác thông qua mẫu đại diện 3.2.1 Ý tưởng Với cỡ mẫu n xác định theo (14), việc lấy mẫu S từ CSDL giao tác DT tiến hành sau: - Đánh số thứ tự tất giao tác DT - Tạo n số nguyên ngẫu nhiên khác khoảng [1, N], - Lấy CSDL mẫu S tập n giao tác có số thứ tự số nguyên ngẫu nhiên tạo Trong thực hành, sai số tuyệt đối d rủi ro 0.01 thường chọn tương ứng 0.05 289 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2.2 Thuật toán RSFPGrowth Bảng Bảng kí hiệu thuật tốn RSFPGrowth Ký hiệu DT minsupp Ý nghĩa CSDL giao tác ban đầu Độ hỗ trợ tối thiểu Z Phân vị mức − /2 phân phối chuẩn chuẩn tắc (tức giá trị (0,1)) a Độ rủi ro d Cận sai số N Tổng số giao tác CSDL ban đầu n Cỡ mẫu S Tập giao tác chọn vào mẫu Nội dung thuật toán RSFPGrowth khai phá TMTX CSDL mẫu sau: Input: CSDL DT, tổng số giao tác N CSDL giao tác, cỡ mẫu n, hai ngưỡng hỗ trợ minsupp, cận sai số d, độ rủi ro Output: Tập TMTX Method: Thuật toán RSFPGrowth 1) if n>=30 2) 3) { 4) z = Calculate(a); 5) = 6) for (i = 1; i

Ngày đăng: 21/10/2022, 09:53

Hình ảnh liên quan

dụng mơ hình cửa sổ trượt là tìm tập AWFI chứa tất cả cácTMTX với trọng số, tức là tìm tập:   - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

d.

ụng mơ hình cửa sổ trượt là tìm tập AWFI chứa tất cả cácTMTX với trọng số, tức là tìm tập: Xem tại trang 30 của tài liệu.
Bảng 3. Trọng số các mục theo lô tại thời điểm T1. - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 3..

Trọng số các mục theo lô tại thời điểm T1 Xem tại trang 31 của tài liệu.
Hình 1. Cây SAWFI-tree sau khi chèn 12 giao tác tron g3 lô của dòng dữ liệu - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Hình 1..

Cây SAWFI-tree sau khi chèn 12 giao tác tron g3 lô của dòng dữ liệu Xem tại trang 33 của tài liệu.
Bảng 4. Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 4..

Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) Xem tại trang 35 của tài liệu.
Tương tự với quá trình lập luận như trên. Kết quả ta thu được bảng cácTMTX cùng với các độ hỗ trợ tương ứng như bảng 5 dưới đâỵ  - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

ng.

tự với quá trình lập luận như trên. Kết quả ta thu được bảng cácTMTX cùng với các độ hỗ trợ tương ứng như bảng 5 dưới đâỵ Xem tại trang 36 của tài liệu.
Bảng 6. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 6..

Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng Xem tại trang 37 của tài liệu.
Sau khi tiến hành mã hóa lại các mặt hàng từ bảng 5 ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau tương ứng với các  ngưỡng (từ bảng 6 đến bảng 10) - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

au.

khi tiến hành mã hóa lại các mặt hàng từ bảng 5 ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau tương ứng với các ngưỡng (từ bảng 6 đến bảng 10) Xem tại trang 37 của tài liệu.
Bảng 8. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 8..

Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng Xem tại trang 38 của tài liệu.
Bảng 9. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 9..

Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng Xem tại trang 38 của tài liệu.
bảng 10. - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

bảng 10..

Xem tại trang 40 của tài liệu.
Bảng 11. Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 11..

Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) Xem tại trang 40 của tài liệu.
Bảng 13. Ma trận rút gọn A1 - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 13..

Ma trận rút gọn A1 Xem tại trang 41 của tài liệu.
Bảng 15. Ma trận nhị phân thu gọn A3 - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 15..

Ma trận nhị phân thu gọn A3 Xem tại trang 42 của tài liệu.
Bảng 14. Ma trận rút gọn A2 - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 14..

Ma trận rút gọn A2 Xem tại trang 42 của tài liệu.
Hình 2. Cây SAWFI-tree(e) và cây điều kiện của “e” - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Hình 2..

Cây SAWFI-tree(e) và cây điều kiện của “e” Xem tại trang 45 của tài liệu.
Hình 3. Cây SAWFI-tree(d), cây điều kiện của “d” và “cd” - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Hình 3..

Cây SAWFI-tree(d), cây điều kiện của “d” và “cd” Xem tại trang 46 của tài liệu.
Bảng 1. Cơ sở dữ liệu giao tác TDB - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 1..

Cơ sở dữ liệu giao tác TDB Xem tại trang 77 của tài liệu.
Trong trường hợp nghiên cứu của bài viết, chúng tôi hạn chế CSDL bán hàng siêu thị là một bảng gồm 2 trường: id (định danh giỏ hàng) và giỏ hàng (basnet) có chwasc các dữ liệu về các mặt hàng mà khách hàng đã muạ - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

rong.

trường hợp nghiên cứu của bài viết, chúng tôi hạn chế CSDL bán hàng siêu thị là một bảng gồm 2 trường: id (định danh giỏ hàng) và giỏ hàng (basnet) có chwasc các dữ liệu về các mặt hàng mà khách hàng đã muạ Xem tại trang 77 của tài liệu.
Pha 1. Chuyển CSDL giao tác TDB về ma trận nhị phâ nA như trong bảng 2. - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

ha.

1. Chuyển CSDL giao tác TDB về ma trận nhị phâ nA như trong bảng 2 Xem tại trang 78 của tài liệu.
Bảng 4. Ma trận rút gọn A2 - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 4..

Ma trận rút gọn A2 Xem tại trang 79 của tài liệu.
Bảng 3. Ma trận rút gọn A1 - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 3..

Ma trận rút gọn A1 Xem tại trang 79 của tài liệu.
Bảng 5. Ma trận nhị phân thu gọn A3 - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 5..

Ma trận nhị phân thu gọn A3 Xem tại trang 80 của tài liệu.
Bảng 6. Tập các mặt hàng thường xuyên và độ hỗ trợ - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 6..

Tập các mặt hàng thường xuyên và độ hỗ trợ Xem tại trang 81 của tài liệu.
Bảng 2. Bảng các kí hiệu trong thuật toán RSFPGrowth - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 2..

Bảng các kí hiệu trong thuật toán RSFPGrowth Xem tại trang 91 của tài liệu.
Bảng 3. Bảng CSDL giao tác - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Bảng 3..

Bảng CSDL giao tác Xem tại trang 92 của tài liệu.
Sắp xếp các mục theo thứ tự giảm dần của độ hỗ trợ được bảng 4: - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

p.

xếp các mục theo thứ tự giảm dần của độ hỗ trợ được bảng 4: Xem tại trang 93 của tài liệu.
Hình 8. Cây FP-tree sau khi chèn các giao tác của bản g6 Pha 2: Khai phá cây FP-tree bởi thuật tốn FP-growth. - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Hình 8..

Cây FP-tree sau khi chèn các giao tác của bản g6 Pha 2: Khai phá cây FP-tree bởi thuật tốn FP-growth Xem tại trang 94 của tài liệu.
Ý tưởng chính: Xét trong bảng đầu mục của cây FP-tree lần lượt các mục từ dưới lên, với mỗi mục xây dựng cây điều kiện, khai phá cây điều kiện cho mục này, loại bỏ cây điều kiện sau khi khai phá xong - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

t.

ưởng chính: Xét trong bảng đầu mục của cây FP-tree lần lượt các mục từ dưới lên, với mỗi mục xây dựng cây điều kiện, khai phá cây điều kiện cho mục này, loại bỏ cây điều kiện sau khi khai phá xong Xem tại trang 94 của tài liệu.
Hình 3. Cây FP-tree(ae) - (Luận văn Đại học Thương mại) NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Hình 3..

Cây FP-tree(ae) Xem tại trang 95 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan