TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI KHOA CÔNG NGHỆ THÔNG TIN o0o BÁO CÁO BÀI TẬP LỚN HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI PHÂN TÍCH GIỎ THỊ TRƯỜNG CHO CỬA HÀNG TIỆN LỢI Giảng viên hướng dẫn Nguyễn Quốc Tuấn.
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI KHOA CÔNG NGHỆ THÔNG TIN -o0o - BÁO CÁO BÀI TẬP LỚN HỌC PHẦN: KHAI PHÁ DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH GIỎ THỊ TRƯỜNG CHO CỬA HÀNG TIỆN LỢI Giảng viên hướng dẫn: Nguyễn Quốc Tuấn Lớp: Công nghệ thơng tin – K60 Nhóm sinh viên thực hiện: 28 Trần Quang Lực 191202533 Lê Minh Đức 191210306 Nguyễn Ngọc Sơn 191204020 Hứa Khắc Hiếu 191214158 Hà Nội, tháng 11, năm 2022 Mục Lục CHƯƠNG 1: LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU VỚI QUY LUẬT LIÊN KẾT 1.1 Khái niệm 1.2 Ứng dụng Marketing 1.3 Ví dụ 1.4 Thuật toán 1.4.1 Thuật toán Apriori 1.4.2 Thuật toán FP Growth CHƯƠNG 2: ÁP DỤNG THUẬT TỐN APRIORI ĐỂ PHÂN TÍCH GIỎ THỊ TRƯỜNG CHO CỬA HÀNG TIỆN LỢI GROCERIES 2.1 Giới thiệu toán 2.2 Mô tả liệu 2.3 Kết khai thác luật kết hợp thuật toán Apriori 10 2.4 Kết luận 15 2.5 Tài liệu tham khảo 16 2.6 Phân công công việc 16 CHƯƠNG 1: LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU VỚI QUY LUẬT LIÊN KẾT 1.1 Khái niệm Khai phá quy tắc kết hợp sử dụng bạn muốn tìm mối liên kết đối tượng khác tập hợp, tìm mẫu thường xuyên sở liệu giao dịch, sở liệu quan hệ kho thông tin khác Các ứng dụng Khai thác theo quy tắc liên kết tìm thấy Marketing, Phân tích liệu giỏ hàng (hoặc Phân tích giỏ thị trường) bán lẻ, phân nhóm phân loại Nó cho bạn biết mặt hàng mà khách hàng thường mua cách tạo quy tắc gọi Quy tắc liên kết Nói cách đơn giản, cung cấp cho bạn đầu dạng quy tắc dạng 1.2 Ứng dụng Marketing Trong khai thác liệu, quy tắc kết hợp hữu ích để phân tích dự đốn hành vi khách hàng Họ đóng phần quan trọng phân tích khách hàng, phân tích giỏ thị trường, phân nhóm sản phẩm, thiết kế danh mục bố trí cửa hàng Phương pháp khai phá luật kết hợp (phân tích giỏ thị trường phân tích mối quan hệ) phổ biến tiếp thị cho sản phẩm bán chéo có liên quan đến mặt hàng mà người tiêu dùng cân nhắc Trong quy tắc kết hợp, mục tiêu xác định cụm mục sở liệu kiểu giao dịch Khám phá quy tắc liên kết Marketing gọi “cơ chế hoạt động giỏ thị trường” nhằm mục đích khám phá nhóm sản phẩm có xu hướng mua Những mặt hàng sau hiển thị nhau, cung cấp phiếu giảm giá sau giao dịch đề xuất mua sắm trực tuyến Có thể sử dụng quy tắc cho nhiều chiến lược Marketing: Thay đổi bố cục cửa hàng theo xu hướng Phân tích hành vi khách hàng Thiết kế danh mục Marketing chéo cửa hàng trực tuyến Các mặt hàng thịnh hành mà khách hàng mua Email tùy chỉnh với bán hàng bổ sung 1.3 Ví dụ Một ví dụ cổ điển khai thác quy tắc kết hợp đề cập đến mối quan hệ tã bia Ví dụ, hư cấu, tun bố người đàn ông đến cửa hàng để mua tã có khả mua bia Dữ liệu trỏ tới trơng này: Một siêu thị có 200.000 khách hàng giao dịch Khoảng 4.000 giao dịch, tức khoảng 2% tổng số giao dịch, bao gồm việc mua tã Khoảng 5.500 giao dịch (2,75%) bao gồm mua bia Trong số đó, khoảng 3.500 giao dịch, chiếm 1,75%, bao gồm mua tã bia Dựa tỷ lệ phần trăm, số lớn phải thấp nhiều Tuy nhiên, thực tế khoảng 87,5% lần mua tã bao gồm mua bia cho thấy mối liên hệ tã bia Vì siêu thị đặt tã bia gần để tăng số lượng hàng bán Bán lẻ: Các nhà bán lẻ thu thập liệu hình thức mua hàng, ghi lại liệu mua hàng mã vạch mặt hàng quét hệ thống điểm bán hàng Các mơ hình học máy tìm kiếm đồng xuất liệu để xác định sản phẩm có nhiều khả mua Sau đó, nhà bán lẻ điều chỉnh chiến lược tiếp thị bán hàng để tận dụng thông tin Thiết kế trải nghiệm người dùng (UX): Các nhà phát triển thu thập liệu cách người tiêu dùng sử dụng trang web họ tạo Sau đó, họ sử dụng liên kết liệu để tối ưu hóa giao diện người dùng trang web - cách phân tích nơi người dùng có xu hướng nhấp vào điều tối đa hóa hội họ tương tác với lời kêu gọi hành động, chẳng hạn Giải trí: Các dịch vụ Netflix Spotify sử dụng quy tắc liên kết để thúc đẩy động đề xuất nội dung họ Mơ hình học máy phân tích liệu hành vi người dùng khứ để tìm mẫu thường xuyên, phát triển quy tắc liên kết sử dụng quy tắc để đề xuất nội dung mà người dùng có khả tương tác tổ chức nội dung theo cách có khả đưa nội dung thú vị cho người dùng định 1.4 Thuật toán 1.4.1 Thuật toán Apriori Apriori thuật toán khai phá tập mục thường xuyên R Agrawal R Srikant đề xuất vào năm 1993 Thuật tốn Apriori cịn tảng cho việc phát triển nhiều thuật toán khai phá tập mục thường xuyên khác sau Giả sử mục liệu giao tác lưu theo trật tự từ điển Thuật toán sử dụng ký hiệu sau: (Xem bảng) Ý tưởng thuật tốn sau: Sinh tập mục ứng viên từ tập mục thường xuyên bước trước, sử dụng kỹ thuật “tỉa” để bỏ tập mục ứng viên không thoả mãn ngưỡng hỗ trợ cho trước Cơ sở kỹ thuật tính chất Apriori: Bất kỳ tập tập mục thường xuyên phải tập mục thường xuyên Vì vậy, tập mục ứng viên gồm k mục sinh cách kết nối tập mục thường xuyên có (k-1) mục loại bỏ tập mục ứng viên có chứa tập thường xuyên Thuật toán duyệt sở liệu nhiều lần Mỗi lần duyệt, thuật toán thực hai bước: bước kết nối bước tỉa Trong lần lặp thứ k, thuật toán nối hai (k-1) tập mục để sinh k - tập mục, sử dụng tính chất Apriori để tỉa tập ứng viên 1.4.2 Thuật toán FP Growth Thuật tốn Apriori có chi phí lớn lại hiệu Để khắc phục nhược điểm này, J Han, J Pei, Y Yin R Mao đề xuất thuật toán FPgrowth Thuật toán FP-growth xây dựng với kỹ thuật chính: 1) Nén liệu thích hợp vào cấu trúc gọi FP-tree Chỉ có 1- tập mục (1-item) nút xếp để nút xuất thường xuyên dễ dàng chia sẻ với nút xuất 2) Thực phương pháp khai phá phát triển (growth) đoạn dựa FP-tree gọi phương pháp FP-growth 3) Kỹ thuật tìm kiếm dùng dựa vào phân chia, “chia để trị”, phân rã nhiệm vụ khai phá thành nhiệm vụ nhỏ Thuật tốn FP-growth nén tồn CSDL lên cấu trúc liệu nhỏ FP-tree nên tránh việc duyệt nhiều lần CSDL (thuật toán duyệt sở liệu lần) Tiếp theo thuật toán khai phá cách phát triển dần mẫu mà khơng sinh tập mục ứng viên, tránh khối lượng tính tốn lớn Phương pháp FP- growth chứng tỏ tính hiệu thực khai phá cho mẫu ngắn dài, nhanh thuật tốn Apriori, ln cần duyệt CSDL lần Thuật toán FP- growth thực sau: Đầu tiên, thuật toán duyệt CSDL lần thứ để tính độ hỗ trợ mục (đếm số lần xuất mục) Tiếp đến, mục không đủ độ hỗ trợ bị loại Các mục lại theo thứ tự giảm dần độ hỗ trợ (cũng tức giảm dần theo số lần xuất CSDL), ta nhận danh sách L mục Duyệt CSDL lần thứ hai, với giao tác t, loại mục không đủ độ hỗ trợ, mục lại theo thứ tự giống xuất L (tức thứ tự giảm dần theo độ hỗ trợ) cất vào FP-tree Phần thuật tốn khai phá tìm mẫu thường xun FPtree xây dựng mà không cần duyệt lại CSDL Thuật tốn kinh điển Apriori tìm tập mục thường xuyên theo cách sinh ứng cử viên duyệt CSDL để kiểm tra, thuật toán FP-growth khơng khai phá theo cách thuật tốn Apriori mà nén giao tác CSDL lên cấu trúc FP- Tree, sau thực khai phá Thuật toán sinh luật từ tập mục thường xuyên trình bày cụ thể CHƯƠNG 2: ÁP DỤNG THUẬT TỐN APRIORI ĐỂ PHÂN TÍCH GIỎ THỊ TRƯỜNG CHO CỬA HÀNG TIỆN LỢI GROCERIES 2.1 Giới thiệu toán Hiện nay, cửa hàng tiện lợi ngày phát triển Các khách hàng đến với cửa hàng có lựa chọn sản phẩm khác Vậy cửa hàng nên xếp sản phẩm để khách hàng thuận tiện tìm kiếm sản phẩm cửa hàng xếp để cửa hàng tăng doanh thu cho loại sản phẩm? Điều băn khoăn cửa hàng tiện lợi Groceries Nhóm áp dụng thuật tốn phân tích giỏ thị trường để tìm mối liên hệ items khách hàng đến với cửa hàng đưa đề xuất cho cửa hàng sản phẩm chọn mua nhiều nên đặt sản phẩm cạnh 2.2 Mô tả liệu Dữ liệu đầu vào toán file excel lưu trữ giao dịch khách hàng đến cửa hàng Groceries vòng năm 2014 -2015 Mỗi khách hàng đến cửa hàng có mua sản phẩm khác Dữ liệu khách hàng bao gồm :Member number, Date Item Description Dưới ví dụ 28 liệu đầu tiên: Theo bảng số liệu dịng ứng với khách hàng với Member Number, Date Item Description Bộ liệu bao gồm 38765 khách hàng 2.3 Kết khai thác luật kết hợp thuật toán Apriori Sau đưa liệu vào phần mềm R-studio, nhóm tiến hành đọc liệu làm liệu Nhóm tiến hành nhóm tất mặt hàng mua lại với ngày kết thu được: Nhóm sử dụng hàm read.transaction() để chuyển liệu từ dạng data.frame sang dạng liệt kê sản phẩm (item) thấy có tổng số 14964 giao dịch với 168 sản phẩm khác Sử dụng thuật toán Apriori cho tổng số 450 quy tắc tạo từ liệu Dưới nhóm kiểm tra 20 quy tắc rổ Chẳng hạn quy tắc đầu tiên: 15,68% whole milk mua khách hàng mua frozen fish Mức tăng quy luật 0,9933 (mức tăng nhỏ 1) cho thấy việc mua frozen fish trước làm giảm hội mua whole milk giao dịch Dưới biểu đồ 10 sản phẩm xuất nhiều giỏ hàng: Có thể thấy whole milk sản phẩm khách hàng mua nhiều Ngoài sữa, mặt hàng bánh, rau trái lựa chọn hàng đầu khách hàng đến cửa hàng Thấy whole milk sản phẩm có số lượng tiêu thụ cao nên nhóm tìm sản phẩm có liên kết cao với whole milk Do luật chứa “whole milk” bên vế phải luật (rhs: right – hand side) với items ta nhận 74 quy luật liên quan đến whole milk Sau loại bỏ luật thừa cịn lại luật sau: Đồ thị biểu diễn quy luật trên: Từ đồ thị ta thấy mức tăng mua sản phẩm whole milk, yogurt sausage giao dịch cao Để thấy rõ xem biểu đồ tọa độ song song sau: 2.4 Kết luận Sử dụng thuật toán Apriori R-studio cho liệu Groceries nhóm thấy mối liên hệ sausage, yogurt, whole milk mạnh Từ nhóm kiến nghị cửa hàng Groceries nên xếp sản phẩm gần 2.5 Tài liệu tham khảo 2011 Data Mining - Concepts and Techniques (3rd Ed) R & RStudio tutorial 2.6 Phân công công việc STT Công việc Người thực Ghi Tìm hiểu liệu để xác định yêu cầu liệu Trần Quang Lực Lê Minh Đức 20/11/2022 Tìm hiểu thuật tốn Apriori Nguyễn Ngọc Sơn Hứa Khắc Hiếu 20/11/2022 Triển khai toán Nguyễn Ngọc Sơn Hứa Khắc Hiếu Lê Minh Đức 25/11/2022 Làm báo cáo Trần Quang Lực 26/11/2022 ... phẩm? Điều băn khoăn cửa hàng tiện lợi Groceries Nhóm áp dụng thuật tốn phân tích giỏ thị trường để tìm mối liên hệ items khách hàng đến với cửa hàng đưa đề xuất cho cửa hàng sản phẩm chọn mua... luật từ tập mục thường xuyên trình bày cụ thể CHƯƠNG 2: ÁP DỤNG THUẬT TỐN APRIORI ĐỂ PHÂN TÍCH GIỎ THỊ TRƯỜNG CHO CỬA HÀNG TIỆN LỢI GROCERIES 2.1 Giới thiệu toán Hiện nay, cửa hàng tiện lợi ngày... kết hợp hữu ích để phân tích dự đốn hành vi khách hàng Họ đóng phần quan trọng phân tích khách hàng, phân tích giỏ thị trường, phân nhóm sản phẩm, thiết kế danh mục bố trí cửa hàng Phương pháp