Khái niệmKhai phá quy tắc kết hợp được sử dụng khi bạn muốn tìm mối liên kết giữacác đối tượng khác nhau trong một tập hợp, tìm các mẫu thường xuyên trong cơ sởdữ liệu giao dịch, cơ sở d
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG VIỆN KINH TẾ BƯU ĐIỆN BÁO CÁO BÀI TẬP NHĨM MƠN KHAI PHÁ DỮ LIỆU TRONG MARKETING NHÓM 6: KHAI PHÁ DỮ LIỆU VỚI QUY LUẬT LIÊN KẾT Thành viên nhóm: Nguyễn Thị Thúy Hồng – B18DCMR076 Đặng Ngọc Huyền – B18DCMR080 Nguyễn Kim Phượng – B18DCMR156 Vi Anh Tuấn – B18DCMR168 Hà Nội, ngày 17 tháng 10 năm 2021 Mục lục CHƯƠNG 1: LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU VỚI QUY LUẬT LIÊN KẾT 1.1 Khái niệm 1.2 Ứng dụng Marketing 1.3 Ví dụ 1.4 Thuật toán 1.4.1 Thuật toán Apriori 1.4.2 Thuật tốn FP Growth CHƯƠNG 2: ÁP DỤNG THUẬT TỐN APRIORI ĐỂ PHÂN TÍCH GIỎ THỊ TRƯỜNG CHO CỬA HÀNG TIỆN LỢI GROCERIES 2.1 Giới thiệu toán 2.2 Mô tả liệu 9 2.3 Kết khai thác luật kết hợp thuật toán Apriori 11 2.4 Kết luận 15 CHƯƠNG 1: LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU VỚI QUY LUẬT LIÊN KẾT 1.1 Khái niệm Khai phá quy tắc kết hợp sử dụng bạn muốn tìm mối liên kết đối tượng khác tập hợp, tìm mẫu thường xuyên sở liệu giao dịch, sở liệu quan hệ kho thông tin khác Các ứng dụng Khai thác theo quy tắc liên kết tìm thấy Marketing, Phân tích liệu giỏ hàng (hoặc Phân tích giỏ thị trường) bán lẻ, phân nhóm phân loại Nó cho bạn biết mặt hàng mà khách hàng thường mua cách tạo quy tắc gọi Quy tắc liên kết Nói cách đơn giản, cung cấp cho bạn đầu dạng quy tắc dạng 1.2 Ứng dụng Marketing Trong khai thác liệu, quy tắc kết hợp hữu ích để phân tích dự đốn hành vi khách hàng Họ đóng phần quan trọng phân tích khách hàng, phân tích giỏ thị trường, phân nhóm sản phẩm, thiết kế danh mục bố trí cửa hàng Phương pháp khai phá luật kết hợp (phân tích giỏ thị trường phân tích mối quan hệ) phổ biến tiếp thị cho sản phẩm bán chéo có liên quan đến mặt hàng mà người tiêu dùng cân nhắc Trong quy tắc kết hợp, mục tiêu xác định cụm mục sở liệu kiểu giao dịch Khám phá quy tắc liên kết Marketing gọi “cơ chế hoạt động giỏ thị trường” nhằm mục đích khám phá nhóm sản phẩm có xu hướng mua Những mặt hàng sau hiển thị nhau, cung cấp phiếu giảm giá sau giao dịch đề xuất mua sắm trực tuyến Có thể sử dụng quy tắc cho nhiều chiến lược Marketing: Thay đổi bố cục cửa hàng theo xu hướng Phân tích hành vi khách hàng Thiết kế danh mục Marketing chéo cửa hàng trực tuyến Các mặt hàng thịnh hành mà khách hàng mua Email tùy chỉnh với bán hàng bổ sung 1.3 Ví dụ Một ví dụ cổ điển khai thác quy tắc kết hợp đề cập đến mối quan hệ tã bia Ví dụ, hư cấu, tuyên bố người đàn ông đến cửa hàng để mua tã có khả mua bia Dữ liệu trỏ tới trơng này: Một siêu thị có 200.000 khách hàng giao dịch Khoảng 4.000 giao dịch, tức khoảng 2% tổng số giao dịch, bao gồm việc mua tã Khoảng 5.500 giao dịch (2,75%) bao gồm mua bia Trong số đó, khoảng 3.500 giao dịch, chiếm 1,75%, bao gồm mua tã bia Dựa tỷ lệ phần trăm, số lớn phải thấp nhiều Tuy nhiên, thực tế khoảng 87,5% lần mua tã bao gồm mua bia cho thấy mối liên hệ tã bia Vì siêu thị đặt tã bia gần để tăng số lượng hàng bán Bán lẻ: Các nhà bán lẻ thu thập liệu hình thức mua hàng, ghi lại liệu mua hàng mã vạch mặt hàng quét hệ thống điểm bán hàng Các mơ hình học máy tìm kiếm đồng xuất liệu để xác định sản phẩm có nhiều khả mua Sau đó, nhà bán lẻ điều chỉnh chiến lược tiếp thị bán hàng để tận dụng thông tin Thiết kế trải nghiệm người dùng (UX): Các nhà phát triển thu thập liệu cách người tiêu dùng sử dụng trang web họ tạo Sau đó, họ sử dụng liên kết liệu để tối ưu hóa giao diện người dùng trang web cách phân tích nơi người dùng có xu hướng nhấp vào điều tối đa hóa hội họ tương tác với lời kêu gọi hành động, chẳng hạn Giải trí: Các dịch vụ Netflix Spotify sử dụng quy tắc liên kết để thúc đẩy động đề xuất nội dung họ Mơ hình học máy phân tích liệu hành vi người dùng khứ để tìm mẫu thường xuyên, phát triển quy tắc liên kết sử dụng quy tắc để đề xuất nội dung mà người dùng có khả tương tác tổ chức nội dung theo cách có khả đưa nội dung thú vị cho người dùng định 1.4 Thuật toán 1.4.1 Thuật toán Apriori Apriori thuật toán khai phá tập mục thường xuyên R Agrawal R Srikant đề xuất vào năm 1993 Thuật toán Apriori tảng cho việc phát triển nhiều thuật toán khai phá tập mục thường xuyên khác sau Giả sử mục liệu giao tác lưu theo trật tự từ điển Thuật toán sử dụng ký hiệu sau: (Xem bảng) Ý tưởng thuật tốn sau: Sinh tập mục ứng viên từ tập mục thường xuyên bước trước, sử dụng kỹ thuật “tỉa” để bỏ tập mục ứng viên không thoả mãn ngưỡng hỗ trợ cho trước Cơ sở kỹ thuật tính chất Apriori: Bất kỳ tập tập mục thường xuyên phải tập mục thường xuyên Vì vậy, tập mục ứng viên gồm k mục sinh cách kết nối tập mục thường xuyên có (k-1) mục loại bỏ tập mục ứng viên có chứa tập thường xuyên Thuật toán duyệt sở liệu nhiều lần Mỗi lần duyệt, thuật toán thực hai bước: bước kết nối bước tỉa Trong lần lặp thứ k, thuật toán nối hai (k-1) tập mục để sinh k - tập mục, sử dụng tính chất Apriori để tỉa tập ứng viên Recommended for you Document continues below Unit My new school 61 Lesson Getting… Cơ Sở Dữ Liệu None Nhóm 8-A0 - CÁC YẾU TỐ TÁC ĐỘNG… Cơ Sở Dữ Liệu None 2.1 Exam Details SA SAFe Agilist Cơ Sở Dữ Liệu None SCCS - Cơ sở liệu Cơ Sở Dữ Liệu None 1.4.2 Thuật toán FP Growth Thuật toán Apriori có chi phí lớn lại hiệu Để khắc phục nhược điểm này, J Han, J Pei, Y Yin R Mao đề xuất thuật toán FP-growth Thuật tốn FP-growth xây dựng với kỹ thuật chính: 1) Nén liệu thích hợp vào cấu trúc gọi FP-tree Chỉ có 1tập mục (1-item) nút xếp để nút xuất thường xuyên dễ dàng chia sẻ với nút xuất 2) Thực phương pháp khai phá phát triển (growth) đoạn dựa FP-tree gọi phương pháp FP-growth 3) Kỹ thuật tìm kiếm dùng dựa vào phân chia, “chia để trị”, phân rã nhiệm vụ khai phá thành nhiệm vụ nhỏ Thuật tốn FP-growth nén tồn CSDL lên cấu trúc liệu nhỏ FP-tree nên tránh việc duyệt nhiều lần CSDL (thuật toán duyệt sở liệu lần) Tiếp theo thuật toán khai phá cách phát triển dần mẫu mà không sinh tập mục ứng viên, tránh khối lượng tính toán lớn Phương pháp FP- growth chứng tỏ tính hiệu thực khai phá cho mẫu ngắn dài, nhanh thuật tốn Apriori, ln cần duyệt CSDL lần Thuật toán FP- growth thực sau: Đầu tiên, thuật tốn duyệt CSDL lần thứ để tính độ hỗ trợ mục (đếm số lần xuất mục) Tiếp đến, mục không đủ độ hỗ trợ bị loại Các mục lại theo thứ tự giảm dần độ hỗ trợ (cũng tức giảm dần theo số lần xuất CSDL), ta nhận danh sách L mục Duyệt CSDL lần thứ hai, với giao tác t, loại mục không đủ độ hỗ trợ, mục lại theo thứ tự giống xuất L (tức thứ tự giảm dần theo độ hỗ trợ) cất vào FP-tree Phần thuật tốn khai phá tìm mẫu thường xuyên FP-tree xây dựng mà không cần duyệt lại CSDL Thuật tốn kinh điển Apriori tìm tập mục thường xuyên theo cách sinh ứng cử viên duyệt CSDL để kiểm tra, thuật toán FP-growth khơng khai phá theo cách thuật tốn Apriori mà nén giao tác CSDL lên cấu trúc FPTree, sau thực khai phá Thuật toán sinh luật từ tập mục thường xuyên trình bày cụ thể CHƯƠNG 2: ÁP DỤNG THUẬT TỐN APRIORI ĐỂ PHÂN TÍCH GIỎ THỊ TRƯỜNG CHO CỬA HÀNG TIỆN LỢI GROCERIES 2.1 Giới thiệu toán Hiện nay, cửa hàng tiện lợi ngày phát tri ển Các khách hàng đến với cửa hàng có lựa chọn sản phẩm khác Vậy cửa hàng nên xếp sản phẩm để khách hàng thuận tiện nh ất tìm ki ếm s ản phẩm cửa hàng xếp để cửa hàng tăng doanh thu cho t ừng lo ại s ản phẩm? Điều băn khoăn cửa hàng tiện lợi Groceries Nhóm áp dụng thuật tốn phân tích gi ỏ th ị trường đ ể tìm m ối liên hệ items khách hàng đến với cửa hàng đ ưa đ ề xu ất cho c ửa hàng sản phẩm chọn mua nhiều nên đặt nh ững sản phẩm cạnh 2.2 Mô tả liệu Dữ liệu đầu vào toán file excel lưu trữ giao d ịch c khách hàng đến cửa hàng Groceries vòng năm 2014 -2015 Mỗi khách hàng đến cửa hàng có mua sản phẩm khác Dữ liệu khách hàng bao gồm : Member number, Date Item Description Dưới ví dụ 28 liệu đầu tiên: Theo bảng số liệu dịng ứng với m ột khách hàng v ới Member Number, Date Item Description Bộ liệu bao gồm 38765 khách hàng 2.3 Kết khai thác luật kết hợp thuật toán Apriori Sau đưa liệu vào phần mềm R-studio, nhóm tiến hành đọc liệu làm li ệu Nhóm tiến hành nhóm t ất c ả m ặt hàng đ ược mua lại với ngày kết thu được: 10 Nhóm sử dụng hàm read.transaction() để chuyển liệu từ dạng data.frame sang dạng liệt kê sản phẩm (item) th có t số 14964 giao dịch với 168 sản phẩm khác Sử dụng thuật toán Apriori cho t số 450 quy tắc tạo từ liệu Dưới nhóm kiểm tra 20 quy tắc rổ 11 Chẳng hạn quy t ắc đầu tiên: 15,68% whole milk đ ược mua khách hàng mua frozen fish Mức tăng quy luật 0,9933 (mức tăng nh ỏ h ơn 1) cho thấy việc mua frozen fish trước làm giảm hội mua whole milk giao dịch Dưới biểu đồ 10 sản phẩm xuất nhiều giỏ hàng: 12 Có thể thấy whole milk sản phẩm khách hàng mua nhiều Ngoài sữa, mặt hàng bánh, rau trái nh ững l ựa ch ọn hàng đ ầu khách hàng đến cửa hàng Thấy whole milk sản phẩm có số lượng tiêu thụ cao nên nhóm tìm sản phẩm có liên kết cao với whole milk Do lu ật ch ứa “whole milk” bên vế phải lu ật (rhs: right – hand side) với items ta nhận 74 quy luật liên quan đến whole milk Sau loại bỏ luật thừa cịn lại luật sau: 13 Đồ thị biểu diễn quy luật trên: Từ đồ thị ta thấy mức tăng mua s ản ph ẩm whole milk, yogurt sausage giao dịch cao Để thấy rõ xem biểu đồ tọa độ song song sau: 14 2.4 Kết luận Sử dụng thuật toán Apriori R-studio cho liệu Groceries nhóm thấy mối liên hệ sausage, yogurt, whole milk mạnh Từ nhóm kiến nghị cửa hàng Groceries nên xếp sản phẩm gần 15