Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
1,7 MB
Nội dung
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TI: KHAI THÁC DỮ LIỆU MUA HNG TẠP HÓA BẰNG THUẬT TOÁN APRIORI Sinh viên thực : ĐẶNG LONG NHẬT VŨ TÙNG LÂM NGUYỄN TRƯỜNG VŨ Giảng viên hướng dẫn : NGUYỄN THỊ THANH TÂN Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : CÔNG NGHỆ PHẦN MỀM Lớp : D14CNPM7 Khóa : 2019 -2024 Hà Nội, tháng năm 2022 PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên ĐẶNG LONG NHẬT Nội dung thực Điểm Chữ ký Ghi MSV:19810310618 VŨ TÙNG LÂM MSV:19810310581 NGUYỄN TRƯỜNG VŨ MSV:19810310635 Họ tên giảng viên Giảng viên chấm 1: Giảng viên chấm 2: Chữ ký MỤC LỤC LỜI NÓI ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.1.1 Khai phá liệu ? 1.1.2 Khai phá tri thức từ CSDL 1.1.3 Các ứng dụng khai phá liệu: 1.1.4 Các bước trình khai phá liệu: 1.2 Một số kỹ thuật khai phá liệu: 1.2.1 Kỹ thuật khai phá luật kết hợp 1.2.2 Kỹ thuật phân lớp 1.2.3 Kỹ thuật phân cụm CHƯƠNG 2: THUẬT TOÁN SVM 2.1 Giới thiệu chung SVM 2.2 SVM làm việc 2.3 Cách chọn siêu phẳng tối ưu 2.4 Tính m (margin) 2.5 Phương trình SVM 2.5.1 Sai số dự đoán 2.5.2 Hàm mát 10 2.5.3 Hàm đánh giá 10 CHƯƠNG 3: SVM VÀ BÀI TỐN MUA BÁN HÀNG 11 3.1 Phân tích toán 11 3.2 Đọc xây dựng liệu, chương trình 12 KẾT LUẬN 17 TÀI LIỆU THAM KHẢO 18 LỜI MỞ ĐẦU Trong thời buổi đại ngày nay, công nghệ thông tin ứng dụng khơng ngừng phát triển, lượng thơng tin sở liệu thu thập lưu trữ tích lũy ngày nhiều lên Con người mà cần có thơng tin với tốc độ nhanh để đưa định dựa lượng liệu khổng lồ có Các phương pháp quản trị khai thác sở liệu truyền thống ngày khơng đáp ứng thực tế Vì thế, khuynh hướng kỹ thuật kỹ thuật phát tri thức khai phá liệu nhanh chóng phát triển Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới Ở Việt Nam, kỹ thuật nghiên cứu dần đưa vào ứng dụng Khai phá liệu bước quy trình phát tri thức Hiện nay, người khơng ngừng tìm tịi kỹ thuật để thực khai phá liệu cách nhanh có kết tốt Trong tập lớn này, chúng em tìm hiểu trình bày kỹ thuật khai phá liệu để phân lớp liệu tổng quan khai phá liệu, với đề tài “Khai thác liệu mua hàng tạp hóa thuật tốn Apriori” Trong q trình làm tập lớn này, chúng em xin gửi lời cảm ơn đến cô Nguyễn Thị Thanh Tân Cô tận tình hướng dẫn chi tiết cho chúng em, kiến thức thầy cung cấp hữu ích Chúng em mong nhận góp ý từ Chúng em xin chân thành cảm ơn! CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.1.1 Khai phá liệu ? Khai phá liệu trình xác định mẫu tiềm ẩn có tính hợp lệ, lạ, có ích hiểu khối liệu lớn 1.1.2 Khai phá tri thức từ CSDL Khai phá tri thức từ CSDL gồm bước - B1: Lựa chọn CSDL - B2: Tiền xử lý - B3: Chuyển đổi - B4: Khai phá liệu - B5: Diễn giải đánh giá Khai phá liệu bước trình khai phá tri thức từ CSDL Hình 1.1: Quá trình khai phá tri thức 1.1.3 Các ứng dụng khai phá liệu: Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phương pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ như: ⮚ Bảo hiểm, tài thị trường chứng khốn: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, … ⮚ Thống kê, phân tích liệu hỗ trợ định ⮚ Điều trị y học chăm sóc y tế: số thơng tin chuẩn đoán bệnh lưu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc, ) ⮚ Sản xuất chế biến: Quy trình, phương pháp chế biến xử lý cố.Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản, ⮚ Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền, ⮚ Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lượng dịch vụ, 1.1.4 Các bước trình khai phá liệu: Bước thứ nhất: Hình thành, xác định định nghĩa tốn Là tìm hiểu lĩnh vực ứng dụng từ hình thành tốn, xác định nhiệm vụ cần phải hoàn thành Bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai: Thu thập tiền xử lý liệu Là thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu (làm liệu), xử lý việc thiếu liệu (làm giàu liệu), biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Do liệu lấy từ nhiều nguồn khác nhau, khơng đồng nhất, … gây nhầm lẫn Sau bước này, liệu quán, đầy đủ, rút gọn rời rạc hoá Bước thứ ba: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thơng thường, tốn khai phá liệu bao gồm: tốn mang tính mơ tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tuỳ theo tốn xác định mà ta lựa chọn phương pháp khai phá liệu cho phù hợp Bước thứ tư: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết trình phát tri thức đưa vào ứng dụng lĩnh vực khác kết dự đoán 1.2 Một số kỹ thuật khai phá liệu: 1.2.1 Kỹ thuật khai phá luật kết hợp Trong khai phá liệu, mục đích luật kết hợp tìm mối quan hệ đối tượng khối lượng lớn liệu Để khai phá luật kết hợp có nhiều thuật toán, dùng phổ biến thuật toán Apriori Đây thuật toán khai phá tập phổ biến liệu giao dịch để phát luật kết hợp dạng khẳng định nhị phân sử dụng để xác định, tìm luật kết hợp liệu giao dịch Ngồi ra, cịn có thuật toán FP-growth, thuật toán Partition,… 1.2.2 Kỹ thuật phân lớp Trong kỹ thuật phân lớp gồm có thuật tốn: - Phân lớp định (giải thuật ID3, J48): phân lớp liệu dựa việc lập nên định, nhìn vào định định liệu thuộc phân lớp - Phân lớp dựa xác suất (Naïve Bayesian): dựa việc giả định thuộc tính độc lập mạnh với qua việc sử dụng định lý Bayes - Phân lớp dựa khoảng cách (giải thuật K – láng giềng): làm láng giềng làm, liệu phân vào lớp k đối tượng gần với liệu - Phân lớp SVM: phân lớp liệu dựa việc tìm siêu phẳng “tốt nhất” để tách lớp liệu không gian nhiều chiều 1.2.3 Kỹ thuật phân cụm Phân cụm liệu cách phân bố đối tượng liệu vào nhóm/ cụm cho đối tượng cụm giống phần tử khác cụm, gồm có số phương pháp phân cụm như: + Phân cụm phương pháp K-mean: tìm tâm cụm mà khoảng cách tâm đến đối tượng, liệu khác ngắn + Phân cụm đồ thị Ngoài ra, khai phá liệu có nhiều kỹ thuật, kỹ thuật đơn giản khai phá liệu mà chúng em tìm hiểu CHƯƠNG 2: THUẬT TOÁN APRIORI 2.1 Giới thiệu chung APRIORI Apriori thuật toán khả sinh đề xuất R Agrawal R Srikan vào năm 1993 để khai thác tập item luật kết hợp kiểu bool Tên thuật toán dựa việc thuật toán sử dụng tri thức trước (prior knowledge) thuộc tính tập item phổ biến, thấy sau Apriori dùng cách tiếp cận lặp biết đến tìm kiếm level-wise, với tập k item dùng để thăm dò tập (k+1) item Đầu tiên, tập tập item phổ biến tìm thấy cách quét sở liệu để đếm số lượng item, thu thập item thỏa mãn độ hỗ trợ tối thiểu Tập kết đặt L1 Tiếp theo, L1được dùng để tìm L2, tập tập item phổ biến, dùng để tìm L3, tiếp tục, tập k item phổ biến khơng thể tìm thấy Việc tìm kiếm cho Lkđịi hỏi lần qt tồn sở liệu Tính chất Apriori: Tất tập không rỗng tập item phổ biến phải phổ biến 2.2 Thuật toán APRIORI hoạt động Apriori dùng cách tiếp cận lặp biết đến tìm kiếm levelwise, với tập k item dùng để thăm dò tập (k+1) item Đầu tiên, tập(frequent 1- itemsets) phổ biến tìm thấy ký hiệu C1 Bước tính support có nghĩa xuất item sở liệu Điều địi hỏi phải duyệt qua tồn sở liệu Sau đó, bước cắt tỉa thực C1 item so sánh với thông số minimum support Những item thỏa điều kiện minimum support xem xét cho tiến trình ký hiệu L1 Sau đó, bước phát sinh ứng viên thực tập phổ biến tạo ký hiệu C2 Một lần nữa, cở sở liệu duyệt để tính tốn support tập phổ biến Theo minimum support, ứng viên tạo kiểm tra tập phổ biến thỏa điều kiện minimum support tiếp tục sử dụng tạo bô ứng viên tập phổ biến Bước tiếp tục khơng có tập phổ biến ứng viên tạo 2.3 Ví dụ thuật tốn Apriori Bảng biểu diễn giao dịch sở liệu có giao dịch TID nhận dạng cho giao dịch TABLE_1 TID Items T001 A,C,D T002 B,C,E T003 A,B,C,E T004 B,E Thực bước chức duyệt sở liệu để xác định số lượng xuất cho item cụ thể Sau bước có C1 thể Table TABLE_2 C1 Itemset Support {A} {B} {C} {D} {E} Bước bước cắt tỉa, support tập phổ biến so sánh với minimum support Các tập phổ biến thỏa măn minimum support xử lý tiếp tục Giả sử minimum support Chúng ta có L1 từ bước TABLE cho thấy kết cắt tỉa TABLE_3 L1 Itemset Support {A} {B} {C} {E} Bây bước phát sinh ứng viên thực tất ứng viên có tập phổ biến ứng viên tạo Bảng ký hiệu C2 TABLE cho thấy tất khả kết hợp mà tạo từ TABLE tập phổ biến TABLE_4 C2 Itemset Support {A,B} {A,C} {A,E} {B,C} {B,E} {C,E} Bây cắt tỉa phải thực sở điều kiện minimum support Từ TABLE hai tập phổ biến loại bỏ Sau cắt tỉa nhận kết sau: TABLE_5 L2 Itemset Support {A,C} {B,C} {B,E} {C,E} Các trình tương tự tiếp tục khơng có tập phổ biến ứng viên tạo Tiến trình mơ tả TABLE TABLE TABLE_6 C3 Itemset Support {A,B,C} {A,B,E} {B,C,E} TABLE_7 L3 (Kết cuối cùng) Itemset Support {A,B,C} {A,B,E} {B,C,E} Mã giả thuật toán Apriori_Algorithm() { Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk!=0; k++) { Ck+1 = candidates generated from Lk; foreach transaction t in database increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support } return } k L k; CHƯƠNG 3: KHAI THÁC DỮ LIỆU MUA HNG TẠP HÓA BẰNG THUẬT TỐN APRIORI 3.1 Phân tích tốn Ý tưởng buôn bán chéo: phương pháp thực hành đặt hàng hóa lại với mà người tiêu dùng có xu hướng mua để tăng kích thước giỏ hàng thúc đẩy mua hàng Các ví dụ phổ biến bao gồm bàn chải kem đánh răng, mì gói nước sốt, kẹo đồ chơi Nếu sản phẩm phù hợp với sản phẩm khác cửa hàng, ý tưởng tuyệt vời bạn điều chỉnh vị trí sản phẩm cửa hàng cách đồng thương hiệu hai sản phẩm với cửa hàng Việc thực hành buôn bán chéo không giới hạn việc dịch chuyển sản phẩm cửa hàng vật chất truyền thống Nó áp dụng cho cửa hàng trực tuyến chiến lược tiếp thị trực tuyến để trưng bày bán sản phẩm Trong code chúng em khai thác liệu lịch sử mua hàng tạp hóa với mặt hàng ghi lại áp dụng thuật toán Apriori để tiến hành học quy tắc phân phối không giám sát nhằm xác định mối quan hệ mặt hàng mua khác 3.2 Đọc xây dựng liệu chương trình Biết trước giới hạn hỗ trợ bạn cách tìm mức hỗ trợ tối đa mặt hàng Ở đây, mức hỗ trợ tối đa bạn nhận 1788/7501 = 0,238 Xem biểu đồ để tham khảo Bạn khơng muốn vượt q số Nếu khơng, bạn không nhận kết ngưỡng bạn q nghiêm ngặt Như bạn thấy trên, kết trả tất quy tắc có phù hợp với ngưỡng nhỏ định mức hỗ trợ tập phổ biến 0,01, độ tin cậy quy tắc 0,10 mức nâng quy tắc Tập hợp mục khơng có hướng thêm vào trước, quy tắc để so sánh xem việc thêm mặt hàng có làm tăng tỷ lệ bán hàng hay không Tôi muốn giữ nguyên quy tắc có mức tăng tối đa để giải thích thay lưu trữ tất quy tắc tập mục định khung liệu Bây giờ, để viết hàm trợ giúp để trích xuất quy tắc có mức tăng tối đa số tất quy tắc có sẵn cho tập hợp vật phẩm khai thác thuật toán Apriori Giải thích đầu học quy tắc kết hợp thuật tốn apriori: Mỗi biểu diễn tập hợp có quy tắc phù hợp với tiêu chí định hỗ trợ> 1%, độ tin cậy> 10% mức tăng> Từ quy tắc đối sánh hàng đầu đánh giá dựa giá trị hỗ trợ, độ tin cậy mức tăng, nhóm mặt hàng {"group beef", "spaghetti"} kết hợp mua phổ biến phù hợp với yêu cầu độ tin cậy 20% mức tăng> Dựa tập hợp phổ biến {"thịt bò xay", quy tắc "spaghetti"} {'spaghetti'} -> {'thịt bò xay'}, độ tin cậy {'spaghetti'} -> {'thịt bò xay' } 0,225115 22,5% Sự tự tin ngụ ý số tất giao dịch mua có mua mì ý chính, 22,5% giao dịch mua bao gồm thịt bò xay Mức tăng tổ hợp mặt hàng mua nhiều 2,29 Điều cho thấy khách hàng mua mì Ý có khả mua thịt bò xay cao gấp 2,29 lần so với khả mặc định bán thịt bò xay Đề xuất dựa kết đầu mơ hình: Chủ cửa hàng cân nhắc việc tạo chiến lược xếp sản phẩm với tập hợp vật phẩm học từ thuật tốn apriori để bán sản phẩm chúng có nhiều khả mua so với sản phẩm đơn lẻ Ví dụ: đặt "thảo mộc hạt tiêu" bên cạnh vị trí thịt bị xay để xem điều xảy với việc giảm giá KẾT LUẬN Những kết đạt đề tài: ✔ Đã tìm hiểu kiến thức Machine Learning ✔ Đã tìm hiểu thuật tốn APRIORI ✔ Đã áp dụng thuật toán APRIORI để khai thác liệu bán hàng tạp hóa Hạn chế: Trong q trình làm chúng em gặp nhiều vấn đề tìm hiểu thuật tốn cịn gặp nhiều khó khăn, kiến thức cịn hạn chế, thời gian có hạn với mơn học Hướng phát triển: Chúng em tiếp tục nghiên cứu Machine Learning áp dụng thuật toán APRIORI cho tốn khác Trong q trình thực chúng em cố gắng tìm hiểu, học hỏi khả có giới hạn, khơng tránh khỏi sai sót, nên chưa giải vấn đề đặt Chúng em mong nhận thông cảm quý thầy cô bạn Chúng em xin chân thành cảm ơn! TI LIỆU THAM KHẢO [1] Slide giảng môn “Data Mining” – Nguyễn Thị Thanh Tân [2] Blog thuật toán APRIORI- hocthuat [3] Blog ML machine learning - machinelearning.com