Khoá luận tốt nghiệp chuyên ngành kinh tế dữ liệu ứng dụng khai phá dữ liệu với ngôn ngữ python trong khai phá luật kết hợp

64 2 0
Khoá luận tốt nghiệp chuyên ngành kinh tế dữ liệu ứng dụng khai phá dữ liệu với ngôn ngữ python trong khai phá luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ KẾ HOẠCH VÀ ĐẦU TƯ HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN - - KHÓA LUẬN TỐT NGHIỆP ĐỀ TÀI: ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP VỚI NGÔN NGỮ PYTHON Sinh viên thực hiện: Nguyễn Thị Giang Lớp: KTDL10 Msv: 7103 Giáo viên hướng dẫn: TS Nguyễn Hữu Xuân Trường Hà Nội – 2023 i LỜI CAM ĐOAN Tơi xin cam đoan Khóa luận với đề tài “Ứng Dụng Khai Phá Dữ Liệu Với Ngôn ngữ Python Trong Khai Phá Luật Kết Hợp” tự thân thực hiện, có hỗ trợ giáo viên hướng dẫn không chép công trình nghiên cứu người khác Các số liệu Khóa luận sử dụng trung thực trích dẫn rõ ràng Nếu sai tơi xin hồn tồn chịu trách nhiệm Hà Nội, tháng năm 2023 Sinh viên Nguyễn Thị Giang ii LỜI CẢM ƠN Để hồn thành xuất sắc khóa luận, tơi xin gửi lời cảm ơn chân thành đến Ban Giám đốc Học viện Chính sách Phát triển, q thầy Khoa Kinh Tế Số - Học viện Chính sách Phát triển tạo điều kiện thuận lợi để tơi hồn thành Khóa luận Trong q trình thu thập thông tin số liệu liên quan, nhận dẫn giúp đỡ, hỗ trợ tận tình giảng viên giúp đỡ TS Nguyễn Hữu Xuân Trường giảng viên khác khoa Kinh Tế Số - Học viện Chính sách Phát triển V ới điều kiện thời gian kinh nghiệm cịn hạn chế, q trình hồn thiện Khóa luận, tơi khơng thể tránh khỏi sai sót, mong nhận bảo, đóng góp ý kiến từ quý ngân hàng quý thầy cô, để đề tài hồn thiện Tơi xin chân thành cảm ơn! Hà Nội, tháng năm 2023 Sinh viên Nguyễn Thị Giang iii MỤC LỤC LỜI CAM ĐOAN ii LỜI CẢM ƠN iii DANH MỤC CÁC VIẾT TẮT vi DANH MỤC HÌNH - BIỂU ĐỒ vii DANH MỤC BẢNG SỬ DỤNG viii MỞ ĐẦU 1 Tính cấp thiết đề tài Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết cấu khóa luận CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP 1.1 Tổng quan khai phá liệu 1.1.1 Khái quát khai phá liệu 1.1.2 Quy trình khai phá liệu 1.1.3 Ứng dụng khai phá liệu 1.1.4 Các kỹ thuật khai phá liệu 1.1.5 Một số khó khăn khai phá liệu 13 1.2 Tổng quan kỹ thuật khai phá luật kết hợp 15 1.2.1 Khái niệm kỹ thuật khai phá luật kết hợp 15 1.2.2 Lý thuyết kỹ thuật khai phá luật kết hợp 16 1.2.3 Định nghĩa luật kết hợp 17 1.2.4 Phân loại loại kỹ thuật luật kết hợp 19 1.2.5 Các phương pháp khai phá luật kết hợp 20 1.2.5 Các bước thực khai thác với kỹ thuật luật kết hợp 21 1.2.6 Ưu điểm hạn chế kỹ thuật Luật kết hợp 22 1.2.7 Ví dụ tốn khai phá luật kết hợp 22 KẾT LUẬN CHƯƠNG 26 CHƯƠNG THUẬT TỐN APRIORI VÀ NGƠN NGỮ PYTHON 27 2.1 Tổng quan thuật toán khai phá luật kết hợp Apriori 27 iv 2.1.1 Giới thiệu thuật toán Apriori 27 2.1.2 Cách thức hoạt động thuật toán Apriori 27 2.1.3 Ví dụ với thuật tốn Apriori 28 2.1.4 Ưu nhược điểm thuật toán Apriori 31 2.2 Tổng quan Ngôn ngữ Python 32 2.2.1 Giới thiệu Ngôn ngữ Python 32 2.2.2 Những tính vượt trội ngôn ngữ Python 33 2.2.3 Môi trường ngôn ngữ Python 34 2.2.4 Thư viện sử dụng 35 KẾT LUẬN CHƯƠNG 38 CHƯƠNG TRIỂN KHAI THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ KHAI PHÁ 39 3.1 Dữ liệu nghiên cứu khám phá liệu 39 3.1.1 Dữ liệu nghiên cứu 39 3.1.2 Khám phá liệu 40 3.2 Triển khai thuật toán 45 3.2.1 Chuẩn bị liệu cho khai phá liệu 45 3.2.2 Thực khai phá luật kết hợp Apriori với Python 46 KẾT LUẬN CHƯƠNG 53 KẾT LUẬN 54 TÀI LIỆU THAM KHẢO 55 v DANH MỤC CÁC VIẾT TẮT STT Chữ viết tắt Tên đầy đủ tiếng anh Tên đầu đủ tiếng việt CSDL SVM Support Vector Machines Máy hỗ trợ vecto 𝑠𝑢𝑝 support Độ hỗ trợ 𝑐𝑜𝑛𝑓 confidence Độ tin cậy Cơ sở liệu vi DANH MỤC HÌNH - BIỂU ĐỒ Hình 1.1 Quy trình khai phá liệu Hình 1.2 Ví dụ Support Vector Machines Hình 1.3 Ví dụ định tốn dự đốn khả khác hàng mua sản phẩm khơng Hình 1.4 Biểu đồ 2-D ví dụ kỹ thuật phân cụm liệu Hình 1.5 Phương pháp Silhouette Hình 1.6 Phương pháp Elbow Hình 1.7 Kỹ thuật hồi quy Hình 1.8 Minh họa kỹ thuật khai phá luật kết hợp Hình 1.9 Phân loại phương pháp phá luật kết hợp Hình 2.1 Tóm tắt thuật tốn Apriori Hình 2.2 Logo ngơn ngữ Python Hình 3.1 Biểu Top 10 sản phẩm bán nhiều Hình 3.2 Số lượng giao dịch cửa hàng theo Hình 3.3 Số lượng giao dịch cửa hàng theo buổi Hình 3.4 Số lượng giao dịch cửa hàng ngày Hình 3.5 Ví dụ giỏ hàng vii DANH MỤC BẢNG SỬ DỤNG Bảng 1.1 Bảng mặt hàng giao dịch Bảng 1.2 Bảng độ hỗ trợ Bảng 1.3 Bảng độ hỗ trợ Bảng 1.4 Bảng luật kết hợp Bảng 3.1 Dữ liệu nghiên cứu Bảng 3.2 Số lượng sản phẩm bán nhiều Bảng 3.3 Số lượng giao dịch cửa hàng theo buổi Bảng 3.4 Số lượng giao dịch cửa hàng ngày Bảng 3.5 Kết khai phá luật kết hợp với Apriori Bảng 3.6 Kết khai phá luật kết hợp với Apriori với ‘Coffee’ viii MỞ ĐẦU Tính cấp thiết đề tài Trong thời đại số nay, khai phá liệu trở thành lĩnh vực quan trọng không doanh nghiệp tổ chức, mà lĩnh vực khoa học kỹ thuật Điều trở nên cấp thiết giới tiến đến thời đại liệu lớn, cơng nghệ thơng tin trí tuệ nhân tạo phát triển mạnh mẽ Ứng dụng khai phá liệu với ngôn ngữ Python cách hiệu để khám phá thông tin tiềm ẩn liệu giải vấn đề liên quan đến lĩnh vực Việc sử dụng Python để khai phá liệu mang lại nhiều lợi ích cho người dùng Python ngơn ngữ lập trình linh hoạt, dễ học sử dụng, đặc biệt kết hợp với thư viện phổ biến Pandas, NumPy Matplotlib Điều giúp người dùng xử lý trực quan hóa liệu cách nhanh chóng hiệu Trong thực tế, ứng dụng khai phá liệu với Python áp dụng rộng rãi lĩnh vực khác kinh doanh, y tế, giáo dục, khoa học xã hội, v.v Các công ty lớn Google, Facebook, Netflix, Amazon sử dụng Python để khai phá liệu phát triển ứng dụng trí tuệ nhân tạo Để tập trung vào việc nghiên cứu áp dụng thuật toán Apriori khai phá liệu với Python, đề tài "Ứng dụng khai phá liệu với ngôn ngữ Python khai phá luật kết hợp" cấp thiết Thuật toán Apriori thuật toán quan trọng khai phá liệu, đặc biệt việc khám phá luật kết hợp liệu Việc áp dụng thuật tốn giúp tìm mối quan hệ tiềm ẩn mục liệu, đồng thời giúp người dùng đưa định đắn có tính dự đốn cao Mục đích nghiên cứu Mục tiêu chung: • Nghiên cứu tổng quan Khai phá liệu, Khai phá luật kết hợp • Nghiên cứu thuật tốn Apriori Mục tiêu cụ thể: • Ứng dụng ngôn ngữ Python khai phá luật kết hợp với thuật toán Apriori Đối tượng phạm vi nghiên cứu • Đối tượng nghiên cứu: Khai phá liệu, Khai phá luật kết hợp, Thuật tốn Apriori • Phạm vi nghiên cứu: Dữ liệu nghiên cứu thu tập từ ngày tháng 10 năm 2016 đến tháng năm 2017 Phương pháp nghiên cứu • Phương pháp luận nghiên cứu khoa học • Phương pháp Khai phá luật kết hợp Kết cấu khóa luận Ngồi phần mở đầu, kết luận danh mục tài liệu tham khảo, nội dung khóa luận cịn bao gồm ba chương: Chương 1: Tổng quan khai phá liệu kỹ thuật khai phá luật kết hợpc Chương 2: Thuật toán Apriori ngơn ngữ Python Chương 3: Triển khai thuật tốn đánh giá kết khai phá Hình 3.2 Số lượng giao dịch cửa hàng theo Nguồn: Xử lý với Ngôn ngữ Python Dựa biểu đồ thấy số lượng giao dịch thực cửa hàng theo ngày Nhận xét chung liệu này: • Số lượng giao dịch có xu hướng tăng dần từ sáng đến 11 trưa đạt đỉnh 11 trưa với 3102 giao dịch, sau giảm dần đến đóng cửa vào lúc 11 tối • Số lượng giao dịch cao ngày xảy vào trưa (từ 11h đến 14h) thấp vào buổi tối (từ 18h trở đi) • Có chênh lệch đáng kể số lượng giao dịch ngày, đặc biệt cao điểm thấp điểm • Có thể sử dụng biểu đồ để trực quan hóa liệu thấy tương quan ngày số lượng giao dịch thực 42 Hình 3.3 Số lượng giao dịch cửa hàng theo buổi Nguồn: Xử lý với Ngôn ngữ Python Bảng 3.3 Số lượng giao dịch cửa hàng theo buổi period_day Transaction Afternoon 11569 Evening 520 Morning 8404 Night 14 Nguồn: Xử lý với Ngôn ngữ Python Dựa vào biểu đồ thấy mô tả số lượng giao dịch thực cửa hàng theo khung ngày, bao gồm buổi sáng, buổi trưa, buổi chiều buổi tối Cùng với bảng thống kê đưa nhận xét chung liệu này: 43 • Số lượng giao dịch tập trung chủ yếu vào buổi sáng buổi chiều, với tổng cộng 9.404 + 11.569 = 21.973 giao dịch, tương ứng với khoảng 95% tổng số giao dịch ngày Trong đó, số lượng giao dịch vào buổi tối đêm thấp, có 534 giao dịch, chiếm khoảng 2% tổng số giao dịch ngày • Khung buổi sáng chiều có số lượng giao dịch tương đối cao chênh lệch không đáng kể so với Trong đó, buổi trưa có số lượng giao dịch cao với 11.569 giao dịch, chiếm khoảng 50% tổng số giao dịch ngày • Buổi tối đêm thời điểm có số lượng giao dịch thấp ngày, rào cản làm việc kết thúc mức độ an toàn vào buổi tối đêm Hình 3.4 Số lượng giao dịch cửa hàng ngày Nguồn: Xử lý với Ngôn ngữ Python 44 Bảng 3.4 Số lượng giao dịch cửa hàng ngày Ngày Transaction Friday 3266 Monday 3035 Saturday 3554 Sunday 3118 Thursday 2601 Tuesday 2645 Wednesday 2288 Nguồn: Xử lý với Ngơn ngữ Python Dựa theo biểu đồ đưa nhận xét chung biểu đồ sau: • Số lượng giao dịch có phân bố tương đối đồng qua ngày tuần, với khoảng cách số lượng giao dịch ngày khơng q lớn • Thứ Bảy có số lượng giao dịch cao tuần, với 3.554 giao dịch Thứ Sáu Chủ Nhật có số lượng giao dịch cao, 3.266 3.118 giao dịch • Thứ Tư ngày có số lượng giao dịch thấp tuần, có 2.288 giao dịch 3.2 Triển khai thuật toán 3.2.1 Chuẩn bị liệu cho khai phá liệu Trong phần tiến hành gom sản phẩm (Item) tương ứng với giỏ hàng 'Transaction', ví dụ bảng 3.1.1, cột 'Transaction' có giỏ hàng gồm sản phẩm 'Cookies' 'Scandinavian' thêm vào giỏ hàng, giỏ hàng 45 xác định sản phẩm có giỏ xác định sản phẩm khác giỏ hàng Từ tạo ma trận 𝑚 𝑥 𝑛, m = giao dịch n = mặt hàng hàng biểu thị mặt hàng có giao dịch hay khơng Hình 3.5 Ví dụ giỏ hàng Nguồn: Xử lý với Ngôn ngữ Python 3.2.2 Thực khai phá luật kết hợp Apriori với Python Khóa luận tiến hành triển khai mơ hình khai phá luật kết hợp Apriori thư viện mlxtend, với mức độ hỗ trợ tối thiểu 0.02 ngưỡng độ tin cậy tối thiểu Để đạt điều này, khóa luận sử dụng chương trình để tạo luật kết hợp: Sau đó, dụng phương thức apply để lấy phần tử tập hợp antecedents consequents Kết cho thấy, mơ hình tìm luật kết hợp có mức độ hỗ trợ độ tin cậy đáng kể, thể bảng kết 46 Bảng 3.5 Kết khai phá luật kết hợp với Apriori antecedent consequent support confidence lift leverage conviction support support Pastry Bread 0.0861 0.3272 0.0292 0.3387 1.035 0.001 1.0173 Bread Pastry 0.3272 0.0861 0.0292 0.0891 1.035 0.001 1.0033 Cake Coffee 0.1039 0.4784 0.0547 0.527 1.1015 0.005 1.1027 Coffee Cake 0.4784 0.1039 0.0547 0.1144 1.1015 0.005 1.0119 Cake Tea 0.1039 0.1426 0.0238 0.2289 1.6048 0.009 1.1119 Tea Cake 0.1426 0.1039 0.0238 0.1667 1.6048 0.009 1.0754 Cookies Coffee 0.0544 0.4784 0.0282 0.5184 1.0837 0.0022 1.0832 Coffee Cookies 0.4784 0.0544 0.0282 0.059 1.0837 0.0022 1.0048 Hotchocolate Coffee 0.0583 0.4784 0.0296 0.5072 1.0603 0.0017 1.0586 Coffee Hotchocolate 0.4784 0.0583 0.0296 0.0618 1.0603 0.0017 1.0037 Juice Coffee 0.0386 0.4784 0.0206 0.5342 1.1168 0.0022 1.1199 Coffee Juice 0.4784 0.0386 0.0206 0.0431 1.1168 0.0022 1.0047 Medialuna Coffee 0.0618 0.4784 0.0352 0.5692 1.1899 0.0056 1.2109 Coffee Medialuna 0.4784 0.0618 0.0352 0.0735 1.1899 0.0056 1.0127 Pastry Coffee 0.0861 0.4784 0.0475 0.5521 1.1542 0.0064 1.1647 Coffee Pastry 0.4784 0.0861 0.0475 0.0994 1.1542 0.0064 1.0147 Sandwich Coffee 0.0718 0.4784 0.0382 0.5324 1.1128 0.0039 1.1154 Coffee Sandwich 0.4784 0.0718 0.0382 0.0799 1.1128 0.0039 1.0088 Toast Coffee 0.0336 0.4784 0.0237 0.7044 1.4724 0.0076 1.7646 Coffee Toast 0.4784 0.0336 0.0237 0.0495 1.4724 0.0076 1.0167 antecedents consequents Nguồn: Xử lý với Ngôn ngữ Python 47 Bảng kết từ mơ hình khai phá luật kết hợp với Apriori bảng liệu chứa thông tin luật kết hợp tìm thấy liệu Cụ thể, bảng bao gồm trường sau đây: • antecedents: tập hợp mặt hàng phần đầu luật kết hợp • consequents: tập hợp mặt hàng phần sau luật kết hợp • antecedent support: tỷ lệ tần suất xuất tập hợp antecedents tất giao dịch • consequent support: tỷ lệ tần suất xuất tập hợp consequents tất giao dịch • support: tỷ lệ tần suất xuất tập hợp antecedents consequents tất giao dịch • confidence: độ tin cậy luật kết hợp, tính tỷ lệ số lần xuất antecedents consequents lúc giao dịch, chia cho số lần xuất antecedents giao dịch • lift: độ lớn phụ thuộc antecedents consequents, tính tỷ lệ support antecedents consequents kết hợp với nhau, chia cho tích antecedent support consequent support • leverage: mức độ phụ thuộc antecedents consequents, tính hiệu support antecedents consequents kết hợp với nhau, trừ tích antecedent support consequent support • conviction: độ tin cậy luật kết hợp, tính hiệu consequent support độ tin cậy luật kết hợp, chia cho hiệu consequent support độ khơng tin cậy antecedents Dữ liệu có chứa 20 quan hệ kết hợp (association rules) sản phẩm Các quan hệ phân tích tính tốn thuật tốn Apriori với mức ‘min_support’ = 0.02 ‘min_threshold’ = 48 • Khách hàng thường mua bánh (Pastry) thường mua bánh mì (Bread), ngược lại • Khách hàng thường mua bánh (Cake) thường mua cà phê (Coffee), ngược lại • Khách hàng thường mua bánh (Cake) thường mua trà (Tea), ngược lại • Khách hàng thường mua bánh quy (Cookies) thường mua cà phê (Coffee), ngược lại • Khách hàng thường mua đồ uống nóng sơ la nóng (Hot chocolate), cà phê (Coffee) bánh nóng (Toast) thường mua • Khách hàng thường mua nước ép (Juice) thường mua cà phê (Coffee), ngược lại • Khách hàng thường mua bánh nhân đậu (Medialuna) thường mua cà phê (Coffee), ngược lại • Khách hàng thường mua sandwich thường mua cà phê (Coffee), ngược lại • Nhìn chung, có sản phẩm giao dịch nhiều liệu này: Coffee, Bread, Cake Pastry Quan hệ Coffee sản phẩm khác thể nhiều quan hệ kết hợp Nếu khách hàng mua Coffee, khả mua sản phẩm khác tăng cao Ví dụ, khách hàng mua Coffee, khả mua Cake tăng cao với độ tin cậy (confidence) 52.7% lift (nâng cao) 1.10 • Sản phẩm Bread Pastry có quan hệ kết hợp với Nếu khách hàng mua Bread, khả mua Pastry tăng cao với độ tin cậy 33.9% lift 1.03 49 • Sản phẩm Cake có quan hệ kết hợp với Tea với lift cao (1.60) Tuy nhiên, độ tin cậy quan hệ khơng cao (22.9%) • Sản phẩm khác Cookies, Hot Chocolate, Juice, Medialuna, Sandwich Toast có quan hệ kết hợp với Coffee với độ tin cậy lift khác Tuy nhiên, sản phẩm không giao dịch nhiều liệu Ở đây, thấy "Coffee" mặt hàng xuất nhiều bán chạy Do đó, đề xuất với mặt hàng khác Vì vậy, bỏ qua luật khác tập trung vào "Coffee" (Bảng 3.1.4.(2)), có nhận định sau: • Tỉ lệ confidence quy tắc thấp, nằm khoảng từ 0.166667 đến 0.338650, cho thấy sản phẩm quy tắc khơng có mối liên hệ mạnh mẽ với • Cột "antecedents" danh sách sản phẩm liệt kê điều kiện đầu vào quan hệ tương quan Chẳng hạn, hàng bảng nêu khách hàng mua trà (Tea), khả họ mua bánh (Cake) 0,1667 • Cột "consequents" danh sách sản phẩm liệt kê kết quan hệ tương quan Chẳng hạn, hàng bảng nêu khách hàng mua bánh (Cake), khả họ mua trà (Tea) 0,2289 • Cột "antecedent support" tỷ lệ giao dịch chứa điều kiện đầu vào quan hệ tương quan Chẳng hạn, hàng bảng cho thấy 100% giao dịch, khách hàng mua trà 14,3% trường hợp • Cột "consequent support" tỷ lệ giao dịch chứa kết quan hệ tương quan Chẳng hạn, hàng bảng cho thấy 100% giao dịch, khách hàng mua bánh 10,4% trường hợp • Cột "support" tỷ lệ giao dịch chứa điều kiện đầu vào kết quan hệ tương quan Chẳng hạn, hàng bảng cho thấy 50 100% giao dịch, khách hàng mua trà bánh 2,4% trường hợp • Cột "confidence" tỷ lệ giao dịch chứa điều kiện đầu vào kết quan hệ tương quan so với tỷ lệ giao dịch chứa điều kiện đầu vào quan hệ tương quan Chẳng hạn, hàng bảng cho thấy khách hàng mua trà, khả họ mua bánh 16,7% • Chỉ số lift cho thấy sản phẩm quy tắc thường ảnh hưởng lẫn nhiều Chỉ số lift nằm khoảng từ đến 1.6, cho thấy sản phẩm khơng có mối liên hệ mạnh mẽ với 51 Bảng 3.6 Kết khai phá luật kết hợp với Apriori với ‘Coffee’ index antecedents consequents antecedent support consequent support support confidence lift Tea Cake 0.14263 0.10386 0.02377 0.16667 1.60478 Cake Tea 0.10386 0.14263 0.02377 0.22889 1.60478 19 Coffee Toast 0.47839 0.0336 0.02367 0.04947 1.47243 13 Coffee Medialuna 0.47839 0.06181 0.03518 0.07354 1.18988 15 Coffee Pastry 0.47839 0.08611 0.04754 0.09938 1.15417 11 Coffee Juice 0.47839 0.03856 0.0206 0.04307 1.11675 17 Coffee Sandwich 0.47839 0.07184 0.03825 0.07995 1.11279 Coffee Cake 0.47839 0.10386 0.05473 0.1144 1.10152 Coffee Cookies 0.47839 0.05441 0.02821 0.05897 1.08372 Coffee Hot chocolate 0.47839 0.05832 0.02958 0.06184 1.06031 Bread Pastry 0.32721 0.08611 0.02916 0.08912 1.03498 Pastry Bread 0.08611 0.32721 0.02916 0.33865 1.03498 Nguồn: Xử lý với Ngôn ngữ Python 52 KẾT LUẬN CHƯƠNG Từ kết khai phá luật kết hợp với thuật toán Apriori chương 3, thấy phương pháp hiệu việc khai thác tìm luật kết hợp yếu tố liệu Kết cho thấy luật kết hợp có độ tin cậy cao giúp cho việc dự đoán mẫu tương lai trở nên dễ dàng việc áp dụng thuật toán Apriori giúp phát itemset thường xuyên xuất nhau, từ phân tích thêm tương tác yếu tố liệu 53 KẾT LUẬN Khai phá liệu ngày trở nên quan trọng nhiều người cộng đồng phát triển công nghệ ước ao Vì vậy, nhu cầu tìm kiếm phương pháp khai thác liệu tiên tiến hiệu ngày tăng cao Trong số kỹ thuật này, kỹ thuật khai phá luật kết hợp Apriori sử dụng phổ biến để phát luật kết hợp thông dụng việc giải toán liên quan đến luật kết hợp Trong đó, ngơn ngữ lập trình Python trở thành lựa chọn phổ biến cho việc khai phá liệu, có khả xử lý tập liệu lớn có thư viện đa dạng phong phú Qua trình nghiên cứu khai phá liệu, kỹ thuật khai phá luật kết hợp với Apriori, em hồn thiện khóa luận với đề tài “Ứng Dụng Khai Phá Dữ Liệu Với Ngôn ngữ Python Trong Khai Phá Luật Kết Hợp”, khóa luận hồn thiện nội dung sau: • Tổng quan Khai phá liệu kỹ thuật khai phá liệu • Tổng quan kỹ thuật khai phá luật kết hợp thuật tốn Apriori • Ứng dụng ngơn ngữ Python triển khai kỹ thuật khai phá luật kết hợp với Apriori Bài luận thành cột mốc cuối đánh dấu bốn năm đại học, dù nỗ lực hồn thiện luận văn khơng tránh khỏi thiếu sót, em mong nhận đước ý kiến đóng góp thầy giáo để luận văn hoàn thiện 54 TÀI LIỆU THAM KHẢO Tài liệu nước 1.1 Khai Phá Dữ Liệu Và Kỹ Thuật Phân Lớp (NXB Đại Học Quốc Gia 2020) Trần Minh Quang 1.2 Nguyễn Thị Biên(2012), Khai phá Luật kết hợp sở liệu đa phương tiện (Trường Đại học Công nghệ) 1.3 Bài Giảng Khai Phá Dữ Liệu (2011), Khoa CNTT, Bộ Môn Hệ Thống Thông Tin Trường Đại Học Hàng Hải Việt Nam Tài liệu nước 2.1 Joshi, Swapn (2018) Aspect Based Sentiment Analysis for United States of America Airlines 10.13140/RG.2.2.26082.84169 2.2 Jiawei Han, Micheline Kamber, “Data Mining: Concepts andTechniques”, Third Edition, Morgan Kaufmann Publishers Trang web 3.1 Khai phá liệu, https://vi.wikipedia.org/wiki/Khai_phá_dữ_liệu 3.2 Khai phá mẫu phổ biến luật kết hợp, https://viblo.asia/p/khai-pha-mau-phobien-va-luat-ket-hop-gGJ59QAa5X2 3.3 Tổng quan khai phá liệu phương pháp khai phá luật kết hợp sở liệu, https://tapchicongthuong.vn/bai-viet/tong-quan-ve-khai-pha-du-lieu-vaphuong-phap-khai-pha-luat-ket-hop-trong-co-so-du-lieu-69634.htm 3.4 Khai thác tập phổ biến (frequent itemsets) với thuật toán Apriori, https://ongxuanhong.wordpress.com/2015/08/23/khai-thac-luat-tap-pho-bienfrequent-itemsets-voi-thuat-toan-apriori/ 55 3.5 Tìm hiểu Weka, phần mềm tuyệt vời dành cho khai phá liệu https://gizsolution.wordpress.com/2017/01/01/tim-hieu-ve-weka-mot-phan-memtuyet-voi-danh-cho-khai-pha-du-lieu/ 3.6 Weka gì? Phần mềm học máy hàng đầu nay, https://trungkhithe.com/weka-la-gi/ 3.7 Khai thác luật kết hợp với thuật toán Apriori, https://www.levandong.com/luatket-hop-thuat-toan-apriori-data-mining/ [Data] https://www.kaggle.com/datasets/mittalvasu95/the-bread-basket 3.8 https://tapchicongthuong.vn/bai-viet/tong-quan-ve-khai-pha-du-lieu-vaphuong-phap-khai-pha-luat-ket-hop-trong-co-so-du-lieu-69634.htm 56

Ngày đăng: 16/06/2023, 09:51

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan