TRƯỜNG ĐẠI HỌC PHƯƠNG ĐÔNG KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG BÀI T P L N MÔN: Ậ Ớ KHAI PHÁ D Ữ LIỆU LỚ N ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN FPT-GROWTH TRONG VIỆC TÌM RA NHỮNG MẪU PHỔ BIẾ
Trang 1TRƯỜNG ĐẠI HỌC PHƯƠNG ĐÔNG KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
BÀI T P L N MÔN: Ậ Ớ KHAI PHÁ D Ữ LIỆU LỚ N
ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN FPT-GROWTH TRONG VIỆC TÌM RA NHỮNG MẪU PHỔ BIẾN TRONG BỘ DỮ
LIỆU BÁN LẺ CỬA HÀNG ÁO QUẦN
Lớp:
Sinh viên 2 Sinh viên 3
Trang 2M c L c ụ ụ
BÀI TẬP LỚN MÔN: KHAI PHÁ DỮ LIỆU LỚN 1
MỞ ĐẦU 1
1 LÝ DO CHỌN ĐỀ TÀI 1
2 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2
3.1 Đối tượng nghiên cứu 2
3.2 Phạm vi nghiên cứu 3
3 MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU 3
3.1 Mục tiêu nghiên cứu 3
3.2 Nhiệm vụ nghiên cứu 3
4 PHƯƠNG PHÁP NGHIÊN CỨU 3
CHƯƠNG 1: CƠ SỞ LÝ LUẬN VỀ KHAI PHÁ DỮ LIỆU 4
1.1 KHAI PHÁ DỮ LIỆU? 4
1.2 KHAI PHÁ DỮ LIỆU LÀ GÌ? 4
1.2.1 Khái niệm 4
1.2.2 Lợi ích của khai phá dữ liệu 4
1.2.3 Quá trình khám phá tri thức 5
1.2.4 Các nhiệm vụ chính của khai phá dữ liệu 7
1.3 CÁC KỸ THUẬT KPDL 8
1.4 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU 8
Công Nghiệp 8
Du Lịch và Khách Sạn 9
Tài Chính và Ngân Hàng 9
Y Tế: 10
Trang 3Bán Lẻ 10
1.5 CÁC CÔNG CỤ THỰC HIỆN KHAI PHÁ DỮ LIỆU 11
1.6 NHỮNG THÁCH THỨC TRONG ỨNG DỤNG VÀ NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU 12
Tính Bảo Mật và Quyền Riêng Tư: 12
Xử Lý Dữ Liệu Lớn: 12
Chất Lượng Dữ Liệu: 12
Hiểu Biết và Giải Thích Kết Quả: 13
CHƯƠNG 2: LÝ THUYẾT VỀ LUẬT KẾT HỢP VỚI THUẬT TOÁN FP-GROWTH 14
2.1 TỔNG QUAN VỀ LUẬT KẾT HỢP 14
2.1.1 Cơ sở dữ liệu giao dịch 14
2.1.2 Tập phổ biến 14
2.1.3 Luật kết hợp 14
2.1.4 Quy trình khai thác luật kết hợp 16
2.1.5 Tập phổ biến cực đại 17
2.2 THUẬT TOÁN FP-Growth 19
2.2.1 Ý tưởng 19
2.2.2 Khai phá luật kết hợp với FP-Growth 19
Xây dựng cây FP-Tree: 19
Khai thác tập mục phổ biến từ FP-Tree: 20
2.2.3 Quy trình khai thác luật kết hợp 20
2.3 ỨNG DỤNG 21
Công Nghiệp 21
Trang 4Du Lịch và Khách Sạn 21
Tài Chính và Ngân Hàng 22
Y Tế: 22
Bán Lẻ 23
2.4 ƯU ĐIỂM CỦA KHAI THÁC LUẬT KẾT HỢP BẰNG PHƯƠNG PHÁP FP-GROWTH 23
Ưu điểm của FP-Growth: 23
Nhược điểm của FP-Growth 24
CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN FPT-GROWTH TRONG VIỆC TÌM RA NHỮNG MẪU PHỔ BIẾN TRONG BỘ DỮ LIỆU BÁN LẺ CỬA HÀNG ÁO QUẦN 25
3.1 PHÁT BIỂU BÀI TOÁN 25
Đặt vấn đề 25
Hướng giải quyết 25
Ý nghĩa 26
3.2 PHÂN TÍCH BÀI TOÁN 27
Mục tiêu 27
Phương pháp 27
Kết quả 28
3.3 CÁC BƯỚC THỰC HIỆN LUẬT KẾT HỢP APRIORI 28
4.3.1 Chuẩn bị dữ liệu 28
4.3.2 Tiền xử lý dữ liệu 31
Truy vấn dữ liệu để gộp các mặt hàng có chung mã đơn hàng (Order ID) 31
Xử lý dữ liệu mua hàng với mã hóa one-hot 32
Loại bỏ các mặt hàng ít xuất hiện 33
Trang 5Import dữ liệu 38
Cấu hình thuật toán FP-Growth 39
Thiết lập các thông số như 39
3.1 KẾT QUẢ VÀ ĐÁNH GIÁ 42
3.4.1 Tổng quan về dữ liệu 42
3.4.2 Đánh giá thuật toán thuật toán FP-Growth 44
Gợi ý cho cửa hàng 45
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 47
Kết luận: 47
Hướng phát triển: 47
Trang 6Khai phá dữ liệu (Data Mining) nổi lên như một giải pháp hữu hiệu, cho phép các cửa hàng phân tích dữ liệu bán hàng, tìm ra những mẫu mua sắm phổ biến, từ đó hiểu rõ hành vi khách hàng, dự đoán xu hướng và đưa ra chiến lược kinh doanh phù hợp Thuật toán FP-Growth: Công cụ đắc lực cho ngành bán lẻ áo quần Trong số các thuật toán khai phá dữ liệu, FP Growth (Frequent Pattern Growth) được đánh giá cao về khả năng tìm -kiếm các mẫu phổ biến trong tập dữ liệu lớn một cách hiệu quả Thuật toán này hoạt động dựa trên việc xây dựng cây FP-Tree, một cấu trúc dữ liệu nén lưu trữ thông tin về tần suất xuất hiện của các tập hợp sản phẩm
Ứng dụng FP Growth vào bộ dữ liệu bán lẻ cửa hàng áo quần, chúng ta có thể- Phân tích mẫu mua hàng: Xác định những sản phẩm thường được mua cùng nhau, ví dụ như áo
sơ mi và cà vạt, váy và giày cao gót Điều này giúp cửa hàng hiểu rõ sở thích của khách hàng, từ đó đưa ra gợi ý sản phẩm phù hợp, thiết kế các chương trình khuyến mãi hấp dẫn,
và bố trí sản phẩm trong cửa hàng một cách khoa học Phát hiện xu hướng: FP-Growth giúp tìm ra những mẫu quần áo đang được ưa chuộng, ví dụ như áo khoác bomber, quần jean skinny, hay váy hoa nhí Nhờ đó, cửa hàng có thể kịp thời cập nhật xu hướng, đảm bảo luôn cung cấp những sản phẩm thời thượng, thu hút khách hàng Dự đoán nhu cầu: Dựa trên các mẫu phổ biến và xu hướng thị trường, FP Growth hỗ trợ cửa hàng dự đoán -nhu cầu của khách hàng trong tương lai Điều này giúp cửa hàng lên kế hoạch nhập hàng, quản lý kho hiệu quả, tránh tình trạng tồn kho hay thiếu hàng, tối ưu hóa doanh thu và lợi nhuận
Trang 72
Lợi ích của việc ứng dụng FP Growth trong bán lẻ áo quần- là việc ứng dụng FPGrowth trong khai phá dữ liệu bán lẻ áo quần mang lại nhiều lợi ích thiết thực cho các cửa hàng Nâng cao trải nghiệm khách hàng: Hiểu rõ sở thích và nhu cầu của khách hàng giúp cửa hàng cá nhân hóa trải nghiệm mua sắm, tăng sự hài lòng và lòng trung thành của khách hàng Tăng doanh thu và lợi nhuận: Việc dự đoán nhu cầu chính xác, quản lý kho hiệu quả,
-và đưa ra các chiến lược tiếp thị phù hợp giúp cửa hàng tăng doanh thu -và tối ưu hóa lợi nhuận Cải thiện hiệu quả hoạt động: Khai phá dữ liệu hỗ trợ cửa hàng đưa ra quyết định kinh doanh dựa trên dữ liệu, thay vì dựa trên cảm tính, giúp nâng cao hiệu quả hoạt động tổng thể
Tóm lại, thuật toán FP Growth là một công cụ đắc lực cho ngành bán lẻ áo quần, giúp các cửa hàng khai thác hiệu quả kho dữ liệu bán hàng, thấu hiểu khách hàng, nắm bắt
-xu hướng, và đưa ra quyết định kinh doanh sáng suốt Ứng dụng FP Growth không chỉ mang lại lợi ích về mặt kinh tế mà còn giúp cửa hàng nâng cao vị thế cạnh tranh và phát triển bền vững trong thị trường đầy biến động Do đó, trong khuôn khổ đề tài nghiên cứu này, chúng tôi tập trung vào việc ứng dụng thuật toán FP Growth để phân tích và tìm ra-những mẫu phổ biến trong bộ dữ liệu bán lẻ cửa hàng áo quần Thay vì sử dụng bộ công
-cụ Weka như trong các nghiên cứu trước đây với Apriori, chúng tôi sẽ tận dụng các thư viện Python xử lý dữ liệu sau đó triển khai FP, -Growth trên ứng dụng Weka để tìm các tập phổ biến, cuối cùng dùng luật kết hợp để tìm ra các tập luật phổ biến
2 ĐỐ I TƯ NG VÀ PH M Ợ Ạ VI NGHIÊN C ỨU
3.1 Đố i tượng nghiên c u ứ
- Tập dữ liệu: tập dữ liệu doanh thu của cửa hàng thời trang mặt hàng quần áo Tên bộ dữ liệu “Clothing_Retail_Orders.csv”
- Công cụ sử dụng: Ứng dụng Weka phiên bản 3.8.6 Python 3.10
- Cơ sở lý thuyết: Thuật toán Apriori, thuật toán FP Growth, Luật kết hợp (Association rules)
Trang 8-3
3.2 Phạm nghiên c vi ứu
- Nghiên cứu cơ sở lý thuyết của thuật toán FP-Growth
- Những ưu điểm của FP Growth - so với thuật toán Apriori
- Cách sinh luật từ các tập phổ biến
- Xử lý dữ liệu và áp dụng thuật toán để tìm ra các tập luật phổ biến
3 M C TIÊU Ụ VÀ NHI M V NGHIÊN C U Ệ Ụ Ứ
3.1 Mục tiêu nghiên c u ứ
- Hiểu được và áp dụng được thuật toán FP-Growth vào dữ liệu ngành hàng bán lẻ áo quần
- Tìm ra insight của khách hàng khi đưa ra quyết định mua hàng
- Đề xuất các cho người chủ kinh doanh những phương án phù hợp giúp tăng doanh thu và đem lại sự hài lòng cho khách hàng
3.2 Nhi m v nghiên c u ệ ụ ứ
- Tìm tập dữ liệu phù hợp đảm bảo có thể đáp ứng được nhu cầu về chất lượng dũ liệu và
số lượng dữ liệu
- Tiền xử lý và làm sạch dữ liệu và tổ chức lại dữ liệu bằng ngôn ngữ Python
- Xây dựng dữ liệu phù hợp với thuật toán có đặc trừng cần thiết
- Triển khai dữ liệu trên ứng dụng Weka
- Đánh giá độ hiệu quả của thuật toán và các thông số liên quan đến thuật toán
- Đưa ra kết quả và từ kết quả đó đề xuất một số chiến lược hoặc quyết định kinh doanh sắp tới
4 PHƯƠNG PHÁP NGHIÊN C U Ứ
- Xây dựng các lý thuyết liên quan đến thuật toán Tìm hiểu các để triển khai dữ liệu trên ứng dụng Weka
- Tham khảo các tài liệu về xử lý dữ liệu với Python
- Đọc thêm các bài báo để tìm ra phương pháp phù hợp với FP-Growth
-Đọc và tìm hiểu về bộ dữ liệu các trường dữ liệu phân tích
Trang 9Ở tận gốc của nó, khai thác dữ liệu là một thành phần quan trọng của quá trình Khám phá tri thức trong Cơ sở dữ liệu, một phương pháp có hệ thống để trích xuất tri thức hữu ích từ dữ liệu Mặc dù khai thác dữ liệu các giai đoạn khác nhau trong khung làm việc phân tích dữ liệu rộng lớn
Khai thác dữ liệu hiệu quả phụ thuộc vào cơ sở hạ tầng thu thập, lưu trữ và xử lý dữ liệu mạnh mẽ Nó bao gồm các mục tiêu khác nhau, bao gồm phân tích mô tả, mô hình dự đoán, phát hiện bất thường và phân đoạn khách hàng Cho dù được thực hiện thủ công, tự động hoặc bán tự động, khai thác dữ liệu giúp tổ chức có cơ sở nhìn sâu vào các tài sản dữ liệu của họ và rút ra thông tin hành động
1.2.2 L i ích c a khai phá d u ợ ủ ữ liệ
Trực Quan Hóa Dữ Liệu: Trực quan hóa dữ liệu là một ứng dụng quan trọng của
khai phá dữ liệu, giúp tạo ra các biểu đồ và đồ thị để biểu diễn dữ liệu một cách trực quan Điều này tạo điều kiện cho việc hiểu và phân tích dữ liệu dễ dàng hơn đối với người dùng
Dự Đoán: Một trong những ứng dụng quan trọng của khai phá dữ liệu là việc xây
dựng các mô hình dự đoán Các mô hình này có thể dùng để tiên đoán các kết quả trong
Trang 105
tương lai, như doanh số bán hàng, hành vi của khách hàng, hoặc các sự cố kỹ thuật tiềm
ẩn
Cung Cấp Tri Thức: Khai phá dữ liệu giúp phát hiện các mẫu và mối quan hệ trong
dữ liệu mà con người không thể nhìn thấy một cách dễ dàng Việc này giúp người dùng hiểu sâu hơn về thế giới xung quanh và đưa ra các quyết định có căn cứ hơn
1.2.3 Quá trình khám phá tri th c ứ
Quá trình khám phá tri thức từ cơ sở dữ liệu (CSDL) là một quá trình phức tạp, sử dụng nhiều phương pháp và công cụ tin học, nhưng vẫn tập trung vào vai trò quan trọng của con người Nó không chỉ đơn thuần là một hệ thống phân tích tự động, mà thực tế là
một hệ thống tương tác giữa con người và CSDL, với sự hỗ trợ của công cụ tin học
Người sử dụng trong quá trình này cần có kiến thức cơ bản về lĩnh vực cần khám phá tri thức để hiểu và lựa chọn các tập con dữ liệu và mẫu phù hợp, đáp ứng được các tiêu chuẩn và yêu cầu cụ thể
Trang 116
Tri thức được rút ra từ quá trình này là những hiểu biết hữu ích, phục vụ cho việc giải quyết các nhiệm vụ cụ thể trong một lĩnh vực nhất định Quá trình khám phá tri thức thường được tập trung vào mục tiêu cụ thể, không phải để khám phá mọi tri thức có thể,
mà là để tập trung vào việc khám phá tri thức có ích cho việc giải quyết các nhiệm vụ đặc biệt
Biến Đổi, Chuyển Đổi Dữ Liệu
• Mục tiêu: Chuyển đổi dữ liệu sang định dạng phù hợp cho việc phân tích và khai phá
• Các hoạt động chính:
Chuyển Đổi Định Dạng chuyển đổi dữ liệu từ định dạng ban đầu sang định dạng mà thuật toán phân tích yêu cầu, như từ dạng văn bản sang dạng số Biến Đổi Phân Phối các biến đổi như biến đổi logarithmic hoặc square root
để cải thiện phân phối dữ liệu và đảm bảo tính chất phân phối chuẩn
Khai Phá Dữ Liệu:
• Mục tiêu: Tìm ra thông tin ẩn trong dữ liệu để đưa ra quyết định hoặc dự đoán tương lai
• Các hoạt động chính:
Phân tích Mẫu và Mối Quan Hệ sử dụng các phương pháp như phân tích cụm
và phân tích tương quan để khám phá các mẫu và mối quan hệ trong dữ liệu
Phát hiện Biểu hiện Anomalies xác định các biểu hiện bất thường hoặc không thường gặp trong dữ liệu, có thể chỉ ra các vấn đề hoặc cơ hội tiềm ẩn
Ước Lượng Mẫu:
Trang 12Biểu Diễn Tri Thức, Áp Dụng Vào Thực Tế:
• Mục tiêu: Hiểu rõ thông tin từ quá trình khai phá và áp dụng tri thức thu được vào các tình huống thực tế
Dự đoán các lớp mục tiêu dựa trên bộ dữ liệu bằng cách huấn luyện trên tập dữ liệu
có sẵn, và áp dụng để dự đoán trên những mẫu mới hoặc các dữ liệu chưa biết hay trong tương lai
Các bài toán: Hồi quy *regression, Phân lớp *classification
Trang 13Phân Cụm (Clustering): Trong bài toán phân cụm, mục tiêu là phân chia các điểm
dữ liệu thành các nhóm có tính tương đồng cao với nhau, mà không cần biết trước nhãn lớp của từng điểm dữ liệu
Nhận Dạng Mẫu (Pattern Recognition): Bài toán nhận dạng mẫu là quá trình nhận
biết và phân loại các mẫu dữ liệu vào các nhóm hoặc lớp khác nhau dựa trên các đặc trưng hoặc mẫu tương tự
1.4 Ứ NG D ỤNG C A KHAI PHÁ D Ủ Ữ LIỆ U
Công Nghi p ệ
Trong lĩnh vực công nghiệp, khai phá dữ liệu giúp cải thiện hiệu suất sản xuất, quản
lý dự trữ và dự đoán hỏng hóc thiết bị Các ứng dụng cụ thể bao gồm:
- Giám Sát và Tối Ưu Hóa Quy Trình Sản Xuất: Sử dụng khai phá dữ liệu từ cảm biến
và hệ thống tự động để giám sát quy trình sản xuất, phát hiện các vấn đề và nguy cơ sự
cố, từ đó tối ưu hóa hiệu suất và chất lượng sản phẩm
- Dự Đoán Hỏng Hóc Thiết Bị: Phân tích dữ liệu về tuổi thọ và lịch sử sử dụng của thiết
Trang 149
bị để dự đoán thời gian và nguy cơ hỏng hóc, giúp lên kế hoạch bảo trì và sửa chữa hiệu quả
- Tối Ưu Hóa Dự Trữ và Vận Hành: Sử dụng dữ liệu về nhu cầu và xu hướng thị trường
để tối ưu hóa dự trữ nguyên vật liệu và hàng hoá, cũng như tối ưu hóa quy trình vận hành nhà máy và hệ thống loại bỏ
Du L ch và Khách S ị ạn
Trong ngành du lịch và khách sạn, khai phá dữ liệu đóng vai trò quan trọng trong việc cá nhân hóa trải nghiệm du lịch, quản lý dịch vụ và tối ưu hóa quy trình kinh doanh Các ứng dụng cụ thể bao gồm:
- Cá Nhân Hóa Trải Nghiệm Du Lịch: Phân tích dữ liệu về hành vi du lịch và sở thích của khách hàng để cá nhân hóa gợi ý và dịch vụ du lịch, tạo ra trải nghiệm du lịch độc đáo và cá nhân hóa
- Dự Đoán Nhu Cầu Đặt Phòng: Sử dụng dữ liệu về đặt phòng trước đó và các yếu tố như mùa, sự kiện địa phương và giá cả để dự đoán nhu cầu đặt phòng trong tương lai, giúp tối ưu hóa giá cả và phân bổ phòng khách sạn
- Tối Ưu Hóa Quản Lý Khách Sạn: Phân tích dữ liệu từ hệ thống quản lý khách sạn
để tối ưu hóa quy trình đặt phòng, kiểm soát lượng phòng trống và quản lý dịch vụ khách hàng, tăng cường trải nghiệm khách hàng và lợi nhuận
Tài Chính và Ngân Hàng
Khai phá dữ liệu trong lĩnh vực tài chính và ngân hàng đóng vai trò quan trọng trong việc dự đoán và quản lý rủi ro, cũng như cải thiện trải nghiệm khách hàng và tối ưu hóa các dịch vụ tài chính Các ứng dụng cụ thể bao gồm:
- Dự Đoán Hành Vi Tín Dụng: Sử dụng khai phá dữ liệu để phân tích lịch sử tài chính
và hành vi giao dịch của khách hàng, từ đó dự đoán khả năng trả nợ và xác định rủi
ro tín dụng
Trang 1510
- Phát Hiện Gian Lận Tài Chính: Áp dụng khai phá dữ liệu để phân tích mẫu hành vi không bình thường trong các giao dịch tài chính, giúp phát hiện và ngăn chặn các hoạt động gian lận
- Tối Ưu Hóa Quy Trình Giao Dịch: Sử dụng dữ liệu giao dịch để tối ưu hóa quy trình giao dịch, giảm thiểu thời gian xử lý và tăng cường hiệu suất của các dịch vụ ngân hàng
Y T : ế
Khai phá dữ liệu trong lĩnh vực y tế có thể giúp cải thiện chẩn đoán, điều trị và quản
lý dữ liệu bệnh nhân, đồng thời đóng vai trò quan trọng trong nghiên cứu y học và phát triển dược phẩm Các ứng dụng cụ thể bao gồm:
- Phân Tích Dữ Liệu Bệnh Lý: Sử dụng khai phá dữ liệu để phân tích dữ liệu về lịch
sử bệnh lý của bệnh nhân, từ đó đưa ra các dự đoán về tiến triển của bệnh và lựa chọn phương pháp điều trị phù hợp
- Dự Đoán Xu Hướng Bệnh Tật: Áp dụng khai phá dữ liệu để phân tích dữ liệu từ các nguồn như bệnh viện, trung tâm y tế cộng đồng và mạng xã hội, giúp dự đoán và đánh giá xu hướng bệnh tật trong cộng đồng
- Tối Ưu Hóa Quy Trình Chăm Sóc Sức Khỏe: Sử dụng dữ liệu từ các bệnh viện và
cơ sở y tế để tối ưu hóa quy trình chẩn đoán, điều trị và theo dõi bệnh nhân, giảm thiểu thời gian chờ đợi và tăng cường chất lượng chăm sóc
Bán L ẻ
Tối Ưu Hóa Quy Trình Tồn Kho: Sử dụng khai phá dữ liệu để dự đoán nhu cầu hàng tồn kho và tối ưu hóa quy trình quản lý tồn kho, giảm thiểu lãng phí và tăng cường lợi nhuận
• Dự Đoán Nhu Cầu Của Khách Hàng: Phân tích dữ liệu từ hành vi mua sắm của khách hàng để dự đoán nhu cầu và sở thích của họ, từ đó cá nhân hóa trải nghiệm
Trang 1611
mua sắm và tăng cường doanh số bán hàng
• Tạo Chiến Lược Giá Cả Hiệu Quả: Sử dụng dữ liệu về giá cả và hoạt động bán hàng để đưa ra chiến lược giá cả phù hợp, giúp tối ưu hóa lợi nhuận và thu hút khách hàng
1.5 CÁC CÔNG C Ụ THỰ C HI N KHAI PHÁ D Ệ Ữ LIỆU
Có nhiều công cụ khai phá dữ liệu được sử dụng để thực hiện phân tích và khám phá tri thức từ dữ liệu Dưới đây là một số công cụ phổ biến:
WEKA là một công cụ mã nguồn mở rất phổ biến trong lĩnh vực khai phá dữ liệu
Nó cung cấp nhiều thuật toán khai phá dữ liệu như phân loại, gom nhóm, và khám phá quy luật Giao diện đồ họa thân thiện của WEKA giúp người dùng tạo, thực thi và đánh giá các
mô hình khai phá dữ liệu một cách dễ dàng
RapidMiner cũng là một công cụ mã nguồn mở phổ biến Nó cung cấp một môi trường trực quan cho việc xây dựng quy trình khai phá dữ liệu thông qua các công cụ kéo
và thả RapidMiner có sẵn nhiều thuật toán khai phá dữ liệu và kỹ thuật xử lý dữ liệu, đồng thời hỗ trợ trực quan hóa dữ liệu
KNIME là một công cụ mã nguồn mở dựa trên giao diện đồ họa Nó cho phép người dùng xây dựng quy trình khai phá dữ liệu bằng cách kết hợp các nút xử lý dữ liệu và phân tích KNIME hỗ trợ tích hợp với các công cụ và thư viện phổ biến khác như R và Python
Python cung cấp một loạt các thư viện mạnh mẽ như scikit-learn, pandas và NumPy
để thực hiện các tác vụ khai phá dữ liệu Python hỗ trợ trực quan hóa dữ liệu và xử lý dữ liệu bằng các thư viện như matplotlib và seaborn
SQL (Structured Query Language) không chỉ được sử dụng để truy vấn dữ liệu
từ cơ sở dữ liệu mà còn có thể được sử dụng để khai phá dữ liệu Với SQL, bạn có thể thực hiện các phân tích dữ liệu cơ bản như phân loại, gom nhóm, và tính toán thống kê
Trang 1712
Các công cụ khai phá dữ liệu này cung cấp đa dạng chức năng và thuật toán để người dùng thực hiện phân tích và khám phá tri thức từ dữ liệu một cách dễ dàng và hiệu quả Tuy nhiên, để tận dụng tối đa các công cụ này, sự am hiểu và điều chỉnh từ người sử dụng là yếu tố quan trọng Việc tích hợp kiến thức chuyên môn và kỹ năng sử dụng công
cụ sẽ giúp hiểu rõ hơn về dữ liệu và đưa ra các phân tích chính xác và có giá trị
1.6 NHỮ NG THÁCH TH C TRONG NG D NG VÀ NGHIÊN C U K Ứ Ứ Ụ Ứ Ỹ
THU T KHAI PHÁ D Ậ Ữ LIỆ U
Tính B o M t và Quy ả ậ ền Riêng Tư:
Trong lĩnh vực khai phá dữ liệu, một trong những thách thức lớn nhất là đảm bảo tính bảo mật và quyền riêng tư cho người dùng Với việc thu thập và xử lý dữ liệu cá nhân,
lo ngại về việc lộ thông tin cá nhân và vi phạm quyền riêng tư ngày càng trở nên quan trọng Đối mặt với sự phát triển nhanh chóng của công nghệ, các phương thức và công nghệ bảo mật cần phải được cập nhật và tối ưu hóa liên tục để đảm bảo an toàn cho dữ liệu
và người dùng
X Lý D ử ữ Liệ u L n: ớ
Thách thức khác đối mặt trong khai phá dữ liệu là xử lý dữ liệu lớn Sự gia tăng về lượng dữ liệu (big data) đặt ra một thách thức lớn trong việc xử lý và phân tích dữ liệu Dữ liệu lớn thường đi kèm với sự phức tạp và đa dạng, đòi hỏi các phương pháp và công nghệ
xử lý dữ liệu hiệu quả Các nhà nghiên cứu và chuyên gia phải phát triển các thuật toán và công nghệ mới để xử lý dữ liệu lớn một cách nhanh chóng và hiệu quả
Chất Lượng Dữ Liệu:
Một thách thức quan trọng khác là đảm bảo chất lượng của dữ liệu Dữ liệu thường
có tính không đồng nhất và chứa các sai sót, nhiễu và dữ liệu thiếu sót Để đảm bảo kết quả phân tích chính xác và đáng tin cậy, người sử dụng cần phải tiến hành các bước tiền xử lý
dữ liệu cẩn thận để loại bỏ các sai sót và nhiễu trong dữ liệu
Trang 1914
CHƯƠNG 2: LÝ THUYẾT VỀ LUẬT KẾT HỢP VỚI THUẬT
2.1 T ỔNG QUAN V Ề LUẬ T K T H P Ế Ợ
2.1.1 Cơ sở dữ liệu giao d ịch
Hạng mục (Item): Mặt hàng trong giỏ hàng hay một thuộc tính
Giao dịch (Transaction): là tập các hạng mục được mua trong một giỏ hàng (có TID là mã giao dịch)
Cơ sở dữ liệu giao dịch: là tập các giao dịch
Mẫu phổ biến: Là mẫu xuất hiện thường xuyên trong tập dữ liệu
2.1.2 Tập ph bi n ổ ế
Trong khai phá dữ liệu, tập mục phổ biến (frequent itemset) là tập hợp các mục (item) xuất hiện cùng nhau trong tập dữ liệu với tần suất vượt quá một ngưỡng hỗ trợ (support threshold) định trước
Nói cách khác, tập mục phổ biến thể hiện xu hướng các mục thường được mua hoặc xuất hiện cùng nhau Ví dụ, trong dữ liệu bán hàng của cửa hàng áo quần, tập mục {áo sơ
mi, cà vạt} có thể là một tập mục phổ biến nếu chúng thường được mua cùng nhau bởi khách hàng
𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝑋) = (𝑆ố 𝑔𝑖𝑎𝑜 𝑑ị𝑐ℎ 𝑐ℎứ𝑎 𝑋) / (𝑇ổ𝑛𝑔 𝑠ố 𝑔𝑖𝑎𝑜 𝑑ị𝑐ℎ)
2.1.3 Luật k t h ế ợp
Luật kết hợp (association rule) trong khai phá dữ liệu mô tả mối quan hệ giữa các tập mục phổ biến Luật kết hợp có dạng X => Y, trong đó X và Y là hai tập mục riêng biệt (X ∩ Y = Ø)
Luật kết hợp cho biết nếu một giao dịch chứa tập mục X thì có khả năng cao giao
Trang 20Lift = 1: X và Y độc lập với nhau.
Lift < 1: X có ảnh hưởng tiêu cực đến Y, nghĩa là sự xuất hiện của X làm giảm khả năng xuất hiện của Y
Độ thuyết phục đo lường mức độ tin tưởng vào luật kết hợp khi X không xuất hiện
Trang 2116
Độ thuyết phục: Conviction ({Áo sơ mi}
=> {𝐶à 𝑣ạ𝑡}) = (1 − 0.4) / (1 − 0.6667) = 1.8
Ý nghĩa của luật kết hợp:
Luật kết hợp cung cấp thông tin giá trị cho các cửa hàng áo quần:
Hiểu rõ mối quan hệ giữa các sản phẩm: Nhận biết những sản phẩm thường được mua cùng nhau, từ đó lên kế hoạch bố trí sản phẩm, thiết kế chương trình khuyến mãi, và
cá nhân hóa trải nghiệm mua sắm
Dự đoán hành vi khách hàng: Đưa ra gợi ý sản phẩm phù hợp dựa trên luật kết hợp, tăng khả năng bán hàng và doanh thu
Tối ưu hóa quản lý kho hàng: Dự báo nhu cầu sản phẩm dựa trên luật kết hợp, giúp quản lý kho hiệu quả và tránh tồn kho
2.1.4 Quy trình khai thác luật k t h p ế ợ
Khai thác luật kết hợp là một trong những nhiệm vụ quan trọng trong khai phá dữ liệu, giúp khám phá những mối liên hệ ẩn chứa giữa các mục trong tập dữ liệu Để thực hiện khai thác luật kết hợp, chúng ta thường tuân theo quy trình hai bước sau:
Bước 1: Tìm kiếm tập mục phổ biến (frequent itemset mining):
Xác định ngưỡng hỗ trợ tối thiểu (minimum support threshold): Đây là giá trị xác định mức độ phổ biến cần thiết để một tập mục được coi là phổ biến Ngưỡng hỗ trợ thường được biểu diễn dưới dạng phần trăm hoặc số lượng giao dịch tuyệt đối Lặp việc tìm tập phổ biến với kích thước từ 1 đến k (tập có kích thước k)
Bước 2: Sinh luật kết hợp (association rule generation):
Lần lượt xét từng tập mục phổ biến S tìm được từ bước 1
Trang 22So sánh độ tin cậy với ngưỡng tin cậy tối thiểu (minimum confidence threshold) nếu
độ tin cậy của luật A → (S A) lớn hơn hoặc bằng ngưỡng tin cậy tối thiểu (minconf) đã - được định trước, thì luật kết hợp này được coi là hợp lệ và được thêm vào tập luật kết hợp cuối cùng
Tạo luật kết hợp từ tập mục phổ biến: Mỗi tập mục phổ biến có thể sinh ra nhiều luật kết hợp khác nhau Ví dụ, tập mục {Áo sơ mi, Cà vạt, Quần tây} có thể sinh ra các luật: {Áo sơ mi, Cà vạt} => {Quần tây}, {Áo sơ mi, Quần tây} => {Cà vạt}, và {Cà vạt, Quần tây} => {Áo sơ mi}
Đánh giá luật kết hợp: Sử dụng các thước đo như độ tin cậy (confidence), độ nâng (lift), và độ thuyết phục (conviction) để đánh giá mức độ tin cậy và ý nghĩa của luật kết hợp
Lọc luật kết hợp: Loại bỏ các luật kết hợp không đạt ngưỡng tin cậy tối thiểu hoặc không mang ý nghĩa thực tiễn
2.1.5 Tập ph bi n c c i ổ ế ự đạ
Tập phổ biến cực đại (maximal frequent itemset) là một tập mục phổ biến mà không
có bất kỳ siêu tập (superset) nào của nó cũng là tập mục phổ biến Nói cách khác, nếu ta thêm bất kỳ mục nào vào tập phổ biến cực đại, tập hợp kết quả sẽ không còn là tập mục phổ biến nữa
Ví dụ:
Trang 23{Áo sơ mi, Cà vạt}
{Áo sơ mi, Quần tây}
Trong số các tập mục phổ biến này, chỉ có {Áo sơ mi, Cà vạt} và {Áo sơ mi, Quần tây} là tập phổ biến cực đại Bởi vì:
- {Áo sơ mi, Cà vạt}: Nếu thêm bất kỳ mục nào (ví dụ, {Quần tây}) vào tập này, tập hợp kết quả {Áo sơ mi, Cà vạt, Quần tây} sẽ không còn là tập mục phổ biến (giả sử
độ hỗ trợ của nó nhỏ hơn 40%)
- {Áo sơ mi, Quần tây}: Tương tự, thêm bất kỳ mục nào vào tập này sẽ khiến nó không còn là tập mục phổ biến
Ý nghĩa của tập phổ biến cực đại:
- Tập phổ biến cực đại cung cấp thông tin quan trọng trong khai phá dữ liệu:
- Giảm thiểu số lượng luật kết hợp: Bằng cách tập trung vào tập phổ biến cực đại, chúng ta có thể giảm đáng kể số lượng luật kết hợp cần xét, giúp quá trình khai thác hiệu quả hơn
- Xác định các mẫu phổ biến quan trọng nhất: Tập phổ biến cực đại thường đại diện cho những mẫu phổ biến có ý nghĩa nhất trong tập dữ liệu, cung cấp cái nhìn sâu sắc về hành vi khách hàng và mối quan hệ giữa các sản phẩm
Trang 2419
Lưu ý:
Không phải tất cả các thuật toán khai phá luật kết hợp đều tìm kiếm tập phổ biến cực đại Apriori thường tìm kiếm tất cả các tập mục phổ biến, trong khi FP Growth có thể -được sử dụng để tìm kiếm tập phổ biến cực đại một cách hiệu quả
Việc xác định ngưỡng hỗ trợ phù hợp là rất quan trọng Ngưỡng hỗ trợ quá cao có thể dẫn đến bỏ sót các tập mục phổ biến quan trọng, trong khi ngưỡng hỗ trợ quá thấp có thể tạo ra quá nhiều luật kết hợp không có ý nghĩa
2.2 THU T TOÁN Ậ FP -Growth
2.2.1 Ý tưởng
Ý tưởng của thuật toán FP-Growth
Thuật toán FP Growth (Frequent Pattern Growth) là một phương pháp hiệu quả để tìm kiếm tập mục phổ biến (frequent item sets) trong khai phá dữ liệu Khác với thuật toán Apriori sử dụng cách tiếp cận "từ dưới lên" (bottom-up), FP-Growth áp dụng cách tiếp cận
-"từ trên xuống" (top down) và tận dụng cấu trúc dữ liệu cây FP Tree để nén dữ liệu và tăng - tốc độ xử lý
-2.2.2 Khai phá luậ ế ợt k t h p v i ớ FP-Growth
Xây d ng cây FP-Tree: ự
Quét dữ liệu lần 1: Đếm tần suất xuất hiện của từng mục riêng lẻ trong tập dữ liệu
Loại bỏ các mục không đạt ngưỡng hỗ trợ tối thiểu (minimum support threshold) Sắp xếp các mục theo tần suất giảm dần: Các mục xuất hiện thường xuyên hơn sẽ được ưu tiên
Quét dữ liệu lần 2:
Đối với mỗi giao dịch, sắp xếp các mục theo thứ tự tần suất đã xác định ở bước trước Duyệt cây FP Tree từ gốc Nếu mục đầu tiên của giao dịch trùng với một nhánh của -cây, tăng giá trị đếm của nhánh đó Nếu không, tạo nhánh mới cho mục đó Lặp lại quá
Trang 2520
trình cho các mục còn lại trong giao dịch, tạo thành đường dẫn (path) trong cây FP-Tree
Khai thác tập m c ph ụ ổ biến t ừ FP -Tree:
Bắt đầu từ mục có tần suất thấp nhất trong cây FP Tree Xác định tiền tố đường dẫn (prefix path): Đây là tập hợp các nút từ gốc đến nút cha của mục hiện tại Tạo cây FP-Tree điều kiện (conditional FP Tree): Đây là cây FP Tree mới được xây dựng từ tiền tố đường - -dẫn, chỉ bao gồm các nút có cùng hậu tố (suffix) với mục hiện tại
-Khai thác đệ quy các tập mục phổ biến từ cây FP Tree điều kiện Lặp lại quá trình cho các mục khác trong cây FP-Tree
-2.2.3 Quy trình khai thác luật k t h p ế ợ
Bước 1: Tìm kiếm tập mục phổ biến (frequent itemset mining):
Xác định ngưỡng hỗ trợ tối thiểu (minimum support threshold): Đây là giá trị xác định mức độ phổ biến cần thiết để một tập mục được coi là phổ biến Ngưỡng hỗ trợ thường được biểu diễn dưới dạng phần trăm hoặc số lượng giao dịch tuyệt đối Lặp việc tìm tập phổ biến với kích thước từ 1 đến k (tập có kích thước k)
Bước 2: Sinh luật kết hợp (association rule generation):
Lần lượt xét từng tập mục phổ biến S tìm được từ bước 1 Với mỗi tập mục phổ biến
S, ta tạo ra tất cả các tập con khác rỗng (non empty subsets) của S
-Với mỗi tập con A khác rỗng của S, ta xem xét luật kết hợp có dạng A → (S - A)
Tính toán độ tin cậy của luật A → (S - A) theo công thức:
𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(𝐴 → (𝑆 − 𝐴)) = 𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝑆) / 𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝐴)
So sánh độ tin c y vậ ới ngưỡng tin c y t i thi u (minimum confidence threshold) nậ ố ể ếu
độ tin cậy c a luật 𝐴 → (𝑆 − 𝐴) lớn hơn hoặc bằng ngưỡng tin cậy tối thiểu (minconf) ủ
đã được định trước, thì luật kết hợp này được coi là hợp lệ và được thêm vào tập luật kết
Trang 2621
hợp cuối cùng
2.3 ỨNG DỤNG
Công Nghi p ệ
Trong lĩnh vực công nghiệp, khai phá dữ liệu giúp cải thiện hiệu suất sản xuất, quản
lý dự trữ và dự đoán hỏng hóc thiết bị Các ứng dụng cụ thể bao gồm:
- Giám Sát và Tối Ưu Hóa Quy Trình Sản Xuất: Sử dụng khai phá dữ liệu từ cảm biến
và hệ thống tự động để giám sát quy trình sản xuất, phát hiện các vấn đề và nguy cơ sự
cố, từ đó tối ưu hóa hiệu suất và chất lượng sản phẩm
- Dự Đoán Hỏng Hóc Thiết Bị: Phân tích dữ liệu về tuổi thọ và lịch sử sử dụng của thiết
bị để dự đoán thời gian và nguy cơ hỏng hóc, giúp lên kế hoạch bảo trì và sửa chữa hiệu quả
- Tối Ưu Hóa Dự Trữ và Vận Hành: Sử dụng dữ liệu về nhu cầu và xu hướng thị trường
để tối ưu hóa dự trữ nguyên vật liệu và hàng hoá, cũng như tối ưu hóa quy trình vận hành nhà máy và hệ thống loại bỏ
Du L ch và Khách S ị ạn
Trong ngành du lịch và khách sạn, khai phá dữ liệu đóng vai trò quan trọng trong việc cá nhân hóa trải nghiệm du lịch, quản lý dịch vụ và tối ưu hóa quy trình kinh doanh Các ứng dụng cụ thể bao gồm:
- Cá Nhân Hóa Trải Nghiệm Du Lịch: Phân tích dữ liệu về hành vi du lịch và sở thích của khách hàng để cá nhân hóa gợi ý và dịch vụ du lịch, tạo ra trải nghiệm du lịch độc đáo và cá nhân hóa
- Dự Đoán Nhu Cầu Đặt Phòng: Sử dụng dữ liệu về đặt phòng trước đó và các yếu tố như mùa, sự kiện địa phương và giá cả để dự đoán nhu cầu đặt phòng trong tương lai, giúp tối ưu hóa giá cả và phân bổ phòng khách sạn