TRƯỜNG ĐẠI HỌC MỎ ĐỊA CHẤT KHOA CÔNG NGHỆ THÔNG TIN HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI TÌM HIỂU VỀ RAPIDMINER VÀ THUẬT TOÁN KMEANS ÁP DỤNG TRÊN DỮ LIỆU THỰC TẾ BÁO CÁO BÀI TẬP LỚN GIÁO VIÊN HƯỚNG DẪN NG[.]
TRƯỜNG ĐẠI HỌC MỎ - ĐỊA CHẤT KHOA CÔNG NGHỆ THÔNG TIN HỌC PHẦN : KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TÌM HIỂU VỀ RAPIDMINER VÀ THUẬT TỐN KMEANS ÁP DỤNG TRÊN DỮ LIỆU THỰC TẾ BÁO CÁO BÀI TẬP LỚN GIÁO VIÊN HƯỚNG DẪN: NGUYỄN THỊ PHƯƠNG BẮC NHÓM SINH VIÊN THỰC HIỆN: Nguyễn Tiến Đạt - 1821050193 Đỗ Thị Hương - 1821050186 Nguyễn Thị Thanh Thanh Nhàn - 1821050676 Bùi Thị Phương Thảo Nhóm 20 - 1821050110 i Mục lục Phần I: Mở đầu .1 Lý chọn đề tài Mục tiêu nghiên cứu .2 Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết cấu đề tài Phần II: Nội Dung I: Tổng quan khám phá tri thức khai phá liệu 1.1 Khám phá tri thức tri thức 1.1.1 Khái niệm 1.1.2 Vai trò khám phá tri thức .5 1.1.3 Tiến trình khai phá tri thức 1.2 Khai phá liệu 1.2.1 Khái niệm 1.2.2 Các phương pháp khai phá liệu 1.2.3 Một số khó khăn thách thức khai phá liệu .10 1.2.4 Quá trình khai phá liệu 10 1.2.5 Những ứng dụng khai phá liệu 12 Chương II: Khai phá liệu với thuật toán phân cụm 13 2.1 Phân cụm liệu .13 2.1.1 Khái niệm 13 2.1.2 Các yêu cầu thuật toán phân cụm liệu 13 2.1.3 Ý nghĩa thực tiễn phân cụm 14 2.1.4 Thuật toán K-means phân cụm liệu 14 III: Ứng dụng phần mềm khai phá liệu Rapidminer vào quản lý khách hàng mua hàng Cơng ty TNHH Máy Tính Phong Vũ .19 3.1 Tổng quan Công ty .19 3.1.1 Giới thiệu 19 3.1.2 Cơ cấu tổ chức 20 3.1.3 Định hướng phát triển 20 3.2 Phần mềm khai phá liệu Rapid miner 21 3.2.1 Giới thiệu chung .21 3.2.2 Giới thiệu giao diện 21 Nhóm 20 ii 3.2.4 Phân cụm với Rapid Miner .21 3.3 Ứng dụng phân cụm liệuvào quản lý khách hàng mua hàng .24 3.3.1 Xác định nội dung cần khai phá 24 3.3.2 Lựa chọn liệu 24 3.3.3 Tiền xử lý liệu toán 24 3.3.5 Khai phá liệu thuật toán K-mean 32 3.4 Một số giải pháp đưa việc quản lý khách hàng mua hàng 34 Phần III: Kết Luận 36 3.1 Kết Luận 36 3.1.1 Kết đạt 36 3.1.2 Hạn chế đề tài 36 3.2 Hướng phát triển đề tài 36 Tài liệu tham khảo 37 Nhóm 20 iii Các từ viết tắt báo cáo Từ viết tắt Ý nghĩa CSDL Cơ sở liệu DL Dữ liệu KPDL Khai phá liệu TNHH Trách nhiệm hữu hạn Các kí hiệu sử dụng Các kí hiệu Tập rỗng Bị chứa Thuộc Không thuộc ≤ Nhỏ ≥ ≠ Nhóm 20 Ý nghĩa Lớn Khác Phép lấy hợp tập hợp Phép lấy giao tập hợp iv Danh mục hình vẽ Hình 1.1: Các bước trình khai phá tri thức Hình 1.2: Các bước trình khai phá liệu 11 (Hình 2.1: Các bước thuật toán K-mean) .19 Hình 2.2: Khởi tạo trọng tâm .20 Hình 2.3: Cập nhật vị trí trọng tâm 21 Hình 2.4: Lặp lại bước 3, Cập nhật trọng tâm 21 Hình 2.5: Kết sau phân cụm 22 Hình 3.1: Logo cơng ty 23 Hình 3.2: Cơ cấu tổ chức công ty 24 Hình 3.3: Giao diện tổng quan RapidMiner 25 Hình 3.4: Bổ sung WEKA cho RapidMiner 26 Hình 3.5: Tìm kiếm W-Apriori 26 Hình 3.6: Các tham số W-Apriori .26 Hình 3.7: Thực Phân Cụm với K-Means 27 Hình 3.8: Lựa chọn tham số cho K-Means 28 Hình 3.9: Kết chạy K-Means tìm .28 Hình 3.10: Tạo nơi lưu trữ liệu .30 Hình 3.11: Chọn nơi lưu trữ liệu 30 Hình 3.12: Biểu tượng để đưa liệu vào 31 Hình 3.13: Chọn file cần đưa vào 31 Hình 3.14: Thiết lập cột cho thuộc tính .31 Hình 3.15: Chú thích thuộc tính 32 Hình 3.16: Xác định loại liệu thuộc tính 32 Hình 3.17: Lưu tên cho kho liệu 33 Hình 3.18: Cơ sở liệu khách hàng 33 Hình 3.19: Đưa liệu khách hàng vào chương trình 34 Hình 3.20: Thực câu lệnh if để chia miền giá trị cho Giá thành Số lượng .34 Hình 3.21: Kết liệu sau thực chia miền liệu 34 Hình 3.22: Kết sau thay đổi liệu .35 Hình 3.23: Thay thuộc tính đánh giá khách hàng 35 Nhóm 20 v Hình 3.24: Thay thuộc tính phân loại số lượng 36 Hình 3.25: Lựa chọn thuộc tính cần mơ hình .36 Hình 3.26: Dữ liệu tiền xử lý .37 Hình 3.27: Chạy Filter Example 42 Hình 3.28: Kết cụm 42 Hình 3.29: Kết cụm 43 Hình 3.30: Kết cụm 43 Danh mục bảng biểu Bảng 1: Các đối tượng để phân cụm 20 Nhóm 20 vi Tóm tắt nội dung nghiên cứu Trong tình hình nay, thơng tin trở thành yếu tố định kinh doanh vấn đề tìm thơng tin hữu ích sở liệu khổng lồ ngày trở thành mục tiêu quan trọng công ty Khai phá liệu dần trở thành cơng cụ để thực thi nhiệm vụ đó, từ sở liệu sẵn có phải tìm thơng tin tiềm ẩn cách nhanh chóng có giá trị Cơng ty TNHH Máy tính Phong Vũ chuyên cung cấp loại mặt hàng điện tử nhằm phục vụ nhu cầu cho khách hàng thị trường, muốn lưu trữ khai thác thông tin hữu ích từ CSDL khách hàng để cơng ty hiểu khách hàng nhằm có sách chăm sóc khách hàng Từ lý đó, đề tài: “Sử dụng phần mềm Rapidminer nhằm phân loại khách hàng quản lý khách hàng mua hàng công ty TNHH Máy Tính Phong Vũ” chọn triển khai thực Chuyên đề trình bày kiến thức lý thuyết khai phá liệu, lý thuyết luật kết hợp; thuật toán Apriori khai phá luật kết hợp lý thuyết phân cụm liệu; Thuật toán K-means phân cụm liệu Chuyên đề lấy thông tin khách hàng Cơng ty TNHH Máy tình Phong Vũ để giải toán Sử dụng phần mềm khai phá liệu RipidMiner để tiền xử lý liệu khách hàng vận dụng thuật toán Apriori, thuật toán K-means nhằm đưa mối liên hệ giá trị liệu Qua kết thu từ luật kết hợp phân cụm liệu, rút số nhận xét chung thơng tin thu Từ đưa số giải pháp hỗ trợ chăm sóc khách hàng cơng ty Nhóm 20 vii Phần I: Mở đầu Lý chọn đề tài Ngày nay, xã hội ngày phát triển lượng thơng tin tăng lên với tốc độ bùng nổ Lượng liệu khổng lồ nguồn tài nguyên vô giá biết cách phát khai thác thơng tin hữu ích có Như vấn đề đặt với liệu việc lưu trữ khai thác chúng Các phương pháp khai thác liệu truyền thống ngày không đáp ứng nhu cầu thực tế Một khuynh hướng kĩ thuật kĩ thuật khai phá liệu khám phá trí thức Cơng nghệ khai phá liệu đời cho phép ta khai thác tri thức hữu dụng việc trích xuất thơng tin có mối quan hệ mối tương quan định từ kho liệu lớn mà bình thường khơng thể nhận diện từ giải tốn tìm kiếm, phân loại, dự báo xu thế, hành vi tương lai tính thơng minh khác Ngày nay, công nghệ khai thác liệu ứng dụng rộng rãi hầu hết lĩnh vực: truyền thông, y học, phân tích liệu… Đặc biệt lĩnh vực kinh doanh, việc ứng dụng công nghệ khai phá liệu vào việc quản lý yếu tố quan trọng góp phần vào việc thành cơng cơng ty Trong q trình hoạt động kinh doanh, liệu công ty phát sinh ngày nhiều Để tận dụng nguồn liệu sử dụng cho mục đích kinh doanh cơng ty địi hỏi phải phát triển khai phá liệu để thống kê, báo cáo, hổ trợ định hay phân tích số liệu nhằm phân loại, chăm sóc khách hàng… Khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích đồng thời có ưu hẵn so với cơng cụ phân tích truyền thống Với lượng khách hàng đã, đến với cửa hàng Phong Vũ có sách loại khách hàng khác Để phân loại khách hàng áp dụng sách phù hợp với loại khác hàng đó, cửa hàng cần sử dụng phần mềm phân tích , thống kê, lưu trữ loại khách hàng Từ phân tích trên, tơi lựa chọn đề tài : “Sử dụng phần mềm Rapidminer nhằm phân loại khách hàng quản lý khách hàng mua hàng Cơng ty TNHH Máy Tính Phong Vũ” nhằm góp phần hổ trợ cửa hàng quản lý tốt khâu quản lý khách hàng mua hàng, góp phần nhỏ trình phát triển cửa hàng Nhóm 20 viii Mục tiêu nghiên cứu - Mục tiêu tổng quát: Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng truyền thống…) tới mua hàng Cơng ty TNHH Máy Tính Phong Vũ Hiều nhu cầu hành vi mua hàng nhóm khách hàng giúp cơng ty có chiến lược kinh doanh, sách giải pháp nâng cao hiệu chăm sóc nhóm khách hàng - Mục tiêu cụ thể: + Vận dụng phần mềm khai phá kiệu Rapid Miner cho Cơng ty TNHH Máy Tính Phong Vũ + Nghiên cứu thêm phần mềm khai phá liệu Rapidminer, kĩ thuật khai phá như: phân cụm, kết hợp Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: - Lý thuyết khai phá liệu - Phần mềm Rapid Miner - Thuật toán phân cụm, kết hợp - Thông tin khách hàng Cơng ty TNHH Máy Tính Phong Vũ Phạm vi nghiên cứu: - Về nội dung: Sử dụng phần mềm Rapidminer quản lý khách hàng mua hàng Công ty TNHH Máy tính Phong Vũ Phương pháp nghiên cứu Đề tài sử dụng phương pháp nghiên cứu : - Phương pháp nghiên cứu lý luận: thu thập, đọc hiểu, phân tích liệu, thơng tin từ tài liệu, giáo trình, tạp chí, báo cáo khoa học,…liên quan đến khai phá liệu, kỹ thuật khai phá liệu - Phương pháp thu thập số liệu: sử dụng số liệu thứ cấp (từ phòng ban Cơng ty TNHH Máy tínhThừa Thiên Huế) - Phương pháp phân tích số liệu: vận dụng luật kết hợp kỹ thuật phân cụm phần mềm KPDL RapidMiner, CSDL bao gồm thơng tin khách hàng, doanh thu bán hàng Nhóm 20 ix Kết cấu đề tài Ngoài phần mở đầu phần kết luận, nội dung khóa luận bao gồm chương tổ chức sau: Chương I: Tổng quan khám phá tri thức khai phá liệu Chương II: Khai phá liệu với thuật kết hợp phân cụm Chương III: Ứng dụng phần mềm khai phá liệu Rapidminer vào quản lý khách hàng mua hàng cửa hàng điện máy Phong Vũ Nhóm 20 x ... Các phương pháp khai thác liệu truyền thống ngày không ? ?áp ứng nhu cầu thực tế Một khuynh hướng kĩ thuật kĩ thuật khai phá liệu khám phá trí thức Cơng nghệ khai phá liệu đời cho phép ta khai thác... thập, đọc hiểu, phân tích liệu, thơng tin từ tài liệu, giáo trình, tạp chí, báo cáo khoa học,…liên quan đến khai phá liệu, kỹ thuật khai phá liệu - Phương pháp thu thập số liệu: sử dụng số liệu thứ... liệu nhằm phát mẫu thích hợp và/ hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hóa kết tìm cách áp dụng mẫu phát cho tập liệu? ?? Nhóm 20 xv 1.2.2 Các phương pháp khai phá liệu Khai phá liệu