Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
2,71 MB
Nội dung
BỘ TÀI CHÍNH TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC KHAI PHÁ DỮ LIỆU Đề tài: ỨNG DỤNG JMP TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG DỊCH VỤ SỬA NHÀ Ở MELBOURNE (ÚC) Giảng viên hướng dẫn: ThS Nguyễn Thị Trần Lộc Danh sách nhóm sinh viên thực hiện: Nguyễn Trần Tuyết Nhi– MSSV: 1921006780 - Mã lớp HP: 2111112005903 Ngô Thị Kim Oanh – MSSV: 1921006796 - Mã lớp HP: 2111112005903 TP HCM, THÁNG NĂM 2021 BỘ TÀI CHÍNH TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC KHAI PHÁ DỮ LIỆU Đề tài: ỨNG DỤNG JMP TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG DỊCH VỤ SỬA NHÀ Ở MELBOURNE (ÚC) Giảng viên hướng dẫn: ThS Nguyễn Thị Trần Lộc Danh sách nhóm sinh viên thực hiện: Nguyễn Trần Tuyết Nhi– MSSV: 1921006780 - Mã lớp HP: 2111112005903 Ngô Thị Kim Oanh – MSSV: 1921006796 - Mã lớp HP: 2111112005903 TP HCM, THÁNG NĂM 2021 NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN - Điểm số: - Điểm chữ: Hồ Chí Minh, ngày ……tháng … năm 20… Giảng viên (Ký ghi rõ họ tên) Nguyễn Thị Trần Lộc NHẬN XÉT ĐÁNH GIÁ CỦA GIẢNG VIÊN - Điểm số: - Điểm chữ: Hồ Chí Minh, ngày ……tháng … năm 20… Giảng viên (Ký ghi rõ họ tên) Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) TRÍCH YẾU Khai phá liệu (data mining) q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu lĩnh vực liên ngành khoa học máy tính Mục tiêu tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp Khai thác liệu bước phân tích q trình "khám phá kiến thức sở liệu" Nhằm nghiên cứu nhu cầu sử dụng dịch vụ sửa nhà khách hàng, nhóm chúng em tìm liệu thơ nhà Melbourne (Úc) qua trình tiền xử lý liệu để có liệu hồn chỉnh gồm 15 thuộc tính 2500 khảo sát Phân tích, khai phá liệu điều cần thiết thực quan trọng thời đại kỷ nguyên số Điều giúp đưa định đắn, dự đoán trước định tương lai Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) MỤC LỤC TRÍCH YẾU I MỤC LỤC II LỜI CẢM ƠN IV DANH MỤC TỪ VIẾT TẮT V DANH MỤC THUẬT NGỮ ANH – VIỆT DANH MỤC CÁC HÌNH ẢNH VI VIII DANH MỤC CÁC BẢNG BIỂU IX DẪN NHẬP 1.1 Mục tiêu đồ án 1.2 Phân công công việc 1.3 Kế hoạch thực đồ án CHƯƠNG 1: TỔNG QUAN 1.1 Lý hình thành đồ án 1.2 Mục tiêu đồ án 1.3 Dự kiến kết đạt CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu khai phá liệu 2.1.1 Khái niệm 2.1.2 Vai trò khai phá liệu kinh doanh 2.1.3 Quy trình khai phá liệu 2.2 Kho liệu 2.2.1 Kiến trúc luồng liệu 2.2.2 Kho liệu khai phá liệu BI 2.3 Các phương pháp khai phá liệu 2.3.1 Phương pháp phân lớp 6 2.3.2 Phương pháp gom cụm 2.3.3 Phương pháp luật kết hợp 13 2.4 Giới thiệu phần mềm sử dụng (JMP pro) 2.4.1 Tổng quan phần mềm JMP 13 14 2.4.1.1 Ưu điểm 14 2.4.2 Cách sử dụng phần mềm 15 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) 2.4.2.1 Giới thiệu giao diện- Cài đặt 15 2.4.2.2 Cách thức tiến hành thuật toán 20 CHƯƠNG 3: ỨNG DỤNG PHẦN MỀM JMP 32 3.1 Cây định 34 3.2 Gom cụm: 35 3.3 Kết hợp: 37 CHƯƠNG 4: KẾT LUẬN 42 4.1 Những kết đạt đồ án 42 4.2 Những hạn chế đồ án: 42 TÀI LIỆU THAM KHẢO 43 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) LỜI CẢM ƠN Để hoàn thành báo cáo đồ án mơn học Phân tích thiết kế hệ thống thông tin chúng em xin tỏ lịng cám ơn sâu sắc đến giảng viên mơn _ cô Nguyễn Thị Trần Lộc đồng hành chúng em xuyên suốt môn học Nhờ kiến thức bổ ích mà truyền đạt giúp ích nhiều q trình hồn thiện báo cáo đồ án mơn học Khai phá liệu nhóm chúng em Với giảng dạy tận tụy, truyền đầy cảm hứng, chu buổi học cô giúp nhóm em có thêm nhiều kiến thức bổ ích Một lần em xin gửi lời cảm ơn chân thành đến cô Nguyễn Thị Trần Lộc tạo điều kiện học tập cho chúng em Kính chúc q thầy dồi sức khỏe thành công đường nghiệp cao quý TP.HCM, Tháng Năm 2021 Sinh viên thực Ngô Thị Kim Oanh Nguyễn Trần Tuyết Nhi Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa SV Sinh viên DM Data mining KT Kiểm tra BI Business Intelligence AI Artificial intelligence Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) DANH MỤC THUẬT NGỮ ANH – VIỆT STT Từ tiếng Anh Ý nghĩa Data mining Khai phá liệu BI Trí tuệ doanh nghiệp AI Trí tuệ nhân tạo Knowledge Discovery in Khám phá kiến thức sở Databases liệu DDS Kho liệu chiều NDS Kho liệu chuẩn hóa ODS Kho liệu hoạt động ETL Hệ thống rút trích, chuyển đổi tải Feature Đặc trưng 10 Suburb tiểu bang 11 address địa 12 rooms tổng số phòng 13 type loại nhà 14 price giá Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Để mở hình gom cụm nhấn vào tam giác màu đỏ kế bên K Means Ncluster =3 🡺chọn Biplot Kết chạy hồn chỉnh gồm bảng số liệu hình gom cụm Hình 20 Kết chạy gom cụm ● Cách thức tiến hành chạy luật kết hợp Để chạy luật kết hợp chọn Analyze công cụ-> screening-> Association Analysis 30 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Hình 21 Cách thực phương pháp luật kết hợp 31 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Sau phần mềm giao diện chọn thuộc tính Bên trái cột liệu -Item nơi để dịch vụ mà khách hàng sử dụng -ID nơi để ID khách hàng Chọn OK để chạy luật kết hợp Hình 22 Giao diện chọn thuộc tính chạy luật kết hợp 32 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) CHƯƠNG 3: ỨNG DỤNG PHẦN MỀM JMP Bộ liệu sử dụng STT Tên liệu Housing_data_car Tên tiếng Việt Dữ liệu nhà mua xe Các thuộc tính Suburb (tiểu bang), address (địa chỉ), rooms (tổng số phòng), type (loại nhà), price (giá), method (phương thức toán), sellerG (người bán), date (ngày), distance (khoảng cách), postcode (mã bưu điện), bedroom (số phòng ngủ), bathroom (phòng ngủ), car (số lượng xe), landsize (chỗ đậu xe), building area (khu vực xây dựng), year built (năm xây dựng), council area (vùng hành chính), latitude (vĩ độ), longtitude (kinh độ), region name (tên vùng), property count (tài sản) Sau tiền xử lý liệu có 19 cột sau: STT Tên Thuộc Tính Ý Nghĩa 33 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Suburb Tiểu bang Address Địa nhà Rooms Tổng số phòng Type Kiểu nhà Price Giá nhà Method Phương thức toán Bedroom Số phòng ngủ Bathroom Số phòng tắm SellerG Người bán 10 Year Năm mua nhà 11 YearBuilt Năm xây dựng 12 CouncilArea Vùng hành 13 Classify Phân loại giá nhà 14 Decision_car Quyết định mua xe 15 Income Thu nhập 34 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) 16 Service Tên dịch vụ sử dụng 17 ID Mã khách hàng 18 Child Số 19 Asset Tài sản 3.1 Cây định Bài toán: định mua xe khách hàng dựa yếu tố: child, income, asset Cây định đưa định yes, no( sử dụng dịch vụ, không sử dụng dịch vụ) dựa thuộc tính: ▪ Con (child): 0, 1, ▪ Thu nhập( income): thấp(low), trung bình(average), cao(high) ▪ Tài sản(asset): nợ(debt), khơng tài sản( no property), có khoản tiết kiệm(savings) 35 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Hình Cây định Hình Nhánh cắt định mua xe 🡺 Kết luận: Theo mơ hình định cho thấy: Khách hàng mua xe có con, thu nhập cao có khoản tiết kiệm 3.2 Gom cụm: Bài toán: doanh nghiệp muốn biết thuộc tính giống rooms, price, bathroom 36 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Gom cụm với yếu tố: ▪ Price ▪ Rooms ▪ Bathroom Sau chạy gom cụm sau: Hình 3 Biểu đồ thuật toán gom cụm 37 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Trong đó: ▪ Cụm 1: có 275 quan sát ▪ Cụm 2: có 1386 quan sát ▪ Cụm 3: có 838 quan sát ▪ Step: số lần thực 14 Criterion:tiêu chuẩn ▪ Cluster 1: rooms ▪ Cluster 2: price ▪ Cluster 3: bathroom Hình Ý nghĩa cụm ▪ Khoảng cách từ Price đến trọng tâm Rooms: 2434724.32 ▪ Khoảng cách từ Bathroom đến trọng tâm Rooms: 2.81818182 ▪ Khoảng cách từ Rooms đến trọng tâm Price: 3.33116883 ▪ Khoảng cách từ Bathroom đến trọng tâm Price: 0.9963925 ▪ Khoảng cách từ Rooms đến trọng tâm Bathroom: 5.26610979 ▪ Khoảng cách từ Price đến trọng tâm Bathroom: 2.01909308 🡺Kết luận: thuật toán gom cụm có giống nhau, giống giá, số phòng, số phòng tắm 3.3 Kết hợp: 38 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Bài tốn: Dùng thuộc tính ID, Service mã khách hàng tên dịch vụ xem khách hàng sử dụng dịch vụ để biết dịch vụ ưa chuộng dịch vụ mà khách hàng hay dùng kết hợp Thuộc tính sử dụng: ▪ ID: mã khách hàng ▪ Service: tên dịch vụ sử dụng Sau thực thao tác kết hợp cho kết phân tích hình sau: Hình Kết chạy luật kết hợp -Item Set: dịch vụ sử dụng -Support: độ hỗ trợ - N Ttems: số dịch vụ sử dụng VD: ▪ {repair} có độ hỗ trợ 47% dạng dịch vụ đơn lẻ 39 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) ▪ {p_glasses, paint} có độ hỗ trợ 44% dạng sử dụng kết hợp dịch vụ ▪ {cleaning, paint, repair} có độ hỗ trợ 40% dạng sử dụng kết hợp dịch vụ ▪ {cleaning, p_glasses, paint, repair} có độ hỗ trợ 40%, dạng sử dụng kết hợp dịch vụ Hình Kết chạy luật kết hợp(tt) 40 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Hình Kết chạy(tt) Trong đó: ▪ Rule: luật kết hợp ▪ Condition: cột sử dụng dịch vụ lần ▪ Consequent: cột sử dụng dịch vụ kèm theo ▪ Confidence: độ tin cậy VD: ▪ {paint} sử dụng kết hợp{p_glasses} với độ tin cậy 96% ▪ {p_glasses, repair} sử dụng kết hợp{paint} với độ tin cậy 97% 41 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) Hình Dạng đơn lẻ dạng kết hợp vector Hình Các vector 42 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) CHƯƠNG 4: KẾT LUẬN 4.1 Những kết đạt đồ án Một số kết đạt đồ án môn học Khai Phá Dữ Liệu với đề tài “Ứng dụng JMP Pro khai phá sử dụng dịch vụ sửa nhà Úc” tổng hợp sau: ▪ Tạo liệu chạy thuật toán ▪ Chạy thuật toán định, gom cụm, luật kết phục vụ phân tích liệu ▪ Phân tích thuật toán học ▪ Xử lý liệu từ liệu gốc 4.2 Những hạn chế đồ án: ▪ Một số thuật ngữ nhóm phân tích cịn chưa xác ▪ Phân tích đánh giá định chưa chuyên nghiệp ▪ Thời gian tiếp xúc phần mềm có hạn nên khơng có nhiều hiểu biết sâu sắc 43 Ứng dụng JMP khai phá liệu sử dụng dịch vụ sửa nhà Melbourne (Úc) TÀI LIỆU THAM KHẢO [1]Nguyễn Thị Trần Lộc (2019), Bài giảng Khai phá liệu, Khoa Công Nghệ Thông Tin – Trường Đại Học Tài Chính – Marketing [2]https://bienuit.wordpress.com/2013/09/07/quy-trinh-khai-pha-du-lieu-process-ofdata-mining/ [3]https://www.jmp.com/support/help/en/16.1/index.shtml#page/jmp/launch-theassociation-analysis-platform.shtml/ [4]https://www.jmp.com/en_us/learning-library/topics/data-mining-and-predictivemodeling/association-analysis.html/ 44