Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
2,82 MB
Nội dung
lOMoARcPSD|18034504 ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA TÀI CHÍNH TIỂU LUẬN CUỐI KÌ BỘ MƠN KHOA HỌC DỮ LIỆU Giáo viên hướng dẫn: Trương Việt Phương Nhóm sinh viên: Slễn Phương Khanh Nguyễn Lã Nhật Quỳnh Bùi Hồng Ngọc Hà Hải Yến Lớp: FNC05 – Tài CLC TV K47 Lớp học phần: 22C1INF50905934 TP Hồ Chí Minh, ngày 21 tháng 12 năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC DANH SÁCH THÀNH VIÊN VÀ PHÂN CÔNG CÔNG VIỆC CHƯƠNG TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU 1.1 Giới thiệu khoa học liệu 1.2 Ứng dụng khoa học liệu 1.2.1 Ứng dụng 1.2.2 Quy trình khai thác liệu 1.3 Giới thiệu phần mềm Orange 1.4 Mục tiêu tiểu luận CHƯƠNG TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Phân cụm liệu 2.1.1 Định nghĩa 2.1.2 Phân cụm phân cấp (Hierarchical clustering) 2.1.3 Phân cụm phân hoạch (Partitioning clustering) 2.2 Phân lớp liệu 2.2.2 Định nghĩa 2.2.3 Quá trình phân lớp liệu 2.2.4 Một số phương pháp phân lớp 10 CHƯƠNG ỨNG DỤNG CÁC PHƯƠNG PHÁP VÀO BÀI TOÁN CỤ THỂ 15 3.1 Mô tả liệu 15 3.2 Nhập liệu tiền xử lý liệu (nếu cần) 16 3.3 Khai thác liệu 17 3.3.1 Phân cụm liệu 17 3.3.2 Phân lớp liệu 27 3.3.3 Dự báo 34 3.3.4 Kết luận 37 NGUỒN TRÍCH DẪN 38 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 DANH SÁCH THÀNH VIÊN VÀ PHÂN CÔNG CÔNG VIỆC Họ tên Mã số sinh viên Phân cơng cơng việc - Nhóm trưởng, tìm liệu, phân cơng cơng việc, rà sốt nội dung Slễn Phương Khanh 31211023215 - Thực nội dung chương 2, chương – phân cụm liệu Hoàn thành 100% Bùi Hồng Ngọc 31211025654 - Thực nội dung chương 2, chương – phân lớp liệu 100% Nguyễn Lã Nhật Quỳnh 31211020109 - Thực nội dung chương 1, chương – mô tả liệu 100% Hà Hải Yến 31211021557 - Thực nội dung chương – phân lớp liệu, dự báo 100% Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU 1.1 Giới thiệu khoa học liệu - Khoa học liệu (Data science) là tất thu thập , khai thác phân tích liệu để tìm insight giá trị Trong ngành khai thác sâu việc khai phá, quản trị phân tích liệu để dự đốn xu hướng tương lai Sau trực quan hóa Insight cho bên liên quan, để đưa định, chiến lược hành động - Gồm phần chính: Tạo quản trị liệu Phân tích liệu Áp dụng kết phân tích thành hành động có giá trị - Nguồn phân tích: Toán học (thống kê toán học - Mathematical Statistics) Công nghệ thông tin (máy học - Machine Learning) Kiến thức lĩnh vực ứng dụng có liên quan cụ thể Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 1.2 Ứng dụng khoa học liệu 1.2.1 Ứng dụng - Về y học: Hình thành nên cổng chăm sóc sức khoẻ trực tuyến Tiến hành phân tích gen di truyền Bào chế thuốc - Về tra cứu thông tin: Google, Cốc Cốc, Bing… - Về quảng cáo xây dựng thương hiệu - Về sản xuất, tài ngân hàng, kinh tế, giao thông vận tải…: để so sánh số lượng khách hàng/hàng hóa, quản lí liệu khách hàng/ hàng hóa, tính toán giá trị giao dịch, mở rộng mạng lưới liên kết người tiêu dùng doanh nghiệp, phát gian lận, phân tích thị trường, quản trị rủi ro… - Về thương mại điện tử: Lazada, Shopee, Tiki, Sendo… 1.2.2 Quy trình khai thác liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Quy trình khai thác liệu có bước bao gồm: Bước 1: Làm Bước 2: Tích hợp liệu Bước 3: Lựa chọn liệu Bước 4: Chuyển đổi liệu Bước 5: Khai phá liệu Bước 6: Đánh giá mẫu Bước 7: Trình bày thơng tin 1.3 Giới thiệu phần mềm Orange - Phần mềm Orange phần mềm hỗ trợ đắc lực cho việc khai phá liệu (data mining) học máy (machine learning) Giao diện Orange - Là tập hợp widgets cung cấp chức như: đọc liệu, hiển thị liệu dạng bảng, lựa chọn thuộc tính đặc điểm liệu, huấn luyện liệu để dự đoán, so sánh thuật toán máy học, trực quan hóa phần tử liệu,… - Với nhiều chức năng, phần mềm phân tích liệu từ đơn giản đến phức tạp, tạo đồ họa đẹp mắt thú vị giúp việc khai thác liệu học máy trở nên dễ dàng cho người dùng chuyên gia Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 1.4 Mục tiêu tiểu luận - Hiện nay, tình hình kinh tế Việt Nam đà phát triển thuận lợi Với dân số động, trẻ trung tiêu tiêu dùng ngày gia tăng khiến đất nước trở thành nơi đầy tiềm năng, nhiều hội phát triển thị trường kinh tế nói chung thị trường bán lẻ, kinh doanh bán bn nói riêng - Wholesale nghĩa doanh nghiệp mua sản phẩm với số lượng lớn bán lại trực tiếp cho doanh nghiệp khác nhà phân phối Wholesaler (người bán buôn) Việt Nam thường lấy lượng lớn mặt hàng trực tiếp từ nhà sản xuất, sau phân phối lại cho doanh nghiệp nhỏ hơn, họ cung cấp số lượng nhỏ trực tiếp cho người tiêu dùng Khi mua số lượng lớn, bạn thường tìm thấy nhiều lựa chọn hàng hóa kho nhà bán buôn, từ hàng tiêu dùng đến thiết bị điện tử, với giá thấp thị trường bán lẻ - Qua liệu Wholesales customer chọn, nhóm tiến hành dùng phương pháp phân cụm, phân lớp phần mềm Orange nhằm xem xét liệu phương pháp có liệu hay khơng Khi thu kết quả, nhóm tiếp tục dự báo để kiểm tra liệu mẩu tin có thuộc tính cho trước có thuộc vào lớp mà nhóm tìm hay khơng Từ đến kết luận phương pháp phân cụm, phân lớp áp dụng với thực tế không Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Phân cụm liệu 2.1.1 Định nghĩa - Phân cụm liệu trình gom cụm đối tượng, liệu có đặc điểm tương đồng vào cụm, nhóm tương ứng với nhiệm vụ tìm đo đạc khác biệt đối tượng liệu Trong đó: Các đối tượng cụm có tính chất tương tự Các đối tượng cụm khác có tính chất khác Dữ liệu toán phân cụm liệu chưa gán nhãn (loại liệu thường thấy thực tế) - Phương pháp nằm lĩnh vực học không giám sát (Unsupervised Learning) phân cụm liệu cách xem xét thuộc tính liệu mà khơng huấn luyện trước, giám sát có kiến thức thuộc tính liệu, liên kết mối quan hệ - Các ứng dụng phân cụm kinh tế bao gồm: dự báo khách hàng tiềm năng, phân tích xu hướng hành vi khách hàng, phân tích đặc tính sản phẩm dịch vụ, đánh giá kết hoạt động kinh doanh,… Mơ hình q trình phân cụm liệu - Một số phương pháp phân cụm bao gồm: Phân cụm phân cấp Phân cụm phân hoạch Phân cụm dựa mật độ Phân cụm dựa lưới Phân cụm dựa mơ hình - Riêng tiểu luận này, nhóm tập trung sử dụng hai phương pháp phân cụm phân cụm phân cấp phân cụm phân hoạch Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 2.1.2 Phân cụm phân cấp (Hierarchical clustering) - Phân cụm phân cấp (hierarchical clustering) phân tách tập hợp mục liệu theo cách phân cấp Dựa cách phân tích thứ bậc tạo ra, kỹ thuật phân cấp phân loại cộng gộp (agglomerative) phân chia (divisive) - Phương pháp xây dựng phân cấp cho liệu cần gom cụm dựa trên: Ma trận khoảng phần tử, độ đo khoảng cụm - Phương pháp phân cụm phân cấp không cần xác định trước số cụm cần xác định trước điều kiện dừng - Phương pháp điển hình bao gồm: Diana, Agnes,… Minh họa mơ hình phân cụm phân cấp 2.1.3 Phân cụm phân hoạch (Partitioning clustering) - Phương pháp phân cụm phân hoạch tạo k phân hoạch liệu từ tập hợp n đối tượng, phân hoạch đại diện cho cụm k ≤ n - Các cụm hình thành sở tối ưu hóa giá trị hàm độ đo phân cụm cho: Mỗi đối tượng thuộc cụm phần tử cụm có tương tự với Mỗi cụm có phần tử Các thuật tốn điển hình bao gồm: K-means, K-mediods, Fuzzy C-means Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Minh họa mơ hình phân cụm phân hoạch 2.2 Phân lớp liệu 2.2.2 Định nghĩa - Là trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp - Mơ hình xây dựng dựa tập liệu gán nhãn trước (thuộc lớp nào) - Quá trình gán nhãn (thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu 2.2.3 Quá trình phân lớp liệu - Quá trình phân lớp liệu gồm bước chính: Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Phân thành cụm C1 gồm 469 mẫu, C2 gồm 180 mẫu Đánh giá qua Silhouette ta thấy Silhouette index đa phần lớn 0.5 nên nhận xét cluster sát với thực tế Để chắn ta đồng thời sử dụng thêm thuật toán K-means để tiến hành phân cụm K-means clustering: Hình 3.13: K-means clustering Khi sử dụng thuật toán K-means để tiến hành phân cụm lúc Silhouette scores dùng để đánh giá chất lượng cụm tạo Qua quan sát thấy với việc phân chia số cụm từ đến có Silhouette scores C2 = 0.505, C3 = 0.301, C4 = 0.310, C5 = 0.321, C6 = 0.317 Do C2 có Silhouette scores cao nên chọn số cụm cụm 25 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.14: Silhouette Plot (K-means clustering) Đánh giá qua Silhouette ta thấy Silhouette index đa phần lớn 0.5 cho thấy cluster sát với thực tế 26 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Qua hai thuật toán dùng trên, ta kết luận phương án tốt chia thành cụm So sánh với liệu gốc: Hình 3.15: So sánh kết phân cụm với liệu gốc Nhận xét: Độ xác khớp với liệu gốc cao, kết luận tập liệu sát với thực tế, sử dụng 3.3.2 Phân lớp liệu Trong trình phân lớp liệu, ta sử dụng phương pháp là: Hồi quy Logistic (Logistic Regression) Cây định (Decision Tree) SVM (Support Vector Machine) 27 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.16: Mơ hình phân lớp Hình 3.17: Thay đổi vai trò biến Channel Đầu tiên, ta thay đổi vai trò biến Channel thành target 28 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.18: Rank Qua Rank ta thấy không cần phải loại bỏ biến Hình 3.19: Xây dựng mơ hình định 29 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.20: Mơ hình định Qua Tree viewers thấy liệu có 35 nodes 18 leaves Sau ta tiếp tục dùng phương pháp hồi quy logistic SVM để phân lớp liệu, song tiến hành so sánh phương pháp với qua cơng cụ Test and Score Hình 3.21: Mơ hình Test and Score 30 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.22: Kết Test and Score Ta so sánh phương pháp với qua số AUC, số AUC gần tốt Quan sát thấy phương pháp Cây định, SVM, Hồi quy logicstic có số AUC 0.869, 0.962, 0.943 nên rút kết luận phương pháp SVM tốt Bên cạnh đó, ta sử dụng thêm ma trận nhầm lẫn ROC để tăng thêm độ xác cho việc đánh giá phương pháp tối ưu cho việc phân lớp liệu 31 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.23: Ma trận nhầm lẫn (Cây định) Hình 3.24: Ma trận nhầm lẫn (Hồi quy logistic) 32 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.25: Ma trận nhầm lẫn (SVM) Quan sát kết ba bảng trên, ta thấy sai lầm loại sai lầm loại phương pháp SVM thấp Hình 3.26: Sơ đồ ROC 33 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Qua đồ thị dễ dàng thấy phương pháp SVM có ROC tiệm cận với điểm (0,1) Do đó, kết luận phương pháp SVM tốt cho việc phân lớp liệu 3.3.3 Dự báo Hình 3.27: Skip biến Channel Trước tiên, ta skip biến channel biến khơng cần thiết 34 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.28: Mơ hình dự báo Hình 3.29: Bảng dự báo qua Predictions 35 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.30: Bảng kết dự báo Hình 3.31: So sánh kết dự báo với liệu gốc So sánh kết dự báo với liệu ban đầu ta thấy độ xác cao, lên đến 88.64% kết luận tập liệu sát với thực tế, sử dụng 36 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 3.3.4 Kết luận Sau thực phân cụm, phân lớp dự báo, ta có vài đánh sau: Đối với phân cụm sử dụng phương pháp Hierarchical clustering, sau chia thành 2, 3, cụm đánh giá qua Silhouette index, ta nhận thấy chia thành cụm hợp lý Để chắn hơn, nhóm thực thêm phân cụm phương pháp K-means thu số lớn 0.5 với cụm Sau đó, so sánh với liệu gốc, ta đạt độ xác lên đến 75.45% cho thấy sát với thực tế, sử dụng Đối với phân lớp, sau sử dụng đánh giá ta thu phương pháp tối ưu cho phân lớp SVM Nhóm sử dụng phương pháp để phân lớp sau dự báo thu kết độ xác 88.64% so với liệu gốc 37 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 NGUỒN TRÍCH DẪN Nguồn liệu: Wholesale customer Dataset, Margarida G M S Cardoso, 2014, https://archive.ics.uci.edu/ml/datasets/Wholesale+customers Wholesale customer Dataset (Annual spending in monetary units of clients of a wholesale distributor), Ravi Shekhar, 2017, https://www.kaggle.com/binovi/wholesale-customers-data-set Nguồn tài liệu: Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2005 Introduction to Data Mining Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009 Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010 Đỗ Thị Nhung, 2021 “Wholesaler gì? Tìm điểm khác wholesaler, Distributor Retailers” https://123job.vn/bai-viet/wholesaler-la-gi-tim-diemkhac-giua-wholesaler-distributor-va-retailers-2753.html “Data science gì? Vai trị Data scientist” https://insight.isb.edu.vn/datascience-la-gi/ “Data Mining gì? Các cơng cụ khai phá liệu phổ biến nay” https://insight.isb.edu.vn/data-mining-la-gi-cac-cong-cu-khai-pha-du-lieu/ “Hướng dẫn sử dụng phần mềm Orange” https://biquyetxaynha.com/huong-dansu-dung-phan-mem-orange 38 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 39 Downloaded by vu ga (vuchinhhp2@gmail.com) ... CHƯƠNG TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU 1.1 Giới thiệu khoa học liệu 1.2 Ứng dụng khoa học liệu 1.2.1 Ứng dụng 1.2.2 Quy trình khai thác liệu 1.3... lOMoARcPSD|18034504 CHƯƠNG TỔNG QUAN VỀ KHOA HỌC DỮ LIỆU 1.1 Giới thiệu khoa học liệu - Khoa học liệu (Data science) là tất thu thập , khai thác phân tích liệu để tìm insight giá trị Trong ngành... khác Dữ liệu toán phân cụm liệu chưa gán nhãn (loại liệu thường thấy thực tế) - Phương pháp nằm lĩnh vực học không giám sát (Unsupervised Learning) phân cụm liệu cách xem xét thuộc tính liệu