Tiểu luận kết thúc học phần bộ môn khoa học dữ liệu

lOMoARcPSD|18034504 ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ - THIẾT KẾ KHOA TOÁN THỐNG KÊ TIỂU LUẬN KẾT THÚC HỌC PHẦN BỘ MÔN: KHOA HỌC DỮ LIỆU Giảng viên : Trương Việt Phương LỚP – KHOÁ: FM001 – K47 Mã lớp HP: 22C1INF50905975 Phịng học: B2-507 TP Hồ Chí Minh, tháng 10 năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 BẢNG PHÂN CÔNG NHIỆM VỤ TÊN MSSV Cao Hùng Vĩ 31171022750 Phan Thái Bảo 31211024766 Lê Cao Anh Minh 31211020005 Trương Nhật Nghi 31211020371 Lê Thị Hồng Nhung 31211023525 NHIỆM VỤ Downloaded by vu ga (vuchinhhp2@gmail.com) TỈ LỆ ĐIỂM TV lOMoARcPSD|18034504 MỤC LỤC PHẦN I: GIỚI THIỆU: Mục đích chọn đề tài: Tổng quan đề án: .5 PHẦN II: THU THẬP DỮ LIỆU: M漃Ȁ tả tổng quát dư뀃 liệu .6 Giải thích dư뀃 liệu Xác định biến mục tiêu: .7 Các bước tiền xử lý dư뀃 liệu: PHẦN III: KHAI THÁC DỮ LIỆU .8 Màn h椃nh thऀ hiện: .8 Phân cụm: .9 o Phân cụm phân cấp (Hierarchical Clustering) 11 o Phân cụm phân hoạch (Partitioning Clustering) .13 Phân lớp 16 Dự báo 21 PHẦN IV: KẾT LUẬN 23 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 PHẦN I: GIỚI THIỆU: Mục đích chọn đề tài: Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Thạc sĩ Trương Việt Phương thành viên nhóm Trong suốt thời gian học tập, tìm hiểu hồn thành đề án mơn học Khoa học liệu chúng em nhận quan tâm giúp đỡ, hướng dẫn tận tình tâm huyết thầy với làm việc ăn ý, hiệu suất nhóm giúp chúng em tích lũy thêm nhiều kiến thức để có nhìn sâu sắc hồn thiện phần mềm Orange nói riêng Khoa học liệu nói chung Thơng qua đồ án này, nhóm em xin trình bày kiến thức kỹ mà nhóm thu thập buổi học vừa qua Trong q trình hồn thành đề án chắn khơng tránh khỏi thiếu sót Vì vậy, nhóm chúng em mong nhận lời góp ý đến từ thầy để đề án kết thúc môn học chúng em hoàn thiện Trước bắt đầu, chúng em trình bày lý tính cấp bách đề tài Có thể phân loại khách hàng thành nhóm có ý nghĩa (phân khúc khách hàng) dựa thói quen chi tiêu điều có giá trị doanh nghiệp Làm cung cấp cho doanh nghiệp nhìn sâu sắc cách đáp ứng tốt nhu cầu cụ thể nhóm khách hàng khác Nó cho phép doanh nghiệp thực thử nghiệm A/B hiệu hơn, cách phát thay đổi cụ thể ảnh hưởng đến nhóm khách hàng khác Tổng quan đề án: Dự án sử dụng Tập liệu khách hàng bán buôn từ Kho lưu trữ máy học UCI chứa thói quen chi tiêu hàng năm 440 khách hàng toàn nhà phân phối bán hàng Mục tiêu tìm cách tốt để mơ tả biến đổi loại khách hàng khác mà nhà phân phối bán buôn tương tác cách áp dụng kỹ thuật phân nhóm Tập liệu đề cập đến khách hàng nhà phân phối bán bn Nó bao gồm chi tiêu hàng năm tính đơn vị tiền tệ (mu) cho danh mục sản phẩm đa dạng Nhà phân phối bán buôn hoạt động vùng khác Bồ Đào Nha có thơng tin chi tiêu hàng năm số mặt hàng cửa hàng họ vùng kênh khác Bộ liệu bao gồm 440 nhà bán lẻ lớn chi tiêu hàng năm cho loại sản phẩm khác khu vực khác (lisbon, oporto, khác) kênh bán hàng khác (Khách sạn, kênh bán lẻ) Để dự đoán khu vực kênh chi tiêu nhiều khu vực kênh chi tiêu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 PHẦN II: THU THẬP DỮ LIỆU: M漃Ȁ tả tổng quát dư뀃 liệu - Bộ liệu cần phân tích tên Wholesale customers Data Set, lấy từ https://archive.ics.uci.edu/ml/datasets/wholesale+customers# - Dữ liệu : Tập liệu khách hàng bán buôn từ Kho lưu trữ máy học UCI chứa thói quen chi tiêu hàng năm 440 khách hàng toàn nhà phân phối bán hàng, bao gồm loạt danh mục sản phẩm Vì mục đích dự án khám phá xem liệu cụm có ý nghĩa phát từ thói quen chi tiêu khách hàng hay khơng, nên hai biến bị loại bỏ khỏi tập liệu ban đầu Chúng bao gồm thuộc tính 'Channel' 'Region' Những cịn lại sáu loại sản phẩm - Data set Characteristic (đặc điểm tập liệu): Đa biến - Bản ghi tập liệu = 440 ROWS - Các cột tập liệu = COLUMNS - Attribute Chacteristics (đặc điểm thuộc tính) : Interger - Missing value( giá trị bị thiếu ) : N/A Giải thích dư뀃 liệu + Nguồn: Margarida G M S Cardoso, margarida.cardoso '@' iscte.pt, ISCTEIUL, Lisbon, Portugal + Thông tin Data Set: Tập liệu đề cập đến khách hàng nhà phân phối bán bn Nó bao gồm chi tiêu hàng năm tính đơn vị tiền tệ (mu) cho loại sản phẩm đa dạng + Thơng tin thuộc tính: Có loại thuộc tính Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 1) FRESH: chi tiêu hàng năm (mu) cho sản phẩm tươi (Định lượng) 2) MILK: chi tiêu hàng năm (mu) cho sản phẩm sữa (Định lượng) 3) GROCERY: chi tiêu hàng năm (mu) cho sản phẩm tạp hóa (Định lượng) 4) FROZEN: chi tiêu hàng năm (mu) cho sản phẩm đông lạnh (Định lượng) 5) DETERGENTS_PAPER: chi tiêu hàng năm (mu) cho chất tẩy rửa sản phẩm giấy (Định lượng) 6) DELICATESSEN: chi tiêu hàng năm (mu) cho sản phẩm cao cấp (Định lượng) 7) CHANNEL: Kênh khách hàng: Horeca (Khách sạn / Nhà hàng / Quán cà phê) Kênh bán lẻ (1: Horeca, 2: Bán lẻ) (Định lượng) 8) REGION: Khu vực khách hàng: Lisnon, Oporto Khác (1: Lisnon, 2: Oporto, 3: Khác) (Định lượng) Xác định biến mục tiêu: Channel (1: Horeca, 2: Bán lẻ) Các bước tiền xử lý dư뀃 liệu: + Làm liệu (data cleaning/cleansing) + Tích hợp liệu (data intergation) + Chuyển đổi liệu (exchange data) + Rút gọn liệu (data reduction) u Với dự án nhóm: Bởi tập liệu mẫu đạt tiêu chuẩn, liệu bị lỗi nên bỏ qua bước tiền xử lý liệu (Khơng có features bị loại bỏ, categorical features tác giả tập liệu xử lý) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 PHẦN III: KHAI THÁC DỮ LIỆU Màn h椃nh thऀ hiện: ( phần mền Orange) Phân loại liệu: liệu có nhãn (Nhóm dùng thuật tốn phân lớp, phân cụm để xây dựng mơ hình) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Phân cụm: Lựa chọn skip Channel Dùng để quan sát liệu bảng biểu cách nối FILE vào Data table Khi double - click vào ta quan sát liệu Chức Data Table giúp ta thể thuộc tính liệu bảng tính, từ có nhìn trực quan cụ thể liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Từ Data Table, thấy khơng có liệu bị thiếu Do ta tiến hành phân cụm liệu Ta sử dụng thuật toán phân cụm Hierarchical Clustering K-Means o Phân cụm phân cấp (Hierarchical Clustering) - Đối với thuật toán Hierarchical Clustering, trước tiên ta phải sử dụng Distances để tính độ đo phân cụm Ta chọn Distances between Rows liệu phần tử phân bố theo hàng, cột đại diện cho thuộc tính phần tử Ở mục Distances Metric ta chọn độ đo phân cụm Euclidean - Chia thành 10 cụm, dùng linkage complete (khoảng cách lớn phần tử cụm với phần tử cụm khác) 10 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Ở mục Cluster label Annotations ta chọn Cluster tiến hành quan sát 11 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Sau liệu chuyển đến Hierarchical Clustering, ta thấy biểu đồ hiển thị theo dạng cấu trúc Ở mục Linkage, ta chọn phương pháp Complete để tính khoảng cách phần tử chọn số cụm 10 Lý lựa chọn sau thử nghiệm qua nhiều số cụm khác nhau, nhìn trực quan dựa biểu đồ, ta nhận thấy số cụm 10 cho kết với phần tử có độ tương đồng 0.5, phần tử có số âm số 0.5 - Sau đó, ta chuyển kết phân cụm qua Data Table để xem chi tiết bảng tính 12 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Cuối cùng, ta chuyển liệu từ Data Table vào Save Data để tiến hành lưu liệu Ta chọn lưu liệu dạng file Excel để dễ dàng đánh giá trực quan so sánh với thuật toán K-Means, so sánh với kết liệu gốc o Phân cụm phân hoạch (Partitioning Clustering) - Ta tiến hành phân cụm phân hoạch thuật toán K-Means Đầu tiên, ta dẫn liệu trực tiếp từ Data Table mà không cần gián tiếp qua Distances - Ở thuật toán này, phần Number of Clusters, ta chọn số cụm chạy từ đến Trong phần Preprocessing, ta chọn Normalize columns Bảng Silhouette Scores bên phải hiển thị giá trị trung bình ứng với số cụm - Sau nhiều lần thử nghiệm để tìm trường hợp cho liệu tốt nhất, thấy việc phân thành cụm cho kết gần sát với thực tế 13 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Ở Silhouette Plot, ta thấy phần tử có độ tương đồng 0.5 chiếm đa số, phần tử có số 0.5 số âm 14 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Thơng qua hai thuật tốn phân cụm Hierarchical Clustering K-Means, ta thấy Phân cụm phân hoạch thuật toán K-Means cho kết sát với thực tế (>= 0.5) Nên chọn K-Means  Xem data table lưu data dạng xlss (Excel) 15 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 B愃ऀng dư뀃 liẹ뤂u đ甃ᬀơꄣc xuĀt d甃ᬀơꄁi d愃⌀ng file excel: ❖ Số liệu thực tế từ Kho lưu trữ máy học UCI: CHANNEL Frequency Horeca 298 Retail 142 Total 440 u Có thể thấy liệu khai thác theo K-Means gần so với thực tế (309,131) Phân lớp Target channel Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý Sử dụng số phương pháp phân lớp: Cây định (Tree) 16 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hồi quy logistic (Logistic Regression), SVM (Support Vector Machine) Dựa vào số để so sánh đánh giá thuật toán lựa chọn thuật toán tốt nhất, xác phục vụ cho việc dự báo  Kết với tập liệu testing: q Test and score: Sử dụng phương pháp K-fold cross validation với k = => Nhận xét: Tại mục Evalution Results cho ta biết kết định lượng ba mơ hình Logistic Regression, Tree, SVM, giá trị cao Khi xem xét số qua trường hợp ta thấy mơ hình SVM mang lại số liệu đẹp mơ hình - Tính xác (CA) 90.5% - Gía trị trung bình điều hoà (F1) 90,4% 17 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Độ xác (Precision) 90,4% - Độ phủ (Recall) 90,5%, - Diện tích đường cong (AUC) 0,961 đạt số liệu tốt trường hợp khác nêu q Sử dụng ma trận nhm l̀n (Confusion Matrix) để đánh giá trường hợp xảy nhầm lẫn Giả sử sử dụng mơ hình để phân loại kênh khách hàng kênh bán lẻ vào nhóm khách hàng ta thấy xảy nhầm lẫn phân loại, điều phần tác động tới khả phát triển kinh doanh công ty Do đó, nhóm trình bày ma trận nhầm lẫn với mục đích xem xét nhầm lẫn xảy loại khách hàng o M漃Ȁ h椃nh c愃Ȁy quyĀt đ椃⌀nh (Tree): - Tỷ lệ dự đốn xác Horeca 90.9%; Bán lẻ 87.0% o M漃Ȁ h椃nh SVM 18 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Tỷ lệ dự đốn xác Horeca 91.6%; Bán lẻ 87.9% o M漃Ȁ h椃nh Logistic regression - Tỷ lệ dự đốn xác Horeca 91.1%; Bán lẻ 83.9% 19 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 u Nhận xét: Tại Confusion Matrix số cần quan sát tỷ lệ dự đốn xác loại dự đốn xác loại 2, mơ hình tốt xác khi có sai lầm loại sai lầm loại thấp Nhìn vào kết ta thấy Mơ hình SVM mơ hình có tỷ lệ sai lầm bé với sai lầm loại 12.1% sai lầm loại 8.4% Nên phương pháp SVM phù hợp q Đươꄀng cong ROC: - Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác Một mơ hình hiệu có FPR thấp TPR cao, hay ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu - Qua quan sát đường ROC thấy mơ hình SVM đường có tỷ lệ báo true positive rate (TPR) cao tỷ lệ false positive rate (FPR) thấp Th漃Ȁng qua viẹ뤂c đ愃Ānh gi愃Ā c愃Āc ch椃ऀ sĀ kiऀm đ椃⌀nh ta thấy M漃Ȁ h椃nh SVM c漃Ā ch椃ऀ sĀ kiऀm đ椃⌀nh tĀt n攃Ȁn s攃̀ l愃 lư뀣a ch漃⌀n ph甃 hơꄣp 20 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Kết luận: Phương pháp phân lớp SVM phương pháp tốt - Nguyên nhân lựa chọn + Phương pháp có AUC (Area Under the Curve) hay diện tích nằm đường cong ROC lớn nhất, tức có mơ hình tốt + Phương pháp có CA (Accuracy) hay tính xác cao + Phương pháp có sai lầm thấp + Phương pháp có hiệu cao có đường cong ROC tiệm cận với điểm (0;1) => Chọn SVM dự đoán qua SVM Predictions Dự báo Sau sử dụng phương pháp đánh giá mô hình phân lớp, ta chọn phương pháp SVM dể dự báo cho 10% liệu từ liệu phâp lớp xem chưa có nhãn (44 mẫu) - Trong File ta skip thuộc tính Channel - Sử dụng Data Sampler để thực lấy mẫu liệu - Lấy 10 % mẫu liệu từ file liệu xử lý tiền liệu trước Từ file liệu trên, thơng qua Data Sampler, mục Fixed proportion of data ta chọn 10% để trích liệu 21 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Sử dụng Predictions để dự báo liệu theo phương pháp SVM - Xuất Data table xem lại liệu 22 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 PHẦN IV: KẾT LUẬN Đề án đặt để điều tra xem liệu khách hàng doanh nghiệp phân chia thành nhóm có ý nghĩa dựa thói quen chi tiêu hay khơng Điều phát thói quen chi tiêu khách hàng thực sử dụng để tạo khám phá vậy, hoạt động tốt Khi so sánh với cụm thật bản, chúng tơi thấy thuật tốn học tập khơng giám sát đưa nhóm khách hàng tương tự thành nhóm riêng biệt có số lượng nhóm Việc phân khúc khách hàng thành nhóm khác có giá trị lớn doanh nghiệp muốn tiến hành thử nghiệm A/B thực thay đổi nhỏ sản phẩm dịch vụ Điều thay đổi khơng ảnh hưởng đến tất loại khách hàng nhau, có số bị ảnh hưởng tiêu cực thay đổi khác Một cách tốt để kiểm tra xem liệu thay đổi có nên thực hay không liệu chúng nên thực cho số khách hàng sử dụng nhóm mà liệu định cách sử dụng thuật toán phân cụm Bằng cách thực thử nghiệm A / B tập hợp khách hàng từ nhóm, bạn 23 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 tìm hiểu xem thay đổi có ảnh hưởng đến tất nhóm riêng biệt hay khơng cho phép bạn thực thay đổi nhóm có tích cực (hoặc khơng tiêu cực) hiệu ứng Khả nhóm khách hàng thành phân đoạn khác sử dụng bước tiền xử lý cho thuật toán học có giám sát đưa dự đốn khách hàng Điều thực cách sử dụng cụm khách hàng dự đoán tính đầu vào khác cho thuật tốn học có giám sát 24 Downloaded by vu ga (vuchinhhp2@gmail.com) ... lOMoARcPSD|18034504 PHẦN II: THU THẬP DỮ LIỆU: M漃Ȁ tả tổng quát dư뀃 liệu - Bộ liệu cần phân tích tên Wholesale customers Data Set, lấy từ https://archive.ics.uci.edu/ml/datasets/wholesale+customers# - Dữ liệu. .. thành đến Thạc sĩ Trương Việt Phương thành viên nhóm Trong suốt thời gian học tập, tìm hiểu hồn thành đề án môn học Khoa học liệu chúng em nhận quan tâm giúp đỡ, hướng dẫn tận tình tâm huyết thầy... LỤC PHẦN I: GIỚI THIỆU: Mục đích chọn đề tài: Tổng quan đề án: .5 PHẦN II: THU THẬP DỮ LIỆU: M漃Ȁ tả tổng quát dư뀃 liệu .6 Giải thích dư뀃 liệu

Định dạng
Số trang	24
Dung lượng	1,18 MB