1. Trang chủ
  2. » Tất cả

Sử dụng dataset telecom customer churn sử dụng các phương pháp đã học để đề suất các mô hình phân cụm phù hợp với dữ liệu và nhận xét các cụm dữ liệu

71 51 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

lOMoARcPSD|18034504 ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO CUỐI KÌ Đề Tài: Sử dụng dataset Telecom Customer Churn Sử dụng phương pháp học để đề suất mơ hình phân cụm phù hợp với liệu nhận xét cụm liệu Giảng Viên: Trần Lê Phúc Thịnh Thành Viên Nhóm: Nguyễn Thị Kim Hạnh - 31211023485 Nguyễn Hoàng Tâm - 31211026654 Bùi Nguyễn Tâm Giao - 31211024838 - Trưởng Nhóm Dương Thị Mỹ Thương- 31211021991 Phạm Thị Thu Hằng - 31211024852 Phan Thanh Trúc - 31211022649 TP Hồ Chí Minh, Ngày 18 Tháng 12 Năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC DANH MỤC HÌNH ẢNH………………………………………………………… ………………3 LỜI MỞ ĐẦU BẢNG PHÂN CÔNG THÀNH VIÊN .6 CHƯƠNG I: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu Khoa học liệu 1.1.1 Dữ liệu gì? 1.1.2 Tổng quan Khoa học liệu 1.1.3 Sự phát triển Khoa học liệu 10 1.1.4 Ứng dụng Khoa học liệu .10 1.2 Giới thiệu đề tài tổng quan liệu 11 1.2.1 Giới thiệu đề tài 11 1.2.2 Mục tiêu nghiên cứu 12 1.2.3 Nội dung bảng liệu 13 1.2.4 Một số thông tin liệu 14 1.2.5 Đặc điểm cụ thể thuộc tính bảng liệu 15 CHƯƠNG II: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG .16 2.1 Các chức phương pháp cần sử dụng mơ hình 16 2.1.1 Nhóm Data Error! Bookmark not defined 2.1.2 Nhóm Model 12 2.1.3 Nhóm Evaluate 14 2.1.4 Nhóm Unsupervised 14 2.2 Các phương pháp sử dụng 16 2.2.1 Phương pháp phân lớp liệu: 16 2.2.2 Phương pháp phân cụm liệu: Error! Bookmark not defined CHƯƠNG III: ỨNG DỤNG MÔ HÌNH, PHƯƠNG PHÁP Error! Bookmark not defined 3.1 Lấy xử lý liệu Error! Bookmark not defined 3.1.1 Lấy liệu Datasets Orange: Error! Bookmark not defined 3.1.2 Phân tích liệu: Error! Bookmark not defined 3.1.3 Phân tách liệu để thực nghiên cứu Error! Bookmark not defined Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 3.2 Bài toán phân cụm Error! Bookmark not defined 3.2.1 Phân cụm Hierarchical Clustering Error! Bookmark not defined 3.2.2 Phân cụm K-Means Error! Bookmark not defined 3.3 Bài toán phân lớp dự báo Error! Bookmark not defined CHƯƠNG IV: KẾT QUẢ MƠ HÌNH VÀ PHÂN TÍCH KẾT QUẢ Error! Bookmark not defined 4.1 Bài toán phân cụm Error! Bookmark not defined 4.1.1 Đánh giá phương pháp phân cụm Error! Bookmark not defined 4.1.2 Phân tích đặc điểm cụm liệu Error! Bookmark not defined 4.1.3 Đánh giá mơ hình phân cụm Error! Bookmark not defined 4.2 Bài toán phân lớp dự báo Error! Bookmark not defined 4.2.1 Phân tích kết dự báo Error! Bookmark not defined 4.2.2 Phân tích đặc điểm lớp (dự báo) 55 CHƯƠNG V: KẾT LUẬN VÀ ĐÁNH GIÁ, NHẬN XÉT Error! Bookmark not defined 5.1 Những công việc thực Error! Bookmark not defined 5.1.1 Tóm tắt .65 5.1.2 Kết luận 65 5.2 Hướng phát triển 67 5.3 Đánh giá nhóm 67 TÀI LIỆU THAM KHẢO .68 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 DANH MỤC HÌNH ẢNH Hình 1.1 Giao diện Data…………………………………………………………………13 Hình 2.1 Giao diện cơng cụ File…………………………………………………….16 Hình 2.2 Giao diện cơng cụ DataTable Error! Bookmark not defined Hình 2.3 Giao diện công cụ Data Sampler Error! Bookmark not defined Hình 2.4 Giao diện cơng cụ Preprocess Error! Bookmark not defined Hình 2.5 Giao diện công cụ Test and Score Error! Bookmark not defined Hình 2.6 Giao diện công cụ Confusion Matrix Error! Bookmark not defined Hình 2.7 Mơ hình phân lớp Error! Bookmark not defined Hình 2.8 Mơ hình định Error! Bookmark not defined Hình 2.9 Mơ hình SVM Error! Bookmark not defined Hình 2.10 Mơ hình hồi quy logistic Error! Bookmark not defined Hình 2.11 Mơ hình phân cụm liệu Error! Bookmark not defined Hình 3.1 Nạp liệu Telecom customer churn Datasets Error! Bookmark not defined Hình 3.3 Kết mơ hình Feature Statistic Error! Bookmark not defined Hình 3.4 Giao diện Edit Links phân tách liệu Error! Bookmark not defined Hình 3.5 Mơ hình phân tách liệu Error! Bookmark not defined Hình 3.6 Giao diện Distances Error! Bookmark not defined Hình 3.7 Mơ hình phân cụm Hierarchical Clustering Error! Bookmark not defined Hình 3.8 Giao diện Hierarchical Clustering Error! Bookmark not defined Hình 3.8.2 Giao diện Hierarchical Clustering với số cụm Error! Bookmark not defined Hình 3.8.3 Giao diện Hierarchical Clustering với số cụm Error! Bookmark not defined Hình 3.9 Chỉ số Silhouette cao cụm (Hierarchical Clustering) Error! Bookmark not defined Hình 3.10 Kết k-Means Error! Bookmark not defined Hình 3.11: Kết Silhouette Plot Error! Bookmark not defined Hình 3.12 Chỉ số Silhouette cao cụm (k-Means) Error! Bookmark not defined Hình 3.13 Mơ hình phân cụm k-Means Error! Bookmark not defined Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.14 Mơ hình phân cụm k-Means Hierarchical Clustering Error! Bookmark not defined Hình 3.15 Nạp liệu tập huấn “Data” Error! Bookmark not defined Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 3.16 Mơ hình phân lớp Error! Bookmark not defined Hình 3.17.1 Kết Ma trận nhầm lẫn Logistic Regression Error! Bookmark not defined Hình 3.17.2 Kết Ma trận nhầm lẫn Tree Error! Bookmark not defined Hình 3.17.3 Kết Ma trận nhầm lẫn SVM Error! Bookmark not defined Hình 3.18 Kết Test and Score Error! Bookmark not defined Hình 3.19 Mơ hình dự báo Error! Bookmark not defined Hình 4.1 Kết tính độ xác phương pháp Hierarchical Clustering.Error! Bookmark not defined Hình 4.2 Kết tính độ xác phương pháp k-Means Error! Bookmark not defined Hình 4.3 Mơ hình so sánh cụm Error! Bookmark not defined Hình 4.4.1 Kết so sánh cụm thuộc tính PartnerError! Bookmark not defined Hình 4.4.2 Kết so sánh cụm thuộc tính Dependents Error! Bookmark not defined Hình 4.4.3 Kết so sánh cụm thuộc tính PhoneService Error! Bookmark not defined Hình 4.4.4 Kết so sánh cụm thuộc tính MultipleLines Error! Bookmark not defined Hình 4.4.5 Kết so sánh cụm thuộc tính InternetServiceError! Bookmark not defined Hình 4.4.6 Kết so sánh cụm thuộc tính OnlineSecurity Error! Bookmark not defined Hình 4.4.7 Kết so sánh cụm thuộc tính OnlineBackup Error! Bookmark not defined Hình 4.4.8 Kết so sánh cụm thuộc tính DeviceProtection Error! Bookmark not defined Hình 4.4.9 Kết so sánh cụm thuộc tính Techsupport Error! Bookmark not defined Hình 4.4.10 Kết so sánh cụm thuộc tính StreamingTV Error! Bookmark not defined Hình 4.4.11 Kết so sánh cụm thuộc tính SreamingMovies.Error! Bookmark not defined Hình 4.4.12 Kết so sánh cụm thuộc tính Contract Error! Bookmark not defined Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.4.13 Kết so sánh cụm thuộc tính PaperlessBilling Error! Bookmark not defined Hình 4.4.14 Kết so sánh cụm thuộc tính PaymentMethod Error! Bookmark not defined Hình 4.4.15 Kết so sánh cụm thuộc tính Churn………………………… 59 Hình 4.4.16 Kết so sánh cụm thuộc tính Selected…………………… …60 Hình 4.5 Kết tính độ xác phương pháp dự báo Logistic Regression…….60 Hình 4.6 Mơ hình so sánh lớp……………………………………………………61 Hình 4.7.1 Kết so sánh lớp thuộc tính Tenure……………………………61 Hình 4.7.2 Kết so sánh lớp thuộc tính PhoneService…………………….62 Hình 4.7.3 Kết so sánh lớp thuộc tính MultipleLines……………………62 Hình 4.7.4 Kết so sánh lớp thuộc tính InternetService………………… 63 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.7.5 Kết so sánh lớp thuộc tính OnlineSecurity 63 Hình 4.7.6 Kết so sánh lớp thuộc tính OnlineBackup 63 Hình 4.7.7 Kết so sánh lớp thuộc tính DeviceProtection 64 Hình 4.7.8 Kết so sánh lớp thuộc tính StreamTV 64 Hình 4.7.9 Kết so sánh lớp thuộc tính SreamingMovies 65 Hình 4.7.10 Kết so sánh lớp thuộc tính Contract 65 Hình 4.7.11 Kết so sánh lớp thuộc tính TotalChanges……………………66 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 LỜI MỞ ĐẦU Bộ môn Khoa học liệu môn học mới, áp dụng cho tất khóa năm trở lại Dù môn lạ, với đồng hành giảng viên môn sau buổi học giúp sinh viên nắm vững kiến thức bản, hệ thống đại Đào tạo khả phân tích, nghiên cứu giải vấn đề chuyên môn lĩnh vực Khoa học liệu Sau học, sinh viên có đủ lực tham gia thực cơng việc liên quan đến liệu, bao gồm việc lập kế hoạch, tiến hành thu thập, tiền xử lý liệu (đặc biệt liệu lớn), ứng dụng mơ hình quản trị liệu, kỹ thuật thống kê, cơng cụ phân tích liệu vào giải vấn đề kinh doanh quản lý doanh nghiệp BẢNG PHÂN CÔNG THÀNH VIÊN STT Họ tên Phân cơng Mức độ hồn thành Nguyễn Thị Kim Hạnh - Chương 1: Giới thiệu KHDL giới thiệu đề tài - Chương 5: Kết luận đánh giá, nhận xét 100% Nguyễn Hoàng Tâm Chương 2: Tổng quan chương trình sử dụng mô tả liệu 100% Bùi Nguyễn Tâm Giao (nhóm trưởng) - Chương 3: Ứng dụng mơ hình, phương pháp - Tổng hợp chỉnh sửa 100% Dương Thị Mỹ Thương - Chương 3: Ứng dụng mơ hình, phương pháp - Lời mở đầu 100% Phạm Thị Thu Hằng Chương 4: Kết mơ hình phân tích kết (phân cụm so sánh cụm) 100% Phan Thanh Trúc - Mô tả, đánh giá liệu - Thống kê mô tả - Chương 4: Kết mơ hình phân tích kết (phân lớp dự báo) - Đánh giá nhóm 100% Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG I: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu Khoa học liệu 1.1.1 Dữ liệu gì? Dữ liệu thuật ngữ có từ lâu trước từ có máy tính mạng internet Thông qua liệu, thông tin máy tính truyền nhanh chóng tiện lợi Vậy liệu gì? Dữ liệu (Data) tập hợp kiện số, hành ảnh, chuỗi ký tự nhằm đo lường mô tả vật, đối tượng cụ thể Dữ liệu dễ dàng thu thập từ nhiều nguồn thông tin khác nhau, theo nhiều cách thức, phương pháp phương tiện, công cụ đa dạng khác nhau: từ nguồn sẵn có mạng xã hội, bên thứ ba (cơ quan nhà nước) thông qua quan sát, vấn, khảo sát, Dữ liệu yếu tố quan trọng lĩnh vực kinh tế chúng giúp hiểu rõ toán liên quan đến doanh nghiệp Sử dụng hiệu liệu giúp doanh nghiệp cải thiện tình hình kinh doanh, giúp đưa định nhanh xác, dự báo xu hướng thị trường, tăng khả cạnh tranh thị trường Không kinh tế mà lĩnh vực khác phát triển biết cách xử lý áp dụng liệu cách hiệu Theo Báo cáo Internet 2022 Top10BiAn.com (1/2/2022), số người dùng Internet toàn cầu đạt 4.95 tỷ người với tỷ lệ sử dụng Internet 62.5% tổng dân số giới; liệu cho thấy người dùng Internet tăng 192 triệu (+4,0%) năm qua Đi người dùng di động mạng xã hội toàn cầu chiếm tỷ lệ 67.1% 58.4% tổng dân số giới Sự tiến xã hội lồi người, đặc biệt sau cách mạng cơng nghệ 4.0, liệu trở nên quan trọng đời sống thời đại số Dữ liệu lớn (Big Data) phát triển với khối lượng lớn, đa dạng, phức tạp có tính xác thực Với đặc tính trên, liệu khó quản lý chúng công cụ truyền thống hay phần mềm thông thường (sổ sách, excel) Từ đó, khoa học liệu giúp biết cách để quản lý sử dụng hiệu nguồn liệu 1.1.2 Tổng quan Khoa học liệu Theo Amazon AWS - Khoa học liệu lĩnh vực nghiên cứu liệu nhằm khai thác thơng tin chun sâu có ý nghĩa hoạt động kinh doanh Đây phương thức tiếp cận đa ngành, kết hợp nguyên tắc phương pháp thực hành lĩnh vực tốn học, thống kê, trí tuệ nhân tạo kỹ thuật máy tính để phân tích khối lượng lớn liệu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.4.14 Kết so sánh cụm thuộc tính PaymentMethod Nhận xét: So sánh số lượng PaymentMethod cụm với cụm ta có: Bank transfer Credit card Electronic check Mailed check Cụm 559 503 485 141 Cụm 543 585 1179 1005 Ở Cụm 1, số lượng khách hàng sử dụng Bank transfer chiếm tỷ lệ cao nhất, khách hàng sử dụng Mailed check Ở Cụm 2, số lượng khách hàng sử dụng Electronic check chiếm tỷ lệ cao Khách hàng sử dụng Mailed check tương đối nhiều o,Churn: 56 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.4.15 Kết so sánh cụm thuộc tính Churn Nhận xét: So sánh số lượng Churn cụm với cụm ta có: No Yes Cụm 1445 243 Cụm 2201 1111 Số lượng khách hàng không lựa chọn rời Cụm với Cụm chiếm tỷ lệ cao p, Selected: 57 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.4.16 Kết so sánh cụm thuộc tính Selected Nhận xét: So sánh số lượng Selected cụm với cụm ta có: No Yes Cụm 1687 Cụm 3312 Ở Cụm Cụm tất khách hàng Selected 4.1.3 Đánh giá mơ hình phân cụm Là vấn đề khó khăn toán phân cụm Các phương pháp đánh giá: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối Tiêu chí đánh giá chất lượng: - Độ nén: phần tử cụm phải gần - Độ phân cách: khoảng cách cụm nên xa nhau, phân cách rõ ràng 4.1.3.1 Đánh giá (external validation) Là đánh giá kết phân cụm dựa vào cấu trúc, xu hướng phân cụm định trước cho tập liệu - so sánh sai khác cụm - so sánh với kết mẫu 58 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - độ đo: Rand statistic, Jaccard coefficient, Folkes, Mallows index, 4.1.3.2 Đánh giá nội (internal validation) - Là đánh giá kết đánh giá phân cụm mà khơng có thơng tin từ bên ngồi, chủ yếu dựa vector liệu thông qua Ma trận xấp xỉ (proximity matrix) - Tối ưu hóa số nội bộ: độ nén, độ phân tách - Các độ đo sử dụng: Hubert’s statistic, Silhouette index, Dunn’s index, F - ratio, DBI, 4.1.3.3 Đánh giá tương đối (relative validation) Đánh giá kết gom cụm việc so sánh với: - Kết gom cụm ứng với trị thông số khác - Kết gom cụm phương pháp khác 4.2 Bài toán phân lớp dự báo 4.2.1 Phân tích kết dự báo Hình 4.5 Kết tính độ xác phương pháp dự báo Logistic Regression 59 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Nhận xét: Mơ hình xây dựng có tính xác cao (79,59%), sai lầm loại 15,3% - mơ hình tốt cho dự báo Từ xác định yếu tố ảnh hưởng để tiến hành dự báo đưa dự báo ước tính mức độ hiệu dịch vụ mà doanh nghiệp cung cấp, giá triij việc giữ chân khách hàng không rời khỏi sau ký kết hợp đồng Đồng thời đánh giá yếu tố ảnh hưởng đến kết đưa giải pháp phù hợp 4.2.2 Phân tích đặc điểm lớp (dự báo): Hình 4.6 Mơ hình so sánh lớp Tenure Hình 4.7.1 Kết so sánh lớp thuộc tính Tenure 60 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Theo kết nghiên cứu, tổng thời gian mà khách hàng lại với công ty có tỷ lệ nghịch với khả khách hàng có chấm dứt hợp đồng với công ty hay không Theo nghiên cứu, sức mua khách hàng chiếm 31% khách hàng cũ quay lại trở lại mua sắm chiếm 50% Điều hoàn toàn với kết chạy từ 2043 quan sát mơ hình, có đến 95 khách hàng có thời gian gắn bó với cơng (đv) dự báo có khả rời bỏ cơng ty (chiếm 20,74%) Trong đó, có 3/2043 khách hàng (chỉ chiếm 0,66%) dự báo có khả rời bỏ công ty đặc điểm chung số khách hàng có thời gian gắn bó với cơng ty từ 50 (đv) trở lên Như vậy, việc khách hàng có khoảng thời gian gắn bó với cơng ty lâu khả lại tiếp tục gắn bó với công ty cao Các dịch vụ cơng ty: Hình 4.7.2 Kết so sánh lớp thuộc tính PhoneService 61 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.7.3 Kết so sánh lớp thuộc tính MultipleLines Hình 4.7.4 Kết so sánh lớp thuộc tính InternetService 62 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Từ kết dự báo mơ hình nghiên cứu, dịch vụ cơng ty dịch vụ điện thoại, dịch vụ đường dây Internet mang đến cho khách hàng trải nghiệm không tốt số lượng khách hàng đăng ký sử dụng dự báo rời cao gấp nhiều lần so với phần lại Cụ thể, số 430/458 khách hàng (chiếm tỷ lệ 93,89%) dự báo kết thúc hợp tác với doanh nghiệp sau đăng ký dịch vụ điều diễn tương tự với nửa số khách hàng đăng ký nhiều dịch vụ đường dây hệ thống Internet Những số liệu doanh nghiệp mắc lỗi sai trình cung cấp dịch vụ dịch vụ hiệu quả, phận chăm sóc khách hàng thiếu chuyên nghiệp, từ khơng đáp ứng nhu cầu mong muốn khách hàng Doanh nghiệp cần bắt tay vào việc lên kế hoạch để cải thiện khắc phục tình trạng khách hàng phương án phù hợp với tình hình thực tế Hình 4.7.5 Kết so sánh lớp thuộc tính OnlineSecurity 63 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.7.6 Kết so sánh lớp thuộc tính OnlineBackup Hình 4.7.7 Kết so sánh lớp thuộc tính DeviceProtection 64 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Hình 4.7.8 Kết so sánh lớp thuộc tính StreamTV Hình 4.7.9 Kết so sánh lớp thuộc tính SreamingMovies 65 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Tuy nhiên, tình hình lại vơ khả quan vị trí doanh nghiệp dịch vụ cịn lại cơng ty bảo mật trực tuyến, lưu trực tuyến, bảo vệ bổ sung cho thiết bị Internet hoàn thành tốt nhiệm vụ giữ chân khách hàng với chất lượng ổn định Chưa đến 7% khách hàng sử dụng dịch vụ bảo mật trực tuyến dụ báo có ý định rời khỏi có đến 77,95% 75,98% số khách hàng có khả cao tiếp tục gắn bó với dịch vụ lưu trực tuyến bảo vệ bổ sung cho thiết bị Internet sau trải qua thời gian sử dụng dịch vụ Trong tương lai, muốn giữ vững kết mong muốn, gia tăng số lượng khách hàng trung thành hạn chế tỷ lệ rời đi, cơng ty cần trì phát huy điểm mạnh vốn có, đồng thời nắm bắt nhu cầu khách hàng để thúc đẩy hiệu kinh doanh Contract: Hình 4.7.10 Kết so sánh lớp thuộc tính Contract 66 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Thời hạn hợp đồng bên thoả thuận với yếu tố ảnh hưởng đến định có rời hay khơng khách hàng Kết mơ hình sau chạy phương pháp dự báo giải thích hợp lý cho liệu tập huấn thực tế khách quan Tỷ lệ khách hàng có thời gian đăng ký hợp đồng dài hạn với doanh nghiệp thường có khả chấm dứt ngược lại, tỷ lệ chấm dứt cao khách hàng thỏa thuận hợp đồng ngắn hạn Cụ thể, ta thấy có đến 453 khách hàng tương đương với 98,81% lượng đối tác dự báo rời có thời hạn hợp đồng ngắn hạn theo tháng (Month-to-month), số mức đối tác với tỷ lệ nhiều 1,09% với hợp đồng có thời hạn dài Total Charges: Hình 4.7.11 Kết so sánh lớp thuộc tính TotalChanges Một nhân tố khác lý giải hiệu dự đoán khả chấm dứt hợp tác khách hàng giá hay tổng chi phí mà khách hàng phải trả Dựa vào kết thuộc tính Tổng chi phí vào cuối quý khách hàng (TotalChanges), ta dễ dàng nhận thay đổi có quy luật khách hàng đồng ý chi trả khoản lớn chi phí cho cung cấp công ty đồng nghĩa với việc khách hàng có độ hài lịng cao cung cấp dự báo có khả kết thúc hợp đồng với công ty thời gian tới số lượng chiếm 3% tổng số khách hàng có tổng chi phí lớn 4000(đv) Và tất nhiên, với 60% dự báo rời thuộc nhóm khách hàng có tổng chi phí cuối q 1000(đv) 67 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG V: KẾT LUẬN VÀ ĐÁNH GIÁ, NHẬN XÉT Chương trình bày nhìn tổng quan dự án Chương cung cấp cho ta tóm tắt dự án (bao gồm trình nghiên cứu kết mơ hình), với tính khách quan, thực tế đưa hướng dẫn phát triển, kiến nghị cho dự án tương lai 5.1 Những cơng việc thực 5.1.1 Tóm tắt Nhóm làm dự án tìm cách dự đốn rời bỏ khách hàng viễn thông dựa sở liệu lấy từ trang web telco-customer-churn Nhóm xây dựng mơ hình dự đốn rời bỏ 7043 khách hàng Đồng thời tìm hiểu mối tương quan khách hàng với 21 yếu tố khách như: giới tính, mã định danh khách hàng, đối tác, chi phí, … Sau tiến hành lấy mẫu liệu phân cụm, phân lớp phương pháp khác nhau, nhóm tiến hành đánh giá phương pháp phân lớp để lựa chọn phương pháp phân lớp tối ưu phương pháp Logistic Regression phù hợp để tiến hành dự báo với tính xác 80.3% sai lầm loại 13.5% 5.1.2 Kết luận Mục tiêu dự án dự đoán liệu khách hàng có rời bỏ cơng ty viễn thông hư cấu hay không Chúng thực phân tích liệu khám phá (EDA), xử lý tiền liệu, so sánh số mơ hình chiến lược lấy mẫu cho liệu cân Với liệu rời bỏ khách hàng viễn thông có nhãn (phân lớp), bước đầu nhóm tiến hành phân cụm liệu phương pháp Hierarchical Clustering KMeans để tìm số cụm tốt Kết cho thấy K-Means cho số cụm tốt thông qua điểm Silhouette Scores cụm tốt (0.250), kết cho thấy phương pháp K-Means cho kết phân cụm tốt 5.2 Hướng phát triển Mơ hình dùng để dự đốn rời bỏ khách hàng viễn thông dựa yếu tố khác Nó cho biết khách hàng rời đi, lại đăng ký dịch vụ họ Nhiều thông tin nhân học quan trọng bao gồm cho khách hàng, số điểm hài lòng, điểm rời bỏ giá trị lâu dài khách hàng, 68 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Dưới số hướng phát triển: - Tập trung vào khách hàng hài lịng sản phẩm dịch vụ bạn Có thể bạn chưa biết, thay cố gắng khắc phục níu giữ khách hàng muốn rời đi, bạn nên tập trung vào khách hàng hài lòng sản phẩm Họ người tạo khối lợi nhuận cao mang đến lượng khách hàng cho doanh nghiệp bạn - Phân tích tỷ lệ Customer Churn xảy Sử dụng khách hàng quen bạn phương tiện để hiểu lý khách hàng rời Phân tích cách thức thời điểm khách hàng rời thời gian tồn khách hàng với công ty bạn sử dụng liệu để đưa biện pháp ưu tiên - Cho khách hàng bạn thấy họ doanh nghiệp bạn quan tâm Bất kể người khách hàng muốn nhận quan tâm doanh nghiệp sau họ mua hàng hay sử dụng sản phẩm bạn Thay đợi kết nối với khách hàng họ liên hệ với bạn, thử cách tiếp cận chủ động Trao đổi với họ tất đặc quyền mà bạn cung cấp cho họ thấy bạn quan tâm đến trải nghiệm họ họ chắn tiếp tục 5.3 Đánh giá nhóm Ưu điểm: - Hợp tác, giúp đỡ q trình làm dự án - Nhóm phân cơng nhiệm vụ, thời gian hồn thành phần rõ ràng, cụ thể, cơng - Thành viên nhóm hoàn thành tốt nhiệm vụ cá nhân nhiệm vụ chung Nhược điểm: - Chưa thành thạo phần mềm tin học Kinh nghiệm: - Ôn tập kỹ kiến thức lý thuyết cần có dự án - Tham khảo dự án khoá trước 69 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 TÀI LIỆU THAM KHẢO: [1] https://drive.google.com/drive/folders/128do7lGHjo6-mufWGm61gvGzx5AU2PQi [2] https://crmviet.vn/customer-churn-la-gi/?fbclid=IwAR1iyCLS-VqDF2-A48AYM_ Inmn5sRbaTkKhks25EWl6-9dWm5uLrlukPiSc [3] Th.s Trần Lê Phúc Thịnh, slides giảng chương 1, 2, 3, 4, 70 Downloaded by vu ga (vuchinhhp2@gmail.com) ... Đây liệu tự nhiên thường thấy thực tế Hình 2.11 Mơ hình phân cụm liệu - Một số phương pháp phân cụm liệu * Phân cụm phân cấp (Hierarchical clustering) Phân cụm liệu là: xây dựng phân cấp cho liệu. .. 2.2 Các phương pháp sử dụng 16 2.2.1 Phương pháp phân lớp liệu: 16 2.2.2 Phương pháp phân cụm liệu: Error! Bookmark not defined CHƯƠNG III: ỨNG DỤNG MƠ HÌNH, PHƯƠNG PHÁP... tệp Telecom customer churn Hình 3.1 Nạp liệu Telecom customer churn Datasets 3.1.2 Phân tích liệu Thống kê mô tả để biết đặc điểm liệu tiến hành tiền xử lý số liệu (nếu có) Nối tập liệu với Feature

Ngày đăng: 23/02/2023, 22:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w