TIỂU LUẬN môn học KHOA học dữ LIỆU đề tài ứng dụng mô hình học máy trong việc dự đoán khả năng rời bỏ dịch vụ của khách hàng

16 23 0
TIỂU LUẬN môn học KHOA học dữ LIỆU đề tài ứng dụng mô hình học máy trong việc dự đoán khả năng rời bỏ dịch vụ của khách hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM TIỂU LUẬN MÔN HỌC KHOA HỌC DỮ LIỆU Đề tài Ứng dụng mô hình học máy trong việc dự đoán khả năng rời bỏ dịch vụ của khách hàng Giảng viên hướng dẫn[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM TIỂU LUẬN MÔN HỌC: KHOA HỌC DỮ LIỆU Đề tài: Ứng dụng mơ hình học máy việc dự đoán khả rời bỏ dịch vụ khách hàng Giảng viên hướng dẫn: Thái Kim Phụng Sinh viên thực hiện: Nguyễn Ngọc Thu Trang Lớp: FNC03 MSSV: 31191026687 Lớp học phần: 21C1INF50905915 – Sáng thứ TP.HCM, ngày 11 tháng 10 năm 2021 MỤC LỤC Giới thiệu toán ứng dụng 1.1 Lý lựa chọn đề tài .3 1.2 Mục tiêu nghiên cứu 1.3 Phương pháp thực 1.4 Đối tượng nghiên cứu Cơ sở lý thuyết .4 2.1 Phương pháp định 2.2 Phương pháp hồi quy logistics .5 2.3 Phương pháp Neural Network .5 Mơ hình nghiên cứu đề xuất 3.1 Mô tả liệu 3.2 Xử lý liệu 3.3 Trực quan hóa liệu Kết thực 15 4.1 Phân tích kết dựa phần mềm 15 4.2 Đánh giá kết mơ hình .16 Kết luận nhận xét 16 Trích dẫn 17 Giới thiệu toán ứng dụng 1.1 Lý lựa chọn đề tài - Là sinh viên Tài Chính nói riêng thuộc ngành Kinh Tế nói chung, việc áp dụng kiến thức kinh tế vào việc quan sát, nắm bắt hiểu rõ việc kinh doanh mục tiêu sinh viên ngành Thơng qua mơn học Khoa học liệu, việc áp dụng công nghệ số hiểu rõ liệu mảng Tài Chính trở nên dễ hiểu dễ áp dụng trình nghiên cứu thị trường doanh nghiệp - Đối với phương pháp khai phá liệu, chúng giúp người nâng cao khả phân tích, đánh giá liệu thời kỳ bùng nổ liệu Từ đó, giúp người có nhìn tổng quan việc cải thiện, nâng cấp thay đổi yếu tố cần thiết kinh tế nói riêng đời sống nói chung - Mức độ khách hàng rời bỏ dịch vụ vấn đề có nhiều quan tâm khơng doanh nghiệp mà đối thủ chí người tiêu dùng Mức độ thể ổn định việc kinh doanh dịch vụ công ty lợi nhuận từ việc kinh doanh Mức độ rời bỏ khách hàng bị ảnh hưởng biến như: Chi phí dịch hàng tháng, phương thức tốn phí, loại hình dịch vụ, Từ biến ảnh hưởng này, sinh viên nghiên cứu định thực đề tài dựa biến xung quanh việc khách hàng tiêu dùng dịch vụ để đánh giá mức độ khả khách có rời bỏ dịch vụ doanh nghiệp hay không 1.2 Mục tiêu nghiên cứu - Sinh viên nghiên cứu xác định mục tiêu nghiên cứu sau: o Xác định mơ hình mang lại đánh giá có độ xác cao việc nghiên cứu mức độ khách hàng rời bỏ doanh nghiệp với tập liệu công ty công nghệ hàng đầu giới IBM o Dựa mơ hình huấn luyện trình nghiên cứu, đưa kết luận mức độ rời bỏ doanh nghiệp khách hàng cách thức cải thiện mức độ 1.3 Phương pháp thực - Sử dụng ngơn ngữ lập trình Python (Jupyter Notebook), cơng cụ khai phá liệu Orange để xử lý liệu, biểu diễn liệu so sánh mô hình 1.4 Đối tượng nghiên cứu - Khách hàng sử dụng dịch vụ Internet điện thoại bàn công ty dịch vụ Telco Bộ liệu thu thập tạo công ty công nghệ IBM đăng tải trang web kaggle Tập liệu bao gồm thông tin liệu thô chứa 7043 hàng liệu (khách hàng) 21 cột (đặc tính) Cơ sở lý thuyết 2.1 Phương pháp định (Decision Tree) - Cây định phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượng thuộc kiểu liệu khác Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Hình 1: Phương pháp định - Nói ngắn gọn, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, định sinh luật để dự đoán lớp liệu chưa biết 2.2 Phương pháp hồi quy logistic (Logistic Regression) - Hồi quy logistic mơ hình thống kê dạng sử dụng hàm logistic để lập mô hình biến phụ thuộc nhị phân, tồn nhiều phần mở rộng phức tạp Trong phân tích hồi quy, hồi quy logistic (hay hồi quy logit) ước lượng tham số mơ hình logistic (một dạng hồi quy nhị phân) Về mặt toán học, mơ hình logistic nhị phân có biến phụ thuộc với hai giá trị có, chẳng hạn đạt / không đạt đại diện biến báo, hai giá trị gắn nhãn "0" "1" Hình 2: Phương pháp hồi quy logistics 2.3 Phương pháp Neural Network - Mạng Neural, gọi mạng nơ-ron nhân tạo mạng nơron mô phỏng, tập hợp học máy trung tâm thuật toán học sâu Tên cấu trúc chúng lấy cảm hứng từ não người, bắt chước cách tế bào thần kinh sinh học truyền tín hiệu cho - Mạng Neural nhân tạo bao gồm lớp nút, chứa lớp đầu vào, nhiều lớp ẩn lớp đầu Mỗi nút, nơ-ron nhân tạo, kết nối với nút khác có trọng số ngưỡng liên quan Nếu đầu nút riêng lẻ vượt giá trị ngưỡng định, nút kích hoạt, gửi liệu đến lớp mạng Nếu không, liệu chuyển đến lớp mạng Hình 3: Phương pháp Neural Network Mơ hình nghiên cứu đề xuất 3.1 Mơ tả liệu - Trong cột liệu, cột Churn mục tiêu nghiên cứu, cho biết khách hàng có rời bỏ hay không Trong này, sinh viên sử dụng 80% liệu để huấn luyện 20% để kiểm tra liệu - Các biến khác bao gồm: Tên cột Miêu tả đặc tính Customer ID Mã số khách hàng gender Cho biết khách hàng nam hay nữ SeniorCitizen Cho biết khách hàng có phải cư dân lâu năm thành phố hay không, ký hiệu (có) (khơng) Partner Cho biết khách hàng có bạn đời hay khơng, ký hiệu có khơng Cho biết người dùng có người phụ thuộc Dependents hay không (con cái, bố mẹ già, ), ký hiệu yes no tenure Cho biết số tháng khách hàng dùng dịch vụ công ty PhoneService Cho biết khách hàng dùng tới dịch vụ chăm sóc khách hàng thơng qua điện thoại hay khơng, ký hiệu có (true) khơng (false) MultipleLines Cho biết khách hàng có nhiều số điện thoại dùng cho dịch vụ chăm sóc khách hàng hay khơng (Yes, No No phone service) InternetService Cho biết dịch vụ Internet khách hàng sử dụng (DSL, Fiber optic không sử dụng) OnlineSecurity Cho biết khách hàng có sử dụng bảo mật trực tuyến hay khơng (có, khơng khơng sử dụng dịch vụ Internet) OnlineBackup Cho biết khách hàng có sử dụng dịch vụ lưu trực tuyến hay khơng (có, khơng khơng sử dụng Internet) 3.2 Xử lý liệu - Trước áp dụng liệu mơ hình, sinh viên nghiên cứu làm xử lý gọn liệu sau: Hình 4: Kết làm liệu - Quan sát liệu sinh viên nhận thấy vấn đề sau: o CustomerID thuộc tính khơng ảnh hưởng đến việc đưa đánh giá, sinh viên khơng sử dụng đặc tính q trình sau o SeniorCitizen khơng đồng với liệu cịn lại biểu diễn dạng 1, sinh viên đưa dạng có khơng o TotalCharges biểu thị số lượng tiền tập liệu thô lại biểu diễn dạng object, sinh viên thực xem xét liệu có null hay không Dữ liệu null 11 tổng số 7000 dịng, sinh viên thực loại bỏ liệu 3.3 Trực quan hóa liệu - Sinh viên sử dụng công cụ python thư viện python để trực quan hóa liệu thu kết sau - Giới tính: Hình 5: Trực quan hố liệu theo giới tính - Điều cho thấy có khác biệt không đáng kể tỷ lệ phần trăm / số lượng khách hàng thay đổi nhà cung cấp dịch vụ Cả hai giới tính có hành vi giống chuyển đến nhà cung cấp dịch vụ / công ty khác - Thời hạn hợp đồng: Hình 6: Trực quan hố liệu theo thời gian hợp đồng - Khoảng 75% khách hàng với Hợp đồng hàng tháng chọn chuyển so với 13% khách hàng với Hợp đồng năm 3% với Hợp đồng hai năm - Loại hình dịch vụ: Hình 7: Trực quan hố liệu theo loại hình dịch vụ - Rất nhiều khách hàng lựa chọn dịch vụ Cáp quang (Fiber optic) điều hiển nhiên khách hàng sử dụng Cáp quang (Fiber optic) có tỷ lệ rời bỏ cao, điều cho thấy khơng hài lịng với loại hình dịch vụ internet Khách hàng sử dụng dịch vụ DSL chiếm đa số số lượng có tỷ lệ gián đoạn so với dịch vụ cáp quang (Fiber optic) - Người phụ thuộc: Hình 8: Trực quan hoá liệu theo liệu người phụ thuộc - Dữ liệu cho thấy khách hàng có người phụ thuộc có khả rời bỏ cao so với khách hàng khơng có người phụ thuộc 10 Hình 9: Trực quan hoá liệu mức độ rời bỏ dịch vụ khách hàng có người phụ thuộc khơng có người phụ thuộc - Những khách hàng độc thân có khả rời bỏ cao khách hàng có người sống chung - Cư dân lâu năm, người cao tuổi: Hình 10: Trực quan hố liệu cư dân lâu năm người cao tuổi - Người cao tuổi có xu hướng sử dụng dịch vụ thấp thường có xu hướng rời bỏ dịch vụ - Sử dụng dịch vụ bảo mật trực tuyến: 11 Hình 11: Trực quan hố liệu khách hàng có sử dụng bảo mật trực tuyến hay không - Hầu hết khách hàng rời bỏ dịch vụ khơng có bảo mật trực tuyến - Dịch vụ hỗ trợ cơng nghệ: Hình 12: Trực quan hố liệu người dùng có sử dụng dịch vụ hỗ trợ cơng nghệ hay khơng - Ta có 71,37% khách hàng không sử dụng hỗ trợ công nghệ rời bỏ, phần lại chiếm 15,28% Điều thấy khách hàng khơng hỗ trợ cơng nghệ dường có khả rời bỏ dịch vụ cao - Dịch vụ chăm sóc khách hàng (PhoneService): 12 Hình 13: Trực quan hố liệu người sử dụng dịch vụ chăm sóc khách hàng - Một phần nhỏ khách hàng không sử dụng dịch vụ điện thoại số đó, 1/3 khách hàng có nhiều khả rời bỏ dịch vụ - Mức phí hàng tháng hàng năm: Hình 14: Mức phí hàng tháng Hình 15: Phân bổ tổng cộng mức phí o Khách hàng có mức phí hàng tháng cao thường rời bỏ dịch vụ, 13 nhiên so với mức phí hàng năm cao ngược lại o Và kết luận lại ta thu heatmap sau: Hình 16: Tổng hợp mức độ rời bỏ khách hàng với đặc tính khách hàng - Sau làm trực quan hóa liệu, sinh viên nghiên cứu áp dụng mơ hình vào liệu Kết thực 4.1 Phân tích kết dựa phần mềm - Sau thử kiểm thử mơ hình theo bước sau đây: Hình 17: Các mơ hình sử dụng kiểm thử - Thêm liệu vào tập huấn luyện 14 - Kiểm tra kết sau huấn luyện liệu, sinh viên thu kết sau: Hình 18: Kết sau huấn luyện liệu - Chọn liệu cần dự báo áp dụng mơ hình Logistic Regression, thu kết sau: Hình 19: Kết liệu áp dụng vào mơ hình Logistic Regression - Với mơ hình Logictic Regression kết dự đốn trên, ta giúp cơng ty đưa số định điều chỉnh để giúp giữ chân khác hàng lại 4.2 Đánh giá kết mơ hình - Dựa mơ hình chạy ta nhận thấy: Mơ hình hồi quy logistic cho kết tốt hẳn so với mơ hình cịn lại Do đó, sinh viên sử dụng mơ hình để áp dụng vào tập liệu cần dự đốn Sinh viên tin mơ hình nên áp dụng vào việc đánh giá khách hàng doanh nghiệp phù hợp tương lai Kết luận nhận xét - Sự rời bỏ khách hàng chắn ảnh hưởng xấu đến lợi nhuận công ty Nhiều chiến lược khác thực để loại bỏ tình trạng bỏ trốn khách hàng Cách tốt để tránh bị khách hàng rời bỏ dịch vụ công ty phải thực hiểu rõ khách hàng Điều bao gồm xác định khách hàng có nguy xáo 15 trộn làm việc để cải thiện hài lòng họ Tất nhiên, cải thiện dịch vụ khách hàng ưu tiên hàng đầu để giải vấn đề Xây dựng lòng trung thành khách hàng thơng qua trải nghiệm có liên quan dịch vụ chuyên biệt chiến lược khác để giảm bớt rời bỏ khách hàng Một số công ty khảo sát khách hàng rời để hiểu lý rời họ để áp dụng cách tiếp cận chủ động nhằm tránh tình trạng khách hàng rời tương lai - Hạn chế đề tài o Thời gian học phần ngắn, sinh viên chưa thực vững thực hành bước huấn luyện liệu làm việc với liệu o Độ xác mơ hình cịn chưa đạt tới mức tuyệt đối, khơng thể tránh khỏi sai sót q trình dự đốn nên việc đưa kết luận khơng thể dựa hồn tồn 100% vào việc chạy mơ hình o Tại Việt Nam, liệu khách hàng dạng bảo mật thơng tin, vậy, sinh viên chưa thực có hội làm việc với liệu nước liệu thực tế Trích dẫn Các thuật toán từ scratch: Hồi quy logistic (n.d.) Retrieved October 11, 2021, from ICHI.PRO website: https://ichi.pro/vi/cac-thuat-toan-tu-scratch-ho i-quy-logistic-135982420161422 Cây Quyết Định (Decision Tree) (2019, June 6) Retrieved October 11, 2021, from Trí tuệ nhân tạo website: https://trituenhantao.io/kien-thuc/decisio n-tree/ Hai, D M (n.d.) [NN] Mạng nơ-ron nhân tạo - Neural Networks Retrieved October 11, 2021, from Hai’s Blog website: https://dominhhai.github.io/ vi/2018/04/nn-intro/ 16 ... khách hàng có nhiều khả rời bỏ dịch vụ - Mức phí hàng tháng hàng năm: Hình 14: Mức phí hàng tháng Hình 15: Phân bổ tổng cộng mức phí o Khách hàng có mức phí hàng tháng cao thường rời bỏ dịch vụ, ... - Dịch vụ chăm sóc khách hàng (PhoneService): 12 Hình 13: Trực quan hoá liệu người sử dụng dịch vụ chăm sóc khách hàng - Một phần nhỏ khách hàng không sử dụng dịch vụ điện thoại số đó, 1/3 khách. .. đồng hai năm - Loại hình dịch vụ: Hình 7: Trực quan hố liệu theo loại hình dịch vụ - Rất nhiều khách hàng lựa chọn dịch vụ Cáp quang (Fiber optic) điều hiển nhiên khách hàng sử dụng Cáp quang (Fiber

Ngày đăng: 20/11/2022, 22:17

Tài liệu cùng người dùng

Tài liệu liên quan