1. Trang chủ
  2. » Luận Văn - Báo Cáo

dự báo số khách hàng ngừng sử dụng dịch vụ tài chính

29 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 759,28 KB
File đính kèm code.rar (16 MB)

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC —————————————————— DỰ BÁO SỐ KHÁCH HÀNG NGỪNG SỬ DỤNG DỊCH VỤ TÀI CHÍNH Hệ hỗ trợ định Chuyên ngành: Toán tin Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Sinh viên thực hiện: PHẠM BÁ THÁI Lớp: KSTN - Toán Tin - K59 HÀ NỘI - 2020 Mục lục Mở đầu PHÁT BIỂU BÀI TỐN 1.1 Bài tốn định 1.1.1 Vấn đề công ty 1.1.2 Các yếu tố ảnh hưởng đến định Bài toán nghiệp vụ 1.2.1 Bài toán phân loại khách hàng 1.2.2 Mô tả liệu 1.2.3 Một số đặc điểm liệu 1.2 MƠ HÌNH RỪNG NGẪU NHIÊN 12 2.1 Mô tả 12 2.1.1 Cây định 12 2.1.2 Rừng ngẫu nhiên 14 Lựa chọn trường liệu 15 2.2.1 16 2.2 Phương pháp chọn 2.2.2 2.3 Kết chọn 17 Chạy thực nghiệm 20 2.3.1 Tiền xử lý 20 2.3.2 Thiết lập môi trường 21 2.3.3 Chạy đánh giá 21 XÂY DỰNG HỆ THỐNG 23 3.1 Môi trường 23 3.2 Các chức hệ thống 23 3.3 Giao diện 24 Kết luận 28 Tài liệu tham khảo 29 Mở đầu Lý thuyết định lĩnh vực quan trọng có nhiều ứng dụng Máy học phương pháp tốt đề khai thác liệu Và giới tràn ngập thông tin nay, việc không sử dụng liệu cho việc định không sáng suốt Từ toán định, vấn đề phân tích liệu xuất Ngược lại, luật trích rút từ liệu vừa hỗ trợ việc định lại vừa gợi ý cho nhà quản lý đề toán định Trong báo cáo này, em xin xây dựng mơ hình dự đốn số khách hàng ngừng sử dụng dịch vụ, nhằm giúp cơng ty tài lựa chọn sách chăm sóc khách hàng phù hợp Ý tưởng đưa toán phân loại sử dụng thuật toán rừng ngẫu nhiên Các thuộc tính chọn dựa vào mức độ tương quan chúng so với nhãn, tính cách sử dụng phương pháp thống kê cổ điển Em xin gửi lời cảm ơn tới thầy Lê Chí Ngọc định hướng hướng dẫn để em hồn thiện báo cáo Em xin chân thành cám ơn Viện toán ứng dụng tin học, ban giám hiệu trường ĐH Bách Khoa Hà Nội tạo điều kiện tốt cho em học tập nghiên cứu Hà Nội, 15 tháng 06 năm 2020 Chương PHÁT BIỂU BÀI TOÁN 1.1 Bài toán định Trong đời sống ngày, kỳ vọng thực tế giống Để xóa bỏ thu hẹp khoảng cách chiến lược (khác biệt mục tiêu thực), nhà quản lý cần đưa lựa chọn thay đổi phù hợp Việc chọn lựa phương án số phương án q trình định 1.1.1 Vấn đề công ty Trong nội dung báo cáo này, em xin phân tích vấn đề lựa chọn chiến lược chăm sóc khách hàng cho cơng ty tài Ngồi việc tìm nguồn khác hàng mới, việc chăm sóc khách hàng quan trọng tốn Giả định công ty cần lựa chọn chiến lược chăm sóc khách hàng, cho cân chi phí bỏ hiệu mà chiến lược mang lại Vấn đề định giải theo bước sơ đồ sau: Hình 1.1: Sơ đồ định 1.1.2 Các yếu tố ảnh hưởng đến định Sơ đồ việc định phức tạp trải qua nhiều bước, đặc biệt định cấp độ quản lý Với vấn đề định chọn chiến lược chăm sóc khách hàng, yếu tố cân nhắc là: • Chi phí cho chiến lược Bao gồm loại chi phí chi phí nhân sự, chi phí liên lạc, chi phí đầu tư cho trang thiết bị, • Khả thực thi chiến lược cơng ty Ví dụ lực nhân viên, danh tiếng tầm ảnh hưởng cơng ty, • Tình trạng khách hàng Các tình trạng số lượng khách hàng, số dư tài khoản họ, tổng số nợ xấu, số khách hàng khơng có tiềm lợi nhuận, Trong việc đề xuất lựa chọn phương án cơng việc địi hỏi kiến thức kinh nghiệm chun mơn cao, bước phân tích liệu sơ đồ 1.1 lại tự động hóa đưa thơng tin có ý nghĩa, phục vụ cho trình định nhà quản lý 1.2 Bài tốn nghiệp vụ Dữ liệu cho thấy nhiều luật, có luật có ý nghĩa Trong báo cáo này, em xin lựa chọn phân tích liệu đưa dự báo số khách hàng có khả cao rời khỏi hệ thống Dự báo khơng phải tốn tầm thường (giải theo thống kê cổ điển), có ý nghĩa việc hỗ trợ nhà quản lý nắm rõ tình trạng khách hàng, nhằm đưa định phù hợp 1.2.1 Bài toán phân loại khách hàng Những khách hàng "giống" có cách hành xử giống tương lai Việc dự đốn người có khả rời khỏi hệ thống hay khơng, thế, đưa toán so sánh tương đồng người với tập người rời khỏi hệ thống Từ tập liệu gán nhãn, xây dựng mơ hình phân loại người dùng, cho người rời khỏi hệ thống phân vào loại Khi mơ hình dùng để dự đốn, liệu khách hàng [mới] có khả rời khỏi hệ thống hay khơng, việc người mơ hình phân vào nhóm Ở đây, tập liệu dùng để xây dựng mơ hình tập gán nhãn, có nghĩa rõ ràng người rời khỏi hệ thống hay chưa Cịn sử dụng mơ hình để dự đốn, tất đầu vào khách hàng hệ thống Triết lý vấn đề là: Nếu người hệ thống lại có nhiều điểm "tương đồng" với người rời khỏi hệ thống, họ có khả rời khỏi hệ thống cao Tất nhiên triết lý đúng, sai Những nhà quản lý khơng tin vào triết lý đơn giản họ khơng sử dụng mơ hình Còn triết lý đúng, cần phải phân loại đong đếm khách hàng để đưa phương án phù hợp Chữ "giống" hay "tương đồng" hiểu theo nghĩa chưa biết, điều mà mơ hình giải tốn nghiệp vụ cần phải học Nghĩa (mơ tả lời), luật ẩn (khơng thể mơ tả lời) Miễn hiểu theo nghĩa đó, việc phân loại có tính xác cao 1.2.2 Mơ tả liệu Tập liệu thu thập bao gồm 100000 ghi Mỗi ghi chưa thông tin khách hàng với 14 trường Các thông tin liệu là: Mã khách hàng, tên, điểm tín dụng, khu vực địa lý, giới tính, tuổi, số lần đáo hạn, số dư, số sản phẩm sử dụng, có dùng thẻ tín dụng hay khơng, có hoạt động tích cực khơng, lương, rời khỏi hệ thống hay chưa Hình 1.2: Mô tả liệu 1.2.3 Một số đặc điểm liệu Phân tích liệu trước hết địi hỏi số kiến thức chun mơn Ví dụ "điểm tín dụng" "có tích cực khơng" công ty đánh giá thông qua hành vi khách hàng thuật tốn cơng ty Cơng ty đánh giá thơng qua tiêu chí nào? Thông tin lương người dùng tự khai báo, có hay khơng có kiểm chứng cơng ty? mức độ xác việc kiểm chứng sao? Tất điều làm ảnh hưởng đến kết tốn, nhiên nằm khả nên em xin phép loại bỏ khỏi toán, xem liệu đắn Các biểu đồ sau mô tả vài đặc điểm liệu tỷ lệ dương tính (số trường hợp rời khỏi hệ thống tổng số), tỷ lệ nam nữ, vùng địa lý hay phân bố người dùng theo điểm tín dung, theo mức lương Hình 1.3: Đặc điểm liệu Một số trường khơng có ý nghĩa tốn bị bỏ tên mã khách hàng Các trường khác có mối tương quan với nhau, tương quan dạng rõ "Nữ giới có khả rời khỏi hệ thống cao nam giới" tìm phương pháp thống kê cổ điển Sau số tính chất vậy: Tương quan tuổi điểm tín dụng thể biểu đồ 1.4 Đây tương quan khơng tuyến tính 10 Hình 2.2: Rừng ngẫu nhiên 2.2 Lựa chọn trường liệu Vì phải chọn trường liệu mà không lấy tất cả? Thứ vấn đề tài nguyên máy thời gian tính tốn, khơng q trình xây dựng mơ hình mà cịn sử dụng sau, việc giảm bớt thuộc tính cần thiết miễn khơng ảnh hưởng [nhiều] đến kết Thứ hai, có trường liệu thừa tốn (ví dụ mã khách hàng), ảnh hưởng xấu đến mơ hình theo cách lấy tài ngun mơ hình, ví dụ số rừng không đủ nhiều cho chừng thuộc tính, hay số ghi để đặc trưng cho nhiều trường Nếu cho tất trường vào tăng tài nguyên mô hình lên sao? Có thể dẫn đến việc mơ hình khớp với liệu mẫu lại khơng với 15 liệu nằm ngồi mẫu (overfit) Chẳng hạn như, từ mã khách hàng rõ ràng tìm nhãn, cách xác tuyệt đối tập huấn luyện Một mơ hình có đủ tài nguyên biểu diễn tương quan đó, khơng với liệu khác Do việc chọn lựa thuộc tính cần thiết 2.2.1 Phương pháp chọn Phương pháp dùng để chọn trường liệu đánh giá mức độ tương quan trường với nhãn Cụ thể tính xác suất người rời khỏi hệ thống trường hợp người thuộc nhóm cụ thể, sau so sánh với xác suất khơng có điều kiện Khi xác định thuộc tính có ảnh hưởng đến kết hay khơng, hay nói cách khác, xác suất rời khỏi hệ thống có độc lập với thuộc tính hay khơng Giả sử A thuộc tính rời rạc có giá trị, ví dụ giới tính hay vùng địa lý Khi ta tính xác suất rời khỏi hệ thống với điều kiện phân chia A Tức P (S|A = ), với S biến cố rời khỏi hệ thống Việc tính xác suất đơn đếm chia theo tỷ lệ Sau tính, ta kiểm tra chênh lệch xác suất với với xác suất khơng có điều kiện Nếu chúng gần A bị bỏ Trong trường hợp A liên tục có nhiều giá trị, ví dụ mức lương hay tuổi tác, A chia thành khoảng giá trị tính xác suất cho khoảng Sơ đồ sau mơ tả q trình chọn thuộc tính cho mơ hình: 16 Hình 2.3: Các bước chọn thuộc tính 2.2.2 Kết chọn Phân tích liệu cho thấy có tương quan mạnh vùng địa lý với khả rời khỏi hệ thống Cụ thể, xác suất rời khỏi hệ thống cho vùng là: • P (S|F rance) = 16.2% • P (S|Germany) = 32.4% • P (S|Spain) = 16.7% Giữa điểm tín dụng với việc rời khỏi hệ thống có tương quan mạnh Xác suất rời khỏi hệ thống cho khoảng điểm là: • P (S|[−∞, 450)) = 33.0% • P (S|[450, 550)) = 21.4% 17 Hình 2.4: Vùng địa lý • P (S|[550, 650)) = 20.8% • P (S|[650, 750)) = 19.2% • P (S|[750, 850)) = 20.0% • P (S|[850, +∞)) = 18.5% Sử dụng cách làm tương tự, kết bước chọn thuộc tính là: "Điểm tín dụng", "Vùng địa lý", "Giới tính", "Tuổi", "Số dư", "Số sản phẩm sử dụng", "Có phải thành viên tích cực" Tổng cộng: thuộc tính Phương pháp loại bỏ thuộc tính "Có thẻ tín dụng", "Mức lương", "Số lần đáo hạn" Xác suất rời khỏi hệ thống có thẻ tín dụng 20.8%, 18 Hình 2.5: Điểm tín dụng khơng có 20.2% xác suất không điều kiện 20.4% Tương tự xác suất rời khỏi hệ thống theo mức lương theo số lần đáo hạn giao động xung quanh xác suất không điều kiện Hình 2.6: Lương Tất nhiên biến cố độc lập với hai biến cố khác, khơng độc lập với giao hai biến cố Do phương pháp cho biết nên chọn 19 thuộc tính nào, khơng dùng để bỏ thuộc tính Do cần chạy lại mơ hình với nhiều tổ hợp để tăng độ xác Trong khn khổ tốn này, kết thực nghiệm cho thấy phương pháp tốt hai khía cạnh Các phân tích cho thấy mức độ tương quan chưa thể hết tương quan theo cách nào, trọng số tương quan lớn Việc chia khoảng chia phạm vi thành khoảng (6 số vừa đủ với quan sát người) Do việc sử dụng phương pháp phân tích sâu rừng ngẫu nhiên cần thiết, thay cộng tổng xác suất ứng với thuộc tính lại 2.3 Chạy thực nghiệm 2.3.1 Tiền xử lý Dữ liệu ban đầu chuẩn hóa cách thay trường số số Các số dùng số tự nhiên liên tiếp Tiếp đến, trường không dùng đến bị loại bỏ Hai bước làm với liệu ban đầu liệu sử dụng mơ hình tương lai Kế đến, tập liệu ban đầu chia làm tập huấn luyện tập test, cách ngẫu nhiên với xác suất rơi vào tập huấn luyện 80% 20 Hình 2.7: Tiền xử lý 2.3.2 Thiết lập môi trường Ngôn ngữ sử dụng python Mơi trường để huấn luyện mơ hình cần có công cụ đọc ghi file cvs thư viện csv, xử lý phép tính ma trận numpy, thao tác với liệu pandas, số thư viện hỗ trợ máy học ensemble, metrics 2.3.3 Chạy đánh giá Ngồi việc huấn luyện mơ hình cách thay đổi trọng số vote cây, tính chất chọn ngâu nhiên khởi tạo rừng, ta chạy lại thuật tốn nhiều lần để tăng độ xác Mơ hình đánh giá dựa số số accuracy, precision, recall Mơ hình đưa xác suất dương tính liệu Để đánh giá tính xác, ta cho ngưỡng phân loại chạy từ đến biểu diễn (FPR, TPR) mặt phẳng 21 Hình 2.8: Kết qủa chạy (ROC) Hình 2.9: ROC 22 Chương XÂY DỰNG HỆ THỐNG 3.1 Môi trường Hệ thống xây dựng tảng web Một số thư viện sử dụng streamlit cho giao diện, pandas cho thao tác liệu vào, sqlite3 để quản trị sở liệu, hashlib cho mã hóa thơng tin người dùng 3.2 Các chức hệ thống Hệ thống bao gồm chức năng: Đăng ký, đăng nhập, đăng xuất, nạp liệu, xem đặc điểm liệu, phân tích đơn giản, dự đốn xuất danh sách khách hàng có khả rời khỏi hệ thống cao Bảng sau đặc tả chức này: 23 3.3 Giao diện Thiết kế số module giao diện thể hình đây: 24 Hình 3.1: Đăng ký đăng nhập Hình 3.2: Nạp liệu 25 Hình 3.3: Đặc điểm liệu Hình 3.4: Phân tích đơn giản 26 Hình 3.5: Kết 27 Kết luận Báo cáo “DỰ BÁO SỐ KHÁCH HÀNG NGỪNG SỬ DỤNG DỊCH VỤ TÀI CHÍNH” đạt kết quả: • Phát biểu toán định • Phân tích liệu đưa luật • Đề xuất giải tốn nghiệp vụ • Xây dựng hệ hỗ trợ định Trong thời gian tới, đề tài phát triển theo số hướng khác như: Mở rộng phạm vi doanh nghiệp, tiếp cận phương pháp khác, Do hạn chế điều kiện thời gian, báo cáo khơng thể tránh khỏi thiếu sót Rất mong nhận đóng góp q báu thầy bạn Em xin chân thành cảm ơn! 28 Tài liệu tham khảo CSE5230 Tutorial: The ID3 Decision Tree Algorithm Hands-On Machine Learning with Scikit-Learn and TensorFlow 29 ... định Trong báo cáo này, em xin xây dựng mơ hình dự đốn số khách hàng ngừng sử dụng dịch vụ, nhằm giúp công ty tài lựa chọn sách chăm sóc khách hàng phù hợp Ý tưởng đưa tốn phân loại sử dụng thuật... Kết 27 Kết luận Báo cáo “DỰ BÁO SỐ KHÁCH HÀNG NGỪNG SỬ DỤNG DỊCH VỤ TÀI CHÍNH” đạt kết quả: • Phát biểu tốn định • Phân tích liệu đưa luật • Đề xuất giải tốn nghiệp vụ • Xây dựng hệ hỗ trợ định... thông tin khách hàng với 14 trường Các thông tin liệu là: Mã khách hàng, tên, điểm tín dụng, khu vực địa lý, giới tính, tuổi, số lần đáo hạn, số dư, số sản phẩm sử dụng, có dùng thẻ tín dụng hay

Ngày đăng: 29/07/2020, 12:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w