1 ] [ Type here 1 Sinh viên Lâm Th ả o Anh TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HỆ HỖ TRỢ QUYẾT ĐỊNH BÁO CÁO Giảng viên hướng dẫn TS Lê Hải Hà Sinh viên thực hiện Đỗ Thị Vân MSSV 20185493 Lớp Hệ thống thôn[.]
[Type here] TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO HỆ HỖ TRỢ QUYẾT ĐỊNH Giảng viên hướng dẫn: TS Lê Hải Hà Sinh viên thực hiện: Đỗ Thị Vân MSSV: 20185493 Lớp: Hệ thống thông tin quản lý – K63 Hà Nội, 06/2021 Sinh viên: Lâm Th ảo Anh Mục Lục CHƯƠNG 1: ĐIỀU TRA, KHẢO SÁT 1.1 Thực trạng 1.2 Bài toán nghiệp vụ 1.3 Dữ liệu thực nghiệm 1.4 Thiết lập mô hình 1.4.1 Mô hình áp dụng thuật tốn Logistic regression 1.4.2 Phân tích CHƯƠNG 2: PHÂN TÍCH HỆ THỐNG 13 2.1 Sơ đồ phân cấp chức 13 2.2 Biểu đồ luồng liệu mức 13 2.3 Biểu đồ luồng liệu mức 14 2.4 Biểu đồ luồng liệu mức 2: Chức Dự báo 14 CHƯƠNG 3: THIẾT KẾ CHƯƠNG TRÌNH 15 3.1 Ngơn ngữ viết chương trình 15 3.2 Giao diện chương trình 16 3.3 Kết luận 19 Tài liệu tham khảo: 20 CHƯƠNG 1: ĐIỀU TRA, KHẢO SÁT Thực trạng Hiện để đánh giá thành công thương hiệu doanh nghiệp thường trọng vào doanh thu thay số số quan trọng khác Trong trình hoạt động tổ chức, doanh nghiệp thường xảy tượng mất khách hàng Có nhiều nguyên nhân dẫn đến hao hụt khách hàng, số trường hợp rời thay đổi nơi sinh sống có số lí khách quan khác, đa phần khách hàng cảm thấy khơng hài lịng với dịch vụ cung cấp Việc mát khách hàng dẫn tới thiệt hại nghiêm trọng đặc biệt cơng ty subscriber-based Đơn giản nguồn thu từ cơng ty đến từ phí sử dụng hàng tháng Do vấn đề cần quan tâm nhà quản lý để trì giữ chân khách hàng sử dụng dịch vụ việc giữ chân khách hàng tốn nhiều so với việc có khách hàng Mặc dù nhà quản lý có kinh nghiệm việc đưa sách giữ chân khách hàng họ lại khó biết là người mà cần quan tâm nhiều cấp bách Chính địi hỏi hệ hỗ trợ dự báo khả khách hàng rời khỏi dịch vụ nhằm giúp nhà quản lý nắm rõ đối tượng cần quan tâm đưa chiến lược giữ chân khách hàng đạt hiệu tối đa 1.1 Bài toán nghiệp vụ Dữ liệu có thơng qua giao dịch có khách hàng với hệ thống Thơng tin giao dịch khách hàng đơn vị, phòng ban thu thập tập trung, lưu trữ sở liệu hệ thống Thông qua giao dịch hệ thống phân tích hành vi khách hàng tương lai Hệ hỗ trợ dự báo khách hàng rời khỏi dịch vụ ngân hàng có nhiệm vụ dự đốn xem khách hàng có khả rời ngân hàng tháng tới hay không Ngân hàng sử dụng phát hệ thống có kế hoạch thu hút lại khách hàng có ý định rời khỏi dịch vụ 1.2 1.3 Dữ liệu thực nghiệm https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling - Bộ liệu gồm 10000 nghìn ghi gồm 14 trường liệu: + RowNumber: Chỉ mục + CustomerId: Mã định danh khách hàng + Surname: Họ + Credistcore: Số điểm tài khoản +Geography: Khu vực + Gender: Giới tính + Age: Tuổi + Tenure: Nhiệm kỳ + Balance: Số dư +NumOfProducts: Số lượng sản phẩm ngân hàng liên kết + HasCrCard: Khách hàng có thẻ tín dụng hay chưa (có-1, chưa-0) + IsActiveMember: Hoạt động khách hàng có tích cực khơng + EstimatedSalary: Mức lương năm khách hàng tự báo cáo + Exited: Đã rời khỏi ngân hàng chưa (Có-1, Chưa-0) Dữ liệu khơng có giá trị bị thiếu lưu bảng tính Excel, file csv - trường: RowNumber, CustomerId, Surname dùng để xác định khách hàng, không tham gia vào q trình phân tích - trường Geography, Gender, HasCrCard, IsActiveMember biến phân loại - Trường Exited dùng để xác định mối liên quan trường với việc rời hay chưa - trường lại biến liên tục cần tiền xử lý liệu 1.4 Thiết lập mơ hình 1.4.1 Mơ hình áp dụng thuật tốn Logistic regression - Phân tích hồi quy Logistic kỹ thuật thống kê mà dạng sử dụng hàm Logistic để xem xét mối liên hệ biến độc lập (biến số biến phân loại) với biến phụ thuộc biến nhị phân Việc tương đương với chuyện phân loại đầu vào x vào nhóm y tương ứng Ví dụ: Dự báo xác suất khách hàng rời khỏi dịch vụ khách hàng Gọi biến phụ thuộc "rời khỏi" y (y = 1: rời khỏi, y = 0: chưa rời khỏi), Đầu vào X thông tin khách hàng nhập vào - Sử dụng phương pháp thống kê ta coi khả đầu vào X nằm vào nhóm y0 xác suất nhóm y0 biết X: p(y0|X) Dựa vào cơng thức xác xuất hậu nghiệm ta có: Hàm σ(a) gọi hàm sigmoid (logistic sigmoid function) Hàm có số tính chất sau: - Là hàm số liên tục nhận giá trị thực, bị chặn khoảng (0, 1) - Hàm có đạo hàm nơi, lợi cho việc tối ưu Nếu coi điểm có tung độ 1/2 ngưỡng, điểm xa ngưỡng phía bên trái có giá trị gần 0, điểm xa ngưỡng phía bên phải có giá trị gần - Vận dụng thuyết phân phối chuẩn, ta có: Đặt X0 = [1, , 1], ta viết gọn lại thành: Cơng thức tính xác suất lúc này: Trong đó, X thuộc tính đầu vào cịn w trọng số tương ứng Có cơng thức tính xác suất ta sử dụng ngưỡng ε ∈ [0, 1] để định nhóm tương ứng Cụ thể: Ta cần tối thiểu hố hàm lỗi sau: Trong đó, m kích cỡ tập liệu, y(i) lớp tương ứng liệu thứ i tập liệu, σ(i) = σ(w>x(i)) xác suất tương ứng tính với mơ hình cho liệu thứ i Để tối ưu hàm J(w) trên, ta lại sử dụng phương pháp Gradient Descent để thực Ở đây, đạo hàm hàm tính sau: Ưu điểm – Đơn giản, dễ thực hiện, hiệu – Khơng địi hỏi q nhiều tài ngun tính tốn – Ứng dụng nhiều lĩnh vực: lao động, sản xuất (khả hư hỏng thiết bị, ), kinh doanh (khả rời dịch vụ, phân khúc khách hàng, ), y tế (khả mắc bệnh, ), … Nhược điểm – Không giải vấn đề phi tuyến tính – Phụ thuộc cao vào tính đắn liệu – Chỉ dự đoán kết phân loại 1.4.2 Phân tích - Kiểu liệu: - Ma trận tương quan: + Các có màu gần nghĩa mức độ tương quan thấp, màu gần với -1 tức có mức độ tương quan cao + Từ biểu đồ thấy đặc tính có mức độ tương quan thấp với Exited là: Age, NumOfProduct, Geography, IsActiveMember, Balance, Gender => Sẽ giữ tất biến liên tục + Age: Những khách hàng không theo chu kỳ có phân bổ lệch trái (có xu hướng trẻ) Những người ngồi 60 tuổi khách hàng ổn định ngân hàng Những khách hàng rời chủ yếu độ tuổi 40 đến 50 Họ cần chuyển sang dịch vụ ngân hàng khác cho mục đích nghỉ hưu vấn đề tồn gia đình + Balance: 10 Hai nhóm (rời khơng rời đi) có phân bố giống Các khách hàng có số dư gần với khả rời thấp + Gender: Ngân hàng có nhiều khách hàng nam khách hàng nữ khách hàng nữ lại có tỉ lệ rời cao khách hàng nam +Geography: Khách hàng Đức có nhiều khả rời khỏi dịch vụ so với khách hàng Pháp Tây Ban Nha 11 - Đào tạo liệu: Selecting liệu: Do liệu không cân (exit < notexit) => Tăng số lượng mẫu SMOTE: Sử dụng thuật toán Logistic Regression để dự đốn: Với độ xác 78,53%, kết chấp nhận với toán phân loại nhị phân Khi liệu update mơ hình cải tiến cách luyện lại với liệu 12 CHƯƠNG 2: PHÂN TÍCH HỆ THỐNG 2.1 Sơ đồ phân cấp chức 2.2 Biểu đồ luồng liệu mức 13 2.3 Biểu đồ luồng liệu mức 2.4 Biểu đồ luồng liệu mức 2: Chức Dự báo 14 CHƯƠNG 3: THIẾT KẾ CHƯƠNG TRÌNH 3.1 Ngơn ngữ viết chương trình a HTML HTML từ viết tắt HyperText Markup Language (ngôn ngữ đánh dấu siêu văn bản) dùng mô tả cấu trúc trang Web tạo loại tài liệu xem trình duyệt HTML tạo phát triển tổ chức W3C (World Wide Web Consortium) Hiện phiên HTML HTML5 với nhiều tính ưu việt so với phiên cũ b CSS CSS (viết tắt Cascading Style Sheets) ngôn ngữ định dạng sử dụng để mơ tả trình bày trang Web, bao gồm màu sắc, cách bố trí phơng chữ CSS cho phép chúng hiển thị nội dung tương thích loại thiết bị có kích thước hình khác nhau, chẳng hạn hình lớn, hình nhỏ điện thoại hay máy tính CSS độc lập với HTML sử dụng với ngôn ngữ đánh dấu xây dựng dựa XML CSS tuân theo chuẩn chung W3C quy định c Python(Flask) Sử dụng thư viện flask python Python ngôn ngữ đơn giản dễ sử dụng ngôn ngữ thơng dụng Python kết nối với đối tượng môi trường để cung cấp kiểm sốt chương trình đối tượng với chúng Python cho phép tính tốn sử dụng model cách đơn giản dễ dàng, tính tốn đơn giản, thực số giao tác đơn giản trang web Python hỗ trợ tất trình duyệt Firefox, Chorme, chí trình duyệt thiết bị di dộng có hỗ trợ Hiện python ngôn ngữ thông dụng giới 15 3.2 Giao diện chương trình 16 17 18 3.3 Kết luận Trong báo cáo em trình bày quy trình phân tích thiết kế hệ thống hỗ trợ dự đoán khả rời khách hàng Đưa dự đoán dạng báo cáo trực quan, dễ sử dụng Chương trình giúp nhà quản lý nhìn yếu tố có ảnh hưởng nhiều đến khả rời khỏi dịch vụ khách hàng, từ đưa định phù hợp với tình hình có kế hoạch cho tương lai Do hạn chế định thời gian, kinh nghiệm nên báo cáo không tránh khỏi sai sót, em mong nhận ý kiến đóng góp chỉnh sửa từ Thầy để báo cáo em hoàn thiện 19 Tài liệu tham khảo: https://datatofish.com/logistic-regression-python/ https://dominhhai.github.io/vi/2017/12/ml-logistic-regression/ https://nttuan8.com/bai-2-logistic-regression/ https://towardsdatascience.com/how-to-easily-deploy-machine-learning-modelsusing-flask-b95af8fe34d4 20 ... với hệ thống Thơng tin giao dịch khách hàng đơn vị, phòng ban thu thập tập trung, lưu trữ sở liệu hệ thống Thông qua giao dịch hệ thống phân tích hành vi khách hàng tương lai Hệ hỗ trợ dự báo. .. Python hỗ trợ tất trình duyệt Firefox, Chorme, chí trình duyệt thiết bị di dộng có hỗ trợ Hiện python ngôn ngữ thông dụng giới 15 3.2 Giao diện chương trình 16 17 18 3.3 Kết luận Trong báo cáo. .. đưa định phù hợp với tình hình có kế hoạch cho tương lai Do hạn chế định thời gian, kinh nghiệm nên báo cáo không tránh khỏi sai sót, em mong nhận ý kiến đóng góp chỉnh sửa từ Thầy để báo cáo