1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các dữ liệu từ khách hàng làm mục tiêu đánh giá và dự báo các khách hàng đã hoặc chưa đăng ký tiền gửi có kỳ hạn

34 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 1,59 MB

Nội dung

Hình 1 Quá trình phân lớp dữ liệu Hình 2.1 Quy trình khai phá dữ liệu Biểu thức 2.1 Công thức tính của Phương pháp hồi quy Logistic Hình 2.2 Mô hình phân lớp nhị phân - sử dụng phương ph

ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA TÀI CHÍNH TIỂU LUẬN BỘ MÔN KHOA HỌC DỮ LIỆU Đề tài: Nghiên cứu liệu từ khách hàng làm mục tiêu đánh giá dự báo khách hàng chưa đăng ký tiền gửi có kỳ hạn Lớp HP: 22C1INF50905942 GVHD: TS Thái Kim Phụng Lê Nguyễn Hồng Linh Hoàng Gia Huy Trần Thị Ngọc Mai Vũ Minh Chiến Võ Ngọc Như Quỳnh - 31211021630 31211022615 31211021632 31211021615 31211026876 TP Hồ Chí Minh, ngày 15 tháng 10 năm 2022 Mục lục Danh mục bảng biểu Chương 1: Tổng quan 1.1 Tổng quan toán phân lớp liệu 1.2 Giới thiệu Python phần mềm Orange 1.2.1 Python 1.2.2 Phần mềm Orange 1.3 Lý lựa chọn đề tài Chương 2: Các mơ hình phân tích liệu 2.1 Khai phá liệu 2.1.1 Khai phá liệu 2.1.2 Các tính khai phá liệu 2.1.3 Quy trình khai phá liệu 2.1.4 Phương pháp khai phá liệu 11 2.1.5 Ứng dụng khai phá liệu đời sống 12 2.1.6 Công cụ khai phá liệu sử dụng nghiên cứu 12 2.2 Các mơ hình phân lớp liệu 12 2.2.1 Mơ hình Logistic 13 2.2.2 Mơ hình Decision Tree 14 2.2.3 Mơ hình Support Vector Machine 15 2.2.4 Mơ Hình Neural Network 16 2.3 Quy trình phân lớp liệu 16 2.3.1 Phân lớp liệu 16 2.3.2 Đánh giá tính hiệu 19 Chương 3: Các kết thực nghiệm 22 3.1 Bộ liệu 22 3.2 Các kết thực nghiệm 22 3.3 Phân tích đánh giá 25 Chương 4: Kết luận 30 4.1 Các kết đạt 30 4.2 Những hạn chế giải pháp 31 Tài liệu tham khảo 33 DANH MỤC BẢNG BIỂU - HÌNH VẼ VÀ BIỂU ĐỒ Hình Quá trình phân lớp liệu Hình 2.1 Quy trình khai phá liệu Biểu thức 2.1 Cơng thức tính Phương pháp hồi quy Logistic Hình 2.2 Mơ hình phân lớp nhị phân - sử dụng phương pháp hồi quy logistic Hình 2.3 Mơ hình Cây định Hình 2.4 Minh họa Margin support vector Hình 2.5 Mơ hình phân lớp huấn luyện Hình 2.6.1 Mơ hình sử dụng để phân lớp liệu cần thiết tương lai Hình 2.6.2 Mơ hình sử dụng để phân lớp liệu cần thiết tương lai Bảng 3.1 Dữ liệu biến nghiên cứu Hình 3.1 Các thuộc tính liệu dự báo Hình 3.2 Mơ tả tổng quan trình huấn luyện vào dự báo Hình 3.3 Kết đánh giá mơ hình phương pháp K - fold Hình 3.4 Ma trận nhầm lẫn thuật tốn Neural Network Hình 3.5 Ma trận nhầm lẫn thuật tốn Decision Tree Hình 3.6 Ma trận nhầm lẫn thuật toán SVM Bảng 3.2 Kết dự đoán thuật toán liệu Test (41 đối tượng khảo sát đầu tiên) CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước (thuộc lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu Hình 1: Quá trình phân lớp liệu Quá trình phân lớp liệu gồm bước chính: - Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) - Bước 2: Sử dụng mơ hình chia thành bước nhỏ: · Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) · Bước 2.2: Phân lớp liệu Phân loại toán phân lớp: Nhiệm vụ toán phân lớp phân đối tượng liệu vào n lớp cho trước Nếu: n=2: Phân lớp nhị phân n>2: Phân lớp đa lớp - Mỗi đối tượng liệu thuộc vào lớp nhất: Phân lớp đơn nhãn - Một đối tượng liệu lúc thuộc nhiều lớp khác nhau: Phân lớp đa nhãn Các ứng dụng phân lớp liệu kinh tế: - Tài ngân hàng:  Dự báo giá chứng khoán  Kiểm toán gian lận Báo cáo tài  Xếp hạng tín dụng cá nhân tổ chức  Đánh giá rủi ro tài - Sales & Marketing:  Dự báo doanh thu  Marketing theo hướng cá nhân hóa  Dự báo khách hàng trung thành - Kinh tế học:  Dự báo khủng hoảng kinh tế  Dự báo lạm phát  Dự báo cung cầu 1.2 Giới Thiệu Về Python Phần Mềm Orange 1.2.1 Python Python ngơn ngữ lập trình hướng đối tượng, cấp cao, mạnh mẽ, tạo Guido van Rossum Python có cú pháp đơn giản dễ sử dụng, trở thành ngơn ngữ lập trình nhập mơn tốt cho người bắt đầu.Python có cấu trúc liệu cao cấp mạnh mẽ cách tiếp cận đơn giản hiệu lập trình hướng đối tượng Cú pháp lệnh Python điểm cộng vơ lớn rõ ràng, dễ hiểu linh động, làm cho nhanh chóng trở thành ngôn ngữ lý tưởng để viết script phát triển ứng dụng nhiều lĩnh vực, hầu hết tảng 1.2.2 Phần mềm Orange Orange phần mềm dùng để khai thác liệu theo phương diện mã nguồn mở Orange giúp cho người dùng có giao diện lập trình sinh động trực, dễ theo dõi chi tiết để phân tích một cách nhân nhất, xác, cụ thể Orange gói phần mềm dựa cơng cụ dùng để trực quan hóa liệu, khai thác phân tích liệu xác thơng qua ngơn ngữ lập trình Orange phần mềm kết hợp công cụ khai phá liệu học máy, cung cấp trực quan tương tác, thẩm mỹ cho người dùng phần mềm, viết Python Orange phần mềm hướng tới mục tiêu tự động hóa Đây phần mềm khai phá liệu tiện dụng, dễ dàng việc sử dụng nhờ giao diện nhỏ gọn, toolbox xếp cách mạch lạc, hợp lý, sử dụng Vì vậy, Orange phần mềm mà chúng tơi sử dụng nghiên cứu 1.3 Lý Do Chọn Lựa Đề Tài Kể từ đại dịch Covid -19 ập đến, kinh tế toàn giới lâm vào tình trạng trì trệ, tranh doanh nghiệp gia nhập rút khỏi thị trường ngày rõ nét Các ngân hàng đối mặt với lượng chi phí cao để trì thu lượng doanh thu “nhỏ giọt” Hệ thống ngân hàng thương mại bị ảnh hưởng không nhỏ mà doanh nghiệp đời sống người dân bị tác động nặng nề Năm 2020 vừa qua, ngành Ngân hàng với vai trị trung gian tài lớn nhất, giao dịch thường xuyên với chủ thể kinh tế sát cánh doanh nghiệp người dân để vượt qua khó khăn thúc đẩy kinh tế phát triển Tiền gửi có kỳ hạn nguồn thu nhập ngân hàng Tiền gửi có kỳ hạn khoản đầu tư tiền mặt tổ chức tổ chức tài Tiền người dân đầu tư với lãi suất thỏa thuận khoảng thời gian kỳ hạn cố định Ngân hàng có nhiều kế hoạch tiếp cận để bán tiền gửi có kỳ hạn cho khách hàng họ tiếp thị qua email, quảng cáo, tiếp thị qua điện thoại tiếp thị kỹ thuật số Đại dịch nguyên nhân làm cho chi phí tăng cao khiến cho người ta phải ạt rút tiền để trang trải cho sống Chính gánh nặng thế, vấn đề cấp thiết đặt để tiếp cận khách hàng tuân thủ quy định phịng dịch hay làm cách cắt giảm chi phí thời kỳ kinh tế có dấu hiệu chững lại Tất điều đưa lên giải pháp: chiến lược tiếp thị ngân hàng Các chiến dịch tiếp thị qua điện thoại cách hiệu để tiếp cận với người Tuy nhiên, họ yêu cầu đầu tư lớn trung tâm gọi lớn thuê để thực thực chiến dịch Do đó, điều quan trọng phải xác định trước khách hàng có nhiều khả chuyển đổi để họ nhắm mục tiêu cụ thể thông qua gọi Dữ liệu thu thập liên quan đến chiến dịch tiếp thị trực tiếp (gọi điện thoại) tổ chức ngân hàng Bồ Đào Nha Mục tiêu phân loại để dự đoán xem liệu khách hàng có đăng ký khoản tiền gửi có kỳ hạn hay khơng Dựa mơ hình huấn luyện trình nghiên cứu, đưa kết luận mức độ ảnh hưởng chiến dịch tiếp thị trực tiếp khách hàng CHƯƠNG 2: CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Khai phá liệu 2.1.1 Khai phá liệu gì? Khai phá liệu (Data Mining) trình xếp, phân loại tập hợp liệu lớn để xác định mẫu thành lập mối quan hệ nhằm giải nhiều vấn đề thơng qua việc phân tích liệu Các MCU khai phá liệu cho phép cơng ty hay doanh nghiệp dự báo xu hướng tương lại Quá trình để khai phá liệu trình phức tạp đòi hỏi liệu cần phải chuyên sâu u cầu nhiều kỹ tính tốn khác Hơn nữa, khai phá liệu không giới hạn việc trích xuất liệu mà cịn sử dụng để làm sạch, chuyển đổi, tích hợp liệu phân tích mẫu 2.1.2 Các tính khai phá liệu Có nhiều tham số quan trọng khai phá liệu, ví dụ quy tắc phân loại phân cụm Khai phá liệu có tính sau:  Dự báo nhiều mẫu dựa liệu huấn luyện  Tính tốn dự đốn kết  Tạo nhiều thông tin để phản hồi phân tích  Bộ liệu lớn  Phân cụm liệu cách trực quan, sinh động 2.1.3 Quy trình khai phá liệu Quy trình khai phá liệu bao gồm bước sau với quy trình khai phá liệu trình bày dạng sơ đồ hình vẽ thơng qua hình 2.1 sau:  Bước 1: Làm liệu Đây bước quy trình khai phá liệu Bước đánh giá quan trọng liệu bẩn sử dụng trực tiếp khai phá liệu gây kết nhầm lẫn, dự báo tạo kết khơng xác  Bước 2: Tích hợp liệu Ở bước này, giúp cho liệu cải thiện độ xác tốc độ trình khai phá liệu  Bước 3: Làm giảm liệu Mục đích bước giúp kích thước liệu có khối lượng nhỏ đảm bảo trì tính toàn vẹn  Bước 4: Chuyển đổi liệu Trong bước này, liệu chuyển thành dạng phù hợp với quy trình khai phá liệu Dữ liệu hợp để quy trình khai phá liệu hiệu mẫu dễ hiểu  Bước 5: Khai thác liệu Ở bước này, khai thác liệu để xác định mẫu lượng lớn liệu từ suy luận  Bước 6: Đánh giá mẫu Bước bao gồm việc xác định mẫu đại diện cho nhiều kiến thức dựa thước đo, cho biết kiến thức cần thiết, kiến thức dư thừa bị loại bỏ Các phương pháp trực quan hóa tóm tắt liệu sử dụng để người dùng hiểu liệu  Bước 7: Trình bày thông tin Dữ liệu diễn giải lại báo cáo, báo cáo dạng bảng,… sau gửi cho bên phân xử lý thơng tin Hình 2.1 Quy trình khai phá liệu 10 Good fitting: trường hợp mơ hình cho kết hợp lý với tập liệu huấn luyện giá trị mới, tức mang tính tổng qt Ngồi thực tế, mơ hình tốt mơ hình cho kết hợp lý cách chấp nhận liệu mẫu lẫn liệu Trong tất giả thiết giải thích tượng, ta nên chọn giả thiết đơn giản (Occam’s Razor) => Do tất model “đúng”, chọn model đơn giản Underfitting (chưa khớp): Mơ hình coi chưa khớp chưa phù hợp với tập liệu huấn luyện mẫu dự đốn Ngun nhân mơ hình chưa đủ độ phức tạp cần thiết để bao quát tập liệu Tồn nhiều điểm liệu mà mơ hình khơng phân loại dẫn đến độ xác mơ hình thấp 20

Ngày đăng: 30/01/2024, 04:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w