1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ Án Môn Họcứng Dụng Máy Học Vào Bài Toán Dự Đoán Khách Hàng Tiếp Tục Sửdụng Sản Phẩm Của Ngân Hàng.pdf

39 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

lOMoARcPSD|38594337 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH KHOA KẾ TOÁN  ĐỒ ÁN MÔN HỌC ỨNG DỤNG MÁY HỌC VÀO BÀI TOÁN DỰ ĐOÁN KHÁCH HÀNG TIẾP TỤC SỬ DỤNG SẢN PHẨM CỦA NGÂN HÀNG Học phần: Khoa học dữ liệu Nhóm sinh viên: 1 HOÀNG NGHĨA TOÀN 2 PHẠM ĐOÀN TIẾN ĐẠT 3 TRƯƠNG MINH HOÀNG 4 LÊ VIẾT NHẬT QUANG Chuyên ngành: Kiểm toán Khóa: K48 Giảng viên: Trương Việt Phương TP Hồ Chí Minh, Ngày 1 tháng 10 năm 2023 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 BẢNG PHÂN CÔNG NHIỆM VỤ ST Họ và tên MSSV Nhiệm vụ Tỉ lệ đóng góp T 1 Hoàng Nghĩa Toàn 3122102496 - Chọn bộ dữ liệu 100% 0 - Tổng quan lí thuyết - Kết luận 2 Phạm Đoàn Tiến Đạt 3122102490 - Chọn bộ dữ liệu 100% 2 - Tiến hành phân lớp và dự báo - Tổng hợp kết quả 3 Trương Minh Hoàng 3122102507 - Tiền xử lý bộ dữ 100% 4 liệu - Mô tả dữ liệu 4 Lê Viết Nhật Quang 3122102575 - Tổng quan lí 100% 8 thuyết - Tổng hợp kết quả & kết luận 1 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 LỜI CẢM ƠN Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh tế Thành phố Hồ Chí Minh đã đưa môn học Khoa học dữ liệu vào chương trình giảng dạy Đặc biệt, nhóm chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - Thầy Trương Việt Phương đã dạy dỗ và truyền đạt những kiến thức quý báu cho chúng em trong suốt thời gian học tập vừa qua Trong thời gian tham gia lớp học Khoa học dữ liệu của Thầy, chúng em đã có thêm cho mình nhiều kiến thức bổ ích, tinh thần học tập hiệu quả và nghiêm túc Đây chắc chắn sẽ là những kiến thức quý báu, là hành trang để em có thể vững bước sau này Bộ môn Khoa học dữ liệu là môn học thú vị, vô cùng bổ ích và có tính thực tế cao Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên trong thời đại công nghệ số hiện nay Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế còn nhiều bỡ ngỡ Mặc dù chúng em đã cố gắng hết sức nhưng chắc chắn bài tiểu luận khó có thể tránh khỏi những thiếu 2 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 sót và nhiều chỗ còn chưa chính xác, kính mong thầy xem xét và góp ý để bài tiểu luận của chúng em được hoàn thiện hơn Chúng em xin chân thành cảm ơn! MỤC LỤC MỤC LỤC 3 DANH MỤC HÌNH 4 DANH MỤC BẢNG .5 CHƯƠNG 1 TỔNG QUAN 6 1.1 Lý Do Chọn Lựa Đề Tài 6 1.2 Giới Thiệu Về Phần Mềm Orange 6 1.3 Mục tiêu nghiên cứu .7 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 7 2.1 Mô hình phân cụm dữ liệu (Clustering Data) 7 2.2 Các Mô Hình Phân Lớp Dữ Liệu 8 2.2.1 Mô Hình Logistic Regression 8 3 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 2.2.2 Mô Hình Support Vector Machine 9 2.2.3 Mô Hình Decision Tree 11 2.3 Quy Trình Phân Lớp Dữ Liệu .11 2.3.1 Quá trình phân lớp dữ liệu .11 2.3.2 Tiền Xử Lý Dữ Liệu .14 2.3.3 Phân Lớp Dữ Liệu 14 2.3.4 Đánh Giá Tính Hiệu Quả 14 CHƯƠNG 3 CÁC KẾT QUẢ THỰC NGHIỆM 17 3.1 Tiền xử lý bộ dữ liệu .17 Bảng mô tả dữ liệu 18 3.2 Bài toán phân cụm khách hàng .24 3.3 Bài toán phân lớp khách hàng .26 Các bước thực hiện mô hình phân lớp dữ liệu 26 3.3 Kết quả dự báo 34 CHƯƠNG 4 KẾT LUẬN 34 4.1 Các Kết Quả Đạt Được và đề xuất 34 4.2 Hạn chế .35 TÀI LIỆU THAM KHẢO 36 DANH MỤC HÌ Hình 1 Mô tả quá trình phân cụm dữ liệu 7 Y Hình 2 Minh họa hồi quy Logistic Regression .8 Hình 3 Minh họa SVM 10 Hình 4 Xây dựng mô hình phân lớp 12 Hình 5 Đánh giá mô hình phân lớp 13 4 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 Hình 6 Qúa trình phân lớp dữ liệu 1 Hình 7 Minh họa phương pháp ma trận nhầm lẫn 15 Y Hình 8 Minh họa phương pháp ROC 16 Hình 9 Minh họa phương pháp AUC 1 Hình 10 Tiền xử lý dữ liệu 1 18 Y Hình 11 Mô mình phân cụm 24 Hình 12 kết quả phân cụm theo phương pháp K-means 22 Hình 13: Kiểm tra mô hình phân cụm 1 .26 Hình 14 Mô hình phân lớp 27 Hình 15: Kết quả Test & Score 28 Hình 16 Kết quả Confusion Matrix của phương pháp Logistic Regression 29 Hình 17 Kết quả Confusion Matrix của phương pháp Decision tree .30 Hình 18 Kết quả Confusion Matrix của phương pháp SVM 31 Hình 19 Kết quả phân lớp theo mô hình Logistic Regression và biểu đồ Distributions 33 DANH MỤC BẢ Bảng mô tả dữ liệu 1 .18 Y 5 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 Bảng kết quả K-means 1 .25 CHƯƠNG 1 TỔNG QUAN 1.1 Lý Do Chọn Lựa Đề Tài Khai phá dữ liệu là một kỹ thuật phổ biến, được sử dụng để trích xuất thông tin hữu ích từ dữ liệu đã có, từ đó hỗ trợ ra các quyết định có lợi cho tương lai Việc xác định khách hàng có rời bỏ sản phẩm đang sử dụng của ngân hàng hay không là một phần quan trọng trong việc duy trì doanh thu và lợi nhuận của ngân hàng Tỷ lệ khách hàng rời bỏ cao có thể dẫn đến giảm doanh thu, lợi nhuận Vì ngân hàng sẽ mất đi các khoản phí và lãi từ các khách hàng này và ngân hàng sẽ phải chi thêm tiền để tiếp thị và bán hàng cho các khách hàng mới Hơn nữa, tỷ lệ khách hàng rời bỏ cao có thể làm thay đổi cơ cấu khách hàng của ngân hàng, vì những khách hàng rời bỏ thường là những khách hàng có giá trị cao Bằng cách sử dụng các phương pháp và dấu hiệu thích hợp, các ngân hàng có thể phát hiện và giải quyết các vấn đề sớm, giúp giữ chân khách hàng và giảm tỷ lệ khách hàng rời bỏ Vì vậy nhóm em lựa chọn đề tài “ỨNG DỤNG MÁY HỌC VÀO BÀI TOÁN DỰ ĐOÁN KHÁCH HÀNG TIẾP TỤC SỬ DỤNG SẢN PHẨN CỦA NGÂN HÀNG ” nhằm muốn đạt được những điều sau đây: Xác định và hình dung những yếu tố nào góp phần khiến khách hàng rời bỏ; Xây dựng mô hình dự đoán sẽ thực hiện các hoạt động: phân loại xem khách hàng có rời bỏ hay không và là dựa trên hiệu suất của mô hình 6 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 1.2 Giới Thiệu Về Phần Mềm Orange Giới thiệu về Phần Mềm Orange: Orange là một công cụ khai phá dữ liệu và học máy nguồn mở, được viết bằng Python Orange cung cấp một môi trường trực quan và tương tác để phân tích dữ liệu và xây dựng các mô hình học máy Orange có một số tính năng chính, bao gồm:  Trực quan hóa dữ liệu: Orange cung cấp một loạt các công cụ để trực quan hóa dữ liệu, bao gồm biểu đồ, đồ thị, và bản đồ nhiệt  Khai thác dữ liệu: Orange cung cấp một loạt các thuật toán khai thác dữ liệu, bao gồm phân loại, hồi quy, và clustering  Học máy: Orange cung cấp một loạt các mô hình học máy, bao gồm các mô hình dựa trên cây, các mô hình dựa trên sự hỗ trợ vector, và các mô hình dựa trên mạng nơ-ron Orange là một công cụ mạnh mẽ cho phân tích dữ liệu và học máy Nó là một lựa chọn tốt cho các nhà khoa học dữ liệu, kỹ sư máy học, và sinh viên 1.3 Mục tiêu nghiên cứu Nghiên cứu này nhằm phân tích khả năng hủy phòng khách sạn đã đặt, nhằm cung cấp thông tin quan trọng và sâu rộng về sự chuẩn bị, cũng như chiến lược kinh doanh cho 2 loại hình khách sạn là: khách sạn nghỉ dưỡng và khách sạn thành phố Có 2 mục tiêu chính của đề tài cũng ứng với 2 bài toán cần giải quyết của bài nghiên cứu Dùng phương pháp Hierarchical Clustering để thực hiện và phân loại khách hàng làm các nhóm và nhận xét để nhận thấy rõ đặc điểm của khách hàng Ứng dụng bài toán phân lớp để dự đoán khả năng hủy phòng khách sạn của khách hàng CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Mô hình phân cụm dữ liệu (Clustering Data) Là quá trình gom các cụm/nhóm của các đối tượng hoặc dữ liệu có đặc điểm tương đồng vào các cụm hoặc nhóm tương ứng Trong đó: đối tượng nào có những tính chất tương tự nhau sẽ được xếp vào cùng một cụm và ngược lại Dữ liệu sử dụng trong kỹ thuật này là dữ liệu chưa được gán nhãn và thường thấy trong thực tế 7 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 Hình 1 Mô tả quá trình phân cụm dữ liệu 2.1.5.4 Phân cụm phân cấp (Hierarchical Clustering): Được xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên: - Ma trận khoảng cách giữa các phần tử (similarity matrix or dissimilarity matrix) - Độ đo khoảng cách giữa các cụm (single link, complete link…) Có 5 cách đo lường: Single, Average, Weighted, Complete, Ward Một số phương pháp tính khoảng cách (Distance): Single-link, complete-link, average-link, mean, centroid, medoid 2.1.5.5 Phân cụm phân hoạch (Partitioning Clustering): Thuật toán K-means: là thuật toán quan trọng và được sử dụng một cách rộng rãi trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means đó chính là tìm cách phân nhóm các đối tượng đã cho vào K cụm (K là số các cụm đã được xác định trước và K là số nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm của nhóm là nhỏ nhất Các phương pháp đánh giá phân cụm dữ liệu: - Phương pháp đánh giá ngoài (External validation): Đánh giá kết quả phân cụm dựa vào cấu trúc hoặc xu hướng phân cụm đã được chỉ định trước đó cho tập dữ liệu - Phương pháp đánh giá nội bộ (Internal validation): Đánh giá kết quả của phân cụm mà không có thông tin từ bên ngoài, chỉ chủ yếu dựa vào các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix) - Silhouette index: nằm trong khoảng [-1,1] Trong đó, 8 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com) lOMoARcPSD|38594337 ● Si ≥ 0.5: Sát thực tế ● 0.25 ≤ Si < 0.5: cần đánh giá lại (Theo kinh nghiệm của chuyên gia) ● Si < 0.25: Không tin tưởng vào cluster, tìm phương pháp đánh giá khác 2.2 Các Mô Hình Phân Lớp Dữ Liệu Định nghĩa: Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Kỹ thuật này dùng để rút trích các thông tin cần thiết từ kho dữ liệu có sẵn Vì thế, đối với kỹ thuật này, chúng ta sẽ áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng Đây cũng là kỹ thuật có vai trò quan trọng trong việc dự báo các quy luật, xu hướng, … bằng cách mô tả các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thể 2.2.1 Mô Hình Logistic Regression Khái niệm: là mô hình dùng để dự đoan xác suất của một sự kiện xảy ra dựa trên một hoặc nhiều biến độc lập Hồi quy logistic sử dụng một hàm logistic để biến đổi giá trị của biến phụ thuộc nhị phân thành một giá trị liên tục nằm trong khoảng từ 0 đến 1 Giá trị này có thể được hiểu như là xác suất để sự kiện xảy ra khi biết các biến độc lập Các loại hồi quy logistic:  Hồi quy logistic nhị phân: Đây là loại hồi quy logistic khi biến phụ thuộc chỉ có hai kết quả có thể, chẳng hạn như có hay không, đạt hay không đạt, bệnh hay khỏe, v.v Hồi quy logistic nhị phân sử dụng một hàm logistic để biến đổi giá trị của biến phụ thuộc nhị phân thành một giá trị liên tục nằm trong khoảng từ 0 đến 1 Giá trị này có thể được hiểu như là xác suất để sự kiện xảy ra khi biết các biến độc lập 9 Downloaded by NGUYEN BAY (tailieuso.17@gmail.com)

Ngày đăng: 12/03/2024, 09:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w