Trong báo cáo này, tôi sẽ trình bày về các phương pháp phân loại điểm tín dụng cũng như sử dụng các thuật toán máy học để phân loại điểm tín dụng.. Tóm lại, phân loại môn học máy là quá
Trang 1PHÂN HIỆU TRƯỜNG ĐẠI HỌC THỦY LỢI
KHOA CÔNG NGHỆ THÔNG TIN
-*** -
BÁO CÁO BÀI TẬP LỚN HỌC PHẦN “HỌC MÁY” Đề tài: PHÂN LOẠI ĐIỂM TÍN DỤNG GVHD: VŨ THỊ HẠNH Sinh viên thực hiện: Võ Quốc Cường _ S23-62TH Trần Minh Phúc _ S23-62TH Bình Thạnh ,ngày 17 tháng 6 năm 2023. MỤC LỤC LỜI CẢM ƠN 3
LỜI MỞ ĐẦU 4
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 5
1.1: Khái niệm 5
1.1.1:Phân loại là gì? 6
Trang 2CHƯƠNG II: TRÌNH BÀY THUẬT TOÁN 6
2.1: Các bước trình bày bài toán 8
CHƯƠNG III: BÀI TOÁN 8
3.1: Mô tả bài toán 9
3.2: Phân tích bài toán 10
3.2: Triển khai bài toán 12 KẾT LUẬN CHUNG 13 TÀI LIỆU THAM KHẢO 15
LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành gửi lời cảm ơn tới các thầy cô giáo trong Trường Phân Hiệu Đại Học Thủy Lợi nói chung và các thầy cô giáo trong Khoa Công nghệ thông tin nói riêng đã tận tình giảng dạy, truyền đạt cho chúng em những kiến thức cũng như kinh nghiệm quý báu trong suốt quá trình học
Đặc biệt, chúng em xin gửi lời cảm ơn đến Cô Giáo Vũ Thị Hạnh - giảng viên Khoa Công nghệ thông tin - Trường Phân Hiệu Đại Học Thủy Lợi, Cô đã tận tình theo sát giúp đỡ, trực tiếp chỉ bảo, hướng dẫn trong suốt quá trình nghiên cứu và học tập của chúng em Trong thời gian học tập với Cô, nhóm chúng em không những tiếp thu thêm nhiều kiến thức bổ ích mà còn học tập được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu quả Đây là những điều rất cần thiết cho chúng em trong quá trình học tập và công tác sau này Do thời gian thực hiện có hạn kiến thức còn nhiều hạn chế nên bài làm của chúng em chắc chắn không tránh khỏi những thiếu sót nhất định Em rất mong nhận được ý kiến đóng góp của thầy cô giáo và các bạn để em có thêm kinh nghiệm và tiếp tục hoàn thiện đồ án của mình Chúng em xin chân thành cảm ơn
Trang 3LỜI NÓI ĐẦU
Mục tiêu của bài toán này là phân loại khách hàng xin vay tiền có thể trả được khoản vay hay không dựa trên thông tin của khách hàng như lịch sử tín
dụng,thunhập, số lượng khoản vay hiện tại và các thông tin khác
Bài toán phân loại điểm tín dụng là một trong những bài toán phổ biến trong lĩnh vực ngân hàng và tài chính Việc áp dụng máy học để giải quyết bài toán này giúp cho các tổ chức tài chính có thể đưa ra quyết định vay tiền một cách nhanh chóng
và chính xác
Trong báo cáo này, tôi sẽ trình bày về các phương pháp phân loại điểm tín dụng cũng như sử dụng các thuật toán máy học để phân loại điểm tín dụng Bên cạnh đó, tôi cũng sẽ giới thiệu về các bộ dữ liệu thường được sử dụng để huấn luyện và kiểm định mô hình
Báo cáo này được thực hiện với mong muốn góp phần nâng cao hiệu quả công tác cho vay và giúp các tổ chức tài chính đưa ra quyết định đúng đắn về việc cho vay tiền Tôi hy vọng rằng báo cáo sẽ mang lại những thông tin hữu ích và quý vị sẽ có những nhận xét đánh giá tích cực về nó
I KHÁI NIỆM
Trang 41 PHÂN LOẠI LÀ GÌ?
Phân loại môn học máy được thực hiện dựa trên nhiều tiêu chí khác nhau Tuy
nhiên, trong bài này, tôi sẽ trình bày lý thuyết phân loại môn học máy dựa trên các thuật toán phân loại và ứng dụng của chúng
Các thuật toán phân loại là các kỹ thuật trong Machine Learning giúp xây dựng mô hình dự đoán cho dữ liệu mới dựa trên các quan sát đã biết từ trước Các thuật toán phân loại chủ yếu được chia thành hai loại: Classification (Học có giám sát) và Clustering (Học không giám sát)
1 Classification
Trong Supervised Learning, chúng ta có một tập dữ liệu được gọi là Training Data (Dữ liệu huấn luyện) với đầu vào và đầu ra được xác định rõ ràng trước đó Mục tiêu là xây dựng một mô hình dự đoán cho dữ liệu mới dựa trên các quan sát đã biết
từ trước Các thuật toán Supervised Learning phổ biến bao gồm: Linear Regression, Logistic Regression, Decision Tree, Random Forest, Naive Bayes, K-Nearest Neighbors và Support Vector Machines (SVM)
2 Clustering
Trong Unsupervised Learning, chúng ta không có đầu ra được xác định trước Mục tiêu của chúng ta là phân loại các dữ liệu trong tập dữ liệu thành các nhóm hoặc cụm dữ liệu có tính chất giống nhau Các thuật toán Unsupervised Learning phổ biến bao gồm: Clustering, Dimensionality Reduction và Association Rule Mining
Ứng dụng của các thuật toán phân loại trong Machine Learning rất đa dạng, ví dụ như Phân loại hình ảnh (Image Classification), Phân loại văn bản (Text
Classification), Dự đoán giá cổ phiếu (Stock Price Prediction), Phát hiện gian lận
Trang 5trong thẻ tín dụng (Credit Card Fraud Detection),
Tóm lại, phân loại môn học máy là quá trình sử dụng các thuật toán phân loại để tìm
ra các mô hình dự đoán chính xác cho các dữ liệu mới dựa trên các quan sát đã biết
từ trước
II Thuật Toán
Thuật toán cây quyết định là một trong những thuật toán được sử dụng phổ biến trong Machine Learning để giải quyết các bài toán phân loại và dự đoán Để áp dụng thuật toán này vào bài toán phân loại điểm tín dụng, ta thực hiện các bước sau:
Bước 1: Thu thập dữ liệu
Trong bài toán phân loại điểm tín dụng, chúng ta cần thu thập dữ liệu từ các khách hàng bao gồm các thông tin về Age,Gender,Income,Education,Marital
Status,Number of Children,Home Ownership,Credit Score
Bước 2: Chuẩn bị dữ liệu
Sau khi thu thập được dữ liệu, ta cần tiền xử lý dữ liệu như loại bỏ các giá trị thiếu, chuẩn hóa các giá trị số về cùng một khoảng giá trị và mã hoá các biến phân loại thành dạng số Truy cập đường dẫn
https://www.kaggle.com/datasets/sujithmandala/credit-score-classification-dataset
để tải xuống bộ dữ liệu và đọc file CSV trong google colab
Thực hiện các bước tiền xử lý dữ liệu cần thiết, chẳng hạn như loại bỏ các giá trị bị thiếu, mã hóa các biến phân loại, và chọn các biến có ảnh hưởng đáng kể đến mục tiêu
Trang 6Cụ thể là đọc file CSV in ra bản dữ liệu và thông tin khung dữ liệu , thống kê mô tả khung dữ liệu Chia dữ liệu thành hai tập dữ liệu: tập huấn luyện và tập kiểm tra
Áp dụng các thuật toán phân loại khác nhau để phân loại các điểm tín dụng trong tập kiểm tra Sử dụng mô hình phân loại
Bước 3: Xây dựng cây quyết định
Để xây dựng cây quyết định, ta sẽ thực hiện các bước sau:
Tiến hành tiền xử lý dữ liệu, bao gồm loại bỏ các cột không cần thiết, mã hóa các biến phân loại, và chia tập dữ liệu thành tập huấn luyện và tập kiểm tra Sử dụng thư viện scikit-learn trong Python để xây dựng mô hình cây quyết định Sử dụng tập huấn luyện để huấn luyện mô hình cây quyết định
Đánh giá hiệu suất của mô hình bằng cách sử dụng tập kiểm tra và các độ đo thông thường như độ chính xác, độ phủ, và F1 score Tinh chỉnh các siêu tham số của mô hình để cải thiện hiệu suất nếu cần.Áp dụng mô hình đã huấn luyện để dự đoán phân loại điểm tín dụng cho dữ liệu mới Đánh giá khả năng áp dụng của mô hình trên các bộ dữ liệu khác và so sánh với các mô hình phân loại khác để chọn ra mô hình tốt nhất
Bước 4: Đánh giá và kiểm tra mô hình
Bộ dữ liệu này được sử dụng để xây dựng các mô hình phân loại khác nhau để dự đoán điểm tín dụng của khách hàng
Để kiểm tra và đánh giá mô hình dựa trên bộ dữ liệu này, ta có thể chia tập dữ liệu thành hai phần: tập huấn luyện và tập kiểm tra Tập huấn luyện được sử dụng để huấn luyện mô hình, trong khi tập kiểm tra được sử dụng để đánh giá hiệu suất của
mô hình Ta có thể sử dụng nhiều phương pháp đánh giá mô hình như Precision, Recall, F1-score
Trang 7Việc đánh giá mô hình dựa trên bộ dữ liệu này còn phụ thuộc vào mô hình được sử dụng Mô hình phân loại được sử dụng để dự đoán điểm tín dụng ở bài toán này là Decision Tree.Nếu mô hình được xây dựng tốt và đưa ra dự đoán chính xác, ta có thể sử dụng nó để phân loại điểm tín dụng của khách hàng trong thực tế
Tuy nhiên, cần lưu ý rằng bộ dữ liệu trên Kaggle không phải là bộ dữ liệu thật sự được sử dụng trong các hệ thống phân loại điểm tín dụng, do đó kết quả đánh giá
và kiểm tra mô hình chỉ mang tính tương đối và không phản ánh chính xác hiệu suất của mô hình trong thực tế
III BÀI TOÁN
1.Mô tả bài toán
Đề tài "Phân loại điểm tín dụng" là một bài toán trong lĩnh vực tài chính, nó liên quan đến việc đánh giá khả năng vay của khách hàng Với việc thu thập các thông tin như thu nhập, tuổi, tình trạng hôn nhân, giới tính , có nhà hoặc thuê , số lượng con trong gia đình, mục đích của bài toán này là xác định điểm tín dụng
2.Phân tích
Bài toán : Bài toán phân loại điểm tín dụng là một bài toán trong lĩnh vực học máy,
có mục đích phân loại điểm tín dụng của người dựa trên một số thông tin liên quan
Để giải quyết bài toán này, ta cần thu thập một tập dữ liệu chứa thông tin về khách hàng như: tuổi, thu nhập, giới tính , tình trạng hôn nhân , số lượng con cái, tình trạng
nhà ở hay thuê ,điểm tín dụng của người dùng Sau đó, ta sử dụng các kỹ thuật học máy như Decision Tree để phân loại khách hàng thành 3 nhóm: hight, low ,
medium
Trang 8Việc chọn mô hình phù hợp và tối ưu hóa các tham số của mô hình là rất quan trọng
để đạt hiệu quả cao khi phân loại các khách hàng Ngoài ra, việc kiểm tra và đánh giá chất lượng của mô hình cũng là một bước quan trọng để đảm bảo tính khả thi và
độ chính xác của bài toán
Dữ liệu
Dữ liệu trong bài toán phân tích điểm tín dụng thường bao gồm các thông tin về khách hàng, bao gồm:
1 Thông tin cá nhân: giới tính, tuổi,tình trạng hôn nhân,
2 Tài sản sở hữu: Nhà cửa
3 Thông tin về thu nhập
Dữ liệu này có thể được thu thập từ các nguồn khác nhau, bao gồm hồ sơ khách hàng của các công ty tài chính hoặc ngân hàng, các trang web tài chính, và các trang web bán hàng trực tuyến Việc thu thập và quản lý dữ liệu là rất quan trọng để đảm bảo tính chính xác và bảo mật của dữ liệu
Mô hình
Để phân tích mô hình chi tiết của đề tài "Phân loại điểm tín dụng", ta có thể sử dụng các bước sau:
Để xây dựng mô hình phân loại điểm tín dụng, có thể sử dụng nhiều phương pháp
và thuật toán khác nhau của máy học Tuy nhiên, trong đề tài này, chúng ta sử dụng thuật toán phổ biến như Decision Tree
Đầu tiên, ta cần tiền xử lý dữ liệu bằng cách chuẩn hóa và mã hóa dữ liệu để có thể
sử dụng cho các thuật toán máy học Sau đó, ta có thể chia tập dữ liệu thành 2 phần: tập huấn luyện (training set) và tập kiểm thử (test set) Dùng tập huấn luyện để huấn luyện các model phân loại và sử dụng tập kiểm thử để đánh giá hiệu suất của các model
Sau khi huấn luyện các model, ta có thể lựa chọn model tốt nhất dựa trên các chỉ số
Trang 9đánh giá như precision, recall và F1-score Cuối cùng, ta có thể sử dụng model được chọn để phân loại điểm tín dụng của các khách hàng mới
Triển Khai
Để triển khai bài toán phân loại điểm tín dụng, ta cần có các bước như sau:
Bước 1: Thu thập dữ liệu
Dữ liệu cho bài toán này là các thông tin về khách hàng Các thông tin này bao gồm: tuổi, giới tính, thu nhập, số lượng con cái, tình trạng hôn nhân , tình trạng nhà
ở điểm tín dụng
Bước 2: Tiền xử lý dữ liệu
Sau khi thu thập được dữ liệu, ta cần tiền xử lý để chuẩn hóa dữ liệu và loại bỏ các giá trị null Các bước tiền xử lý dữ liệu bao gồm:
- Loại bỏ các giá trị null hoặc thiếu trong dữ liệu
- Chuyển đổi dữ liệu dạng chữ sang dạng số
- Chuẩn hóa các giá trị dữ liệu
Bước 3: Xây dựng mô hình dự đoán
Ở bước này, ta sẽ sử dụng các thuật toán máy học để xây dựng mô hình dự đoán điểm tín dụng của khách hàng.Ta có thể sử dụng các thuật toán Decision Tree, để xây dựng mô hình
Bước 4: Đánh giá hiệu suất của mô hình
Sau khi xây dựng được mô hình, ta cần đánh giá hiệu suất của mô hình bằng các độ
Trang 10đo như Precision, Recall, F1-score Nếu hiệu suất của mô hình không đạt yêu cầu, ta
có thể tinh chỉnh lại các siêu tham số để cải thiện hiệu suất của mô hình
Bước 5: Triển khai mô hình
Cuối cùng, ta triển khai mô hình đã xây dựng vào hệ thống thực tế để phân loại điểm tín dụng của khách hàng Việc này có thể được thực hiện thông qua các API hoặc giao diện web cho người dùng cuối
Kết Luận Chung
Qua quá trình nghiên cứu và thực hiện, tôi đã tìm hiểu và áp dụng các kỹ thuật Máy học để xây dựng mô hình phân loại điểm tín dụng
Từ đó, tôi hi vọng rằng báo cáo này đã giúp các bạn có được cái nhìn tổng quan về phân loại điểm tín dụng và có thể ứng dụng các kỹ thuật Máy học để giải quyết vấn
đề này
Nếu có bất kỳ ý kiến đóng góp hoặc câu hỏi liên quan đến báo cáo này, xin vui lòng
để lại bình luận để tôi có thể trả lời và cải thiện báo cáo tốt hơn trong tương lai Cảm ơn các bạn đã quan tâm và đọc báo cáo của tôi!
Tài liệu tham khảo
Để thực hiện đề tài "Phân loại điểm tín dụng" trong môn học Máy học, bạn có thể tham khảo các tài liệu sau:
Trang 111 "Credit Scoring and Its Applications" của Lyn C Thomas và Jonathan Crook
2 "Credit Risk Modeling using Excel and VBA" của Gunter Loeffler và Peter N Posch
3 "Statistical Techniques for Credit Risk Modeling and Evaluation" của Tony Bellotti, Jonathan Crook, and David Edelman
4 "Applied Predictive Modeling" của Max Kuhn and Kjell Johnson
5 "Data Mining and Analysis: Fundamental Concepts and Algorithms" của Mohammed J Zaki và Wagner Meira Jr
6 "Machine Learning for Credit Risk Modelling" của Ashwin Madhavan và James David Westhuizen
7 "The Elements of Statistical Learning: Data Mining, Inference, and Prediction" của Trevor Hastie, Robert Tibshirani và Jerome Friedman
Ngoài ra, cũng có thể tham khảo các tài liệu trên internet, như các bài viết trên blog chuyên về Máy học, các tài liệu trên GitHub hoặc các khoá học trực tuyến về Máy học và khoa học dữ liệu