TỔNG QUAN VỀ HỆ THỐNG CHẤM ĐIỂM TÍN DỤNG VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐƯỢC ÁP DỤNG
Tín dụng tiêu dùng
1.1.1 Khái niệm về tín dụng
Tín dụng là mối quan hệ vay mượn giữa người đi vay và người cho vay, dựa trên nguyên tắc hoàn trả vốn kèm theo lãi suất khi đến hạn.
Tín dụng là mối quan hệ giao dịch giữa hai bên, trong đó một bên chuyển giao quyền sử dụng tiền hoặc tài sản cho bên kia thông qua các hình thức như cho vay, bán chịu hàng hóa, chiết khấu, hoặc bảo lãnh Sự chuyển giao này diễn ra trong một khoảng thời gian và theo các điều kiện đã thỏa thuận.
1.1.2 Khái niệm tín dụng tiêu dùng
Tín dụng tiêu dùng là khoản vay từ ngân hàng và các tổ chức tín dụng, nhằm hỗ trợ nhu cầu chi tiêu của cá nhân và hộ gia đình Đây là nguồn tài chính thiết yếu giúp người tiêu dùng đáp ứng các nhu cầu trong cuộc sống, như chi phí nhà ở và phương tiện di chuyển.
1.1.3 Bản chất của tín dụng
Tín dụng là mối quan hệ kinh tế giữa người vay và người cho vay, cho phép vốn tín dụng (tiền và hiện vật) được chuyển giao giữa các chủ thể để đáp ứng nhu cầu trong nền kinh tế - xã hội Bản chất của tín dụng chính là sự vận động của giá trị vốn tín dụng, diễn ra liên tục và linh hoạt.
• Giai đoạn cho vay: người cho vay chuyển giao quyền sử dụng giá trị vốn tín dụng cho người vay trong một thời gian nhất định
• Giai đoạn sử dụng vốn vay: người vay toàn quyền sử dụng giá trị vốn tín dụng vào những mục đích đã được dự kiến trước
Giai đoạn hoàn trả trong quan hệ tín dụng là thời điểm người vay cần hoàn trả đầy đủ giá trị vốn tín dụng ban đầu cùng với một phần lãi suất Tính hoàn trả chính là đặc trưng quan trọng của sự vận động trong quan hệ tín dụng.
1.1.4 Đặc điểm của tín dụng tiêu dùng
Tín dụng tiêu dùng cho khách hàng cá nhân có một số đặc điểm như sau:
Khách hàng vay vốn chủ yếu là cá nhân và hộ gia đình, dẫn đến quy mô khoản vay thường nhỏ, ngoại trừ các khoản vay mua bất động sản Do đó, chi phí tổ chức cho vay cao hơn, khiến lãi suất tín dụng tiêu dùng thường cao hơn so với lãi suất trong lĩnh vực thương mại và công nghiệp.
Mục đích vay tiền chủ yếu để đáp ứng nhu cầu tiêu dùng cá nhân và hộ gia đình, không nhằm mục đích kinh doanh Các khoản vay này hoàn toàn phụ thuộc vào nhu cầu và tính cách của từng khách hàng, cũng như chu kỳ kinh tế mà họ đang trải qua.
• Thông tin tài chính của khách hàng vay cá nhân thương không liên tục và chất lượng các thông tin tài chính của khách hàng vay thường không cao
Nguồn trả nợ chính của khách hàng chủ yếu đến từ thu nhập, không nhất thiết phải liên quan trực tiếp đến kết quả từ việc sử dụng các khoản vay.
Chấm điểm tín dụng
1.2.1 Khái niệm về chấm điểm tín dụng
Chấm điểm tín dụng đánh giá mức độ tín nhiệm tài chính và rủi ro tín dụng dựa trên khả năng đáp ứng cam kết tài chính, khả năng đối mặt với rủi ro khi điều kiện kinh doanh thay đổi, cùng với ý thức và thiện chí trả nợ của người vay.
Hệ thống chấm điểm tín dụng đánh giá khả năng thực hiện nghĩa vụ tài chính của cá nhân với ngân hàng, nhằm xác định rủi ro trong cấp tín dụng Mức độ rủi ro tín dụng khác nhau giữa các cá nhân và được xác định qua quá trình đánh giá bằng thang điểm, dựa trên thông tin tài chính và phi tài chính của khách hàng tại thời điểm chấm điểm.
1.2.2 Đối tượng chấm điểm tín dụng
Hệ thống chấm điểm tín dụng xem xét tất cả các yếu tố liên quan đến rủi ro tín dụng, giúp các tổ chức tín dụng đưa ra quyết định về chính sách tín dụng và giới hạn cho vay Kết quả chấm điểm không phản ánh giá trị của người đi vay mà chỉ là đánh giá hiện tại dựa trên các nhân tố rủi ro Mặc dù một khách hàng có xếp hạng cao, điều này không đảm bảo việc thu hồi đầy đủ nợ gốc và lãi suất, mà chỉ là cơ sở để đưa ra quyết định tín dụng phù hợp với mức độ rủi ro dự kiến liên quan đến khách hàng và các khoản vay của họ.
1.2.3 Tầm quan trọng của chấm điểm tín dụng
Chấm điểm tín dụng mang lại nhiều lợi ích cho nền kinh tế, giúp tổ chức cho vay mở rộng đến các phân khúc thị trường chưa được phục vụ Quy trình này cho phép quyết định nhanh chóng và khách quan, với hầu hết các yêu cầu vay nhận được phản hồi ngay trong ngày Đối với khách hàng, điểm tín dụng là chìa khóa để sở hữu nhà và vay tiêu dùng, đồng thời tăng cường cạnh tranh giữa các tổ chức cho vay, giảm chi phí vay Đối với doanh nghiệp, đặc biệt là doanh nghiệp vừa và nhỏ, chấm điểm tín dụng cải thiện khả năng tiếp cận nguồn lực, giảm chi phí và quản lý rủi ro hiệu quả Cuối cùng, đối với nền kinh tế quốc gia, việc chấm điểm tín dụng giúp điều hòa tiêu dùng trong các giai đoạn thất nghiệp chu kỳ và giảm biến động của chu kỳ kinh doanh.
1.2.4 Nguyên tắc chấm điểm tín dụng
Hệ thống chấm điểm tín dụng tập trung vào các nguyên tắc chính, bao gồm phân tích tín nhiệm dựa trên ý thức và thiện chí trả nợ của người vay, đánh giá rủi ro dài hạn theo chu kỳ kinh doanh và xu hướng khả năng trả nợ tương lai, cùng với việc đánh giá rủi ro toàn diện thông qua hệ thống ký hiệu xếp hạng.
Trong quá trình chấm điểm tín dụng, cán bộ chấm điểm tín dụng sẽ thu được điểm ban đầu và điểm tổng hợp để xếp hạng khách hàng
• Điểm ban đầu là điểm của từng tiêu chí chấm điểm tín dụng cán bộ chấm điểm tín dụng xác định được sau khi phân tích tiêu chí đó
• Điểm tổng hợp để xếp hạng khách hàng bằng điểm ban đầu nhân với trọng số
Trọng số thể hiện mức độ quan trọng của từng tiêu chí trong việc chấm điểm tín dụng, bao gồm các chỉ số tài chính và yếu tố phi tài chính, từ đó đánh giá tác động của chúng đến rủi ro tín dụng.
Trong quy trình chấm điểm tín dụng, cán bộ sử dụng các bảng tiêu chuẩn để đánh giá các tiêu chí chấm điểm tín dụng theo nguyên tắc cụ thể, đảm bảo tính chính xác và khách quan trong việc xác định khả năng tín dụng của khách hàng.
Đối với từng tiêu chí trong bảng đánh giá, chỉ số thực tế sẽ được so sánh với các trị số quy định Nếu chỉ số nằm giữa hai trị số, ưu tiên sẽ được dành cho loại xếp hạng tốt nhất.
Nếu khách hàng có bảo lãnh từ một tổ chức tài chính vững mạnh, họ có thể được xếp hạng tín dụng tương đương với hạng tín dụng của tổ chức bảo lãnh Quy trình chấm điểm tín dụng của tổ chức bảo lãnh tương tự như quy trình áp dụng cho khách hàng.
Tổng quan về khai phá dữ liệu
1.3.1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu (Data Mining) là quá trình chắt lọc tri thức từ một khối lượng lớn dữ liệu, tương tự như việc "đãi cát tìm vàng" để tìm ra những thông tin quý giá trong một tập hợp dữ liệu khổng lồ Thuật ngữ này nhấn mạnh việc phát hiện những mẫu và xu hướng có giá trị từ dữ liệu thô, giúp doanh nghiệp và tổ chức ra quyết định chính xác hơn.
Khai phá dữ liệu là một bộ kỹ thuật tự động nhằm phát hiện và phân tích các mối quan hệ trong một tập dữ liệu lớn và phức tạp, đồng thời khám phá các mẫu tiềm ẩn bên trong dữ liệu.
1.3.2 Các bước trong quá trình phát hiện tri thức
Hình 1 1: Quá trình phát hiện tri thức [5]
Phát hiện tri thức bao gồm nhiều giai đoạn được lặp đi lặp lại nhiều lần mà không cần phân biệt từng bước trong quá trình thực hiện [4]
Giai đoạn 1 trong quy trình giải quyết bài toán là việc hình thành và xác định rõ ràng bài toán, bao gồm việc tìm hiểu lĩnh vực ứng dụng và các nhiệm vụ cần hoàn thành Bước này đóng vai trò quan trọng trong việc rút ra tri thức hữu ích và lựa chọn phương pháp KPDL phù hợp với mục đích ứng dụng cũng như bản chất của dữ liệu.
Giai đoạn 2 trong quy trình phát hiện tri thức là thu thập và tiền xử lý dữ liệu, còn gọi là xử lý thô Bước này nhằm loại bỏ nhiễu và dữ liệu dư thừa, làm sạch dữ liệu, cũng như xử lý các vấn đề liên quan đến thiếu hoặc thừa dữ liệu Ngoài ra, việc biến đổi và rút gọn dữ liệu cũng được thực hiện nếu cần thiết Đây là bước quan trọng và thường chiếm nhiều thời gian nhất trong toàn bộ quy trình.
Giai đoạn 3: Biến đổi dữ liệu Chọn lựa một số phương pháp Phân lớp
(Classification), hồi quy (Regression), phân cụm (Clustering), quy nạp, tổng hợp kết quả (Summarization)
Giai đoạn 4 của KPDL tập trung vào việc rút ra tri thức từ dữ liệu, hay nói cách khác là trích xuất các mẫu và mô hình ẩn Giai đoạn này rất quan trọng và bao gồm việc xác định chức năng, nhiệm vụ và mục đích của KPDL, cũng như lựa chọn phương pháp khai phá phù hợp Các bài toán trong KPDL thường bao gồm các vấn đề mô tả, nhằm đưa ra các tính chất chung của dữ liệu, và các bài toán dự báo, bao gồm việc phát hiện suy diễn từ dữ liệu hiện có Việc lựa chọn phương pháp KPDL sẽ phụ thuộc vào tính chất của bài toán đã xác định.
Giai đoạn 5 trong quy trình phát hiện tri thức là việc hiểu và làm sáng tỏ các mô tả và dự đoán đã tìm được Các bước trong quy trình này có thể được lặp lại nhiều lần, và kết quả thu được có thể được trung bình hóa để tăng độ chính xác Những kết quả này có thể được ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là trong các hệ thống hỗ trợ ra quyết định, giúp tự động hóa quá trình dự đoán và mô tả.
Tóm lại: Quá trình phát hiện tri thức từ trong kho dữ liệu (KDD – Knowledge
Discovery Database) là quá trình chiết xuất ra tri thức từ kho dữ liệu mà trong đó KPDL là công đoạn quan trọng nhất
1.3.3 Ứng dụng của khai phá dữ liệu
Phát hiện tri thức và KPDL liên quan đến nhiều lĩnh vực như thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, và thuật toán Chúng sử dụng các phương pháp thống kê để mô hình hóa dữ liệu và phát hiện các mẫu cũng như luật Ngoài ra, kho dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP) đóng vai trò quan trọng trong việc hỗ trợ phát hiện tri thức và KPDL, tạo ra những hiểu biết sâu sắc từ dữ liệu.
KPDL có nhiều ứng dụng trong thực tế, ví dụ như:
Bảo hiểm, tài chính và thị trường chứng khoán đóng vai trò quan trọng trong việc phân tích tình hình tài chính và dự báo giá cổ phiếu Việc theo dõi danh mục vốn, giá cả, lãi suất và dữ liệu thẻ tín dụng giúp nâng cao khả năng phát hiện gian lận và tối ưu hóa đầu tư trên thị trường chứng khoán.
• Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định trong ngành giáo dục
Điều trị y học và chăm sóc y tế đóng vai trò quan trọng trong việc chuẩn đoán bệnh, đặc biệt trong các hệ thống quản lý bệnh viện Việc phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán chính xác và các phương pháp điều trị như chế độ dinh dưỡng và thuốc là cần thiết để nâng cao hiệu quả điều trị và cải thiện sức khỏe bệnh nhân.
• Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố
• Text mining và Web mining: Phân lớp văn bản, các trang Web, tóm tắt văn bản
Trong lĩnh vực khoa học, việc quan sát thiên văn và phân tích dữ liệu gene đóng vai trò quan trọng trong việc tìm kiếm và so sánh các hệ gene Nghiên cứu thông tin di truyền giúp khám phá mối liên hệ giữa gene và một số bệnh di truyền, từ đó cung cấp hiểu biết sâu sắc về cơ chế di truyền và ứng dụng trong y học.
• Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất lượng dịch vụ, [4]
Chấm điểm tín dụng cho khách hàng cá nhân là một vấn đề quan trọng đối với các tổ chức tài chính, yêu cầu khai phá dữ liệu để xác định tín dụng xấu và ngăn chặn các khoản vay lừa đảo, nhằm tránh những rủi ro nghiêm trọng trong tương lai Dưới đây là một số kỹ thuật khai phá dữ liệu được áp dụng cho dự án này.
Một số kỹ thuật khai phá dữ liệu cho chấm điểm tín dụng
1.4.1 Decision Tree – Cây quyết định
Việc ra quyết định của con người thường bắt đầu từ các câu hỏi, và trong machine learning, mô hình ra quyết định cũng dựa trên nguyên tắc này Mô hình này được gọi là cây quyết định (decision tree).
Cây quyết định là một mô hình học có giám sát, được sử dụng cho cả bài toán phân loại và hồi quy Kỹ thuật này phân loại đối tượng vào các lớp đã biết trước, chẳng hạn như phân loại cước phí hoặc dịch vụ dựa trên số máy gọi trong cuộc gọi, phân loại khu vực dựa trên số máy chủ gọi, và xác định giờ cao điểm hoặc thấp điểm dựa trên thời gian bắt đầu cuộc gọi.
Cây quyết định có khả năng xử lý các thuộc tính dạng categorical, thường là rời rạc và không có thứ tự như mưa, nắng hay màu sắc Ngoài ra, nó cũng làm việc hiệu quả với dữ liệu có vector đặc trưng bao gồm cả thuộc tính categorical và liên tục (numeric) Một lợi thế nổi bật của cây quyết định là ít yêu cầu chuẩn hóa dữ liệu, giúp giảm thiểu công đoạn chuẩn bị dữ liệu trước khi phân tích.
Hình 1 2: Một ví dụ điển hình của kỹ thuật phân lớp- Cây quyết định [6]
1.4.2 K láng giềng gần nhất (K-Nearest Neighbors - KNN)
Thuật toán KNN (K-Nearest Neighbors) là một phương pháp học có giám sát, trong đó thuật toán sử dụng dữ liệu đã được phân loại để "học" và xác định các biến có thể ảnh hưởng đến biến mục tiêu đã được xác định trước.
Hình 1 3: Mô hình K – Láng giềng gần nhất [7]
KNN hoạt động dựa trên giả định rằng những đối tượng tương tự sẽ nằm gần nhau trong không gian Dựa trên giả định này, KNN sử dụng các công thức toán học để tính toán khoảng cách giữa hai điểm dữ liệu (Data points), từ đó đánh giá mức độ tương đồng giữa chúng.
KNN, hay còn gọi là "phương pháp học lười," nổi bật với tính đơn giản trong quá trình đào tạo, cho phép sử dụng tất cả dữ liệu đào tạo để kiểm tra mô hình Mặc dù việc xây dựng mô hình diễn ra nhanh chóng, giai đoạn thử nghiệm lại chậm hơn và tiêu tốn nhiều thời gian cũng như bộ nhớ, đặc biệt khi làm việc với bộ dữ liệu lớn và phức tạp Trong trường hợp xấu nhất, KNN cần thời gian lâu để quét tất cả các điểm dữ liệu, dẫn đến yêu cầu cao hơn về không gian bộ nhớ để lưu trữ dữ liệu.
KNN không yêu cầu các tham số khác để phân loại dữ liệu, mà chỉ dựa vào khoảng cách giữa điểm dữ liệu cần phân loại và các điểm đã được phân loại trước đó Điều này rất hữu ích vì phần lớn dữ liệu trong thế giới thực không tuân theo các giả định lý thuyết như phân phối chuẩn trong thống kê.
1.4.3 Thuật toán hồi quy tuyến tính
Hồi quy tuyến tính là thuật toán học máy cơ bản dùng để mô hình hóa mối quan hệ giữa biến phụ thuộc và một hoặc nhiều biến độc lập Thuật toán này tìm "dòng phù hợp nhất" để đại diện cho các biến, giúp dự đoán các giá trị liên tục Ví dụ, nó có thể được áp dụng để dự đoán lưu lượng khách hàng tại cửa hàng bán lẻ, thời gian người dùng ở lại trang web, hoặc số trang truy cập trên một website.
Thuật toán hồi quy tuyến tính dựa trên giả định rằng nhãn có mối quan hệ tuyến tính với các thuộc tính Cụ thể, nếu y là biến cần dự đoán (chẳng hạn như giá nhà) và x1, x2, …, xn là các thuộc tính ảnh hưởng đến y (như số phòng, số tầng, diện tích và mặt tiền của ngôi nhà), thì thuật toán này giả định tồn tại các tham số w0, w1,…, wn để mô hình hóa mối quan hệ này.
Thuật toán hồi quy tuyến tính được sử dụng để xác định bộ trọng số tối ưu nhằm ước lượng mối quan hệ tuyến tính giữa nhãn và thuộc tính Công thức 𝑦̂ = 𝑤 0 + 𝑤 1 𝑥 1 + 𝑤 2 𝑥 2 + + 𝑤 𝑛 𝑥 𝑛 mô tả cách mà các trọng số 𝑤 và thuộc tính 𝑥 tương tác với nhau để tạo ra dự đoán 𝑦̂ dựa trên một tập dữ liệu có sẵn.
Khi sử dụng thuật ngữ "tối ưu", cần xác định tiêu chí để đánh giá sự tối ưu của các bộ trọng số khác nhau Tiêu chí này chính là hàm sai số bình phương trung bình (mean-squared error), được dùng để đo lường độ sai lệch giữa giá trị dự đoán của mô hình (𝑦̂) và giá trị thực tế (y).
Hình 1 4: Thuật toán hồi quy tuyến tính – Linear Regression [8]
Random Forest là một kỹ thuật học máy tổng hợp dựa trên cây quyết định, tạo ra nhiều cây bằng cách sử dụng tập dữ liệu khởi động và chọn ngẫu nhiên một tập hợp con các biến Mô hình này chọn chế độ của các dự đoán từ từng cây (bagging), giúp giảm thiểu tình trạng quá tải và độ lệch cao của từng cây Mặc dù mỗi cây có thể không dự đoán chính xác, nhưng kết quả cuối cùng của Random Forest được tổng hợp từ nhiều cây, làm tăng tính chính xác và giảm nguy cơ mắc lỗi từ một cây đơn lẻ.
Khi mua sản phẩm trên Sendo, việc đầu tiên bạn nên làm là đọc các đánh giá từ khách hàng trước Chỉ đọc một đánh giá có thể dẫn đến nhận định sai lầm, vì đó có thể là ý kiến chủ quan hoặc sản phẩm gặp lỗi Để có cái nhìn tổng quát và chính xác hơn về sản phẩm, hãy tham khảo tất cả các đánh giá trước khi đưa ra quyết định cuối cùng.
Hình 1 5: Thuật toán Random Forest [10]
Kết luận chương 1
Chương 1 đã giới thiệu sơ lược về hệ thống chậm điểm tín dụng là hệ thống dự đoán điểm tín dụng của người dùng thông qua các thông tin được thu nhập từ nhiều nguồn và chủ yếu từ cá nhân người dùng cung cấp Phân tích vai trò của hệ thống chấm điểm tín dụng và từ đó đưa ra tầm quan trọng của hệ thống đối với doanh nghiệp sử dụng và người tiêu dùng
Trong chương tiếp theo sẽ trình bày một số lí thuyết liên quan đến dự án DCVFinance và Hệ thống chấm điểm tín dụng tại công ty DCV.
QUY TRÌNH CHẤM ĐIỂM THỰC TẾ TẠI CÔNG TY VÀ PHƯƠNG THỨC KẾT NỐI DỮ LIỆU -WEB API
Giới thiệu đơn vị thực tập
2.1.1 Quá trình hình thành và phát triển của công ty:
Công ty Cổ phần truyền số liệu Việt Nam (DCV) được thành lập vào năm 2013 với mục tiêu cung cấp dịch vụ chuyên nghiệp và đẳng cấp, đáp ứng nhu cầu khách hàng một cách tối ưu và nhanh chóng DCV chuyên cung cấp các dịch vụ như phái cử nguồn nhân lực, gia công phát triển, nội dung số và dịch vụ digital marketing, đồng thời tạo ra một môi trường làm việc thân thiện cho nhân viên.
Năm 2014, công ty hoạt động ở các lĩnh vực chính: Outsourcing, VAS, phái cử nguồn nhân lực
Năm 2015, công ty DCV gia nhập Hiệp hội Internet Việt Nam
Năm 2016, thành lập Head Office tại Hồ Chí Minh Đạt giải thưởng Sao Khuê
2016 “Phái cử nguồn nhân lực công nghệ thông tin” Công ty DCV nằm trong Top 50 Doanh nghiệp công nghệ thông tin Tiêu biểu 2016
Năm 2017, công ty phái cử 50 nhân lực, triển khai dự án thị trường: Campuchia, Nhật bản, Myanmar, Lào, Hàn Quốc
Năm 2018, đạt chứng nhận ISO 9001:2015 Nhân sự đạt 120 người
Năm 2019, thực hiện triển khai sản phẩm: Quản lý nhà thuốc, Quản lý bán hàng, Hóa đơn điện tử, Văn phòng điện tử
Năm 2020, công ty DCV đạt Danh hiệu Sao Khuê 2020: Giải pháp hóa đơn điện tử - Phần mềm A hóa đơn [14]
2.1.2 Cơ cấu tổ chức a Sơ đồ tổ chức:
Hình 2 1: Sơ đồ tổ chức công ty DCV b Chức năng nhiệm vụ của từng bộ phận:
Hội đồng quản trị là cơ quan quản lý của công ty cổ phần (CTCP), có quyền quyết định mọi vấn đề liên quan đến mục đích và quyền lợi của công ty.
• Ban điều hành: bao gồm 1 giám đốc và 1 phó giám đốc Đảm nhiệm điều hành công việc kinh doanh hàng ngày của công ty
Phòng tài chính – kế toán gồm kế toán trưởng và hai nhân viên, có nhiệm vụ thực hiện kế toán kịp thời, quản lý hoạt động tài chính và kết quả kinh doanh theo quy định, nhằm hỗ trợ hiệu quả cho các hoạt động kinh doanh Đồng thời, phòng cũng lập kế hoạch kinh doanh và tài chính cho công ty.
Phòng hành chính – nhân sự của Công ty bao gồm trưởng phòng và 3 nhân viên, có trách nhiệm quản lý công tác nhân sự, xây dựng kế hoạch và chiến lược phát triển nguồn nhân lực, cũng như tính toán ngân sách liên quan đến chi phí lao động Đồng thời, phòng cũng quản lý công tác hành chính, xây dựng quy chế và thực hiện quản lý hồ sơ pháp lý của Công ty.
Phòng truyền thông đóng vai trò quan trọng trong việc xây dựng hình ảnh thương hiệu và ảnh hưởng đến cách nhìn nhận của nhà đầu tư, đối tác, nhân viên và công chúng về công ty Họ chuẩn bị các cuộc gặp gỡ giữa công ty và đối tác, tổ chức sự kiện nội bộ và phát động các hoạt động nhằm gắn kết mọi người trong công ty.
Phòng kinh doanh bao gồm trưởng phòng và 4 nhân viên, có nhiệm vụ nghiên cứu và triển khai chiến lược tiếp cận thị trường mục tiêu và khách hàng Đội ngũ này xây dựng kế hoạch giới thiệu sản phẩm, lập kế hoạch kinh doanh, cũng như tính toán và báo cáo liên quan đến sản phẩm và dịch vụ, tạo cơ sở cho việc ký hợp đồng với đối tác Họ cũng phát triển chính sách bán hàng phù hợp với từng nhóm khách hàng và thực hiện đúng theo chính sách đã đề ra.
Phòng kỹ thuật của công ty bao gồm trưởng phòng, người quản lý dự án, tech lead và 30 nhân viên chuyên về web application, app mobile, thiết kế, cùng với 10 nhân viên outsourcing Đội ngũ này nghiên cứu và áp dụng các công nghệ mới vào các dự án, phát triển và bảo trì sản phẩm của công ty Họ cũng phụ trách sửa chữa, lắp đặt và bảo trì hệ thống kỹ thuật, đồng thời phái cử nhân viên tham gia các dự án hợp tác với các công ty đối tác.
2.1.3 Các lĩnh vực hoạt động kinh doanh
Công ty DCV hoạt động tại các lĩnh vực:[15] a Phái cử nhân lực công nghệ thông tin
Tăng năng lực cạnh tranh và tối ưu hóa nguồn lực là bài toán chung của rất nhiều
Trong bối cảnh doanh nghiệp phải đầu tư lớn vào các hoạt động không phải là dịch vụ hay sản phẩm chủ chốt, việc thuê ngoài các dịch vụ, đặc biệt là dịch vụ công nghệ thông tin, trở thành giải pháp hiệu quả giúp doanh nghiệp tập trung vào lĩnh vực kinh doanh cốt lõi Để đáp ứng nhu cầu về nhân sự công nghệ thông tin, dịch vụ phái cử nguồn nhân lực công nghệ thông tin đã ra đời, đồng thời gia công phần mềm cũng là một lựa chọn tối ưu cho các doanh nghiệp.
Hiện nay, nhiều công ty đang đối mặt với khó khăn trong kinh doanh Để nâng cao năng lực cạnh tranh và thực hiện thành công các dự án phần mềm, việc đổi mới và đẩy mạnh hoạt động kinh doanh là cần thiết Dịch vụ gia công phần mềm ra đời nhằm thiết kế các giải pháp phần mềm hữu ích cho khách hàng, đáp ứng nhu cầu thực tiễn của thị trường.
Trong thời đại thông tin bùng nổ, nội dung số trở thành lĩnh vực quan trọng mà DCV đặc biệt chú trọng Chúng tôi cam kết cung cấp cho quý đối tác và khách hàng những dịch vụ nội dung số chất lượng cao và giá trị thiết thực Một số lĩnh vực mà chúng tôi hoạt động trong nội dung số bao gồm
• News: Tin tức và thông tin
• Personal and media: Ứng dụng cá nhân và cá nhân hóa truyền thông
• Information (Search/Wiki): Thông tin
• Entertainment (Game/Multimedia): Giải trí
• Niche content: Nội dung độc
• System/Applications: Hệ thống và ứng dụng
• Business Tools: Công cụ hỗ trợ doanh nghiệp
• Local/Positioning: Địa phương hóa/ Định vị và địa lý
• Authoring: Xác minh quyền (nhận diện, định vị và chia sẻ cá nhân) d BPO – Thuê ngoài quy trình nghiệp vụ:
Các doanh nghiệp ngày nay thường lựa chọn sử dụng dịch vụ từ các nhà cung cấp chuyên nghiệp bên ngoài thay vì tự tổ chức (in-house) nhằm mục tiêu giảm chi phí, nâng cao khả năng cạnh tranh và tập trung vào những thế mạnh cốt lõi của mình Những dịch vụ này bao gồm nhiều lĩnh vực khác nhau, giúp doanh nghiệp tối ưu hóa quy trình hoạt động và cải thiện hiệu suất.
• Gia công xử lý dữ liệu, nhập liệu e Digital Marketing:
Digital marketing là một phần thiết yếu trong chiến lược kinh doanh của mọi công ty, doanh nghiệp Với sự gia tăng của việc mua sắm trực tuyến, việc áp dụng hình thức quảng cáo này giúp doanh nghiệp tiếp cận hiệu quả hơn với thị trường và khách hàng tiềm năng Các dịch vụ trong lĩnh vực digital marketing bao gồm nhiều giải pháp sáng tạo nhằm tối ưu hóa sự hiện diện trực tuyến và tăng cường khả năng tương tác với khách hàng.
2.1.4 Chiến lược, định hướng phát triển
Năm 2021, định hướng mở rộng quy mô công ty lên 300 nhân viên Thực hiện khai trương văn phòng mới tại chi nhánh miền Nam
Chiến lược trọng tâm của Công ty là phát triển và tối ưu hóa sản phẩm để phục vụ đa dạng nhóm khách hàng Để tăng khả năng tiếp cận khách hàng tiềm năng, Công ty sẽ xây dựng các chiến lược kinh doanh phù hợp và triển khai các chiến dịch marketing hiệu quả nhằm quảng bá sản phẩm đến với đối tượng mục tiêu.
Kết nối tất cả các sản phẩm thành một chuỗi sinh thái sẽ tạo ra sự cộng tác và hỗ trợ lẫn nhau Việc đưa sản phẩm đến tay các doanh nghiệp có nhu cầu và triển khai rộng rãi, kết hợp với các đơn vị lớn, sẽ giúp sản phẩm tiếp cận nhanh chóng và hiệu quả đến nguồn khách hàng lớn.
Hệ thống xếp hạng tín dụng khách hàng cá nhân tại DCV Finance
2.2.1 Dự án trước khi có hệ thống chấm điểm tín dụng
Trước khi áp dụng hệ thống chấm điểm tín dụng, nhân viên thẩm định của công ty chủ yếu dựa vào 90% thông tin do người dùng cung cấp và kiểm tra CIC trên trang www.cic.gov của Ngân hàng nhà nước Việt Nam để xác định tình trạng nợ xấu Phương pháp này tiềm ẩn một số rủi ro đáng kể đối với doanh nghiệp.
Thông tin hạn chế và phụ thuộc vào sự trung thực của khách hàng có thể dẫn đến việc họ cung cấp thông tin sai lệch Điều này gây ra tình trạng hồ sơ chứa quá nhiều thông tin nhiễu, khiến cho quá trình kiểm chứng thông tin của người dùng trở nên khó khăn hơn.
Việc chưa tiếp cận được kho dữ liệu khách hàng đáng tin cậy, như kho dữ liệu chấm điểm tín dụng của các tổ chức tài chính phi ngân hàng, dẫn đến nguy cơ đưa ra những nhận định sai lệch và khó khăn trong việc chọn lọc thông tin cần thiết.
Thông tin người dùng không đầy đủ, chỉ có thể dựa vào trang CIC của Ngân hàng Nhà nước, dẫn đến việc mất thời gian cho khách vay và gây thiệt hại nghiêm trọng đến doanh thu và lợi nhuận của công ty.
Không có điểm tín dụng làm giảm khả năng tiếp cận của khách hàng đối với các nguồn vay, đồng thời gia tăng rủi ro khi khách hàng sử dụng thông tin giả mạo để yêu cầu vay.
Khách vay không có điểm tín dụng sẽ gặp khó khăn trong việc tiếp cận các lợi ích tài chính, như hạn mức vay tối đa và ưu tiên phê duyệt khoản vay, điều này đặc biệt ảnh hưởng đến những người có lịch sử tín dụng tốt.
Việc tìm kiếm địa chỉ vay tiền đáng tin cậy hiện nay gặp nhiều khó khăn, đặc biệt là nỗi lo về việc thông tin cá nhân có thể bị lạm dụng cho các mục đích bất chính.
Quá trình phê duyệt khoản vay kéo dài có thể dẫn đến việc khách hàng không kịp thanh toán dư nợ thẻ tín dụng đúng hạn, gây ra tình trạng yêu cầu vay bị từ chối hoặc chưa được duyệt Hệ quả là khách hàng phải chịu phí chậm trả và lãi suất quá hạn, đồng thời khoản nợ tiêu dùng có nguy cơ trở thành nợ xấu, được ghi nhận trên hệ thống của Trung tâm thông tin tín dụng CIC.
DCV Finance đã triển khai hệ thống chấm điểm tín dụng hiện đại, thay thế phương pháp đánh giá thủ công dễ sai sót bằng một phương pháp dựa trên xác suất thống kê Hệ thống này giúp tóm tắt thông tin tín dụng của khách hàng thành một con số cụ thể, từ đó bộ phận thẩm định có thể định lượng rủi ro trong việc phê duyệt hoặc từ chối yêu cầu vay Nhờ đó, công ty có khả năng đưa ra quyết định nhanh chóng và khách quan hơn theo tiêu chí riêng.
Chính sách được tiến hành tạo mới và bổ sung lần đầu từ 05/05/2022 Đến hiện tại, hệ thống vẫn đang được áp dụng trên bản test hệ thống
2.2.2 Chính sách tín dụng hiện hành của DCV Finance
Chính sách tín dụng là văn bản do hội đồng quản trị ban hành, nhằm điều chỉnh các hoạt động tín dụng và thiết lập những chuẩn mực, quy định cơ bản để kiểm soát quy trình tín dụng Văn bản này giúp kiểm soát rủi ro tín dụng trong khoảng cho phép, đồng thời tránh tình trạng tập trung quá mức vào một nhóm khách hàng hay ngành nghề cụ thể Ngoài ra, chính sách cũng hạn chế việc cấp tín dụng nhiều lần cho một khách hàng, góp phần đảm bảo an toàn và hiệu quả trong hoạt động tín dụng.
Chính sách tín dụng cam kết tuân thủ quy định pháp luật và đảm bảo sự bình đẳng giữa các khách hàng Các ưu đãi tín dụng được xác định dựa trên các tiêu chí như tình hình tài chính, mức độ rủi ro và thiện chí trả nợ của khách hàng.
2.2.3 Nguyên tắc chấm điểm tín dụng tại công ty Ở DCV việc áp dụng hệ thống chấm điểm tín dụng được thực hiện theo các nguyên tắc sau:
• Đối với mỗi chỉ tiêu, điểm ban đầu của khách hàng được lấy với mức chỉ tiêu gần nhất của khách hàng mà thực tế khách hàng đạt được
• Đối với mức chỉ tiêu khách hàng đạt được nằm giữa hai mức chỉ tiêu thì điểm ban đầu lấy mức chỉ tiêu nào cao hơn
• Điểm tổng hợp cuối cùng để xét tín dụng là tổng điểm ở hai phần chấm điểm sau khi đã nhân với trọng số mỗi phần
• Đối với khách hàng mới chưa có bất kì thao tác gì trên hệ thống sẽ được fix theo điểm mặc định = 50
Điểm tín dụng được tính toán hàng tháng, cho phép khách hàng sử dụng điểm tín dụng của mình để tạo yêu cầu vay trên ứng dụng 1Vay trong tháng đó.
Hệ thống chỉ hỗ trợ khách hàng vay thuộc nhóm 1 và nhóm 2 Đối với khách hàng vay thuộc nhóm 3, 4, 5, hệ thống sẽ tự động đưa họ vào danh sách từ chối cho vay.
2.2.4 Quy trình chấm điểm tín dụng và xếp hạng tín dụng cá nhân
DCV có phòng QTRR chuyên trách phân loại khách hàng, từ đó chấm điểm và xếp hạng để quyết định việc cho vay Kết quả này sẽ được sử dụng để xác định khả năng chấp nhận vay, số tiền vay, thời hạn, lãi suất, và tài sản đảm bảo Phòng thẩm định theo dõi vốn vay nhằm đánh giá tình trạng khách hàng kịp thời, bảo đảm danh mục tín dụng và trích lập dự phòng Mục tiêu là xây dựng hệ thống chấm điểm tín dụng linh hoạt, hiện đại, thường xuyên cập nhật và phát triển, đồng thời lưu giữ hồ sơ tín dụng của tất cả khách hàng, kể cả những người bị từ chối.
Các bước quy trình chấm điểm tín dụng đang được tiến hành như sau:
Bước 1: Thu thập thông tin
Sau khi khách hàng xác minh tài khoản và thực hiện giao dịch trên hệ thống, nhân viên phòng quản lý rủi ro sẽ thu thập thông tin khách hàng từ nhiều kênh khác nhau.
• Thông tin khách hàng cung cấp: Thông tin cá nhân, thông tin người thân, xác thực người dùng (CMND, CCCD, Hộ chiếu, Bằng lái xe), tình trạng công việc
• Tài liệu từ kho dữ liệu app cho vay của các tổ chức tài chính phi ngân hàng
• Dữ liệu của người dùng giao dịch trên hệ thống: thanh toán truyền hình, nạp điện thoại, đăng ký thẻ tín dụng…
• Tài liệu từ ngân hàng nhà nước: Thông tin khách hàng do trung tâm thông tin tín dụng (CIC) cung cấp
• Thông tin từ các nguồn khác: Gọi điện cho người thân, đồng nghiệp, thông tin từ cơ quan thuế, các phương tiện thông tin đại chúng…
Hình 2 2 a,b,c: Màn hình thông tin cá nhân và tạo yêu cầu vay
Hình 2 3a,b: Màn hình xác minh tài khoản cá nhân Bước 2: Chấm điểm các thông tin cá nhân cơ bản
Giới thiệu Web API
API, viết tắt của Giao diện Lập trình Ứng dụng (Application Programming Interface), là các phương thức và giao thức giúp kết nối với thư viện và ứng dụng khác Nó cung cấp khả năng truy cập đến một tập hợp các hàm thường dùng, cho phép trao đổi dữ liệu hiệu quả giữa các ứng dụng.
Web API là một hệ thống API thiết yếu cho các trang web, cho phép kết nối, truy xuất và cập nhật cơ sở dữ liệu Hầu hết các website hiện nay đều tích hợp Web API để hỗ trợ giao tiếp và trao đổi dữ liệu giữa các ứng dụng khác nhau Dữ liệu được trả về từ Web API thường ở định dạng JSON, giúp quá trình xử lý và hiển thị thông tin trở nên dễ dàng hơn.
XML thông qua giao thức HTTP hoặc HTTPS [12]
Ví dụ điển hình về việc sử dụng web API bao gồm Facebook, một ứng dụng mạng xã hội; Flickr, một nền tảng chia sẻ ảnh; và Wikipedia, một bách khoa toàn thư trực tuyến.
Web API là một giao diện cho phép các thiết bị như điện thoại di động và máy tính xách tay gửi yêu cầu đến máy chủ web Sau khi nhận yêu cầu, máy chủ sẽ xử lý và trả về dữ liệu mong muốn cho người dùng, tạo nên mô hình tương tác hiệu quả giữa các hệ thống.
2.2.2 Cách hoạt động của web API
Các API hoạt động giống như các trang web với URL, nhưng thay vì trả về nội dung HTML, chúng cung cấp dữ liệu dưới dạng JSON hoặc XML Quy trình hoạt động của API có thể được chia thành 4 bước chính.
1 Đầu tiên là xây dựng URL API để gửi đến máy chủ cung cấp nội dung, dịch vụ thông qua giao thức HTTP hoặc HTTPS
2 Tại máy chủ cung cấp nội dung, dịch vụ sẽ thực hiện kiểm tra xác thực nếu có và tìm đến nguồn tài nguyên thích hợp để tạo nội dung và trả về kết quả theo yêu cầu
3 Máy chủ trả về kết quả theo định dạng JSON hoặc XML thông qua giao thức HTTP/HTTPS
4 Tại nơi yêu cầu ban đầu (là website hoặc ứng dụng web), dữ liệu JSON/XML sẽ được phân tích để thực hiện tiếp các hoạt động như lưu dữ liệu vào cơ sở dữ liệu, hiển thị dữ liệu [12]
Hình 2 4: Phương thức hoạt động của API [12]
RESTful API
REST (REpresentational State Transfer) là một kiến trúc API sử dụng phương thức HTTP để giao tiếp giữa các máy Thay vì chỉ sử dụng một URL cho việc xử lý thông tin người dùng, REST gửi yêu cầu HTTP như GET, POST, PUT, DELETE đến một URL cụ thể để quản lý và xử lý dữ liệu hiệu quả.
RESTful API là tiêu chuẩn thiết kế API cho ứng dụng web, giúp quản lý tài nguyên hiệu quả Tiêu chuẩn này tập trung vào các tài nguyên hệ thống như tệp văn bản, hình ảnh, âm thanh, video và dữ liệu động, với các trạng thái tài nguyên được định dạng và truyền tải qua giao thức HTTP.
Chức năng chính của REST là quy định cách sử dụng các phương thức HTTP như GET, POST, PUT và DELETE, cùng với cách định dạng URL cho ứng dụng web nhằm quản lý các tài nguyên RESTful không quy định logic của mã ứng dụng và không bị giới hạn bởi ngôn ngữ lập trình, cho phép bất kỳ ngôn ngữ hoặc framework nào cũng có thể được sử dụng để thiết kế một API RESTful.
Hình 2 5: Tổng quan RESTful API [12]
2.4.2 Phương thức hoạt động của RESTful API
REST hoạt động chủ yếu dựa vào giao thức HTTP Các hoạt động cơ bản nêu trên sử dụng những phương thức HTTP riêng:
- GET: Lấy dữ liệu (truy vấn object)
- POST: Tạo mới dữ liệu ( tạo object mới)
- PUT: Cập nhật hoặc thay đổi dữ liệu
- DELETE: Xóa dữ liệu (loại bỏ một object)
Những phương thức (hoạt động) này thường được gọi là CRUD [2] tương ứng với Create, Read, Update, Delete – Tạo, Đọc, Sửa, Xóa
Tất cả các yêu cầu từ phía client đều có mã trạng thái HTTP, được phân loại thành 5 lớp khác nhau Chữ số đầu tiên của mã trạng thái chỉ ra lớp mà mã đó thuộc về.
Các mã trạng thái từ 100 đến 199 trong giao thức HTTP thể hiện hàm ý phản hồi thông tin, cho biết yêu cầu của bạn đã được chấp nhận và quá trình xử lý đang tiếp diễn Ví dụ, mã 100 (Continue) cho biết máy chủ đã nhận yêu cầu ban đầu và khách hàng có thể tiếp tục gửi dữ liệu, trong khi mã 101 (Switching Protocol) chỉ ra rằng máy chủ đang chuyển đổi giao thức theo yêu cầu của khách hàng Mã 102 (Processing) được sử dụng để thông báo rằng máy chủ đang xử lý yêu cầu nhưng chưa có phản hồi cuối cùng.
• 2xx (200 – 299): Hàm ý thành công – Yêu cầu đã được máy chủ tiếp nhận, hiểu và xử lý thành công VD: 200 OK, 201 Created, 202 Accepted,
• 3xx (300 – 399): Hàm ý điều hướng – Phía client cần thực hiện hành động bổ sung để hoàn tất yêu cầu VD: 300 Multiple Choice, 301 Moved Permanently
• 4xx (400 – 499): Hàm ý là có lỗi từ client – Yêu cầu không thể hoàn tất hoặc yêu cầu chứa cú pháp không chính xác.VD: 400 Bad Request, 401 Unauthorized
The 5xx error codes, ranging from 500 to 599, indicate server-side issues where the server fails to fulfill a valid request Examples include the 500 Internal Server Error, 501 Not Implemented, and 502 Bad Gateway, highlighting various server malfunctions.
Kết luận chương 2
Chương 2 đã giới thiệu tổng quan về công ty thực tập DCV và dự án DCVFinance cùng một số lí thuyết được sử dụng để tực hiện lấy dữ liệu của khách hàng để phục vụ cho chương 3- Xây dựng hệ thống Qua đó, bài báo cáo đã đưa ra quy trình chấm điểm tín dụng thực tế tại công ty và các phương thức thu thập thông tin phục vụ cho quá trình chấm điểm, xếp hạng và phê duyệt khoản vay đang thực hiện trong hệ thống dự án Xác minh tính đúng đắn của dữ liệu nhằm nâng cao tính chính xác của điểm tín dụng của người dùng.
XÂY DỰNG HỆ THỐNG CHẤM ĐIỂM TÍN DỤNG CHO SÀN GIAO DỊCH NGANG HÀNG DCVFINANCE
Tiền xử lý dữ liệu
3.1.1 Mô tả bộ dữ liệu
Bài nghiên cứu này sử dụng bộ dữ liệu "Payment of Credit Card Client Dataset" từ Kaggle.com, được thu thập từ khách hàng sử dụng thẻ tín dụng tại Đài Loan Mục tiêu của bộ dữ liệu là dự đoán xác suất vỡ nợ của người dùng, từ đó cung cấp điểm tín dụng phù hợp Thông tin này giúp các nhà đầu tư và tổ chức phi ngân hàng đưa ra quyết định cho vay chính xác hơn, giảm thiểu rủi ro trong quá trình cho vay.
Bộ dữ liệu gồm 30.000 bản ghi và 24 biến, trong đó có 5 biến định danh khách hàng, 18 biến độc lập và 1 biến phụ thuộc, nhằm phục vụ cho việc xây dựng mô hình phân lớp dự đoán.
Hình 3 1: Bộ dữ liệu Credit_Card Đầu vào bài toán: Bộ dữ liệu gồm 30 000 bản ghi chứa thông tin của khách hàng dựa trên các đặc điểm về:
• Limit_bal: Tổng hạn mức chi tiêu tín dụng: bao gồm toàn bộ hạn mức chi tiêu các thẻ tín dụng của người dùng
• Trình độ học vấn: 1 = trên đại học, 2 = đại học, 3 = trung học, 4 = dưới trung học
• Tình trạng hôn nhân: 1 = đã kết hôn, 2 = độc thân, 3 = khác
• Pay_0, Pay_2, Pay_3, Pay_4, Pay5, Pay_6: Lịch sử thanh toán trong quá khứ: -1
Thanh toán đúng hạn là rất quan trọng trong quản lý tài chính Nếu không có khoản thanh toán nào
• Bill_AMT1, Bill_AMT2, Bill_AMT3, Bill_AMT4, Bill_AMT5, Bill_AMT6: Tổng tiền hóa đơn hàng tháng từ tháng 4 đến tháng 9
Số tiền thanh toán hàng tháng từ tháng 4 đến tháng 9 được thể hiện qua các chỉ số Pay_AMT1, Pay_AMT2, Pay_AMT3, Pay_AMT4, Pay_AMT5 và Pay_AMT6 Mục tiêu của bài toán là đánh giá điểm tín dụng cho từng khách hàng trong bộ dữ liệu.
Mục tiêu của bài toán Chấm điểm tín dụng là giảm thiểu rủi ro vỡ nợ và xác định khả năng thanh toán của khách hàng trong tương lai Qua đó, các tổ chức phi tín dụng có thể giảm tỷ lệ nợ xấu và mở rộng khả năng tiếp cận đến những người dùng có lịch sử tín dụng tốt.
3.1.2 Tiền sử lý dữ liệu
Trước khi thực hiện phân tích dữ liệu bằng các phương pháp học máy, điều quan trọng là phải làm sạch bộ dữ liệu và loại bỏ mọi giá trị "null".
Bước 1: Kiểm tra hình dạng bộ dữ liệu:
Hình 3 2: Kích thước bộ dữ liệu
Kích thước của bộ dữ liệu bao gồm: 30000 dòng và 25 cột
Bước 2: Kiểm tra số lượng dữ liệu null trong mỗi cột:
Kết quả trả về chỉ bao gồm giá trị số, không có dữ liệu dạng văn bản Tất cả các cột đều có giá trị đầy đủ, không có giá trị nào bị thiếu.
Bước 3: Kiểm tra thông tin bộ dữ liệu bằng cách xác minh các cột giá trị định danh, bao gồm Giới tính, Trình độ học vấn, Tình trạng hôn nhân và Tuổi.
Hình 3 4: Kiểm tra giá trị dư thừa trong bộ dữ liệu
Trong các cột định danh, có hai cột với giá trị không xác định, bao gồm trình độ học vấn và tình trạng hôn nhân Các giá trị bằng "0" trong hai cột này biểu thị cho các dòng bị khuyết thiếu thông tin Vì vậy, cần phải loại bỏ các hàng có chứa số 0 để đảm bảo tính chính xác của dữ liệu.
Hình 3 5: Xuất các hàng chứa giá trị dư thừa trong bộ dữ liệu
Kết quả trả về tổng cộng có 68 hàng chứa giá trị = “0” trong bộ dữ liệu
Bước 4: Lọc bỏ các hàng có dữ liệu bị thiếu và cắt tỉa bộ dữ liệu Để tạo ra một bộ dữ liệu mới với số lượng hàng giảm xuống mà không chứa giá trị khuyết thiếu, tôi đã tạo một data mới có tên là df_no_missing.
Hình 3 6: Lọc bỏ các hàng chứa dữ liệu bị thiếu và cắt tỉa bộ dữ liệu
Hiện tại, bộ dữ liệu đã hoàn thiện và không còn thiếu giá trị, cho phép chúng ta bắt đầu quá trình phân tích và xử lý dữ liệu để đạt được kết quả mong muốn.
Trước khi tiến hành phân tích dữ liệu, việc chia bộ dữ liệu thành hai phần là rất quan trọng: một phần được sử dụng để đào tạo mô hình và phần còn lại dành cho thử nghiệm.
Hình 3 7: Chia bộ dữ liệu thành 2 phần: đào tạo và kiểm thử
Tại đây, em đã chia bộ dữ liệu làm 2 phần: bộ dữ liệu dành cho đào tạo (X_train, y_train) và bộ dữ liệu thử nghiệm (X_test.y_test).
So sánh hiệu quả của từng thuật toán và xây dựng mô hình chấm điểm tín dụng
3.2.1 So sánh hiệu quả từng thuật toán
3.2.1.1 Lựa chọn phương pháp đánh giá
Dựa trên đề tài, các giá trị mục tiêu được xác định là giá trị liên tục, do đó, mô hình hồi quy là công cụ cần thiết để dự đoán các giá trị này Để đánh giá hiệu quả của mô hình hồi quy, cần đảm bảo khả năng làm việc với tập dữ liệu liên tục Sau khi nghiên cứu, tôi quyết định sử dụng MAE (Mean Absolute Error) làm phương pháp đánh giá cho mô hình.
Sai số trung bình tuyệt đối (Mean Absolute Error - MAE) là một chỉ số quan trọng trong việc đánh giá độ chính xác của các dự đoán MAE đo lường mức độ trung bình của các lỗi trong một tập hợp dự đoán mà không xem xét hướng của chúng Chỉ số này được tính bằng cách lấy trung bình của sự khác biệt tuyệt đối giữa các giá trị dự đoán và giá trị quan sát thực tế, với tất cả các khác biệt được trọng số bằng nhau Công thức tính MAE giúp người dùng dễ dàng hiểu và áp dụng trong các bài toán dự đoán.
• Yi: Giá trị ước lượng
• Xi: Giá trị phụ thuộc
MAE càng nhỏ càng thể hiện độ chính xác của thuật toán đối với từng bộ dữ liệu khác nhau
Ví dụ: Dự đoán giá nhà ở cho chủ bất động sản:
Giả định giá thực tế của nhà ở theo từng loại phòng:
Giả định giá dự đoan của nhà ở theo từng loại phòng:
Tính Lỗi trung bình tuyệt đối – MAE: n==4
• Nhà 2 phòng ngủ: Giá trị sai lệch = giá thực tế - giá dự đoán = 200000 – 230000
• Nhà 3 phòng ngủ: Giá trị sai lệch = giá thực tế - giá dự đoán = 300000 – 290000
• Nhà 4 phòng ngủ: Giá trị sai lệch = giá thực tế - giá dự đoán = 400000 – 740000
• Nhà 5 phòng ngủ: Giá trị sai lệch = giá thực tế - giá dự đoán = 500000 – 450000
Kết luận: Sự khác biệt giữa giá nhà thực tế và giá nhà dự đoán bởi mô hình là 107500$
3.2.1.2 So sánh hiệu quả từng thuật toán
Chúng tôi đã thực hiện đo lường hiệu suất của các mô hình hồi quy với k (giá trị xác thực chéo) trên bộ dữ liệu “Payment of Credit Card Client Dataset” sau khi tiến hành tiền xử lý dữ liệu.
Hình 3 8: Đo hiệu quả của từng thuật toán trên bộ dữ liệu
Hình 3 9: Độ hiệu quả của từng thuật toán trên bộ dữ liệu Payment of Credit Card
Dựa trên kết quả phân tích, mô hình hồi quy Gradient Boosting cho thấy hiệu suất tối ưu hơn so với các mô hình hồi quy khác, với sai số thấp hơn đáng kể Vì vậy, tôi quyết định chọn Gradient Boosting làm thuật toán chính để xây dựng mô hình hồi quy chấm điểm tín dụng.
3.2.2 Phương thức hoạt động thuật toán Gradient Boosting
Nếu Random Forest là ví dụ điển hình của phương thức Bagging thì Gradient Boosting là ví dụ điển hình của phương thức Boosting
GBM (Gradient Boosting Machine) là một kỹ thuật mạnh mẽ trong việc xây dựng mô hình dự đoán, thường được áp dụng trong hồi quy và phân loại Phương pháp này tiến hành xây dựng mô hình theo từng giai đoạn, tương tự như các kỹ thuật tăng cường khác, giúp lựa chọn dự đoán tối ưu GBM cũng cho phép tối ưu hóa và khái quát hóa các hàm mất mát khác nhau, nâng cao hiệu suất dự đoán.
GBM (Gradient Boosting Machine) là một phương pháp học máy mạnh mẽ, xây dựng nhiều cây quyết định Mỗi cây trong chuỗi này sẽ học cách khắc phục những sai sót của cây trước đó, từ đó tạo ra một hệ thống các cây liên kết chặt chẽ Kết quả cuối cùng của quá trình này là một mô hình chính xác hơn, giúp cải thiện hiệu suất dự đoán.
Gradient Boosting được xây dụng thuật toán để giải quyết bài toán tối ưu sau đây:
• L: giá trị hàm mất mát
• cn: confidence score của cây thứ n (hay còn gọi là trọng số)
Thay vì tìm toàn bộ giá trị của các tham số để xác định nghiệm tối ưu toàn cục như phương pháp Bagging, Gradient Boosting Machine (GBM) tìm kiếm các nghiệm cục bộ sau mỗi lần thêm cây mới vào mô hình, với mục tiêu dần tiến tới nghiệm tối ưu toàn cục Áp dụng công thức Gradient Descent, các cây được coi như một hàm số W, và mỗi learner được xem như một tham số w Từ đó, ta có hàm mất mát L(y,W) mới.
Từ đây ta rút ra được mối quan hệ như sau:
Cây tiếp theo trong chuỗi là wn, và cây mới này cần học cách sửa những lỗi của cây trước đó Để thực hiện điều này, nó phải điền vào giá trị (-η ∂ω/∂L(Wn-1)), mà còn được gọi là sự khác biệt giữa giá trị thực tế và giá trị dự đoán.
Tóm lại, quá trình triển khai thuật toán đơn giản như sau:
• Khởi tạo giá trị − 𝜕𝜔 𝜕 𝐿(𝑊 𝑛−1 ) là bằng nhau cho từng điểm dữ liệu
Tại vòng lặp thứ i, cây đào tạo mới được xây dựng dựa trên giá trị − 𝜕𝜔 𝜕 𝐿(𝑊 𝑛−1 ) của cây trước Tiếp theo, tính toán giá trị trọng số ci cho cây vừa đào tạo và cập nhật lại cây chính theo công thức W = W + ci * wi Cuối cùng, tính toán giá trị − 𝜕𝜔 𝜕 𝐿(𝑊 𝑛−1 ) để làm nhãn cho cây tiếp theo, sau đó lặp lại với vòng lặp i + 1.
Hình 3 10: Thuật toán Gradient Boosting Model [11]
Thuật toán Gradient Boosting được áp dụng để dự đoán MPG (Miles per Gallon) của ô tô, sử dụng dữ liệu từ tập dữ liệu ô tô với nhiều biến số khác nhau.
Hình 3 11: Ví dụ cho mô hình Gradient Boosting Model [13]
Bước 1: Tính giá trị trung bình Đây là bước đầu tiên để dự đoán MPG của mọi chiếc xe
Mean = (32,1 + 18,5 + 46,6 + 24 + 18/5) = 27,84 Bước 2: Xây dựng một cây dựa trên các lỗi từ cây đầu tiên
Tại đây, phần dư là sự khác biệt giữa MPG quan sát và dự đoán (MPG quan sát
- Predicted MPG) Các sai số mà cây trước đó thực hiện là sự khác biệt giữa MPG quan sát và dự đoán
Hình 3 12: Tính Giá trị mean [13]
Kết hợp cây ban đầu với cây mới giúp đưa ra dự đoán mới về MPG Gradient Boosting giải quyết vấn đề này bằng cách áp dụng tỷ lệ học tập 10% để mở rộng các đóng góp từ cây mới.
Vì vậy, giá trị predicted cho hàng đầu tiên: 27,84 + 0,1 * 4,26 = 28,266
Tương tự như vậy, ta có cột giá trị dự đoán như sau:
Hình 3 13: Dự đoán giá trị MPG mới [13]
Bước 3: Tiếp tục tính toán số dư một lần nữa với MPG dự đoán mới
Phần dư mới đã giảm so với phần dư cũ, cho thấy đây là một bước tiến tích cực Hiện tại, chúng ta sẽ kết hợp cây với cây trước đó và chiếc lá ban đầu.
Predicted mới của hàng đầu tiên: 27,84 + (0,1 * 4,26) + (0,1 * 3,83) = 28,649
Hình 3 15: Dự đoán giá trị MPG mới [13]
Tiếp tục lặp lại cho đến khi đưa ra cây cuối cùng
Bắt đầu với giá trị trung bình của biến cần dự đoán, chúng ta thêm một cây dựa trên phần dư và điều chỉnh tỷ lệ đóng góp của cây vào dự đoán cuối cùng bằng tỷ lệ học tập Tiếp theo, chúng ta tiếp tục thêm cây mới dựa trên phần dư vừa tạo ra, lặp lại quá trình này để cải thiện dự đoán bằng cách sử dụng các lỗi từ cây trước đó.
3.2.3 Xây dựng mô hình chấm điểm tín dụng
Bước 1: Tạo mô hình GBM
Khởi tạo mô hình với k_fold (giá trị xác thực chéo) giúp đánh giá hiệu suất của mô hình hồi quy Thuật toán cung cấp 6 số liệu quan trọng: MAE, MSE, RMSE, R2, RMSLE và MAPE Dòng điểm nổi bật thể hiện hiệu suất trung bình sau 10 lần xây dựng cây cho từng phương thức đánh giá.
Hình 3 16: Khởi tạo mô hình Gradient Boosting Model Bước 2: Điều chỉnh mô hình GBM
Khi mô hình được tạo ra, nó sử dụng các hyperparameters mặc định Để điều chỉnh các hyperparameters, bạn cần sử dụng hàm “tune_model” kết hợp với xác nhận chéo k_fold Kết quả trả về sẽ bao gồm 6 số liệu đánh giá cho mô hình hồi quy phổ biến nhất, bao gồm MAE, MSE, RMSE, R2, RMSLE và MAPE.
Xây dựng hệ thống
3.3.1 Cài đặt môi trường phát triển
Lựa chọn môi trường phát triển sau đây cho việc cài đặt hệ thống trên nền tảng web:
- Hệ quản trị cơ sở dữ liệu: MySQL
- Ngôn ngữ lập trình chính: PHP, Python
- Các ngôn ngữ khác: HTML, CSS, Javascript, Jquery,
Dữ liệu từ hệ thống DCVFinance bao gồm thông tin của 300 khách hàng đang giao dịch, với các chi tiết như thông tin cá nhân, định danh (CCCD/CMND/hộ chiếu/bằng lái xe), dữ liệu thanh toán (hóa đơn điện nước, thanh toán truyền hình, nạp thẻ điện thoại), thông tin thẻ tín dụng (số lượng, loại, hạn mức, tình trạng) và thông tin khoản vay (số lượng khoản vay, số khoản vay trả đúng hạn, số khoản vay quá hạn, số tiền vay trả quá hạn).
Trong phần 3.3.2.3 của dự án DCVFinance, chúng tôi đã xây dựng giao diện quản trị khách hàng, nơi hiển thị các thông tin quan trọng như họ tên, số điện thoại, email và số dư ví của khách hàng Giao diện này giúp quản lý và theo dõi giao dịch của khách hàng trong hệ thống một cách hiệu quả.
Số lần vay (được tính theo tài khoản của khách hàng), Trạng thái tài khoản
Giao diện trang xem chi tiết người dùng là màn hình quản trị khách hàng quan trọng, cung cấp thông tin chi tiết của từng khách hàng Trang này hiển thị một số mục cụ thể, giúp người quản trị dễ dàng theo dõi và quản lý thông tin khách hàng.
• Điểm tín dụng và số lần đã vay, số dư trong ví và hợp đồng đã kí kết với DCVFinance
Thông tin cá nhân của khách hàng bao gồm ảnh đại diện, số điện thoại, email (để gửi hợp đồng), địa chỉ hiện tại và ngày sinh.
Thông tin định danh bao gồm các yếu tố quan trọng như số CMND hoặc CCCD, mã số hộ chiếu, số định danh bằng lái xe, quê quán, nơi cấp giấy tờ và ngày cấp giấy tờ.
Hình 3 22: Xem chi tiết thông tin người dùng
• Điểm tín dụng: Được tính toán bằng phương thức học máy đã được chọn lọc tại mục 3.2
Tỷ lệ thanh toán nợ hàng tháng thể hiện khả năng thanh toán nợ trung bình của người dùng trong tháng, được tính bằng công thức: (tổng số tiền người dùng thanh toán nợ / tổng số tiền người dùng đã vay trong hệ thống) * 100% / số tháng người dùng sử dụng hệ thống.
Khách hàng Nguyễn Thị Thùy Dương đã tham gia vào hệ thống từ ngày 30/3/2022 và đã thực hiện 3 yêu cầu vay Trong tháng đầu tiên, cô đã thanh toán đúng hạn cho 2 khoản vay, đạt tỷ lệ thanh toán nợ 100% trong tháng 3 Tuy nhiên, trong tháng 4, một khoản vay đã quá hạn 7 ngày, với tỷ lệ thanh toán đạt 72.7%, khi cô đã trả được 7.400.000 trên tổng số 10.180.000.
% Thanh toán nợ trong tháng dc tính = (100% + 72.7%) /2 = 86,4%
Hình 3 23: Màn quản trị yêu cầu vay của người dùng Nguyễn Thị Thùy Dương
• Số lần thanh toán quá hạn: thể hiện số lần thanh toán quá hạn của người dùng
• Số dư ví: Hiển thị số dư ví trong hệ thống của người dùng c Chọn lọc và hiển thị thông tin khoản vay lên app DCVFinance
Theo chính sách của công ty, hệ thống từ chối các khoản vay của khách hàng có điểm tín dụng dưới 60 và phê duyệt các khoản vay cho khách hàng có điểm trên 60 Các khoản vay đạt yêu cầu sẽ được hiển thị trên ứng dụng dành cho nhà đầu tư DCVFinance.
Hình 3 24: Màn hình hiển thị danh sách khoản vay trên app DCVFinance
Từ đây, nhà đầu tư có thể lựa chọn các khoản vay phù hợp dành cho bản thân và tiến hành đầu tư trên hệ thống.
So sánh hiệu quả của hệ thống mới với quy trình chấm điểm của công ty
Bước 1: Tạo nút export báo cáo điểm tín dụng trên trang Admin
Bản báo cáo bao gồm:
• Thông tin tổng quát của khách vay
• Thông tin bản thân khách vay
• Thông tin liên quan đến tín dụng cá nhân của khách vay
• Điểm công ty chấm, điểm tín dụng máy dự đoán, độ lệch giữa 2 điểm và sai số của thuật toán
Hình 3 25: Xây dựng và trích xuất báo cáo từ hệ thống Bước 2: Bản báo cáo điểm tín dụng được download về máy
Bản báo cáo bao gồm thông tin của 322 khách hàng đã xác minh tài khoản trên hệ thống đi kèm các trường thông tin:
• Họ và tên: Được xác minh thông tin thông qua thẻ CCCD, CMND, Hộ chiếu, Bắng lái xe
• Số điện thoại: Được xác minh bằng phương thức gửi OTP về số điện thoại
• Tuổi: Được xác minh thông qua ngày sinh trên CCCD, CMND, Hộ chiếu, Bắng lái xe
Học vấn, tình trạng cư trú, công việc hiện tại, thời gian làm việc và gắn bó với doanh nghiệp, cùng với thu nhập hàng tháng, được thu thập thông qua các nguồn báo đài và doanh nghiệp liên kết với công ty khách hàng.
• Rủi ro nghề nghiệp, thu nhập hàng năm: Tính toán dựa trên các thông tin được cung cấp bởi doanh nghiệp người dùng đang làm việc
Số lượng thẻ tín dụng, thời gian mở thẻ tín dụng đầu tiên, số thẻ tín dụng mở trong năm trước, thẻ tín dụng mở gần nhất và số thẻ tín dụng đang hoạt động sẽ được xác minh qua số thẻ tín dụng mà người dùng đã thêm vào hệ thống Thông tin này cũng được kiểm tra thông qua ngân hàng liên kết với công ty và cán bộ tín dụng sẽ xác nhận tình trạng thẻ của khách hàng.
Khoản vay đầu tiên, số khoản vay mở trong năm trước, khoản vay gần nhất, số khoản vay chưa thanh toán, và tổng nợ phải trả là những thông tin quan trọng Thêm vào đó, lần trễ hạn thanh toán gần nhất, số lượng khoản vay hoặc nợ tín dụng quá hạn, cùng với tổng dư nợ tín dụng so với tổng hạn mức cũng được ghi nhận Tất cả các dữ liệu này được lưu trữ trong kho dữ liệu chung của các tổ chức tín dụng phi ngân hàng tại Việt Nam và CIC của Ngân hàng Nhà nước Việt Nam.
Hình 3 26: Báo cáo hiệu quả của thuật toán so với hệ thống
• Xếp hạng AA tăng từ 0 lên 1 người so với điểm thực tế
• Xếp hạng A từ 7 người lên 9 người: tăng 2 người so với thực tế
• Xếp hạng BBB từ 27 người giảm xuống 20 người: giảm 7 người
• Xếp hạng BB từ 81 người lên 85 người: tăng 4 người
• Xếp hạng B từ 110 xuống 102 người: giảm 8 người
• Xếp hạng CCC từ 81 xuống 75 người: giảm 6 người
• Xếp hạng CC từ 16 lên 28 người: tăng 12 người
• Xếp hạng C từ 0 lên 2 người: tăng 2 người
Nguyên nhân gây ra sai sót:
Bộ dữ liệu hiện tại chưa đủ lớn để đảm bảo tính chính xác trong việc lựa chọn thuật toán, với 30.000 bản ghi được sử dụng cho quá trình này, trong khi bộ dữ liệu thực tế chỉ có hơn 300 bản ghi để áp dụng thuật toán.
Hai phương thức tính toán để xác định điểm tín dụng của công ty hiện tại là khác nhau; cán bộ tín dụng thực hiện đánh giá thủ công, trong khi báo cáo sử dụng thuật toán để chấm điểm Do đó, sự sai lệch giữa hai phương pháp này là điều khó tránh khỏi, vì phương pháp tính toán của công ty chủ yếu dựa vào 90% yếu tố chủ quan Điều này có thể khiến doanh nghiệp mất đi một số khách hàng tiềm năng trong hệ thống.
- Miền giá trị giữa các hạng quan trọng là nhỏ, ví dụ các hạng AAA, AA, A chỉ là
Sai số 5,9936 cho thấy sự chênh lệch giữa các hạng AAA, AA, A lớn hơn nhiều so với các hạng còn lại Ví dụ, khách hàng số 300 với điểm thực tế 82 được xếp hạng BBB, nhưng sau khi áp dụng thuật toán, điểm số tăng lên 86 và được nâng hạng A Điều này cho thấy ảnh hưởng đáng kể của sự sai lệch trong việc xếp hạng.
Các sai số của thuật toán dẫn đến một số rủi ro cho doanh nghiệp như sau:
Khách hàng có điểm tín dụng từ 85 trở lên (hạng A trở lên) trong nhóm nợ số 1 đã tăng từ 7 lên 12 người, tương đương với mức tăng 71% Việc này dẫn đến nhiều khách hàng được hưởng đãi ngộ tối đa hơn thực tế, gây ra rủi ro cho doanh nghiệp khi không tối ưu hóa được nguồn vốn như mong muốn.
Khách hàng có điểm tín dụng từ 60 – 84 (hạng B đến hạng BBB) thuộc nhóm nợ số 2 đã giảm từ 218 xuống còn 202 người, tương ứng với mức giảm 16 người, tức khoảng 7,3% Sự giảm này dẫn đến việc 16 khách hàng đủ điều kiện phê duyệt nhưng bị từ chối do điểm dự đoán, gây ảnh hưởng tiêu cực đến đãi ngộ mà họ đáng lẽ được hưởng.
Khách hàng mới sẽ không bị ảnh hưởng đến điểm tín dụng của mình; điểm tín dụng này sẽ được giữ nguyên cho đến khi họ tạo yêu cầu vay đầu tiên trên hệ thống hoặc có chính sách mới từ công ty.
Mặc dù hệ thống vẫn có những sai lệch đáng kể, nhưng các sai lệch trong xếp hạng từ A trở lên không ảnh hưởng nhiều đến khách hàng vay, đặc biệt khi họ không vay tối đa quyền lợi của mình và điểm tín dụng được cập nhật thường xuyên hàng tháng Hệ thống hỗ trợ phê duyệt các khoản vay AAA, AA và BB, trong khi các khoản vay từ A, BBB, B, C cần được cán bộ chấm điểm tín dụng kiểm tra lại Khách hàng có điểm tín dụng ở mức D sẽ bị từ chối cho vay.
Để duy trì độ chính xác trong xếp hạng tín dụng, cần cải thiện thuật toán và giám sát chặt chẽ điểm tín dụng nhằm phát hiện các bất thường trong hệ thống Việc này sẽ giúp giảm thiểu rủi ro, đặc biệt khi số lượng khách hàng ngày càng gia tăng.