Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm Điểm tín dụng Đối tượng khách hàng cá nhân

Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm Điểm tín dụng Đối tượng khách hàng cá nhân Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm Điểm tín dụng Đối tượng khách hàng cá nhân

GIỚI THIỆU BÀI TOÁN CHẤM ĐIỂM TÍN DỤNG ĐỐI TƯỢNG KHÁCH HÀNG CÁ NHÂN

Đặt vấn đề

Chấm điểm tín dụng đóng vai trò quan trọng trong việc thúc đẩy phát triển kinh tế thông qua việc tăng khả năng tiếp cận của khách hàng đến các nguồn vay và cho phép phân tán rủi ro, tối ưu việc phân bổ các chi phí và dự trữ tài chính một cách hiệu quả hơn Tính sẵn có của thông tin và việc các dữ liệu được tự do chia sẻ một cách khách quan chính là nền tảng của một nền kinh tế thị trường hiện đại và hiệu quả Xếp hạng tín dụng cho phép cá nhân và các tổ chức tín dụng có thể tự do giao dịch với nhau, bởi vì tổ chức tín dụng càng có thông tin đầy đủ và khách quan thì càng đáp ứng được một cách chính xác hơn nhu cầu và nguyện vọng của khách hàng [2]

Chấm điểm tín dụng đem lại nhiều lợi ích cho mọi tầng lớp của nền kinh tế Điểm tín dụng cho phép tổ chức cho vay mở rộng tiếp cận tới các phân khúc thị trường mà trước đây chưa được phục vụ đầy đủ Các quyết định giờ đây được đưa ra nhanh chóng và khách quan hơn, điểm tín dụng góp phần giúp phần lớn các hồ sơ vay nhận được câu trả lời trong thời gian chỉ tính bằng phút, thay vì bằng ngày Hơn nữa, việc dự đoán rủi ro một cách có hiệu quả hơn bằng cách chấm điểm tín dụng, tổ chức cho vay có thể giảm chi phí cho các dịch vụ thiết yếu như cho vay thế chấp, cho vay tiêu dùng cá nhân và thẻ tín dụng Cụ thể, mặc dù được mở rộng tới những thị trường trước đây chưa được phục vụ đầy đủ, tỉ lệ rủi ro thực tế khi sử dụng điểm tín dụng vẫn thấp hơn, do tổ chức cho vay có thể quản lý rủi ro một cách hiệu quả hơn và duy trì rủi ro ở mức độ thích hợp

Chấm điểm tín dụng đóng vai trò thiết yếu giúp một hệ thống tài chính hiện đại hoạt động tốt [3] Việc trao đổi thông suốt thông tin một cách trung lập và khách quan giữa các đối tác hợp pháp cho phép tổ chức cấp tín dụng đưa ra các quyết định một cách nhanh chóng, chính xác và cạnh tranh hơn để phê duyệt được nhiều hồ sơ xin vay hơn, mở rộng khả năng tiếp cận tín dụng, đặc biệt là tới những nhóm đối tượng mà trước đây chưa được phục vụ đầy đủ hoặc chưa thể tiếp cận được các nguồn tài chính này Ngoài ra, chấm điểm tín dụng giúp tổ chức cho vay có thể định giá các sản phẩm dựa vào từng mức độ rủi ro khác nhau, duy trì sự công bằng về chi phí vốn tương ứng với mức độ rủi ro của các khách hàng Điểm tín dụng đóng vai trò vô cùng quan trọng khi cấp tín dụng cho các phân khúc thị trường mà trước đây chưa được phục vụ đầy đủ Lấy thị trường Hoa Kỳ làm ví dụ, vào năm 2001, 75% số hộ gia đình đã tham gia vào thị trường tín dụng tiêu dùng và tín dụng thế chấp, 73% số hộ gia đình sở hữu ít nhất một thẻ tín dụng vì sử dụng cho mục đích chung và có gần một phần ba số hộ gia đình thuê hoặc vay tiền mua xe hơi Kể từ năm 1970, sau khi FCRA, đạo luật đầu tiên cho phép báo cáo tín dụng và chấm điểm tín dụng tại Hoa Kỳ, được ban hành, khả năng tiếp cận tín dụng nguồn vốn tín dụng của các khách hàng đã được tăng đáng kể, đặc biệt ở nhóm Hộ gia đình, phân khúc thị trường mà trước đây chưa được phục vụ đầy đủ Cụ thể, việc tiếp cận tín dụng của những khách hàng thuộc nhóm 20% có thu nhập thấp nhất đã tăng 70% trong khoảng từ năm 1970 đến năm 2001 (Xem chi tiết biểu đồ dưới đây) [4]

Hình 1-1 Thay đổi về Tỷ lệ hộ gia đình tại Hoa Kỳ sử dụng nguồn vốn tín dụng [4]

Chấm điểm tín dụng đã giúp đưa ra các quyết định cho vay nhanh chóng và công bằng hơn Ngay cả những quyết định cho vay với số tiền lớn lớn giờ đây cũng có thể được đưa ra với thời gian chỉ tính bằng giờ hoặc bằng phút, thay vì tính bằng ngày hoặc bằng tuần như trước đây Trong một nghiên cứu tiến hành năm 2001 tại thị trường Hoa Kỳ, 84% các khoản vay mua xe hơi được nhận được quyết định trong vòng 1 giờ, 23% các khoản vay mua xe hơi được nhận được quyết định trong vòng

10 phút; và phần lớn người bán lẻ nhận báo có tiền bán hàng bằng tín dụng trong vòng dưới 2 phút [5]

Ngoài tốc độ và sự tiện lợi, điểm tín dụng còn giúp cho các khoản tín dụng có chi phí thấp hơn, cụ thể là khách hàng chỉ phải trả chi phí thấp hơn và có khả năng tiếp cận cao hơn với các khoản tín dụng Sự gia tăng khả năng tiếp cận nguồn vốn tín dụng có thể khiến người ta lo ngại về nguy cơ cho vay vượt quá khả năng chi trả hoặc các vấn đề về đạo đức, đặc biệt là ở nhóm có thu nhập thấp Tuy nhiên, việc chấm điểm tín dụng làm tăng cường tính chính xác và có khả năng dự báo về chất lượng tín dụng của các khoản vay phát sinh, cho nên điều lo ngại này không xảy ra

Thấp nhất Thấp thứ nhì Nhóm giữa Cao thứ nhì Cao nhất

Dù khả năng tiếp cận tín dụng của khách hàng đã tăng đáng kể, tổng gánh nặng vay nợ tại thị trường Hoa Kỳ vẫn giữ tương đối ổn định trong vòng 20 năm qua, ở mức từ 11.8% đến 14.4% (Chi tiết xem Hình 1-2 dưới đây) [4]

Hình 1-2 Gánh nặng vay nợ của Hộ gia đình trong Tổng thu nhập khả dụng của Cá nhân

Trên thực tế, chấm điểm tín dụng cho phép tổ chức tín dụng chủ động hơn trong việc ngăn chặn cho vay vượt quá khả năng chi trả và các vấn đề về đạo đức Điểm tín dụng giúp tổ chức tín dụng khi cho vay có thể đánh giá rủi ro một cách liên tục và đưa ra những biện pháp kịp thời, vì vậy tỷ lệ nợ quá hạn tại Hoa Kỳ rất thấp

Trong quý IV năm 2002, chỉ có 3.9% trong tổng số người đi vay thế chấp chậm trả trong 30 ngày hoặc lâu hơn, 4.6% người đi vay sử dụng thẻ tín dụng chậm trả 30 ngày hoặc lâu hơn, và 60% người đi vay tại Hoa Kỳ chưa bao giờ chậm trả trong vòng 7 năm trở lại đây [4]

Vì vậy, chấm điểm tín dụng ngày càng được các định chế cho vay sử dụng nhiều hơn trong việc đánh giá tín dụng Hiện nay, người dân, đặc biệt là người dân

16 ở các nước phát triển, cần có mức điểm tín dụng tốt nhằm tiếp cận tín dụng để mua nhà hay ô tô, bắt đầu kinh doanh, học đại học hoặc theo đuổi các mục tiêu quan trọng khác Với nhiều người tiêu dùng, điểm tín dụng tốt cũng là điều kiện cần để tiếp cận với việc làm, thuê nhà hoặc sử dụng các dịch vụ thiết yếu khác như bảo hiểm… Đối với các định chế cho vay, chấm điểm tín dụng giúp họ tăng tốc độ phê duyệt khoản vay, giảm mạnh chi phí, mở rộng quy mô và phạm vi hoạt động, tăng khả năng sinh lời [6].

Ý nghĩa thực tiễn

Trong kinh tế thị trường, sự cạnh tranh gay gắt giữa các tổ chức tín dụng yêu cầu các quyết định tín dụng phải vừa nhanh, vừa có độ rủi ro thấp, vừa có hiệu quả cao Nếu không sẽ dễ mất đi cơ hội tăng thu nhập và mở rộng quy mô tín dụng do khách hàng tìm đến các tổ chức tín dụng khác hoặc tìm nguồn tài trợ bên ngoài

Muốn có quyết định nhanh và chính xác, tổ chức tín dụng phải dự đoán tương đối chính xác về khả năng và thiện chí trả nợ của khách hàng Điều này phụ thuộc vào yếu tố quan trọng là hệ thống thông tin của các tổ chức tín dụng về khách hàng trong quá khứ và hiện tại [8] Yêu cầu đặt ra là các tổ chức tín dụng phải có hệ thống thông tin đáng tin cậy và thực hiện tốt công tác chấm điểm tín dụng nhằm tạo cơ sở cho việc đưa ra các quyết định tín dụng tối ưu

Thông qua kết quả chấm điểm tín dụng khách hàng, tổ chức tín dụng sẽ đánh giá được mức độ tín nhiệm của từng khách hàng vay vốn, xác định được mức độ rủi ro khi cung cấp khoản vay, cụ thể là khả năng trả nợ vay Dựa vào kết quả chấm điểm tín dụng, tổ chức tín dụng sẽ quyết định cho vay hay từ chối cho vay, đảm bảo tính khách quan, khoa học

Cơ sở để xây dựng chính sách khách hàng, danh mục tín dụng

Trên cơ sở chấm điểm tín dụng, tổ chức tín dụng sẽ phân loại khách hàng và áp dụng các chính sách về lãi suất cho vay, hạn mức, thời hạn tín dụng phù hợp Đây cũng là cơ sở xây dựng chính sách tín dụng, áp dụng kỹ thuật cho vay tương ứng với mỗi nhóm khách hàng cụ thể Đối với khách hàng có độ tín nhiệm cao, điểm tín dụng tốt, ngân hàng sẽ áp dụng chính sách ưu đãi: cho vay với lãi suất thấp, giá trị khoản vay lớn, điều kiện cho vay nới lỏng hơn, v.v Ngược lại, đối với khách hàng có độ tín nhiệm thấp, điểm tín dụng thấp cũng đồng nghĩa với những khoản tín dụng hàm chứa nhiều rủi ro, ngân hàng sẽ áp dụng chính sách cho vay và biện pháp kiểm soát chặt chẽ hơn, nhằm hạn chế khả năng rủi ro vỡ nợ xảy ra

Dựa vào kết quả chấm điểm tín dụng, tổ chức tín dụng sẽ đánh giá được mức độ rủi ro của từng cá nhân, nhóm khách hàng cá nhân từ đó xây dựng danh mục tín dụng phù hợp với định hướng trong từng thời kỳ

Cơ sở để phân loại nợ và trích lập dự phòng rủi ro

Theo Điều 4 Quyết định số 493/2005/QĐ-NHNN ngày 22/04/2005 của Ngân hàng Nhà nước thì các tổ chức tín dụng phải xây dựng hệ thống xếp hạng tín dụng nội bộ để hỗ trợ cho việc phân loại nợ, quản lý chất lượng tín dụng phù hợp với phạm vi hoạt động, tình hình thực tế của tổ chức tín dụng [9] Việc hỗ trợ của hệ thống xếp hạng tín dụng nội bộ được thể hiện ở chỗ kết quả xếp hạng tín dụng khách hàng của hệ thống xếp hạng tín dụng nội bộ sẽ làm căn cứ để tính toán và trích lập dự phòng rủi ro theo quy định tại Điều 7 Quyết định 493/2005/QĐ-NHNN ngày 22/4/2005 [9] Hàng năm, tổ chức tín dụng phải đánh giá lại hệ thống xếp hạng tín dụng nội bộ và chính sách dự phòng rủi ro cho phù hợp với tình hình thực tế và các quy định của pháp luật

Bài toán chấm điểm tín dụng

Sự tiến bộ về công nghệ đã gia tăng tính ứng dụng của chấm điểm tín dụng trong vài thập kỉ gần đây Chấm điểm tín dụng đang được ứng dụng rộng rãi và khá thành công cho các dịch vụ tài chính tín dụng như thẻ tín dụng, vay tiêu dùng và vay thế chấp Tại các tổ chức tín dụng, chấm điểm tín dụng được sử dụng vào nhiều mục đích khác nhau như quản lý quá trình trả nợ của khách hàng, quản lý tài khoản, marketing, v.v, việc chấm điểm tín dụng khách hàng được bắt đầu sử dụng ngay khi khách hàng nộp đơn xin vay nhằm ra quyết định cho vay Để đánh một cách giá cẩn trọng rủi ro liên quan đến việc cho vay, các tổ chức tín dụng thu thập thông tin cá nhân đi vay từ hồ sơ đăng kí vay và các nguồn thông tin tín dụng (ví dụ: thu nhập tháng, dư nợ, thông tin vị trí, v.v.) Bằng việc sử dụng một số thuật toán phân loại, các thông tin này được kết hợp lại và đưa ra dự báo về hành vi trả nợ của khách hàng vay

Việc chấm điểm tín dụng là một quá trình gồm nhiều giai đoạn Một cách tổng quát, việc này thường bao gồm các bước: i) xây dựng một mô hình thống kê từ dữ liệu quá khứ; ii) áp dụng mô hình ước lượng vào tính điểm rủi ro của người đi vay; iii) đánh giá sự chính xác của mô hình; và cuối cũng là iv) theo dõi giám sát các chỉ số kinh doanh Việc sử dụng mô hình thống kê thường được xem là vấn đề trọng yếu, ảnh hưởng đến tất cả các hoạt động mô hình hóa tiếp theo và, do đó, ảnh hưởng đến toàn bộ hoạt động của hệ thống chấm điểm tín dụng Tùy vào mục đích sử dụng của điểm tín dụng, các tổ chức tín dụng sẽ áp dụng các mô hình chấm điểm tương ứng với từng giai đoạn của một vòng đời sản phẩm tín dụng Hai trong số các mô hình chấm điểm thường được sử dụng trong các tổ chức tín dụng là mô hình chấm điểm hồ sơ vay (A-score) và mô hình chấm điểm hành vi (B-score) Ngoài ra, tổ

19 chức tín dụng còn có thể sử dụng mô hình chấm điểm thu hồi (C-score), dù cũng được thực hiện trên các khách hàng hiện hữu nhưng mục đích của mô hình này là để phân loại khách hàng vào các nhóm khác nhau phụ thuộc vào mức khả năng thu hồi nợ Dựa trên nhóm khả năng thu hồi các khách hành được phân loại mà hệ thống ngân hàng sẽ đặt các mức độ chú ý cũng như có các hành động khác nhau

Chấm điểm hồ sơ vay và chấm điểm hành vi khá tương đồng với nhau trừ việc đối tượng của chấm điểm hồ sơ vay là khách hàng hoàn toàn mới đối với tổ chức tín dụng, trong khi chấm điểm hành vi được thực hiện đối với các khách hàng hiện hữu nhằm phân tích hành vi của họ Cả hai mô hình này đều được xây dựng dựa trên dữ liệu lịch sử thu thập được, khách hàng sẽ được gán nhãn dựa vào lịch sử tín dụng (nhóm nợ, số ngày quá hạn) Tuy nhiên, do đặc thù khách hàng khác nhau, mô hình

Hình 1-3 Chấm điểm hồ sơ (A-score)

Dữ liệu hồ sơ hiện tại

Dữ liệu các tổ chức thu thập

Dữ liệu hồ sơ vay

Xây dựng mô hình Thẻ điểm

Quyết định cấp tín dụng?

Hình 1-4 Chấm điểm hành vi (B-score) chấm điểm hồ sơ vay sẽ sử dụng các thông tin được kê khai và xác thực trên hồ sơ vay, có thể kết hợp thêm thông tin thu thập được từ các bên thứ ba về khách hàng vay, để làm căn cứ đánh giá độ tín nhiệm của khách hàng Đối với mô hình chấm điểm hành vi, ngoài các thông tin như nhân thân, nghề nghiệp, v.v được cập nhật định kì của khách hàng, các thông tin về hành vi sử dụng các dịch vụ trong tổ chức tài chính như hành vi trả nợ hay các thông tin tài chính của khách hàng cũng được khai thác để liên tục đánh giá khả năng trả nợ của khách hàng trong thời gian sử dụng dịch vụ tín dụng

Về bản chất, chấm điểm tín dụng là phương thức xác định rủi ro gắn với các sản phẩm tín dụng bằng cách áp dụng các kĩ thuật thống kê hoặc học máy trên dữ liệu lịch sử của khách hàng [7] Mục tiêu chính của chấm điểm tín dụng là xác định người đăng kí các sản phẩm tín dụng nằm trong nhóm tín nhiệm hay không tín nhiệm

Dữ liệu KH hiện tại

Xây dựng mô hình Thẻ điểm

Quyết định quản trị danh mục

(có khả năng vỡ nợ) Chấm điểm tín dụng không phải là một quy trình đơn lẻ mà được thực hiện theo các giai đoạn xuyên suốt vòng đời của một sản phẩm tín dụng, tổ chức tín dụng sẽ thực hiện các bước như chấm điểm hồ sơ vay, chấm điểm hành vi, hay chấm điểm thu hồi nợ, v.v

Các bài toán chấm điểm tín dụng nói chung sẽ có đầu vào là các thông tin liên quan đến đối tượng chấm điểm và đầu ra là xác suất khách hàng trả nợ (có thể quy đổi thành điểm số) mà tổ chức tín dụng dùng để đánh giá sự uy tín của đối tượng đó khi sử dụng các sản phẩm tín dụng

Nói một cách khác, bài toán chấm điểm tín dụng đo lường định lượng rủi ro tiềm tàng của khách hàng bằng cách phân tích dữ liệu liên quan để dự báo khả năng vỡ nợ của họ với khoản vay trong tương lai Cụ thể chấm điểm tín dụng sử dụng các kỹ thuật khai phá dữ liệu, tìm kiếm các quy luật của các dữ liệu lịch sử và áp dụng đưa ra quyết định cấp tín dụng cho các khách hàng trong tương lai

Mô hình chấm điểm tín dụng có thể sử dụng các thuật toán phân loại để phân loại khách hàng thành hai nhóm: nhóm trả nợ và nhóm vỡ nợ Điểm chung của các thuật toán này là sử dụng một hàm để khớp giữa biến phụ thuộc rời rạc (trả nợ/vỡ vợ) và các biến dự báo rủi ro, ví dụ hàm hồi quy tuyến tính Sau đó, các tham số của hàm số này được ước lượng dựa vào dữ liệu huấn luyện để tạo ra mô hình (bảng chấm điểm) dự báo giá trị tương lai của biến phụ thuộc Về nguyên tắc, bất kì thuật toán phân loại nào cũng có thể được sử dụng để phát triển bảng chấm điểm tín dụng

Việc lựa chọn giữa các kĩ thuật thay thế sẽ dựa trên ba tiêu chí: tính giải thích, dễ dàng áp dụng và khả năng dự báo chính xác

Dữ liệu đầu vào Dự báo đầu ra Mục tiêu

▪ Thông tin trên hồ sơ vay;

▪ Thông tin lịch sử quan hệ tín dụng;

Khả năng trả nợ của khách hàng:

▪ Xác suất vỡ nợ; hoặc

▪ Sàng lọc các khách hàng có khả năng chi trả để cho vay;

▪ Định kì giám sát chất lượng tín dụng của khách hàng xuyên suốt vòng đời khoản vay để có những biện pháp, hành động cụ thể giảm thiểu các khoản nợ xấu

Bảng 1-1 Dữ liệu đầu vào, kết quả đầu ra và mục đích của bài toán chấm điểm tín dụng

Việc lựa chọn thuật toán thay thế thường phải chấp nhận đánh đổi một trong ba tiêu chí ở trên Ví dụ: nhiều thuật toán thể hiện khả năng phân biệt ưu việt, nhưng yêu cầu nhiều nguồn lực tính toán, trong khi những thuật toán khác lại dễ để triển khai và giải thích nhưng lại có khả năng dự báo khiêm tốn hơn.

Tổng quan các nghiên cứu về bài toán chấm điểm tín dụng khách hàng cá nhân

Các kĩ thuật khai phá dữ liệu sử dụng trong lĩnh vực chấm điểm tín dụng được phát minh từ thập niên 50 thế kỉ trước [10] Đến nay, đã có rất nhiều các kĩ thuật được phát triển và ứng dụng, trong đó phổ biến nhất phải kể đến các kĩ thuật như:

Phân tích phân biệt, hồi quy Logistic, K láng giềng gần nhất, mạng thần kinh nơ-ron nhân tạo [11] Sự bùng nổ của công nghệ thông tin 4.0 cùng với sự phát triển của trí tuệ thông minh nhân tạo, việc tập trung vào khai phá dữ liệu sử dụng các kỹ thuật trí tuệ nhân tạo cũng không nằm ngoài xu hướng trong lĩnh vực chấm điểm tín dụng

1.4.1 Mô hình hồi quy Logistic

Mô hình hồi quy Logistic là mô hình hồi quy với biến phụ thuộc (𝑌) là biến nhị phân, các giá trị có thể quy về hai giá trị là 0 và 1; các biến độc lập có thể là biến nhị phân, biến rời rạc hoặc biến liên tục Trong mô hình xếp hạng tín dụng, biến phụ thuộc 𝑌 nhận giá trị 1 khi khách hàng không trả được nợ và 0 khi khách hàng trả được nợ Các biến độc lập đại diện cho các thông tin định tính và định lượng của khách hàng như thu nhập, độ tuổi, giới tính, trình độ học vấn, v.v Sau khi hồi quy, thu được 𝑌̂ = 𝛼 + 𝛽 1 𝑋 1 + 𝛽 2 𝑋 2 + ⋯ + 𝛽 𝑘 𝑋 𝑘 là giá trị ước lượng của 𝑌 Khi đó xác suất vỡ nợ của khách hàng được tính bằng 𝑃 = 1

1+𝑒 −𝑌 Giá trị 𝑃 sẽ nằm trong khoảng (0,1) Giá trị này sẽ được quy đổi thành điểm số và so sánh với các ngưỡng mà tổ chức chấm điểm đặt ra Tuy nhiên, để dễ dàng so sánh hiệu quả của các mô hình, ngưỡng 0.5 được chọn mặc định để phân loại khách hàng 𝑃 ≥ 0.5, khách hàng dự báo là vỡ nợ và ngược lại 𝑃 < 0.5, khách hàng được dự báo là trả được nợ

1.4.2 Mô hình cây quyết định

Trong lĩnh vực máy học cây quyết định là một kiểu mô hình dự báo, một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi một nút trong tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật máy học dùng trong cây quyết định được gọi là học bằng cây quyết định, hay gọi ngắn gọn là cây quyết định [12]

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại

24 đó Một cây quyết định có thể được học bằng cách chia tập nguồn thành các tập con bằng cách kiểm tra giá trị thuộc tính Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Bộ phân loại rừng ngẫu nhiên sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại [12]

Giải thuật Iterative Dichotomiser 3 (gọi tắt là ID3) được phát triển đồng thời bởi Quinlan trong AI và Breiman, Friedman, Olsen và Stone ID3 là một giải thuật học đơn giản nhưng thể hiện mạnh mẽ trong nhiều lĩnh vực ID3 là một giải thuật hay vì cách biểu diễn tri thức học được của nó, cách tiếp cận của nó trong việc quản lý tính phức tạp, tính heuristic của nó dùng cho việc chọn lựa các khái niệm ứng viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu [13]

ID3 biểu diễn các khái niệm ở dạng cây quyết định Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó Đầu vào: Một tập hợp các ví dụ Mỗi ví dụ bao gồm các thuộc tính mô tả một tình huống/một đối tượng nào đó, kèm theo một giá trị phân loại tương ứng Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữ liệu rèn luyện, với kì vọng là phân loại đúng cho cả các ví dụ chưa gặp trong tương lai

Thuật toán ID3 xây dựng cây quyết định được trình bày như sau [13]:

1 Chọn A, là thuộc tính quyết định “tốt nhất” cho nút kế tiếp;

2 Gán A là thuộc tính quyết định cho nút;

3 Với mỗi giá trị của A, tạo nhánh con mới của nút;

4 Phân loại các mẫu huấn luyện cho các nút lá;

5 Nếu các mẫu huấn luyện được phân loại hoàn toàn thì dừng

Ngược lại, lặp với các nút lá mới

Thuộc tính tốt nhất ở đây là thuộc tính có entropy trung bình thấp nhất theo thuộc tính kết quả với entropy được tính như sau:

Gọi 𝑆 là tập các mẫu huấn luyện;

Gọi 𝑝 là tỷ lệ các mẫu dương trong 𝑆;

1.4.3 Mô hình rừng ngẫu nhiên

Cây quyết định là một mô hình khá nổi tiếng hoạt động trên cả hai lớp bài toán phân loại và dự báo của học có giám sát Trong thuật toán cây quyết định, khi xây dựng cây quyết định nếu để độ sâu tùy ý thì cây sẽ phân loại đúng hết các dữ liệu trong tập huấn luyện dẫn đến mô hình có thể dự đoán tệ trên tập kiểm định, khi đó mô hình bị quá khớp, hay nói cách khác là mô hình sẽ đưa ra các dự báo sai lệch trên tập dữ liệu mới chưa quan sát

Thuật toán rừng ngẫu nhiên tạo ra một tập hợp các cây quyết định không cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap (lấy mẫu có hoàn lại), tại mỗi nút phân hoạch tốt nhất được thực hiện từ việc chọn ngẫu nhiên một tập con các

26 thuộc tính Lỗi tổng quát của rừng phụ thuộc vào độ chính xác của từng cây thành viên trong rừng và sự phụ thuộc lẫn nhau giữa các cây thành viên Giải thuật rừng ngẫu nhiên xây dựng cây không cắt nhánh nhằm giữ cho thành phần lỗi thiên vị thấp (thành phần lỗi thiên vị là thành phần lỗi của giải thuật học, nó độc lập với tập dữ liệu học) và dùng tính ngẫu nhiên để điều khiển tính tương quan thấp giữa các cây trong rừng Tiếp cận bằng thuật toán rừng ngẫu nhiên cho độ chính xác cao khi so sánh với các thuật toán học có giám sát hiện nay Theo Breiman, thuật toán rừng ngẫu nhiên học nhanh, chịu đựng nhiễu tốt và không bị tình trạng học vẹt Giải thuật rừng ngẫu nhiên sinh ra mô hình có độ chính xác cao đáp ứng được yêu cầu thực tiễn cho vấn đề phân loại, hồi qui [13]

Thuật toán rừng ngẫu nhiên được xây dựng theo các bước như sau:

▪ Từ tập dữ liệu huấn luyện có 𝑁 quan sát và 𝑚 biến (thuộc tính), xây dựng 𝑇 cây quyết định một cách độc lập với nhau;

▪ Mô hình cây quyết định thứ 𝑡 được xây dựng trên mẫu Bootstrap thứ 𝑡

(chọn mẫu ngẫu nhiên có hoàn lại);

▪ Tại nút trong, chọn ngẫu nhiên 𝑚′ biến (𝑚 ′ ≪ 𝑚) và tính toán phân hoạch tốt nhất dựa trên 𝑚′ biến này;

▪ Cây được xây dựng đến độ sâu tối đa không cắt nhánh Kết thúc quá trình xây dựng T mô hình cơ sở, dùng chiến lược bình chọn số đông để phân lớp một phần tử mới đến X

Hình 1-5 Cấu trúc mô hình Rừng ngẫu nhiên [13]

1.4.4 Mô hình Gradient Boosting Ý tưởng cơ bản của thuật toán boosting là tạo ra một loạt các mô hình yếu, học bổ sung lẫn nhau Nói cách khác, các mô hình sau sẽ cố gắng học để hạn chế lỗi lầm của các mô hình trước Thuật toán boosting tiến hành đánh trọng số cho các mô hình mới được thêm vào dựa trên các cách tối ưu khác nhau, đối với thuật toán

Gradient Boosting, các mô hình thêm mới sẽ được đánh trọng số theo hướng giảm đạo hàm

Mục tiêu của thuật toán boosting là giải quyết bài toán tối ưu sau:

• 𝐿: giá trị của hàm mất mát;

• 𝑐 𝑛 : trọng số của mô hình yếu thứ 𝑛;

• 𝑤 𝑛 : dự báo của mô hình yếu thứ 𝑛

Thay vì cố gắng quét tìm tất cả các giá trị 𝑐 𝑛 , 𝑤 𝑛 để tìm nghiệm tối ưu toàn cục - một công việc tốn nhiều thời gian và tài nguyên, chúng ta sẽ cố gắng tìm các giá trị nghiệm cục bộ sau khi thêm mỗi một mô hình mới vào chuỗi mô hình với mong muốn dần đi đến nghiệm toàn cục như sau:

Công thức đối với bài toán tối ưu giảm đạo hàm (Gradient Descent):

▪ 𝜃 𝑛 : tham số của mô hình cập nhật tại vòng lặp thứ 𝑛;

▪ 𝜃 𝑛−1 : tham số của mô hình cập nhật tại vòng lặp thứ 𝑛 − 1;

▪ 𝜂: tốc độ học (learning rate);

𝜕𝜃𝐿(𝜃 𝑛−1 ): đạo hàm của hàm mất mát theo nghiệm tại vòng lặp n-1

Mục tiêu nghiên cứu của luận văn

Dù mạng nơ-ron nhân tạo là một bộ phân lớp mạnh mẽ, việc sử dụng cách tiếp cận lan truyền tiến khiến mô hình cần nhiều thời gian và tài nguyên cho việc tối ưu các tham số Thuật toán học máy cực trị có cấu trúc là một mạng nơ-ron lan truyền tiến một lớp ẩn đang được quan tâm bởi tốc độ học nhanh chóng và khả năng tổng quát hóa tốt hơn thuật toán học dựa trên đạo hàm truyền thống [15]

Do đó, mục tiêu nghiên cứu chính của luận văn là áp dụng mô hình học máy cực trị trong chấm điểm tín dụng khách hàng cá nhân, sử dụng bộ dữ liệu thực tế dựa trên hai nguồn dữ liệu: nguồn dữ liệu thuế thu nhập cá nhân và dữ liệu về tiêu dung dịch vụ viễn thông

Tuy nhiên, thuật toán học máy cực trị cần một số lượng lớn các node ở lớp ẩn, việc lựa chọn bộ trọng số đầu vào và hệ số chặn tại các node ẩn này một cách ngẫu nhiên có thể khiến mô hình hoạt động kém hiệu quả, dẫn đến hiệu suất không ổn định Để cải thiện nhược điểm này của mô hình học máy cực trị, luận văn cũng đề xuất sử dụng thuật toán tối ưu bầy đàn, cụ thể là thuật toán bầy dơi, để tối ưu hóa bộ trọng số đầu vào và hệ số chặn, nhằm giúp mô hình hoạt động ổn định hơn Kết quả nghiên cứu sẽ được so sánh với các mô hình phân loại phổ biến được sử dụng trong bài toán chấm điểm tín dụng (ví dụ: K-hàng xóm gần nhất, hồi quy logistic, rừng ngẫu nhiên, v.v.)

Phương pháp nghiên cứu

Từ dữ liệu lịch sử tín dụng của một nhóm khách hàng cùng một phân khúc sản phẩm, nhãn khách hàng tốt/xấu sẽ được xác định cho từng cặp định danh gồm số chứng minh nhân dân/số căn cước công dân và số điện thoại Sau đó, thông tin về các khách hàng trên tờ khai thuế thu nhập cá nhân sẽ được hợp nhất thông qua số chứng minh nhân dân, các thông tin về thông tin sử dụng dịch vụ viễn thông sẽ được hợp nhất thông qua số điện thoại

Bộ dữ liệu sau khi hợp nhất sẽ được đánh giá về tỉ lệ thông tin thiếu, tính chính xác của các trường dữ liệu Tiếp theo, một số trường sẽ được sử dụng làm tiêu chí dự báo ứng viên của mô hình, một số trường sẽ thực hiện thêm các bước tính toán để trích xuất ra các tiêu chí có ý nghĩa dự báo Bộ dữ liệu sau khi xử lí bao gồm các tiêu chí định lượng và định tính Các dữ tiêu chí định lượng sẽ được tiền xử lí: xử lí các giá trị thiếu; xác định và xử lí giá trị ngoại lai Các tiêu chí định tính sẽ được gom nhóm dựa vào Giá trị thông tin và đại diện bằng giá trị Trọng số bằng chứng, việc này sẽ thay thế các giá trị định tính bằng các giá trị số giúp mô hình có thể tiếp nhận và xử lí được các thông tin

Sau khi tiền xử lý, các tiêu chí trong bộ dữ liệu được chuẩn hóa bằng cách trừ đi giá trị trung bình và chia cho độ lệch chuẩn của từng tiêu chí Cuối cùng, bộ dữ liệu này sẽ đựa chia thành các tập huấn luyện và kiểm định để đánh giá, so sánh hiệu năng của các mô hình được đề cập trong luận văn.

Dữ liệu nghiên cứu

Nguồn dữ liệu: Dữ liệu sử dụng trong luận văn được thu thập và xin phép sử dụng bởi Công ty cổ phần truyền thông VMG, là nơi học viên thực hiện luận văn đang công tác Để đảm bảo tính bảo mật của thông tin cá nhân, thông tin số điện thoại và chứng minh nhân dân đã được mã hóa Dữ liệu sử dụng trong bài cũng được thu thập tại thời điểm tương đối xa trong quá khứ từ 10/2018 đến 10/2019 Tập dữ liệu bao gồm:

▪ Dữ liệu tờ khai thuế: Thông tin về nghề nghiệp, thu nhập, thông tin công ty nơi người nộp thuế làm việc (ngành nghề, quy mô, địa điểm,…) Mỗi cá nhân được xác định bằng số chứng mình nhân dân

▪ Dữ liệu viễn thông: Thông tin nhân khẩu, nhân thân của chủ thuê bao, thông tin hành vi viễn thông (hành vi nhắn tin, gọi điện, cước phát sinh,…) Mỗi thuê bao được xác định bằng số điện thoại

▪ Dữ liệu về nhóm nợ: Nhóm nợ của khách hàng theo tháng kể từ lúc giải ngân Mỗi khách hàng được xác định bằng cặp chứng minh nhân dân và số điện thoại đã KYC bởi tổ chức tín dụng

Thông tin về nhóm nợ tại tổ chức tín dụng gắn với mỗi cặp số chứng minh nhân dân và số điện thoại đăng kí khoản vay được sử dụng để xác định khách hàng tốt/xấu Khách hàng xấu là các khách hàng có ít nhất một khoản nợ xấu, tức là khoản nợ khó đòi khi người đi vay không thể trả nợ khi đến hạn phải thanh toán như đã

37 cam kết trong hợp đồng tín dụng Cụ thể, theo khoản 8 Điều 3 Thông tư 11/2021/TT-

NHNN, nợ xấu (NPL) là nợ xấu nội bảng, gồm nợ thuộc các nhóm 3, 4 và 5 [16]

Do đó, định nghĩa để gán nhãn phân loại khách hàng tốt/xấu cụ thể như sau:

▪ Khách hàng tốt: Khách hàng có đủ 12 tháng quan hệ tín dụng kể từ ngày giải ngân, và trong suốt thời gian đó không phát sinh nợ nhóm 3 trở lên

▪ Khách hàng xấu: Khách hàng có phát sinh nợ nhóm 3 trở lên trong vòng 12 tháng kể từ ngày giải ngân

Bảng Giai đoạn Số quan sát Tên trường Ý nghĩa

ID_CARD Số chứng minh nhân dân

REQ_DATE Ngày đăng kí khoản vay

Nhóm nợ tại tháng M năm Y

Bảng 1-2 Dữ liệu thông tin lịch sử tín dụng

Các đối tượng trong bộ dữ liệu thông tin về nhóm nợ tại tổ chức tín dụng đều là khách hàng thuộc phân khúc sản phẩm vay tín chấp với giá trị khoản vay dưới 100 triệu Việt Nam đồng Bộ dữ liệu không có thông tin về ngày giải ngân của các khoản vay này nên ngày giải ngân của các khoản vay này được coi là trùng với ngày đăng kí khoản vay

Các bước Số quan sát Tỉ lệ

Có thông tin lịch sử tín dụng 447.995 100.0%

Xác định khách hàng tốt/xấu 72.841 16,3%

Khách hàng không xác định 375.114 83,7%

Bảng 1-3 Số lượng khách hàng được gán nhãn phân loại

Sau khi phân loại được các khách hàng vay tốt/xấu theo cặp chứng minh nhân dân và số điện thoại Các dữ liệu trên tờ khai thuế thu nhập cá nhân sẽ được hợp nhất thông qua trường dữ liệu chứng minh nhân dân và mã số thuế, dữ liệu về hành vi dịch vụ viễn thông sẽ được hợp nhất thông qua trường số điện thoại Sau khi hợp nhất thông tin từ các nguồn dữ liệu ta thu được bộ dữ liệu:

Số quan sát Tỉ lệ

Dữ liệu xác định được nhãn 72.841

Dữ liệu hợp nhất được với thông tin

Thuế và hành vi viễn thông 24.484 100,0%

Bảng 1-4 Số lượng khách hàng hợp nhất được với các nguồn thông tin

Tiêu chuẩn đánh giá kết quả

Trong luận văn này, mô hình học máy cực trị tiến hóa được đề xuất để thực hiện chấm điểm tín dụng cho đối tượng khách hàng cá nhân Các tiêu chí đo lường

39 hiệu năng mô hình phân loại khác nhau được đề cập trong các tài liệu như độ chính xác, độ nhạy, độ đặc hiệu, chỉ số đo lường G và đường cong ROC Chỉ sử dụng độ chính xác không đủ để đánh giá hiệu năng phân loại nếu tập dữ liệu bị mất cân bằng đáng kể giữa các nhãn Hơn nữa, việc kiểm soát rủi ro tín dụng ở thị trường Việt Nam tương đối tốt, số lượng khách hàng xấu có quan hệ tín dụng thường chiếm tỉ lệ rất thấp trong toàn bộ danh mục của các tổ chức tài chính Do đó, bên cạnh độ chính xác và tốc độ huấn luyện mô hình, các chỉ số độ nhạy, độ đặc hiệu và chỉ số đo lường G đều được xem xét để đánh giá hiệu năng của mô hình Các chỉ số này được tính toán theo công thức như sau:

▪ Tốc độ huấn luyện mô hình: được đánh giá dựa vào thời gian trung bình của 20 lần huấn luyện sử dụng cùng một bộ dữ liệu

▪ Chỉ số đo lường G = √Độ⁡nhạy ∗ Độ⁡đặc⁡hiệu Trong đó, CC: số khách hàng tốt được dự báo là tốt;

NN: số khách hàng xấu được dự báo là xấu;

CN: số khách hàng tốt bị dự báo là xấu;

NC: số khách hàng xấu được dự báo là tốt

▪ Hiệu suất của mô hình: sử dụng AUC o AUC là một phương pháp tính toán hiệu suất của một mô hình phân loại theo các ngưỡng phân loại khác nhau

40 o Ý nghĩa của AUC có thể diễn giải là xác suất mà một mẫu dương tính được lấy ngẫu nhiên sẽ được xếp hạng cao hơn một mẫu âm tính được lấy ngẫu nhiên Biểu diễn theo công thức, ta có AUC

= P(score(x+) > score(x-)) Chỉ số AUC càng cao thì mô hình càng chính xác trong việc phân loại các lớp o Đường cong ROC biểu diễn các cặp chỉ số (TPR, FPR) tại mỗi ngưỡng với TPR là trục tục và FPR là trục hoành

Dự báo dương tính Dự báo âm tính Thực tế dương tính Dương tính thật (TP) Âm tính giả (FN) Thực tế âm tính Dương tính giả (FP) Âm tính thật (TN)

Kết luận chương

Bài toán chấm điểm tín dụng cho đối tượng khách hàng cá nhân là một bài toán quan trọng đối với các tổ chức tài chính trong thời đại thông tin phát triển mạnh mẽ ngày nay Cùng với sự phát triển của cơ sở hạ tầng Internet nói chung và các nguồn cơ sở dữ liệu lớn nói riêng, trong những năm trở lại đây, đã có rất nhiều nghiên cứu áp dụng các thuật toán học máy vào bài toán chấm điểm tín dụng để làm cơ sở cho việc sàng lọc khách hàng và quản trị rủi ro cho các sản phẩm tín dụng trong thời kì số hóa của thị trường tài chính

Với mục đích ứng dụng được một thuật toán có khả năng phân loại tốt sử dụng cho việc chấm điểm tín dụng, luận văn này sẽ triển khai đánh giá hiệu năng của mô hình học máy cực trị kết hợp thêm hướng tiếp cận tiến hóa bằng thuật toán bầy dơi trên bộ dữ liệu thực tế về thông tin tờ khai thuế và hành vi sử dụng dịch vụ viễn thông; đồng thời, luận văn cũng thực hiện so sánh hiệu năng của thuật toán đề xuất với các thuật toán đang được sử dụng phổ biến cho bài toán này

THUẬT TOÁN HỌC MÁY CỰC TRỊ TIẾN HÓA

Ý tưởng chính

Mạng nơ-ron nhân tạo (ANN) là thuật toán phân loại mạnh mẽ được lấy cảm hứng từ khả năng xử lý thông tin và học hỏi của bộ não con người, chúng có khả năng học và xác định được các mối quan hệ phi tuyến phức tạp giữa dữ liệu đầu vào và đầu ra Các thuật toán phân loại dựa trên mạng nơ-ron này sử dụng phương pháp học lan truyền ngược, mất nhiều thời gian để huấn luyện và kiểm định mô hình

Trong khi đó, thuật toán học máy cực trị, về bản chất là một mạng nơ-ron một lớp ẩn, được chú ý vì tốc độ học nhanh chóng và khả năng khái quát hóa tốt hơn so với thuật toán học dựa trên đạo hàm [15] Các nghiên cứu cho thấy thuật toán này đạt được hiệu năng tốt hơn các thuật toán phân loại khác trên các bộ dữ liệu phân loại khác nhau [16 - 18]

Luận văn này tập trung nghiên cứu ứng dụng thuật toán học máy cực trị đối trong đánh giá rủi ro tín dụng, cụ thể là chấm điểm tín dụng đối tượng khách hàng cá nhân Tuy nhiên, thuật toán này cần số lượng lớn các node ẩn nên việc lựa chọn ngẫu nhiên trọng số đầu vào và hệ số chặn tại từng node ẩn có thể tác động xấu đến hiệu năng Ngoài ra, hiệu năng của thuật toán cũng phụ thuộc vào hàm kích hoạt được sử dụng bên trong các node ẩn Để khắc phục những nhược điểm trên, trong luận văn này, cách tiếp cận tiến hóa sử dụng thuật toán tối ưu bầy đàn, cụ thể là thuật toán bầy dơi, để xác định bộ hệ số đầu vào và hệ số chặn tối ưu trước khi tính toán hệ số đầu ra, với kì vọng sẽ giúp hiệu năng của mô hình ổn định hơn so với việc lấy ngẫu nhiên Ngoài ra, các hàm kích hoạt khác nhau cũng được lần lượt đánh giá để tìm ra hàm kích hoạt phù hợp nhất với bộ dữ liệu nghiên cứu,

Học máy cực trị

Học máy cực trị là một kiến trúc ba lớp cho bài toán phân loại, gồm: lớp đầu vào, lớp ẩn và lớp đầu ra [20] Trong kiến trúc này, mỗi nơ-ron của một lớp sẽ được kết nối tới toàn bộ các nơ-ron ở lớp liền kề, xem Hình 2-1 Ma trận trọng số giữa lớp đầu vào và lớp ẩn và hệ số chặn tại lớp ẩn được thiết lập ngẫu nhiên và bộ trọng số giữa lớp ẩn và các nơ-ron đầu ra được ước lượng dựa vào trọng số đầu vào (giữa lớp đầu vào và lớp ẩn), hệ số chặn và mẫu dữ liệu

Bằng việc sử dụng công thức nghiệm để ước lượng các tham số, thuật toán cho phép tính toán trực tiếp bộ tham số mà không cần thực hiện các vòng lặp như đối với phương pháp học dựa trên đạo hàm Do đó, thời gian tính toán của thuật toán học máy cực trị ít hơn, và cũng không sử dụng nhiều tài nguyên để lưu các giá trị trung gian qua các vòng lặp tối ưu trong phương pháp dựa trên đạo hàm Quá trình huấn luyện mô hình học máy cực trị cơ bản gồm hai phần: phần đầu tiên xác định

Trọng số đầu vào Hệ số Trọng số đầu ra chặn

Lớp đầu vào Lớp ẩn Lớp đầu ra

Hình 2-1 Kiến trúc mô hình học máy cực trị

44 bộ tham số một cách ngẫu nhiên và phần thứ hai là giải hệ phương trình tuyến tính để thu được bộ tham số đầu ra từ lớp ẩn Đối với 𝑁 mẫu dữ liệu ngẫu nhiên (𝒙 𝒊 , 𝒕 𝒊 ), trong đó 𝑥 𝑖 = [𝑥 𝑖1 , 𝑥 𝑖2 , … , 𝑥 𝑖𝑛 ] 𝑇 ∈ 𝑅 𝑛 và 𝑡 𝑖 = [𝑡 𝑖1 , 𝑡 𝑖2 , … , 𝑡 𝑖𝑚 ] 𝑇 ∈ 𝑅 𝑚 , mạng nơ-ron một lớp ẩn với 𝑁̃ là số nơ-ron ở lớp ẩn và hàm kích hoạt 𝑔(𝑥) được mô hình hóa như sau:

Trong đó, 𝛽 𝑖 là các trọng số kết nối nơ-ron lớp ẩn với các nơ-ron lớp đầu ra, 𝑤 𝑖 là các trọng số kết nối giữa nơ-ron lớp đầu vào với các nơ-ron lớp ẩn, 𝑜 𝑗 là nhãn của dữ liệu

Có thể viết gọn lại 𝑁 phương trình trên tương ứng cho 𝑁 mẫu dữ liệu như sau:

Ma trận 𝐻 được gọi là ma trận đầu ra lớp ẩn của mạng nơ-ron; cột thứ 𝑖 của ma trận 𝐻 là kết quả đầu ra của nơ-ron thứ 𝑖 trong lớp ẩn với đầu vào tương ứng

𝑥 1 , 𝑥 2 , … , 𝑥 𝑁 Véc-tơ 𝛽 là véc-tơ chứa hệ số chặn tại các nơ-ron trong lớp ẩn Véc- tơ 𝑇 là véc-tơ chứa biến dự báo hoặc nhãn dữ liệu

Nếu hàm kích hoạt 𝑔 là khả vi vô hạn, ta có thể chứng minh rằng số lượng nơ- ron cần thiết trong lớp ẩn 𝑁̃ ≤ 𝑁, qua định lý sau: Định lý 2.1 [21]: Cho một mạng nơ-ron một lớp ẩn tiêu chuẩn với 𝑁 nơ-ron ở lớp ẩn và hàm kích hoạt 𝑔: 𝑅 → 𝑅, là một hàm khả vi vô hạn trên mọi khoảng, với 𝑁 mẫu ngẫu nhiên phân biệt (𝑥 𝑖 , 𝑡 𝑖 ) sao cho 𝑥 𝑖 ∈ 𝑅 𝑛 , 𝑡 𝑖 ∈ 𝑅 𝑚 , với mọi 𝑤 𝑖 và 𝑏 𝑖 được lấy ngẫu nhiên lần lượt từ 𝑅 𝑛 và 𝑅, tuân theo bất kì phân phối liên tục nào với xác suất bằng 1, ma trận đầu ra lớp ẩn 𝐻 của mạng nơ-ron là khả nghịch và ‖𝐻𝛽 − 𝑇‖ 0

Chứng minh: Xét véc-tơ 𝑐(𝑏 𝑖 ) = [𝑔 𝑖 (𝑥 1 ), … , 𝑔 𝑖 (𝑥 𝑁 )] 𝑇 = [𝑔(𝑤 𝑖 𝑥 1 + 𝑏 𝑖 ), … , 𝑔(𝑤 𝑖 𝑥 𝑁 + 𝑏 𝑖 )] 𝑇 , là cột thứ 𝑖 của ma trận 𝐻, trong không gian Euclide, sao cho 𝑏 𝑖 ∈ (𝑎, 𝑏) và (𝑎, 𝑏) là một khoảng bất kì thuộc 𝑅

Vì 𝑤 𝑖 được ngẫu nhiên sinh ra từ một phân phối xác suất liên tục bất kì, ta có thể giả sử rằng 𝑤 𝑖 𝑥 𝑘 ≠ 𝑤 𝑖 𝑥 𝑘 ′ với mọi 𝑘 ≠ 𝑘′ Giả sử 𝑐 thuộc vào không gian con 𝑁 − 1 chiều thì sẽ tồn tại véc-tơ 𝛼 trực giao với không gian con này

Trong đó, 𝑑 𝑘 = 𝑤 𝑖 𝑥 𝑘 , 𝑘 = 1, … , 𝑁 và 𝑧 = 𝛼 𝑐(𝑎), với mọi 𝑏 𝑖 ∈ (𝑎, 𝑏) Giả sử 𝛼 𝑁 ≠ 0 Phương trình trên có thể viết lại thành

𝛼 𝑁 , 𝑝 = 1, … , 𝑁 − 1 Do 𝑔(𝑥) khả vi vô hạn trên mọi khoảng, ta có:

Trong đó 𝑔 (𝑙) là đạo hàm bậc 𝑙 của hàm số 𝑔 theo 𝑏 𝑖 Tuy nhiên, chỉ có (𝑁 − 1) hệ số tự do: 𝛾 1 , … , 𝛾 𝑁−1 để tính đạo hàm cho nhiều hơn (𝑁 − 1) phương trình tuyến tính, điều này là mâu thuẫn Do đó, véc-tơ c không nằm trong bất cứ không gian con nào có số chiều nhỏ hơn 𝑁

Do đó, từ khoảng (𝑎, 𝑏) bất kì, có thể chọn ngẫu nhiên 𝑁 giá trị hệ số chặn 𝑏 1 , … , 𝑏 𝑁 cho 𝑁 nơ-ron trong lớp ẩn, tương ứng với các vec-tơ 𝑐(𝑏 1 ), … , 𝑐(𝑏 𝑁 ) là hệ sinh của 𝑅 𝑁 Điều này có nghĩa là với mọi vec-tơ trọng số 𝑤 𝑖 và giá trị hệ số chặn 𝑏 𝑖 được chọn ngẫu nhiên lần lượt từ 𝑅 𝑛 và 𝑅, dựa trên phân phối xác suất liên tục bất kì với xác suất tổng bằng 1, ma trận 𝐻 có hạng đầy đủ ☐ Định lý 2.2 [21]: Cho 𝜀 > 0 và hàm kích hoạt 𝑔: 𝑅 → 𝑅 khả vi vô hạn trên mọi khoảng, tồn tại 𝑁̃ ≤ 𝑁 để với 𝑁 mẫu phân biệt ngẫu nhiên (𝑥 𝑖 , 𝑡 𝑖 ) sao cho 𝑥 𝑖 ∈ 𝑅 𝑛 và 𝑡 𝑖 ∈ 𝑅 𝑚 , với mọi 𝑤 𝑖 và 𝑏 𝑖 được lấy ngẫu nhiên ngẫu nhiên lần lượt từ 𝑅 𝑛 và 𝑅 theo phân phối xác suất liên tục bất kì với xác suất bằng 1, thì

Chứng minh: Để đơn giản, chọn 𝑁̃ = 𝑁, theo định lý 2.1, ‖𝐻 𝑁×𝑁 ̃𝛽 𝑁 ̃×𝑚 − 𝑇 𝑁×𝑚 ‖ = 0 < 𝜀 Điều phải chứng minh ☐

Hai định lý trên là cơ sở cho một phương pháp đơn giản và hiệu quả hơn để huấn luyện mạng nơ-ron một lớp ẩn, so với phương pháp lan truyền ngược (backpropagation) truyền thống dựa trên tính toán đạo hàm Các vấn đề mà phương pháp lan truyền ngược gặp phải:

(1) Phải chọn bước nhảy (learning rate) phù hợp vì khi bước nhảy rất nhỏ thì sẽ ảnh hưởng đến tốc độ hội tụ và chi phí tính toán, trong khi bước nhảy rất lớn sẽ làm cho thuật toán không ổn định và phân kì

(2) Đặc thù của mặt phẳng sai số ảnh hưởng đến hiệu năng của thuật toán lan truyền ngược là sự xuất hiện của các cực tiểu địa phương, có thể khiến thuật toán dừng sớm khi còn ở khá xa so với cực tiểu toàn cục

(3) Mạng nơ-ron có khả năng bị quá khớp trên dữ liệu huấn luyện khi sử dụng thuật toán lan truyền ngược Do đó điều kiện dừng và kiểm định phù hợp là cần thiết trong quá trình cực tiểu hóa hàm sai số

(4) Các phương pháp học dựa trên tính toán đạo hàm rất tốn thời gian do chi phí tính toán lớn so với khả năng xử lí của phần cứng hiện tại

Do đó, phương pháp học dựa trên tìm nghiệm bình phương tối thiểu có chuẩn cực tiểu hóa được đề xuất Như đã chứng minh trong định lý 2.1 và định lý 2.2, bộ trọng số đầu vào và hệ số chặn tại các nơ-ron trong lớp ẩn có thể được gán một cách ngẫu nhiên khi và chỉ khi hàm kích hoạt khả vi vô hạn Thay vì phải hiệu chỉnh bộ tham số đầu vào 𝑤 𝑖 và hệ số chặn tại các nơ-ron ẩn 𝑏 𝑖 như trong các phương pháp học truyền thống, bộ tham số này được tạo ra ngẫu nhiên và giữ nguyên trong trong quá trình học, vì vậy ma trận đầu ra từ lớp ẩn 𝐻 cũng sẽ không thay đổi Khi đó, mục

48 tiêu của việc huấn luyện là tìm nghiệm bình phương tối thiểu 𝛽̂ của hệ tuyến tính 𝐻𝛽 = 𝑇:

Học máy cực trị tiến hóa

Học máy cực trị là phương pháp huấn luyện được sử dụng rộng rãi cho mô hình mạng nơ-ron một lớp ẩn sử dụng cho các bài toán phân loại [24] Ma trận tham số đầu vào kết nối lớp đầu vào và lớp ẩn, và hệ số chặn tại các nơ-ron ẩn được gán một cách ngẫu nhiên trước khi sử dụng ma trận nghịch đảo tổng quát Moore-Penrose để ước lượng bộ tham số đầu ra Tuy nhiên việc gán ngẫu nhiên bộ tham số đầu vào và hệ số chặn này dẫn đến những sai khác đáng kể về hiệu năng dự báo của mô hình qua các vòng lặp, có thể dẫn đến mô hình kém ổn định

Do đó, một phương pháp tiến hóa được tiếp cận để tìm ra bộ tham số đầu vào và hệ số chặn tối ưu giúp cải thiện hiệu năng và tính ổn định của mô hình Các thuật toán bầy đàn được sử dụng để tiền huấn luyện mô hình nhằm tìm ra bộ tham số tối ưu (tham số đầu vào và hệ số chặn tại các nơ-ron ẩn) trước khi áp dụng thuật toán học máy cực trị để giải hệ tuyến tính tìm hệ số đầu ra Luận văn này xem xét sử dụng thuật toán bầy dơi.

Thuật toán bầy dơi

Thuật toán bầy dơi là một thuật giải heuristic về tối ưu trí tuệ bầy đàn được đề xuất bởi Xin-She Yang năm 2010 [25] Thuật toán này dựa trên các đặc tính tự

52 nhiên của con dơi: định vị sử dụng tiếng vọng; các con dơi bay ngẫu nhiên với tốc độ 𝑣 𝑖 tại vị trí 𝑤 𝑖 với tần số cố định nằm trong khoảng [𝐹𝑟𝑒𝑞 𝑚𝑖𝑛 , 𝐹𝑟𝑒𝑞 𝑚𝑎𝑥 ], chúng có thể tự động điều chỉnh tần số xung phát ra và tốc độ phát xung 𝑟 ∈ [0,1] tùy thuộc vào việc gần tới mục tiêu; cường độ giảm dần từ 𝐴 0 đến 𝐴 𝑚𝑖𝑛

Trong thuật toán, mỗi con dơi trong không gian tìm kiếm 𝑑 chiều sẽ được định nghĩa bằng các tham số: vị trí 𝑥 𝑖 , tốc độ 𝑣 𝑖 Các tham số được cập nhật sau các bước lặp 𝑡 như sau:

Trong đó, 𝐹𝑟𝑒𝑞 𝑖 , 𝑣 𝑖 , 𝑥 𝑖 lần lượt là tần số, vận tốc và vị trí của con dơi thứ 𝑖;

𝑥 𝑏𝑒𝑠𝑡 là nghiệm tốt nhất thu được tại thời điểm xét; 𝜌 ∈ [0,1] được sinh ra ngẫu nhiên

Trong quá trình tìm kiếm cục bộ, khi một giải pháp được lựa chọn giữa các giải pháp tốt nhất hiện thời, vị trí của dơi mới có thể được tạo ra sử dụng bước ngẫu nhiên như sau:

Trong đó, 𝜀 ∈ [−1,1] được sinh ngẫu nhiên; 𝐿 𝑡 là giá trị trung bình của các 𝐿 𝑡 𝑖 tại thời điểm xét

Cường độ 𝐿 𝑡 𝑖 và tốc độ phát xung 𝑟 𝑖 𝑡 được cập nhật sau mỗi lần lặp như sau:

𝐿 𝑖 (𝑡 + 1) = 𝛼 ∗ 𝐿 𝑖 (𝑡) (2.13) 𝑟 𝑖 (𝑡 + 1) = 𝑟 𝑖 (0)[1 − 𝑒 −𝛾𝑡 ] (2.14) Trong đó, 𝛼, 𝛾 là hằng số dương được xác định trước

Mỗi con dơi trong bầy sẽ có vị trí được xác định bằng bộ trọng số đầu vào 𝑤 (giữa lớp đầu vào và lớp ẩn) và bộ hệ số chặn 𝑏

Trong đó, 𝑤 𝑖𝑗 đại diện trọng số kết nối nơ-ron đầu vào thứ 𝑖 và nơ-ron ẩn thứ 𝑗; 𝑏 𝑗 là hệ số chặn trong nơ-ron ẩn thứ 𝑗 Các tham số này ban đầu được gán ngẫu nhiên các giá trị trong khoảng [−1,1] Để đánh giá vị trí tối ưu của các con dơi trong bầy, ta sử dụng giá trị thích nghi (fitness value) dựa trên RMSE (Root Mean Squared Error) Để tính giá trị này đối với mỗi vị trí của con dơi trong bầy, ta chia dữ liệu huấn mô hình luyện thành

02 bộ nhỏ theo tỉ lệ phù hợp dùng để huấn luyện và kiểm định cho thuật toán bầy rơi Bộ huấn luyện có nhiệm vụ tính toán trọng số đầu đầu ra tương ứng với bộ trọng số đầu vào và hệ số chặn tại các node ẩn được mã hóa bằng vị trí của mỗi con dơi; bộ kiểm định dùng để tính toán sai số RMSE với mục tiêu thu được giá trị càng nhỏ càng tốt theo công thức:

Trong đó, 𝑁 𝑣 là số dữ liệu mẫu trong bộ kiểm định.

Mô hình học máy cực trị tiến hóa cho bài toán chấm điểm tín dụng

Dữ liệu đầu vào Đây là thuật toán học máy có giám sát, do đó, dữ liệu từ các nguồn sẽ được hợp nhất, gán nhãn và tiền xử lí để tạo ra bộ dữ liệu đầu vào sử dụng cho việc huấn luyện và kiểm định thuật toán (bộ dữ liệu chỉ bao gồm các tiêu chí có ý nghĩa dự báo được lựa chọn và nhãn tương ứng của các điểm dữ liệu)

Bộ dữ liệu đầu vào này sẽ được chia thành 03 tập dữ liệu: tập dữ liệu huấn luyện, tập dữ liệu kiểm định và tập dữ liệu kiểm thử o Tập dữ liệu huấn luyện: sử dụng để huấn luyện mô hình, tìm ra bộ tham số tối ưu của mô hình học máy trên tập dữ liệu huấn luyện o Tập dữ liệu kiểm định: sử dụng để đánh giá hiệu năng của mô hình dựa trên các chỉ số đánh giá cụ thể đối với từng bài toán Việc đánh giá khách quan dựa trên bộ dữ liệu không dùng trong huấn luyện sẽ giúp hiệu chỉnh các tham số của mô hình để cải thiện hiệu năng o Tập dữ liệu kiểm thử: sử dụng để đánh giá khả năng khái quát hoá của mô hình trên tập dữ liệu bên ngoài thời gian quan sát dung để huấn luyện Việc đánh giá hiệu năng của mô hình trên tập dữ liệu này sẽ đánh giá được sự ổn đỉnh và khả năng triển khai thực tế

Do đó, bộ dữ liệu huấn luyện và kiểm định thường được lấy mẫu phân tầng từ một bộ dữ liệu có chung các đặc tính để đảm bảo tính tương đồng về các đặc tính dữ liệu, phân phối nhãn giữa hai bộ dữ liệu này

Quá trình huấn luyện mô hình sẽ được chia thành 02 giai đoạn: tiền huấn luyện mô hình và huấn luyện mô hình

Tiền huấn luyện mô hình

Giai đoạn này chính là cách tiếp cận tiến hóa, nhằm tìm ra bộ trọng số đầu vào và hệ số ẩn tối ưu, so với việc đơn thuần lấy ngẫu nhiên trong thuật toán học máy cực trị

Bộ dữ liệu huấn luyện sẽ được chia thành hai bộ nhỏ để tiền huấn luyện cho bộ tham số đầu vào và hệ số chặn tối ưu, tạm gọi là bộ tiền huấn luyện và tiền kiểm định

Thuật toán bầy dơi được áp dụng để tìm ra bộ trọng số đầu vào và hệ số chặn tại cả node ẩn tối ưu Một bầy dơi gồm 𝑁 cá thể được khởi tạo với vị trí mỗi các thể là một véc-tơ mã hóa các trọng số đầu vào và hệ số chặn Với mỗi vị trí của cá thể dơi trong bầy, thông qua bộ dữ liệu tiền huấn luyện, bộ trọng số đầu ra sẽ được tính toán theo công thức (2.7) trong mục 2.2 Khi đó, sử dụng bộ trọng số đầu vào và hệ số chặn được mã hóa bằng vị trí của con dơi, cùng với bộ trong số đầu ra tính toán được, thông qua bộ dữ liệu tiền kiểm định, kết quả dự báo đầu ra theo mô hình sẽ được tính toán Dự vào công thức (2.15) trong mục 2.4, giá trị thích nghi (sai số RMSE) tương ứng với vị trí của từng cá thể dơi sẽ được tính toán Việc tính toán

56 như trên lặp lại cho 𝑁 cá thể dơi trong bầy, vị trí đem lại giá trị thích nghi nhỏ nhất sẽ được lưu lại làm giá trị tối ưu của vòng lặp này Nếu giá trị này nhỏ hơn giá trị nghiệm hiện tại của thuật toán thì nghiệm của thuật toán sẽ được cập nhật lại

Sau đó, vị trí của các cá thể dơi trong bầy sẽ được cập nhật theo các công thức được đề cập trong mục 2.3 Và việc tính toán sẽ được lặp lại như trên Thuật toán sẽ thực hiện qua một số vòng lặp tối đa đã xác định từ trước hoặc khi điều kiện dừng được thỏa mãn Điều kiện dừng dùng trong luận văn này là khi chênh lệch giữa nghiệm mới cập nhật và nghiệm cũ của thuật toán không đáng kể (nhỏ hơn hoặc bằng một giá trị xác định trước)

Sau bước tiền huấn luyện này, một bộ trọng số đầu vào và hệ số chặn tương ứng với vị trí tốt nhất của cá thể dơi trong bầy có thể tìm được qua thuật toán bầy dơi Bộ trong số này được cho là tốt hơn so với việc khởi tạo ngẫu nhiên và được sử dụng trong việc huấn luyện mô hình cực trị tiếp theo

Sau khi bộ trọng số đầu vào và hệ số chặn tại các node ẩn được lựa chọn sau bước tiền huấn luyện mô hình Trọng số đầu ra sẽ được xác định dựa trên toàn bộ tập dữ liệu huấn luyện như một mô hình học máy cực trị thông thường theo công thức tại mục 2.2

Sau khi tính toán được bộ tham số của mô hình, bộ dữ liệu kiểm định sẽ được sử dụng để đánh giá khả năng dự báo, khả năng khái quát hóa và sự ổn định của mô hình dựa trên các chỉ tiêu xác định dựa theo từng bài toán và bộ dữ liệu

2.5.2 Ưu và nhược điểm của mô hình Ưu điểm:

▪ Tốc độ huấn luyện nhanh chóng trên tập dữ liệu nhỏ do quá trình huấn luyện dựa vào công thức nghiệm, cho kết quả dự báo tốt hơn so với các mô hình phân loại khác

▪ Mô hình học máy cực trị tiến hóa cho kết quả ổn định hơn mô hình học máy cực trị

▪ Khi dữ liệu huấn luyện lớn, chi phí tính toán ma trận nghịch đảo tổng quát lớn, kết hợp với thuật toán bày đàn yêu cầu năng lực tính toán của phần cứng rất lớn

▪ Quá trình tiền huấn luyện để tìm ra bộ tham số đầu vào và hệ số chặn tại các nơ-ron ẩn là thuật toán heuristic, mất nhiều thời gian để tối ưu nếu kích thước bộ tham số lớn và thường tìm được đáp án tốt hơn chứ chưa chắc là kết quả tối ưu nhất.

Học máy cực trị là phương pháp huấn luyện được sử dụng rộng rãi cho mô hình mạng nơ-ron một lớp ẩn sử dụng cho các bài toán phân loại Phương pháp huấn luyện này sử dụng công thức nghiệm tối ưu nên không tốn thời gian cho việc sử dụng các vòng lặp để tối ưu nghiệm Tuy nhiên, việc lựa chọn ngẫu nhiên bộ tham số đầu vào hệ số chặn tại lớp ẩn khiến cho kết quả dự báo không ổn định Phương pháp tiếp cận tiến hóa sử dụng thuật toán tối ưu bầy đàn sẽ khắc phục vấn đề này

58 bằng cách lựa chọn bộ tham số đầu vào và hệ số chặn tối ưu, giúp mô hình trở nên ổn định hơn

Tuy nhiên, việc sử dụng thuật toán bầy đàn sẽ khiến thuật toán phải tính toán lượng lớn ma trận nghịch đảo tổng quát, khiến chi phí tính toán tăng lên và yêu cầu năng lực xử lí lớn, dẫn tới thời gian huấn luyện mô hình tăng lên đáng kể khi kích thước bộ dữ liệu hoặc số lượng các nơ-ron tại lớp ẩn tăng lên

Vì vậy, thuật toán này sẽ phù hợp với các bộ dữ liệu lớn có xu hướng thay đổi nhanh tuy nhiên có thể được đại diện bởi một mẫu quan sát nhỏ hơn (chứa các đặc trưng tiêu biểu phản ánh xu hướng trong toàn bộ tập dữ liệu lớn)

KẾT QUẢ THỰC NGHIỆM

Xử lí dữ liệu

Bộ dữ liệu sau khi hợp nhất và gán nhãn theo mục 1.7, các trường dữ liệu ban đầu được chọn lọc dựa theo tiêu chí về tỉ lệ thiếu thông tin Khi một trường thông tin bị thiếu quá nhiều, có thể tồn tại vấn đề trong việc thu thập thông tin và cũng không thể sử dụng bất kì phương pháp thay thế các giá trị thiếu một cách hiệu quả đối với các trường thông tin

Các tiêu chí trong bộ dữ liệu sẽ được phân loại thành hai nhóm: tiêu chí định tính và tiêu chí định lượng Đối với các tiêu chí định lượng, các giá trị ngoại lai sẽ được phát hiện dựa vào phân tích biểu đồ hộp và thay thế bởi các giá trị bách phân vị thứ 5 và 95; ngoài ra, các giá trị bị thiếu sẽ được thay thế bởi một giá trị đặc biệt (giá trị -1) Sau khi dữ liệu được làm sạch và tiền xử lí, bộ dữ liệu thu được các trường dữ liệu như sau:

STT Trường dữ liệu Khoảng giá trị Mô tả Lưu ý

2 sex Male', 'Female' Giới tính

Nhãn dữ liệu (1: khách hàng xấu, 0: khách hàng tốt)

4 t_year 0, 1 Thời gian kê khai thuế gần nhất đơn vị năm

5 t_month [0, 23] Thời gian kê khai thuế gần nhất đơn vị tháng

Tổng thu nhập chịu thuế trên tờ khai 01 năm trước

Giá trị -1 được thay thế cho các giá trị thiếu 7 taxemployer_1y [1.0, 12.0]

Số lượng tổ chức thực hiện kê khai thuế trong 01 năm gần nhất 8 taxemployer_2y [1.0, 12.0]

Số lượng tổ chức thực hiện kê khai thuế trong 02 năm gần nhất

9 nodeclaration_y 1 [-1.0, 14.0] Số lượng tờ khai thuế trong 01 năm gần nhất

Giá trị -1 được thay thế cho các giá trị thiếu 10 no_dependon [0.0, 18.0] Số người phụ thuộc

11 com_size [-1.0, 79918.0 Quy mô công ty (số nhân viên)

Giá trị -1 được thay thế cho các giá trị thiếu

12 acc_type postpaid', 'prepaid' Loại thuê bao di động

(trả trước/trả sau) 13 tong_tien_t1 [0.0, 9167389.64]

Tổng tiền cước phát sinh trong tháng 01 tháng trước

Tiền cước cam kết và cước dịch vụ giá trị gia tăng trong tháng 01 tháng trước

Tiền cước gọi thoại trong tháng 01 tháng trước

Tiền cước nhắn tin trong tháng 01 tháng trước

Số giây gọi chịu cước trong tháng 01 tháng trước

Số tin nhắn chịu cước trong tháng 01 tháng trước

Tổng tiền cước phát sinh trong tháng 02 tháng trước

Tiền cước gọi thoại trong tháng 02 tháng trước

Tiền cước nhắn tin trong tháng 02 tháng trước

Số giây gọi chịu cước trong tháng 02 tháng trước

Số tin nhắn chịu cước trong tháng 02 tháng trước

Số các số điện thoại gọi trong tháng 03 tháng trước

Số các cuộc gọi thoại trong tháng 03 tháng trước

Số ngày phát sinh gọi thoại trong tháng 03 tháng trước

Tổng thời lượng gọi thoại trong tháng 03 tháng trước

Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong tháng 03 tháng trước

[0.0, 1533.71460839362 2] Độ lệch chuẩn thời lượng gọi thoại của các cuộc gọi thoại trong tháng 03 tháng trước

Số các số điện thoại gọi trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

Số các cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

Số ngày phát sinh gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

Tổng thời lượng gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

[0.0, 1921.20912448385 ] Độ lệch chuẩn thời lượng gọi thoại của các cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

37 mobileno_timea ctive [3.0, 5087.0] Thời gian kích hoạt thuê bao (ngày)

38 com_activeyear [-1.0, 73.0] Số năm hoạt động của công ty

39 com_taxingyear [-1.0, 39.0] Số năm đóng thuế của công ty

40 resi_area dong bang song hong', 'trung du va mien nui phia bac', 'dong nam bo', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'tay nguyen', 'missing'

41 com_area dong bang song hong', 'dong nam bo', 'missing', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'trung du va mien nui phia bac', 'tay nguyen'

Khu vực của công ty

42 telco_area dong bang song hong', 'trung du va mien nui phia bac', 'dong nam bo', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'tay nguyen'

Khu vực đăng kí thuê bao

Bảng 3-1 Mô tả các trường dữ liệu

Sau khi dữ liệu được làm sạch, đối với các tiêu chí định tính, các giá trị sẽ được thay thế bằng các giá trị Trọng số của bằng chứng để mô hình có thể tiếp nhận và xử lí thông tin Việc biến đổi dữ liệu dựa vào trọng số của bằng chứng (WoE) sẽ có các ưu điểm như sau:

▪ Xử lí được các điểm dữ liệu bị thiếu, giá trị ngoại lai;

▪ Không cần sử dụng phương pháp mã hoá one-hot đối với dữ liệu định tính

Sau đó, các tiêu chí sẽ được đánh giá khả năng dự báo đối với biến phụ thuộc dựa vào giá trị thông tin tương hỗ Việc sử dụng giá trị thông tin tương hỗ sẽ đánh giá được mối quan hệ giữa mỗi tiêu chí với biến phụ thuộc bao gồm cả các mối quan hệ phi tuyến phức tạp Đồng thời, mối tương quan giữa các tiêu chí cũng được đánh giá để đảm bảo các tiêu chí độc lập với nhau ở một mức độ nhất định, giúp cho mô hình dự báo hoạt động hiệu quả và ổn định

Hình 3-1 Giá trị thông tin tương hỗ các tiêu chí

Hình 3-2 Biểu đồ nhiệt trị tuyệt đối hệ số tương quan Pearson giữa các cặp tiêu chí

Bộ tiêu chí cuối cùng sử dụng cho mô hình dự báo là bộ các tiêu chí mà trong đó không có hai tiêu chí nào có trị tuyệt đối hệ số tương quan Pearson lớn hơn hoặc bằng 0.3 Nguyên tắc để chọn bộ tiêu chí cuối cùng là xét các cặp tiêu chí có tương quan với nhau (trị tuyệt đối hệ số tương quan Pearson lớn hơn hoặc bằng 0.3), chỉ chọn các tiêu chí có giá trị thông tin tương hỗ lớn hơn Lặp cho đến khi bộ tiêu chí lựa chọn thỏa mãn điều kiện

Bộ tiêu chí cuối cùng thoả mãn các tiêu chí đã lựa chọn và thực hiện chuẩn hoá Z-score:

STT Tên tiêu chí Mô tả

3 com_size Quy mô công ty (số nhân viên)

4 t_month Thời gian kê khai thuế gần nhất đơn vị tháng

5 tongthunhap_y1 Tổng thu nhập chịu thuế trên tờ khai 01 năm trước

6 com_taxingyear Số năm đóng thuế của công ty

7 no_dependon Số người phụ thuộc

8 acc_type Loại thuê bao di động (trả trước/trả sau)

9 telco_area Khu vực đăng kí thuê bao

10 mobileno_timeactive Thời gian kích hoạt thuê bao

11 tien_cam_ket_va_vas_t2

12 overall_monthly_callno_t3 Số các cuộc gọi thoại trong tháng

03 tháng trước 13 overall_monthly_avgcallduration_t3

Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong tháng 03 tháng trước

Bảng 3-2 Các tiêu chí của mô hình

Hình 3-3 Biểu đồ nhiệt trị tuyệt đối hệ số tương quan Pearson trong bộ tiêu chí lựa chọn

Bộ dữ liệu với các tiêu chí được chọn lựa sẽ được chuẩn hóa bằng việc trừ đi giá trị trung bình và chia cho độ lệch chuẩn trước khi đưa vào huấn luyện và kiểm định các mô hình

Kết quả thực nghiệm

Dữ liệu sau khi tiền xử lí sẽ được chia thành 10 nhóm dữ liệu để thực hiện kiểm định chéo (10-fold cross validation) Theo như đã trình bày ở trên, mô hình ELM xác định bộ trọng số đầu vào và hệ số chặn một cách ngẫu nhiên, do đó nếu chỉ đánh giá hiệu năng trên một lần chạy duy nhất sẽ đưa ra kết quả đánh giá thiếu khách quan Do đó, trong mỗi lần kiểm định thực hiện phương pháp kiểm định chéo, bộ dữ liệu sẽ được huấn luyện và đánh giá với mô hình ELM 20 lần, trung bình của kết quả các lần chạy được sử dụng để thực hiện phân tích so sánh

Ngoài việc thực hiện kiểm định mô hình ELM với các hàm kích hoạt khác nhau, số lượng các node ẩn cũng sẽ sẽ được lấy ngẫu nhiên tăng dần 20, 50, 80, 100, 150, 200, 250, 300, 350 và 400, để đánh giá được sự tác động của số lượng node trong lớp ẩn đến hiệu năng của mô hình

Hình 3-4 So sánh kết quả chạy mô hình ELM với các hàm kích hoạt và số node ẩn khác nhau

3.2.2 So sánh kết quả với mô hình mạng nơ-ron nhân tạo

Thiết lập cài đặt cho mô hình ELM tương tự mục 3.2.1 Đối với mô hình mạng nơ-ron nhân tạo, sử dụng lớp mô hình với cài đặt mặc định trong thư viện scikit- learn với cấu trúc 01 lớp ẩn và số node ở lớp ẩn tương tự với cài đặt cho mô hình ELM Cả hai mô hình đều sử dụng hàm kích hoạt là hàm ReLU

Hình 3-5 So sánh mô hình học máy cực trị và mô hình mạng nơ-ron nhân tạo sử dụng thuật toán học dựa trên đạo hàm

Có thể thấy rằng, khi số lượng node tăng lên hiệu năng của hai mô hình tiến đến tiệm cận nhau Đối với các độ đo như độ nhạy và độ đo G, mô hình học máy cực trị để vượt qua mô hình mạng nơ-ron nhân tạo truyền thống Tuy nhiên, chênh lệch dễ thấy nhất chính là thời gian huấn luyện, thời gian huấn luyện mô hình học máy cực trị thay đổi không đáng kể khi mô hình mạng nơ-ron nhân tạo tăng tuyến tính với số lượng node trong lớp ẩn

3.2.3 So sánh kết quả khi sử dụng cách tiếp cận tiến hóa

Giữ nguyên cách thức kiểm định, cài đặt mô hình và số lượng nốt ẩn như với mô hình ELM Trong mỗi bước huấn luyện mô hình, tập dữ liệu huấn luyện được chia thành 02 tập dữ liệu con: tập tiền huấn luyện và tập kiểm định theo tỉ lệ 6:4 và sử dụng thuật toán bầy dơi để tìm kiếm bộ tham số đầu vào và hệ số chặn tối ưu

Thuật toán bầy dơi được sử dụng với cấu hình 100 cá thể dơi với số vòng lặp tối đa là 100 lần để tìm ra vị trí của cá thể dơi tối ưu mã hóa bộ tham số đầu vào tối ưu cho mô hình Thuật toán có thể dừng lại trước khi đạt số vòng lặp tối đa nếu sau 5 vòng lặp liên tiếp, vị trí tối ưu không được cập nhật

Có thể dễ dàng thấy được, hiệu năng của mô hình trở nên tốt và ổn định hơn ngay với số lượng ít các node trong lớp ẩn Do đó, cách tiếp cận tiến hóa bằng thuật toán bầy dơi có thể tốn chi phí thời gian và tài nguyên tính toán cho việc tối ưu ban đầu, nhưng bù lại, hiệu năng của mô hình có thể tốt hơn với một cấu trúc mô hình ít phức tạp hơn Điều này sẽ tạo thuận lợi trong việc triển khai cài đặt mô hình lên hệ thống sau khi huấn luyện

Hình 3-6 So sánh kết quả chạy mô hình EELM với các hàm kích hoạt và số node ẩn khác nhau

Xét hàm kích hoạt ReLu cho hiệu năng tương đối tốt so với các hàm kích hoạt khác trên số lượng các node trong thực nghiệm, có thể thấy được mô hình học máy cực trị tiến hóa đều cho kết quả tốt hơn trên các độ đo luận văn đang xét

Thuật toán Độ chính xác Độ nhạy Độ đặc hiệu Độ đo G AUC

Bảng 3-3 So sánh hiệu năng mô hình học máy cực trị tiến hoá và mô hình học máy cực trị với hàm kích hoạt ReLU

3.2.4 So sánh kết quả với một số thuật toán hiện đang được sử dụng phổ biến trong bài toán chấm điểm tín dụng

Mục này sẽ so sánh kết quả của mô hình học máy cực trị tiến hóa với các mô hình thường được sử dụng trong bài toán chấm điểm tín dụng Việc huấn luyện và kiểm định hiệu năng mô hình sẽ trên cùng tập dữ liệu sử dụng nghiên cứu trong bài

Phương pháp kiểm định chéo

Phương thức kiểm định là kiểm định chéo trên tập dữ liệu được chia thành 10 phần (10-fold cross validation) Mô hình học máy cực trị tiến hóa sử dụng để so sánh sử dụng hàm kích hoạt là hàm ReLU với số lượng các node ẩn là 200 Mô hình mạng

75 nơ-ron nhân tạo cũng được cài đặt với cấu trúc tương tự, các tham số còn lại sử dụng cài đặt mặc định trong thư viện scikit-learn Kết quả được đem ra so sánh sẽ là giá trung bình của các mô hình với số node ẩn lần lượt như trên Đối với mô hình hồi quy Logistic, mô hình rừng ngẫu nhiên và mô hình Gradient Boosting, các lớp mô hình với cài đặt mặc định trong thư viện scikit-learn được sử dụng Độ chính xác AUC

Bảng 3-4 So sánh hiệu năng giữa các mô hình bằng phương pháp kiểm định chéo

Phương pháp kiểm định mẫu giữ lại ngoài thời gian huấn luyện Đối với mô hình học máy cực trị, mô hình học máy cực trị tiến hóa và mô hình mạng nơ-ron nhân tạo, hàm kích hoạt sử dụng là hàm ReLU và số nơ-ron trong lớp ẩn được chọn là 200, tương ứng với số lượng node ẩn khiến mô hình EELM ở kiểm định chéo ở trên cho hiệu năng tốt nhất theo các độ đo đang xét Đối với mô hình hồi quy Logistic, mô hình rừng ngẫu nhiên và mô hình Gradient Boosting, các lớp mô hình với cài đặt mặc định trong thư viện scikit-learn được sử dụng Các mô hình được huấn luyện trên toàn bộ tập huấn luyện sử dụng cho kiểm định chéo ở trên, sau đó, hiệu năng của từng mô hình sẽ được đo trên một tập mẫu giữ lại nằm trong khoảng thời gian ngoài khoảng thời gian tập huấn luyện được lấy và gần về hiện tại hơn

Bảng 3-5 So sánh hiệu năng giữa các mô hình khi kiểm định với mẫu ngoài thời gian huấn luyện

Ứng dụng

Để việc chấm điểm tín dụng khách hàng được thuận tiện và dễ tiếp cận với các chuyên viên tín dụng, giao diện người dùngg được thiết kể để mô phỏng việc nhập liệu đầu vào cho quá trình chấm điểm và trả ra kết quả điểm tín dụng tương ứng Đầu vào:

▪ Số chứng minh nhân dân/ Số căn cước công dân;

Hình 3-7 Màn hình nhập liệu

▪ Điểm tín dụng của khách hàng (được chuyển đồi từ xác suất vỡ nợ dự báo của mô hình);

▪ Vị trí của khách hàng trong phổ điểm của danh mục

Hình 3-8 Màn hình kết quả chấm điểm

Việc áp dụng thuật toán học máy cực trị cho kết quả tương đối tốt so với các thuật toán thường được sử dụng trong bài toán chấm điểm tín dụng ngay khi số lượng node trong lớp ẩn ở mức thấp hơn rất nhiều so với số quan sát trong bộ dữ liệu huấn luyện

Khi so sánh với MLP với số lượng node ở lớp ẩn tăng lên, thuật toán học máy cực trị luôn vượt trội hơn về thời gian huấn luyện khi thời gian huấn luyện gần như không thay đổi trong khi thời gian huấn luyện của mô hình MLP tảng lên đáng kể theo số lượng node tại lớp ẩn Đồng thời, khi số lượng node tăng lên, hiệu năng của hai mô hình tiệm cận với nhau ở các độ đo đang xét Riêng với độ đo G, mô hình học máy cực trị bắt đầu vượt lên MLP ở ngay số lượng node tương đối thấp, 150

79 node ở lớp ẩn Do dữ liệu đầu vào có số lượng nhãn giữa hai lớp mất cân bằng nên độ đo G sẽ có ý nghĩa hơn so với các độ đo phân lớp khác

Khi kiểm định trên mẫu giữ lại ngoài thời gian huấn luyện với tiêu chí xét là độ chính xác và AUC, ELM cho kết quả tốt hơn mô hình tuyến tính đơn giản như Logistic Regression, tiệm cận với hai mô hình Rừng ngẫu nhiên và MLP, và đều thấp hơn mô hình Gradient Boosting Tuy nhiên thời gian huấn luyện lại nhanh chóng hơn đáng kể Điều này là đáng để cân nhắc vì việc xây dựng mô hình chấm điểm tín dụng sử dụng các dữ liệu về hành vi có tấn suất phát sinh nhanh và có xu hướng biến đổi liên tục cần một mô hình có khả năng khái quát tốt với thời gian huấn luyện nhanh chóng để huấn luyện lại mô hình mỗi khi dữ liệu được cập nhật

Phương pháp tiếp cận tiến hóa bằng thuật toán bầy dơi giúp cho cho hiệu năng của mô hình học máy cực trị được ổn định hơn Tuy nhiên, đánh đổi lại, thời gian huấn luyện sẽ lâu hơn đáng kể do quá trình tìm kiếm bộ tham số đầu vào và hệ số chặn tối ưu sẽ tương tự việc thực hiện nhiều lần thuật toán học máy cực trị dựa vào số vòng lặp và số cá thể dơi khởi tạo

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Từ bài toán chấm điểm tín dụng đối tượng khách hàng cá nhân, luận văn đã tập trung nghiên cứu và tìm hiểu tính cấp thiết, ứng dụng, ý nghĩa và quy trình của việc chấm điểm xếp hạng tín dụng đối với các tổ chức tài chính cũng như nền kinh tế nói chung đồng thời tìm hiểu về một số thuật toán học máy đang được áp dụng phổ biến cho bài toán này Luận văn cũng áp dụng được lý thuyết và xây dựng thành công mô hình học máy cực trị tiến hóa cho bài toán dựa trên dữ liệu thực tế Đồng thời, luận văn cũng đã thực hiện đánh giá, chuyển đổi tập dữ liệu ban đầu để xử lí các thông tin bị thiếu, các giá trị ngoại lai và lựa chọn những tiêu chí có khả năng phân loại khách hàng tốt

Luận văn đã đóng góp cho thấy việc có thể áp dụng thuật toán học máy cực trị tiến hóa vào bài toán chấm điểm xếp hạng tín dụng khách hàng cá nhân và đem lại hiểu quả nhất định Thuật toán đem lại hiệu năng tốt ngay cả với số lượng node thấp trong lớp ẩn, điều này đem lại hiệu quả khi triển khai do có thể tối ưu chi phí phần cứng, tuy nhiên việc huấn luyện mô hình sử dụng cách tiếp cận tiến hóa là sử dụng thuật toán bầy dơi để tiền huấn luyện tốn khá nhiều thời gian do chi phí tính toán ma trận giả nghịch đảo, vì vậy việc tối ưu lại code để giảm thiểu thời gian trong việc huấn luyện cần được nghiên cứu thêm Bên cạnh đó, thuật toán bầy dơi bản chất là một thuật toán heuristic, thuật toán đề xuất hướng đi tìm kiếm một nghiệm tốt hơn chứ chưa chắn chắn là nghiệm tối ưu Do đó, trong thời gian tới, hướng đi của luận văn sẽ là tiếp tục tìm kiếm các cách áp dụng thuật toán bầy dơi trong việc tối ưu bộ tham số của mô hình với mục đích tăng tốc độ huấn luyện và hiệu năng dự báo, có thể thay vì tối ưu toàn bộ bộ tham số đầu vào và hệ số chặn với số lượng node bất kì, thuật toán có thể tối ưu với bộ tham số nhỏ hơn làm cơ sở để khởi tạo ngẫu nhiên bộ tham số với kích thước bất kì

TÀI LIỆU THAM KHẢO

[1] Tỉ lệ nợ xấu trong tín dụng tiêu dùng có xu hướng gia tăng (n.d.) https://dangcongsan.vn/kinh-te/ti-le-no-xau-trong-tin-dung-tieu-dung-co-xu- huong-gia-tang-652587.html

[2] Pagano, M & Jappelli, P, Chia sẻ Thông tin trong Thị trường Tín dụng, Tạp chí Tài chính, Tập XLVIII, Số 5, Tháng 12 năm 1993

[3] Varghese, Robin, Ph.D., & Turner, Michael, Ph.D., Lợi ích của việc Mở rộng Tham gia vào Hệ thống Báo cáo Tín dụng Đầy đủ tại Mỹ La tinh và Chi phí của Thực trạng, Viện Chính sách Thông tin, ngày 27 tháng 3 năm 2006, trang 2

[4] Fred H Cate & Michael E Staten, Tác động của Báo cáo Tín dụng Quốc gia dưới Đạo luật về Báo cáo Tín dụng Công Bằng: Nguy cơ của những Hạn chế Mới và Quy định của Tiểu bang, www.aba.com/ /77D1481B2316-11D5-AB7C- 00508B95258D/31291/May2003ImpactofNationalCreditReporting1.pdf (truy cập lần cuối ngày 6 tháng 11 năm 2006)

[5] Đạo luật về báo cáo tín dụng công bằng: Tiếp cận, hiệu quả và cơ hội, tầm quan trọng về mặt kinh tế của tái ủy quyền tín dụng công bằng, Viện Chính sách Thông tin, Tháng 6 năm 2003

[6] Hội đồng Thống đốc Quỹ Dự trữ Liên bang, Báo cáo trước Nghị viện về Sự sẵn có của Thông tin Xác định Danh tính Khách hàng và Gian lận Tài chính 2 (1997)

[7] Mester, L.J., et al., 1997 What’s the point of credit scoring? Business review 3 (Sep/Oct), 3–16

[8] Quyền Riêng tư về Tài chính, Điều trần trước Tiểu ban Định chế Tài chính và Tín dụng Tiêu dùng của Ủy ban về Ngân hàng và Các Dịch vụ Tài chính, Hạ Viện Hoa Kỳ, Nghị viện khóa 106, Phiên họp thứ 1 (21 Tháng 7 năm 1999) (báo cáo của Edward M Gramlich)

[9] Ngân hàng Nhà nước Việt Nam (2005) Quyết định số 493/2005/QĐ-NHNN ngày 22/04/2005 của Thống đốc Ngân hàng Nhà nước Việt Nam ban hành Quy định về phân loại nợ, trích lập và sử dụng dự phòng để xử lý rủi ro tín dụng trong hoạt động ngân hàng của tổ chức tín dụng

[10] Lando, D (2004) Credit risk modeling: Theory and applications, Princeton Series in Finance; Princeton University Press: Princeton, NJ, USA

[11] Abdou, H.; & Pointon, J (2011) Credit Scoring, Statistical Techniques and Evaluation Criteria: A Review of the Literature Intelligent Systems in Accounting, Finance & Management, 59-88

[12] Menzies, T., & Hu, Y (2003) Data mining for very busy people Computer, 36(11), 22-29

[13] Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung và Đỗ Thanh Nghị

Rừng ngẫu nhiên cải tiến cho phân loại dữ liệu gen Tạp chí Khoa học 2012:22b 9- 17

[14] Haykin, S.S., 2001 Neural Networks: A Comprehensive Foundation Tsinghua University Press

[15] Han, F., Yao, H.-F., Ling, Q.-H., 2013 An improved evolutionary extreme learning machine based on particle swarm optimization Neurocomputing 116, 87–

[16] Thông tư 11/2021/TT-NHNN quy định về phân loại tài sản có, mức trích, phương pháp trích lập dự phòng rủi ro và việc sử dụng dự phòng để xử lý rủi ro trong hoạt động của tổ chức tín dụng, chi nhánh ngân hàng nước ngoài

[17] Huang, G.-B., Zhou, H., Ding, X., Zhang, R., 2012 Extreme learning machine for regression and multiclass classification IEEE Trans Syst Man Cybern B 42 (2), 513–529

[18] Huang, G.-B., Zhu, Q.-Y., Siew, C.-K., 2004 Extreme learning machine: a new learning scheme of feedforward neural networks In: Neural Networks, 2004

Proceedings 2004 IEEE International Joint Conference on, Vol 2 IEEE, pp 985–

[19] Liu, N., Wang, H., 2010 Ensemble based extreme learning machine IEEE Signal Process Lett 17 (8), 754–757

[20] Huang, G.-B., Wang, D.H., Lan, Y., 2011 Extreme learning machines: a survey Int J Mach Learn Cybernet 2 (2), 107–122

[21] Huang, G.-B., Zhu, Q.-Y., Siew, C.-K, Extreme learning machine: Theory and applications, Neurocomputing 70 (2006) 489–501

[22] D Serre, Matrices: Theory and Applications, Springer, New York, 2002

[23] Miche, Y., Sorjamaa, A., Bas, P., Simula, O., Jutten, C., Lendasse, A., 2010

OP-ELM: optimally pruned extreme learning machine IEEE Trans Neural Netw

Tiêu đề	Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm điểm tín dụng đối tượng khách hàng cá nhân
Tác giả	Đặng Tuấn Khải
Người hướng dẫn	PGS. TS. Lê Hoàng Sơn
Trường học	Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội
Chuyên ngành	Khoa học dữ liệu
Thể loại	Luận văn Thạc sĩ Khoa học Dữ liệu
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	83
Dung lượng	1,31 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Tỉ lệ nợ xấu trong tín dụng tiêu dùng có xu hướng gia tăng. (n.d.). https://dangcongsan.vn/kinh-te/ti-le-no-xau-trong-tin-dung-tieu-dung-co-xu-huong-gia-tang-652587.html	Link
[2] Pagano, M & Jappelli, P, Chia sẻ Thông tin trong Thị trường Tín dụng, Tạp chí Tài chính, Tập XLVIII, Số. 5, Tháng 12 năm 1993	Khác
[3] Varghese, Robin, Ph.D., & Turner, Michael, Ph.D., Lợi ích của việc Mở rộng Tham gia vào Hệ thống Báo cáo Tín dụng Đầy đủ tại Mỹ La tinh và Chi phí của Thực trạng, Viện Chính sách Thông tin, ngày 27 tháng 3 năm 2006, trang 2	Khác
[4] Fred H. Cate & Michael E. Staten, Tác động của Báo cáo Tín dụng Quốc gia dưới Đạo luật về Báo cáo Tín dụng Công Bằng: Nguy cơ của những Hạn chế Mới và Quy định của Tiểu bang, www.aba.com/.../77D1481B2316-11D5-AB7C-00508B95258D/31291/May2003ImpactofNationalCreditReporting1.pdf (truy cập lần cuối ngày 6 tháng 11 năm 2006)	Khác
[5] Đạo luật về báo cáo tín dụng công bằng: Tiếp cận, hiệu quả và cơ hội, tầm quan trọng về mặt kinh tế của tái ủy quyền tín dụng công bằng, Viện Chính sách Thông tin, Tháng 6 năm 2003	Khác
[6] Hội đồng Thống đốc Quỹ Dự trữ Liên bang, Báo cáo trước Nghị viện về Sự sẵn có của Thông tin Xác định Danh tính Khách hàng và Gian lận Tài chính 2 (1997)	Khác
[7] Mester, L.J., et al., 1997. What’s the point of credit scoring? Business review 3 (Sep/Oct), 3–16	Khác
[8] Quyền Riêng tư về Tài chính, Điều trần trước Tiểu ban Định chế Tài chính và Tín dụng Tiêu dùng của Ủy ban về Ngân hàng và Các Dịch vụ Tài chính, Hạ Viện Hoa Kỳ, Nghị viện khóa 106, Phiên họp thứ 1 (21 Tháng 7 năm 1999) (báo cáo của Edward M. Gramlich)	Khác
[9] Ngân hàng Nhà nước Việt Nam (2005). Quyết định số 493/2005/QĐ-NHNN ngày 22/04/2005 của Thống đốc Ngân hàng Nhà nước Việt Nam ban hành Quy định về phân loại nợ, trích lập và sử dụng dự phòng để xử lý rủi ro tín dụng trong hoạt động ngân hàng của tổ chức tín dụng	Khác
[10] Lando, D. (2004). Credit risk modeling: Theory and applications, Princeton Series in Finance; Princeton University Press: Princeton, NJ, USA	Khác
[11] Abdou, H.; & Pointon, J. (2011). Credit Scoring, Statistical Techniques and Evaluation Criteria: A Review of the Literature. Intelligent Systems in Accounting, Finance & Management, 59-88	Khác
[12] Menzies, T., & Hu, Y. (2003). Data mining for very busy people. Computer, 36(11), 22-29	Khác
[13] Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung và Đỗ Thanh Nghị. Rừng ngẫu nhiên cải tiến cho phân loại dữ liệu gen. Tạp chí Khoa học 2012:22b 9- 17	Khác
[14] Haykin, S.S., 2001. Neural Networks: A Comprehensive Foundation. Tsinghua University Press	Khác
[15] Han, F., Yao, H.-F., Ling, Q.-H., 2013. An improved evolutionary extreme learning machine based on particle swarm optimization. Neurocomputing 116, 87–93	Khác
[16] Thông tư 11/2021/TT-NHNN quy định về phân loại tài sản có, mức trích, phương pháp trích lập dự phòng rủi ro và việc sử dụng dự phòng để xử lý rủi ro trong hoạt động của tổ chức tín dụng, chi nhánh ngân hàng nước ngoài	Khác
[17] Huang, G.-B., Zhou, H., Ding, X., Zhang, R., 2012. Extreme learning machine for regression and multiclass classification. IEEE Trans. Syst. Man Cybern. B 42 (2), 513–529	Khác
[18] Huang, G.-B., Zhu, Q.-Y., Siew, C.-K., 2004. Extreme learning machine: a new learning scheme of feedforward neural networks. In: Neural Networks, 2004.Proceedings. 2004 IEEE International Joint Conference on, Vol. 2. IEEE, pp. 985–990	Khác
[19] Liu, N., Wang, H., 2010. Ensemble based extreme learning machine. IEEE Signal Process. Lett. 17 (8), 754–757	Khác
[20] Huang, G.-B., Wang, D.H., Lan, Y., 2011. Extreme learning machines: a survey. Int. J Mach. Learn. Cybernet. 2 (2), 107–122	Khác

Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm Điểm tín dụng Đối tượng khách hàng cá nhân

GIỚI THIỆU BÀI TOÁN CHẤM ĐIỂM TÍN DỤNG ĐỐI TƯỢNG KHÁCH HÀNG CÁ NHÂN

Đặt vấn đề

Ý nghĩa thực tiễn

Bài toán chấm điểm tín dụng

Tổng quan các nghiên cứu về bài toán chấm điểm tín dụng khách hàng cá nhân

Mục tiêu nghiên cứu của luận văn

Phương pháp nghiên cứu

Dữ liệu nghiên cứu

Tiêu chuẩn đánh giá kết quả

Kết luận chương

THUẬT TOÁN HỌC MÁY CỰC TRỊ TIẾN HÓA

Ý tưởng chính

Học máy cực trị

Học máy cực trị tiến hóa

Thuật toán bầy dơi

Mô hình học máy cực trị tiến hóa cho bài toán chấm điểm tín dụng

Kết luận chương

KẾT QUẢ THỰC NGHIỆM

Xử lí dữ liệu

Kết quả thực nghiệm

Ứng dụng

Kết luận chương

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Mô hình mạng nơ-ron nhân tạo