CHƢƠNG 2 : BÀI TỐN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG
2.5. Lựa chọn nghiên cứu thuật tốn
2.5.1.3. Các biện pháp lựa chọn thuộc tính
Biện pháp lựa chọn thuộc tính là một heuristic để chọn tiêu chí phân tách dữ liệu phân vùng thành cách tốt nhất cĩ thể. Nĩ cịn được gọi là quy tắc chia tách vì nĩ giúp chúng ta xác định các điểm dừng cho các bộ dữ liệu trên một nút nhất định. ASM (attribute selection measure) cung cấp thứ hạng cho từng tính năng (hoặc thuộc tính) bằng cách giải thích tập dữ liệu đã cho. Thuộc tính điểm tốt nhất sẽ được chọn làm thuộc tính chia ( Nguồn ). Trong trường hợp thuộc tính cĩ giá trị liên tục, các điểm phân chia cho các nhánh cũng cần xác định. Các biện pháp lựa chọn phổ biến nhất là Thơng tin đạt được, Tỷ lệ tăng và Chỉ số Gini.
2.5.1.4. Thơng tin đạt đƣợc
Shannon đã phát minh ra khái niệm entropy, đo lường sự khơng tinh khiết của bộ đầu vào. Trong vật lý và tốn học, entropy được gọi là tính ngẫu nhiên hoặc tạp chất trong hệ thống. Trong lý thuyết thơng tin, nĩ đề cập đến tạp chất trong một nhĩm các ví dụ. Thơng tin đạt được là sự giảm entropy. Độ lợi thơng tin tính tốn sự khác biệt giữa entropy trước khi tách và entropy trung bình sau khi tách bộ dữ liệu dựa trên các giá trị thuộc tính đã cho. Thuật tốn cây quyết định ID3 (Iterative Dichotomiser) sử dụng thơng tin thu được.
( ) ∑
Trong đĩ, Pi là xác suất mà một tuple tùy ý trong D thuộc về lớp Ci.
( ) ∑
( )
Ở đây:
Thơng tin (D) là lượng thơng tin trung bình cần thiết để xác định nhãn lớp của một tuple trong D.
| Dj | / | D | đĩng vai trị là trọng lượng của phân vùng thứ j.
InfoA (D) là thơng tin dự kiến cần cĩ để phân lớp một tuple từ D dựa trên phân vùng của A.
Thuộc tính A cĩ mức tăng thơng tin cao nhất, Gain (A), được chọn làm thuộc tính tách tại nút N ().
2.5.1.5. Tỷ lệ tăng
Thơng tin đạt được là thiên vị cho thuộc tính với nhiều kết quả. Nĩ cĩ nghĩa là nĩ thích thuộc tính với một số lượng lớn các giá trị riêng biệt. Chẳng hạn, hãy xem xét một thuộc tính cĩ số nhận dạng duy nhất, chẳng hạn như customer_ID khơng cĩ thơng tin (D) vì phân vùng thuần túy. Điều này tối đa hĩa việc đạt được thơng tin và tạo phân vùng vơ dụng.
C4.5, một cải tiến của ID3, sử dụng một phần mở rộng để đạt được thơng tin được gọi là tỷ lệ khuếch đại. Tỷ lệ khuếch đại xử lý vấn đề sai lệch bằng cách bình thường hĩa mức tăng thơng tin bằng cách sử dụng Thơng tin phân tách. Việc triển khai Java của thuật tốn C4.5 được gọi là J48, cĩ sẵn trong cơng cụ Khai phá dữ liệu WEKA.
( ) ∑ ( ) Ở đây,
| Dj | / | D | đĩng vai trị là trọng lượng của phân vùng thứ j.
v là số lượng giá trị rời rạc trong thuộc tính A. Tỷ lệ khuếch đại cĩ thể được định nghĩa là
( ) ( ) ( )
Thuộc tính cĩ tỷ lệ khuếch đại cao nhất được chọn làm nút gốc.
2.5.1.6. chỉ số Gini
Một thuật tốn cây quyết định khác sử dụng phương thức Gini để tạo các điểm phân chia.
( ) ∑
Trong đĩ, pi là xác suất mà một tuple trong D thuộc về lớp Ci.
Chỉ số Gini xem xét phân chia nhị phân cho từng thuộc tính. Bạn cĩ thể tính tổng trọng số của tạp chất của từng phân vùng. Nếu phân chia nhị phân trên thuộc tính A phân vùng dữ liệu D thành D1 và D2, chỉ số Gini của D là:
( )
( )
( )
Trong trường hợp thuộc tính cĩ giá trị rời rạc, tập hợp con cung cấp chỉ số gini tối thiểu cho lựa chọn đĩ được chọn làm thuộc tính tách. Trong trường hợp thuộc tính cĩ giá trị liên tục, chiến lược là chọn từng cặp giá trị liền kề làm điểm phân tách và điểm cĩ thể cĩ chỉ số gini nhỏ hơn được chọn làm điểm phân tách.
( ) ( ) ( )
Thuộc tính cĩ chỉ số Gini tối thiểu được chọn làm thuộc tính tách.
Phân lớp Naive Bayes
2.5.2.
2.5.2.1. Quy trình phân lớp
Bất cứ khi nào bạn thực hiện phân lớp, bước đầu tiên là hiểu vấn đề và xác định các tính năng và nhãn tiềm năng. Các tính năng là những đặc điểm hoặc thuộc tính ảnh hưởng đến kết quả của nhãn. Ví dụ: trong trường hợp phân phối cho vay, quản lý ngân hàng xác định nghề nghiệp, thu nhập, tuổi tác, địa điểm, lịch sử cho vay trước đây, lịch sử giao dịch và điểm tín dụng. Những đặc điểm này được gọi là các tính năng giúp mơ hình phân loại khách hàng.
Việc phân lớp cĩ hai giai đoạn, giai đoạn học tập và giai đoạn đánh giá. Trong giai đoạn học tập, trình phân loại đào tạo mơ hình của nĩ trên một tập dữ liệu nhất định và trong giai đoạn đánh giá, nĩ kiểm tra hiệu suất của trình phân loại. Hiệu suất được đánh giá trên cơ sở các thơng số khác nhau như độ chính xác, lỗi, độ chính xác và thu hồi.
Data
Data Training
Data
Test Kiểm thử mơ hình
Biểu diễn mơ hình
1. accuracy – độ chính xác 2. precision - dự đốn 3. recall – độ hồi tưởng Xây dựng mơ hình
Hình 2.6.3: Quy trình phân lớp
2.5.2.2. Phân lớp Naive Bayes là gì?
Naive Bayes là một kỹ thuật phân loại thống kê dựa trên Định lý Bayes. Đây là một trong những thuật tốn học được giám sát đơn giản nhất. Phân lớp Naive Bayes là thuật tốn nhanh, chính xác và đáng tin cậy. Các bộ phân lớp Naive Bayes cĩ độ chính xác và tốc độ cao trên các bộ dữ liệu lớn.
Phân lớp Naive Bayes giả định rằng hiệu ứng của một tính năng cụ thể trong một lớp là độc lập với các tính năng khác. Ví dụ, một người xin vay cĩ mong muốn hay khơng tùy thuộc vào thu nhập của anh ấy/cơ ấy, lịch sử giao dịch và khoản vay trước đĩ, tuổi và địa điểm. Ngay cả khi các tính năng này phụ thuộc lẫn nhau, các tính năng này vẫn được xem xét độc lập. Giả định này đơn giản hĩa tính tốn, và đĩ là lý do tại sao nĩ được coi là ngây thơ. Giả định này được gọi là độc lập cĩ điều kiện phân cấp.
( ) ( ) ( ) ( )
P (h): xác suất của giả thuyết h là đúng (bất kể dữ liệu). Điều này được gọi là xác suất trước của h.
P (D): xác suất của dữ liệu (bất kể giả thuyết). Điều này được gọi là xác suất trước.
P (h | D): xác suất của giả thuyết h đưa ra dữ liệu D. Điều này được gọi là xác suất sau.
P (D | h): xác suất của dữ liệu d cho rằng giả thuyết h là đúng. Điều này được gọi là xác suất sau.
2.5.2.3. Hoạt động của phân lớp Naive Bayes
Chúng ta hãy hiểu hoạt động của Naive Bayes qua một ví dụ. Cho một ví dụ về điều kiện thời tiết và chơi thể thao. Bạn cần tính xác suất chơi thể thao. Bây giờ, bạn cần phân loại xem người chơi sẽ chơi hay khơng, dựa trên điều kiện thời tiết.
Phân lớp Naive Bayes tính tốn xác suất của một sự kiện theo các bước sau:
Bước 1: Tính xác suất trước cho các nhãn lớp đã cho
Bước 2: Tìm xác suất khả năng với từng thuộc tính cho mỗi lớp
Bước 3: Đặt các giá trị này vào Cơng thức Bayes và tính xác suất sau.
Bước 4: Xem lớp nào cĩ xác suất cao hơn, với đầu vào thuộc về lớp xác suất cao hơn.
CHƢƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK 3.1. Khảo sát hoạt động tín dụng của hệ thống Vietinbank 3.1. Khảo sát hoạt động tín dụng của hệ thống Vietinbank
Tổng quan hoạt động tín dụng của Vietinbank
3.1.1.
Tổng dư nợ của VietinBank cĩ sự tăng trưởng mạnh mẽ giai đoạn 2012 – 2017, năm 2012 giá trị này mới ở mức 333,356 tỷ đồng, đến năm 2017 giá trị này đã đạt mức 790,688 tỷ đồng, tăng gấp 2,3 lần năm 2012. Cụ thể, tình hình tăng trưởng dư nợ của VietinBank như sau [5]:
Hình 3.1.1: Tổng dư nợ VietinBank từ 2013 – 2017
Cĩ sự chuyển dịch trong cơ cấu tín dụng của VietinBank theo hướng giảm tỷ trọng cho vay ngắn hạn và tăng dần tỷ trọng cho vay trung dài hạn, sự chuyển dịch này cho thấy quy mơ dư nợ của VietinBank đang phát triển theo hướng bền vững và ổn định hơn. 62% 64% 64% 59% 56% 56% 10% 11% 10% 11% 12% 10% 28% 25% 26% 29% 32% 34% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 2012 2013 2014 2015 2016 2017 Nợ dài hạn Nợ trung hạn Nợ ngắn hạn
Hình 3.1.2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017
So sánh các chỉ tiêu tín dụng, huy động, lợi nhuận, tỷ lệ nợ xấu với các ngân hàng Việt Nam (2017).
Hình 3.1.3: So sánh chỉ tiêu tín dụng, huy động, lợi nhuận, nợ xấu
Nhìn chung hoạt động tín dụng của VietinBank từ 2012 đến 2017 cho thấy sự phát triển nhanh và bền vững, kiểm sốt nợ xấu được đánh giá tốt trong ngành ngân hàng.
Các biện pháp quản trị nợ xấu đã đƣợc áp dụng tại VietinBank
3.1.2.
3.1.2.1. Hệ thống xếp hạng tín dụng:
Đây là hệ thống xương sống trong hoạt động cấp tín dụng của VietinBank. VietinBank là tổ chức tín dụng trong nước đầu tiên áp dụng hệ thống xếp hạng tín dụng (XHTD) chuẩn mực vào hoạt động cho vay. Theo quy định của hệ thống XHTD của VietinBank tất cả các khách hàng cĩ quan hệ tín dụng với VietinBank đều phải được XHTD, kết quả XHTD được sử dụng để quyết định các nội dung tín dụng liên quan về tỷ lệ TSBĐ, chính sách giá, phí, phân loại nợ, điều kiện tín dụng…. Hệ thống XHTD được xây dựng trên cơ sở phân tích định tính và phân tích định lượng. Tất cả các thơng số đều được lượng hĩa qua số điểm để ra kết quả xếp hạng tín dụng của khách hàng.
3.1.2.2. Cơng tác dự báo nợ cĩ khả năng chuyển xấu:
VietinBank thường xuyên thực hiện đánh giá danh mục để dự báo nợ tiềm ẩn rủi ro và nợ cĩ khả năng chuyển thành nợ xấu để cĩ giải pháp tín dụng phù hợp. Việc dự báo nợ chuyển xấu của VietinBank đang được thực hiện tại 2 bộ phân độc lập là bộ phận phê duyệt tín dụng thơng qua việc rà sốt hồ sơ phê duyệt và bộ phận kiểm tra giám sát tuân thủ thơng qua hoạt động kiểm tra các chi nhánh. Việc dự báo nợ xấu được thực hiện chủ yếu theo phương pháp định tính theo ý kiến chuyên gia. Kết quả dự báo nợ xấu được sử dụng để VietinBank xem xét nâng hạ thẩm quyền phê duyệt của các chi nhánh, dự kiến quỹ dự phịng rủi ro và định hướng phê duyệt tín dụng đối với khách hàng.
3.1.2.3. Những tồn tại, hạn chế
Mặc dù đạt được nhiều kết quả khả quan thể hiện cả về mặt tài chính cũng như cấu trúc hệ thống nhưng cơng tác quản trị chất lượng tín dụng, quản trị nợ xấu tại VietinBank vẫn cịn nhiều tồn tại cần khắc phục:
VietinBank chưa cĩ định hướng cụ thể trong việc lựa chọn khách hàng mục tiêu nhằm giúp các bộ phận thẩm định rà sốt phía sau tiết kiệm được thời gian trong việc lọc khách hàng.
Trong cơng tác đánh giá rủi ro tín dụng trong cho vay. Cụ thể là, để đánh giá mức độ rủi ro tín dụng trong các giao dịch cho vay, cán bộ ngân hàng thường vẫn phải dựa vào kinh nghiệm bản thân hoặc tham vấn ý kiến
chuyên gia. Phương pháp truyền thống này cĩ nhiều hạn chế do phụ thuộc vào năng lực của từng cán bộ ngân hàng cũng như trình độ, tâm lý và các yếu tố chủ quan khác của chuyên gia, cũng như thiếu những thơng tin cần thiết để chuyên gia phân tích. Vì thế, độ tin cậy cũng như tính chính xác trong cơng tác đánh giá mức độ rủi ro tín dụng thường khơng cao. Điều này khơng những tiềm ẩn nhiều rủi ro mà cịn ảnh hưởng trực tiếp đến hiệu quả hoạt động của ngân hàng.
VietinBank cịn thiếu các cơng cụ hỗ trợ thẩm định như: trung tâm hỗ trợ pháp lý, trung tâm định giá tài sản bảo đảm, Hệ thống tra cứu các văn bản quy phạm pháp luật và nội bộ liên quan đến cơng tác thẩm định tín dụng, hệ thống tra cứu các doanh nghiệp đang tồn tại những thơng tin bất lợi từ các kênh khác nhau.
VietinBank cịn thiếu các sản phẩm cho vay chuyên biệt.
Cơng tác đánh giá nghiên cứu ngành và định hướng danh mục của VietinBank chưa đủ độ chuyên sâu để hỗ trợ các cán bộ làm cơng tác tín dụng, cịn thiếu nhiều các thống kê mang tính chuyên ngành cũng như các phân tích về rủi ro đặc trưng ngành.
Hệ thống xếp hạng tín dụng của VietinBank chỉ mới cĩ chiều xếp hạng khách hàng, chưa cĩ chiều xếp hạng khoản cấp tín dụng
Cơng tác rà sốt các chính sách trong hoạt động cấp tín dụng của VietinBank cịn chậm chưa theo kịp các thay đổi trong thực tế.
Cơng tác đào tạo nhân sự làm tín dụng của VietinBank cĩ được chú trọng nhưng chất lượng đào tạo vẫn chưa đảm bảo, vẫn chỉ tập trung đào tào về mặt lý thuyết cịn thiếu nhiều những khĩa đào tạo cĩ tính thực tiễn cao, mang tính trao đổi chia sẻ về kinh nghiệm [3][4].
3.2. Mơ tả bài tốn áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng
Ngân hàng cần xác định những khoản vay mới, trong tương lai sẽ là nợ Tốt hay nợ Xấu
Kết quả sau khi phân tích sẽ là một mơ hình mà từ đĩ cĩ thể dự đốn được khoản vay nào sẽ nằm trong nhĩm nợ Xấu (nhĩm 3, 4, 5) hay nhĩm nợ Tốt (nhĩm 1, 2)
Mơ hình này ngồi việc dự đốn khoản vay sẽ nằm trong nhĩm nào, cịn cĩ thể được sử dụng như một cơng cụ để tra các thuộc tính cĩ thay đổi liên quan
đến khoản vay (lãi suất, lãi phạt trả chậm, thu nhập cố định của khách vay bị thay đổi…)
Thu thập dữ liệu cho vay của hệ thống Vietinbank.
Để giới hạn pham vi bài tốn & trong khuơn khổ luận văn tập trung vào cho vay khách hàng cá nhân tác giả chỉ tập trung vào cho vay khách hàng cá nhân
3.3. Mơ hình dữ liệu tại Core Vietinbank
Vietinbank Data System architechture
Data warehouse Terminal data Terminal app Core Bank Synchronize area
CIF LOAN DEPOSIT PAYMENT TF EPS/IBPS Profile report Staging MIS ATM POS IB Reconcile Report KPI Datamining Branch HO Regional Partner
Hình 3.3.1: Mơ hình datawarehouse của Vietinbank
Các phân hệ dữ liệu trên hệ thống Core của Vietinbank cần cho bài tốn phân tích rủi ro tín dụng gồm:
Kế tốn tổng hợp – giao dịch GL
Phân hệ tiền gửi – deposit
Phân hệ tiền vay – Loan
Phân hệ chuyển tiền – fund transfer
Phân hệ tài trợ thương mại – TF (trace finance)
3.4. Mơi trƣờng
Hệ thống khảo sát dịch vụ
LOAN Module
CIF Module SQL Server
Data warehouse
file arff
Survey360 portal
WEKA API
Hình 3.4.1: Mơi trường thực nghiệm
3.5. Thu thập dữ liệu
Nguồn dữ liệu sẽ được lấy từ 2 Module là: Loan (Module cho vay) & CIF (Module quản lý thơng tin khách hàng)
CIF Module SQL Server LOAN Module Loan_trans Loan_Limit Loan_Col Loan_Dict KHACH_HANG HOP_DONG_VAY Loan_Info CIF_Info CIF_Acct CIF_Service HAN_MUC Pull_Service SOA API
Hình 3.5.1: Mơ hình thu thập dữ liệu Module Loan: Module Loan:
Loan_Limit: Định mức được vay
Loan_Col: Tài sản đảm bảo
Loan_Dict: Bảng tham chiếu giá trị tài sản
Loan_Info: Thơng tin chi tiết khoản vay Module CIF:
CIF_Info: Thơng tin khách hàng (họ tên, nơi ở, khu vực…)
CIF_Acct: Thơng tin tài khoản (ATM, VISA, E-Parter, Credit, debit…)
CIF_Service: Thơng tin dịch vụ liên quan đến tài khoản (Thanh tốn trực tuyến, biến động số dư, thanh tốn viện phí, thu hộ tự động…)
Dữ liệu được chiết xuất từ hệ thống ngân hàng sẽ tập trung vào các phạm vi:
Tập trung vào khách hàng cá nhân.
Thu thập các khoản vay cĩ cả nhĩm nợ tốt và xấu.
Thu thập các loại khoản vay về đầu tư bất động sản, mua ơ tơ, kinh doanh hộ cá thể, và tiêu dùng cá nhân đây là các loại vay thường xuyên được khách hàng lựa chọn.
3.6. Biến đổi dữ liệu, tính tốn sinh ra các bảng Bảng khách hàng