Tóm tắt Luận văn Thạc sĩ: Nghiên cứu khai phá dữ liệu trong quản lý rủi ro tín dụng ngân hàng

26 15 0
Tóm tắt Luận văn Thạc sĩ: Nghiên cứu khai phá dữ liệu trong quản lý rủi ro tín dụng ngân hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục đích của Luận văn nhằm ứng dụng khai phá dữ liệu nhằm nâng cao chất lượng của hệ thống xếp hạng tín dụng của Ngân hàng SHB, để hệ thống xếp hạng tín dụng thực hiện phân loại khách hàng tốt hơn, phản ánh thực chất hơn tình trạng tín dụng của khách hàng. Mời các bạn cùng tham khảo!

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Khắc Xuân Bách NGHIÊN CỨU KHAI PHÁ DỮ LIỆU TRONG QUẢN LÝ RỦI RO TÍN DỤNG NGÂN HÀNG Chuyên ngành: Hệ thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2020 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Lê Hưu Lập (Ghi rõ học hàm, học vị) Phản biện 1: ……………………………………………………… Phản biện 2: …………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng LỜI MỞ ĐẦU Lý chọn đề tài Một hoạt động ngân hàng thương mại hoạt động cho vay nên rủi ro tín dụng nhân tố quan trọng, đòi hỏi ngân hàng phải có khả phân tích, đánh giá quản lý rủi ro hiệu ngân hàng chấp nhận nhiều khoản cho vay có rủi ro tín dụng cao ngân hàng có khả phải đối mặt với tình trạng thiếu vốn hay tính khoản thấp Điều làm giảm hoạt động kinh doanh thu lợi nhuận ngân hàng, chí phá sản Đã có nhiều giải pháp mặt nghiệp vụ nhằm hạn chế rủi ro tín dụng ngân hàng Tuy nhiên, CNTT ứng dụng rộng rãi người ta trông chờ vào giải pháp quản lý rủi ro qua trình cho vay tín dụng cách hiệu Một phương pháp ứng dụng khai phá liệu vào lĩnh vực quản lý rủi ro nói chung rủi ro tín dụng nói riêng nhằm giảm thiểu tình trạng nợ hạn, nâng cao chất lượng tín dụng, giảm thiểu khả vốn ngân hàng Từ lý đề tài luận văn: “Nghiên cứu Khai phá dữ liệu quản lý rủi ro tín dụng ngân hàng” có ý nghĩa mặt khoa học thực tiễn Tổng quan đề tài nghiên cứu Rủi ro tín dụng đề tài nghiên cứu quan trọng rộng khắp ngành ngân hàng liên quan đến định cho vay khả sinh lời Đối với tất ngân hàng, tín dụng coi rủi ro lớn khó bù đắp Việc áp dụng kỹ thuật tiên tiến có tính thống kê việc đánh giá rủi ro tín dụng dự đốn phá sản đã trở thành lĩnh vực nghiên cứu kể từ thập niên 70 Xếp hạng tín dụng đã trở thành phương thức phân tích chủ yếu trụ sở kinh tế có liên quan đến rủi ro tín dụng Mục đích xếp hạng tín dụng phân chia ứng viên thành hai nhóm: ứng viên tín dụng tốt ứng viên với tín dụng xấu Tính xác xếp hạng tín dụng đóng vai trò quan trọng lợi nhuận tổ chức tài Thậm chí 1% độ xác việc xếp hạng tín dụng ứng viên giảm tổn thất lớn cho tổ chức tài Ngân hàng SHB ngân hàng có nợ xấu tăng mạnh tháng đầu năm 2018, với mức tăng nghìn tỷ đồng, lên 5,6 nghìn tỷ đồng (tương đương với mức tăng 21,7% so với 31/12/2017) Trong đó, nợ có khả vốn mức 3.273 tỷ đồng, tăng 14,2% chiếm 58,2% tổng nợ xấu Tỷ lệ nợ xấu ngân hàng theo tăng mạnh, từ mức 2,33% đầu năm lên 2,7%/tổng cho vay Và ngân hàng có tỷ lệ nợ xấu cao thứ ba số 17 ngân hàng Ở học viên chọn giải pháp khai phá liệu để giải toán xác định mức độ rủi ro tín dụng ngân hàng Mục đích nghiên cứu Mục đích đề tài ứng dụng khai phá liệu nhằm nâng cao chất lượng hệ thống xếp hạng tín dụng Ngân hàng SHB, để hệ thống xếp hạng tín dụng thực phân loại khách hàng tốt hơn, phản ánh thực chất tình trạng tín dụng khách hàng Đối tượng và phạm vi nghiên cứu - Dữ liệu khách hàng SHB Ứng dựng khai phá liệu vào việc đánh giá thông tin khách hàng Kho liệu ngân hàng SHB Phương pháp nghiên cứu - Nghiên cứu lý thuyết Thực nghiệm phân tích kết Cấu trúc của luận văn Luận văn phần mở đầu kết luận gồm chương chính: Chương 1: Rủi ro tín dụng quản lý rủi ro tín dụng ngân hàng Chương 2: Khai phá liệu toán phân lớp dự báo rủi ro tín dụng Chương 3: Thử nghiệm đánh giá rủi ro tín dụng ngân hàng SHB Trong đó, luận văn tập trung vào chương chương với mục đích nghiên cứu khai phá liệu toán phân lớp dự báo rủi ro tín dụng, sau thực nghiệm nhằm đánh giá mơ hình Mặc dù có nhiều cố gắng thời gian có hạn Luận văn chắn cịn hạn chết khiếm khuyết Kính mong thầy đồng nghiệp thơng cảm góp ý CHƯƠNG 1: RỦI RO TÍN DỤNG VÀ QUẢN LÝ RỦI RO TÍN DỤNG TẠI NGÂN HÀNG Để ứng dụng công nghệ khai phá liệu quản lý rủi ro tín dụng ngân hàng, trước hết cần phải rõ khái niệm hoạt động tín dụng, phân loại tín dụng,xem xét đánh giá nguyên nhân dẫn đến rủi ro tín dụng, phương pháp quản lý ngân hàng nói chung đặc biệt ngân hàng SHB nơi tác giả công tác 1.1 Hoạt động tín dụng 1.1.1 Tín dụng ngân hàng là gì? Tín dụng ngân hàng giao dịch vay mượn tài sản ngân hàng (bên cho vay) khách hàng (bên vay), bên vay sử dụng tài sản bên cho vay khoảng thời gian thỏa thuận trước phải hồn trả vơ điều kiện vốn gốc lãi cho bên cho vay đến hạn toán Nói cách khác, tín dụng ngân hàng quan hệ chuyển nhượng quyền sử dụng vốn ngân hàng khách hàng thời hạn định với khoản chi phí định 1.1.2 Bản chất của tín dụng Bản chất tín dụng giao dịch tài sản sở hoàn trả có đặc trưng sau: Tài sản giao dịch quan hệ tín dụng ngân hàng bao gồm hai hình thức cho vay (bằng tiền) cho thuê (bất động sản động sản) Xuất phát từ nguyên tắc hồn trả, người cho vay chuyển giao tài sản cho người vay sử dụng phải có sở để tin rằng người vay trả hạn Giá trị hồn trả thơng thường phải lớn giá trị lúc cho vay, hay nói cách khác người vay phải trả thêm phần lãi vốn gốc Trong quan hệ tín dụng ngân hàng, tiền vay cấp sở bên vay cam kết hồn trả vơ điều kiện cho bên cho vay đến hạn toán 1.1.3 Vai trò của tín dụng Thứ nhất: Đáp ứng nhu cầu vốn để trì trình sản xuất liên tục đồng thời góp phần đầu tư phát triển kinh tế Thứ hai: Thúc đẩy trình tập trung vốn tập trung sản xuất Thứ ba: Tín dụng cơng cụ tài trợ cho ngành kinh tế phát triển ngành kinh tế mũi nhọn Thứ tư: Góp phần tác động đến việc tăng cường chế độ hạch toán kinh tế doanh nghiệp Thứ năm: Tạo điều kiện để phát triển quan hệ kinh tế với nước 1.1.4 Chức của tín dụng Chức tín dụng bao gồm chức sau: Phân phối lại nguồn vốn nhàn rỗi nguyên tắc hoàn trả lại gốc lãi Tạo điều kiện lưu thơng giá trị góp phần tiết kiệ tiền mặt chi phí lưu thơng xã hội Kiểm soát đồng tiền với hoạt động kinh tế 1.2 Phân loại tín dụng ngân hàng Công tác phân loại tín dụng dựa số tiêu thức định tùy theo yêu cầu khách hàng mục tiêu quản lý ngân hàng Có thể phân loại tín dụng ngân hàng theo nhiều cách vào thời hạn tín dụng, phân loại theo đối tượng tín dụng, mục đích sử dụng vốn, vào đối tượng trả nợ…Tuy nhiên khuôn khổ luận văn tập trung vào phần dự báo rủi ro tín dụng nên luận văn dưa cách phân loại tín dụng dựa vào rủi ro, cách phân loại giúp ngân hàng thường xuyên đánh giá lại tính an tồn khoản tín dụng, trích lập dự phịng tổn thất kịp thời, phân loại thành nhóm[8]: Nhóm 1: Nợ đủ tiêu chuẩn, Các khoản nợ hạn mà tổ chức tín dụng đánh giá có đủ khả thu hồi đầy đủ gốc lãi thời hạn Nhóm 2: Nợ cần ý, bao gồm nợ hạn 90 ngày nợ cấu lại thời hạn trả nợ Nhóm 3: Nợ tiêu chuẩn, bao gồm nợ hạn từ 90 ngày đến 180 ngày nợ cấu lại thời hạn trả nợ hạn 90 ngày Nhóm 4: Nợ nghi ngờ, bao gồm nợ hạn từ 181 ngày đến 360 ngày nợ cấu lại thời hạn trả nợ hạn từ 90 ngày đến 180 ngày Nhóm 5: Nợ có khả vốn, gồm nợ hạn 360 ngày, nợ cấu lại thời hạn trả nợ 180 ngày nợ khoanh chờ Chính phủ xử lý 1.3 Rủi ro tín dụng Đây rủi ro lớn thường xuyên xảy ra, khiến ngân hàng rơi vào trạng thái tài khó khăn nghiêm trọng “Rủi ro tín dụng hoạt động ngân hàng tổ chức tín dụng khả xảy tổn thất hoạt động ngân hàng tổ chức tín dụng khách hàng khơng thực khơng có khả thực nghĩa vụ theo cam kết.” [8] 1.3.1 Rủi ro tín dụng và nguyên nhân a b Rủi ro tín dụng Nguyên nhân chủ yếu dẫn đến rủi ro tín dụng 1.3.2 Các ảnh hưởng của rủi ro tín dụng đến hoạt động của ngân hàng Các ảnh hưởng rủi ro tín dụng đến hoạt động ngân hàng là: a Đối với nền kinh tế b Đối với ngân hàng c Đối với khách hàng 1.4 Đánh giá phương pháp quản lý rủi ro tín dụng tại ngân hàng SHB Bước đầu SHB đã thiết lập hệ thống đánh giá xếp hạng tín dụng CSS nhằm giúp cán quản lý tín dụng ban điều hành việc quản lý vận hành hoạt động tín dụng ngân hàng Nhưng dừng mức thu thập thông tin liên quan khách hàng vay vốn tính điểm xếp hạng theo mơ hình xếp hạng sẵn xếp hạng khách hàng theo số điểm tính cách cứng nhắc Việc đánh giá kết từ hệ thống dựa vào kinh nghiệm trình độ đánh giá phân tích cán tín dụng thực tế chưa sát với thực tế khách hàng Ví dụ với khách hàng đã xếp hạng xếp hạng AAA, AA… (hạng cao thang xếp hạng) việc trả nợ lại gặp khó khăn có khách hàng điểm xếp hạng thấp lại trả nợ hạn Chính việc khai thác triệt để thông tin thu thập từ khách hàng liệu thực tế hệ thống chưa đáp ứng Chính lý mà việc áp dụng khai phá liệu để thu thơng tin hữu ích việc quản trị rủi ro hỗ trợ việc định cần thiết 1.5 Kết luận Chương Căn vào tình hình thực tế ngân hàng Việt Nam nói chung ngân hàng SHB nói riêng ngồi phân tích mặt nghiệp vụ với hệ thống đánh giá xếp hạng tín dụng cần tiếp tục nghiên cứu giải pháp nhằm dự báo rủi ro tín dụng cách hiệu hơn.Trong chương luận văn trình bày phương pháp khai phá liệu nhằm quản lý rủi ro tín dụng ngân hàng CHƯƠNG 2: KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 2.1 Tổng quan khai phá dữ liệu 2.1.1 Khai phá dữ liệu là gì và tại phải khai phá dữ liệu a Khai phá dữ liệu là gì Định nghĩa: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu Khai phá liệu dùng để mơ tả q trình phát tri thức CSDL Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, Khai phá liệu làm giảm chi phí thời gian so với phương pháp truyền thống trước (ví dụ phương pháp thống kê) Có nhiều thuật ngữ dùng tương tự Datamining Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/parttern analysis (phân tích liệu/mẫu), data archaeology (khảo cổ liệu), data dredging (nạo vét liệu) [9],… b Tại phải tiến hành khai phá dữ liệu các dịch vụ tài chính Trong ngành cơng nghiệp dịch vụ tài tồn giới, phương thức liên lạc truyền thống khách hàng mặt đối mặt (face-to-face) thay bằng phương thức điện tử để giảm thời gian chi phí xử lý áp dụng cho sản phẩm khác nhau, cuối cải thiện hiệu việc sử dụng tài Tin học hố q trình hoạt động tài chính, sử dụng internet phần mềm tự động hồn tồn làm thay đổi khái niệm kinh doanh cách hoạt động kinh doanh thực Hiển nhiên, lĩnh vực ngân hàng ngoại lệ Kể từ năm 1990 toàn khái niệm ngân hàng đã chuyển sang sở liệu tập trung, giao dịch trực tuyến máy ATM thực giới, đã làm cho hệ thống ngân hàng mặt mạnh mẽ mặt kỹ thuật định hướng khách hàng tốt Dữ liệu nguồn tài nguyên có giá trị ngân hàng nào, nhiên thực có giá trị biết cách tiếp cận với thơng tin có giá trị ẩn chứa liệu thô Khai phá liệu cho phép triết suât thông tin từ liệu lịch sử, dự đốn kết tình tương lai Nó giúp cho việc tối ưu hóa định kinh doanh, tăng giá trị từng khách hàng thông tin kết nối, đồng thời cải thiện hài lòng khách hàng 2.1.2 Quy trình và các bước khai phá dữ liệu Khai phá liệu bước bảy bước trình KDD (Knowleadge Discovery in Database) KDD xem trình khác theo thứ tự sau (Hình 2.1): Hình 2.1: Các bước khai phá dữ liệu Làm sạch dữ liệu (data cleaning Tích hợp dữ liệu (data intergation Lựa chọn dữ liệu (data selection) Chuyển đổi dữ liệu (data tranform) Khai phá dữ liệu (data mining) Đánh giá mẫu (pattern evaluation) Biểu diễn tri thức (Knowledge presentation) Từ bước khai phá liệu, kiến trúc mẫu hệ thống khai phá liệu có thành phần sau: Hình 2.2: Các thành phần hệ thống Data Mining 2.1.3 Các phương pháp khai phá dữ liệu Các phương pháp KPDL phân chia theo chức hay lớp toán khác Sau số phương pháp phổ biến:  Phân lớp dự đoán (classification & prediction)  Luật kết hợp (association rules  Khai phá chuỗi theo thời gian (sequential/temporal patterns)  Phân cụm (clustering/segmentation)  Mô tả khái niệm (concept description & summarization) 2.2 Ứng dụng của khai phá dữ liệu hệ thống thông tin ngân hàng Hiện tại, ngân hàng tổ chức tài khắp giới phải trì kho liệu khổng lồ với nhiều thơng tin có giá trị Quy mơ khổng lồ kho liệu gây khó khăn cho người việc phân tích để đưa thơng tin hữu ích q trình định Nhiều công ty thương mại đã nhanh nhạy nắm bắt tình hình này, nhờ đã tạo nên thị trường phần mềm khai phá liệu (data mining) phong phú bật lên sản phẩm khai phá liệu Oracle (Oracle Dataminer), IBM, SAP… Hình 2.3: Khai phá dữ liệu tìm kiếm tri thức từ lượng dữ liệu khổng lồ Sự cạnh tranh toàn cầu, thị trường động chu kỳ đổi công nghệ ngày rút ngắn đã tạo nhiều thách thức quan trọng cho ngành tài ngân hàng Việc có mặt nhanh chóng thơng tin phạm vi tồn cầu giúp làm tăng linh hoạt doanh nghiệp Sự phát triển nhanh chóng cơng nghệ thơng tin tổ chức tài đã tạo nhu cầu lớn việc liên tục phân tích liệu Hình 2.4: Ứng dụng data mining ngân hàng [14] Data mining góp phần giải đề kinh doanh nganh ngân hàng tài bằng cách tìm dạng mẫu (patterns), nguyên nhân mối tương quan thông tin kinh tế, giá thị trường mà nhà quản lý dễ dàng nhận khối lượng liệu lớn xuất nhanh Cấp quản lý ngân hàng tìm hiểu thêm giai đoạn, chu kỳ diễn biến giao dịch khách hàng nhằm phân khúc, xác đinh mục tiêu, thu hút giữ nguồn khách hàng mang lại lợi nhuận Business Intelligence Data mining cịn giúp nhận diện tầng lớp khách hàng khác nhau, để đưa giải pháp sản phẩm giá phù hợp cho từng lớp khách hàng, góp phần tăng hiệu kinh doanh Đó là:     Quản trị rủi ro Phát hiện gian lận Quản lý danh mục vốn Quảng cáo chăm sóc khách hàng 2.3 Bài toán phân lớp dự báo rủi ro tín dụng Như đã trình bày chương 1, hoạt động tín dụng ngành ngân hàng đặc biệt quan trọng việc đánh giá phân loại rủi ro nhiệm vụ hàng đầu quản trị vận hành ngân hàng Chính hầu hết ngân hàng giới nói chung Việt Nam nói riêng có hệ thống hỡ trợ việc đánh giá phân loại rủi ro Hầu hết ngân hàng sử dụng mô hình chấm điểm tín dụng để hỡ trợ đánh giá rủi ro xếp hạng tín dụng từ có định cho khách hàng vay hay không Các đặc điểm cấu trúc, thiết kế vận hành hệ thống xếp hạng tín dụng khác ngân hàng, ví dụ như: cấu tiêu đánh giá, trọng số tiêu, số lượng mức xếp hạng, ước tính mức rủi ro gắn liền với mức xếp hạng, sách khách hàng, sách tín dụng áp dụng cho từng mức xếp hạng Nhưng nhìn chung cách tiếp cận chung sử dụng thông tin khách hàng cung cấp để đưa giá trị điểm từ ứng với từng thang điểm mỡi khoản vay xếp hạng theo từng thang điểm Có thể thấy rằng mơ hình phổ biến thực NHTM Việt Nam, lẽ mơ hình có nhiều lợi phù hợp với NHTM điều kiện Việt Nam nay, cụ thể là:  Tận dụng kinh nghiệm kiến thức chuyên sâu cán tín dụng, chuyên gia tài để phân tích tiêu tài Việc phân tích dựa công nghệ giản đơn, hệ thống lưu trữ thông tin ổn định, sử dụng hồ sơ sẵn có, dễ dàng thu thập thơng tin  Đây mơ hình tương đối đơn giản, song hạn chế mơ hình phụ thuộc vào trình độ phân tích, đánh giá cán tín dụng  Mơ hình áp dụng cho khoản vay riêng lẻ, mang tính đặc thù chịu ảnh hưởng yếu tố vùng miền, phong tục, tập quán việc dựa yếu tố định lượng, không đưa định xác mà phải dựa ý kiến kinh nghiệm cán tín dụng  Các NHTM sử dụng mơ hình chịu chi phí cao tốn nhiều thời gian để đánh giá địi hỏi cán tín dụng phải có tính chun nghiệp, có thâm niên, kỹ  Mơ hình khó khăn đo lường vai trị yếu tố đến hạng tín nhiệm khách hàng  Đặc biệt mơ hình chấm điểm chưa có khả dự báo rủi ro mà đánh giá phần rủi ro nhờ điểm xếp hạng Chính hạn chế mơ hình chấm điểm xếp hạng tín dụng tơi xin đề xuất phương pháp áp dụng thuật toán phân lớp khai phá liệu để dự báo khả hoàn vốn khách hàng dựa vào thông tin sử dụng mơ hình chấm điểm liệu lịch sử khách hàng đã vay vốn ngân hàng 2.3.1 Phát biểu bài toán Đầu vào: Tập thông tin khách hàng lịch sử trả nợ của các khách hàng nhằm mục đích xây dựng mơ hình (tập training) Tập thông tin khách hàng lịch sử trả nợ nhằm mục đích kiểm chứng mơ hình (tập liệu test) Tập thông tin khách hàng cần dự báo Đầu ra: Đưa mơ hình phân lớp dự báo, các sớ đánh giá mơ hình, các ḷt rút từ mơ hình giúp phân loại các khách hàng Ví dụ: 10  Chọn thuộc tính “tốt” bằng độ đo đã định trước  Phát triển bằng việc thêm nhánh tương ứng với từng giá trị thuộc tính đã chọn  Sắp xếp, phân chia tập liệu đào tạo tới node  Nếu ví dụ phân lớp rõ ràng dừng  Ngược lại: lặp lại bước tới bước cho từng node  Cắt tỉa cây: nhằm đơn giản hóa, khái quát hóa cây, tăng độ xác Điều kiện để dừng việc phân chia:  Tất mẫu huấn luyện nút cho trước thuộc lớp.  Không cịn thuộc tính cịn lại để phân chia tiếp.  Khơng cịn mẫu cịn lại. Trên sở giải thuật đã nêu trên, đã có nhiều nghiên cứu để xây dựng định mà bật thuật toán CART, ID3, C4.5 [15] Các thuật toán chấp nhận tham lam (greedy) cách tiếp cận định xây dựng từ xuống cách đệ quy, bắt đầu với liệu huấn luyện tập nhãn lớp họ Hầu hết giải thuật định theo cách tiếp cận từ xuống Tập liệu huấn luyện phân vùng cách đệ quy thành tập hợp nhỏ lúc xây dựng Điểm khác biệt thuật tốn tiêu chuẩn (hay cịn gọi thuộc tính phân chia) độ đo để chọn lựa Có loại tiêu chuẩn hay số để xác định thuộc tính tốt phát triển mỡi node:  Gini-index [15]  Information–gain [15]  χ2 -bảng thống kê các sự kiện xảy ngẫu nhiên e Thuật toán C4.5 C4.5 kế thừa của thuật toán học máy bằng định dựa tảng kết nghiên cứu HUNT cộng ông nửa cuối thập kỷ 50 nửa đầu năm 60 (Hunt 1962) Phiên đời ID3 (Quinlan, 1979)- hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh Pascal, C4 (Quinlan 1987) Năm 1993, J Ross Quinlan đã kế thừa kết phát triển thành C4.5 với 9000 dòng lệnh C chứa đĩa mềm Mặc dù đã có phiên phát triển từ C4.5 C5.0 - hệ thống tạo lợi nhuận từ Rule Quest Research, nhiều tranh luận, nghiên cứu tập trung vào C4.5 mã nguồn sẵn dùng Tư tưởng phát triển định C4.5 phương pháp Chiến lược phát triển theo độ sâu (depth-first strategy) áp dụng cho C4.5 f Chọn thuộc tính tốt nhất Quinlan (1983) người đề xuất việc sử dụng lý thuyết thông tin để tạo định cơng trình ơng sở cho phần trình bày Lý thuyết thông tin Claude Shannon (1948) cung cấp khái niệm entropy để đo tính (hay ngược lại độ pha trộn) tập hợp [9] Một tập hợp tất phần tử tập hợp thuộc loại, ta nói tập hợp có độ pha trộn thấp Trong trường hợp tập ví dụ, tập ví dụ gọi tất ví dụ có giá trị phân loại  Entropy đo tính thuần nhất của tập ví dụ Khái niệm entropy tập S định nghĩa lý thuyết thông tin số lượng mong đợi bit cần thiết để mã hóa thơng tin lớp thành viên rút cách 11 ngẫu nhiên từ tập S Trong trường hợp tối ưu, mã có độ dài ngắn Theo lý thuyết thơng tin, mã có độ dài tối ưu mã gán –log2p bits cho thơng điệp có xác suất p [9] Trong trường hợp S tập ví dụ, thành viên S ví dụ, mỡi ví dụ thuộc lớp hay có giá trị phân loại  Entropy có giá trị nằm khoảng [0 1].  Entropy(S) = 0: tập ví dụ S tồn ví dụ thuộc loại, hay S nhất.  Entropy(S) = 1: tập ví dụ S có ví dụ thuộc loại khác với độ pha trộn cao nhất.  < Entropy(S) < 1: tập ví dụ S có số lượng ví dụ thuộc loại khác không bằng Để đơn giản ta xét trường hợp ví dụ S thuộc loại âm (-) dương (+) Hình sau minh họa phụ thuộc giá trị entropy vào xác suất xuất ví dụ dương: Hình 2.6: Sự phụ thuộc của Entropy Cho trước: Tập S tập liệu huấn luyện, đó thuộc tính phân loại có hai giá trị, giả sử âm (-) dương (+) Trong đó: p+ xác suất các ví dụ dương tập S p_ xác suất các ví dụ âm tập S Khi đó, entropy đo độ pha trộn của tập S theo công thức sau: Entropy(S) = -p+ log2 p+ - p- log2 pMột cách tổng quát hơn, các ví dụ của tập S thuộc nhiều hai loại, giả sử có c giá trị phân loại cơng thức entropy tổng quát là: c Entropy(S)   pi log pi i1  Information gain Entropy số đo đo độ pha trộn tập ví dụ, định nghĩa phép đo hiệu suất phân loại ví dụ thuộc tính Phép đo gọi lượng thông tin thu (hay độ lợi thơng tin), đơn giản lượng giảm entropy mong đợi gây việc phân chia ví dụ theo thuộc tính Một cách xác hơn, Gain (S, A) thuộc tính A, tập S, định nghĩa sau: Gain (S, A)  Entropy(S)   |Sv| Entropy(SV ) 12 |S| Giá trị Value (A) tập giá trị cho thuộc tính A, Sv tập S mà A nhận giá trị v  Tỷ suất lợi ích Gain Ratio Khái niệm độ lợi thông tin Gain có xu hướng ưu tiên thuộc tính có số lượng lớn giá trị Nếu thuộc tính D có giá trị riêng biệt cho mỡi ghi, Entropy (S, D) = 0, Gain (S, D) đạt giá trị cực đại Rõ ràng, phân vùng việc phân loại vơ ích Thuật toán C4.5, cải tiến ID3, mở rộng cách tính Information Gain thành Gain Ratio để cố gắng khắc phục thiên lệch Gain Ratio xác định công thức sau: Gain (S, A) GainRatio (S, A)  SplitInformation(S, A) Trong đó, SplitInformation (S, A) thông tin phân tách A sở giá trị thuộc tính phân loại S Cơng thức tính sau: S c S i i SplitInformation(S, A)  log |S| i1 | S | VValue(A) g Chuyển quyết định sang luật dễ hiểu Thông thường, định chuyển dạng luật để thuận tiện cho việc cài đặt sử dụng Tuy nhiên việc tạo tập luật từ tập liệu lớn nhiều giá trị sai vô lớn Vì trình chuyển đổi từ định sang luật cần phải cắt tỉa để thu tập luật tối ưu Việc chuyển đổi từ sang tập luật thực qua bước Cắt tỉa Lựa chọn Sắp xếp Ước lượng, đánh giá 2.3.3 Phân lớp sử dụng SVM – Máy véctơ hỗ trợ SVM –Support vector machine mơ hình học có giám sát lĩnh vực học máy, SVM thường dùng phân lớp liệu (classification) phân tích hồi quy (regression analysis) SVM tảng cho nhiều thuật toán khai phá liệu, SVM giới thiệu Vladimir Vapnik đồng vào năm 1995 [10] Ý tưởng SVM phân chia liệu bằng siêu phẳng (hyperlane) Từ ý tưởng nhiều phương pháp cải tiến tùy biên từ phương pháp nguyên thủy cho nhiều cách sử dụng khác Xét toán phân lớp đơn giản – phân lớp hai phân lớp với tập liệu mẫu: {𝑥𝑖, 𝑦𝑖|𝑖 = 1,2,3…𝑁|𝑥𝑖 ∈ 𝑅𝑚} Trong mẫu vector đối tượng phân lớp thành mẫu dương mẫu âm:  Các mẫu dương mẫu xi thuộc lĩnh vực quan tâm gán nhãn yi=1  Các mẫu âm mẫu xi không thuộc lĩnh vực quan tâm gán nhãn yi=-1 13 Hình 2.7: Siêu phẳng phân tách Hình 2.8: Khoảng cách từ siêu phẳng đến điểm gần siêu phẳng nhất Các mặt siêu phẳng không gian đối tượng có phương trình là: f(x) = wx +b = Trong w vector trọng số, b độ dịch Khi thay đổi w b hướng khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi Bộ phân lớp nhị phân xác định thông qua dấu f(x): −1, 𝑛ế𝑢 𝑓(𝑥𝑖) < 𝑦𝑖 = { 1, 𝑛ế𝑢 𝑓(𝑥𝑖) ≥ Nếu yi = xi thuộc vào lớp dương Nếu yi = -1 xi thuộc vào lớp âm Học máy SVM họ mặt siêu phẳng phụ thuộc vào tham số w, b Mục tiêu SVM ước lượng w, b để cực đại lề hóa lớp dương lớp âm Các giá trị lề cho mặt siêu phẳng khác a Phân lớp tuyến tính Hình 2.9: Tập dữ liệu có thể tách tún tính Bộ phân lớp tìm mặt siêu phẳng với lề cực đại xác định khoảng cách mẫu âm mẫu dương gần mặt siêu phẳng 14 Gọi d+ d- khoảng cách ngắn từ siêu phẳng đến điểm liệu dương âm gần Khi lề siêu phẳng margin = 𝑑+ + 𝑑− Giả sử điểm (𝑥 + , 1) (𝑥 − , -1) điểm gần siêu phẳng Khi xác định hai đường song song 𝐻− 𝐻+ Thay đổi tỷ lệ w, b ta được: 𝐻+ : 𝑤𝑥 + + 𝑏 = 𝐻− : 𝑤𝑥 − + 𝑏 = −1 Các ràng buộc: 𝑤𝑥𝑖 + 𝑏 ≥ 𝑣ớ 𝑖 𝑛ế𝑢 𝑦𝑖 = 𝑤𝑥𝑖 + 𝑏 ≤ −1 𝑣ớ 𝑖 𝑛ế𝑢 𝑦𝑖 = −1 Khơng có liệu huấn luyện nằm 𝐻+ H Gọi 𝑥𝑠 điểm thuộc mặt siêu phẳng 𝑑+ khoảng cách từ 𝐻+ tới mặt siêu phẳng Khi w𝑥𝑠 + b = Do vậy, ta có cơng thức sau: |𝑤𝑥𝑠 + 𝑏 − 1| 𝑑+ = = ||𝑤|| ||𝑤|| Trong ||w|| độ dài vector w: ||𝑤|| = √𝑤12 + 𝑤22 + ⋯ + 𝑤𝑛2 Do lề siêu phẳng tính sau: 𝑚𝑎𝑟𝑔𝑖𝑛 =𝑑+ + 𝑑− = ||𝑤|| Vấn đề cực đại lề (margin) chuyển thành toán cực tiểu ||𝑤||2 với điều kiện: C với i = 1, 2, 3, …n Vector w tính theo cơng thức: W= ∑𝑛𝑖=0 𝑥𝑖 𝑦𝑖 ∝𝑖 Để xác định độ dịch chuyển b ta chọn mẫu xi cho ∝𝑖 >0 sau sử dụng điều kiện Karush–Kuhn–Tucker (KKT) sau: ∝𝑖 [𝑦𝑖 (w𝑥𝑖 + b ) − 1] = Các mẫu 𝑥𝑖 tương ứng ∝𝑖 mẫu nằm gần siêu phẳng gọi vector hỡ trợ Support vector mà ta quan tâm trình huấn luyện SVM Việc phân lớp cho điểm liệu phụ thuộc vào support vector b Phân lớp phi tuyến tính Trường hợp không tách tuyến tính giải theo phương pháp  Phương pháp cực đại hóa biên mềm: Năm 1995, Corinna Cortes Vladimir N Vapnik đề xuất ý tưởng cho phép thuật toán gán nhãn sai cho số ví dụ luyện tập Nếu khơng tồn siêu phẳng phân tách hai lớp liệu, thuật tốn biên mềm chọn siêu phẳng phân tách ví dụ luyện tập tốt có thể, đồng thời cực đại hóa khoảng cách siêu phẳng với ví dụ gán nhãn Phương pháp sử dụng biến bù ξ𝑖 dùng để đo độ sai lệch ví dụ 𝑥𝑖 : 𝑦𝑖 (w𝑥𝑖 + b ) ≥ − ξ𝑖 ≥ Hàm mục tiêu có thêm số hạng để phạt thuật tốn 𝜉𝑖 khác khơng, tốn tối ưu hóa trở thành việc trao đổi lề lớn mức phạt nhỏ Nếu hàm phạt tuyến tính tốn trở thành: min{ ||𝑤|| + 𝐶 ∑𝑛𝑖=1 ξ𝑖 } 𝑤,𝜉,𝑏 Với điều kiện: 𝑦𝑖 (w𝑥𝑖 + b ) ≥ − ξ𝑖 , ξ𝑖 ≥ Phương pháp sử dụng thủ thuật hàm hạt nhân: Phương pháp sử dụng ánh xạ phi tuyến Φ để ánh xạ điểm liệu đầu vào từ không gian ban đầu sang khơng gian 15 F có số chiều cao Trong không gian điểm liệu phân tách tuyến tính, phân tách lỡi so với khơng gian ban đầu Siêu phẳng phân tách tuyến tính khơng gian tương ứng với mặt phân tách phi tuyến khơng gian ban đầu Φ:X → F X →Φ(x) Hình 2.10: Chuyển đổi không gian hàm nhân Việc chuyển đổi sang không gian bằng cách sử dụng hàm nhân Sau giải tốn tuyến tính khơng gian đặc trưng ta có siêu phẳng phân lớp khơng gian đặc trưng Dựa vào phương trình siêu phẳng ta xác định điểm support vector không gian đặc trưng Sau ánh xạ vector không gian ban đầu Cuối từ support vector ta xác định đường phân lớp không gian ban đầu Các hàm nhân thường sử dụng: Đa thức: K(x, z) = (𝑥 𝑧 + 𝜃)𝑑 Trong 𝜃 ∈ 𝑁, 𝑑 ∈ 𝑁 Gaussian RBF: K(x, z) = exp(−𝛾|x − z|2 ), với 𝛾 người dùng định nghĩa Xích ma: K(x, z)= tan(x.z+ θ) c Phân đa lớp Hình 2.11: Phân đa lớp Bây xét đến trường hợp phân nhiều lớp K > Chúng ta xây dựng việc phân Kclass dựa việc kết hợp số đường phân lớp Tuy nhiên, điều dẫn đến vài khó khăn (theo Duda and Hart, 1973) Hướng one-versus-the-rest, ta dùng K-1 phân lớp nhị phân để xây dựng Kclass Hướng one-versus-one, dùng K(K-1)/2 phân lớp nhị phân để xây dựng Kclass Cả hướng dẫn đến vùng mập mờ phân lớp (như hình vẽ) Ta tránh vấn đề bằng cách xây dựng K-Class dựa K hàm tuyến tình có dạng: 𝑦𝑘 (𝑥) = 𝑤𝑘𝑡 𝑥 + 𝑤𝑘0 16 Và điểm x gán vào lớp 𝐶𝑘 𝑦𝑘 (𝑥)> 𝑦𝑗 (𝑥) với j ≠k 2.4 Mô hình phân lớp dự báo rủi ro Hình 2.12: Mơ hình phân lớp dự báo rủi ro Hình 2.13: Quy trình phân lớp 2.5 Kết luận chương Qua tìm hiểu sở lý thuyết khai phá liệu ứng dung thực tiễn khai phá liệu hệ thống cơng ty tài ngân hàng cụ thể áp dụng toán phân lớp dự báo rủi ro tín dụng, đã hiểu tầm quan trọng việc ứng dụng khai phá liệu vào công tác quản lý rủi ngân hàng.Trong chương luận văn thử nghiệm Phân lớp sử dụng định áp dụng thuật toán C4.5 và phân lớp sử dụng SVM vào giải tốn phân lớp dự báo rủi ro tín dụng với tập liệu mẫu tập liệu khách hàng SHB 17 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ RỦI RO TÍN DỤNG TẠI NGÂN HÀNG SHB 3.1 Kho dữ liệu của SHB Kho liệu SHB giải pháp kho liệu lưu trữ thông tin từ hệ thống khác ngân hàng Core Banking(Intellect Polaris), Thẻ(Smart Vista), Kế toán nội bộ(IAS), CRM (Quản lý quan hệ khách hàng),Internet Banking, Mobile Banking,… cung cấp liệu tập trung từ nhiều nguồn liệu SHB phục vụ cho công tác khai thác phân tích dựa các chủ đề(Subject Areas) phần tích theo nghiệp vụ ngân hàng Hình 3.1: Mơ hình và kiến trúc kho dữ liệu của SHB Dựa vào kiến trúc ta thấy dữ liệu được chia thành lớp rõ ràng: Vùng làm tích hợp dữ liệu (Data Intergration Vùng lư trữ dữ liệu (Data Repository) Vùng dữ liệu theo chủ đề (Semantic Layer) 3.2 Thử nghiệm các thuật toán phân lớp cho dự báo rủi ro tín dụng của SHB Trước vào thử nghiệm toán phân lớp dự báo rủi ro tín dụng SHB Chúng ta định nghĩa liệu thông tin khách hàng cá nhân bao gồm thông tin sau: Thông tin cá nhân khách hàng Thông tin khả trả nợ khách hàng Thông tin quan hệ khách hàng với SHB tổ chức tín dụng khác Thơng tin phương án đầu tư khách hàng Bảng 3.1: Các trường thông tin chi tiết về khách hàng các nhân Số thứ tự I 10 Chỉ Tiêu Thông tin cá nhân khách hàng Tuổi Trình độ học vấn Lý lịch tư pháp Tình trạng sở hữu nhà ở/BĐS Thời gian lưu trú địa Tình trạng nhân Số người trực tiếp phụ thuộc kinh tế vào khách hàng Giá trị hợp đồng bảo hiểm nhân thọ mà SHB người thụ hưởng so với dư nợ khách hàng Cơ cấu gia đình dựa tình trạng thực tế Đánh giá mối quan hệ KH vay với cộng đồng (uy tín công tác, kinh doanh, khu phố địa phương…) 18 11 12 13 14 II 15 16 17 18 19 20 21 22 23 24 25 26 III 27 28 29 30 31 32 33 34 IV 35 36 37 38 39 40 Đánh giá mối quan hệ khách hàng với thành viên gia đình khách hàng Năng lực hành vi dân người thân gia đình Đánh giá gia cảnh khách hàng so với mặt bằng chung vùng Tình trạng sức khỏe khách hàng Thông tin khả trả nợ của khách hàng Loại hình quan cơng tác Triển vọng phát triển quan người tham gia trả nợ công tác Thời gian làm lĩnh vực chuyên môn Thời giancông tác quan Rủi ro nghề nghiệp (thất nghiệp, tai nạn nghề nghiệp, nhân mạng, …) Vị trí cơng tác Trả lương chuyển thu nhập qua SHB Hình thức hợp đồng lao động Tổng thu nhập hàng tháng người tham gia trả nợ Mức thu nhập ròng ổn định hàng tháng người tham gia trả nợ Tỷ lệ tổng số tiền phải trả lại (gốc+lãi) nguồn thu nhập trả nợ cho SHB Đánh giá cán tín dụng khả trả nợ khách hàng Thông tin quan hệ của khách hàng với SHB cũng các tổ chức tín dụng khác Số lần cấu lại nợ nợ hạn 10 ngày 12 tháng gần Tỷ trọng nợ (nợ gốc, lãi) cấu lại hạn từ 10 ngày trở lên tổng dư nợ khách hàng vay SHB thời điểm đánh giá cấp tín dụng Tình trạng dư nợ Tỷ trọng tiền gửi tiết kiệm SHB so với dư nợ khách hàng Tình hình cung cấp thông tin khách hàng theo yêu cầu SHB 12 tháng gần Tình hình trả nợ gốc lãi với tổ chức tín dụng 12 tháng gần (tính đến thời điểm đánh giá) Thời gian khách hàng quan hệ với SHB Số Tổ chức tín dụng mà khách hàng có quan hệ tín dụng Thơng tin phương án đầu tư của khách hàng Tỷ lệ vốn tự có KH vay tham gia vào phương án đầu tư Chiều hướng biến động giá sản phẩm khách hàng tham gia đầu tư tháng vừa gần Đánh giá phương án đầu tư khách hàng Đánh giá rủi ro gián đoạn hoạt động kinh doanh khách hàng tác động môi trường kinh doanh Tính ổn định thị trường đầu Quan hệ khách hàng cá nhân tổ chức khác a Dữ liệu mẫu và xử lý dữ liệu nguồn Phạm vi luận văn toán đã nêu chương số thực tập liệu khách hàng cá nhân khách hàng cá nhân kinh doanh nên tiêu phương án đầu tư giá trị Vì trước thực thực nghiệm phải loại bỏ trường không cần thiết Ngồi tập liệu thực tế có số trường có tỷ lệ mẫu khơng có giá trị cao nên loại bỏ không tham gia vào q trình xây dựng mơ hình phân lớp Sau loại bỏ trường khơng cần thiết, trường có tỷ lệ rỡng cao cịn 24 thuộc tính có tổng cộng 10000 mẫu hình đây: 19 Hình sớ 3.2: Tập dữ liệu sử dụng làm mẫu Để trực quan thông tin số thuộc tính tập liệu mẫu, công cụ Weka Explore cho phép xem thông tin mô tả liệu tỷ lệ phân bổ chi tiết của liệu thuộc tính, thể bằng đồ thị dễ quan sát đánh giá: Hình 3.3: Quan sát và đánh giá chi tiết tḥc tính tình trạng nhóm nợ Hình sớ 3.4: Quan sát và đánh giá chi tiết thuộc tính tên mục đích vay b Phân lớp sử dụng quyết định áp dụng thuật toán C4.5 Để kiểm nghiệm thuật toán phân lớp sử dụng định C4.5 liệu mẫu đã nêu ta thực công cụ Weka Explore phiên 3.8.2 bằng cách chọn thuật tốn J48 sau: 20 Hình sớ 3.5: Cách cài đặt thuật toán C4.5 Weka Explore Cài đặt thông số thuật toán: Trong giải thuật định C4.5 hay J48 cung cấp Weka có tham số quan trọng:  confidenceFactor: Nhân tớ sử dụng cho việc cắt tỉa (Nếu giá trị nhỏ sinh cắt nhiều)  minNumObj: Số thể hiện tối thiểu nút  unPruned: True sinh cắt tỉa ngược lại Sau điều chỉnh thông số nghiên cứu ta chọn giá trị tham số cho kết tốt sau:  Chọn phương pháp test: Cross Validation  Tham số thuật toán: minNumObj=10  confidenceFactor=0.2  unpruned=False Kết xây dựng mơ hình phân lớp bằng định áp dụng thuật toán C4.5 tập liệu 10000 mẫu sau: Bảng 3.2: Bảng kết quả xây dựng quyết định áp dụng thuật toán C4.5 Thời gian xây dựng mơ hình (Time taken to build model) 0.28 seconds Số (Number of Leaves) 81 Số nút (Size of the tree) 104 Số mẫu phân lớp (Correctly Classified Instances) 9667(Tỷ lệ: 96.67%) Số mẫu phân lớp sai (Incorrectly Classified Instances) 333(Tỷ lệ: 3.33 %) 21 Hình sớ 3.5: Mơ hình C4.5 thể hiện màn hình Weka Explore Ma trận thể kết xây dựng tập 10000 mẫu là: Bảng 3.3: Kết quả phân lớp C4.5 tập mẫu classified as a b c d a = Nhom 0 205 62 b = Nhom 9036 c = Nhom 1919 55 d = Nhom 13 17 16 e = Nhom 496 72 Hình 3.6: Bợ chủn đổi từ Nominal sang kiểu Binary Bảng 3.4: Bảng kết quả xây dựng với mơ hình phân lớp SVM Thời gian xây dựng mơ hình (Time taken to 5.67 seconds build model) Số mẫu phân lớp (Correctly Classified 9519 (Tỷ lệ: 95.19 %) Instances) Số mẫu phân lớp sai (Incorrectly Classified 481 (Tỷ lệ: 4.81%) Instances) e 22 Hình 3.7: Kết quả mô hình SVM Weka Explore Ma trận thể kết xây dựng tập 10000 mẫu là: Bảng 3.5: Kết quả phân lớp SVM tập mẫu classified as a b c d a = Nhom 266 b = Nhom 9038 0 c = Nhom 20 266 d = Nhom 27 e = Nhom 481 88 3.3 e 0 0 So sánh kết quả đánh giá và đề xuất ứng dụng Để đánh giá hiệu phương pháp phân lớp dự báo mơ hình đã thử nghiệm đánh giá phải dựa nhiều tiêu chí để đánh độ xác (precision), độ hồi tưởng (recall), … tiêu chí đánh đây: Bảng 3.6: Bảng tiêu chí đánh giá mô hình phân lớp Dữ liệu thực Lớp 𝐶𝑖 Thuộc lớp 𝐶𝑖 Không thuộc lớp 𝐶𝑖 Dự đốn Thuộc lớp 𝐶𝑖 𝑇𝑃𝑖 𝑇𝑁𝑖 Khơng thuộc lớp 𝐶𝑖 𝐹𝑃𝑖 𝐹𝑁𝑖 Trong đó: 𝑻𝑷𝒊 (true positives): sớ lượng ví dụ dương thuật toán phân vào lớp 𝐶𝑖 𝑻𝑵𝒊 (true negatives): sớ lượng ví dụ âm thuật toán phân vào lớp 𝐶𝑖 𝑭𝑷𝒊 (false positives): sớ lượng ví dụ dương tḥt toán phân sai vào lớp 𝐶𝑖 𝑭𝑵𝒊 (false negatives): sớ lượng ví dụ âm tḥt tốn phân sai vào lớp 𝐶𝑖 Độ xác Precision lớp Ci tỷ lệ số ví dụ dương thuật toán phân lớp cho giá trị tổng số ví dụ thuật tốn phân lớp vào lớp Ci : 𝑻𝑷𝒊 𝑷𝒓 = 𝑻𝑷𝒊 + 𝑻𝑵𝒊 Độ xác Recall lớp Ci tỷ lệ số ví dụ dương thuật toán phân lớp cho giá trị tổng số ví dụ thuật tốn phân lớp vào lớp Ci : 𝑻𝑷𝒊 𝑷𝒓 = 𝑻𝑷𝒊 + 𝑭𝑵𝒊 Kết mơ hình đánh giá qua công thức thể qua bảng kết sau: 23  Với mơ hình xây dựng bằng định C4.5: Bảng 3.7: Bảng các số đánh giá phương pháp phân lớp C4.5 Class TP Rate FP Rate Precision Recall 0.872 0.003 0.943 0.872 Nhom 0.486 0.000 1.000 0.486 Nhom 0.999 0.312 0.968 0.999 Nhom 0.233 0.000 0.984 0.233 Nhom 0.688 0.000 0.932 0.688 Nhom Weighted Avg 0.967 0.283 0.967 0.967 Kết đánh giá tập liệu mẫu bảo gồm 10000  Với mơ hình dựa thuật tốn SVM Bảng 3.8: Bảng các sớ đánh giá phương pháp phân lớp SVM Class Recall Precision FP Rate TP Rate 0.845 0.891 0.006 0.845 Nhom 0.000 0.000 0.000 0.000 Nhom 0.999 0.955 0.442 0.999 Nhom 0.000 0.000 0.000 0.000 Nhom 0.000 0.000 0.000 0.000 Nhom Weighted Avg 0.952 0.977 0.401 0.952 3.4 Kết luận chương Đây chương cuối chương quan trọng luận văn đã thể ứng dụng khai phá liệu ứng vào toán phân dự báo rủi ro tín dụng ngân hàng SHB dựa vào kiến trúc kho liệu liệu SHB Thử nghiệm toán với thuật toán phân lớp là: Phân lớp sử dụng định áp dụng thuật toán C4.5 Phân lớp sử dụng thuật toán SVM Đánh giá so sánh ưu nhược điểm chi tiết thông số kỹ thuật thuật toán sử dụng liệu mẫu mô dựa 10000 thông tin khách hàng 24 KẾT LUẬN Kết quả của luận văn Luận văn đã giới thiệu khái niệm lý thuyết hoạt động tín dụng ngân hàng, tầm quan trọng tín dụng ngân hàng rủi ro hoạt động tín dụng Cũng ảnh hưởng rủi ro tín dụng đến ngân hàng thương mại hệ thống ngân hàng Việt Nam Đồng thời nêu trạng ngân hàng SHB nhu cầu cần thiết phải áp dụng công nghệ vào quản lý rủi ro tín dụng Trình bày bước trình khai phá liệu phương pháp khai phá liệu Chính từ ý nghĩa thực tế khai phá liệu nên luận văn đã đưa toán, lĩnh vực mà ngành ngân hàng áp dụng áp dụng khai phá liệu quản trị rủi ro ngân hàng, áp dụng phát gian lận, kinh doanh, … Với ứng dụng rộng rãi khai phá liệu ngành tài ngân hàng Để chứng minh tính thực tế, luận văn đã đề xuất toán phân lớp dự báo để dự báo rủi ro tín dụng Việc áp dụng thuật tốn phân lớp vào tốn thực tế có nhiều thuật tốn song thời lượng luận văn có hạn luận văn đề cập phương pháp phân lớp thường sử dụng sử dụng định áp dụng thuật toán C4.5 phân lớp dựa thuật tốn SVM Từ sâu tìm hiểu thuật tốn Song song với nghiên cứu tìm hiểu lý thuyết luận văn đã tìm hiểu quy định quy trình tín dụng hệ thống có ngân hàng SHB để áp dụng lý thuyết đã tìm hiểu việc khai phá liệu áp dụng vào toán phân lớp dự báo rủi ro tín dụng ngân hàng SHB Kết thực nghiệm rằng thuật toán SVM cho kết phân lớp tốt lớp so với thuật toán định Định hướng phát triển Với nhiều ứng dụng thực tiễn khai phá liệu ngành tài ngân hàng, đặc biệt việc phân tích dự báo rủi ro tín dụng Với thời gian có hạn luận văn nghiên cứu thực nghiệm phân lớp dựa thuật tốn, u cầu với toán tương lai áp dụng thuật toán khác hồi quy dự báo, áp dụng mạng noron xây dựng mơ hình dự báo…Với ứng dụng rộng rãi khai phá liệu ngành tài ngân hàng đã trình bày cịn nhiều tốn tìm hiểu nghiên cứu thêm tương lai ... hiệu hơn .Trong chương luận văn trình bày phương pháp khai phá liệu nhằm quản lý rủi ro tín dụng ngân hàng 5 CHƯƠNG 2: KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 2.1... quan khai phá dữ liệu 2.1.1 Khai phá dữ liệu là gì và tại phải khai phá dữ liệu a Khai phá dữ liệu là gì Định nghĩa: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai. .. hạn Luận văn chắn hạn chết khiếm khuyết Kính mong thầy đồng nghiệp thơng cảm góp ý 3 CHƯƠNG 1: RỦI RO TÍN DỤNG VÀ QUẢN LÝ RỦI RO TÍN DỤNG TẠI NGÂN HÀNG Để ứng dụng cơng nghệ khai phá liệu

Ngày đăng: 18/06/2021, 11:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan