Bảng 2 - Quyết định cấp tín dụng c a ngân hàng dựa trên thứ hạng khách hàng ứ ạn Cấp t n ụn AAA Đáp ứng tối đa nhu cầu tín dụng AA Đáp ứng tối đa nhu cầu tín dụng A Đáp ứng tối đa nh
Trang 1Mục lục
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
DANH MỤC CÁ C HÌNH VẼ: 3
DANH MỤC CÁ C BẢNG: 4
LỜI MỞ ĐẦU 5
CHƯƠNG I CÁC KHÁI NIỆM CƠ BẢN .7
1 Khái quát về thị trường tài chính và hoạt động tín dụng tại Việt Nam 7
1.1 Thị trường tài chính 7
1.2 Hoạt động tín dụng 9
1.3 Kinh doanh ngân hàng 10
1.4 Tín dụng ngân hàng 11
2 Nghiệp vụ xếp hạng tín dụng trong Ngân hàng 13
2.1 n qu n về ếp ạn t n ụn 13
2.2 ầm qu n tr n ếp ạn t n ụn 16
2.3 N u n t v qu tr n ếp ạn t n ụn 18
2.4 Một số m n ếp ạn t n ụn t n ụng 19
CHƯƠNG II KHAI PHÁ DỮ LIỆU VÀ CÂ Y QUYẾ ĐỊNH 28
1 Khai phá dữ liệu: 28
1.1 Khái niệm 28
1.2 Quá trình phát hiện tri thức 29
1.3 Các dạng dữ liệu có thể khai phá 29
1.4 Các kỹ thuật khai phá dữ liệu 31
1.5 Đán iá iệu suất bộ phân lớp 38
1.6 Cá p ươn p áp v kỹ thuật cải thiện độ chính xác phân lớp 47
1.7 Ứng dụng 50
2 Cây quyết định: 51
2.1 Khái niệm: 51
2.2 Vai trò c a cây quyết định 54
Trang 22.3 Thuật toán xây dựng 54
2.4 C t tỉa cây 60
2.5 Đán iá v kết luận về các thuật toán xây dựng cây quyết định 62
2.6 Ưu, n ượ điểm c a cây quyết định 63
CHƯƠNG III XẾP HẠNG TÍN DỤNG TRONG NGÂ N HÀ NG SỬ DỤNG CÂ Y QUYẾ ĐỊNH .65
1 Nạp dữ liệu xếp hạn đã ó 66
2 Xây dựng bộ phân lớp bằng công cụ Tree Bagger 68
3 Phân lớp dữ liệu mới 75
4 Kiểm tra lại: đán iá kết quả phân lớp 78
4.1 So sánh xếp hạng dự đoán v ếp hạng thực tế 79
4.2 So sánh xếp hạng thực tế và số vụ vỡ nợ tron năm tiếp theo 83
CHƯƠNG IV KẾT LUẬN 89
1 Thực tế xếp hạng tín dụng tại Việt Nam 89
2 Vấn đề áp dụng các mô hình và công cụ xếp hạng tín dụng ở Việt Nam 89
TÀ I LIỆU THAM KHẢO 92
Trang 3Tôi xin chân thành cảm ơn!
Hà Nội, ngày 24 tháng 10 năm 2016
Học viên
Nguyễn Thị Lan
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là trung thực
và chưa hề được sử dụng để bảo vệ một học vị nào Mọi sự giúp đỡ cho việc thực hiện
luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ
nguồn gốc rõ ràng và được phép công bố
Hà Nội, ngày 24 tháng 10 năm 2016
Học viên
Nguyễn Thị Lan
Trang 5DANH MỤC CÁ C HÌNH VẼ:
Hình 1 Mô hình thị trường tài chính
Hình 2 Mô hình hoạt động ngân hàng
Hình 3 Các chức năng của ngân hàng hiện đại
Hình 4 Quá trình Khai phá dữ liệu
Hình 5 Các lĩnh vực liên quan đến Khai phá dữ liệu
Hình 6 Bước học của quá trình phân lớp dữ liệu
Hình 7 Bước phân lớp của quá trình phân lớp dữ liệu
Hình 8 Quá trình đánh giá bộ phân lớp
Hình 9 Biểu đồ đường cong ROC
Hình 10 Biểu đồ đường cong ROC gồm 2 mô hình
Hình 11 Mô hình cây quyết định
Hình 12 Mô hình phương pháp quần thể
Hình 13 Sai số phân lớp với mỗi kích thước lá khác nhau
Hình 14 Mức độ quan trọng của thuộc tính
Hình 15 Sai số phân lớp với các tập biến độc lập khác nhau
Hình 16 So sánh xếp hạng dự đoán và thực tế
Hình 17 Biểu đồ chính xác tích lũy
Hình 18 Biểu đồ độ chính xác tích lũy của xếp hạng thực tế và dự đoán
Trang 6Bảng 5 Bảng giá trị các tỉ lệ vẽ đường cong ROC
Bảng 6 Dữ liệu đầu vào của khách hàng
Trang 7LỜI MỞ ĐẦU
Nền kinh tế thị trường (định hướng xã hội chủ nghĩa) ở nước ta hiện nay tuy chưa phải là một nền kinh tế thị trường hoàn chỉnh nhưng cũng đã chứa đựng nhiều yếu tố đặc thù của kinh tế thị trường Khi kinh tế thị trường phát triển đến một trình độ nhất định sẽ dẫn đến hình thành các loại thị trường để phục vụ cho nhu cầu của nền kinh tế Trong các loại thị trường đó, thị trường tài chính vừa là thị trường cung ứng cho sự phát triển của nền kinh tế - xã hội, vừa thúc đẩy sự lưu chuyển vốn trong xã hội
Thực tế hoạt động của thị trường tài chính trong nhiều năm qua tại Việt Nam, do tăng trưởng tín dụng thường xuyên ở mức cao, nhiều ngân hàng thương mại chạy theo mức tăng trưởng và lơ là kiểm soát chất lượng tín dụng dẫn đến tỷ lệ nợ xấu của các ngân hàng tăng cao Hoạt động cho vay của các ngân hàng trở nên kém hiệu quả và tiềm ẩn nhiều rủi ro Từ đó nảy sinh nhu cầu đảm bảo chất lượng tín dụng, chất lượng khách hàng và đặc biệt là thẩm định khả năng trả nợ của khách hàng để hỗ trợ trong việc ra quyết định tín dụng phù hợp
Xuất phát từ việc muốn tìm hiểu thị trường tài chính, hoạt động tín dụng, ứng dụng của cây quyết định, cùng với sự chỉ dẫn và giúp đỡ tận tình của TS Vũ Văn Thiệu, em đã chọn đề tài “Xây dựng phần mềm xếp hạng tín dụng trong ngân hàng sử dụng cây quyết định” Luận văn nghiên cứu về mô hình cây quyết định, một thành phần quan trọng trong lý thuyết khai phá dữ liệu
Nội dung luận văn gồm:
Chương 1 Các khái niệm cơ bản: trình bày khái quát về thị trường tài chính, nghiệp vụ xếp hạng tín dụng trong ngân hàng
Chương 2 Khai phá dữ liệu và Cây quyết định: khái quát về khai phá dữ liệu và các kỹ thuật khai phá dữ liệu, trình bày khái quát về cây quyết định, các thuật toán xây dựng cây quyết định
Trang 8Chương 3 Trình bày về việc xây dựng công cụ xếp hạng tín dụng trong ngân hàng sử dụng cây quyết định
Trang 9CHƯƠNG I CÁC KHÁI NIỆM CƠ BẢN
1 Khái quát về thị trường tài chính và hoạt động tín dụng tại Việt Nam
1.1 Thị trường tài chính
1.1.1 Khái niệm
Thị trường tài chính là nơi diễn ra các hoạt động mua bán, chuyển nhượng các khoản vốn ngắn hạn, trung hạn, dài hạn để đáp ứng nhu cầu khác nhau của các chủ thể khác nhau trong nền kinh tế thông qua các công cụ tài chính nhất định Các chủ thể này gồm hai loại là chủ thể thừa vốn và chủ thể thiếu vốn Các chủ thể thừa vốn thì tìm kiếm lợi nhuận thông qua hoạt động đầu tư, cho vay; các chủ thể thiếu vốn thì tìm kiếm nguồn vốn bổ sung cho hoạt động sản xuất kinh doanh và các nhu cầu đầu tư khác
1.1.2 Vai trò c a thị trường tài chính trong nền kinh tế
Thông qua hoạt động mua bán, chuyển nhượng các quyền sử dụng vốn, thị trường tài chính đã trở thành nơi tập trung cung cầu về vốn trong nền kinh tế, qua đó đã phát huy những vai trò chủ yếu sau:
- Thứ nhất, thị trường tài chính thúc đẩy việc tích lũy và tập trung tiền vốn
để phục vụ cho các nhu cầu đầu tư phát triển kinh tế của doanh nghiệp và nhà nước
- Thứ hai, thị trường tài chính giúp nâng cao hiệu quả của việc sử dụng vốn trong nền kinh tế
- Thứ ba, thị trường tài chính tạo ra kênh thông tin quan trọng, hỗ trợ cho công tác giám sát các hoạt động tài chính
- Thứ tư, thị trường tài chính tạo điều kiện thuận lợi cho những hoạt động điều tiết vĩ mô của nhà nước vào nền kinh tế
Trang 10Hình 1-Mô hình thị trường tài chính 1.1.3 Chứ năn a thị trường tài chính
Thứ nhất, chức năng dẫn nguồn tài chính từ những chủ thể có khả năng cung ứng nguồn tài chính đến những chủ thể cần nguồn tài chính:
- Thị trường tài chính đóng vai trò là kênh dẫn vốn từ người tiết kiệm đến người kinh doanh Giúp cho việc chuyển vốn từ người không có cơ hội đầu tư sinh lợi đến những người có cơ hội đầu tư sinh lợi
- Thị trường tài chính thúc đẩy việc tích lũy và tập trung tiền vốn để đáp ứng nhu cầu xây dựng cơ sở vật chất kỹ thuật, sản xuất kinh doanh
- Thị trường tài chính giúp cho việc sử dụng vốn có hiệu quả hơn, không chỉ đối với người có tiền đầu tư mà còn cả với người vay tiền để đầu tư
- Thị trường tài chính tạo điều kiện thuận lợi cho việc thực hiện các chính sách mở cửa, cải cách kinh tế của Chính phủ thông qua các hình thức như phát hành trái phiếu ra nước ngoài, bán cổ phần, thu hút vốn đầu tư nước ngoài vào các ngành sản xuất kinh doanh trong nước
- Thị trường tài chính cho phép sử dụng các chứng từ có giá, bán cổ phiếu, trái phiếu, đổi tiền
Trang 11Thứ hai, chức năng cung cấp khả năng thanh khoản cho các chứng khoán;
Thứ ba, chức năng cung cấp thông tin kinh tế và đánh giá giá trị của doanh nghiệp
1.2 Hoạt động tín dụng
Trên thị trường tài chính, tiền là phương tiện thanh toán chủ yếu trong tất cả các mối quan hệ kinh tế, thị trường tài chính càng phát triển bao nhiêu thì tốc độ quay vòng của đồng tiền càng nhanh bấy nhiêu Lúc này bản thân mỗi chủ thể kinh tế không thể tự đáp ứng được nhu cầu về vốn của mình mà họ phải dựa vào các chủ thể kinh tế khác, đặc biệt là các tổ chức tín dụng thông qua quan hệ tín dụng mới có thể đáp ứng được nhu cầu vốn của mình Do đó cơ sở hình thành và phát triển của quan hệ tín dụng là sự tin tưởng và nhu cầu về vốn trong nền kinh tế hàng hoá
1.2.1 Khái niệm tín dụng
Theo nghĩa hẹp, tín dụng là sự chuyển nhượng quyền sử dụng một lượng giá trị nhất định dưới hình thức hiện vật hay tiền tệ trong một thời hạn nhất định từ người sở hữu sang người sử dụng và khi đến hạn, người sử dụng phải hoàn trả lại cho người sở hữu một lượng giá trị lớn hơn Khoản giá trị dôi ra này gọi là lợi tức tín dụng
Theo nghĩa rộng, tín dụng bao gồm hai hoạt động là huy động vốn và tiến hành cho vay Trong thực tế, quan hệ tín dụng rất đa dạng, nhưng dù là dạng nào nó cũng là một hoạt động quan trọng của thị trường tài chính hay nói rộng hơn là nền kinh tế hàng hóa Mục đích và tính chất của tín dụng là do mục đích và tính chất của nền kinh tế hàng hóa quyết định Sự vận động của tín dụng luôn chịu sự chi phối của các quy luật kinh tế của phương thức sản xuất trong xã hội
1.2.2 Đặ điểm c a hoạt động tín dụng
Tín dụng là quan hệ chuyển nhượng giá trị mang tính chất tạm thời: đó là sự chuyển quyền sử dụng vốn cho người sử dụng trong một thời gian nhất định, còn quyền sở hữu vốn vẫn thuộc về người sở hữu vốn Trong thời hạn cho vay, người sở
Trang 12hữu vốn không có quyền đòi lại vốn đã cho vay và khi hết thời hạn, người đi vay phải trả lại số vốn đã vay cho người sở hữu vốn
Đảm bảo tính hoàn trả về thời gian và giá trị: đây là đặc trưng cơ bản của quan
hệ tín dụng, vì khi hết thời hạn cho vay thì người đi vay phải hoàn trả cả gốc và lãi của khoản vay Do đó, tín dụng mang tính chất có hoàn trả nhưng không có ngang giá (vì khoản tiền thu về lớn hơn khoản tiền cho vay lúc đầu)
Quan hệ tín dụng được xây dựng trên cơ sở sự tin tưởng giữa người đi vay và người cho vay: Đây là điều kiện tiên quyết để thiết lập quan hệ tín dụng, vì chỉ khi có
sự tin tưởng thì mới diễn ra hoạt động cho vay Có thể nói sự tin tưởng ở đây nghĩa là người cho vay tin rằng người đi vay sẽ hoàn trả đầy đủ cả gốc và lãi cho mình
1.2.3 Chứ năn a hoạt động tín dụng
Trong nền kinh tế hàng hóa tiền tệ, tín dụng thực hiện ba chức năng cơ bản sau:
1, Chức năng tập trung và phân phối lại vốn tiền tệ theo nguyên tắc có hoàn trả
2, Chức năng tiết kiệm tiền mặt
3, Chức năng giám sát các hoạt động của nền kinh tế
1.2.4 Vai trò c a hoạt động tín dụng
Thứ nhất, tín dụng là điều kiện đảm bảo quá trình sản xuất kinh doanh diễn ra thường xuyên liên tục
Thứ hai, tín dụng huy động, tập trung vốn thúc đẩy sự phát triển kinh tế
Thứ ba, tín dụng góp phần nâng cao mức sống của dân cư
Thứ tư, là công cụ điều tiết vĩ mô của Nhà nước
Thứ năm, tạo điều kiện để phát triển các quan hệ kinh tế với nước ngoài
1.3 Kinh doanh ngân hàng
Ngân hàng là một loại hình tổ chức tài chính cung cấp một danh mục các dịch
vụ tài chính đa dạng nhất Các dịch vụ đặc thù của ngân hàng là tín dụng, tiết kiệm và
Trang 13dịch vụ thanh toán, do vậy ngân hàng thực hiện nhiều chức năng nhất so với bất kỳ tổ chức kinh doanh nào trong nền kinh tế
Hình 2 - Mô hình hoạt động ngân hàng
Các chức năng cơ bản của ngân hàng hiện đại:
Hình 3 - Các chứ năn a ngân hàng hiện đại 1.4 Tín dụng ngân hàng
1.4.1 Tín dụng ngân hàng là gì?
Tín dụng ngân hàng là hình thức tín dụng giữa một bên là các ngân hàng, các tổ chức tín dụng và một bên là các chủ thể kinh tế - tài chính của toàn xã hội Trong đó, ngân hàng là một trung gian tài chính luân chuyển vốn từ nơi tạm thừa vốn sang nơi thiếu vốn (vừa cho vay, vừa đi vay) Giá (lãi suất) của khoản vay do ngân hàng ấn định
Trang 14cho khách hàng vay là mức lợi tức mà khách hàng phải trả trong suốt khoảng thời gian tồn tại của khoản vay
Chủ thể tham gia trong quan hệ tín dụng ngân hàng là ngân hàng, Nhà nước, doanh nghiệp và hộ dân cư Đối tượng được sử dụng trong quan hệ tín dụng là tiền, do
đó, nó không chịu sự giới hạn theo hàng hoá, vận động đa phương đa chiều Đây chính
là ưu điểm nổi bật và là đặc điểm khác biệt giữa tín dụng ngân hàng với các loại hình tín dụng khác
1.4.2 Quy trình tín dụng ngân hàng
Việc xây dựng một quy trình có nhiều cách Nếu xét theo các giai đoạn thì sơ đồ tổng quát của quy trình này như sau:
Giai đoạn 1 (Từ đề nghị vay đến quyết định cho vay) gồm các bước:
- Giới thiệu và lập hồ sơ yêu cầu cấp tín dụng
- Phân tích tín dụng
- Quyết định cho vay
Giai đoạn 2 (Từ quyết định cho vay đến rút vốn) gồm các bước:
- Thiết lập các hồ sơ tín dụng
- Giải ngân khoản vay
Giai đoạn 3 (Từ rút vốn đến trả tiền vay) gồm các bước:
- Giám sát khoản vay
- Thu nợ và xử lý nợ
- Thanh lý tín dụng
1.4.3 R i ro tín dụng
Trang 15Là rủi ro do một khách hàng hay một nhóm khách hàng vay vốn mà không còn khả năng chi trả cho ngân hàng Các trường hợp như trả không đúng hạn hay trả không đầy đủ cả gốc và lãi cũng được coi là rủi ro tín dụng Trong kinh doanh ngân hàng rủi
ro tín dụng là loại rủi ro lớn nhất, thường xuyên xảy ra và có thể gây hậu quả nặng nề
2 Nghiệp vụ xếp hạng tín dụng trong Ngân hàng
2.1 n qu n về ếp ạn t n ụn
Theo hãng xếp hạng tín dụng Standards & Poor, xếp hạng tín dụng là những ý kiến đánh giá hiện tại về rủi ro tín dụng, chất lượng tín dụng, khả năng và thiện ý của chủ thể đi vay trong việc đáp ứng các nghĩa vụ tài chính một cách đầy đủ và đúng hạn Còn theo hãng Moody's, xếp hạng tín dụng là những ý kiến đánh giá về chất lượng tín dụng và khả năng thanh toán nợ của chủ thể đi vay dựa trên những phân tích tín dụng
cơ bản và biểu hiện thông qua hệ thống ký hiệu AAA-C Như vậy, hệ thống chấm điểm tín dụng và xếp hạng khách hàng là một quy trình đánh giá khả năng thực hiện các nghĩa vụ tài chính của một khách hàng đối với một ngân hàng như việc trả lãi và trả gốc nợ vay khi đến hạn hoặc các điều kiện tín dụng khác nhằm đánh giá, xác định rủi
ro trong hoạt động tín dụng của ngân hàng Mức độ rủi ro tín dụng thay đổi theo từng đối tượng khách hàng và được xác định thông qua quá trình đánh giá bằng thang điểm, dựa vào các thông tin tài chính và phi tài chính có sẵn của khách hàng tại thời điểm chấm điểm tín dụng và xếp hạng khách hàng
2.1.1 Hệ thống ký hiệu xếp hạng tín dụng
Hệ thống xếp hạng tín dụng doanh nghiệp được các tổ chức sử dụng thường bao gồm 9 cấp độ có mức độ rủi ro giảm dần từ AAA đến C được thể hiện trong bảng sau:
Trang 16DN có tiềm lực tài chính mạnh, có triển vọng phát triển lâu dài, tuy nhiên các chính sách hạn chế của ngành kinh
tế có thể sẽ ảnh hưởng đến hoạt động kinh doanh của DN Rủi ro thấp
DN có khả năng phát triển tốt nhưng chưa được bền vững Lịch sử vay trả
nợ tốt Rủi ro tương đối thấp
DN khả năng phát triển chưa thực sự tốt, có rủi ro nhất định từ môi trường kinh doanh và từ cạnh tranh Rủi ro trung bình
Trang 17DN chưa phát huy được tiềm lực tài chính và dễ bị ảnh hưởng bởi những biến động lớn trong kinh doanh do sức
ép từ môi trường kinh doanh và từ cạnh tranh Rủi ro trung bình
DN khả năng tự chủ tài chính thấp Khả năng trả nợ thấp Rủi ro cao
DN khả năng cạnh trạnh và năng lực quản lý kém Lịch sử vay và trả nợ chưa tốt Rủi ro rất cao
DN tự chủ tài chính yếu kém Khả năng trả nợ ngân hàng kém Tình hình kinh doanh không thuận lợi Rủi ro rất cao
Rủi ro rất cao
DN tự chủ về tài chính rất thấp, năng lực quản lý yếu kém Có dấu hiệu phá sản do có liên quan đến pháp luật Rủi
ro rất cao
(Nguồn: mẫu báo cáo xếp hạng tín dụng doanh nghiệp của trung tâm thông tin tín dụng quốc gia Việt Nam CIC)
Trang 18Bảng 2 - Quyết định cấp tín dụng c a ngân hàng dựa trên thứ hạng khách hàng
ứ
ạn Cấp t n ụn
AAA Đáp ứng tối đa nhu cầu tín dụng
AA Đáp ứng tối đa nhu cầu tín dụng
A Đáp ứng tối đa nhu cầu tín dụng
BBB Cấp tín dụng với hạn mức tùy thuộc vào phương án bảo đảm
tiền vay
BB Có thể cấp tín dụng nhưng phải xem xét kỹ hiệu quả phương án
vay vốn và bảo đảm tiền vay
B Không khuyến khích mở rộng tín dụng mà tập trung thu nợ
CCC Từ chối cấp tín dụng
CC Từ chối cấp tín dụng
C Từ chối cấp tín dụng
2.1.2 Đối tƣợng c a xếp hạng tín dụng
Đối tượng của xếp hạng tín dụng bao gồm các thông số, dữ liệu của khách hàng
có hoạt động vay vốn tại các ngân hàng thương mại như các thông tin tài chính từ báo cáo tài chính của doanh nghiệp, các thông tin phi tài chính (kinh nghiệm quản lý, môi trường kiểm soát nội bộ, sự phụ thuộc vào các đối tác)… Các ngân hàng thương mại không sử dụng kết quả xếp hạng tín dụng nhằm thể hiện giá trị của người đi vay mà chỉ
là đưa ra ý kiến hiện tại dựa trên các nhân tố ảnh hưởng đến rủi ro, từ đó có chính sách tín dụng và giới hạn cho vay phù hợp
2.2 ầm qu n tr n ếp ạn t n ụn
Hoạt động tín dụng cơ bản vẫn chiếm tỷ trọng lớn trong cơ cấu doanh thu và lợi nhuận của các ngân hàng thương mại Trong quá trình cấp tín dụng, các ngân hàng
Trang 19thương mại khó tránh khỏi rủi ro tín dụng phát sinh từ nhiều nguyên nhân khác nhau Tổn thất từ rủi ro tín dụng là rất nghiêm trọng, bởi không những làm giảm lợi nhuận của ngân hàng mà còn ảnh hưởng đến an toàn của toàn hệ thống Do vậy, nghiên cứu biện pháp để nhận biết, đo lường và hạn chế được rủi ro tín dụng là một yêu cầu cấp bách đối với các ngân hàng thương mại và cơ quan quản lý Nhà nước
Từ đó, hoạt động xếp hạng tín dụng ra đời như là một xu thế tất yếu nhằm hỗ trợ cho các tổ chức tín dụng trong đó có ngân hàng thương mại trong việc đưa ra quyết định cấp tín dụng và hạn chế rủi ro tín dụng
Vai trò của xếp hạng tín dụng với thị trường tài chính:
- Các nhà đầu tư sử dụng kết quả xếp hạng tín dụng để thực hiện chiến lược đầu
tư sao cho rủi ro thấp nhất nhưng kết quả đạt được như mong muốn;
- Các tổ chức đi vay, cần huy động vốn sử dụng kết quả xếp hạng tín nhiệm để tạo niềm tin với nhà đầu tư, từ đó thực hiện được chiến lược huy động vốn với chi phí thấp, huy động lượng vốn như mong muốn;
- Thông qua xếp hạng tín dụng, các tổ chức khác sử dụng kết quả xếp hạng để quảng bá hình ảnh của tổ chức mình, cung cấp thông tin cho các đối tác, tạo niềm tin của thị trường
- Giám sát và đánh giá khách hàng tín dụng khi khoản tín dụng đang còn dư nợ; Ngoài ra xếp hạng tín dụng còn nhằm mục đích:
- Phát triển chiến lược marketing nhằm hướng tới khách hàng có ít rủi ro
Trang 20- Quản lý danh mục tín dụng, ước lượng mức vốn đã cho vay sẽ không thu hồi được để trích lập dự phòng rủi ro tín dụng
2.3 N u n t v qu tr n ếp ạn t n ụn
2.3.1 Các nguyên t c xếp hạng tín dụng
Nguyên tắc 1: Phân tích các yếu tố định tính và định lượng
Các dữ liệu định lượng: Là những quan sát được đo lường bằng số, các dữ liệu được lấy trên các báo cáo tài chính Ví dụ như những chỉ tiêu lợi nhuận, chi phí trả lãi vay, vốn lưu động
Các dữ liệu định tính: Đó là những quan sát không đo lường được bằng số Trong tập dữ liệu định tính mỗi quan sát sẽ và chỉ thuộc về một kiểu loại nào đó Ví dụ như tình hình cạnh tranh, xu hướng thị trường, vị thế kinh doanh của công ty, sự đa dạng hoá hoạt động và các luật lệ, quy định
Nguyên tắc 2: Việc phân tích được tiến hành bằng phương pháp từ trên xuống (top-down), có nghĩa là phân tích từ các yếu tố vĩ mô ảnh hưởng đến công ty đến các yếu tố của bản thân công ty theo trình tự sau:
(1) Phân tích rủi ro mang tính vĩ mô về xu hướng của quốc gia, ngành như tốc
độ tăng trưởng kinh tế của quốc gia, sự ổn định về chính trị, chính sách tài chính, sự
(4) Phân tích hướng phát triển của công ty như chất lượng ban quản lý và chiến lược kinh doanh
(5) Phân tích tình trạng pháp lý của doanh nghiệp
Trang 21Nguyên tắc 3: Xây dựng thang điểm các chỉ tiêu đơn giản, dễ hiểu, dễ so sánh Các chỉ tiêu được cho điểm, sau đó tổng hợp lại và phản ánh qua ký hiệu xếp hạng
2.3.2 Quy trình xếp hạng tín dụng
(1) Thu thập thông tin
(2) Phân loại theo ngành, quy mô
(3) Phân tích các chỉ tiêu và cho điểm
(4) Tổng hợp điểm và đưa ra kết quả xếp hạng
(5) Phê chuẩn và sử dụng kết quả xếp hạng
2.4 Một số m n ếp ạn t n ụn thông dụng
2.4.1 Mô hình chỉ số Z (Z-score) c a Altman
Mô hình Altman Z-score được công bố năm 1968 bởi Giáo sư Edward Altman, đại học New York Mô hình được sử dụng để tính toán và dự báo khả năng vỡ nợ của doanh nghiệpmột cách tương đối chính xác trong vòng 2 năm Mô hình Z-score là một trong những mô hình tính toán khả năng vỡ nợ tài chính của doanh nghiệp với lợi thế
dễ tính toán do sử dụng các dữ liệu từ báo cáo tài chính của doanh nghiệp để tính toán
Z-score sử dụng mô hình tuyến tính bậc nhất giữa các chỉ tiêu tài chính được lượng hóa bằng các hệ số.Mô hình sử dụng phương pháp hồi quy dựa trên cơ sở dữ liệu trong quá khứ và từ đó đưa ra dự báo cho tương lai
Chỉ số Z được xây dựng dựa vào việc nghiên cứu khá công phu trên số lượng lớn các công ty khác nhau tại Mỹ và là công cụ được cả hai giới học thuật và thực hành công nhận và sử dụng rộng rãi nhất trên thế giới Mặc dù chỉ số Z được phát minh tại
Mỹ, nhưng hầu hết các nước vẫn có thể sử dụng với độ tin cậy khá cao Chỉ số này dựa trên phương pháp thống kê với công cụ phân tích biệt số đa yếu tố (MDA)
Đây là mô hình kết hợp giữa các chỉ tiêu phản ánh hiệu quả kinh doanh (X1, X2, X4) với các chỉ tiêu phản ánh khả năng thanh toán (X3) và chỉ tiêu phản ánh sự độc lập tài chính (X5) Các số liệu để tính các tỷ số này đều có thể lấy trên báo cáo tài
Trang 22chính và thông tin trên thị trường chứng khoán (nếu có) Đối với các doanh nghiệp Việt Nam, số liệu lợi nhuận giữ lại có thể rút ra từ bảng cân đối kế toán, bao gồm cả lợi nhuận sau thuế chưa phân phối và các quỹ thuộc vốn chủ sở hữu
Các tỷ số tài chính trong mô hình Z-score:
X1 =
(1)Trong đó:
Vốn luân chuyển (vốn lưu động) = tài sản ngắn hạn - nợ ngắn hạn
Những khoản thua lỗ trong hoạt động kinh doanh của doanh nghiệp sẽ làm giảm
tỷ số X1
Tỷ số này có liên quan đến các trục trặc của doanh nghiệp và là công cụ đo lường độ thanh khoản ròng của công ty tương ứng với tổng vốn Thông thường một công ty trải qua một thời kỳ thua lỗ kéo dài sẽ có tài sản lưu động bị co lại so với tổng tài sản Trong ba tỷ số thanh khoản được đánh giá để đưa vào mô hình thì tỷ số này tỏ
ra hiệu quả nhất Hai tỷ số còn lại là tỷ số thanh toán hiện hành và tỷ số thanh toán tức thời tỏ ra kém hữu ích hơn
X2 =
(2)Trong đó:
Tỷ số này đo lường lợi nhuận giữ lại tích lũy qua thời gian hay thặng dư kiếm được trong quá trình hoạt động
Sự trưởng thành của công ty cũng được đánh giá qua tỷ số này Các công ty mới thành lập thường có tỷ số này thấp vì chưa có thời gian để tích lũy lợi nhuận Theo nghiên cứu của Dan&Bradsheet, các công ty dễ bị phá sản ở những năm đầu hoạt động
và khoảng 50% số công ty mới thành lập chỉ hoạt động trong từ 1 đến 5 năm đầu
Trang 23Lợi nhuận giữ lại thể hiện tổng số thu nhập được tái đầu tư hay mức lỗ của doanh nghiệp trong suốt thời gian tồn tại của nó
Tỷ số này còn đo lường đòn bẩy của một doanh nghiệp Những công ty có tỷ số này cao có thể tài trợ tài sản thông qua việc giữ lại lợi nhuận và không sử dụng nhiều
Sự tồn tại và khả năng trả nợ của công ty sau cùng đều dựa trên khả năng tạo ra lợi nhuận từ tài sản của nó Vì vậy, tỉ số này, theo Altman thể hiện tốt hơn các thước đo
tỷ suất sinh lợi khác, kể cả dòng tiền
X4 =
(4)Vốn chủ sở hữu được đo lường bởi giá trị thị trường của tất cả cổ phiếu, cổ phiếu ưu đãi và cổ phiếu thường Nợ bao gồm cả nợ ngắn hạn và nợ dài hạn
Tỷ số này cho biết giá trị tài sản của công ty sụt giảm bao nhiêu lần trước khi công ty lâm vào tình trạng mất khả năng thanh toán Nếu tỷ số này thấp hơn 1/3 thì khả năng công ty phá sản là rất cao
Đối với công ty chưa cổ phần hóa thì giá trị thị trường được thay bằng giá trị sổ sách của vốn cổ phần
X5 = (5)
Trang 24Đo lường khả năng quản trị của công ty để tạo doanh thu trước sức ép cạnh tranh của các đối thủ khác
Tỷ số này có mức độ quan trọng thấp nhất trong mô hình nhưng vẫn khá quan trọng vì giúp khả năng phân biệt tổng thể của mô hình được nâng cao
X5 thay đổi trên một khoảng rộng đối với các ngành khác nhau và các quốc gia khác nhau, do đó Altman đã phát triển một mô hình thay thế mà không có chỉ tiêu này
Đối với doanh nghiệp sản xuất đã cổ phần hóa:
Z = 1.2X1 + 1.4X2 + 3.3X3 + 0.64X4 + 0.999X5 (6)
Nếu Z > 2.99: doanh nghiệp thuộc vùng an toàn, chưa có nguy cơ phá sản Nếu 1.8 < Z < 2.99: doanh nghiệp nằm trong vùng cảnh báo, có thể có nguy cơ phá sản
Nếu Z < 1.8: doanh nghiệp nằm trong vùng nguy hiểm, nguy cơ phá sản cao
Đối với doanh nghiệp sản xuất chưa cổ phần hóa:
Z' = 0.717X1 + 0.847X2 + 3.107X3 + 0.42X4 + 0.998X5 (7)
Nếu Z' > 2.9: doanh nghiệp thuộc vùng an toàn, chưa có nguy cơ phá sản
Nếu 1.23 < Z' < 2.9: doanh nghiệp nằm trong vùng cảnh báo, có thể có nguy cơ phá sản
Nếu Z' < 1.23: doanh nghiệp nằm trong vùng nguy hiểm, nguy cơ phá sản cao
Đối với các doanh nghiệp phi sản xuất:
Z" = 6.56X1 + 3.26X2 + 6.72X3 + 1.05X4 (8)
Nếu Z" > 2.6: doanh nghiệp thuộc vùng an toàn, chưa có nguy cơ phá sản
Nếu 1.1 <Z" < 2.6: doanh nghiệp nằm trong vùng cảnh báo, có thể có nguy cơ phá sản
Nếu Z" < 1.1: doanh nghiệp nằm trong vùng nguy hiểm, nguy cơ phá sản cao
Trang 25Chỉ số Z càng cao thì người vay có xác suất vỡ nợ càng thấp Để tăng chỉ số này đòi hỏi doanh nghiệp phải nâng cao năng lực quản trị, rà soát, giảm bớt những tài sản không hoạt động, tiết kiệm chi phí hợp lý, xây dựng thương hiệu Đó chính là sự kết hợp gián tiếp của nhiều yếu tố tài chính và phi tài chính trong mô hình mới tạo được chỉ số an toàn
2.4.2 Mô hình chấm điểm tín dụng
Đây là mô hình xếp hạng tín dụng khách hàng đã có từ lâu nhằm đánh giá khách hàng vay vốn qua các hoạt động phân tích của cán bộ tín dụng ở ngân hàng thương mại thông qua các chỉ tiêu tài chính và phi tài chính Mô hình này là một trong những mô hình hết sức đơn giản và dễ thực hiện để xếp hạng tín dụng khách hàng
Các chỉ tiêu tài chính: Các chỉ tiêu tài chính mà các cán bộ tín dụng thường được sử dụng để đánh giá khách hàng vay vốn của mình bao gồm:
- Các tỷ số thanh khoản để đo lường khả năng thanh toán nợ ngắn hạn của doanh nghiệp như: Hệ số thanh khoản hiện thời (ngắn hạn); Hệ số thanh khoản nhanh; Hệ số khả năng thanh toán tổng quát; Hệ số khả năng trả lãi, …
- Các chỉ tiêu về hiệu quả hoạt động để đo lường mức độ hiệu quả trong việc sử dụng tài sản của doanh nghiệp chẳng hạn như: Vòng quay hàng tồn kho; Vòng quay khoản phải thu; Kỳ thu tiền bình quân; Vòng quay tổng tài sản
- Các tỷ số đòn bẩy tài chính để đo lường mức độ sử dụng nợ để tài trợ cho hoạt động của doanh nghiệp, chẳng hạn như: Hệ số nợ so với vốn chủ sở hữu; Hệ số nợ so với tổng tài sản; Hệ số tài trợ vốn chủ sở hữu; Hệ số nợ dài hạn; Phân tích hệ số khả năng hoàn trả lãi vay; Hệ số khả năng trả nợ
- Các chỉ tiêu khả năng sinh lời để đo lường khả năng sinh lời của doanh nghiệp, chẳng hạn như: Hệsố thu nhập trên tổng tài sản; Khả năng sinh lời so với doanh thu…
Các chỉ tiêu phi tài chính: Các chỉ tiêu phi tài chính được thu thập từ các nguồn thông tin trong và ngoài doanh nghiệp bao gồm: lĩnh vực hoạt động kinh doanh, uy tín
Trang 26trong quan hệ với các tổ chức tín dụng, khả năng trả nợ từ lưu chuyển tiền tệ, trình độ quản lý của nhà lãnh đạo doanh nghiệp, môi trường kinh doanh của doanh nghiệp, khả năng ứng phó của doanh nghiệp trên thương trường, … Thông thường việc phân tích các chỉ tiêu phi tài chính được thông qua mô hình 6C gồm: Tư cách người vay (Character); Năng lực của người vay (Capacity); Thu nhập của người vay (Cash); Bảo đảm tiền vay (Collateral); Các điều kiện (Conditions); Kiểm soát (Control)
Ŷ là giá trị ước lượng của Y khi tiến hành hồi quy Y theo các biến độc lập Khi đó gọi p là xác suất khách hàng trả được nợ (xác suất để Y nhận giá trị 1), p được tính như sau:
Trong đó: e là hằng số Euler (e ~ 2.718) còn Ŷ được xác định bằng công thức sau:
Các biến Xi là các biến độc lập, là các yếu tố có ảnh hưởng đến khả năng trả nợ
Trang 27của khách hàng ví dụ như vốn chủ sở hữu, tỷ suất lợi nhuận,…
Các hệ số βk là các hệ số chưa biết và cần được ước lượng
Dựa trên mô hình này, thông qua các yếu tố có ảnh hưởng đến khách hàng đã được xác định trước từ các nguồn thông tin như báo cáo tài chính, kê khai của kháchhàng… ta có thể tính được xác suất trả được nợ của khách hàng Xác suất này càng caocó nghĩa khả năng trả nợ của khách hàng là tốt, rủi ro tín dụng thấp và ngược lại
Ưu điểm:
- Là mô hình định lượng nên khắc phục được các nhược điểm của mô hình định tính Có tính chất khách quan, không phụ thuộc vào ý kiến chủ quan của cán bộ tín dụng
- Cho phép ngân hàng tính được khả năng vỡ nợ với từng khoản cho vay Là cơ
sở để ngân hàng phân loại khách hàng, xác định khách hàng nằm trong vùng an toàn hay rủi ro để có chính sách tín dụng phù hợp
- Kỹ thuật đo lường của mô hình không quá phức tạp, có thể thực hiện bằng phần mềm
- Linh hoạt hơn mô hình Z-score Có thể điều chỉnh hoặc thêm bớt biến vào mô hình nhằm xác định cụ thể tác động của các yếu tố đến rủi ro tín dụng
Trang 28những thất bại kinh doanh Mô hình Zeta có khả năng phân loại các công ty bị phá sản đến 5 năm trước khi xảy ra dựa trên một mẫu bao gồm các nhà sản xuất và nhà bán lẻ với độ chính xác lên tới 91% trước khi doanh nghiệp phá sản 1 năm và 76.8% từ năm thứ 5 trở lên trước khi doanh nghiệp phá sản
7 biến số của mô hình Zeta:
Bên cạnh đó, Altman cũng đánh giá thông tin chứa đựng trong một vài biến số tương tự để đo lường những rủi ro có thể xảy ra đối với công ty Những biến số này có
ý nghĩa nhưng nó không được đưa vào mô hình
Trang 29X6 =
(16)Vốn cổ phần thường được tính bằng giá trị thị trường bình quân trong thời gian
5 năm
Tổng vốn hóa = Vốn cổ phần thường + cổ phần ưu đãi + nợ + tài sản thuê ngoài
đã được vốn hóa
X7 = Quy mô công ty (Tổng tài sản) (17)
Biến số này được điều chỉnh tùy theo những thay đổi trong báo cáo tài chính
Trang 30CHƯƠNG II KHAI PHÁ DỮ LIỆU VÀ CÂ Y QUYẾT ĐỊNH
1 Khai phá dữ liệu:
1.1 Khái niệm
Khai phá dữ liệu hay phát hiện tri thức là một lĩnh vực nghiên cứu nhằm tự động khai thác thông tin, tri thức mới hữu ích, tiềm ẩn từ những cơ sở dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp,… từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này
Hình 4 Quá trình khai phá dữ liệu
Các kết quả nghiên cứu khoa học cùng những ứng dụng thành công trong thực tế cho thấy khai phá dữ liệu là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và
có nhiều triển vọng hiện tại và tương lai, đồng thời có ưu thế hơn hẳn so với các công
Trang 31cụ tìm kiếm phân tích dữ liệu truyền thống
Khai phá dữ liệu là một trong 7 bước của quá trình phát hiện tri thức(KDD- Knowledge Discovery in Database)
1.2 Quá trình phát hiện tri thức
1.2.1 Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu không thích hợp
1.2.2 Tích hợp dữ liệu(data integration): tích hợp dữ liệu từ các nguồn khác nhau như: Cơ sở dữ liệu, kho dữ liệu, file text…
1.2.3 Chọn dữ liệu (data selection): ở bước này những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu
1.2.4 Chuyển đổi dữ liệu (data transformation): trong bước này dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp
1.2.5 Khai phá dữ liệu (data mining): là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu
1.2.6 Đánh giá mô hình (pattern evaluation): đánh giá sự hữu ích của các
mô hình biểu diễn tri thức dựa vào một số phép đo
1.2.7 Biểu diễn tri thức (knowlegde presentation): sử dụng các kỹ thuật trình diễn và trực quan hóa dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng
1.3 Các dạng dữ liệu có thể khai phá
Nhìn chung, khai phá dữ liệu có thể áp dụng với bất kỳ kiểu dữ liệu nào miễn là
nó có ý nghĩa đối với ứng dụng mục tiêu Các dạng dữ liệu có thể khai phá chủ yếu là
dữ liệu từ Cơ sở dữ liệu và dữ liệu từ kho dữ liệu Ngoài ra còn một số dạng dữ liệu khác như dòng dữ liệu, dữ liệu theo thứ tự hay theo loạt, dữ liệu mạng, dữ liệu biểu đồ,
dữ liệu text, multimedia hay WWW
Trang 32 Dữ liệu từ cơ sở dữ liệu
Một hệ thống cơ sở dữ liệu hay còn gọi là hệ quản trị cơ sở dữ liệu bao gồm một tập hợp các dữ liệu có quan hệ với nhau được gọi là cơ sở dữ liệu và một tập các chương trình phần mềm để quản lý và truy cập các dữ liệu đó Các chương trình phần mềm cung cấp các cơ chế để:
- Xác định cấu trúc của cơ sở dữ liệu và dữ liệu được lưu trữ
- Xác định và quản lý truy cập dữ liệu đồng thời, chia sẻ hoặc phân phối dữ liệu
- Đảm bảo tính đồng nhất và bảo mật của thông tin lưu trữ
Một cơ sở dữ liệu quan hệ là một tập hợp các bảng, mỗi bảng được gán một tên riêng và bao gồm một tập các thuộc tính (gọi là các cột hay trường) và thường được dùng để lưu trữ số lượng lớn các bộ dữ liệu (tuple) Mỗi bộ dữ liệu là một đối tượng (hay bản ghi, dòng) được xác định bởi một khóa unique và được mô tả bởi một tập các giá trị thuộc tính
Khi khai phá dạng dữ liệu này, ta có thể tìm kiếm các xu hướng hoặc các khuôn mẫu dữ liệu Ví dụ như phân tích dữ liệu khách hàng để dự đoán rủi ro tín dụng của họ dựa trên thu nhập, tuổi tác và thông tin lịch sử tín dụng Cơ sở dữ liệu quan hệ là một trong các dạng dữ liệu phổ biến nhất và đầy đủ nhất nên nó là dạng dữ liệu được sử dụng chủ yếu trong lĩnh vực khai phá dữ liệu
Dữ liệu từ kho dữ liệu
Kho dữ liệu là một kho chứa thông tin tập hợp từ nhiều nguồn dữ liệu khác nhau
và được lưu trữ dưới dạng một cấu trúc thống nhất và được thiết kế để hỗ trợ việc phân tích dữ liệu và lập báo cáo Kho dữ liệu được tạo nên thông qua quá trình làm sạch dữ liệu, tích hợp dữ liệu, chuyển đổi dữ liệu, nạp dữ liệu và làm mới định kỳ
Để phục vụ cho việc ra quyết định, dữ liệu từ kho dữ liệu được tổ chức xoay quanh một chủ đề chính (khách hàng, sản phẩm, nhà cung cấp, các hoạt động kinh
Trang 33doanh…) Dữ liệu được lưu trữ để cung cấp thông tin từ góc độ lịch sử và thường được
cô đọng lại Một kho dữ liệu thường được mô hình hóa bởi một cấu trúc dữ liệu đa chiều gọi là khối dữ liệu, trong đó mỗi chiều tương ứng với một thuộc tính hoặc một tập các thuộc tính Còn các ô trên khối dữ liệu lưu trữ giá trị các phép tính gộp như phép đếm (count) hay phép tính tổng (sum) Một khối dữ liệu cung cấp một cái nhìn đa chiều của dữ liệu, cho phép tiền xử lý và truy cập nhanh vào dữ liệu đã được cô đọng
Mối quan hệ giữa kho dữ liệu và khai phá dữ liệu:
- Dữ liệu của kho dữ liệu rất phù hợp cho việc khai phá dữ liệu do đã được tập hợp và làm sạch
- Cơ sở hạ tầng của kho dữ liệu hỗ trợ rất tốt cho các việc như xuất, nhập cũng như các thao tác cơ bản trên dữ liệu
- Có các dịch vụ (OLAP) về cung cấp các tập lệnh rất hữu hiệu trong phân tích dữ liệu
1.4 Các kỹ thuật khai phá dữ liệu
Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện 2 chức năng mô tả và dự đoán
- Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc tính chung của dữ liệu trong Cơ sở dữ liệu hiện có Một số kĩ thuật khai phá trong nhóm này là: phân cụm dữ liệu, tổng hợp, trực quan hóa, phân tích sự phát triển và độ lệch,…
- Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên cơ sở dữ liệu hiện thời Một số kĩ thuật khai phá trong nhóm này là: phân lớp, hồi quy, cây quyết định, thống kê, mạng noron, luật kết hợp,…
Trang 34H n 5 Cá lĩn vự ó li n qu n đến khai phá dữ liệu 1.4.1 Phân lớp dữ liệu
Phân lớp dữ liệu là một dạng của phân tích dữ liệu nhằm rút ra các mô hình mô
tả các lớp dữ liệu có tính chất quan trọng Những mô hình này được gọi là các bộ phân lớp (classifier) được dùng để dự đoán (một cách rời rạc, không có thứ tự) nhãn của các lớp dữ liệu Nhiều phương pháp phân lớp được đề xuất bởi các nhà nghiên cứu trong lĩnh vực học máy, nhận diện mẫu và thống kê
Ví dụ, ta có thể xây dựng mô hình để chia các khoản cho vay của ngân hàng thành hai loại là “an toàn” và “rủi ro”, hoặc phân loại dữ liệu y tế thành ba loại là phương pháp điều trị A, B hay C Các loại này có thể được biểu diễn dưới dạng giá trị rời rạc và không có thứ tự Ví dụ, ta có thể dùng các con số 1, 2, 3 để biểu diễn 3 loại phương pháp điều trị thay vì các chữ cái A, B, C
Quá trình phân lớp dữ liệu gồm 2 bước:
Bước 1, là bước học (giai đoạn huấn luyện): xây dựng bộ phân lớp bằng việc
Trang 35phân tích/học từ tập dữ liệu huấn luyện Trong bước này, một bộ phân lớp sẽ được xây dựng để mô tả một tập các lớp dữ liệu hoặc các mẫu dữ liệu xác định trước Bộ phân lớp này được xây dựng bằng cách phân tích hoặc học từ một tập huấn luyện (training set) được tạo nên bởi các bộ dữ liệu trong Cơ sở dữ liệu cùng với các nhãn phân lớp của chúng Các bộ dữ liệu tạo nên tập huấn luyện này sẽ được lấy mẫu một cách ngẫu nhiên từ Cơ sở dữ liệu trong quá trình phân tích
Hình 6 - Bước h c c a quá trình phân lớp dữ liệu
Do nhãn phân lớp đã được xác định trước nên bước này còn được gọi là quá trình học có giám sát, khác với phương pháp gom cụm là quá trình học không có giám sát mà trong đó các nhãn phân lớp của các bộ dữ liệu huấn luyện không được xác định
Trang 36trước và số lượng các nhãn phân lớp cũng có thể không được biết trước
Bước đầu tiên trong quá trình phân lớp này có thể xem là quá trình ánh xạ hoặc tạo quan hệ hàm số Y = f(X) mà qua đó có thể dự đoán được nhãn phân lớp Y tương ứng với một bộ dữ liệu X cho trước Quá trình ánh xạ này được thể hiện dưới dạng các luật phân lớp, cây quyết định hoặc các công thức toán học
Bước 2, là bước phân lớp: Trong bước này mô hình tạo ra ở bước đầu sẽ được
sử dụng để phân lớp dữ liệu Đầu tiên, độ chính xác của bộ phân lớp sẽ được đánh giá trước Nếu chúng ta sử dụng chính tập huấn luyện để kiểm tra độ chính xác của bộ phân lớp thì sẽ gây ra hiện tượng quá khớp dữ liệu Đây là hiện tượng bộ phân lớp có thể chứa một số đặc trưng riêng của tập huấn luyện, nếu lấy tập này để kiểm tra lại mô hình phân lớp thì độ chính xác sẽ rất cao nhưng đối với dữ liệu khác thì độ chính xác
có thể lại giảm Do đó, một tập kiểm tra được tạo thành từ các bộ dữ liệu kiểm tra và nhãn tương ứng sẽ được sử dụng trong trường hợp này Tập kiểm tra này là độc lập đối với tập huấn luyện, nghĩa là nó không được sử dụng để tạo nên bộ phân lớp
Trang 37Hình 7 - Bước phân lớp c a quá trình phân lớp dữ liệu
Độ chính xác của một bộ phân lớp là tỷ lệ phần trăm của các bộ dữ liệu kiểm tra được phân lớp một cách chính xác bởi bộ phân lớp Nhãn tương ứng của mỗi bộ dữ liệu kiểm tra sẽ được so sánh với nhãn dự đoán của bộ phân lớp đối với bộ dữ liệu kiểm tra đó Nếu độ chính xác của bộ phân lớp trên được coi là có thể chấp nhận được thì về sau nó sẽ được sử dụng để phân lớp dữ liệu đối với các bộ dữ liệu mà nhãn của
bộ dữ liệu đó là chưa xác định
1.4.2 Khai phá luật kết hợp (Association Rule Discovery)
Khai phá luật kết hợp là tìm ra các mối quan hệ, sự kết hợp hay mối tương quan giữa hai hay nhiều đối tượng trong khối lượng lớn dữ liệu Đây là kĩ thuật rất quan trọng trong lĩnh vực khai phá dữ liệu
Trong các giao dịch mua bán, người ta nhận thấy rằng chủng loại các mặt hàng
là rất lớn Tuy nhiên số lượng bản ghi giao dịch có chứa đồng thời một số mặt hàng xác
Trang 38định chiếm một tỉ lệ đáng quan tâm Chúng ta không biết người mua là ai nhưng chúng
ta có thể đặt vấn đề là sự trùng lặp đó là ngẫu nhiên hay tuân theo một quy luật nào đó? Đây là ý tưởng cho sự ra đời của luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luận kết hợp tìm được
Phương pháp khai phá luật kết hợp gồm hai bước:
- Bước 1: tìm tất cả các tập mục phổ biến Một tập mục phổ biến được xác định thông qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu
- Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ và độ tin cậy cực tiểu
1.4.3 Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập
dữ liệu vào các cụm sao cho các đối tượng cùng một lớp là tương đồng Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi chúng ta phải gán nhãn các mẫu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân loại dữ liệu là học bằng ví dụ Trong phương pháp này, chúng ta không xác định được hiệu quả của quá trình phân cụm Vì vậy thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá về hiệu quả của các kết quả phân cụm Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web… Ngoài phân cụm, dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác
1.4.4 Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu Nhưng khác ở chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc
Trong khi quá trình phân lớp dự đoán các nhãn phân loại (rời rạc, không có thứ
Trang 39tự) thì quá trình hồi quy xây dựng mô hình các hàm giá trị liên tục Nghĩa là, hồi quy được sử dụng để dự đoán các giá trị dữ liệu dạng số học thay vì các nhãn lớp rời rạc Phân tích hồi quy là một phương pháp luận thống kê mà hầu như thường được sử dụng
để dự đoán số liệu Hồi quy cũng bao gồm việc nhận diện các xu hướng trong phân bố
dữ liệu sẵn có
1.4.5 Giải thuật di truyền
Giải thuật di truyền được phát triển mô phỏng lại hệ thống tiến hóa trong tự nhiên, chính xác hơn đó là các giải thuật chỉ ra tập các cá thể được hình thành, được ước lượng và biến đổi như thế nào Giải thuật cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau
Giải thuật di truyền dựa trên ba cơ chế cơ bản:
Giải thuật di truyền cũng được áp dụng trong kinh doanh nhằm tìm ra lợi nhuận tối ưu bằng cách kết hợp các đặc tính của sản phẩm Ngoài ra chúng còn được sử dụng thành công trong lập lịch và chuỗi thời gian Giải thuật di truyền cũng có các hiệu ứng tốt có thể được dùng kết hợp với mạng nơ ron tại đầu ra của mạng này
1.4.6 Mạn Nơ-ron
Đây là một trong những kĩ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người
Kết quả mà mạng nơ ron học được có khả năng tạo ra các mô hình dự báo, dự
Trang 40đoán với độ chính xác và độ tin cậy cao Nó có khả năng phát hiện ra được các xu hướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được Tuy nhiên phương pháp mạng nơ ron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm
Cấu trúc mạng nơ ron cũng giống như bộ não con người, tức mạng nơ ron có khả năng học, ghi nhớ và tổng quát hóa Những thành phần cơ bản của một mạng nơ ron gọi là tế bào thần kinh (nơ ron) Mạng nơ ron gồm năm thành phần: đầu vào (input), trọng số (weight), kết nối (adder), thành phần hoạt động (action) và đầu ra (output)
1.4.7 Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp
và dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu với người sử dụng
Cây quyết định bao gồm các nút và các nhánh Mỗi nút thể hiện một thuộc tính, mỗi nhánh thể hiện các giá trị của thuộc tính Với một dữ liệu vào, xét từng thuộc tính
từ nút cha tới nút con, giá trị của thuộc tính nhánh nào thì rẽ xuống nhánh đó, cứ thế đi xuống tới nút lá để nhận được kết quả “yes” hoặc “no”
1.5 Đán iá iệu suất bộ phân lớp
Nếu sử dụng dữ liệu huấn luyện đã dùng để huấn luyện nên bộ phân lớp và sau
đó lại sử dụng tiếp để đánh giá độ chính xác của mô hình thì có thể dẫn đến việc đánh giá trở nên quá tối ưu (hiện tượng quá khớp) Thay vào đó, ta nên dùng một bộ dữ liệu kiểm tra mà không được sử dụng để huấn luyện nên bộ phân lớp
Mô hình phương pháp đánh giá hiệu suất bộ phân lớp: