sở để đánh giá là khả năng trả nợ của khách hàng bị suy giảm thì NH chủ động tự quyết định phân loại các khoản nợ đó vào các nhóm nợ rủi ro cao hơn tương ứng với mức độ rủi ro.. Đối vớ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chuyên ngành : Hệ thống thông tin
LUẬN VĂN THẠC SĨ
HƯỚNG DẪN KHOA HỌC: TS NGUYỄN HÀ NAM
Hà Nội, 2011
Trang 3MỤC LỤC
CHƯƠNG I 1
LÝ THUYẾT VỀ RỦI RO TÍN DỤNG 1
I Tín dụng và rủi ro tín dụng 1
1 Khái niệm rủi ro tín dụng 1
2 Những nguyên nhân phát sinh rủi ro tín dụng [5] 2
3 Phân loại nhóm nợ 2
4 Nguyên tắc vay vốn 5
5 Điều kiện vay vốn 5
6 Căn cứ xác định định mức cho vay 5
7 Đối tượng áp dụng 5
II Các mô hình phân tích đánh giá rủi ro tín dụng 6
1 Mô hình định tính 6
2 Các mô hình lượng hóa rủi ro tín dụng 12
CHƯƠNG II 16
CÂY QUYẾT ĐỊNH 16
I Cây quyết định 16
1 Định nghĩa cây quyết định 16
2 Các kiểu cây quyết định 17
3 Ví dụ 17
4 Ưu điểm của cây quyết định 20
5 Vấn đề xây dựng cây quyết định 20
6 Rút ra các luật từ cây quyết định 21
II Một số thuật toán xây dựng cây 21
1 Thuật toán CLS 21
2 Thuật toán ID3 22
3 Thuật toán C4.5 29
4 Thuật toán SLIQ [1] 38
5 Cắt tỉa cây quyết định 45
CHƯƠNG III 51
ỨNG DỤNG CÂY QUYẾT ĐỊNH DỰ ĐOÁN CHỈ SỐ NHÓM NỢ 51
1 Xử lý dữ liệu cho bài toán dự đoán rủi ro tín dụng 51
2 Phương pháp lấy mẫu dữ liệu 55
3 Dự đoán chỉ số nhóm nợ sử dụng cây quyết định C4.5 57
4 Đánh giá kết quả dự đoán chỉ số nhóm nợ sử dụng cây quyết định C4.5 61
KẾT LUẬN 68
TÀI LIỆU THAM KHẢO 69
Trang 4CHƯƠNG I
LÝ THUYẾT VỀ RỦI RO TÍN DỤNG
Trong kinh tế thị trường, hệ thống ngân hàng được ví như hệ thần kinh của cả nền kinh tế Hệ thống ngân hàng quốc gia hoạt động thông suốt, lành mạnh và hiệu quả là tiền đề để các nguồn lực tài chính luân chuyển, phân bổ và
sử dụng hiệu quả, kích thích tăng trưởng kinh tế một cách bền vững Tuy nhiên, trong kinh tế thị trường, thì rủi ro trong kinh doanh là không thể tránh khỏi, mà đặc biệt là rủi ro trong hoạt động ngân hàng có phản ứng dây truyền, lây lan và ngày càng có biểu hiện phức tạp Sự sụp đổ của ngân hàng ảnh hưởng tiêu cực đến đời sống kinh tế, chính trị, xã hội của một nước và có thể lan rộng sang qui
mô quốc tế
Rủi ro kinh doanh trong ngân hàng có xu hướng tập trung chủ yếu vào danh mục tín dụng Khi ngân hàng rơi vào trạng thái tài chính khó khăn nghiêm trọng, thì nguyên nhân thường phát sinh từ hoạt động tín dụng của ngân hàng
Vậy, rủi ro, nguyên nhân rủi ro và những nội dung của rủi ro tín dụng là gì?
I Tín dụng và rủi ro tín dụng
1 Khái niệm rủi ro tín dụng
Tín dụng ngân hàng là quan hệ tín dụng giữa ngân hàng, các tổ chức tín dụng
và các tổ chức kinh tế, cá nhân theo nguyên tắc hoàn trả Việc hoàn trả được nợ gốc trong tín dụng có nghĩa là việc thực hiện được giá trị hàng hoá trên thị trường, còn việc hoàn trả được lãi vay trong tín dụng là việc thực hiện được giá trị thặng dư trên thị trường Trong quan hệ tín dụng có hai đối tượng tham gia là ngân hàng cho vay và người đi vay
Rủi ro tín dụng
Khoản lỗ tiềm tàng vốn có được tạo ra khi ngân hàng cấp tín dụng
Trang 5 Những thiệt hại, mất mát mà ngân hàng gánh chịu do người vay vốn hay người sử dụng vốn không trả đúng hạn, không thực hiện đúng nghĩa vụ cam kết trong hợp đồng tín dụng vì bất kể lý do gì
2 Những nguyên nhân phát sinh rủi ro tín dụng [5]
Thông thường rủi ro tín dụng xảy ra do những nguyên nhân sau:
- Khách hàng vay vốn gặp những nguy cơ và tai nạn bất ngờ hoặc thua lỗ trong kinh doanh nên không có tiền trả nợ dẫn đến nợ quá
- Bị ảnh hưởng bởi tình hình kinh tế trong nước và thế giới
- Do chính bản thân ngân hàng chạy theo lợi nhuận, vi phạm nguyên tắc cho vay, phân tích đánh giá khách hàng sai, quyết định cho vay thiếu thông tin xác thực
3 Phân loại nhóm nợ
Nợ quá hạn là khoản nợ mà một phần hoặc toàn bộ nợ gốc và lãi đã quá hạn
Nợ cơ cấu lại thời hạn trả nợ là khoản nợ mà ngân hàng chấp thuận điều chỉnh kỳ hạn trả nợ hoặc gia hạn nợ cho khách hàng do ngân hàng đánh giá khách hàng suy giảm khả năng trả nợ gốc hoặc lãi đúng thời hạn ghi trong hợp đồng tín dụng nhưng ngân hàng có đủ cơ sở để đánh giá khách hàng có khả năng trả đầy đủ nợ gốc và lãi theo thời hạn trả nợ đã cơ cấu lại
Ngân hàng (NH) thực hiện phân loại nợ như sau
+ Nợ đã quá hạn từ 1 đến dưới 90 ngày
+ Nợ đã được cơ cấu lại thời hạn trả nợ trong hạn
Trang 6+ Những khoản nợ được đánh giá là có khả năng thu hồi đầy đủ cả gốc và lãi nhưng có dấu hiệu khách hàng bị suy giảm khả năng trả nợ
- Nhóm 3 (nợ dưới tiêu chuẩn) :
+ Các khoản nợ quá hạn từ 90 đến 180 ngày
+ Các khoản nợ được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn dưới 90 ngày + Nợ được đánh giá là không có khả năng thu hồi đầy đủ cả gốc và lãi khi đến hạn, và có khả năng tổn thất một phần nợ gốc và lãi
- Nhóm 4 (nợ nghi ngờ) :
+ Các khoản nợ quá hạn từ 181 đến 360 ngày
+ Các khoản nợ được được cơ cấu lại thời hạn trả nợ nhưng bị quá hạn từ 90 đến
Trường hợp một khách hàng có nhiều hơn một (01) khoản nợ với NH mà có bất kỳ khoản nợ bị chuyển sang nhóm nợ rủi ro cao hơn thì NH bắt buộc phải phân loại các khoản nợ còn lại của khách hàng đó vào các nhóm nợ rủi ro cao hơn tương ứng với mức độ rủi ro
Trường hợp các khoản nợ (kể cả các khoản nợ trong hạn và các khoản nợ cơ cấu lại thời hạn trả nợ trong hạn theo thời hạn nợ đã cơ cấu lại) mà NH có đủ cơ
Trang 7sở để đánh giá là khả năng trả nợ của khách hàng bị suy giảm thì NH chủ động
tự quyết định phân loại các khoản nợ đó vào các nhóm nợ rủi ro cao hơn tương ứng với mức độ rủi ro
Nợ xấu (NPL) là các khoản nợ thuộc các nhóm 3, 4 và 5 Tỷ lệ nợ xấu trên tổng dư nợ là tỷ lệ để đánh giá chất lượng tín dụng của NH
NH sử dụng dự phòng rủi ro để bù đắp tổn thất đối với các khoản nợ:
Tỷ lệ trích lập dự phòng cụ thể đối với các nhóm nợ quy định như sau: Nhóm 1: 0%; Nhóm 2: 5%; Nhóm 3: 20%; Nhóm 4: 50%; Nhóm 5: 100% Riêng đối với các khoản nợ khoanh chờ chính phủ xử lý thì được trích lập dự phòng cụ thể theo khả năng tài chính của NH
Đối với các khoản nợ xấu (NPL), NH phải thực hiện việc phân loại nợ, đánh
giá khả năng trả nợ của khách hàng trên cơ sở hàng tháng để phục vụ cho công tác quản lý chất lượng và rủi ro tín dụng
NH phải xây dựng hệ thống xếp hạng tín dụng nội bộ để hỗ trợ cho việc phân loại nợ, quản lý chất lượng tín dụng phù hợp với phạm vi hoạt động, tình hình thực tế của NH Hệ thống xếp hạng tín dụng nội bộ tối thiểu phải bao gồm:
- Các cơ sở pháp lý liên quan đến thành lập và ngành nghề kinh doanh của khách hàng
- Các chỉ tiêu kinh tế tổng hợp liên quan đến tình hình kinh doanh, tài chính, tài sản, khả năng thực hiện nghĩa vụ theo cam kết
- Uy tín đối với NH đã giao dịch trước đây
- Tiêu chí đánh giá khách hàng chi tiết, cụ thể, có hệ thống (đánh giá yếu tố ngành nghề và địa phương) trên cơ sở đó xếp hạng cụ thể đối với khách hàng
NH sử dụng dự phòng để xử lý rủi ro tín dụng đối với các khoản nợ trong các trường hợp sau đây:
- Khách hàng là tổ chức, doanh nghiệp bị giải thể, phá sản theo quy định của pháp luật; cá nhân bị chết hoặc mất tích
Trang 8- Các khoản nợ thuộc nhóm 5 được quy định Riêng các khoản nợ khoanh chờ chính phủ xử lý, NH được sử dụng dự phòng (nếu có) để xử lý rủi ro tín dụng
4 Nguyên tắc vay vốn
- Sử dụng vốn vay đúng mục đích đã thoả thuận trong hợp đồng tín dụng
- Phải hoàn trả tiền vay cả vốn và lãi đúng hạn đã thoả thuận trong hợp đồng tín dụng
5 Điều kiện vay vốn
Các khách hàng muốn được vay vốn Ngân hàng phải có các điều kiện sau đây:
- Có năng lực pháp luật dân sự, năng lực hành vi dân sự và chịu trách nhiệm dân
sự theo quy định của pháp luật
- Mục đích sử dụng vay vốn hợp pháp
- Có khả năng tài chính đảm bảo trả nợ trong thời hạn cam kết
- Có dự án đầu tư, phương án sản xuất kinh doanh, dịch vụ khả thi và có hiệu quả
Thực hiện quy định về bảo đảm tiền vay theo quy định của chính phủ và hướng dẫn của Ngân hàng Nhà nước Việt Nam
6 Căn cứ xác định định mức cho vay
- Nhu cầu vay vốn của khách hàng
- Mức vốn tự có của khách hàng tham gia vào dự án, phương án sản xuất, kinh doanh, dịch vụ, đời sống
- Tỷ lệ cho vay tối đa so với giá trị tài sản bảo đảm tiền vay theo quy định về bảo đảm tiền vay của ngân hàng đó
- Khả năng hoàn trả nợ của khách hàng vay
- Khả năng nguồn vốn của mỗi ngân hàng nhưng không qua mức ủy quyền phán quyết cho vay của tổng giám đốc NH cho vay
7 Đối tƣợng áp dụng
Trang 9 Ngân hàng cho vay các đối tượng sau:
- Giá trị vật tư, hàng hoá, máy móc, thiết bị và các khoản chi phí để khách hàng thực hiện các dự án sản xuất, kinh doanh dịch vụ
- Số tiền vay trả cho các tổ chức tín dụng trong thời gian thi công chưa bàn giao
và đưa tài sản cố định vào sử dụng đối với cho vay trung và dài hạn để đầu tư tài sản cố định mà khoản lãi được tính trong giá trị tài sản cố định đó
Ngân hàng không cho vay các đối tượng sau:
- Số tiền thuế phải nộp
- Số tiền để trả nợ gốc và lãi vay cho các tổ chức tín dụng khác
- Số tiền vay trả cho chính tổ chức tín dụng cho vay vốn
II Các mô hình phân tích đánh giá rủi ro tín dụng
nợ vay mà không cần đến một sức ép nào?
- Trường hợp khách hàng không trả nợ, liệu NH có thể thu hồi nợ bằng tài sản hay thu nhập của người vay một cách nhanh chóng với chi phí và rủi ro thấp?
Những nội dung cần đi sâu vào phân tích
1 Người vay có thể tín nhiệm?
Điều này liên quan đến việc nghiên cứu chi tiết “6 khía cạnh – 6C” của người xin vay là: tư cách (Character), năng lực (Capacity), thu nhập (Cash), bảo đảm
Trang 10(Collateral), điều kiện (Conditions), và kiểm soát (Control) Tất cả chỉ tiêu này phải được đánh giá tốt, thì khoản vay mới được xem là khả thi
- Tư cách người vay: cán bộ tín dụng phải chắc chắn rằng người xin vay có mục đích rõ ràng và có thiện chí trả nợ khi đến hạn, có tỏ thái độ trách nhiệm trong việc sử dụng vốn vay
- Năng lực của người vay: cán bộ tín dụng phải chắc chắn rằng người xin vay phải có đủ năng lực hành vi và năng lực pháp lý để ký kết hợp đồng tín dụng
- Thu nhập của người vay: người vay có khả năng tạo ra đủ tiền để trả nợ? Nhìn chung người vay có ba khả năng để tạo ra tiền đó là: (i) luồng tiền từ doanh thu bán hàng hay từ thu nhập, (ii) bán thanh lý tài sản, (iii) tiền từ phát hành chứng khoán nợ hay chứng khoán vốn Bất cứ nguồn thu nào từ ba khả năng này đều có thể sử dụng để trả nợ vay cho NH Tuy nhiên khả năng thứ nhất được ưu tiên hơn cả
- Bảo đảm tiền vay: người vay có sở hữu một giá trị nào hay tài sản nào có chất lượng để hỗ trợ cho khoản vay
- Các điều kiện: phải biết xu hướng hiện hành về công việc kinh doanh và ngành nghề của người vay, cũng như khi kinh tế thay đổi sẽ có ảnh hưởng như thế nào đến khoản tín dụng
- Kiểm soát: tập trung vào các vấn đề như các thay đổi trong luật pháp và quy chế có ảnh hưởng xấu đến người vay?
Trang 11chế thu hồi nợ vay (khi nào và ở đâu ngân hàng sẽ hành động cưỡng chế thu hồi
nợ vay) cũng phải được quy định cụ thể và rõ ràng trong hợp đồng tín dụng
3 Ngân hàng có thể đòi nợ thuận lợi bằng tài sản bảo đảm ?
3.1 Lý do nhận bảo đảm tín dụng:
Trong khi những công ty lớn và các khách hàng khác có hệ số tín nhiệm cao không cần có bảo đảm tín dung Những khách hàng còn lại thường được yêu cầu phải có biện pháp bảo đảm tín dụng như cầm cố, thế chấp tài sản hay bảo lãnh trả nợ của người thứ ba Việc NH nhận bảo đảm tín dụng nhằm hai mục đích là: thứ nhất, nếu người vay không trả nợ theo quy định, thì ngân hàng có quyền bán tài sản cầm cố hay thế chấp để thu hồi nợ; thứ hai, nhận bảo đảm tín dụng tạo cho ngân hàng lợi thế về tâm lý so với người vay
Khi nhận bảo đảm tín dụng, ngân hàng phải xác định rõ ràng và chính xác những tài sản nào là đối tượng có thể gán nợ và có thể bán được, đồng thời phải chứng minh được bằng văn bản cho các chủ nợ khác biết rằng mình là người hợp pháp có quyền chiếm đoạt tài sản nếu như người vay không trả được nợ
3.2 Các loại bảo đảm tín dụng thông thường
a) Tài khoản phải thu: NH nhận bảo đảm tín dụng bằng việc quy định tỷ lệ % (thông thường từ 40 đến 90%) giá trị của tài khoản phải thu (bán hàng chịu, hay tín dụng thương mại) theo số liệu trên bảng cân đối tài chính Khi khách hàng của người vay thanh toán tiền hàng mua chịu, thì số tiền này được dùng để trả
nợ cho NH
b) Bao thanh toán: NH có thể mua tài khoản phải thu của người vay theo một
tỷ lệ nhất định theo giá trị ghi sổ Tỷ lệ % này phụ thuộc vào chất lượng và thời hạn của các khoản phải thu Bởi vì NH đã mua khoản phải thu, nên NH sẽ thông báo cho khách hàng của người vay là khoản tiền thanh toán mua hàng chịu sẽ trả trực tiếp cho NH Thông thường, người vay phải cam kết với NH là sẽ bù đắp những khoản tiền phải thu nhưng thực tế không thu được
Trang 12c) Hàng tồn kho: Để bảo đảm tín dụng, NH có thể nhận hàng tồn kho, vật tư, nguyên liệu của người vay làm tài sản cầm cố Thông thường NH chỉ cho vay một tỷ lệ % nhất định (từ 30 đến 80%) trên giá trị thị trường hiện hành của tài sản cầm cố, nhằm phòng ngừa hàng hóa giảm giá Tài sản cầm cố có thể do người vay kiểm soát hoàn toàn, nhưng giấy tờ sở hữu do NH nắm giữ hoặc NH
là người nắm giữ tài sản cầm cố cho đến khi nào nợ được trả hoàn toàn
d) Thế chấp tài sản cố định: Các NH cũng có thể chấp nhận bảo đảm tín dụng bằng tài sản cố định (đất đai và những công trình gắn liền với đất)
e) Bảo lãnh của bên thứ ba: Trong trường hợp người vay không có tài sản bảo đảm tín dụng thì phải có một bên thứ ba đứng ra bảo lãnh Bảo lãnh là việc bên thứ ba cam kết với bên cho vay là sẽ thực hiện nghĩa vụ trả nợ thay cho người vay, nếu người vay không trả được nợ khi đến hạn Bảo lãnh có thể là có bảo đảm bằng tài sản hoặc uy tín
2 Xây dựng kế hoạch, chương trình, nội dung quá trình kiểm tra một cách thận trọng và chi tiết, bảo đảm rằng những khía cạnh quan trọng nhất của mỗi khoản tín dụng phải được kiểm tra, bao gồm:
a) Kế hoạch trả nợ của khách hàng, nhằm bảo đảm rằng khách hàng không chậm trễ trong việc thanh toán nợ theo kế hoạch
b) Chất lượng và điều kiện của tài sản dùng làm bảo đảm tín dụng
Trang 13c) Tính đầy đủ và hợp lệ của hợp đồng tín dụng, bảo đảm rằng ngân hàng có đầy đủ thẩm quyền hợp pháp để sở hữu các tài sản bảo đảm tín dụng đối với người vay trước tòa án nếu cần thiết
d) Đánh giá điều kiện tài chính và những dự báo về người vay xem đã thay đổi, trên cơ sở đó xem xét lại nhu cầu tín dụng của người vay thay đổi như thế nào
e) Đánh giá xem khoản tín dụng có tuân thủ chính sách cho vay của ngân hàng và các tiêu chuẩn do cơ quan quản lý đặt ra
3 Kiểm tra thường xuyên những khoản tín dụng lớn, nếu các khoản nợ này
bị vỡ ảnh hưởng nghiêm trọng đến tài chính của NH
4 Quản lý chặt chẽ và thường xuyên các khoản tín dụng có vấn đề, tăng cường kiểm tra giám sát khi phát hiện những dấu hiệu không lành mạnh liên quan đến khoản tín dụng của NH
5 Tăng cường kiểm tra tín dụng khi kinh tế có những biểu hiện đi xuống, hoặc những ngành nghề sử dụng nhiều tín dụng của NH có biểu hiện những vấn
đề nghiêm trọng trong phát triển (ví dụ như xuất hiện các đối thủ cạnh tranh mới, hay có sự áp dụng công nghệ mới, đòi hỏi phải có sản phẩm mới và các phương pháp phân phối mới)
Kiểm tra tín dụng là công việc rất cần thiết để hình thành chính sách cho vay của ngân hàng một cách lành mạnh
1.3 Xử lý tín dụng có vấn đề
Cho dù hầu hết các NH đã xây dựng một cơ chế bảo đảm an toàn tín dụng, nhưng vẫn không thể tránh khỏi những khoản tín dụng có vấn đề Nội dung tín dụng vấn đề ít nhiều là khác nhau trong các tình huống khác nhau, nhưng có một
số đặc trưng sau:
Trang 141 Sự chậm trễ bất thường và không có lý do trong việc cung cấp các báo cáo tài chính và trả nợ theo lịch đã thỏa thuận, hoặc chậm trễ với việc liên lạc với cán bộ tín dụng
2 Đối với tín dụng doanh nghiệp, bất cứ sự thay đổi bất thường nào trong khấu hao, kế hoạch trả lương và phụ cấp, giá trị hàng tồn kho, tài khoản thuế và thu nhập
3 Đối với tín dụng doanh nghiệp, việc cơ cấu lại nợ hay hạn chế thanh toán
cổ tức, hoặc có sự thay đổi vị trí xếp hạng tín nhiệm
4 Giá cổ phiếu của công ty thay đổi bất lợi
5 Thu nhập dòng giảm trong một hay nhiều năm, đặc biệt là các chỉ tiêu như:
tỷ lệ sinh lời trên tổng tài sản (ROA), tỷ lệ sinh lời trên vốn cổ phần (ROE), hay lợi tức trước thuế và lãi suất (EBIT)
6 Những thay đổi bất lợi trong cơ cấu nguồn vốn (chỉ tiêu vốn cố phần trên
nợ vay), thanh khoản (chỉ tiêu thanh khoản hiện hành), hay mức độ hoạt động (ví dụ chỉ tiêu doanh thu trên hàng tồn kho)
7 Độ lệch của doanh thu hay lưu chuyển tiền tệ so với kế hoạch khi mà tín dụng đã được cấp
8 Những thay đổi bất ngờ, không dự kiến và không có lý do đối với số dư tiền gửi của khách hàng tại NH
Khi tín dụng có vấn đề các chuyên gia NH sẽ tìm ra các giải pháp nhằm thu hồi những khoản tín dụng có vấn đề theo một số bước như sau:
1 Luôn luôn đặt mục tiêu là: tận dụng tối đa các cơ hội để thu hồi đầy đủ
Trang 154 Chuyên gia xử lý tín dụng cần hội ý khẩn với khách hàng về các giải pháp có thể Xây dựng kế hoạch hành động sau khi đã xác định được rủi ro đối với NH và bổ sung hồ sơ tín dụng (đặc biệt là yêu cầu bổ sung tài sản làm vật bảo đảm tín dụng để phù hợp với tình hình mới)
5 Dự tính những nguồn có thể dùng để thu nợ có vấn đề (bao gồm nguồn thu từ thanh lý tài sản và số dư tiền gửi tại NH)
6 Chuyên gia cần nghiên cứu nghĩa vụ thuế và những tranh chấp xem khách hàng còn nghĩa vụ tài chính nào chưa thực hiện
7 Đối với doanh nghiệp chuyên gia cần đánh giá chất lượng, năng lực và
sự nhất quán trong quản lý, đồng thời trực tiếp tiến hành khảo sát các hoạt động
và các tài sản của doanh nghiệp
8 Chuyên gia phải cân nhắc mọi phương án có thể hoàn thành việc thu hồi
nợ có vấn đề, bao gồm cả việc thỏa thuận gia hạn nợ tạm thời nếu khách hàng chỉ gặp khó khăn trước mắt, hoặc tìm kiếm giải pháp nhằm tăng cường lưu chuyển tiền tệ cho khách hàng Hoặc bổ sung tài sản bảo đảm tín dụng, yêu cầu
có bảo lãnh của người thứ ba, cơ cấu lại doanh nghiệp, sát nhập, hay thanh lý công ty, nộp đơn xin phá sản
2 Các mô hình lƣợng hóa rủi ro tín dụng
20 năm trở về trước, hầu hết các ngân hàng sử dụng phương pháp truyền thống để đánh giá rủi ro tín dụng người vay Phương pháp này vừa mất thời gian, tốn kém, lại mang tính chủ quan
Ngày nay, một số ngân hàng đã sử dụng mô hình cho điểm để lượng hóa rủi
ro tín dụng người vay Mô hình cho điểm tín dụng có ưu điểm so với phương pháp truyền thống ở chỗ là, nó cho phép sử lý nhanh chóng một khối lượng lớn các đơn xin vay, với chi phí thấp, khách quan, do đó góp phần kiểm soát rủi ro tín dụng ngân hàng Các mô hình cho điểm tín dụng sử dụng các số liệu phản ánh những đặc điểm của người vay thành các nhóm có mức độ rủi ro khác nhau
Để sử dụng mô hình này, nhà quản lý phải xác định được các tiêu chí về kinh tế
và tài chính liên quan đến rủi ro tín dụng đối với từng nhóm khách hàng cụ thể
Trang 16Đối với tín dụng tiêu dùng, các tiêu chí đó có thể là thu nhập, tài sản, tuổi tác, giới tính, nghề nghiệp và nơi ở Đối với tín dụng công ty, thì các chỉ tiêu tài chính (như hệ số đòn bảy, ) thường là các chỉ tiêu chủ yếu Sau khi các tiêu chí
đã được xác định, kỹ thuật thống kê sẽ được sử dụng để lượng hóa (cho điểm) xác suất rủi ro tín dụng hoặc để phân hạng rủi ro tín dụng
Dưới đây là một số mô hình lượng hóa rủi ro tín dụng cơ bản thường được sử dụng nhất
Mô hình phân biệt tuyến tính (đối với khách hàng là doanh nghiệp)
Z = 1,2X1 + 1,4X2+3,3X3+0,6X4+0,99X5
X1= Tỷ số vốn lưu động ròng/Tổng tài sản
X2= Tỷ số lợi nhuận giữ lại/Tổng tài sản
X3= Tỷ số lợi nhuận trước thuế và tiền lãi/Tổng tài sản
X4= Tỷ số thị giá cổ phiếu/Giá trị ghi sổ của nợ dài hạn
X5= Tỷ số doanh thu/Tổng tài sản
Z>3: người vay không có khả năng vỡ nợ
1,8>Z>3: không xác định được
Z<1,8: người vay có khả năng rủi ro
Mô hình điểm số tín dụng tiêu dùng (đối với khách hàng là cá nhân)
Tuy có một số tiêu chí chung cho mô hình chấm điểm tín dụng để xếp hạng khách hàng, nhưng đối với những ngân hàng khác nhau thì điểm số tín dụng là khác nhau Dưới đây là một VD về mô hình chấm điểm tín dụng tiêu dùng
STT Các hạng mục xác định chất lượng tín dụng Điểm số
Chuyên gia hay phụ trách kinh doanh 10
Công nhân có kinh nghiệm (tay nghề cao) 8
Trang 17Công nhân không có kinh nghiệm 4
5 Thời gian cư trú tại điểm hiện tại
Tài khoản tiết kiệm & tiết kiệm thẻ 4
Trang 18Tuy nhiên ngay cả khi được đánh giá là khách hàng loại tốt, 3 tiêu chí trên đều tốt, và ngân hàng cấp vốn vay, thì nguy cơ rủi ro tín dụng là vẫn có thể xảy
ra Rủi ro tín dụng ảnh hưởng rất lớn đến nguồn kinh tế và sự phát triển của ngân hàng, và của nền kinh tế nước nhà Vì vậy việc dự đoán và phòng ngừa rủi
ro đóng vai trò hết sức quan trọng
Kỹ thuật khai phá dữ liệu áp dụng cho bài toán rủi ro tín dụng để tìm ra những nguồn tri thức mới, giúp cho các chuyên gia ngân hàng đánh giá, phòng ngừa rủi ro là rất cần thiết
Kỹ thuật khai phá dữ liệu là gì và ứng dụng của nó cho bài toán rủi ro như thế nào tôi xin được trình bày tiếp ở chương sau
Trang 19CHƯƠNG II CÂY QUYẾT ĐỊNH
Bài toán dự đoán rủi ro tín dụng là việc dự đoán các nhóm nợ của mỗi khoản vay Nói cách khác đây chính là bài toán phân lớp với nhãn lớp là chỉ số nhóm nợ dựa vào các thông tin liên quan đến khách hàng vay vốn
Có một vài phương pháp khác nhau đã được đề xuất cho bài toán phân lớp
dữ liệu như mạng notron, mô hình thống kê tuyến tính bậc 2, cây quyết định, mô hình di truyền Trong số những mô hình đó, cây quyết định được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho Data Mining nói chung
và phân lớp dữ liệu nói riêng Những ưu điểm của cây quyết định như: xây dựng tương đối nhanh; đơn giản, dễ hiểu Hơn nữa, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác
Vậy cây quyết định là gì? Các thuật toán xây dựng và ứng dụng của cây quyết định ra sao? Chúng ta sẽ cùng tìm hiểu ở các mục tiếp theo
I Cây quyết định
Cây quyết định (decision tree) là công cụ dùng để phân lớp dữ kiện, nó có cấu trúc cây Mỗi cây quyết định là một tượng trưng cho một sự quyết định của một lớp các dữ kiện nào đó Mỗi nút trong cây là tên của một lớp hay một phép thử thuộc tính cụ thể nào đó, phép thử này phân chia không gian trạng thái các
dữ kiện tại nút đó thành các kết quả có thể đạt được của phép thử Mỗi tập con được phân chia của phép thử là không gian con của các sự kiện, nó tương ứng với một vấn đề con của sự phân lớp
1 Định nghĩa cây quyết định
Trong lý thuyết quyết định, một cây quyết định (decision tree) là một đồ thị của
các quyết định và hậu quả có thể của nó (bao gồm cả rủi ro và hao phí tài
Trang 20nguyên ) Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định Cây quyết định là một dạng đặc biệt của cấu trúc cây
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo
(predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật /hiện
tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong
(internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó
thể hiện giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của biến được biểu diễn bởi đường
đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi
là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hoá một tập dữ liệu cho trước
2 Các kiểu cây quyết định
Cây quyết định có 2 tên khác:
Cây hồi quy: ước lượng các hàm có giá trị là số thực thay vì được sử dụng
cho các nhiệm vụ phân loại
Cây phân loại: có chứa các biến phân loại như: giới tính (nam hay nữ), kết
quả của một trận đấu (thắng hay thua)
3 Ví dụ
David là quản lý của một câu lạc bộ đánh golf nổi tiếng Anh ta đang có rắc rối chuyện các thành viên đến chơi hay không Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ Có hôm, không hiểu vì
lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên
Trang 21Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf Để thực hiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không
Vậy là trong hai tuần, anh ta thu thập thông tin về:
Trời (outlook) (nắng (sunny), nhiều mây (clouded) hoặc mưa (raining)) Nhiệt độ (temperature) bằng độ F Độ ẩm (humidity) Có gió mạnh (windy) hay không
Và David thu được một bộ dữ liệu gồm 14 dòng và 5 cột
Bảng 3.1 Tập dữ liệu phân lớp người chơi gold
Sau đó, để giải quyết bài toán của David, người ta đã đưa ra một mô hình cây quyết định
Trang 22Hình 3.1 Cây quyết định phân lớp người chơi gold
Cây quyết định là một mô hình dữ liệu mã hóa phân bố của nhãn lớp (cũng là y) theo các thuộc tính dùng để dự đoán Đây là một đồ thị có hướng phi chu trình dưới dạng một cây Nút gốc (nút nằm trên đỉnh) đại diện cho toàn bộ
dữ liệu Thuật toán cây phân loại phát hiện ra rằng cách tốt nhất để giải thích biến phụ thuộc, play (chơi), là sử dụng biến Outlook Phân loại theo các giá trị của biến Outlook, ta có ba nhóm khác nhau: Nhóm người chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, và nhóm chơi khi trời mưa
Kết luận thứ nhất: nếu trời nhiều mây, người ta luôn luôn chơi golf Và có một số người ham mê đến mức chơi golf cả khi trời mưa
Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con Ta thấy rằng khách hàng không muốn chơi golf nếu độ ẩm lên quá 70%
Cuối cùng, ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ không chơi golf nếu trời nhiều gió
Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây phân loại David cho phần lớn nhân viên nghỉ vào những ngày trời nắng và ẩm, hoặc những ngày mưa gió Vì hầu như sẽ chẳng có ai chơi golf trong những ngày đó Vào những hôm khác, khi nhiều người sẽ đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ giúp công việc
Trang 23Kết luận là cây quyết định giúp ta biến một biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản hơn rất nhiều
4 Ƣu điểm của cây quyết định
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm:
Cây quyết định dễ hiểu Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn gọn
Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng
Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến Chẳng hạn, các luật quan hệ chỉ
có thể dùng cho các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số
Cây quyết định là một mô hình hộp trắng Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được
Có thể thẩm định một mô hình bằng các kiểm tra thống kê Điều này làm cho ta có thể tin tưởng vào mô hình
Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa
ra quyết định dựa trên phân tích của cây quyết định
5 Vấn đề xây dựng cây quyết định
Trang 24Xây dựng cây quyết định là việc làm quan trọng nhất trong việc sử dụng cây quyết định để KPDL Có nhiều thuật toán khác nhau để xây dựng cây quyết định Một số thuật toán cơ bản là: CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0…Quá trình xây dựng cây quyết định dù được thực hiện bằng thuật toán nào, thì nói chung đều chia ra làm ba giai đoạn cơ bản như sau
a Xây dựng cây
Thực hiện chia một cách đệ quy tập dữ liệu huấn luyện cho đến khi các mẫu ở mỗi nút lá thuộc cùng một lớp Ngoại trừ các nút lá ra thì các nút không phải là nút lá đều được kiểm tra các thuộc tính để tìm ra thuộc tính được chọn cho việc phân tách tiếp theo Nhãn của nút có phép tách này là nhãn của thuộc tính, đồng thời tập dữ liệu tại nút này được phân tách ra làm các tập con theo các giá trị của thuộc tính đó
b Cắt tỉa cây
Thông thường thì cây được sinh ra trong hoạt động tốt trên tập dữ liệu huấn luyện, tuy nhiên cây có thể hoạt động không chính xác trên các tập dữ liệu
bị nhiễu hoặc bị thiếu Vì vậy cần phải có giai đoạn cắt tỉa cây để tối ưu hoá cây,
đó là tối ưu hoá về độ lớn và độ chính xác của sự phân lớp các mẫu dữ liệu Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá
c Đánh giá cây
Là đánh giá độ chính xác của cây kết quả Tiêu chí để đánh giá độ chính xác của cây quyết định là tỷ số các mẫu được phân lớp chính xác trên tổng số các mẫu đưa vào
6 Rút ra các luật từ cây quyết định
Có thể chuyển đổi qua lại giữa mô hình cây quyết định và mô hình dạng luật IF THEN và ngược lại Hai mô hình này là tương đương
II Một số thuật toán xây dựng cây
1 Thuật toán CLS
Trang 25Xây dựng cây quyết định lần đầu tiên được Hoveland và Hint giới thiệu
trong Concept Learning System (CLS) vào cuối những năm 50 của thế kỷ 20
Sau đó gọi tắt là thuật toán CLS Thuật toán CLS được thiết kế theo chiến lược chia để trị từ trên xuống và gồm các bước sau [3]:
1) Tạo một nút T, nút này gồm tất cả các mẫu của tập huấn luyện
2) Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "yes" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "yes" và dừng lại T lúc này là nút lá
3) Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "no" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "no" và dừng lại T lúc này là nút
iv Tạo các nhánh nối từ nút T đến các nút Ti (i=1,2…n)
5) Thực hiện lặp cho các nút con Ti(i =1,2 n) và quay lại bước 2
Ta nhận thấy trong bước 4 của thuật toán, thuộc tính được chọn để triển khai cây là tuỳ ý Do vậy cùng với một tập mẫu dữ liệu huấn luyện nếu áp dụng thuật toán CLS với thứ tự chọn thuộc tính triển khai cây khác nhau, sẽ cho ra các cây có hình dạng khác nhau Việc lựa chọn thuộc tính sẽ ảnh hưởng tới độ rộng,
độ sâu, độ phức tạp của cây Vì vậy một câu hỏi đặt ra là thứ tự thuộc tính nào được chọn để triển khai cây sẽ là tốt nhất Vấn đề này sẽ được giải quyết trong thuật toán ID3 dưới đây
2 Thuật toán ID3
Thuật toán ID3 được phát biểu bởi Quinlan (trường đại học Syney, Australia) và được công bố vào cuối thập niên 70 của thế kỷ 20 Sau đó, thuật
Trang 26toán ID3 được giới thiệu và trình bày trong mục Induction on Decision Trees, Machine learning năm 1986
Giải thuật quy nạp cây ID3 (gọi tắt là ID3) là một giải thuật học đơn giản nhưng tỏ ra thành công trong nhiều lĩnh vực ID3 biểu diễn các khái niệm (concept) ở dạng cây quyết định (decision tree) Biểu diễn này cho phép chúng
ta xác định phân loại đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó Như vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định
từ tập dữ liệu rèn luyện (training data) Hay nói khác hơn, giải thuật có:
Đầu vào: Một tập hợp các ví dụ Mỗi ví dụ bao gồm các thuộc tính
mô tả một tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các
ví dụ chưa gặp trong tương lai
* ID3 xây dựng cây quyết định theo giải thuật sau [4]:
Function induce_tree(tập_ví_dụ, tập_thuộc_tính)
begin
if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then
return một nút lá được gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_ví_dụ
else
begin
chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;
xóa P ra khỏi tập_thuộc_tính;
với mỗi giá trị V của P
begin
tạo một nhánh của cây gán nhãn V;
Trang 27Đặt vào phân_vùngV các ví dụ trong tập_ví_dụ có giá trị V tại thuộc tính P;
Gọi induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết quả vào nhánh
cây quyết định từ trên xuống (top -down) bắt đầu từ một tập các đối tượng và
các thuộc tính của nó [1] Tại mỗi nút của cây, tiến hành việc kiểm tra các thuộc tính để tìm ra thuộc tính tốt nhất được sử dụng để phân chia tập các đối tượng mẫu, theo các giá trị của thuộc tính được chọn để mở rộng Quá trình này được thực hiện một cách đệ quy cho đến khi mọi đối tượng của phân vùng đều thuộc cùng một lớp; lớp đó trở thành nút lá của cây Để làm được việc này thuật toán ID3 có sử dụng tới hai hàm Entropy và Gain
Hàm entropy
Khái niệm entropy của một tập S được định nghĩa trong Lý thuyết thông tin là số lượng mong đợi các bít cần thiết để mã hóa thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập S Trong trường hợp tối ưu, mã có
độ dài ngắn nhất Theo lý thuyết thông tin, mã có độ dài tối ưu là mã gán –log2p bits cho thông điệp có xác suất là p
Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví dụ, mỗi ví
dụ thuộc một lớp hay có một giá trị phân loại
Entropy có giá trị nằm trong khoảng [0 1],
Entropy(S) = 0 tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay
S là thuần nhất
Trang 28 Entropy(S) = 1 tập ví dụ S có các ví dụ thuộc các loại khác nhau với độ pha trộn là cao nhất
0 < Entropy(S) < 1 tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là không bằng nhau
Để đơn giản ta xét trường hợp các ví dụ của S chỉ thuộc loại âm (-) hoặc dương (+)
• p+ là phần các ví dụ dương trong tập S
• p- là phần các ví dụ âm trong tập S
Khi đó, entropy đo độ pha trộn của tập S theo công thức sau:
Entropy(S) = -p+log2p+ - p-log2p- (3.1)
Một cách tổng quát hơn, nếu các ví dụ của tập S thuộc nhiều hơn hai loại, giả sử
là có c giá trị phân loại thì công thức entropy tổng quát là:
Information gain ( viết tắt là gain) [5]
Gain là đại lượng dùng để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc phân lớp Giá trị Gain của thuộc tính A trong tập S ký hiệu là Gain(S,A) và được tính theo công thức sau :
)(
|
|
|
|)
()
,(
) (
v A
Values v
v
S Entropy S
S S
Entropy A
Trong đó: S là tập hợp ban đầu các mẫu với thuộc tính A
Các giá trị v tương ứng là các giá trị của thuộc tính A
Sv bằng tập hợp con của tập S mà có thuộc tính A mang giá trị v
Trang 29Đầu tiên ta tính độ thuần nhất của tập dữ liệu:
Entropy(S) = - (9/14) Log 2 (9/14) - (5/14) Log 2 (5/14) = 0.940
Bảng 3.2 Tập dữ liệu phân lớp người chơi gold
Từ đó ta tính tiếp Gain cho từng thuộc tính để suy ra thuộc tính nào được chọn làm nút gốc
Gain(S, Quang cảnh) = Entropy(S) – (5/14)Entropy(S Nắng ) – (4/14)Entropy(S Âm u ) – (5/14) Entropy(S Mưa ) = 0.246
Tương tự cho các Gain khác:
Gain(S, Nhiệt độ) = 0.029
Trang 30Sau khi lập được cấp đầu tiên của cây quyết định ta lại xét nhánh Nắng
Tiếp tục lấy Entropy và Gain cho nhánh Nắng ta được hiệu suất như sau:
Trang 31Hình 3.3
Không gian tìm kiếm giả thuyết trong ID3
ID3 thực hiện một phép tìm kiếm từ đơn giản đến phức tạp, theo giải thuật leo-núi (hill climbing), bắt đầu từ cây rỗng, sau đó dần dần xem xét các giả thuyết phức tạp hơn mà có thể phân loại đúng các ví dụ rèn luyện Từ cách nhìn ID3 như là một giải thuật tìm kiếm trong không gian các giả thuyết, ta có một số nhận xét như sau:
Không gian giả thuyết các cây quyết định của ID3 là một không gian đầy đủ các cây quyết định trên các thuộc tính đã cho trong tập rèn luyện Điều này có nghĩa là không gian mà ID3 tìm kiếm chắc chắn
có chứa cây quyết định cần tìm
Trong khi tìm kiếm, ID3 chỉ duy trì một giả thuyết hiện tại Vì vậy, giải thuật này không có khả năng biểu diễn được tất cả các cây quyết định khác nhau có khả năng phân loại đúng dữ liệu hiện có
Trang 32 Giải thuật thuần ID3 không có khả năng quay lui trong khi tìm kiếm
Vì vậy, nó có thể gặp phải những hạn chế giống như giải thuật leo núi, đó là hội tụ về cực tiểu địa phương
Vì ID3 sử dụng tất cả các ví dụ ở mỗi bước để đưa ra các quyết định dựa trên thống kê, nên kết quả tìm kiếm của ID3 rất ít bị ảnh hưởng bởi một vài dữ liệu sai (hay dữ liệu nhiễu)
Trong quá trình tìm kiếm, giải thuật ID3 có xu hướng chọn cây quyết định ngắn hơn là những cây quyết định dài Đây là tính chất thiên lệch quy nạp của ID3
Khi nào nên sử dụng ID3
Giải thuật ID3 là một giải thuật học đơn giản nhưng nó chỉ phù hợp với một lớp các bài toán hay vấn đề có thể biểu diễn bằng ký hiệu
Khác với một số giải thuật khác cũng thuộc tiếp cận này, ID3 sử dụng các
ví dụ rèn luyện ở dạng xác suất nên nó có ưu điểm là ít bị ảnh hưởng bởi một vài
dữ liệu nhiễu Vì vậy, tập dữ liệu rèn luyện ở đây có thể chứa lỗi hoặc có thể thiếu một vài giá trị ở một số thuộc tính nào đó Một giải pháp thường được áp dụng đối với các dữ liệu bị thiếu là sử dụng luật đa số, chương trình tiền xử lý
dữ liệu sẽ điền vào các vị trí còn trống giá trị có tần số xuất hiện cao nhất của thuộc tính đó
ID3 được xem là một cải tiến của CLS Tuy nhiên thuật toán ID3 không
có khả năng xử lý đối với những dữ liệu có chứa thuộc tính số - thuộc tính liên tục (numeric attribute) và khó khăn trong việc xử lý các dữ liệu thiếu (missing data) và dữ liệu nhiễu (noisy data) Vấn đề này được giải quyết bởi cải tiến C4.5 sau đây
3 Thuật toán C4.5
Trang 33Thuật toán C4.5 được phát triển và công bố bởi Quinlan vào năm 1996 Thuật toán C4.5 là một thuật toán được cải tiến từ thuật toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính số (numeric atributes) và làm việc được với tập dữ liệu bị thiếu, bị nhiễu Nó thực hiện phân lớp tập mẫu dữ liệu
theo chiến lược ưu tiên theo chiều sâu (Depth - First)
Thuật toán xây dựng cây quyết định C4.5
Mô tả thuật toán dưới dạng giả mã như sau [1]:
Function xay_dung_cay(T)
{
1 <Tính toán tần xuất các giá trị trong các lớp của T>;
2 If <Kiểm tra các mẫu, nếu thuộc cùng một lớp hoặc có rất ít mẫu khác lớp>Then <Trả về 1 nút lá>
Else <Tạo một nút quyết định N>;
3 For <Với mỗi thuộc tính A> Do <Tính giá trị Gain(A)>;
4 <Tại nút N, thực hiện việc kiểm tra để chọn ra thuộc tính có giá trị Gain tốt nhất (lớn nhất) Gọi N.test là thuộc tính có Gain lớn nhất>;
5 If <Nếu N.test là thuộc tính liên tục> Then <Tìm ngưỡng cho phép tách của N.test>;
6 For <Với mỗi tập con T` được tách ra từ tập T> Do
( T` được tách ra theo quy tắc:
- Nếu N.test là thuộc tính liên tục tách theo ngưỡng ở bước 5
- Nếu N.test là thuộc tính phân loại rời rạc tách theo các giá trị của thuộc tính này
)
7 { If <Kiểm tra, nếu T' rỗng>} Then
<Gán nút con này của nút N là nút lá>;
Else
Trang 348 <Gán nút con này là nút được trả về bằng cách gọi đệ qui lại đối
với hàm xay_dung_cay(T'), với tập T'>;
Xét thuộc tính X có n giá trị lần lượt là L1,L2, Ln Khi đó, ta có thể chia tập T
ra thành n tập con Xi(i=1 n ) theo các giá trị của X Tần xuất freq (Cj,T) là số lượng mẫu của tập T nào đó được xếp vào lớp con Cj Xác xuất để một mẫu được lấy bất kỳ từ T thuộc lớp Cj là:
(3.4)
Khi đó Information (T) được tính theo công thức sau:
(3.5) Công thức này đánh giá số lượng thông tin trung bình cần thiết để phân lớp các mẫu trong tập hợp T Khi đó:
Trang 35Thuộc tính được lựa chọn tại một nút là thuộc tính có Gain lớn nhất Thuộc tính được chọn sẽ được dùng để phân lớp tập mẫu dữ liệu tại nút đó Quá trình phân chia được tiếp tục cho đến khi các mẫu trong tập dữ liệu được phân lớp hoàn toàn
Một số cải tiến của thuật toán C4.5:
1.Làm việc được với các thuộc tính số:
Nếu X là một thuộc tính liên tục (thuộc tính số) thì cần chọn một ngưỡng
(Threshold) nào đó để so sánh giá trị trong thuộc tính Giả sử, X là thuộc tính số
có tập hợp giá trị hữu hạn phân biệt: v1,v2,…vn Trước tiên, các giá trị của thuộc tính được sắp xếp bằng thuật toán QuickSort (sao cho v1<v2<…<vn) Sau
đó chọn một giá trị bất kỳ giữa vi và vi+1 để chia các mẫu T thành hai tập hợp Thông thường chọn giá trị trung bình của vi và vi+1
(3.8)
Chia T thành 2 tập T1 và T2 như sau: T1 = {vj | vj <=THi} và T2 = {vj | vj
>THi} Ứng với mỗi giá trị v như thế, ta tính được giá trị gain tương ứng Thuộc tính được lựa chọn là thuộc tính có giá trị gain lớn nhất
2 Làm việc với thuộc tính đa trị
Với cách tính giá trị Gain như công thức (3.7) thì thuật toán sẽ không phù hợp với thuộc tính có rất nhiều giá trị Để khắc phục vấn đề này, năm 1996 Quinlan đã đưa ra hàm GainRatio thay cho hàm Gain Công thức tính như sau:
Info(X)
Gain X GainRatio X
Split
(3.9)
Với:
n i 2 i=1
TInfo (X) =- log
T
i
T Split
Trang 36GainRatio là tiêu chuẩn để đánh giá việc lựa chọn thuộc tính phân loại (thuộc tính được chọn là thuộc tính có GainRatio lớn nhất)
3 Làm việc với dữ liệu bị thiếu
Quinlan đã đưa ra cách tính giá trị Gain và GainRatio đối với dữ liệu có các thuộc tính bị thiếu giá trị như sau:
x
| |( ) (Info(T)-Info ( ))
Giả sử mỗi mẫu trong Ti có một chỉ số xác định, xác suất thuộc tập hợp
Ti Nếu mẫu có giá trị thuộc tính L thì có trọng số bằng 1 Nếu trong trường hợp ngược lại, thì mẫu này liên quan đến tập con T1,T2,…Tn với xác xuất tương ứng