Chính vì vậy, ngân hàng có nhu cầu cấp thiết sử dụng các kỹ thuật phân lớp dữ liệu để giải quyết bài toán dự đoán rủi ro tín dụng.. Với mục đích nghiên cứu các phương pháp phân lớp dữ li
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
TRẦN QUỐC HUY
ỨNG DỤNG CÁC GIẢI THUẬT PHÂN LỚP
VÀO BÀI TOÁN DỰ ĐOÁN RỦI RO TÍN DỤNG
LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN
Hà Nội – Năm 2016
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
TRẦN QUỐC HUY
ỨNG DỤNG CÁC GIẢI THUẬT PHÂN LỚP VÀO BÀI TOÁN DỰ ĐOÁN RỦI RO TÍN DỤNG
Chuyên ngành: Công nghệ thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH KHANG
Hà Nội – Năm 2016
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác
Tác giả
Trang 4MỤC LỤC
LỜI CAM ĐOAN ii
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT iv
DANH MỤC CÁC BẢNG v
DANH MỤC CÁC HÌNH VẼ vi
MỞ ĐẦU 1
CHƯƠNG I TỔNG QUAN PHƯƠNG PHÁP PHÂN LỚP 3
1.1 Bài toán phân lớp dữ liệu 3
1.1.1 Định nghĩa phân lớp dữ liệu 3
1.1.2 Bài toán phân lớp dữ liệu trong thực tiễn 3
1.1.3 Các bước thực hiện của kỹ thuật phân lớp 4
1.2 Một số phương pháp phân lớp dữ liệu 5
1.2.1 Phương pháp cây quyết định 5
1.2.2 Phương pháp thống kê – Navie Bayes 10
1.2.3 Máy vector hỗ trợ (SVM) 14
1.2.4 Mạng nơ ron nhân tạo 19
1.2.5 Phương pháp phân lớp dựa trên luật mờ 25
1.3 Kết chương 28
CHUONG II BÀI TOÁN DỰ ĐOÁN RỦI RO TÍN DỤNG 29
2.1 Phân loại rủi ro tín dụng trong ngân hàng 29
2.1.1 Các khái niệm cơ bản về hoạt động tín dụng trong ngân hàng 29
2.1.2 Các nhóm rủi ro tín dụng trong ngân hàng 32
2.2 Bài toán phân lớp rủi ro tín dụng tại ngân hàng TMCP Đại Dương 33
2.2.1 Bộ dữ liệu sử dụng trong bài toán 34
2.2.2 Lựa chọn giải thuật giải quyết bài toán 36
2.3 Kết chương 36
CHƯƠNG III MẠNG NƠ RON PHÂN LỚP MỜ MIN MAX 37
3.1 Khái niệm hyperbox mờ 37
3.2 Mạng nơ ron phân lớp mờ min max 39
Trang 53.2.1 Kiến trúc mạng nơ ron phân lớp mờ min-max 39
3.2.2 Thuật toán học trong mạng nơ ron phân lớp mờ min max 40
3.2.3 Nhận xét 43
3.3 Mạng nơ ron phân lớp mờ min max cải tiến 44
3.3.1 Đầu vào của giải thuật 44
3.3.2 Kiến trúc 45
3.3.3 Thuật toán học mạng nơ ron phân lớp mờ min max cải tiến 47
3.3.4 Ví dụ minh họa 52
3.4 Áp dụng giải thuật vào bài toán rủi ro tín dụng trong ngân hàng TMCP Đại Dương 56
3.4.1 Miêu tả bộ dữ liệu 56
3.4.2 Đầu vào và đầu ra 60
3.5 Kết chương 60
CHƯƠNG IV TRIỂN KHAI ỨNG DỤNG DỰ ĐOÁN RỦI RO TÍN DỤNG 61 4.1 Phân tích thiết kế 61
4.1.1 Các ca sử dụng 61
4.1.2 Đặc tả ca sử dụng 61
4.2 Thực nghiệm và kết quả 62
4.2.1 Cài đặt chương trình 62
4.2.2 Phương pháp thực hiện 66
4.2.3 Kết quả 67
4.3 Đánh giá 68
4.3.1 Đánh giá kết quả đạt được của ứng dụng 68
4.3.2 So sánh với các phương pháp khác 68
4.4 Kết chương 69
CHƯƠNG V KẾT LUẬN 70
TÀI LIỆU THAM KHẢO 71
Trang 6DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
phân lớp mờ min max)
nơ ron phân lớp mờ min max cải tiến)
liệu của hang Oracle
Trang 7DANH MỤC CÁC BẢNG
Bảng 1 Dữ liệu mô phỏng của công ty du lịch 6
Bảng 2 Tập dữ liệu cần thực hiện phân lớp 7
Bảng 3 Dữ liệu sau khi đã phân lớp 8
Bảng 4 Tập dữ liệu khách hàng mua máy tính 11
Bảng 5 Cấu trúc bảng chứa dữ liệu sử dụng trong luận văn 35
Bảng 6 Mẫu dữ liệu 53
Bảng 7 Danh sách các ca sử dụng 61
Bảng 8 Kết quả các lần thử nghiệm khi thay đổi giá trị các tham số 68
Bảng 9 Kết quả thử nghiệm phân loại sử dụng giải thuật Cây quyết định thông qua công cụ Oracle Data Mining 69
Bảng 10 Kết quả thử nghiệm phân loại sử dụng kỹ thuật Navie Bayes thông qua công cụ Oracle Data Mining 69
Trang 8DANH MỤC CÁC HÌNH VẼ
Hình 1 Ví dụ về cây quyết định 5
Hình 2 Cây quyết định với nút gốc khởi tạo "Travel cost/km" 7
Hình 3 Các bước giải quyết vấn đề phân loại của SVM 19
Hình 4 Hoạt động của một nơ ron 20
Hình 5 Đồ thị hàm giới hạn cứng 21
Hình 6 Đồ thị hàm Sigmoid 22
Hình 7 Đồ thị hàm Sigmoid lưỡng cực 22
Hình 8 Tập mờ tam giác 27
Hình 9 Tập mờ hình thang 27
Hình 10 Mô hình hệ mờ dựa trên luật 28
Hình 11 Biểu đồ tỷ lệ nợ xấu 16 ngân hàng công bố ngày 30/9/2014 31
Hình 12 Minh họa hyperbox mờ 38
Hình 13 Kiến trúc mạng nơ rong mờ min-max 39
Hình 14 Kiến trúc mạng nơ ron min max mờ cải tiến 45
Hình 15 Cấu trúc một hyperbox node trong mạng nơ ron min max mờ cải tiến 47
Hình 16 Bốn trường hợp chồng lấn giữa các hyperbox mờ 52
Hình 17 Thông tin hyperbox B1 53
Hình 18 Hyperbox B1 sau khi mở rộng 54
Hình 19 Thông tin hyperbox B2 54
Hình 20 Hyperbox B1 sau khi loại bỏ chồng lấn 55
Hình 21 Thông tin hyperbox B3 55
Hình 22 Hyperbox B2 sau khi mở rộng 56
Hình 23 Hyperbox B2 sau khi loại bỏ chồng lấn 56
Hình 24 Giao diện chương trình 66
Hình 25 Kết quả các lần thử nghiệm khi giữ nguyên bộ tham số 67
Trang 9MỞ ĐẦU
Tại thời điểm bùng nổ thông tin hiện nay, các doanh nghiệp lưu trữ rất nhiều thông tin khác nhau Trên thực tế tuy thu thập được lượng dữ liệu khổng lồ nhưng bản thân các thông tin riêng lẻ của dữ liệu không đem lại nhiều giá trị cho người quản trị doanh nghiệp Chính vì vậy nhu cầu khai phá dữ liệu và các tri thức tiềm ẩn trong CSDL lớn là một nhu cầu cấp thiết trong sự phát triển của các doanh nghiệp Ngân hàng TMCP Đại Dương sau nhiều năm thành lập và phát triển, lượng thông tin thu được về khách hàng là rất lớn, dung lượng CSDL core banking chiếm hơn 1.5Tb Tuy nhiên việc trích rút các thông tin quan trọng trong CSDL có được
để dự đoán và giải quyết các bài toán thực tiễn của ngân hàng như : dự đoán rủi ro tín dụng chưa được áp dụng
Hiện nay vấn đề quản lý tín dụng trong các ngân hàng vô cùng nhức nhối và tồn tại nhiều rủi ro Phần lớn các ngân hàng khi ra quyết định, đánh giá tiềm tàng rủi
ro của một khoản vay tín dụng vẫn dựa trên kinh nghiệm của các chuyên viên, trưởng phòng trong ngân hàng Điều này dẫn tới tỉ lệ nợ xấu ngày một tăng cao trong những năm gần đây, việc này gián tiếp ảnh hưởng đến nền kinh tế nói chung cũng như tác động tới bản thân của ngân hàng Chính vì vậy, ngân hàng có nhu cầu cấp thiết sử dụng các kỹ thuật phân lớp dữ liệu để giải quyết bài toán dự đoán rủi ro tín dụng
Với mục đích nghiên cứu các phương pháp phân lớp dữ liệu đồng thời ứng dụng giải quyết bài toán phân loại rủi ro tín dụng thực tiễn trong ngân hàng, luận văn được trình bày với 5 chương như sau:
Chương 1: Tổng quan phương pháp phân lớp
Chương 2: Bài toán dự đoán rủi ro tín dụng
Chương 3: Mạng nơ ron phân lớp mờ min max
Chương 4: Triển khai ứng dụng dự đoán rủi ro tín dụng
Chương 5: Kết luận
Trang 10Em xin chân thành cám ơn PGS.TS Trần Đình Khang đã hướng dẫn và cho em những ý kiến quý báu, chân thành cảm ơn các thầy cô giáo của trường Đại học Bách khoa Hà Nội đã trang bị kiến thức giúp em hoàn thành luận văn này
Trang 11CHƯƠNG I TỔNG QUAN PHƯƠNG PHÁP PHÂN LỚP 1.1 Bài toán phân lớp dữ liệu
1.1.1 Định nghĩa phân lớp dữ liệu
Phân lớp dữ liệu là một trong các kỹ thuật phổ biến nhất, được sử dụng rất rộng rãi của khai phá dữ liệu Phân lớp là quá trình mô hình hóa các thuộc tính của các đối tượng dữ liệu Mô hình xây dựng có thể áp dụng để giải quyết các bài toán dự đoán trong thực tiễn Ví dụ mô hình phân lớp dự báo thói quen mua sắm của khách hàng,
có thể thể cho biết được một khách hàng có thể mua sắm gì dựa trên những thông tin về độ tuổi, giới tính, công việc…
Trong những năm gần đây, phân lớp dữ liệu đã và đang được chú trọng nghiên cứu, phát triển, ứng dụng thực tế tại nhiều lĩnh vực trong thực tiễn
Tiếp theo luận văn sẽ trình bày một số bài toán phân lớp thực tiễn và các bước chính của kỹ thuật phân lớp
1.1.2 Bài toán phân lớp dữ liệu trong thực tiễn
Phân lớp dữ liệu được áp dụng vào rất nhiều lĩnh vực khác nhau của đời sống như: kinh doanh, viễn thông, sản xuất, khoa học, y học… Sau đây là một số lĩnh vực áp dụng nhiều nhất:
- Phân tích tài chính trong ngân hàng:
Đổi với ngân hàng, hiểu được khách hàng của mình và phán đoán được thị trường (chứng khoán, bất động sản…) là vô cùng quan trọng Việc tìm hiểu được các quy luật, dự đoán được hành vi của khách hàng, thị trường đem lại nguồn lợi trực tiếp cho ngân hàng, ví dụ điển hình như các ngân hàng đều gặp vấn đề nợ xấu Nợ xấu là các khoản cho vay nhưng khách hàng, doanh nghiệp vay vốn không có đủ khả năng
để trả nợ Áp dụng giải thuật phân lớp có thể dự đoán được quy luật của khách hàng, đánh giá về một khoản vay có tiềm tàng nguy cơ là nợ xấu hay không
- Phân tích hệ thống giáo dục:
Các vấn đề liên quan đến giáo dục luôn được mọi người quan tâm: làm thế nào tối
ưu được hệ thống giáo dục, đưa ra chương trình học hiệu quả nhất, giảm tỉ lệ bỏ học…
Trang 12Sử dụng các giải thuật phân lớp dữ liệu vào hệ thống giáo dục có thể giúp giải quyết các bài toán nêu trên Điển hình như các trường đại học áp dụng phân lớp dữ liệu đối với thông tin của các sinh viên trong trường, từ đó dự đoán được tỉ lệ và chất lượng của đầu ra Đối với các trường học, tổ chức giáo dục có mô hình đào tạo từ xa – mô hình đào tạo này hiện nay cũng rất phổ biến, ứng dụng thực tế đối với thông tin các khóa học, hiệu quả của sinh viên đối với mỗi khóa học, từ đó có thể đưa ra các mô hình mới, cải thiện chương trình học hiệu quả hơn…
- Dự đoán thông tin trong y học:
Việc ứng dụng giải thuật phân lớp trong y học hiện nay được sử dụng khá phổ biến Với mục đích dự đoán các vấn đề chuyên khoa như: dự đoán vị trí đặt protein trong
vi khuẩn, phân loại các vi khuẩn…
1.1.3 Các bước thực hiện của kỹ thuật phân lớp
Về mặt tổng quan phương pháp phân lớp trong khai phá dữ liệu bao gồm hai bước chính sau:
Bước 1: Xây dựng mô hình (quá trình Học)
Tại bước đầu tiên, xây dựng mô hình bằng cách sử dụng những thuật toán phân lớp trên bộ dữ liệu huấn luyện Các thuật toán phân lớp điển hình như:
- Phân lớp sử dụng Cây quyết định
- Phân lớp sử dụng giải thuật Navie Bayes
- Mạng nơ ron mờ
- Máy vector hỗ trợ - SVM (Support Vector Machines)
Mô hình xây dựng được chính là quy luật ánh xạ giữa tập thuộc tính dự báo (đã biết trước) và thuộc tính giá trị
Bước 2: Áp dụng mô hình (thực hiện Phân lớp)
Tại bước này người dùng đưa các dữ liệu cần phân lớp vào hệ thống (tập dữ liệu chỉ bao gồm các thuộc tính dự đoán, chưa có thuộc tính phân lớp) Hệ thống sẽ tự động phân lớp các dữ liệu đầu vào
Trang 13Chú ý: Trong quá trình học, để đánh giá độ chính xác của phương pháp và chọn ra tham số phù hợp nhất với hệ thống, người ta có thể chia tập dữ liệu mẫu thành 02 tập dữ liệu không trùng nhau:
- Tập “trainning data”
- Tập “testing data”
Sau khi có 02 tập dữ liệu này rồi, ta có thể tiến hành thực hiện quá trình học đối với
“trainning data” và áp dụng phân loại đối với tập “testing data” từ đó có thể biết được tỷ lệ phân loại chính xác của phương pháp phân lớp đang áp dụng
1.2 Một số phương pháp phân lớp dữ liệu
1.2.1 Phương pháp cây quyết định
Trong các kỹ thuật phân lớp dữ liệu liệu thì Cây quyết định là giải thuật được áp dụng phổ biến nhất Cây quyết định là một cây phân lớp có cấu trúc được sử dụng
để phân lớp các đối tượng dựa trên các luật Trong cây quyết định bao gồm các nodes, tại các nodes những thuộc tính được đem kiểm tra Các nhánh ra của một node chính là các các kết quả có thể xảy ra với thuộc tính được kiểm tra tại node đó
Để dễ hình dung, chúng ta xét một cây quyết định rất đơn giản với 2 thuộc tính đầu vào là X và Y
Hình 1 Ví dụ về cây quyết định
Đối với cây quyết định được biểu diễn bên trên, tất cả các đối tượng có X < 1 đều thuộc Class 1, điều này đúng với mọi Y Nếu như X > 1 thì tùy thuộc vào giá trị của
Trang 14Y để phân lớp đối tượng, nếu Y = 1 thì đối tượng thuộc Class 1, còn với Y = B hoặc
Y = C thì đối tượng được chia vào Class2
Qua ví dụ bên trên cũng miêu tả rất rõ về các nodes trong cây quyết định Nói chung trong một cây quyết định có hai loại node: Node quyết định và Node lá Những Node mà bên dưới nó không còn node nào khác gọi là node lá, những node này chính là chứa kết quả cửa việc phân lớp (trong ví dụ trên có 4 Node lá, 2 Node lá mang giá trị Class 2 và 2 Node lá mang giá trị Class 1) Node quyết định là Node
mà bên dưới nó còn có Node khác
Việc xây dựng cây quyết định hoàn toàn dựa vào tập dữ liệu mẫu, sau khi duyệt qua toàn bộ cây quyết định ta sẽ được các tập luật Những tập luật này sẽ đem áp dụng đối với tập dữ liệu mới và giúp phân lớp tập dữ liệu mới đó Chúng ta cùng xét một
ví dụ cụ thể hơn về bài toán thực tiễn sử dụng cây quyết định
Giả sử một công ty du lịch có tập dữ liệu liên quan đến quyết định chọn lựa phương tiện vận chuyển của một khách du lịch Tập dữ liệu như sau:
Gender Car
ownership
Travel Cost ($)/km
Income Level
Transportation mode
Female 1 Cheap Medium Train
Male 0 Standard Medium Train Female 1 Standard Medium Train Female 1 Expensive High Car Male 2 Expensive Medium Car Female 2 Expensive High Car
Bảng 1 Dữ liệu mô phỏng của công ty du lịch
Việc thu thập dữ liệu thói quen sử dụng phương tiện di chuyển của khách hàng sẽ giúp cho công ty du lịch đưa ra một quyết định chính xác hơn đối với những khách
Trang 15hàng mới Chúng ta có thế hình dung rằng, sắp tới công ty du lịch này sẽ phải đón một đoàn khách gồm các thông tin như bên dưới, họ cần dự đoán được khách hàng
sẽ sử dụng phương tiện di chuyển là gì Tập thông tin của khách hàng mới như sau :
Person
name Gender
Car ownership
Travel Cost ($)/km
Income Level
Transportation Mode
Bảng 2 Tập dữ liệu cần thực hiện phân lớp
Dựa vào tập dữ liệu mẫu chúng ta có thể nhận định ngay cây quyết định trong bài toán đang xét có đặc điểm như sau: Các Node quyết định là (Gender, Car ownership, Travel Cost ($)/km, Income Level) và Node lá sẽ chứa giá trị về Transportation Mode
Để xây dựng cây quyết định từ tập dữ liệu mẫu, ta có thể chọn bắt đầu khởi tạo cây quyết định từ bất kỳ một trong bốn thuộc tính của Node quyết định Giả sử như chúng ta chọn nút gốc để khởi tạo là Travel Cost ($)/km, cây quyết định thu được như sau:
Hình 2 Cây quyết định với nút gốc khởi tạo "Travel cost/km"
Từ cây quyết định này, chúng ta có thể xây dựng lên tập luật dưới đây:
Rule 1 : If Travel cost/km is expensive then mode = car
Rule 2 : If Travel cost/km is standard then mode = train
Trang 16Rule 3 : If Travel cost/km is cheap and gender is male then mode = bus
Rule 4 : If Travel cost/km is cheap and gender is female and she owns no car then
Với khách hàng Buddy, Travel cost/km= “Cheap” và Gender = “Male” đúng với luật 3 nên có thể dự đoán Buddy sẽ chọn Bus mà không cần quan tâm tới thông tin Car Ownership của người này
Với khách hàng cuối cùng- Cherry, thông tin có được như sau : Travel cost/km=
“Cheap” và Gender= “Female” và Car ownership = 1 vì vậy dự đoán Cherry sẽ chọn phương tiện di chuyển là Train
Tổng kết lại công ty du lich đang nhắc đến sẽ có kết quả lựa chọn phương tiển di chuyển cho các vị khách mới của mình như sau:
Person name Travel Cost ($)/km Gender Car
ownership Transportation Mode
Bảng 3 Dữ liệu sau khi đã phân lớp
Một vấn đề dễ dàng nhận thấy đới với việc xây dựng cây quyết định đó là chúng ta phải lựa chọn việc xây dựng cây thế nào cho hợp lý, mang lại hiệu quả nhất Như ví
dụ bên trên chúng ta lựa chọn nút gốc là Travel Cost/km nhưng thực tế chúng ta có thể lựa chọn bất kỳ một thuộc tính nào trong các thuộc tính còn lại Việc lựa chọn các node thuộc tính tiếp theo cũng hoàn toàn tương tự Trên thực tế việc lựa chọn thứ tự các thuộc tính để xây dựng cây quyết định ảnh hưởng rất nhiều đến mặt hiệu
Trang 17năng công việc Chính vì vấn đề này, các nhà khoa học đã nghiên cứu và phát triển
ra các thuật toán giúp việc xây dựng cây quyết định đạt hiệu quả cao nhất, những thuật toán này giúp chúng ta lựa chọn được các thuộc tính được coi là mang lại giá trị cao nhất để đưa lên phía trên trong quá trình xây dựng cây quyết định Hiện tại
có rất nhiều thuật toán đã và đang được phát triển, điển hình có thể kể tên như: thuật toán ID3, J48, C4.5, CART (Classification and Regression Tree) Việc lựa chọn từng thuật toán để xây dựng cây quyết định cần phụ thuộc rất nhiều vào yếu tố, trong đó yếu tố quan trọng nhất là cấu trúc dữ liệu đầu vào Ví dụ như thuật toán ID3 và CART cho hiệu quả rất cao đối với các trường dữ liệu số trong khi các thuật toán J48, C4.5 lại đem lại hiệu quả tốt hơn khi áp dụng với các dữ liệu kiểu phân loại (categorical)
Trong khuôn khổ luận văn này chúng ta sẽ cùng xem xét chi tiết vào thuật toán ID3 (thuật toán C4.5 là mở rộng của thuật toán ID3)
Trước khi nghiên cứu sâu thuật toán ID3, chúng ta cùng tìm hiểu hai thuật ngữ
“Entropy” và “Infomartion Gain”
Một kĩ thuật được sử dụng trong ID3 nói riêng và các kĩ thuật khác để xây dựng cây quyết định nói chung, đó là Entropy Ta có thể coi entropy của một bộ dữ liệu phản ánh sự hỗn độn của bộ dữ liệu đó Entropy có liên quan tới thông tin (information),
và có cảm giác rằng nếu entropy càng cao, hay độ không chắc chắn về thông tin càng cao, thì chúng ta càng cần nhiều thông tin khác để mô tả dữ liệu Trong việc xây dựng cây quyết định, mục đích của chúng ta là phải giảm entropy của bộ dữ liệu, cho tới khi tại vị trí các nút lá, khi đó entropy bằng 0 Điều này đồng nghĩa rằng, các bản ghi/các ví dụ đều nhận cùng 1 giá trị của thuộc tính đánh giá hay bộ
dữ liệu đã được phân lớp hoàn toàn
Chúng ta sẽ tính Entropy của một bộ dữ liệu đối với một thuộc tính, trong trường hợp này là đối với thuộc tính kiểm tra, với công thức sau:
Entropy (S) = ∑ (1) trong đó Pi là xác suất mà các bản ghi nhận giá trị thứ i của thuộc tính kiểm tra, với
Trang 18Đi cùng với Entropy là phương pháp Infomartion Gain, phương pháp này cho phép chúng ta thấy được hiệu quả của việc chia bộ dữ liệu ban đầu thành các bộ dữ liệu con dựa vào một thuộc tính nào đó Information Gain sẽ tính toán độ giảm của Entropy:
Gain(S, A) = Entropy (S) - ∑ | |
| | Entropy (Sv) (2) trong đó v là 1 giá trị của thuộc tính A, Sv là bộ dữ liệu con của S khi thuộc tính A nhận giá trị v và S là số các bản ghi
Giải thuật ID3 sử dụng công thức tính Entropy và Information Gain để chọn ra thuộc tính có khả năng phân loại tốt nhất tại mỗi Node trong cây quyết định
1.2.2 Phương pháp thống kê – Navie Bayes
Cùng thuộc kỹ thuật khai phá dữ liệu phân lớp như cây quyết định, thuật toán Navie Bayes cũng được sử dụng khá phổ biến Thuật toán Navie Bayes là một phương pháp phân loại dựa vào xác suất được sử dụng lần đầu bởi Maron vào năm 1961, sau đó được lan tỏa, áp dụng vào nhiều lĩnh vực khác nhau, điển hình là trong các công cụ tìm kiếm, các bộ lọc email…
Thuật toán Navie Bayes dựa chủ yếu trên định lý Bayes :
( | ) ( )
( )
( | ) ( ) ( ) (3)
Áp dụng vào trong bài toán phân lớp dữ liệu, giả sử chúng ta có tập dữ liệu huấn luyện D đã được vector hóa dưới dạng ⃗ ( ), cùng với đó có m phân lớp, ký hiệu Ci: phân lớp i, với i = {1,2,…,m} Với giả thuyết các thuộc tính độc lập với nhau từng đôi một, theo định lý Bayes, xác suất của việc phân lớp vào lớp i khi biết trước thông tin mẫu X là :
( | ) ( | ) ( )
( ) (4) Trong đó :
- ( | ) là xác suất thuộc phân lớp i khi biết trước mẫu X
- ( ) xác suất là phân lớp i
- ( | ) xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp i
Trang 19Ý tưởng của thuật tốn: sử dụng các thơng tin cĩ được để tính xác suất phân loại vào từng lớp, từ đĩ so sánh các xác suất thu được với nhau, chọn ra phân lớp cĩ xác suất lớn nhất, với ý tưởng này thuật tốn bao gồm hai bước:
Bước 1: Huấn luyện Nạve Bayes (dựa vào tập dữ liệu), tính ( ) và ( | )
Bước 2: Phân lớp ( ), ta cần tính xác suất thuộc từng phân lớp khi đã biết trước Xnew
Xnew được gán vào lớp cĩ xác suất lớn nhất theo cơng thức ( ( ) ∏ ( | )) (5)
Trong bài luận văn này, chúng ta sẽ cùng xem xét một lĩnh vực áp dụng thực tiễn thuật tốn Navie Bayes
Giả sử một cửa hàng máy tính cĩ lưu trữ thơng tin những khách hàng mua sản phẩm của mình trong bảng dưới đây Cửa hàng cần nhận định xem một khách hàng mới gồm các thơng tin: đây là một sinh viên trẻ với thu nhập trung bình và mức đánh giá tín dụng trung bình thì cĩ mua máy tính của cửa hàng hay khơng
Bảng 4 Tập dữ liệu khách hàng mua máy tính
Ta sẽ áp dụng giải thuật Navie Bayes để giúp cửa hàng máy tính dự đốn xem đối tượng người dùng nêu trên cĩ mua sản phẩm của họ hay khơng
Từ tập CSDL của cửa hàng, chúng ta cĩ thể thấy rằng, đây là một bài tốn phân lớp
dữ liệu này cĩ 4 thuộc tính điều kiện (Age, Income, Student, Credit_Rating) và 2 phân lớp (ta tạm thời gọi phân lớp c1 là phân lớp Buy_Computer=“Yes” – các đối
Trang 20tượng có mua máy tính và phân lớp c2 là phân lớp các đối tượng không mua máy tính – Buy_Computer= “No”)
Bằng biện pháp thống kế, ta có:
- Tổng số bản ghi của CSDL khách hàng là 14 bản ghi
- Trong số 14 bản ghi có 9 trường hợp thuộc phân lớp c1 (Buy_Computer =
“Yes”) và 5 trường hợp thuộc phân lớp c2 (Buy_Computer = “No”)
Do đó xác suất của mỗi phân lớp tương ứng sẽ là:
- Xác suất của phân lớp c1 trong CSDL đã cho:
Xác suất đối tượng cần dự đoán thuộc phân lớp c1 (đối tượng sẽ mua máy tính) là:
P1 = P(Age = Young | c1) * P(Income=Medium | c1) * P(Student = Yes | c1) * P(Credit_Rating = Fair | c1)
Xác suất đối tượng cần dự đoán thuộc phân lớp c2 (đối tượng sẽ không mua máy tính) là:
P2 = P(Age = Young | c2) * P(Income=Medium | c2) * P(Student = Yes | c2) * P(Credit_Rating = Fair | c2)
Từ tập dữ liệu của cửa hàng (bảng dữ liệu bên trên), ta thấy rằng:
Có 5 đối tượng có thuộc tính Age = Young, trong đó 2 đối tượng thuộc phân lớp c1
và 3 đối tượng thuộc phân lớp c2, do đó:
Trang 21Có 7 đối tượng có thuộc tính Student = Yes, trong đó 6 đối tượng thuộc phân lớp c1
và 1 đối tượng thuộc phân lớp c2, do đó:
P(Student = Yes | c1) = 6/9
P(Student = Yes | c2) = 1/5
Có 8 đối tượng có thuộc tính Student = Yes, trong đó 6 đối tượng thuộc phân lớp c1
và 2 đối tượng thuộc phân lớp c2, do đó:
P(Credit_Rating = Fair | c1) = 6/9
P(Credit_Rating = Fair | c1) = 2/5
Từ các thông tin trên, ta có:
P1 = P(Age = Young | c1) * P(Income=Medium | c1) * P(Student = Yes | c1) *
P(Credit_Rating = Fair | c1) = (2/9) * (4/9) *(6/9) *(6/9) = 0.044
P2 = P(Age = Young | c2) * P(Income=Medium | c2) * P(Student = Yes | c2) *
P(Credit_Rating = Fair | c2) = (3/5) * (2/5) * (1/5) * (2/5) = 0.019
Cuối cùng chúng ta tính xác suất sẽ phân lớp của đối tượng như sau:
Xác suất phân lớp vào c1 (Đối tượng sẽ mua máy tính) là:
Trang 221.2.3 Máy vector hỗ trợ (SVM)
SVM là phương pháp phân lớp rất hiệu quả được đề cử bởi V.Vapnik và các đồng nghiệp của ông vào những năm 1970 để giải quyết vấn đề nhận dạng mẫu hai lớp sử dụng nguyên lý cực tiểu hoá rủi ro cấu trúc (Structural Risk Minimization) và sau
đó đã trở nên nổi tiếng và phổ biến vào những năm 1990
Ý tưởng chính của thuật toán này là cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi mẫu là một điểm, phương pháp này tìm ra một mặt phẳng quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng lớp dương và lớp âm Chất lượng của siêu mặt phẳng này được quyết định bởi khoảng cách (biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác Mục đích thuật toán SVM tìm ra được khoảng cách biên lớn nhất để tạo kết quả phân lớp tốt
a Mặt siêu phẳng trong thuật toán SVM
Tập các ví dụ huấn luyện được biểu diễn như dưới đây:
*( ) ( ) ( )+ (6) trong đó:
: vecto đầu vào được biểu diễn trong không gian
: một nhãn lớp (giá trị đầu ra), * +
〈 〉 (8) trong đó:
: vecto trọng số các thuộc tính
Trang 23b Bài toán tìm mặt siêu phẳng có lề lớn nhất
Xét một ví dụ của lớp dương ( ) và một ví dụ của lớp âm ( ) gần nhất với siêu phẳng phân tách (〈 〉 )
Định nghĩa hai siêu phẳng lề song song
đi qua và song song với
đi qua và song song với
{ 〈 〉 〈 〉
( ) Điều kiện ràng buộc
Mức lề (margin) là khoảng cách giữa hai siêu phẳng lề và Mức lề:
Trang 24|〈 〉 |
|| ||
|〈 〉 |
|| || || || || || || || (14) trong đó || || là độ dài của
Cực tiểu hóa biểu thức
〈 〉 (∑ ) (16) trong đó:
( ): tham số xác định mức độ chi phí với các lỗi Giá trị càng lớn, mức độ chi phí với các lỗi càng cao
thường dùng để thu được biểu thức đối ngẫu đơn giản hơn
Biểu thức tối ưu Lagrange
〈 〉
∑
∑ , (〈 〉 )
∑
( ) trong đó:
( ) ( ): hệ số nhân Lagrange
Theo lý thuyết tối ưu, một lời giải tối ưu cho (17) phải thỏa mãn các điều kiện KKT (Bài toán cực tiểu hóa đang xét có hàm mục tiêu lồi và các ràng buộc tuyến tính nên các điều kiện này là cần và đủ với một lời giải tối ưu) :
∑ ( )
Trang 25
∑ ( )
̅̅̅̅ ( ) (〈 〉 ) ̅̅̅̅ ( ) ( ) ( ) ( ) ( (〈 〉 ) ) ( ) ( 6)
Từ ( ) ( ) được điều kiện
Chuyển biểu thức Lagrange về dạng đối ngẫu (dễ giải quyết hơn so với biểu thức cần tối ưu ban đầu) Gán giá trị 0 cho các đạo hàm bộ phận của biểu thức Lagrange với các biến ban đầu
Biểu thức đối ngẫu :
∑
( ) Cần giải quyết bài toán cực đại hóa ( ) với điều kiện
̅̅̅̅ (28) Các vecto hỗ trợ là tập con của tập huấn luyện ban đầu
: là vecto hỗ trợ
: không phải vecto hỗ trợ
Các giá trị sau khi tính toán
(30)
Từ ( ) ( ) ta được nếu
Trang 26c Vấn đề của thuật toán SVM
Trong nhiều bài toán thực tế thì tập dữ liệu có thể là phân lớp phi tuyến Trong khi các công thức trong phương pháp SVM trình bày ở trên đòi hỏi tập dữ liệu phải
có thể phân lớp tuyến tính.Lúc này ta áp dụng phương pháp phân loại SVM phi tuyến
Ý tưởng cơ bản để phân loại SVM phi thuyến: ánh xạ (chuyển đổi) biểu diễn dữ liệu
từ không gian ban đầu sang không gian khác bằng cách áp dụng một hàm ánh
xạ phi tuyến
( )Việc chuyển đổi không gian một cách trực tiếp có thể gặp vấn đề về số chiều không gian quá lớn
Tuy nhiên trong quá trình tính toán ở bước 2 thì việc xác định cụ thể giá trị ( ) ( ) là không cần thiết Chỉ cần tính giá trị tích vô hướng vecto 〈 ( ) ( )〉 bằng cách sử dụng các hàm nhân
Trang 27Hình 3 Các bước giải quyết vấn đề phân loại của SVM
1.2.4 Mạng nơ ron nhân tạo
Mạng nơ ron nhân tạo phát triển từ nghiên cứu về trí tuệ nhân tạo, cố gắng bắt chước bộ não có cấu trúc cấp thấp về khả năng học và chấp nhận sai của hệ thống
nơ ron sinh học Các định nghĩa và lý thuyết tồn tại đối với mạng nơ ron nhân tạo đều có cùng quan điểm là: mạng nơ ron nhân tạo là một mô hình tính toán chứa các đơn vị xử lý có khả năng truyền thông với nhau bằng cách gửi các tín hiệu thông qua các liên kết có trọng số Mạng nơ ron nhân tạo có các đặc điêm sau :
- Dễ sử dụng: Mạng nơ ron nhân tạo có tính học theo các ví dụ Người sử dụng mạng nơ ron nhân taọ thu thập các dữ liệu đặc trưng, và sau đó gọi các thuật toán huấn luyện để có thể tự học cấu trúc dữ liệu
- Hiệu quả cao: Mạng nơ ron nhân tạo là kỹ thuật mô phỏng rất tinh vi, có khả năng mô phỏng các hàm cực kỳ phức tạp
a Kiến trúc và hoạt động của một nơ ron
Trong mạng nơ ron, nhân tốc chính là các nơ ron, kiến trúc và hoạt động của mỗi nơ ron như sau:
Trang 28Hình 4 Hoạt động của một nơ ron
Mô hình trên miêu tả một cách cụ thể hoạt động của một nơ ron tại tầng thứ i khi nhận những giá trị đầu vào từ những tầng phía trước có trọng số liên kết tương ứng là Khi nhận được những đầu vào này, các nơ ron đều phải thực hiện 2 bước sau :
- Bước 1: Tính giá trị đầu vào tổng thể từ các giá trị đầu vào theo công thức :
Sau khi các tín hiệu đầu vào đi vào một nơ ron và thực hiện 2 bước trên, nơ ron đó
sẽ thu được một giá trị đầu ra
( ) (35) (∑ ) (36) Các đầu ra này sẽ được tiếp tục truyền qua các tầng tiếp theo, và tại tầng tiếp theo đó, giá trị này sẽ trở thành giá trị đầu vào, và quá trình tính toán lại tiếp tục đối với các nơ ron ở tầng tiếp theo đó Trong trường hợp tầng kế tiếp là tầng đầu
ra thì giá trị này sẽ trở thành kết quả đầu ra của mạng nơ ron
b Hàm xử lý
Trang 29Như đã nói ở phần trên, hàm xử lý là không thể thiếu trong một mạng nơ rons Các hàm xử lý này sẽ biến đối những giá trị đầu vào tổng thể thành những giá trị thuộc những khoảng xác định Dưới đây là một số hàm thông dụng :
Trang 30Hình 6 Đồ thị hàm Sigmoid
Hàm xử lý: Hàm sigmoid lưỡng cực (Bipolar sigmoid function (tansig))
( )
(39) Hàm này có các thuộc tính tương tự như hàm sigmoid, tuy nhiên hàm số thường được sử dụng đối với các ứng dụng có đầu ra yêu cầu trong khoảng [-1,1]
Hình 7 Đồ thị hàm Sigmoid lƣỡng cực
c Kiến trúc mạng nơ ron
Trong mạng nơ ron nhân tạo, các nơ ron được nhóm lại với nhau theo các tầng, bao gồm: tầng đầu vào, tầng ẩn và tầng đầu ra
- Tầng đầu vào: Đây là tầng ở “ngoài cùng” của mạng nơ ron, nhận các dữ liệu
mà người dùng đưa vào Các nơ ron ở tầng đầu vào không thực hiện xử lý dữ liệu nhận được mà chỉ có nhiệm vụ truyền dữ liệu đó đến các nơ ron ở tầng tiếp theo
Trang 31- Tầng ẩn: là một tầng nằm giữa tầng đầu vào và tầng đầu ra Các nơ ron ở tầng ẩn không tương tác trực tiếp với môi trường bên ngoài
- Tầng đầu ra: Đây là tầng ở “trong cùng” của mạng nơ ron, các nơ ron thuộc tầng này có nhiệm vụ đưa ra thông tin cuối cùng (output) mà người dùng cần
Kiến trúc của một mạng nơ ron nhân tạo được xác định bởi rất nhiều yếu tố như: số lượng các tín hiệu đầu vào và đầu ra, số lượng các tầng ẩn, số lượng các nơ ron trong mỗi tầng ẩn, số lượng các trọng số (các liên kết) đối với mỗi nơ ron, cách thức các nơ ron (trong một tầng, hoặc giữa các tầng) liên kết với nhau
Để phân loại mạng nơ ron, ta có thể thực hiện theo 2 tiêu chí: phân loại theo kiểu liên kết nơ ron hoặc phân loại theo số lớp
Phân loại theo kiểu liên kết nơ ron: Đối với kiểu phân loại này, người ta dựa vào cách thưc liên kết giữa các nơ ron, cụ thể gồm các loại sau:
o Mạng lan truyền tiến (feed-forward network) : Trọng mạng, các liên kết nơ ron chỉ đi theo một hướng từ tầng đầu vào đến tầng đầu ra, không tạo thành chu trình đối với các đỉnh là các nơ ron và các cung
là các liên kết giữa chúng Hay nói một cách khác, một mạng nơ ron nhân tạo được gọi là mạng lan truyền tiến khi không có bất kỳ đầu ra của một nút là đầu vào của một nút khác thuộc cùng tầng (hoặc thuộc một tầng phía trước)
o Mạng phản hồi (feed back network) : một mạng nơ ron nhân tạo được gọi là mạng phản hồi khi các đầu ra của một nút liên kết ngược lại làm các đầu vào của một nút thuộc cùng tầng (hoặc thuộc một tầng phía trước)
o Mạng hồi quy (recurrent network): một mạng nơ ron nhân tạo được gọi là mạng hồi quy khi đó là một mạng phản hồi và trong mạng phản hồi có các vòng lặp kín (closed loops)
Phân loại theo số lớp:
Trang 32o Mạng đơn lớp : đây là mạng nơ ron đơn giản nhất, kiến trúc mạng chỉ gồm 1 tầng đầu vào và 1 tầng đầu ra (không có tầng ẩn)
o Mạng đa lớp : đây là kiểu mạng nơ ron gặp phổ biến hơn, và giúp giải quyết nhiều bài toán thực tế hơn là mạng đơn lớp Kiến trúc của mạng này ngoài tầng đầu vào và tầng đầu ra, còn có một hoặc nhiều tầng ẩn
ở giữa
d Các quy tắc học trong mạng nơ ron
Khi mạng nơ ron nhận được một tập hợp các dữ liệu đầu vào, mạng sẽ thực hiện thủ tục học – đây là thủ tục hiệu chỉnh các tham số và các trọng số liên kết trong mạng
để tối thiểu hóa sai số của đầu ra Quá trình học kết thúc khi mạng thỏa mãn một tiêu chuẩn dừng nào đó (thường thì người ta sẽ sử dụng một ngưỡng sai số đủ nhỏ giữa đầu ra mong muốn và kết quả thực tế làm tiêu chuẩn dừng) Có 2 kiểu học trong mạng nơ ron nhân tạo :
- Học cấu trúc (Structure learning): Mục tiêu của kiểu học này là tìm ra cấu trúc tối ưu đối với mạng nơ ron dựa vào tập dữ liệu học Quá trình học sẽ tìm
ra số tầng trong mạng nơ ron và số nơ ron tại mỗi tầng để hệ thống đạt kết quả tối ưu
- Học tham số (Parameter learning): Mục tiêu của kiểu học này là tìm ra một
bộ trọng số tối ưu trên mạng nơ ron Tại thời điểm ban đầu khi mạng nơ ron khởi tạo, các trọng số này được gán các giá trị đủ nhỏ ngẫu nhiên, trong quá trình “học”, dựa vào bộ dữ liệu học, hệ thống sẽ điều chỉnh lại các trọng số
Để thực hiện 2 cách học nói trên, người ta sử dụng một trong hai kỹ thuật là:Học có giám sát (supervised learning) và học không giám sát (unsupervised learning)
Học có giám sát: Trong các giải thuật học có giám sát, tập dữ liệu học bao gồm 2 thông tin : giá trị các đầu vào cho mạng nơ ron và các giá trị đầu ra mong muốn (dùng để giám sát) Mạng nơ ron sẽ tính các giá trị đầu ra tương ứng đối với các giá trị đầu vào mạng Hệ thống só sánh giá trị đầu ra và giá trị đầu ra mong muốn, nếu như chưa đạt được giá trị mong muốn thì hiệu chỉnh trọng số trong mạng và tiếp tục tính lại giá trị đầu ra Quá trinh lặp tiếp
Trang 33tục được thực hiện cho đến khi đạt được đầu ra mong muốn Điển hình cho
kỹ thuật học này là mạng nơ ron lan truyền ngược (Back propagation)
Học không giám sát: Trong quá trình học không giám sát, hệ thống không sử dụng tri thức bên ngoài nên còn được gọi là tự tổ chức (self – organizing) Mạng nơ ron sẽ phải khám phá những tham số, các điều chỉnh, các mối tương quan, hay các tầng trong dữ liệu vào một cách tự động Trên thực tế, đối với phần lớn các biến thể của học không giám sát, các đích trùng với các đầu vào Mạng nơ ron điển hình được huấn luyện theo kỹ thuật này là SOM (Self – Organizing Map)
1.2.5 Phương pháp phân lớp dựa trên luật mờ
Hệ thống mờ là cấu trúc tính toán dựa trên lý thuyết tập mờ, các tập luật if-then, cùng các cơ chế suy diễn L.A Zadeh là người sáng lập ra lý thuyết tập mờ với hàng loạt bài báo mở đường cho sự phát triển và ứng dụng của lý thuyết này, khởi đầu là bài báo “Fuzzy Sets” trên Tạp chí Information and Control, 8, 1965 Ý tưởng nổi bật của khái niệm tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thông tin mờ, không chắc chắn như trẻ, nhanh, cao-thấp, xinh đẹp , ông đã tìm
ra cách biểu diễn nó bằng một khái niệm toán học, được gọi là tập mờ, như là một
sự khái quát trực tiếp của khái niệm tập hợp kinh điển
Biến x lấy giá trị trong A được gọi là biến cơ sở
Trang 34A là nhãn ngôn ngữ, thường mang ý nghĩa ngôn ngữ, mô tả một cách định tính
thuộc tính của đối tượng, ví dụ: trẻ, rất trẻ, già, rất già, số nhỏ, số lớn…
Có hai cách để biểu diễn tập mờ:
Nếu tập mờ là rời rạc và X là hữu hạn:
Ví dụ: Xét tập X gồm 5 người x1, x2, x3, x4, x5 tương ứng với độ tuổi là 10,15, 50,
55, 70 và A là tập hợp các người “Trẻ” Khi đó ta có thể xây dựng được hàm thuộc như sau: µTrẻ(10) = 0.95, µTrẻ(15) = 0.75, µTrẻ(50) = 0.35, µTrẻ(55) = 0.30, µTrẻ(70) = 0.05 và tập mờ A =
Về mặt logic, tập mờ diễn đạt mức độ chân lý của một phát biểu (mệnh đề) với giá trị 0 là hoàn toàn sai và giá trị 1 là hoàn toàn đúng
Ví dụ: “Anh Hải rất trẻ”
Nếu anh Hải ở 15 tuổi, ta có thể gán cho phát biểu trên một giá trị chân là 0.75 Ở đây, có thể hiểu anh Hải là một thành viên của tập những người “rất trẻ” với độ thuộc là 0.7 Hay µrất trẻ(a.Hải) = 0.75
Trong đó µrất trẻ() là hàm thuộc dùng để biểu diễn tập mờ “rất trẻ” và có giá trị nằm trong [0;1]
b Các kiểu hàm thuộc của tập mờ
Sau đây là một số hàm thuộc cơ bản hay được sử dụng:
Tập mờ tam giác: Các tập mờ này xác định bởi hàm thuộc với 3 tham số là cận dưới a, cận trên b và giá trị m (ứng với đỉnh tam giác), với a < m < b
Trang 35Đồ thị của hàm thuộc tam giác có dạng như sau:
Các phép toán: Trong Logic mờ không quan tâm đến cách thức các tập mờ
được tạo ra như thế nào, mà quan tâm đến các luật hỗ trợ cho việc suy luận trên các tập mờ này Sau đây, đồ án sẽ trình bày các phép toán thao tác trên
các tập mờ Đó là:
o Phép hợp (union): Hợp của hai tập mờ (A∪B) thể hiện mức độ một
phần tử thuộc về một trong hai tập là bao nhiêu
( ) * ( ) ( )+ ( )
Trang 36o Phép bù (complement): Bù của một tập mờ thể hiện mức độ một phần
tử không thuộc về tập đó là bao nhiêu
( ) ( ) (42)
o Phép giao (intersection): Giao của hai tập mờ (A∩B) thể hiện mức độ
một phần tử thuộc về cả hai tập là bao nhiêu
( ) * ( ) ( )+ ( )
c Hệ mờ dựa trên luật
Mô hình của hệ thống phân lớp dựa trên luật mờ như sau:
Hình 10 Mô hình hệ mờ dựa trên luật
- Mờ hóa: tính toán các giá trị mờ từ các giá trị chính xác ở đầu vào
- Suy luận mờ: áp dụng các luật mờ để tính ra giá trị mờ cho kết luận, sau đó kết hợp các kết quả đầu ra
- Khử mở: Xác định giá trị chính xác từ kết quả mờ có được ở bước suy luận
mờ
1.3 Kết chương
Trong chương 1 của luận văn, tác giả đã trình bày những kiến thức tổng quan về phương pháp phân lớp dữ liệu Đồng thời trong chương này tác giả cũng giới thiệu một số giải thuật phân lớp dữ liệu như: giải thuật cây quyết định, giải thuật Navie Bayes, giải thuật máy vector hỗ trợ (SVM), mạng nơ ron nhân tạo và giải thuật sử dụng lý thuyết mờ Chương tiếp theo của luận văn sẽ trình bày về bài toán rủi ro tín dụng trong ngân hàng
Trang 37CHƯƠNG II BÀI TOÁN DỰ ĐOÁN RỦI RO TÍN DỤNG 2.1 Phân loại rủi ro tín dụng trong ngân hàng
2.1.1 Các khái niệm cơ bản về hoạt động tín dụng trong ngân hàng
Trước khi đi vào tìm hiểu bài toán rủi ro tín dụng được giải quyết trong luận văn, tôi
sẽ trình bày một số thông tin liên quan đến hoạt động tín dụng trong ngân hàng Tín dụng là quan hệ vay mượn được biểu hiện dưới hình thái tiền tệ hoặc hiện vật dựa trên nguyên tắc người đi vay phải hoàn trả cho người cho vay cả vốn lẫn lãi sau một thời hạn nhất định Trong ngân hàng tín dụng cũng cần tuân thủ chặt chẽ theo
ba yêu nguyên tắc sau :
- Nợ vay phải được hoàn trả đầy đủ cả gốc lẫn lãi theo đúng thời hạn cam kết
- Khách hàng sử dụng vốn vay đúng mục đích
- Việc bảo đảm tiền vay phải được thực hiện theo quy định của chính phủ và Thống đốc Ngân Hàng Nhà Nước
Vấn đề quản lý tín dụng trong ngân hàng thời điểm hiện nay vẫn vô cùng nhức nhối
và tồn tại nhiều rủi ro Các rủi ro trong tín dụng có thể hiểu là việc việc xuất hiện những biến cố không bình thường trong quan hệ tín dụng làm cho người đi vay không thể hoàn thành nghĩa vụ trả nợ cho ngân hàng dẫn đến những tổn thất về tài sản cho ngân hàng
Nguyên nhân dẫn tới rủi ro tìn dụng có thể bắt nguồn từ nhiều yếu tố, cả yếu tố khách quan lẫn chủ quan, hơn thế nữa rủi ro có thể do cả phía khách hàng lẫn ngân hàng Dưới đây là mốt số dẫn chứng cụ thể khi nguyên nhân rủi ro tín dụng về phía khách hàng
Trong trường hợp khách hàng là cá nhân, rủi ro tín dụng có thể do:
- Yếu tố chủ quan:
o Do sử dụng vốn sai mục đích, không đúng như phương án vay vốn trình ngân hàng lúc đề nghị vay vốn gây lỗ, dẫn đến mất khả năng trả nợ cho ngân hàng
o Do thiếu năng lực pháp lý chẳng hạn: vị thành niên, mất năng lực hành vi dân sự, mất quyền công dân…
Trang 38Ngay sau đây chúng ta sẽ cùng tìm hiểu nguyên nhân rủi ro tới từ phía ngân hàng:
- Công tác tổ chức ngân hàng thiếu khoa học, các nguyên tắc tín dụng đã được quy định cả về huy động cũng như cho vay không được tuân thủ chặt chẽ
- Chất lượng tín dụng yếu kém, có thể do ngân hàng quá chú trọng đến yếu tố cạnh tranh nên đã hạ thấp các tiêu chuẩn tín dụng khi xét duyệt cho vay để thu hút khách hàng Thực hiện không nghiêm quy trình cho vay từ lúc quyết định tín dụng, giám sát sau khi giải ngân cho đến khi thu hồi vốn
Có nhiều tiêu chí để đánh giá về độ rủi ro tín dụng trong ngân hàng, nhưng nổi bật nhất là hai tiêu chí: nợ xấu và tỷ lệ nợ xấu trên tổng dự nợ Theo thống kê về tài chính về nợ xấu của các ngân hàng tại http://bizlive.vn/ngan-hang/hau-thong-tu-36-bao-nhieu-ngan-hang-co-no-xau-vuot-3-593672.html, tỷ lệ nợ xấu của một số ngân hàng tại nước ta như sau:
Trang 39Hình 11 Biểu đồ tỷ lệ nợ xấu 16 ngân hàng công bố ngày 30/9/2014
Tình trạng nợ xấu của nhiều ngân hàng lớn hơn 2% tổng dư nợ theo thống kê là một vấn đề rất nghiêm trọng, bởi lẽ rủi to tín dụng có tác động tiêu cực đối với nền kinh
tế nói chung cũng như tác động tới bản thân ngân hàng Tác động tới nền kinh tế có thể nhìn thấy ngay như: do hoạt động của Ngân hàng liên quan đến hoạt động của
cá nhân và DN nên khi một Ngân hàng gặp rủi ro tín dụng sẽ làm cho toàn bộ hệ thống Ngân hàng gặp khó khăn Bởi vì người gửi tiền ở hầu hết các Ngân hàng đều hoang mang lo sợ và kéo nhau ồ ạt đến rút tiền Đây là vấn đề nhạy cảm đối với ngành Ngân hàng Ngoài ra ngân hàng phá sản sẽ làm ảnh hưởng đến tình hình sản xuất kinh doanh của DN, DN khó khăn không có tiền trả lương nên đời sống công nhân gặp khó khăn Hơn nữa sự phá sản của các ngân hàng ảnh hưởng rất lớn đến nền kinh tế Nó làm nền kinh tế suy thoái, giá cả tăng, sức mua giảm, thất nghiệp tăng, xã hội mất ổn định Đối với bản thân ngân hàng, khi rủi ro tín dụng tăng cao cũng đem lại ảnh hưởng tiêu cực như : Khi gặp rủi ro tín dụng, ngân hàng không thu được vốn tín dụng đã cấp và lãi cho vay, nhưng Ngân hàng phải trả vốn và khoản lãi cho các khoản tiền huy động khi đến hạn Điều này khiến Ngân hàng mất cân đối trong việc thu chi Không thu được nợ thì vòng quay vốn tín dụng giảm làm Ngân hàng kinh doanh không hiệu quả Khi gặp rủi ro tín dụng ngân hàng thường rơi vào