DANH MỤC TỪ VÀ THUẬT NGỮ VIẾT TẮT STT Chữ viết tắt Diễn giải Tiếng Việt 1 CSDL Cơ sở dữ liệu Cơ sở dữ liệu 4 Transaction Giao dịch Giao dịch 5 TID Transaction Identification Định danh gi
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 3DANH MỤC TỪ VÀ THUẬT NGỮ VIẾT TẮT
STT Chữ viết tắt Diễn giải Tiếng Việt
1 CSDL Cơ sở dữ liệu Cơ sở dữ liệu
4 Transaction Giao dịch Giao dịch
5 TID Transaction Identification Định danh giao dịch
7 Minsup Minimum Support Độ hỗ trợ tối thiểu
8 Confidence Độ tin cậy Độ tin cậy
9 Mincof Minimum Confidence Độ tin cậy tối thiểu
10 Training set Tập huấn luyện Tập huấn luyện
11 Test set Tập kiểm thử Tập kiểm thử
12 Information gain Độ đo thông tin Độ đo thông tin
13 Coverage Độ phủ của luật Độ phủ của luật
14 Accuracy Độ chính xác của luật Độ chính xác của luật
15 ILA Inductive Learning
19 ScoringF2 Hệ thống xếp hạng tín chấp
của ngân hàng Techcombank
Hệ thống xếp hạng tín chấp của ngân hàng Techcombank
20 Mining Structure Cấu trúc khai phá dữ liệu Cấu trúc khai phá dữ liệu
Trang 421 Mining Model Mô hình khai phá dữ liệu Mô hình khai phá dữ liệu
22 Discretized Nội dung dữ liệu được rời rạc
hóa
Nội dung dữ liệu được rời rạc hóa
22 Discrete Nộ dung dữ liệu rời rạc Nộ dung dữ liệu rời rạc
24 Clusters Phương pháp rời rạc hóa
Số lượng lớn nhất các tập mục
26 MAXIMUM
ITEMSET SIZE
Kích thước lớn nhất của tập mục
Kích thước lớn nhất của tập mục
Kích thước nhỏ nhất của tập mục
Trang 5DANH MỤC CÁC HÌNH VẼ
STT Diễn giải
Hình 1 Phân lớp cho vay theo ngƣỡng thu nhập T
Hình 1.1 Quá trình phát hiện tri thức trong CSDL
Hình 1.3.1 Xây dựng cây quyết định về việc mua máy tính cá nhân
của khách hàng Hình 1.3.3.1 Phân lớp các đối tƣợng xanh và đỏ
Hình 1.3.3.2 Xác suất một đối tƣợng thuộc về lớp xanh hoặc đỏ Hình 2.2.4 Quy trình tín dụng
Hình 3.1.2 Tỷ lệ % giữa các hạng tín dụng của hệ thống ScoringF1
Hình 3.2.2 Tỷ lệ % khoản vay đƣợc xếp hạng theo hệ thống
ScoringF1, ScroingF2, và không xếp hạng ScoringF1, ScroingF2, và không xếp hạng
Hình 3.3.2.1 Mối quan hệ giữa khách hàng, hợp đồng tín dụng và tài
khoản tiền vay
Hình 3.3.2.2 Mối quan hệ giữa khách hàng, tài sản đảm bảo và hợp
đồng tín dụng Hình 3.3.2.3 Hạn mức tín dụng và các tài khoản tiền vay
Trang 6DANH MỤC CÁC BẢNG BIỂU
STT Diễn giải
Bảng 1 Thông tin thuộc tính mua máy tính cá nhân khách hàng
Bảng 2 Hạng tín dụng của khách hàng doanh nghiệp và đặc điểm
của chúng Bảng 3 Hệ thống thang điểm đối với các hạng tín dụng
Bảng 4 Quan điểm của ngân hàng đối vối các hạng tín dụng Bảng 5 Thông tin xếp hạng khách hàng ScoringF1
Bảng 6a Trình độ học vấn và hạng tín dụng ScoringF1
Bảng 6b Trình độ học vấn và hạng tín dụng ScoringF1 theo % Bảng 7a Vị trí công tác và hạng tín dụng ScoringF1
Bảng 7b Vị trí công tác và hạng tín dụng ScoringF1 theo %
Bảng 8a Phương tiện đi lại và hạng tín dụng ScoringF1
Bảng 8a Phương tiện đi lại và hạng tín dụng ScoringF1 theo % Bảng 9a Tình trạng hôn nhân và hạng tín dụng ScoringF1
Bảng 9b Tình trạng hôn nhân và hạng tín dụng ScoringF1 theo % Bảng 10a Tuổi tác và hạng tín dụng ScoringF1
Bảng 10b Tuổi tác và hạng tín dụng ScoringF1 theo %
Bảng 11 Dữ liệu ScoringF2
Bảng 12a Ma trận học vấn và hạng tín dụng ScoringF2
Bảng 12b Ma trận học vấn và hạng tín dụng ScoringF2 theo % Bảng 13a Ma trận vị trí công tác và hạng tín dụng ScoringF2
Bảng 13b Ma trận vị trí công tác và hạng tín dụng ScoringF2 theo % Bảng 14a Ma trận nơi cư trú và hạng tín dụng ScoringF2
Bảng 14b Ma trận nơi cư trú và hạng tín dụng ScoringF2 theo % Bảng 15 Thông tin về khoản vay của khách hàng
Bảng 16 Dữ liệu tín dụng
Trang 7Bảng 17 Hạn mức đƣợc cấp theo hạng tín dụng
Bảng 18a Nhóm nợ và hạng tín dụng theo số lƣợng khoản vay ở hệ
thống ScoringF1 Bảng 18b Nhóm nợ và hạng tín dụng theo số lƣợng khoản vay tính
theo % ở hệ thống ScoringF1 Bảng 19a Nhóm nợ và hạng tín dụng tính theo dƣ nợ ở hệ thống
ScoringF1 Bảng 19b Nhóm nợ và hạng tín dụng tính theo dƣ nợ, theo tỷ lệ % ở
hệ thống ScoringF1 Bảng 20a Nhóm nợ và hạng tín dụng theo số lƣợng khoản vay ở hệ
thống ScoringF2 Bảng 20b Nhóm nợ và hạng tín dụng theo số lƣợng khoản vay, tính
theo tỷ lệ % ở hệ thống ScoringF2 Bảng 21 Tỷ lệ nợ xấu trong từng hạng tín dụng
Bảng 22a Nhóm nợ và hạng tín dụng theo dƣ nợ ở hệ thống ScoringF2
Bảng 22b Nhóm nợ và hạng tín dụng theo dƣ nợ, tính theo tỷ lệ % ở
hệ thống ScoringF2 Bảng 23 Nợ xấu ở nhóm không đƣợc xếp hạng theo số lƣợng khoản
vay Bảng 24 Nợ xấu ở nhóm không đƣợc xếp hạng theo dƣ nợ
Bảng 25 Giá trị tài sản đảm bảo ở nhóm không đƣợc xếp hạng
Bảng 26 Thuộc tính dùng trong cấu trúc khai phá dữ liệu
Bảng 27 Thông tin đầu vào của thuật toán Microsoft Association
Rules Bảng 28 Các tham số dùng trong thuật toán Microsoft Association
Rules Bảng 29 Danh sách các luật kết hợp với độ hỗ trợ giảm dần
Bảng 29 Danh sách các luật kết hợp với độ hỗ trợ giảm dần
Trang 8Bảng 30 Danh sách luật kết hợp thỏa mãn độ hỗ trợ và độ tin cậy tối
thiểu Bảng 31a Kết quả điều chỉnh lần 1 theo số lƣợng khoản vay
Bảng 31b Kết quả điều chỉnh lần 1 trên tổng số khoản vay, tính theo tỷ
lệ % Bảng 32a Kết quả điều chỉnh lần 2 theo số lƣợng khoản vay
Bảng 32b Kết quả điều chỉnh lần 2 trên tổng số khoản vay, tính theo tỷ
lệ % Bảng 33a Kết quả điều chỉnh lần 3 theo số lƣợng khoản vay
Bảng 33b Kết quả điều chỉnh lần 3 trên tổng số khoản vay, tính theo tỷ
lệ %
Trang 9LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của Tôi Những kết quả và các số liệu trong khoá luận chưa được ai công bố dưới bất cứ hình thức nào Tôi hoàn toàn chịu trách nhiệm trước nhà trường về sự cam đoan này!
Hà nội, ngày tháng năm 2010 Tác giả
Trần Xuân Lợi
Trang 10LỜI CẢM ƠN
Luâ ̣n văn này được hoàn thành ngoài nỗ lực hết sức của bản thân , trong quá trình làm viê ̣c Tôi đã nhâ ̣n được sự hướng dẫn , giúp đỡ tận tình của các thầy cô tại khoa Công nghê ̣ Thông tin, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội
Xin chân thành gửi lời cảm ơn tới các thầy cô giáo khoa Công nghê ̣ Thông tin , Trường đại học Công Nghệ , đă ̣c biê ̣t là thầy g iáo, Tiến sĩ Nguyễn Trọng Dũng , người trực tiếp hướng dẫn Tôi
Xin gử i lời cám ơn tới cha me ̣, bạn bè, đồng nghiê ̣p và những người thân đã giú p đỡ và tạo điều kiện cho Tôi trong suốt thời gian qua
Luận văn thạc sĩ này được thực hiện trong khuôn khổ đề tài nghiên cứu mang mã số QG.09.27, Đại học Quốc gia Hà Nội
Trang 11MỤC LỤC
MỞ ĐẦU ……… 1
CHƯƠNG I: NGHIÊN CỨU CƠ SỞ LÝ THUYẾT ……… 2
1.1 Sơ lược về khai phá dữ liệu ……… 2
1.1.1 Sự cần thiết của khai phá dữ liệu ………
………
2 1.1.2 Định nghĩa khai phá dữ liệu ……… 3
1.1.3 Quy trình khám phá tri thức trong CSDL ……… 4
1.2 Khai phá luật kết hợp ……… 5
1.2.1 Luật kết hợp trong CSDL ……… 5
1.2.2 Bài tốn khai thác luật kết hợp ……… 7
1.3 Phân lớp ……… 10
1.3.1 Phân lớp bằng phương pháp dựa trên cây quyết đinh ……… 11
1.3.2 Phân lớp bằng phương pháp dựa trên luật ………
………
16 1.3.3 Phân lớp bằng phương pháp Nạve Bayes ………
………
………
21 CHƯƠNG II: LÝ THUYẾT VỀ RỦI RO TÍN DỤNG……… 27
2.1 Tổng quan về ngân hàng thương mại 27
2.1.1 Khái niệm về ngân hàng thương mại ……….…… 27
2.1.2 Chức năng của ngân hàng thương mại … ……… 27
2.2 Hoạt động tín dụng trong ngân hàng thương mại ……… 28
2.2.1 Nguyên tắc tín dụng ……… ……… 29
2.2.2 Lãi suất tín dụng ……… 30
2.2.3 Đảm bảo tín dụng ……… ……… 31
2.2.3 Quy trình tín dụng ……… 32
2.3 Xếp hạng tín dụng ……… 33
2.3.1 Mục đích của xếp hạng tín dụng ……… 33
2.3.2 Phân nhĩm khách hàng …… ……… 33
Trang 122.3.3 Xếp hạng tín dụng doanh nghiệp ……… 34
2.3 Rủi ro tín dụng ……… 38
2.3.1 Khái niệm về rủi ro tín dụng ……… 38
2.3.2 Phân loại nợ và trích lập dự phòng rủi ro …… ……… 39
2.3.3 Quản trị rủi ro tín dụng trong ngân hàng thương mại ……… 41
CHƯƠNG III: ỨNG DỤNG KHAI PHÁ DỮ LIỆU, ÁP DỤNG VỚI NGUỒN DỮ
LIỆU CỦA NGÂN HÀNG KỸ THƯƠNG VIỆT NAM TECHCOMBANK 43 3.1 Hệ thống xếp hạng tín dụng của ngân hàng Techcombank ……… 43
3.1.1 Hệ thống xếp hạng thế chấp (ScoringF1) ……… 43
3.1.2 Thống kê với dữ liệu ScoringF1 ……… 49
3.1.3 Hệ thống xếp hạng tín chấp (ScoringF2) ……… 54
3.1.4 Thống kê với dữ liệu ScoringF2 ……… 63
3.2 Dữ liệu tín dụng của khách hàng ……… 67
3.2.1 Phương pháp luận đánh giá ……… 67
3.2.2 Nguồn dữ liệu tín dụng ……… 67
3.2.3 Kiểm định lại hệ thống ScoringF1 ……… 73
3.2.4 Kiểm định lại hệ thống ScoringF2 ……… 75
3.2.5 Nhóm không được chấm điểm tín dụng ……… 78
3.3 Điều chỉnh lại hệ thống xếp hạng tín dụng ScoringF2 ……… 79
3.3.1 Chọn và làm sạch dữ liệu ……… 80
3.3.2 Tạo mining structure ……… 80
3.3.3 Tạo mining model ……… 81
3.3.4 Điều chỉnh lại hệ thống ScoringF2 ……… 86
CHƯƠNG IV: KẾT LUẬN VÀ KIẾN NGHỊ ……… 91
TÀI LIỆU THAM KHẢO ……… 93
Trang 13MỞ ĐẦU
Khai phá dữ liệu là một quá trình phát hiện những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu Kho dữ liệu của một ngân hàng hay một tập đoàn bán lẻ không ngừng tăng trưởng theo thời gian với tốc độ cao, nhưng chỉ một số
ít trong đó là thực sự có giá trị, có lợi hay hỗ trợ cho việc ra quyết định Ngày nay khai phá dữ liệu đã được ứng dụng trong nhiều lĩnh vực của đời sống như bán lẻ, ngân hàng, tài chính…Khai phá dữ liệu trong lĩnh vực tài chính bao gồm các nhiệm vụ sau:
dự đoán xu hướng thị trường chứng khoán, lãi suất tiền tệ, đo lường xác suất phá sản của ngân hàng, quản trị rủi ro tài chính, giao dịch hàng hóa tương lai, xếp hạng tín dụng, chống rửa tiền…
Rủi ro tín dụng là khả năng mất vốn khi khách hàng không thực hiện đầy đủ nghĩa vụ nợ, theo nghĩa đó khách hàng không trả được nợ khi các khoản nợ đến hạn bao gồm gốc và lãi dẫn đến chất lượng các khoản nợ suy giảm Việc ứng dụng khai phá dữ liệu vào lĩnh vực quản lý rủi ro nói chung và rủi ro tín dụng nói riêng có một ý nghĩa quan trọng nhằm giảm thiểu tình trạng nợ quá hạn, nâng cao chất lượng tín dụng, giảm thiểu khả năng mất vốn
Mục đích của đề tài ứng dụng khai phá dữ liệu nhằm nâng cao chất lượng của
hệ thống xếp hạng tín dụng của Ngân hàng Kỹ thương Việt Nam Techcombank, để hệ thống xếp hạng tín dụng thực hiện phân loại khách hàng tốt hơn, phản ánh thực chất hơn tình trạng tín dụng của khách hàng
Luận văn gồm 4 chương với bố cục như sau:
Chương 1: Nghiên cứu cơ sở lý thuyết
Trình bày về quy trình khai phá dữ liệu, các phương pháp khai phá dữ liệu được
sử dụng
Chương 2: Lý thuyết về rủi ro tín dụng
Trình bày về ngân hàng thương mại, hoạt động tín dụng trong ngân hàng, hệ thống xếp hạng tín dụng, và lý thuyết về rủi ro tín dụng
Chương 3: Ứng dụng khai phá dữ liệu, áp dụng với nguồn dữ liệu của Ngân hàng Kỹ thương Việt Nam Techcombank
Trình bày về hệ thống xếp hạng tín dụng thế chấp và tín chấp tiêu dùng áp dụng cho khách hàng thể nhân và ứng dụng khai phá dữ liệu để điều chỉnh hệ thống xếp hạng tín dụng tín chấp tiêu dùng
Chương 4: Kết luận và kiến nghị
Trang 14CHƯƠNG 1: NGHIÊN CỨU CƠ SỞ LÝ THUYẾT
1.1 Sơ lược về khai phá dữ liệu
1.1.1 Sự cần thiết của khai phá dữ liệu
Kho dữ liệu của một công ty hay một tổ chức không ngừng tăng trưởng theo thời gian với tốc độ cao, chúng ta có thể thấy điều này qua kho dữ liệu của một ngân hàng hay một tập đoàn bán lẻ Dữ liệu bản thân nó chứa đựng những thông tin rất có giá trị, có lợi cho quá trình ra quyết định
Hình vẽ dưới đây trình bày một tập dữ liệu giả định về vay nợ ngân hàng gồm
23 trường hợp được biểu diễn trong không gian hai chiều Mỗi điểm trên đồ thị biểu diễn một trường hợp vay nợ ở ngân hàng trong quá khứ Trục hoành biểu diễn thu nhập còn trục tung biểu diễn tổng nợ cá nhân của người đi vay (tiền thế chấp, tiền chi trả ô tô ) Dữ liệu được phân thành hai lớp: lớp gồm
những người thiếu khả năng trả nợ ngân hàng và lớp o gồm những người có
tình trạng tốt Như vậy để hạn chế rủi ro các loại nợ (3-5) dẫn đến khả năng mất vốn ngân hàng chỉ cấp tín dụng cho những khách hàng có mức thu nhập từ ngưỡng T trở lên
Việc phát hiện ra những thông tin “có giá trị” là không dễ dàng, đối với nguồn dữ liệu
có kích thước lớn chúng ta không thể phân tích bằng tay mà cần đến những công cụ hỗ trợ đặc biệt Usama Fayyad đã chỉ ra những nhược điểm sau đây:
- Con người cần hàng tuần lễ hoặc lâu hơn để phát hiện ra những thông tin có ích
- Phần lớn dữ liệu chưa bao giờ được phân tích cả
Trang 15- Có một hố sâu giữa khả năng sinh ra dữ liệu và khả năng sử dụng dữ liệu
Chính vì những điều đó đã dẫn đến sự ra đời của khai phá dữ hiệu hay còn gọi là phát hiện trị thức, nhằm giải quyết tình trạng “giàu dữ liệu nhưng nghèo tri thức”
Khai phá dữ liệu là giải pháp phân tích tự động các kho dữ liệu, phát hiện ra các thông tin hữu ích, có lợi cho quá trình ra quyết định Cùng với thời gian, với sự tăng cường năng lực tính toán, hoàn thiện các thuật toán thống kê, học máy và các phương pháp thu thập, quản lý dữ liệu là tiền đề cho sự ra đời của khai phá dữ liệu
1.1.2 Định nghĩa khai phá dữ liệu
Phát hiện tri thức trong cơ sở dữ liệu (đôi khi còn được gọi là khai phá dữ liệu) là một quá trình nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu (Frawley, Piatetski-Shapiro và Matheus)
Friedman đã tổng hợp một số quan niệm sau đây về “khai phá dữ liệu”:
Quá trình để nhận biết từ dữ liệu ra các mẫu có giá trị, mới, hữu dụng và hiểu được,
Quá trình trích lọc các thông tin chưa biết trước, có thể nhận thức được, có thể tác động được từ CSDL lớn và sử dụng chúng để tạo ra quyết định có lợi,
Tập các phương pháp được dùng trong quá trình phát hiện tri thức nhằm tường minh các quan hệ và các mẫu chưa biết trước chứa trong dữ liệu,
Quá trình hỗ trợ quyết định khi tìm kiếm những mẫu thông tin chưa biết và hữu ích từ CSDL lớn
Trong định nghĩa xuất hiện các khái niệm là "mẫu", "có giá trị", "mới", "hữu ích" và
"hiểu được" Các khái niệm này được hiểu như sau:
Dữ liệu: Được hiểu như là một tập F gồm hữu hạn các trường hợp (sự kiện)
Đối với một bảng, dữ liệu được hiểu là tập hợp tất cả các bản ghi (record) trong bảng đó
Mẫu: Được hiểu là một tập con của tập sự kiện F, là một quan hệ tiềm ẩn
trong dữ liệu
Tính mới: Mẫu phải là mới trong một miền xem xét nào đó, ít nhất là hệ thống
đang được xem xét
Hữu ích tiềm năng: Mẫu cần có khả năng chỉ dẫn tới các tác động hữu dụng
và được đo bởi một hàm tiện ích
Trang 16 Có thể hiểu được: Một mục tiêu của khai phá dữ liệu là tạo ra các mẫu cho con người hiểudễ dàng hơn các dữ liệu nền (dữ liệu sẵn có trong hệ thống)
1.1.3 Quy trình khám phá tri thức trong CSDL
Khám phá tri thức trong CSDL bao gồm nhiều bước là: Chuẩn bị dữ liệu, tìm kiếm mẫu, ước lượng tri thức, tinh chế sự tương tác nội tại sau khi chuyển dạng dữ liệu Quá trình được thừa nhận là không tầm thường theo nghĩa là quá trình đó bao hàm một
mức độ tìm kiếm tự động Khai phá dữ liệu chỉ là một bước thiết yếu trong quy trình này
Quy trình này gồm các bước:
1) Làm sạch dữ liệu: Loại bỏ nhiễu hoặc các dữ liệu không thích hợp
2) Tích hợp dữ liệu: Tích hợp dữ liệu từ các nguồn khác nhau như: CSDL, kho dữ liệu, file text…
3) Chọn dữ liệu: Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu
4) Chuyển đổi dữ liệu: Trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp
5) Khai phá dữ liệu: Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu
6) Đánh giá mẫu: Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo Các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì
Trang 17vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra
7) Trình diễn dữ liệu: Sử dụng các kỹ thuật trình diễn vàtrực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng
1.2 Khai phá luật kết hợp
1.2.1 Luật kết hợp trong cơ sở dữ liệu
Trong đời sống hàng ngày chúng ta thường thấy các thống kê có dạng như sau: Cứ một
100 người mua quyển sách “chiến tranh tiền tệ” thì có 70 người mua thêm quyển “lý thuyết trò chơi” hay 80% khách hàng mua máy điện thoại di động thì mua thêm simcard, 30% có mua cả máy điện thoại di động lẫn simcard Đây là một dạng của luật kết hợp, nó là một dạng đơn giản khi kết hợp 2 mệnh đề A và B, nhưng lại có nhiều ý nghĩa trong cuộc sống, bởi nó giúp cho chúng ta ra những quyết định tốt hơn nhờ những số liệu thực tế Trong ví dụ trên, hiểu được tâm lý khách hàng, người bán hàng chỉ việc sắp xếp 2 loại hàng hóa đó gần nhau (trong trường hợp này là 2 quyển sách),
sẽ giúp cho khách hàng tiết kiệm được thời gian và quan trọng hơn là tăng doanh số bán hàng
Gọi I = {I 1 , I 2, , I m} là tập m thuộc tính riêng biệt (itemsets), mỗi thuộc tính gọi là một mục (item) Gọi D là một cơ sở dữ liệu, trong đó mỗi bản ghi tIT là một giao dịch và
chứa các tập mục, T I
T = {t1, t2, … tn} là tập gồm n giao dịch (transaction), mỗi giao dịch được định danh bởi TID (transaction identification)
Định nghĩa 1:Luật là một quy tắc chung nhất trên một tập các đối tượng Khái niệm
“chung nhất” được hiểu là một sự kiện xẩy ra thường xuyên hoặc có tính chất dị thường (những giao dịch gian lận thẻ tín dụng thường có tính chất dị thường)
Định nghĩa 2: Một luật kết hợp là một quan hệ có dạng X Y, trong đó X, Y I là các tập mục gọi là itemsets, và X Y Ở đây, X được gọi là tiền đề, Y là mệnh đề kết quả
Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s)và độ tin cậy (c)
Định nghĩa 3: Độ hỗ trợ (support) của luật kết hợp X Y là tỷ lệ phần trăm các bản
ghi X Yvới tổng số các giao dịch có trong cơ sở dữ liệu
Định nghĩa 4: Đối với một số giao dịch được đưa ra, độ tin cậy (confidence) là tỷ lệ
của số giao dịch có chứa X Y với số giao dịch có chứa X Đơn vị tính %.Về mặt xác
Trang 18suất, độ tin cậy (confidence)của một luật kết hợp là xác suất (có điều kiện) xảy ra Y
với điều kiện đã xảy ra X
Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả các luật có độ
hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người sử dụng xác
định trước Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và mincof
Việc khai thác các luật kết hợp có thể được phân tích thành hai vấn đề sau đây:
1 Tìm tất cả các tập mục thường xuyên xảy ra mà có độ hỗ trợ lớn hơn hoặc
bằng minsup
2 Tạo ra các luật mong muốn sử dụng các tập phổ biến mà có độ tin cậy lớn
hơn hoặc bằng mincof
Định nghĩa 5: Độ phổ biến (sup) của tập mục S trong cơ sở dữ liệu D là tỷ lệ giữ số
giao dịch chứa S trên tổng số giao dịch trong D
sup(S) = count(S) / |D|
Tập mục phổ biến (frequent itemsets) là tập các mục có độ phổ biến thỏa mãn độ phổ
biến tối thiểu minsup do người dùng tự xác định
Nếu sup(S) >= minsup thì S là tập phổ biến
Ví dụ:
Trong ví dụ dưới đây là cơ sở dữ liệu giao dịch của một cửa hàng bán lẻ, ghi nhận những giao dịch sau đây: Với tập mục I = {Bia, Bánh mì, Trái cây, Sữa, Đậu phụng}, ngưỡng phổ biến tối thiểu minsup = 50%
I = { Bia, Bánh mì, Trái cây, Sữa, Đậu phụng}
S= {Bánh mì, Đậu phụng}; count(S) = 3 và |D| = 5 → sup(S) = 60% → S- tập phổ biến
S2 = {Bánh mì} → sup(S2) = 80%→ S2 - tập phổ biến
Trang 19S3 = {Đậu phụng} → sup(S3) = 60% → S3 - tập phổ biến
S4 = {Sữa}→ sup(S4) = 2/5 = 40% → S4 –không là tập phổ biến
S5={Sữa, Bánh mì} → sup(S5) = 1/5 = 20% → S5 –không là tập phổ biến
Từ ví dụ này chúng ra rút ra các luật kết hợp với support và confidence như sau:
Bánh mì → Đậu phụng 60% 75%
Đậu phụng → Bánh mì 60% 100%
Bia → Bánh mì 20% 50%
Đậu phụng → Trái cây 20% 33.3%
Trái cây → Đậu phụng 20% 100%
1.2.2 Bài toán khai thác luật kết hợp
Cho một tập các giá trị I, một cơ sở dữ liệu giao dịch D, ngưỡng độ hỗ trợ tối thiểu
minsup, ngưỡng độ tin cậy mincof, tìm các luật kết hợp dạng X Y trên D thoả mãn điều kiện Suport(X Y) >= minsup và Confidence(X Y) >= mincof
Để giải quyết bài toán này chúng ta thực hiện 2 bước sau đây:
Bước 1: Tìm tất cả các tập phổ biến thỏa mãn ngưỡng minsup
Bước 2: Tạo ra các luật kết hợp từ tập phổ biến thỏa mãn ngưỡng hỗ trợ tối thiểu
minsup, ngưỡng tin cậy mincof
- Đối với tập phổ biến S, tạo ra các tập con khác rỗng của S
- A là tập con khác rỗng của S: A (S - A) là luật kết hợp nếu
cof(A (S - A)) = sup(S) / sup(A) >= mincof
Từ bài toán khai thác luật kết hợp chuyển thành bài toán khai thác tập phổ biến: Độ phức tạp tính toán cao vì số lượng các tập ứng cử viên là rất lớn
Tiến trình khai thác luật kết hợp
Xác định các tập phổ biến:Việc xác định các tập phổ biến gồm có hai bước chính sau
đây:
Trang 20• Xác định các tập ứng cử viên (Ck)
• Xác định các tập phổ biến (L) dựa vào tập ứng cử viên
Để xác định tập ứng cử viên, ta thực hiện các bước sau đây:
• Tìm các tập ứng cử viên một mục
• Quét CSDL D để xác định độ hỗ trợ của các tập ứng cử viên Trong vòng đầu
tiên, các tập ứng cử viên cũng chính là tất cả các mục có trong CSDL Tại vòng
thứ k (k>1), các tập ứng cử viên được xác định dựa vào các tập phổ biến đã xác định tại vòng k – 1, sử dụng hàm Apriori-gen() Sau khi đã xác định được các
tập ứng cử viên, thuật toán quét từng giao dịch trong CSDL để tính độ hỗ trợ của các tập ứng cử viên Quá trình xác định các tập mục sẽ kết thúc khi không xác định được thêm tập phổ biến nào nữa
Nội dung hàm Apriori-gen()
Hàm Apriori-gen() thực hiện hai bước [1]:
• Bước đầu tiên, Lk – 1 được kết nối với chính nó thu được Ck
• Bước thứ hai, Apriori_gen() xoá tất cả các tập mục từ kết quả kết nối mà có một
số tập con (k – 1) không có trong Lk – 1 Sau đó nó trả về tập phổ biến kích thước
k còn lại
Sinh các luật kết hợp từ tập phổ biến:
Việc phát hiện các tập phổ biến là rất tốn kém về mặt tính toán Tuy nhiên, ngay khi
tìm được tất cả các tập phổ biến (l L), ta có thể dễ dàng sinh ra các luật kết hợp có thể có bằng các bước như sau:
• Tìm tất cả các tập con không rỗng x, của tập phổ biếnl L
• Với mỗi tập con x tìm được, ta tìm ra luật dạng x (l - x) nếu tỷ lệ
Trang 21Conf = Suport(L k )/Suport(a m-1 )
If (Conf >= mincof) then begin
Output the rule a m-1(L k – a m-1 ) với confidence = mincof and suport = suport(L k )
If (m-1>1) then Call Genrules(L k ,a m-1 );
End;
End;
End;
Giải pháp hiệu quả
Trong phần trên chúng ta thấy tiến trình cơ bản để khai thác các luật kết hợp trong CSDL, song vấn đề cần phải quan tâm nghiên cứu là tăng hiệu quả của thuật toán
trong trường hợp: “Số lượng tập ứng viên được tìm thấy là rất lớn” Giải pháp cho vấn
đề này là “tỉa các ứng viên” nhằm giảm số lượng các ứngviên, và đảm bảo rằng các ứng viên được chọn là sáng giá nhất
Tỉa các ứng viên: Việc tỉa các ứng viên nhằm mục đích bỏ đi các tập ứng viên không
cần thiết, rút gọn số lượng của tập các tập ứng viên Sau đây, sẽ trình bày kỹ thuật
“tỉa” các ứng viên không cần thiết
Kỹ thuật này có tính chất: Các mục trong tập ứng viên được sắp xếp theo thứ tự
Nội dung kỹ thuật:
Forall itesets c C k do
Forall (k – 1)–subsets s of c do
If (s L k – 1 ) then Delete c from C k
Trang 22Dựa vào đây, ta cĩ thể tỉa được các tập ứng viên, từ đĩ cĩ thể giới hạn miền tìm kiếm
của nĩ trên tất cả các tập mục
1.3Phân lớp
Phân lớp là bài tốn mà chúng ta thường gặp trong thực tế: Phân loại học sinh vào các lớp A, B, C, ngân hàng thực hiện phân lớp khách hàng để cấp tín dụng hay từ chối, phân loại giao dịch thẻ tín dụng là gian lận hay hợp pháp, phân loại tin tức thuộc các lĩnh vực như tài chính, y học, giải trí, thể thao, thời tiết…Cĩ thể nĩi phân lớp cĩ trong hầu hết các lĩnh vực của cuộc sống, nhưng tại sao phải phân lớp và phân lớp để làm gì? Việc phân lớp đối tượng sẽ giúp hiểu rõ hơn về các đối tượng cĩ chung một đặc điểm nào đĩ, đồng thời giúp chúng ta những ứng xử tốt hơn với các đối tượng đĩ Ngân hàng thực hiện phân loại tình trạng tín dụng của khác hàng thành các lớp AAA (tốt nhất), AA (rất tốt), A (tốt), BBB (khá), BB (trung bình khá), B (trung bình), C (kém), đối với hạng BB, B ngân hàng sẽ thực hiện áp dụng mức lãi suất cao hơn, vì rủi
ro tín dụng đối với trường hợp này là cao hơn AAA, AA, A Đối với hạng C ngân hàng sẽ từ chối cấp tín dụng
Làm sao để gán các đối tượng vào các lớp với độ chính xác cao nhất cĩ thể? Người ta
sử dụng các phương pháp khác nhau để thực hiện việc phân lớp, mỗi phương pháp đều
cĩ ưu điểm và nhược điểm riêng, dưới đây là các phương pháp thường được sử dụng:
- Phương pháp dựa trên cây quyết định
- Phương pháp dựa trên luật
- Phương pháp Nạve Bayes
- Phương pháp dựa trên thể hiện
Mục đích:Gán các mẫu vào các lớp với độ chính xác cao nhất cĩ thể
Thơng thường tập dữ liệu được chia ra làm 2 tập con: Tập huấn luyện (training set) và tập kiểm thử (test set) Tập huấn luyện được dùng để xây dựng các mơ hình và tập kiểm thử để kiểm tra tính hợp lệ và đúng đắn của các mơt hình đĩ
Quy trình phân lớp: Gồm 2 bước
Trang 23Bước 1: Xây dựng mô hình – Mô tả tập các lớp được xác định trước
• Tập huấn luyện: Các mẫu/bộ dùng cho việc xây dựng mô hình
• Mỗi mẫu/bộ thuộc về một lớp đã được định nghĩa trước
• Tìm luật phân lớp, cây quyết định hoặc công thức toán để mô tả lớp
Bước 2 - Sử dụng mô hình: Phân lớp các đối tượng chưa biết
Xác định độ chính xác của mô hình dựa vào các tiêu chí sau:
• So sánh nhãn của mẫu kiểm tra với kết quả phân lớp từ mô hình
• Độ chính xác là tỷ lệ (%) của tập mẫu kiểm tra được phân loại đúng bởi mô hình
• Sử dụng tập dữ liệu để kiểm tra độc lập với tập huấn luyện
1.3.1 Phân lớp bằng phương pháp dựa trên cây quyết định
Cây quyết định là một sơ đồ luồng giống với cấu trúc cây, là một cấu trúc phân cấp của các nút và các nhánh:
• Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính
• Mỗi nhánh biểu diễn kết quả phép kiểm tra
• Các nút lá biểu diễn các lớp hay các phân bố lớp
• Nút cao nhất trong cây là nút gốc
Xây dựng cây quyết định gồm 2 bước:
Bước 1: Thiết lập cây quyết định
Trang 24Age income student credit_rating buys_computer
<=30 high no excellent no
>40 medium no fair yes
>40 low yes excellent no
31…40 low yes excellent yes
<=30 medium no fair no
>40 medium yes fair Yes
<=30 medium yes excellent Yes
31…40 medium no excellent Yes
>40 medium no excellent No
Bảng 1: Thông tin thuộc tính mua máy tính cá nhân khách hàng
Hình 1.3.1: Xây dựng cây quyết định về việc mua máy tính cá nhân của khách hàng, mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính Mỗi nút lá biểu thị một lớp (buys_computer = yes hoặc buys_computer = no)
Trang 25Thuật toán xây dựng cây quyết định
Chiến lƣợc cơ bản
1) Bắt đầu từ nút đơn biểu diễn tất cả các mẫu
2) Nếu các mẫu thuộc về cùng một lớp, nút trở thành nút lá và được gán nhãn bằng lớp đó
3) Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân tách tốt nhất các mẫu vào các lớp
4) Một nhánh được tạo cho từng giá trị của thuộc tính được chọn và các mẫu được phân hoạch theo
5) Dùng đệ quy cùng một quá trình để tạo cây quyết định
6) Tiến trình kết thúc (điều kiện dừng) chỉ khi bất kỳ điều kiện nào sau đây là đúng
• Tất cả các mẫu cho một nút cho trước đều thuộc về cùng một lớp
• Không còn thuộc tính nào mà mẫu có thể dựa vào để phân hoạch xa hơn
• Không còn mẫu nào cho nhánh test_attribute = ai
Thuật toán
Ý tưởng chính:
• Sử dụng phương pháp tham lam (greedy)
• Phân chia tập mẫu dựa trên thuộc tính cho kết quả tối ưu so với tiêu chuẩn Vấn đề:
• Xác định cách thức phân chia các mẫu: Dựa trên độ đo sự đồng nhất của dữ liệu
• Điều kiện dừng
Cách phân chia các mẫu
• Tiêu chuẩn phân chia: tạo ra các nhóm sao cho một lớp chiếm ưu thế trong từng nhóm
• Thuộc tính được chọn là thuộc tính có độ đo thông tin tốt nhất, có lợi nhất trong quá trình phân lớp
Trang 26• Để đánh giá chất lượng hay mức độ hiệu quả của một thuộc tính trong một phân lớp người ta sử dụng các đại lượng để đo Các đại lượng được sử dụng là:
Entropy (information gain)
Information Gain Ratio
Gini Index
Entropy (information gain): Chọn một thuộc tính có độ đo thông tin lớn nhất
Cho một tập huấn luyện D
Ci, D: Tập các mẫu của D thuộc lớp Ci với i = {1, …, m}
|Ci, D|, |D|: Lực lượng của tập Ci, D và D tương ứng
Pi : Là xác suất để một mẫu bất kỳ của D thuộc về lớp Ci
Thông tin kỳ vọng để phân lớp một mẫu trong D là:
Info(D) = với pi =
Ví dụ:
Trong ví dụ về việc mua máy tính cá nhân trên: Có 14 mẫu tin, trong đó có 9 muamáy tính và 5 không mua
|D| = 14; m = 2; C1 =“Mua “; C2 =“Không mua”|C1, D|= 9, |C2, D|=5
Thông tin kỳ vọng để phân lớp một mẫu trong Dlà:
Info(D) = I(9,5) = = 0.904
Thuộc tính A có các giá trị:{a1, a2 , …,av}
Dùng thuộc tính A để phân chia tập huấn luyện Dthành v tập con {D1, D2, Dv} Thông tin cần thiết để phân chia D theo thuộc tính A:
InfoA(D) =
Information gain dựa trên phân chia theo thuộc tính A là:
Gain(A) = Info(D) - InfoA(D) Thuộc tính “buys_computer” có 2 lớp: Lớp P - buys_computer = “yes” & N – buys_computer = “no”
Info(D) = I(9,5) = 0.904
Trang 27Tính entropy cho thuộc tính “age”, thuộc tính này có 3 giá trị là “<=30”, “31…40”,
“>40”, được chia thành 3 lớp tương ứng
Suy ra: Gain(age) = Info(D) - Infoage (D) = 0.246
Sử dụng cách tính tương tự cho các thuộc tính “income”, “student”, “credit_rating”:
Gain(income) = 0.029 Gain(student) = 0.151 Gain(credit_rating) = 0.048 Như vậy độ đo thông tin của D theo thuộc tính “age” là lớn nhất, nghĩa là việc phân chia các mẫu theo thuộc tính “age” có mức độ tin cậy là cao nhất Ta sẽ chọn thuộc tính “age” để thực hiện phân lớp
Ƣu điểm của phân lớp dựa trên cây quyết định:
• Dễ dàng xây dựng cây
• Phân lớp mẫu mới nhanh
• Dễ dàng diễn giải cho cây quyết định có kích thước nhỏ
• Độ chính xác chấp nhận được so với các kỹ thuật phân lớp khác trên nhiều tập
dữ liệu đơn
Nhƣợc điểm của phân lớp dựa trên cây quyết định:
• Phải tính information gain của tất cả các thuộc tính để tìm ra thuộc tính có information gain lớn nhất hoặc nhỏ nhất (tùy theo tiêu chí lựa chọn) Nếu 1 thuộc tính có nhiều giá trị (n lớn), việc tính toán đòi hỏi nhiều thời gian
I(4,0) = 0 I(3,2) = 0.971
Trang 281.3.2 Phân lớp bằng phương pháp dựa trên luật [1]
- Luật là một quy tắc chung nhất trên một tập các đối tượng, luật cĩ dạng như sau:
IF (điều kiện) THEN Y
• Với “điều kiện”: Là sự kết hợp giữa các thuộc tính
• Y là nhãn lớp
Ví dụ: IF (age = “youth” and student = “yes”) THEN buys_computer = “yes”
- Luật R phủ một mẫu x nếu các thuộc tính của mẫu thỏa mãn điều kiện của luật
- Độ phủ của luật coverage(R): Là tỷ lệ các mẫu thỏa mãn điều kiện vế trái của luật
- Độ chính xác của luật accuracy(R): Là tỷ lệ các mẫu thỏa mãn cả điều kiện và kết luận (vế phải và vế trái) của luật
- Sử dụng phương pháp trực tiếp và gián tiếp để xây dựng luật:
• Phương pháp trực tiếp: Rút các luật trực tiếp từ dữ liệu
• Phương pháp gián tiếp: Rút luật từ các mơ hình phân lớp khác nhau như cây quyết định, mạng nơron, Nạve Bayes,…
Phương pháp gián tiếp xây dựng luật:
- Rút, trích luật từ cây quyết định
- Một luật được tạo ra từ đường dẫn từ gốc đến lá
- Mỗi cặp giá trị thuộc tính dọc theo đường dẫn tạo nên một phép kết
- Các nút lá mang tên lớp
Từ cây quyết định hành vi mua máy tính của khách hàng dựa theo thuộc tính “age” (hình 2) Chúng ta rút ra các luật sau đây:
R1: IF age = “<=30” AND student = “no” THEN buys_computer = “no”
R2: IF age = “<=30” AND student = “yes”THEN buys_computer = “yes”
R3: IF age = “31…40”THEN buys_computer = “yes”
R4: IF age = “>40” AND credit_rating = “excellent” THEN
buys_computer = “no”
R5: IF age = “>40” AND credit_rating = “fair”THEN buys_computer = “yes”
Trang 29Phương pháp trực tiếp xây dựng luật:
- Rút trích luật trực tiếp từ dữ liệu: Sử dụng thuật toán phủ tuần tự
- Các luật được học tuần tự:Mỗi luật trong lớp Ci sẽ phủ nhiều mẫu của Ci nhưng không phủ (hoặc phủ ít) mẫu của các lớp khác
Xây dựng luật:
• Bắt đầu từ luật rỗng
• Sử dụng hàm Learn-One-Rule để phát triển luật
• Thêm thuộc tính làm tăng chất lượng của luật (độ phủ, độ chính xác)
• Loại các mẫu bị phủ bởi luật ra khỏi dữ liệu
• Lặp lại quá trình trên cho đến khi gặp điều kiện dừng (không còn mẫuhoặc độ
đo chất lượng thâp hơn ngưỡng do người dùng xác định)
Luật quy nạp - ILA
Năm 1998, M.tolun đã giới thiệu ILA – Inductive learning algorithmn, với tư tưởng chính như sau:
• Xác định các luật IF – THEN trực tiếp từ tập huấn luyện, phát triển các luật theo hướng từ tổng quát đến cụ thể
• Chia tập huấn luyện thành các tập con (bảng) theo từng giá trị của lớp
• So sánh các giá trị của thuộc tính trong từng tập con và tính số lần xuất hiện
• Thuộc tính có dạng phi số, giá trị rời rạc
Thuật toán ILA
Bước 1:Chia tập huấn luyện có chứa m mẫu thành n bảng con (bảng), ứng với n giá trị
của thuộc tính lớp Bước 2 đến 8 sẽ lặp lại cho mỗi bảng con
Bước 2: Khởi tạo số lượng thuộc tính kết hợp với j = 1
Bước 3: Xét từng bảng con, tạo danh sách các thuộc tính kết hợp (phần tử danh sách
có j thuộc tính)
Bước 4: Với mỗi phần tử trong danh sách trên, đếm số lần xuất hiện của các giá trị
thuộc tính ở dòng chưa đánh dấu của bảng con đang xét, nhưng giá trị không được xuất hiện ở những bảng con khác
Trang 30Chọn phần tử kết hợp đầu tiên có số lần xuất hiện của giá trị thuộc tính
nhiều nhất và đặt tên là max-combination
Bước 5: Nếu max-combination = 0 thì j = 1 và quay lại bước 3
Bước 6: Trong bảng con đang xét, đánh dấu các dòng có sự xuất hiện của
max-combination
Bước 7: IF (thuộc tính = giá trị) AND (thuộc max-combination) THEN
giá trị của thuộc tính lớp ứng với bảng con đang xét
Bước 8:
- Nếu tất cả các dòng đều được đánh dấu:
• Nếu còn bảng con thì chuyển qua bảng con tiếp theo và lập lại từ bước 2
• Ngược lại: Chấm dứt thuật toán
- Nếu còn dòng chưa được đánh dấu thì quay lại bước 4
Áp dụng với ví dụ sau đây:
No Size Color Shape Decision
1 Vừa Xanh dương Hộp Yes
1 (1) Vừa Xanh dương Hộp Yes
3 (5) Lớn Xanh lá cây Trụ Yes
4 (7) Lớn Xanh lá cây Cầu Yes
Trang 313 (5) Lớn Xanh lá cây Trụ Yes X
4 (7) Lớn Xanh lá cây Cầu Yes X
• B2: j = 1
• B3: {[size], [color], [shape]}
• B4: Max-combination = “Xanh lá cây”
3 (5) Lớn Xanh lá cây Trụ Yes X
4 (7) Lớn Xanh lá cây Cầu Yes X
• B4: Max-combination = “Vừa”
• B6: Đánh dấu dòng 1
• B7: R2 : IF size = “Vừa” THEN decision =“Yes”
No Size Color Shape Decision
3(6) Lớn Đỏ Trụ No
Trang 323 (5) Lớn Xanh lá cây Trụ Yes X
4 (7) Lớn Xanh lá cây Cầu Yes X
• B4: Max-combination = “Cầu”
• B6: Đánh dấu dòng 2
• B7: R3 : IF shape = “Cầu” THEN decision =“Yes”
• B8: Chuyển qua bảng con 2 vàs bằt dầu từ B2
Áp dụng đối với bảng con 2
Trang 33Chúng ta rút ra các luật sau đây:
• R1: IF color = “Xanh lá cây” THEN decision =“Yes”
• R2: IF size = “Vừa” THEN decision =“Yes”
• R3: IF shape = “Cầu” THEN decision =“Yes”
• R4: IF shape = “Nĩn” THEN decision =“No”
• R5: IF size = “Lớn” AND color = “Đỏ” THEN decision =“No”
1.3.3 Phân lớp bằng phương pháp Nạve Bayes
Định lý Bayes là một định lý quan trọngcủa lý thuyết xác suất Nĩ đề cập đến phân bố xác suấtcĩ điều kiện của biến ngẫu nhiênA, với giả thiết là biết được:
- Thơng tin về một biến khác B: Phân bố xác suất cĩ điều kiện của B khi biết A
- Phân bố xác suất của một mình A
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), "xác suất của A nếu
cĩ B" Đại lượng này được gọi xác suất cĩ điều kiện hay xác suất hậu nghiệm vì nĩ được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đĩ
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
1) Xác suất xảy ra A của riêng nĩ, khơng quan tâm đến B Kí hiệu là P(A), xác suất
của A Đây được gọi là xác suất tiên nghiệm, khái niệm "tiên nghiệm" theo
nghĩa rằng nĩ khơng quan tâm đến bất kỳ thơng tin nào về B
2) Xác suất xảy ra B của riêng nĩ, khơng quan tâm đến A Kí hiệu là P(B), "xác suất của B" Đại lượng này cịn gọi là hằng số chuẩn hĩa (normalising constant), vì nĩ luơn giống nhau, khơng phụ thuộc vào sự kiện A đang muốn
biết
Trang 343) Xác suất xảy ra B khi biết A xảy ra Kí hiệu là P(B|A), "xác suất của B nếu có A" Đại lượng này gọi là khả năng (likelihood) xảy ra B khi biết A đã xảy ra Khả năng xảy ra A khi biết B và xác suất xảy ra A khi biết B là khác nhau
Khi biết ba đại lượng này, xác suất của A khi biết B cho bởi công thức:
Để hiểu rõ hơn định lý Bayes và việc áp dụng trong việc phân lớp, ta xem xét qua ví
dụ sau với 2 đối tượng là Green và Red Nhiệm vụ đặt ra là phân loại một đối tượng vào một trong 2 lớp đã có sẵn là Green và Red Trong hình vẽ có 40 đối tượng màu xanh và 20 đối tượng màu đỏ, như vậy:
Green = 40, Red = 20, Total = Green + Red = 60
Hình 1.3.3.1: Phân lớp các đối tượng xanh và đỏ
Đầu tiên ta sẽ tính xác xuất tiên nghiệm của 2 đối tượng Green và Red Trong trường hợp này nó chính là tỉ lệ phần trăm của hai đối tượng Green và Red, chúng được sử dụng để dự đoán kết quả trước khi chúng có thể xảy ra:
Xác suất có thể của Green =
Xác suất có thể của Red =
Trong đó:
- G: Là số đối tượng Green
- R: Là số đối tượng Red
- T: Là tổng số các đối tượng
Trong ví dụ này ta có T = 60; G = 40; R = 20 Thì xác suất có thể của các ứng viên:
P(Green) = , P(Red) =
Trang 35Hình 1.3.3.2: Xác suất một đối tượng thuộc về lớp xanh hoặc đỏ
Để có thể xây dựng một công thức xác định xác suất P(X)chúng ta sẽ tiến hành phân loại các đối tượng White (X)như hình vẽ Từ các đối tượng sẵn có, ta có thể giả định đối tượng đã cho thuộc lớpRed hoặc Green trong vùng lân cận của X, tốt hơn là các đối tượng ta xét có thể thuộc vào màu đặc biệt đó Để giới hạn cho các khả năng có thể xảy ra này, ta sẽ dựng thêm một đường tròn xung quanh X, nó sẽ bao quanh một số điểm mà ta sẽ không quan tâm là chúng thuộc đối tượng nào Sau đó ta sẽ tính toán số các điểm thuộc vào mỗi loại Green và Red có trong vòng tròn, từ đó có thể tính được khả năng có thể của X
Khả năng X thuộc Green =
Khả năng X thuộc Red =
Khả năng X thuộc Green là =
Khả năng X thuộc Red là =
Mặc dù xác suất có thể biểu thị rằng X có thể thuộc Green (bằng cách so sánh hai xác suất tiên nghiệm với nhau) nhưng khả năng biểu thị lại khác (rằng ứng viên X là Red) Trong phân tích Bayes, phân hoạch cuối cùng được đưa ra bởi việc phối hợp cả hai
Trang 36nguồn thơng tin, mức ưu tiên và khả năng cĩ thể hìnhthành xác suất “hậu nghiệm” (posterior probability)
Xác suất hậu nghiệm của X cĩ thể thuộc Green:
= Xác suất tiên nghiệm của Green * Khả năng X thuộc Green
=
Xác suất hậu nghiệm của X cĩ thể thuộc Red
= Xác suất cĩ thể của Red * Khả năng X thuộc Red
=
Cuối cùng chúng ta phân loại X vào Red vì nĩ là đạt xác suất hậu nghiệm lớn nhất
Phân lớp Nạve Bayes
Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính A1, A2,…, An
Cho trước các lớp C1, C2, …, Cm Với X là mẫu dữ liệu chưa biết trước, thực hiện gán X vào Ci nếu P(Ci|X) > P(Cj|X) với 1 j m, j i Tìm lớp Ci sao cho P(Ci|X) đạt cực đại Lớp Ci mà P(Ci|X) đạt cực đại được gọi là giả thuyết hậu nghiệm cực đại (maximum posterior hypothesis) Theo định lý Bayes
Do P(X) là hằng số cho tất cả các lớp, như vậy chỉ cần cực đại P(X|Ci) P(Ci) Nếu P(Ci) chưa biết, cần giả định P(C1)=P(C2)=…= P(Cm) và chúng ta sẽ cực đại P(X|Ci) Ngược lại, ta cực đại P(X|Ci) P(Ci)
Nếu m là lớn, sẽ rất tốn kém khi tính P(X|Ci) P(Ci).Phân lớp Nạve Bayes giả định điều kiện là độc lập, chúng cĩ vai trị như nhau trong việc phân lớp:
Cĩ thể phỏng tính P(X1|Ci), …, P(Xn|Ci) từ các mẫu huấn luyện Nếu Ak được phân lớp thì P(Xk|Ci) = Sik/Si vớiSik là số mẫu huấn luyện của Ci cĩ trị Xk cho Ak và Si là số các mẫu thuộc về lớp Ci
Trang 37 Nếu Ak là liên tục thì nĩ được giả định cĩ phân bố Gaussian:
Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci Sau đĩ mẫu X được gán vào Ci nếuP(Ci|X) > P(Cj|X) for 1 j m, j i Nĩi cách khác, phân lớp Nạve Bayesgán X vào lớp Cisao cho P(X|Ci) P(Ci) là cực đại
Dự báo nhãn lớp với phân lớp Nạve Bayes
Trong ví dụ về hành vi mua máy tính của khách hàng trong ví dụ trên (trang 18) chúng ta rút ra được X, và thực hiện phân lớp theo Nạve Bayes như sau:
- X = (age = “<=30”, income = “fair”, student = “yes”, credit_rating = “fair”)
- P(buys_computer = “yes”) = 9/14 = 0.643
P(buys_computer = “no”) = 5/14 = 0.357
- Để tính P(X|Ci) P(Ci), với i = 1, 2, chúng ta tính:
P(age = “<30”| buys_computer = “yes”) = 2/9 = 0.222
P(age = “<30”| buys_computer = “no”) = 3/5 = 0.600
P(income = “medium”| buys_computer = “yes”) = 4/9 = 0.444
P(income = “medium”| buys_computer = “no”) = 2/5 = 0.444
P(student = “yes”| buys_computer = “yes”) = 6/9 = 0.667
P(student = “yes”| buys_computer = “no”) = 1/5 = 0.200
P(credit_rating = “yes”| buys_computer = “yes”) = 6/9 = 0.667
P(credit_rating = “yes”| buys_computer = “no”) = 2/5 = 0.400
Chúng ta thu được kết quả sau:
Trang 38Như vậy, phân lớp Nạve Bayes dự đốn buys_computer = “yes” cho mẫu X
CHƯƠNG 2: LÝ THUYẾT VỀ RỦI RO TÍN DỤNG
2.1 Tổng quan về ngân hàng thương mại
2.1.1 Khái niệm về ngân hàng thương mại
Ngân hàng thương mại là một trung gian tài chính đĩng vai trị quan trọng trong việc đảm bảo cho nền kinh tế hoạt động nhịp nhàng và hiệu quả Ngân hàng thương mại là loại hình ngân hàng giao dịch trực tiếp với các tổ chức và cá nhân, bằng cách nhận tiền gửi, sau đĩ sử dụng nguồn vốn đĩ cho vay, chiết khấu, cung cấp các phương tiện thanh tốn và dịch vụ ngân hàng cho các tổ chức và cá nhân Ngồi ra, ngân hàng thương cịn thực hiện các chính sách kinh tế, đặc biệt là chính sách tiền tệ, vì vậylà một kênh quan trọng trong chính sách kinh tế của Chính phủ nhằm ổn định kinh tế vĩ mơ
Theo Luật các tổ chức tín dụng do Quốc hội nước Cộng hịa xã hội chủ nghĩa Việt Nam, khĩa X, kỳ họp thứ hai thơng qua ngày 12 tháng 12 năm 1997: “Ngân hàng là loại hình tổ chức tín dụng được thực hiện tồn bộ hoạt động ngân hàng và các hoạt động khác cĩ liên quan” (Khoản 2 Điều 20) Luật này cịn định nghĩa: “Tổ chức tín dụng là doanh nghiệp được thành lập theo quy định của Luật này và các quy định khác của pháp luật để hoạt động kinh doanh tiền tệ, làm dịch vụ ngân hàng với nội dung nhận tiền gửi và sử dụng tiền gửi để cấp tín dụng, cung ứng các dịch vụ thanh tốn” (Khoản 1 Điều 20) và “Hoạt động ngân hàng là hoạt động kinh doanh tiền tệ và dịch
vụ ngân hàng với nội dung thường xuyên là nhận tiền gửi, sử dụng số tiền này để cấp tín dụng và cung ứng các dịch vụ thanh tốn” (Khoản 7 Điều 20)
Như vậy cĩ thể đưa ra một khái niệm chung nhất như sau: Ngân hàng thương mại là một loại hình doanh nghiệp đặc biệt kinh doanh tiền tệ với hoạt động thường xuyên là huy động vốn, cho vay, chiết khấu, bảo lãnh, cung cấp các dịch vụ tài chính và các hoạt động khác cĩ liên quan Thơng qua các định chế tài chính này mà nguồn tiền nhàn rỗi trong xã hội được huy động, tập hợp lại cung cấp cho các tổ chức, cá nhân phục vụ cho mục đích kinh doanh, qua đĩ gĩp phần vào sự phát triển kinh tế xã hội
2.1.2 Chức năng của ngân hàng thương mại
Ngân hàng thương mại cĩ 3 chức năng chính đĩ là: Chức năng trung gian tài chính, chức năng trung gian thanh tốn, chức năng cung ứng dịch vụ ngân hàng
Trung gian tài chính
Trang 39Ngân hàng thương mại huy động vốn từ các tổ chức và cá nhân gồm: Tiền gửi tiết kiệm, tiền gửi thanh toán, vốn bằng tiền của các tổ chức kinh tế, định chế tài chính, và
sử dụng nguồn vốn này để cho vay đáp ứng nhu cầu vốn kinh doanh, vốn đầu tư cho các ngành nghề kinh tế, thành phần kinh tế và nhu cầu vốn tiêu dùng của xã hội
Trung gian thanh toán
Ngân hàng thương mại đứng ra làm trung tâm thanh toán để thực hiện giao dịch giữa người mua và người bán, giữa các khách hàng với nhau nhằm hoàn tất các quan hệ kinh tế thương mại của các thành phần tham gia
Cung ứng dịch vụ ngân hàn
Trong một xã hội phát triển dịch vụ ngân hàng ngày càng đa dạng và phát triển không ngừng đó có thể là: Mua bán ngoại tệ, bảo lãnh, ủy thác và tư vấn đầu tư…Hiện tại các ngân hàng thương mại Việt Nam cung cấp các dịch vụ sau:
Mua bán ngoại tệ
Nhận tiền gửi
Cho vay
Bảo quản vật có giá
Cung cấp cáctài khoản giao dịch và tài khoản thanh toán
Quản lý ngân quỹ
Tài trợ thương mại, tài trợ các dự án của Chính phủ
Bảo lãnh
Cho thuê thiết bị, cho thuê tài chính
Ủy thác và tư vấn đầu tư
Môi giới đầu tư chứng khoán
Dịch vụ bảo hiểm nhân thọ và phi nhân thọ
Ngân hàng đại lý
2.2 Hoạt động tín dụng trong ngân hàng thương mại
“Tín dụng” là sự chuyển nhượng tạm thời quyền sở hữu một lượng giá trị đó có thể là tiền tệ hay hiện vật của người sở hữu sang cho một người khác sử dụng và sẽ hoàn trả người sở hữu nó sau một thời gian nhất định với một lượng giá trị lớn hơn Như vậy có thể thấy rằng “tín dụng” là một quan hệ vay mượn tài sản đó có thể là tiền tệ hoặc hàng hóa, dựa trên nguyên tắc có hoàn trả cả vốn lẫn lãi sau một thời gian nhất định
Trang 40Đó là một quan hệ giữa hai bên, trong đó một bên là chủ sở hữu cung ứng tiền, hàng hóa, dịch vụ hoặc chứng khoán dựa trên sự cam kết sẽ hoàn trả trong tương lai (gồm gốc và lãi) của người đi vay
Ngân hàng thương mại cấp tín dụng cho tổ chức, cá nhân là việc thỏa thuận để khách hàng thụ hưởng một tài khoản tiền với nguyên tắc có hoàn trả bằng các nghiệp vụ cho vay, chiết khấu, cho thuê tài chính, bảo lãnh ngân hàng và các nghiệp vụ khác (trích Điều 20, Luật các tổ chức tín dụng Việt Nam) Đối với các ngân hàng thương mại Việt Nam có hai loại dịch vụ là: Tín dụng và phi tín dụng Hoạt động cho vay (“tín dụng”)
là một hoạt động cơ bản và mang lại nguồn lợi nhuận lớn cho ngân hàng
Phân loại các loại hình tín dụng:
– Căn cứ vào thời hạn cho vay: Ngắn hạn, trung hạn và dài hạn
– Căn cứ vào mục đích sử dụng vốn:Cho vay tiêu dùng, cho vay mua nhà, sản xuất kinh doanh, du học, xuất nhập khẩu…
– Căn cứ vào mức độ tín nhiệm của khách hàng: Có tài sản đảm bảo, không có tài sản đảm bảo
– Căn cứ vào đối tượng trả nợ: Tín dụng trực tiếp và gián tiếp
– Căn cứ và kỹ thuật nghiệp vụ cho vay – thu nợ:
Cho vay thông thường
Cho vay luân chuyển
Thấu chi
Chiết khấu thương phiếu
Cho vay hợp vốn
Bảo lãnh
Cho thuê tài chính
Bao thanh toán