2.3.2. Thuật toán Naive Bayes
2.3.2.1. Lý thuyết về Naive Bayes
Bộ phân lớp Bayes là một giải thuật thuốc lớp giải thuật phân lớp thống kê, nó có thể dự đốn xác xuất của một phần tử dữ liệu thuộc vào một lớp là bao nhiêu. Phân lớp Bayes được dựa trên định lý Bayes (định lý được đặt theo tên giác giả của nó là Thomas Bayes). Trích Wikipedia “Định lý Bayes là một kết quả của lý thuyết xác suất, nó đề cập đến phân bố có điều kiện của biến ngẫu nhiên A với giả thiết: thông tin về một biến khác B: phân bố xác suất có điều kiện của B khi biết A và phân bố xác suất của một mình A”.
a. Định lý Bayes:
Gọi X là một chứng cứ (trong bài tốn phân lớp thì X sẽ là một phần tử dữ liệu), H là một giả thiết nào đó để cho X thuộc một lớp C nào đó. Trong bài toán phân lớp, chúng ta muốn xác định giá trị P (H |X) là xác suất để giả thiết H là đúng với chứng cứ X thuộc vào
Khóa luận tốt nghiệp________________________________________________________ lớp C với điều kiện ta biết các thông tin mô tả X. P (H |X) là một xác suất hậu nghiệm của H với điều kiện
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là “xác suất của A
nếu có B”. Đại lượng này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó.
Định lý Bayes sẽ giúp ta tính ra xác suất xảy ra của một giả thuyết bằng cách thu thập các bằng chứng nhất quán hoặc không nhất quán với một giả thuyết nào đó. Khi các bằng chứng tích lũy, mức độ tin tưởng vào một giả thuyết thay đổi. Khi có đủ bằng chứng, mức độ tin tưởng này thường trở nên rất cao hoặc rất thấp, tức là xác xuất sảy ra giả thuyết sẽ thay đổi thì các bằng chứng liên quan đến nó thay đổi.
Cơng thức của định luật Bayes được phát biểu như sau:
P (B| A) x P (A)
P (A| B) = P (B)ɪ
Trong đó
• P(A|B) là xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra.
• P(B|A) là xác suất xảy ra B khi biết A xảy ra
• P(A) là xác suất xảy ra của riêng A mà không quan tâm đến B. • P(B) là xác suất xảy ra của riêng B mà không quan tâm đến A. b. Phân lớp Naive Bayes
Naive Bayes Classification (NBC) là một thuật toán dựa trên định lý Bayes tính tốn xác suất. Dựa vào những dữ liệu đã được thống kê và quan sát để có thể đưa ra dự đốn hoặc phân loại dữ liệu. Trong các thuật toán được sử dụng trong lĩnh vực Marchine learning, có lẽ Naive Bayes Classification được ứng dụng nhiều hơn cả. NBC được u thích bởi số đơng vì độ dễ hiểu và độ chính xác cao với những dự đốn trên tập dữ liệu đã thu thập được. NBC thuộc nhóm Supervised Machine Learning Algorithms (thuật tốn học
có hướng dẫn), tức là cho phép hệ thống học tự động từ những ví dụ về mẫu dữ liệu đã có để giải quyết những vấn đề cụ thể.
1. Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được biểu diễn bằng một vector chứa n giá trị thuộc tính A1, A2,...,An,X = {xι,X2,...,Xn}
2. Giả sử có m lớp C1, C2...Cm. Cho một phần tử dữ liệu X, bộ phân lớp sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất. Cụ thể, bộ phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci nếu và chỉ nếu:
ST
T ITUO HONNHANTT HOC VAN SO DU NHA NO TG LLC SLLH NGAY LLGD KQCD TRUOC QUYET DINH
1 <=35 KET HON THCS CAO KHONG KHONG IT IT GAN KHONG RO KHONG
2 <=35 DOC THAN DAI HOC TRUNG BINH CO KHONG IT IT XA THAT BAI KHONG
3 >=50 KET HON THCS CAO KHONG CO IT NHIEU GAN KHONG RO KHONG
4 <=35 DOC THAN DAI HOC TRUNG BINH KHONG KHONG IT IT TRUNG BINH THAT BAI KHONG
5 >=50 LY DI THPT CAO KHONG KHONG NHIEU IT GAN KHONG RO CO
6 <=35 DOC THAN THCS THAP CO CO IT IT GAN KHONG RO KHONG
7 >=50 KET HON KHONG RO CAO CO KHONG IT IT GAN THANH CONG CO
8 36-49 LY DI THCS TRUNG BINH KHONG KHONG NHIEU TRUNG BINH GAN KHONG RO CO
9 36-49 DOC THAN THPT THAP CO KHONG NHIEU IT GAN KHONG RO KHONG
10 <= 35 KET HON DAI HOC CAO CO KHONG TRUNG BINH IT GAN KHAC CO
11 >=50 KET HON THPT CAO CO KHONG IT TRUNG BINH GAN KHONG RO KHONG
P(Ci) > P(C∖X j) (1< = i, j <=m, i ≠ j)∖X Giá trị này sẽ tính dựa trên định lý Bayes.
p.^i p ( i - pu - P{Ci∖X) - P(X)
3. Để tìm xác suất lớn nhất, ta nhận thấy các giá trị P(X) là giống nhau với mọi lớp nên
khơng cần tính. Do đó ta chỉ cần tìm giá trị lớn nhất của P(XC1 .z Di∖∖ l , _ j. ., , 1.,i) * P(Ci). Trong đó, P(Ci) được ước lượng bãng y^p, trong đó Di là tập các phần tử dữ liệu thuộc lớp Ci. Nếu xác suất tiền nghiệm P(Ci) cũng khơng xác định được thì ta coi chúng bãng nhau P(C1) = P(C2) = ... = P(Cm), khi đó ta chỉ cần tìm giá trị P(XCi) lớn nhất.
4 Khi số lượng các thuộc tính mơ tả dữ liệu là lớn thì chi phí tính tồn P(XCi) là rất lớn, dó đó có thể giảm độ phức tạp, giải thuật Naive Bayes giả thiết các thuộc tính độc lập nhau. Khi đó ta có thể tính: P(XCi) = P(xι∖Ci)...P(xn∖Ci)
Trong q trình tính tốn, ta có thể gặp trường hợp P(Xk∖Ci) = 0. Để tránh trường
hợp
này xảy ra, chúng ta có thể sử dụng cơng thức ước lượng Laplace (Laplace estimator), cơng
thức Laplace có rất nhiều dạng tùy thuộc vào các bài toán khác nhau, trong trường hợp cụ thể này ta có thể sử dụng công thức:
P(Xk∖Ci) =1 +| Di | +m |D k l
Trong đó, m là số lượng lớp ta có thể nhận thấy ở tử số đã được cộng thêm giá trị 1 nên nó sẽ tránh được trường hợp P(Xk∖Ci) = 0.
Nguyễn Thị Hương - 19A4040076 Page | 39
2.3.2.2. Ví dụ thuật tốn Naive Bayes
12 36-49 LY DI DAI HOC THAP CO KHONG TRUNG BINH IT GAN KHONG RO KHONG
13 36-49 KET HON THPT THAP CO KHONG IT IT TRUNG BINH THAT BAI KHONG
14 >=50 KET HON THPT TRUNG BINH KHONG KHONG TRUNG BINH IT XA THAT BAI CO
P (TUOI = “ ≥ 50” /CCÓ) = 3/5 = 0.6 P (TUOI = “ ≥ 50” /CKHÔNG) = 1/10 = 0.1 P(TUOI = “ 36-49” /CCÓ) = 1/5 = 0.2 P (TUOI = “ 36-49” /CKHÔNG)= 3/10 = 0.3
P ( TT HƠN NHÂN = KET HON /CCĨ) = 3/5 =
0.6 P(TT
HÔNNHÂN = KET HON /CKHÔNG) = 5/10 = 0.5
P (TT HƠNNHÂN = DOC THAN /CCĨ) = 0/5
= 0 P (TT
HÔNNHÂN = DOC THAN /CKHÔNG) = 4/10 = 0.4
P (TT HƠN NHÂN = LY DI /CCĨ) = 2/5 = 0.4 P (TT HÔN NHÂN = LY DI /CKHÔNG) = 1/10 = 0.1
P (HOC VAN = THCS /CCÓ) = 1/5 = 0.2 P (HOC VAN = THCS /CKHÔNG)= 3/10 = 0.3 P (HOCVAN = THPT /CCÓ) = 2/5 = 0.4 P (HOC VAN = THPT /CKHÔNG) = 4/10 = 0.4
P (HOC VAN = DAI HOC /CCÓ) = 1/5 = 0.2 P (HOC VAN = DAI HOC /CKHÔNG) = 3/10 = 0.3 P (HOC VAN = KHONG RO /CCÓ) = 1/5 =
0.2 P (HOC VAN = KHONG RO /CKHÔNG) = 0/10 = 0
Bảng 5. Tập dữ liệu của thuật toán Naive Bayes
Nguyễn Thị Hương - 19A4040076 Page | 40
Khóa luận tốt nghiệp
Giả sử ta có một khách hàng A có các thuộc tính là
X = (TUOI= 36-49, TT HON NHAN = KET HON, HOC VAN = DAI HOC, SO DU = CAO, NHA= CO, NO = KHONG, TG LLC = TRUNG BINH, SLLH = TB, NGAY LLGD = GAN, KQCD TRUOC = THANH CONG)
Bây giờ, cần xác định xem khách hàng A có thuộc lớp CCÓ (gửi tiết kiệm) hay khơng. Thuật tốn Naive Bayes với dữ liệu ở bảng trên ta tính tốn như sau:
5 10
P( CCĨ)= -÷ = 0.333 ; P(CKHƠNG) = 10 = 0.667;
15 15
Trước khi tính xác suất P (X|Ci), tính xác xác suất thành phần.
Thuộc tính TUOI có các giá trị ≤ 35, ≥ 50 và 36 - 49
Bảng 6. Xác suất thành phần của thuộc tính TUOI
Thuộc tính TT HON NHAN có các giá trị KET HON, DOC THAN, LY DI
Bảng 7. Xác suất thành phần của thuộc tính TT HON NHAN
P (SO DU = CAO /CCÓ) = 3/5 = 0.6 P (SO DU = CAO /CKHÔNG)= 3/10 = 0.3
P (SO DU = TRUNG BINH /CCÓ) = 2/5 = 0.4 P (SO DU = TRUNG BINH /CKHÔNG) = 2/10 = 0.2 P (SO DU = THAP /CCÓ) = 0/5 = 0 P (SO DU = THAP /CKHÔNG)= 5/10 = 0.5
P (NHA = CO /CCÓ) = 2/5 = 0.4 P (NHA = CO /CKHƠNG)= 7/10 = 0.7 P (NHA = KHONG /CCĨ) = 3/5 = 0.6 P (NHA = KHONG /CKHÔNG) = 3/10 =0.3
P (NO = CO /CCÓ) = 0/5 = 0 P (NO = CO /CKHÔNG)= 3/10 = 0.3 P (NO = KHONG /CCĨ) = 5/5 = 1 P (NO = KHONG /CKHƠNG) = 7/10 = 0.7
P (TG LLC = IT /CCÓ) = 1/5 = 0.2 P (TG LLC = IT /CKHÔNG)= 8/10 = 0.8
P (TG LLC = TRUNG BINH /CCÓ) = 2/5 = 0.4 P (TG LLC = TRUNG BINH /CKHÔNG) = 1/10 = 0.1 P(TG LLC = NHIEU /CCÓ) = 2/5 = 0.4 P (TG LLC = NHIEU /CKHÔNG)= 1/10 = 0.1
P (SLLH = IT /CCÓ) = 4/5= 0.8 P (SLLH = IT /CKHƠNG)= 8/10 = 0.8 P (SLLH = TB /CCĨ) = 1/5 = 0.2 P (SLLH = TB /CKHÔNG) = 1/10 = 0.1 P (SLLH = NHIEU /CCÓ) = 0/5 = 0 P (SLLH = NHIEU /CKHÔNG)= 1/10 = 0.1
Bảng 8. Xác suất thành phần của thuộc tính HOC VAN
Khóa luận tốt nghiệp
Thuộc tính SO DU có các giá trị CAO, TRUNG BINH, THAP
Bảng 9. Xác suất thành phần của thuộc tính SO DU
Thuộc tính NHA có các giá trị CO, KHONG
Bảng 10. Xác suất thành phần của thuộc tính NHA
Thuộc tính NO có các giá trị CO, KHONG
Bảng 11. Xác suất thành phần của thuộc tính NO
Thuộc tính TG LLC có các giá trị IT, TRUNG BINH, NHIEU
Bảng 12. Xác suất thành phần của thuộc tính TG LLC
P (NGAY LLCG = TRUNG BINH /CCÓ) = 0/5 = 0
P (NGAY LLCG = TRUNG BINH /CKHƠNG) = 3/10 = 0.3
P(NGAY LLCG = XA /CCĨ) = 1/5 = 0.2 P (NGAY LLCG = XA /CKHÔNG)= 1/10 = 0.1 P (KQCD TRUOC = THAT BAI /CCÓ) = 1/5 =
0.2 P (KQCD TRUOC = THAT BAI /C
KHÔNG) = 4/10 = 0.4 P (KQCD TRUOC = KHONG RO /CCÓ) = 2/5 = 0.4 P (KQCD TRUOC = KHONG RO /C KHÔNG) = 6/10 = 0.6 P (KQCD TRUOC = THANH CONG /CCÓ) =
1/5 = 0.2 P (KQCD TRUOC = THANH CONG /CKHÔNG0/10 ) =
= 0
P (KQCD TRUOC = KHAC /CCÓ) = 1/5 = 0.2 P (KQCD TRUOC = KHAC /CKHÔNG) = 0/10 = 0 P (TUOI = “ ≤ 35” /CCÓ) = 2/8 = 0.25 P(TUOI = “ ≤ 35” /CKHÔNG)= 4/13 = 0.31 P (TUOI = “ ≥ 50” /CCÓ) = 4/8 = 0.50 P (TUOI = “ ≥ 50” /CKHÔNG) = 2/13 = 0.15 P(TUOI = “ 36-49” /CCÓ) = 2/8 = 0.25 P (TUOI = “ 36-49” /CKHÔNG)= 4/13 = 0.3 1 P ( TT HÔN NHÂN = KET HON /CCĨ) = 4/8 =
0.50
P(TT HƠN NHÂN = KET HON /CKHÔNG) = 6/13 = 0.46
Bảng 13. Xác suất thành phần của thuộc tính SLLH
Nguyễn Thị Hương - 19A4040076 Page | 42
Khóa luận tốt nghiệp
Thuộc tính NGAY LLGD có các giá trị GAN, TRUNG BINH, XA
Bảng 14. Xác suất thành phần của thuộc tính NGAY LLGD
Thuộc tính KQCD TRUOC có các giá trị THAT BAI, THANH CONG, KHONG RO, KHAC
Bảng 15. Xác suất thành phần của thuộc tính KQCD TRUOC
Chúng ta thấy, có nhiều P (Xk/ Ci) có giá trị bằng 0. Do đó, áp dụng cơng thức ước lượng Laplace sẽ tính được xác suất mới của các thuộc tính như sau:
6 11
P( CCĨ)= ɪ = 0.35 ; P(CKHƠNG) = 11 = 0.65;
Thuộc tính TUOI có các giá trị ≤ 35, ≥ 50 và 36 - 49
Bảng 16. Xác suất thành phần của thuộc tính TUOI với Laplace
P (TT HƠNNHÂN = DOC THAN /CCĨ) = 1/8 = 0.125
P (TT HƠNNHÂN = DOC THAN /CKHÔNG) = 5/13 = 0.385
P (TT HÔNNHÂN = LY DI /CCĨ) =3/8 =
0.375 P (TT
HƠNNHÂN = LY DI /CKHƠNG) = 2/13 = 0.154
P (HOCVAN = THCS /CCĨ) = 2/9 = 0.22 P (HOCVAN = THCS /CKHÔNG)= 4/14 = 0.29 P (HOC VAN = THPT /CCÓ) = 3/9 = 0.33 P (HOC VAN = THPT /CKHÔNG) = 5/14 = 0.36
P (HOC VAN = DAI HOC /CCÓ) = 2/9 = 0.22 P (HOC VAN = DAI HOC /CKHÔNG) = 4/14 = 0.29 P (HOCVAN = KHONG RO /CCÓ) = 2/9 =
0.22 P (
HOCVAN = KHONG RO /CKHÔNG) = 1/14 = 0.07
P (SO DU = CAO /CCÓ) = 4/8 = 0.50 P (SO DU = CAO /CKHÔNG)= 4/13 = 0.31 P (SO DU = TRUNG BINH /CCÓ) = 3/8 =
0.38 P (SO DU = TRUNG BINH /CKHÔNG) = 3/13 = 0.23
P (SO DU = THAP /CCÓ) = 1/8 = 0.125 P (SO DU = THAP /CKHƠNG)= 6/13 = 0.46
P (NHA = CO /CCĨ) = 3/7 = 0.41 P (NHA = CO /CKHÔNG)= 8/12 = 0.67 P (NHA = KHONG /CCÓ) = 4/7 = 0.57 P (NHA = KHONG /CKHÔNG) = 4/12 = 0.33
P (NO = CO /CCĨ) = 1/7 = 0.14 P (NO = CO /CKHƠNG)= 4/12 = 0.33 P (NO = KHONG /CCÓ) = 6/7 = 0.68 P (NO = KHONG /CKHƠNG) = 8/12 = 0.67
Khóa luận tốt nghiệp
Bảng 17. Xác suất thành phần của thuộc tính TT HON NHAN với Laplace
Thuộc tính HOC VAN có các giá trị THCS, THPT, DAI HOC, KHONG RO
Bảng 18. Xác suất thành phần của thuộc tính HOC VAN với Laplace
Thuộc tính SO DU có các giá trị CAO, TRUNG BINH, THAP
Bảng 19. Xác suất thành phần của thuộc tính SO DU với Laplace
Thuộc tính NHA có các giá trị CO, KHONG
Bảng 20. Xác suất thành phần của thuộc tính NHA với Laplace
P (TG LLC = TRUNG BINH /CCÓ) = 3/8 = 0.375
P (TG LLC = TRUNG BINH /CKHÔNG) = 2/13 = 0.15
P(TG LLC = NHIEU /CCÓ) = 3/8 = 0.375 P (TG LLC = NHIEU /CKHÔNG)= 2/13 = 0.15 P (SLLH = IT /CCÓ) = 5/8 = 0.63 P (SLLH = IT /CKHƠNG)= 9/13 = 0.69 P (SLLH = TB /CCĨ) = 2/8 = 0.25 P (SLLH = TB /CKHÔNG) = 2/13 = 0.15 P (SLLH = NHIEU /CCÓ) = 1/8 = 0.125 P (SLLH = NHIEU /CKHÔNG)= 2/13 = 0.15 P (NGAY LLCG = GAN /CCÓ) = 5/8 = 0.63 P(NGAY LLCG = GAN /CKHÔNG)= 7/13 = 0.54 P (NGAY LLCG = TRUNG BINH /CCÓ) = 1/8
= 0.125 P (
NGAY LLCG = TRUNG BINH /CKHƠNG) = 4/13 = 0.31
P(NGAY LLCG = XA /CCĨ) = 2/8 = 0.25 P (NGAY LLCG = XA /CKHÔNG)= 2/13 = 0.15
P (KQCD TRUOC = THAT BAI /CCÓ) = 2/9 =
0.22 P (KQCD TRUOC = THAT BAI /C
KHÔNG) = 5/14 =
0.36 P (KQCD TRUOC = KHONG RO /CCÓ) = 3/9
= 0.33 P (KQCD TRUOC = KHONG RO /CKHÔNG0.5 ) = 7/14 =
P (KQCD TRUOC = THANH CONG /CCÓ) = 2/9 = 0.22
P (KQCD TRUOC = THANH CONG /CKHÔNG) = 1/14
= 0.07
P (KQCD TRUOC = KHAC /CCÓ) = 2/9 =0.22 P (KQCD TRUOC = KHAC /CKHÔNG) = 1/14 = 0.07
Bảng 21. Xác suất thành phần của thuộc tính NO với Laplace
Nguyễn Thị Hương - 19A4040076 Page | 44
Khóa luận tốt nghiệp
Thuộc tính TG LLC có các giá trị IT, TRUNG BINH, NHIEU
Bảng 22. Xác suất thành phần của thuộc tính TG LLC với Laplace
Thuộc tính SLLH có các giá trị IT, TB, NHIEU
Bảng 23. Xác suất thành phần của thuộc tính SLLH với Laplace
Thuộc tính NGAY LLGD có các giá trị GAN, TRUNG BINH, XA
Bảng 24. Xác suất thành phần của thuộc tính NGAY LLGD với Laplace
Thuộc tính KQCD TRUOC có các giá trị THAT BAI, THANH CONG, KHONG RO, KHAC
Cuối cùng, ta tính xác xuất P (X|Ci) của X = (TUOI= 36-49, TT HON NHAN = KET HON, HOC VAN = DAI HOC, SO DU = CAO, NHA= CO, NO = KHONG, TG LLC = TRUNG BINH, SLLH = TB, NGAY LLGD = GAN, KQCD TRUOC = THANH CONG)
• P (X/ CCĨ) = P (TUOI = “36-49” /CCĨ) * P (TT HƠN NHÂN = KET HON /CCÓ) *
P (HOC VAN = DAI HOC /CCÓ) *P (SO DU = CAO /CCÓ) * P (NHA = CO /CCÓ) * P (NO = KHONG /CCÓ) *
P (TG LLC = TRUNG BINH /CCÓ) * P (SLLH = TB /CCÓ) *
P (NGAY LLCG = GAN /CCÓ) * P (KQCD TRUOC = THANH CONG /CCĨ)
= 0.25*0.50*0.22*0.50*0.41*0.68*0.375*0.25*0.63*0.22= 0.00005
• P (X/ CKHƠNG) = P (TUOI = “36-49” /CKHÔNG) * P (TT HÔN NHÂN = KET HON / CKHÔNG) *
P (HOC VAN = DAI HOC / CKHÔNG) *P (SO DU = CAO / CKHÔNG) * P (NHA = CO / CKHÔNG) * P (NO = KHONG / CKHÔNG) *
P (TG LLC = TRUNG BINH / CKHÔNG) * P (SLLH = TB / CKHÔNG) *
P (NGAY LLCG = GAN / CKHÔNG) * P (KQCD TRUOC = THANH CONG / CKHƠNG) = 0.31*0.46*0.29*0.31*0.67*0.67*0.15*0.15*0.54*0.07 = 0.000005 • P (X/ CCĨ) * P (CCể) = 0.00005* 0.35 = 1.75ì 10-5
ã P (X/ CKHễNG) * P(CKHƠNG) = 0.000005 * 0.65 = 3.25× 10-6
Từ kết quả, chúng ta thấy P (X/ CCÓ) * P (CCÓ) > P (X/ CKHƠNG) * P (CKHƠNG). Do đó, chúng ta kết luận, với việc dùng thuật toán Naive Bayes, khách hàng A sẽ gửi tiền tiết kiệm.
Khóa luận tốt nghiệp________________________________________________________
CHƯƠNG III: DỰ ĐOÁN KHẢ NĂNG GỬI TIỀN CỦA KHÁCH HÀNG CÁ NHÂN QUA TELEMARKETING VỚI THUẬT TOÁN
PHÂN LỚP C4.5 VÀ NAIVE BAYES.
3.1. Ứng dụng khai phá dữ liệu trong ngân hàng
Trong những năm gần đây, ngành NH toàn cầu đã tiếp cận những thay đổi lớn trong phương thức kinh doanh. Cùng với xu hướng tồn cầu hóa, các NH đã có sự thay đổi vượt trội đó là chấp nhận và áp dụng công nghệ thông vào việc kinh doanh của họ. Kết quả là, NH đã thực hiện việc giao dịch của mình một cách trơi chảy và hiệu quả hơn thủ công rất nhiều nhưng khối lượng dữ liệu từ các giao dịch NH cũng tăng lên đáng kể. Khối lượng DL thô khổng lồ của ngân hàng chứa đựng một hàm lượng tri thức rất lớn nếu được khai thác và sử dụng hiệu quả. KPDL có thể giúp các ngân hàng bằng cách đóng góp trong việc giải quyết các vấn đề kinh doanh qua cách tìm kiếm các mẫu, các mối kết hợp và các mối tương quan được ẩn chứa trong các thông tin liên quan tới việc kinh doanh được lưu trữ trong CSDL. Những người thực hiện công việc kinh doanh trong các NH sử dụng KPDL để phân tích mơ hình và xu hướng này, có thể dự đốn với độ chính xác tăng lên, giúp NH có thể dự đốn được câu trả lời cho những câu hỏi như KH sẽ phản ứng thế nào với việc điều chỉnh lãi suất tiền gửi, KH nào sẽ có nguy cơ rủi ro cao hơn mặc định trên một khoản vay, và làm thế nào để giữ mối quan hệ tốt với KH.
Ngành NH đã và đang nhận ra DL KH họ sở hữu là vô cùng quan trọng và quý giá. Ngân hàng có một kho thông tin khách hàng khổng lồ bao gồm nhân khẩu học của khách hàng, dữ liệu giao dịch, và nhiều thuộc tính khác nữa. Để ngành ngân hàng hoạt động hiệu quả như các ngành dịch vụ khác thì việc quản trị mối quan hệ khách hàng (CRM) là vô cùng cần thiết. Để đạt được mục tiêu này, các ngân hàng cần phải cố gắng thấu hiểu và lắng nghe khách hàng của họ, phải đầu tư các nguồn lực để làm hài lịng KH và sử dụng các cơng cụ KPDL là một giải pháp đúng đắn, thích hợp để đạt được mục tiêu này.
Ngồi khai phá dữ liệu thì rất nhiều lĩnh vực khác cũng được áp dụng trong ngành ngân
hàng, trong đó bao gồm việc phân khúc khách hàng và phân chia lợi nhuận, chấm điểm và phê duyệt tín dụng, dự đốn thanh tốn mặc định, quảng bá sản phẩm, phát hiện các giao dịch gian lận, quản lý tiền mặt và các hoạt động dự báo, tối ưu hóa danh mục đầu tư chứng
khoán và xếp hạng đầu tư. Khai phá dữ liệu phân tích các dữ liệu trong quá khứ để giúp các ngân hàng dự đốn số lượng khách hàng có khả năng thay đổi thẻ tín dụng của họ, từ đó ngân hàng có thể lập kế hoạch và triển khai khuyến mại khác nhau để giữ lại những khách hàng của mình.