Thuậttoán Naive Bayes

Một phần của tài liệu Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại NH với thuật toán phân lớp naive bayes và c4 5 072 (Trang 56)

2.3.2.1. Lý thuyết về Naive Bayes

Bộ phân lớp Bayes là một giải thuật thuốc lớp giải thuật phân lớp thống kê, nó có thể dự đoán xác xuất của một phần tử dữ liệu thuộc vào một lớp là bao nhiêu. Phân lớp Bayes được dựa trên định lý Bayes (định lý được đặt theo tên giác giả của nó là Thomas Bayes). Trích Wikipedia “Định lý Bayes là một kết quả của lý thuyết xác suất, nó đề cập đến phân bố có điều kiện của biến ngẫu nhiên A với giả thiết: thông tin về một biến khác B: phân bố xác suất có điều kiện của B khi biết A và phân bố xác suất của một mình A”.

a. Định lý Bayes:

Gọi X là một chứng cứ (trong bài toán phân lớp thì X sẽ là một phần tử dữ liệu), H là một giả thiết nào đó để cho X thuộc một lớp C nào đó. Trong bài toán phân lớp, chúng ta muốn xác định giá trị P (H |X) là xác suất để giả thiết H là đúng với chứng cứ X thuộc vào

Khóa luận tốt nghiệp________________________________________________________ lớp C với điều kiện ta biết các thông tin mô tả X. P (H |X) là một xác suất hậu nghiệm của H với điều kiện

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là “xác suất của A

nếu có B”. Đại lượng này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó.

Định lý Bayes sẽ giúp ta tính ra xác suất xảy ra của một giả thuyết bằng cách thu thập các bằng chứng nhất quán hoặc không nhất quán với một giả thuyết nào đó. Khi các bằng chứng tích lũy, mức độ tin tưởng vào một giả thuyết thay đổi. Khi có đủ bằng chứng, mức độ tin tưởng này thường trở nên rất cao hoặc rất thấp, tức là xác xuất sảy ra giả thuyết sẽ thay đổi thì các bằng chứng liên quan đến nó thay đổi.

Công thức của định luật Bayes được phát biểu như sau:

P (B| A) x P (A)

P (A| B) = P (B)ɪ

Trong đó

• P(A|B) là xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra.

• P(B|A) là xác suất xảy ra B khi biết A xảy ra

• P(A) là xác suất xảy ra của riêng A mà không quan tâm đến B. • P(B) là xác suất xảy ra của riêng B mà không quan tâm đến A. b. Phân lớp Naive Bayes

Naive Bayes Classification (NBC) là một thuật toán dựa trên định lý Bayes tính toán xác suất. Dựa vào những dữ liệu đã được thống kê và quan sát để có thể đưa ra dự đoán hoặc phân loại dữ liệu. Trong các thuật toán được sử dụng trong lĩnh vực Marchine learning, có lẽ Naive Bayes Classification được ứng dụng nhiều hơn cả. NBC được yêu thích bởi số đông vì độ dễ hiểu và độ chính xác cao với những dự đoán trên tập dữ liệu đã thu thập được. NBC thuộc nhóm Supervised Machine Learning Algorithms (thuật toán học

có hướng dẫn), tức là cho phép hệ thống học tự động từ những ví dụ về mẫu dữ liệu đã có để giải quyết những vấn đề cụ thể.

1. Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được biểu diễn bằng một vector chứa n giá trị thuộc tính A1, A2,...,An,X = {xι,X2,...,Xn}

2. Giả sử có m lớp C1, C2...Cm. Cho một phần tử dữ liệu X, bộ phân lớp sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất. Cụ thể, bộ phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci nếu và chỉ nếu:

ST

T ITUO HONNHANTT HOC VAN SO DU NHA NO TG LLC SLLH NGAY LLGD KQCD TRUOC QUYET DINH

1 <=35 KET HON THCS CAO KHONG KHONG IT IT GAN KHONG RO KHONG

2 <=35 DOC THAN DAI HOC TRUNG BINH CO KHONG IT IT XA THAT BAI KHONG

3 >=50 KET HON THCS CAO KHONG CO IT NHIEU GAN KHONG RO KHONG

4 <=35 DOC THAN DAI HOC TRUNG BINH KHONG KHONG IT IT TRUNG BINH THAT BAI KHONG

5 >=50 LY DI THPT CAO KHONG KHONG NHIEU IT GAN KHONG RO CO

6 <=35 DOC THAN THCS THAP CO CO IT IT GAN KHONG RO KHONG

7 >=50 KET HON KHONG RO CAO CO KHONG IT IT GAN THANH CONG CO

8 36-49 LY DI THCS TRUNG BINH KHONG KHONG NHIEU TRUNG BINH GAN KHONG RO CO

9 36-49 DOC THAN THPT THAP CO KHONG NHIEU IT GAN KHONG RO KHONG

10 <= 35 KET HON DAI HOC CAO CO KHONG TRUNG BINH IT GAN KHAC CO

11 >=50 KET HON THPT CAO CO KHONG IT TRUNG BINH GAN KHONG RO KHONG

P(Ci) > P(C∖X j) (1< = i, j <=m, i ≠ j)∖X Giá trị này sẽ tính dựa trên định lý Bayes.

p.^ip ( i - pu - P{CiX) - P(X)

3. Để tìm xác suất lớn nhất, ta nhận thấy các giá trị P(X) là giống nhau với mọi lớp nên

không cần tính. Do đó ta chỉ cần tìm giá trị lớn nhất của P(XC1 .z Di∖∖ l , _ j. ., , 1i.,) * P(Ci). Trong đó, P(Ci) được ước lượng bãng y^p, trong đó Di là tập các phần tử dữ liệu thuộc lớp Ci. Nếu xác suất tiền nghiệm P(Ci) cũng không xác định được thì ta coi chúng bãng nhau P(C1) = P(C2) = ... = P(Cm), khi đó ta chỉ cần tìm giá trị P(XCi) lớn nhất.

4 Khi số lượng các thuộc tính mô tả dữ liệu là lớn thì chi phí tính toàn P(XCi) là rất lớn, dó đó có thể giảm độ phức tạp, giải thuật Naive Bayes giả thiết các thuộc tính độc lập nhau. Khi đó ta có thể tính: P(XCi) = P(xι∖Ci)...P(xn∖Ci)

Trong quá trình tính toán, ta có thể gặp trường hợp P(Xk∖Ci) = 0. Để tránh trường hợp

này xảy ra, chúng ta có thể sử dụng công thức ước lượng Laplace (Laplace estimator), công

thức Laplace có rất nhiều dạng tùy thuộc vào các bài toán khác nhau, trong trường hợp cụ thể này ta có thể sử dụng công thức:

P(Xk∖Ci) =| 1 D+ |D i | k+lm

Trong đó, m là số lượng lớp ta có thể nhận thấy ở tử số đã được cộng thêm giá trị 1 nên nó sẽ tránh được trường hợp P(Xk∖Ci) = 0.

Nguyễn Thị Hương - 19A4040076 Page | 39

2.3.2.2. Ví dụ thuật toán Naive Bayes

12 36-49 LY DI DAI HOC THAP CO KHONG TRUNG BINH IT GAN KHONG RO KHONG

13 36-49 KET HON THPT THAP CO KHONG IT IT TRUNG BINH THAT BAI KHONG

14 >=50 KET HON THPT TRUNG BINH KHONG KHONG TRUNG BINH IT XA THAT BAI CO

P (TUOI = “ ≥ 50” /CCÓ) = 3/5 = 0.6 P (TUOI = “ ≥ 50” /CKHÔNG) = 1/10 = 0.1 P(TUOI = “ 36-49” /CCÓ) = 1/5 = 0.2 P (TUOI = “ 36-49” /CKHÔNG)= 3/10 = 0.3

P ( TT HÔN NHÂN = KET HON /CCÓ) = 3/5 =

0.6 P(

TT HÔNNHÂN = KET HON /CKHÔNG) = 5/10 = 0.5

P (TT HÔNNHÂN = DOC THAN /CCÓ) = 0/5

= 0 P (

TT HÔNNHÂN = DOC THAN /CKHÔNG) = 4/10 = 0.4

P (TT HÔNNHÂN = LY DI /CCÓ) = 2/5 = 0.4 P (TT HÔNNHÂN = LY DI /CKHÔNG) = 1/10 = 0.1

P (HOC VAN = THCS /CCÓ) = 1/5 = 0.2 P (HOCVAN = THCS /CKHÔNG)= 3/10 = 0.3 P (HOCVAN = THPT /CCÓ) = 2/5 = 0.4 P (HOC VAN = THPT /CKHÔNG) = 4/10 = 0.4

P (HOCVAN = DAI HOC /CCÓ) = 1/5 = 0.2 P (HOC VAN = DAI HOC /CKHÔNG) = 3/10 = 0.3 P (HOCVAN = KHONG RO /CCÓ) = 1/5 =

0.2 P (

HOC VAN = KHONG RO /CKHÔNG) = 0/10 = 0

Bảng 5. Tập dữ liệu của thuật toán Naive Bayes

Nguyễn Thị Hương - 19A4040076 Page | 40

Khóa luận tốt nghiệp

Giả sử ta có một khách hàng A có các thuộc tính là

X = (TUOI= 36-49, TT HON NHAN = KET HON, HOC VAN = DAI HOC, SO DU = CAO, NHA= CO, NO = KHONG, TG LLC = TRUNG BINH, SLLH = TB, NGAY LLGD = GAN, KQCD TRUOC = THANH CONG)

Bây giờ, cần xác định xem khách hàng A có thuộc lớp CCÓ (gửi tiết kiệm) hay không. Thuật toán Naive Bayes với dữ liệu ở bảng trên ta tính toán như sau:

5 10

P( CCÓ)= -÷ = 0.333 ; P(CKHÔNG) = 10 = 0.667;

15 15

Trước khi tính xác suất P (X|Ci), tính xác xác suất thành phần.

Thuộc tính TUOI có các giá trị ≤ 35, ≥ 50 và 36 - 49

Bảng 6. Xác suất thành phần của thuộc tính TUOI

Thuộc tính TT HON NHAN có các giá trị KET HON, DOC THAN, LY DI

Bảng 7. Xác suất thành phần của thuộc tính TT HON NHAN

P (SO DU = CAO /CCÓ) = 3/5 = 0.6 P (SO DU = CAO /CKHÔNG)= 3/10 = 0.3

P (SO DU = TRUNG BINH /CCÓ) = 2/5 = 0.4 P (SO DU = TRUNG BINH /CKHÔNG) = 2/10 = 0.2 P (SO DU = THAP /CCÓ) = 0/5 = 0 P (SO DU = THAP /CKHÔNG)= 5/10 = 0.5

P (NHA = CO /CCÓ) = 2/5 = 0.4 P (NHA = CO /CKHÔNG)= 7/10 = 0.7 P (NHA = KHONG /CCÓ) = 3/5 = 0.6 P (NHA = KHONG /CKHÔNG) = 3/10 =0.3

P (NO = CO /CCÓ) = 0/5 = 0 P (NO = CO /CKHÔNG)= 3/10 = 0.3 P (NO = KHONG /CCÓ) = 5/5 = 1 P (NO = KHONG /CKHÔNG) = 7/10 = 0.7

P (TG LLC = IT /CCÓ) = 1/5 = 0.2 P (TG LLC = IT /CKHÔNG)= 8/10 = 0.8

P (TG LLC = TRUNG BINH /CCÓ) = 2/5 = 0.4 P (TG LLC = TRUNG BINH /CKHÔNG) = 1/10 = 0.1 P(TG LLC = NHIEU /CCÓ) = 2/5 = 0.4 P (TG LLC = NHIEU /CKHÔNG)= 1/10 = 0.1

P (SLLH = IT /CCÓ) = 4/5= 0.8 P (SLLH = IT /CKHÔNG)= 8/10 = 0.8 P (SLLH = TB /CCÓ) = 1/5 = 0.2 P (SLLH = TB /CKHÔNG) = 1/10 = 0.1 P (SLLH = NHIEU /CCÓ) = 0/5 = 0 P (SLLH = NHIEU /CKHÔNG)= 1/10 = 0.1

Bảng 8. Xác suất thành phần của thuộc tính HOC VAN

Khóa luận tốt nghiệp

Thuộc tính SO DU có các giá trị CAO, TRUNG BINH, THAP

Bảng 9. Xác suất thành phần của thuộc tính SO DU

Thuộc tính NHA có các giá trị CO, KHONG

Bảng 10. Xác suất thành phần của thuộc tính NHA

Thuộc tính NO có các giá trị CO, KHONG

Bảng 11. Xác suất thành phần của thuộc tính NO

Thuộc tính TG LLC có các giá trị IT, TRUNG BINH, NHIEU

Bảng 12. Xác suất thành phần của thuộc tính TG LLC

P (NGAY LLCG = TRUNG BINH /CCÓ) = 0/5 = 0

P (NGAY LLCG = TRUNG BINH /CKHÔNG) = 3/10 = 0.3

P(NGAY LLCG = XA /CCÓ) = 1/5 = 0.2 P (NGAY LLCG = XA /CKHÔNG)= 1/10 = 0.1 P (KQCD TRUOC = THAT BAI /CCÓ) = 1/5 =

0.2 P (

KQCD TRUOC = THAT BAI /CKHÔNG) = 4/10 = 0.4

P (KQCD TRUOC = KHONG RO /CCÓ) = 2/5

= 0.4 P (

KQCD TRUOC = KHONG RO /CKHÔNG) = 6/10 = 0.6

P (KQCD TRUOC = THANH CONG /CCÓ) =

1/5 = 0.2 P (

KQCD TRUOC = THANH CONG /CKHÔNG) = 0/10

= 0

P (KQCD TRUOC = KHAC /CCÓ) = 1/5 = 0.2 P (KQCD TRUOC = KHAC /CKHÔNG) = 0/10 = 0 P (TUOI = “ ≤ 35” /CCÓ) = 2/8 = 0.25 P(TUOI = “ ≤ 35” /CKHÔNG)= 4/13 = 0.31 P (TUOI = “ ≥ 50” /CCÓ) = 4/8 = 0.50 P (TUOI = “ ≥ 50” /CKHÔNG) = 2/13 = 0.15 P(TUOI = “ 36-49” /CCÓ) = 2/8 = 0.25 P (TUOI = “ 36-49” /CKHÔNG)= 4/13 = 0.3 1 P ( TT HÔN NHÂN = KET HON /CCÓ) = 4/8 =

0.50

P(TT HÔN NHÂN = KET HON /CKHÔNG) = 6/13 = 0.46

Bảng 13. Xác suất thành phần của thuộc tính SLLH

Nguyễn Thị Hương - 19A4040076 Page | 42

Khóa luận tốt nghiệp

Thuộc tính NGAY LLGD có các giá trị GAN, TRUNG BINH, XA

Bảng 14. Xác suất thành phần của thuộc tính NGAY LLGD

Thuộc tính KQCD TRUOC có các giá trị THAT BAI, THANH CONG, KHONG RO, KHAC

Bảng 15. Xác suất thành phần của thuộc tính KQCD TRUOC

Chúng ta thấy, có nhiều P (Xk/ Ci) có giá trị bằng 0. Do đó, áp dụng công thức ước lượng Laplace sẽ tính được xác suất mới của các thuộc tính như sau:

6 11

P( CCÓ)= ɪ = 0.35 ; P(CKHÔNG) = 11 = 0.65;

Thuộc tính TUOI có các giá trị ≤ 35, ≥ 50 và 36 - 49

Bảng 16. Xác suất thành phần của thuộc tính TUOI với Laplace

P (TT HÔNNHÂN = DOC THAN /CCÓ) = 1/8 = 0.125

P (TT HÔNNHÂN = DOC THAN /CKHÔNG) = 5/13 = 0.385

P (TT HÔNNHÂN = LY DI /CCÓ) =3/8 =

0.375 P (

TT HÔNNHÂN = LY DI /CKHÔNG) = 2/13 = 0.154

P (HOCVAN = THCS /CCÓ) = 2/9 = 0.22 P (HOCVAN = THCS /CKHÔNG)= 4/14 = 0.29 P (HOCVAN = THPT /CCÓ) = 3/9 = 0.33 P (HOCVAN = THPT /CKHÔNG) = 5/14 = 0.36

P (HOCVAN = DAI HOC /CCÓ) = 2/9 = 0.22 P (HOCVAN = DAI HOC /CKHÔNG) = 4/14 = 0.29 P (HOCVAN = KHONG RO /CCÓ) = 2/9 =

0.22 P (

HOCVAN = KHONG RO /CKHÔNG) = 1/14 = 0.07

P (SO DU = CAO /CCÓ) = 4/8 = 0.50 P (SO DU = CAO /CKHÔNG)= 4/13 = 0.31 P (SO DU = TRUNG BINH /CCÓ) = 3/8 =

0.38 P (SO DU = TRUNG BINH /CKHÔNG) = 3/13 = 0.23 P (SO DU = THAP /CCÓ) = 1/8 = 0.125 P (SO DU = THAP /CKHÔNG)= 6/13 = 0.46

P (NHA = CO /CCÓ) = 3/7 = 0.41 P (NHA = CO /CKHÔNG)= 8/12 = 0.67 P (NHA = KHONG /CCÓ) = 4/7 = 0.57 P (NHA = KHONG /CKHÔNG) = 4/12 = 0.33

P (NO = CO /CCÓ) = 1/7 = 0.14 P (NO = CO /CKHÔNG)= 4/12 = 0.33 P (NO = KHONG /CCÓ) = 6/7 = 0.68 P (NO = KHONG /CKHÔNG) = 8/12 = 0.67

Khóa luận tốt nghiệp

Bảng 17. Xác suất thành phần của thuộc tính TT HON NHAN với Laplace

Thuộc tính HOC VAN có các giá trị THCS, THPT, DAI HOC, KHONG RO

Bảng 18. Xác suất thành phần của thuộc tính HOC VAN với Laplace

Thuộc tính SO DU có các giá trị CAO, TRUNG BINH, THAP

Bảng 19. Xác suất thành phần của thuộc tính SO DU với Laplace

Thuộc tính NHA có các giá trị CO, KHONG

Bảng 20. Xác suất thành phần của thuộc tính NHA với Laplace

P (TG LLC = TRUNG BINH /CCÓ) = 3/8 = 0.375

P (TG LLC = TRUNG BINH /CKHÔNG) = 2/13 = 0.15

P(TG LLC = NHIEU /CCÓ) = 3/8 = 0.375 P (TG LLC = NHIEU /CKHÔNG)= 2/13 = 0.15 P (SLLH = IT /CCÓ) = 5/8 = 0.63 P (SLLH = IT /CKHÔNG)= 9/13 = 0.69 P (SLLH = TB /CCÓ) = 2/8 = 0.25 P (SLLH = TB /CKHÔNG) = 2/13 = 0.15 P (SLLH = NHIEU /CCÓ) = 1/8 = 0.125 P (SLLH = NHIEU /CKHÔNG)= 2/13 = 0.15 P (NGAY LLCG = GAN /CCÓ) = 5/8 = 0.63 P(NGAY LLCG = GAN /CKHÔNG)= 7/13 = 0.54 P (NGAY LLCG = TRUNG BINH /CCÓ) = 1/8

= 0.125 P (

NGAY LLCG = TRUNG BINH /CKHÔNG) = 4/13 = 0.31

P(NGAY LLCG = XA /CCÓ) = 2/8 = 0.25 P (NGAY LLCG = XA /CKHÔNG)= 2/13 = 0.15

P (KQCD TRUOC = THAT BAI /CCÓ) = 2/9 =

0.22 P (

KQCD TRUOC = THAT BAI /CKHÔNG) = 5/14 = 0.36

P (KQCD TRUOC = KHONG RO /CCÓ) = 3/9

= 0.33 P (

KQCD TRUOC = KHONG RO /CKHÔNG) = 7/14 = 0.5

P (KQCD TRUOC = THANH CONG /CCÓ) = 2/9 = 0.22

P (KQCD TRUOC = THANH CONG /CKHÔNG) = 1/14

= 0.07

P (KQCD TRUOC = KHAC /CCÓ) = 2/9 =0.22 P (KQCD TRUOC = KHAC /CKHÔNG) = 1/14 = 0.07

Bảng 21. Xác suất thành phần của thuộc tính NO với Laplace

Nguyễn Thị Hương - 19A4040076 Page | 44

Khóa luận tốt nghiệp

Thuộc tính TG LLC có các giá trị IT, TRUNG BINH, NHIEU

Bảng 22. Xác suất thành phần của thuộc tính TG LLC với Laplace

Thuộc tính SLLH có các giá trị IT, TB, NHIEU

Bảng 23. Xác suất thành phần của thuộc tính SLLH với Laplace

Thuộc tính NGAY LLGD có các giá trị GAN, TRUNG BINH, XA

Bảng 24. Xác suất thành phần của thuộc tính NGAY LLGD với Laplace

Thuộc tính KQCD TRUOC có các giá trị THAT BAI, THANH CONG, KHONG RO, KHAC

Cuối cùng, ta tính xác xuất P (X|Ci) của X = (TUOI= 36-49, TT HON NHAN = KET HON, HOC VAN = DAI HOC, SO DU = CAO, NHA= CO, NO = KHONG, TG LLC = TRUNG BINH, SLLH = TB, NGAY LLGD = GAN, KQCD TRUOC = THANH CONG)

• P (X/ CCÓ) = P (TUOI = “36-49” /CCÓ) * P (TTHÔNNHÂN = KET HON /CCÓ) *

P (HOC VAN = DAI HOC /CCÓ) *P (SO DU = CAO /CCÓ) * P (NHA = CO /CCÓ) * P (NO = KHONG /CCÓ) *

P (TG LLC = TRUNG BINH /CCÓ) * P (SLLH = TB /CCÓ) *

P (NGAY LLCG = GAN /CCÓ) * P (KQCD TRUOC = THANH CONG /CCÓ)

= 0.25*0.50*0.22*0.50*0.41*0.68*0.375*0.25*0.63*0.22= 0.00005

• P (X/ CKHÔNG) = P (TUOI = “36-49” /CKHÔNG) * P (TTHÔNNHÂN = KET HON / CKHÔNG) *

P (HOC VAN = DAI HOC / CKHÔNG) *P (SO DU = CAO / CKHÔNG) * P (NHA = CO / CKHÔNG) * P (NO = KHONG / CKHÔNG) *

P (TG LLC = TRUNG BINH / CKHÔNG) * P (SLLH = TB / CKHÔNG) *

P (NGAY LLCG = GAN / CKHÔNG) * P (KQCD TRUOC = THANH CONG / CKHÔNG) = 0.31*0.46*0.29*0.31*0.67*0.67*0.15*0.15*0.54*0.07 = 0.000005 • P (X/ CCÓ) * P (CCÓ) = 0.00005* 0.35 = 1.75× 10-5

• P (X/ CKHÔNG) * P(CKHÔNG) = 0.000005 * 0.65 = 3.25× 10-6

Từ kết quả, chúng ta thấy P (X/ CCÓ) * P (CCÓ) > P (X/ CKHÔNG) * P (CKHÔNG). Do đó, chúng ta kết luận, với việc dùng thuật toán Naive Bayes, khách hàng A sẽ gửi tiền tiết kiệm.

Khóa luận tốt nghiệp________________________________________________________

CHƯƠNG III: DỰ ĐOÁN KHẢ NĂNG GỬI TIỀN CỦA KHÁCH HÀNG CÁ NHÂN QUA TELEMARKETING VỚI THUẬT TOÁN

PHÂN LỚP C4.5 VÀ NAIVE BAYES.

3.1. Ứng dụng khai phá dữ liệu trong ngân hàng

Trong những năm gần đây, ngành NH toàn cầu đã tiếp cận những thay đổi lớn trong phương thức kinh doanh. Cùng với xu hướng toàn cầu hóa, các NH đã có sự thay đổi vượt trội đó là chấp nhận và áp dụng công nghệ thông vào việc kinh doanh của họ. Kết quả là, NH đã thực hiện việc giao dịch của mình một cách trôi chảy và hiệu quả hơn thủ công rất nhiều nhưng khối lượng dữ liệu từ các giao dịch NH cũng tăng lên đáng kể. Khối lượng DL thô khổng lồ của ngân hàng chứa đựng một hàm lượng tri thức rất lớn nếu được khai thác và sử dụng hiệu quả. KPDL có thể giúp các ngân hàng bằng cách đóng góp trong việc giải quyết các vấn đề kinh doanh qua cách tìm kiếm các mẫu, các mối kết hợp và các mối tương quan được ẩn chứa trong các thông tin liên quan tới việc kinh doanh được lưu trữ trong CSDL. Những người thực hiện công việc kinh doanh trong các NH sử dụng KPDL để phân tích mô hình và xu hướng này, có thể dự đoán với độ chính xác tăng lên, giúp NH có thể dự đoán được câu trả lời cho những câu hỏi như KH sẽ phản ứng thế nào với việc điều chỉnh lãi suất tiền gửi, KH nào sẽ có nguy cơ rủi ro cao hơn mặc định trên một khoản vay, và làm thế nào để giữ mối quan hệ tốt với KH.

Ngành NH đã và đang nhận ra DL KH họ sở hữu là vô cùng quan trọng và quý giá. Ngân hàng có một kho thông tin khách hàng khổng lồ bao gồm nhân khẩu học của khách hàng, dữ liệu giao dịch, và nhiều thuộc tính khác nữa. Để ngành ngân hàng hoạt động hiệu quả như các ngành dịch vụ khác thì việc quản trị mối quan hệ khách hàng (CRM) là vô cùng cần thiết. Để đạt được mục tiêu này, các ngân hàng cần phải cố gắng thấu hiểu và lắng nghe khách hàng của họ, phải đầu tư các nguồn lực để làm hài lòng KH và sử dụng các công cụ KPDL là một giải pháp đúng đắn, thích hợp để đạt được mục tiêu này.

Ngoài khai phá dữ liệu thì rất nhiều lĩnh vực khác cũng được áp dụng trong ngành ngân

hàng, trong đó bao gồm việc phân khúc khách hàng và phân chia lợi nhuận, chấm điểm và phê duyệt tín dụng, dự đoán thanh toán mặc định, quảng bá sản phẩm, phát hiện các giao dịch gian lận, quản lý tiền mặt và các hoạt động dự báo, tối ưu hóa danh mục đầu tư chứng

khoán và xếp hạng đầu tư. Khai phá dữ liệu phân tích các dữ liệu trong quá khứ để giúp các ngân hàng dự đoán số lượng khách hàng có khả năng thay đổi thẻ tín dụng của họ, từ đó ngân hàng có thể lập kế hoạch và triển khai khuyến mại khác nhau để giữ lại những

Một phần của tài liệu Dự đoán khả năng gửi tiền của khách hàng cá nhân qua telemarketing tại NH với thuật toán phân lớp naive bayes và c4 5 072 (Trang 56)

Tải bản đầy đủ (DOCX)

(92 trang)
w