Trong phạm vi nghiên cứu đề tài: "Dự đoán khách hàng tiềm năng của thẻ tín dụng", nhóm chúng tôi tập trung vào việc tìm hiểu và trình bày về kỹ thuật khai thác dữ liệu, đồng thời cung cấ
Trang 1——————s—-*+>›«>†»c-—=-©=——————
KHOA HỆ THÓNG THÔNG TIN QUẢN LÝ -
TIEM NANG CUA THE TIN DUNG
2 24A4041428 Đinh Thị Nhung
3 24A4041697 Vii Van Vuong
4 24A4043060 Pham Hoang Khiém
Sinh viên thực hiện:
——————a_-=>«+*†¿èc—= $©—=———
Trang 2
Hà Nội - 11/2023
Trang 3DANH SÁCH THÀNH VIÊN NHÓM
Mã sinh viên Họ tên Công việc thực hiện | Phần trăm đóng góp
24A4041696 | Nguyễn Thị Vóc | -Lý do lựa chọn và xây
dựng mô hình Hồi quy
Logistic
-Thực nghiệm và đánh giá hồi quy Logistic -Duyệt bài
-Lên kịch bản thuyết trinh
Trang 4
INeo s00 4
2.1 Tổng quan kỹ thuật khai phá dữ liệu - 5 S2 SE SE 222E2221cce 4 PIN N9 di: 0i v0 i:đciaaaiẳaiaiaẳiẳ 4 2.1.2 Khái niệm khai phá đữ liệu - 2 22 2221221122122 2x222se2 4 2.1.3 Các bước của quá trình khai phá đữ liệu - 2 222555552 4 2.2 Các kiểu đữ liệu trong bài toán khai phá dữ liệu -: ¿5 5:55: 5 2.3 Phân lớp và dự đoán trong khai phá dữ liệu - 2 2 c2 cc2s52 5 2.3.1 Hai nhóm kỹ thuật chính trong Data Mining -:- 2.555 255- 5 2.3.2 Phân lớp và dự đoán - L2 022211211121 1221 12 1111111112812 1 11s 5 2.4 Ứng dụng của khai phá đữ liệu trong ngành ngân hàng 6
0inesẽsiiäniin 8
3.1.1 Nguồn đữ liệu 5121 121111 111121121121211111 2121212 ng Hư 8
3.2 Tin xt ly dt QU cece ccccccccccccseescseesesecsessesessesessesecsesessesevsnsenseseneevecsees 10
3.2.1 Kiểm tra dataset + 5-2222 2211712211221122121121212112201 2110 e 10
3.2.3 Trực quan hóa đữ liệu - 2 22222112112 21 22111811111 111 2112815 re 12 E6 ro cu don l(./iớaiaaaa«ăäăäảăaảäaẻảäẻảả 15 3.2.5 Kiểm tra mối tương quan s 222 211222111121121111121 1.111 1e 16
Trang 54.1 Mô hình hồi quy Logistic s- + 1 E111 E71211211211211111 12t tre 18
4.1.1 Giới thiệu về thuật toán -.+ 522cc 2 221222112121 18
4.1.3 Lý do chọn thuật toán - 5 c0 2211222111211 1 1122111112211 18 4.2 M6 hinh Decision 'ÏT€e : c1 1122112112111 1121 1181111111111 111gr 20 4.2.1 Giới thiệu về Decision Tree 2222 2s n1 S1 311515311 1515181551E xe 20
4.2.3 Lý do lựa chọn thuật toán 2L 2 2221212121 1111212211122 k2 21
V THỰC NGHIỆM VÀ ĐÁNH GIÁ 5:222211 2222111121122 xe 22
5.1 Tiến hành thực nghiệm mô hình Hồi quy Logistic - - s5: 22
5.1.1 Xây dựng mô hình Hồi quy Logistic s- 5+ ssccsccs2zczxczxeree 22
5.1.2 Đánh giá hiệu suất: 52-5 1 1212112112111 1211122112212 ra 23
5.1.3 Kịch bản nâng cao độ chính xác: : 22: 22 1122221221212 2zxxcse, 23 5.2 Tiến hành thực nghiệm thuật toán DecIsion Tree .c c2: 25 5.2.1 Xây dựng thuật toán Decision Ïree ác cà c2 n2 nè 25
5.2.2 Đánh giá hiệu suất 5-1 n1 E12 12112111111 1121201221 re 27
5.2.3 Kịch bản nâng cao hiệu An 28
“cán 1a 31 ẽ‹ca na .ẽ 31 6.2 Hạn chế của đề tài -. 52s 2221 2221122221121 1e 31
6.3 Đề xuất ứng dụng trong thực tẾ - 5s s21 EEE11121211 1121112 e2 31
Trang 6LỜI MỞ ĐẦU
Việc áp dụng công nghệ thông tin vào nhiều lĩnh vực hiện nay đã tạo ra một
biển thông tin không lồ Điều này dẫn đến việc lượng dữ liệu thu thập ngày cảng gia tăng đáng kế, đồng thời nâng cao nhu cầu về việc lưu trữ và sử dụng thông tin một cách hiệu quả Tuy nhiên, trong trạng thái "ngập chìm" trong thông tin vô tận, người
ta thường sặp khó khăn trong việc xử ly và tận dụng dữ liệu một cách có hiệu quả Điều này có thê làm cho mọi người cảm thấy bối rối và không biết cách tiếp cận hay tận dụng kho di liệu rộng lớn đó một cách hợp lý
Mặc dù chỉ một phần nhỏ đữ liệu được phân tích và sử đụng một cách hiệu quả, nhưng vẫn có sự tiếp tục thu thập và lưu trữ đữ liệu với hi vọng rằng chúng sẽ mang lại thông tin quý báu và có thể hỗ trợ việc ra quyết định trong tương lai Do đó, các phương pháp quản lý và khai thác cơ sở đữ liệu truyền thống đang không còn phù hợp với thực tế hiện nay Điều này đưa ra một xu hướng mới trong việc phát triển và khai
thác dữ liệu, đó là kỹ thuật phát hiện trí thức và khai phá đữ liệu
Ở Việt Nam, kỹ năng này đang được nghiên cứu và áp dụng rộng rãi trong nhiều lĩnh vực khác nhau như y tẾ, chứng khoán, và thời tiết Sự thành công của mô hình này thông qua các nghiên cứu, thử nghiệm đã chứng minh giá trị lớn lao của việc tạo ra tri thức hữu ích, sóp phần quan trọng vào sự phát triển kinh tế và cải thiện chất lượng cuộc sống
Trong phạm vi nghiên cứu đề tài: "Dự đoán khách hàng tiềm năng của thẻ tín dụng", nhóm chúng tôi tập trung vào việc tìm hiểu và trình bày về kỹ thuật khai thác
dữ liệu, đồng thời cung cấp tống quan vẻ việc áp dụng kỹ thuật này Mục tiêu của chúng tôi là áp dụng các chiến lược cải thiện chất lượng dịch vụ của ngân hàng, từ đó đáp ứng tốt hơn với nhu cầu và mong muốn của khách hàng
Trang 7I TONG QUAN VE DE TAI
1.1 Giới thiệu đề tài
Thẻ tín dụng là một công cụ tài chính linh hoạt mà người dùng có thể sử dụng
dé thực hiện các giao dịch mua sắm, thanh toán hàng hóa và dịch vụ một cách thuận tiện Việc dự đoán được khách hàng tiềm năng của thẻ tín dụng đóng vai trò quan trọng trong việc tăng lượng khách hàng của ngân hàng Những người này thường là những cá nhân có xu hướng chủ động trong việc sử dụng dịch vụ ngân hàng và có tiềm năng đáng kế trong việc duy trì mối quan hệ lâu dài với ngân hàng
Việc áp dụng các phương pháp phân tích dữ liệu nhằm nhận biết trước các đặc
điểm hoặc hành vi của khách hàng có khả năng sử dụng thẻ tín đụng và sử dụng mô hình dự đoán Các ngân hàng có thê tận dụng thông tin này để đưa ra các chiến lược tương tác cá nhân hóa, cung cấp ưu đãi, hoặc dịch vụ tốt hơn đề giữ chân khách hàng Giúp ngân hàng duy trì được lượng khách hàng ôn định mà còn tạo ra môi trường cạnh tranh vững chắc Điều này có thể mang lại lợi ích lớn cho ngân hàng, từ việc giảm thiểu chỉ phí đến việc xây dựng một cộng đồng khách hàng sử dụng thẻ tín dụng trung thành và bền vững
1.2 Ly do chon dé tai
Trong bối cảnh cạnh tranh ngày càng gay gắt, các ngân hàng là nơi có số lượng
khách hàng khổng lồ vả là nơi khách hàng có nhiều sự lựa chọn Với bải toán dự đoán
khách hàng tiềm năng của thẻ tín dụng các ngân hàng có thê xác định được những khách hàng có khả năng sử dụng sản phẩm, dịch vụ của mình, từ đó có thể tập trung nguồn luc dé tiếp cận và khai thác mang lại nhiều lợi ích cho ngân hàng:
- _ Giúp ngân hàng tiết kiệm chỉ phí tiếp thị và bán hàng: thông qua việc giảm thiểu việc những khách hàng không có khả năng sử dụng sản phẩm, dịch vụ cua minh
- Tăng hiệu quả của các chiến dich tiếp thị và bán hàng: Dự đoán khách hàng
tiềm năng giúp ngân hàng xác định được thời điểm và cách thức tiếp cận khách
hàng phù hợp nhất từ đó gia tăng số lượng khách hàng mới
- Nâng cao sự hài lòng của khách hàng: Băng cách cung cấp những sản phẩm, dịch vụ tín dụng phù hợp với nhu cầu của khách hàng giúp nâng cao niềm tin của khách hàng với ngân hàng
Trên cơ sở những lý do nêu trên, đề tài dự đoán khách hàng tiềm năng của thẻ tín dụng trong khai phá đữ liệu là một đề tài nghiên cửu có giá trị, đem lại hiệu quả cũng như lợi ích thiết thực cho ngân hàng
1.3 Mục tiêu đề tài
Với đề tài dự đoán khách hàng tiềm năng của thẻ tín dụng, chúng tôi sẽ xây dựng những mô hình dự đoán để giúp cho ngân hàng Happy Customer Bank (một ngân hàng cỡ trung) có thế xác định những người có khả năng cao hơn sử dụng dịch
Trang 8vụ của họ Điều này giúp ngân hàng đạt được các chỉ tiêu doanh số bán hàng trong tương lai gan
Chúng tôi mong muốn đạt được mục tiêu xây dựng thành công mô hình dự đoán khách hảng tiềm năng cho ngân hàng và đánh giá được hiệu suất của các thuật toán
1.4 Ý nghĩa của đề tài
1.4.L Y nghĩa khoa học
Đề tài có đóng góp cho sự phát triển của lĩnh vực khai phá dữ liệu, đánh giá
hiệu suất của thuật toán Bên cạnh đó, đề tài cũng có ý nghĩa to lớn cho sự phát triển của các ngành nhu marketing, quản trị rủi ro trong ngân hàng
1.4.2 Ý nghĩa thực tiễn
Đối với chúng tôi, đề tài có ích vì chúng tôi được thực nghiệm và đánh giá hai
mô hình hồi quy logistic va decision tree Đề tài có ý nghĩa quan trọng trong học phần Khai phá và phân tích đữ liệu Chúng tôi bước đầu làm quen với việc tự nghiên cứu và thực hành các thuật toán
Đối với ngân hàng, nó mang lại ý nghĩa thực tiễn trone việc xác định khách hàng tiềm năng Ngân hàng có thế đưa ra cách thức tiếp cận khách hàng mới mở tín dụng, thu hút khách hàng hiện tại mua thêm sản phẩm tín dụng của ngân hàng một cách hợp lý Khai phá dữ liệu tập hợp nhiều công nghệ tiên tiến để ứng dụng trong các quy trình làm việc eiúp nhân viên ngân hàng có được hiệu quả làm việc cao hơn, các nha quan tri co thê đưa ra quyết định một cách chính xác hơn.!
Trang 9ll CO SO LY THUYET
2.1 Tổng quan kỹ thuật khai phá dữ liệu
2.1.1 Các khải niệm cơ bản
Dữ liệu (Data): có thể xem là chuỗi các bít, là số, ký tự mà chúng ta tập hợp hàng ngày trong công việc
Thông tin (Information): là tập hợp của những mảnh dữ liệu đã được chắt lọc dùng mô tả, giải thích đặc tính của một đối tượng nào đó
Tri thirc (Knowledge): là tập hợp những thông tin có liên hệ với nhau, có thé xem tri thức là sự kết tỉnh từ dữ liệu Tri thức thể hiện tư duy của con n8ười về một vấn đề
2.1.2 Khái niệm khai phá dữ liệu
Khai phá đữ liệu là quá trình tính toán để tim ra các mẫu và thông tin trong các
bộ đữ liệu lớn Mục tiêu tông thể của quá trình khai thác dữ liệu là trích xuất thông tin
từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu đề sử dụng tiếp Khai phá
dữ liệu là một trong các bước quan trọng nhất trong toàn bộ quá trình khám pha tri thức (KDD), triển khai các thuật toán chuyên dụng để chiết xuất ra các mẫu cũng như các m6 hinh có ích từ dữ liệu Trong bối cảnh cạnh tranh khốc liệt hiện nay, các tô chức/doanh nghiệp luôn tự ý thức được rằng cần phải đạt được một lợi thế cạnh tranh tốt nhất có thể, trong đó việc tìm ra và sử dụng các tri thức thông tin hữu ích ân chứa trong đữ liệu có thé trở thành một công cụ cạnh tranh cấp chiến lược Có nhiều tham
số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo
Một số tính năng chính của Data Mining:
® Dự đoán các mẫu dựa trên xu hướng trong đữ liệu
® Tính toán dự đoán kết quả
® Tạo thông tin phản hồi để phân tích
® Tập trung vào CSDL lớn hơn
® Phân cụm dữ liệu trực quan
2.1.3 Các bước của qua trình khai phá dít liệu
Khai phá dữ liệu không hắn là một hệ thống hoản toàn tự động mà con neười cần phải tương tác thường xuyên với Database thông qua các thuật toán chuyên biệt
Quy trình khai phá dữ liệu là một chuỗi lặp gồm các giai đoạn bắt đầu từ đữ liệu thô
(raw data) và kết thúc với trí thức (knowledge of interest):
1 Làm sạch dữ liệu: Trước tiên cần phải làm sạch tất cả đữ liệu quy trình để
dữ liệu đó phù hợp với tiêu chuẩn ngành Dữ liệu bân hay không đầy đủ dẫn đến hiểu biết kém và hệ thống bị lỗi gây tốn thời gian và tiền bạc
2 Tích hợp dữ liệu: Đây là một trong những kĩ thuật khai thác hàng đầu để hợp lý hóa toản bộ quá trình trích xuất, chuyển đổi và tải Nhiều chuyên gia thực hiện dọn đẹp đữ liệu bổ sung trong các CSDL khác nhau trong giai đoạn nảy
Trang 103 Chọn lựa dữ liệu: Trons bước này, đữ liệu được trích xuất từ cơ sở đữ liệu
4 Biến đỗi dữ liệu: Chuyên đổi dữ liệu sang dạng có thể chấp nhận được đề phù hợp với các mục tiêu khai thác Hợp nhất đữ liệu chuẩn bị để tôi ưu hóa quy trình Data mining và giúp đễ dàng phân biệt các mắu trong tập dữ liệu cuối củng
5 Khai phá dữ liệu: chính là bước quan trọng nhất trong khám phá tri thức
Sử dụng các ứng dụng Data mining để trích xuất các xu hướng hữu ích và tối ưu hóa việc khám phá kiến thức đề tạo ra thông tin kinh doanh
6 Đánh giá mẫu: Giai đoạn này sẽ đưa những hiểu biết sâu sắc vào thế giới thực, bên cạnh đó còn xác định bất kỳ mẫu hữu ích nào có thể tạo ra kiến thức kinh doanh
7 Biểu diễn tri thức: Cuối cùng sẽ sử dụng kết hợp trực quan hóa đữ liệu, báo cáo và các công cụ khai thác đề chia sẻ thông tin với những người khác
Ngoài ra ở bước khai phá dữ liệu, đôi khi chúng ta phải cần tới sự tương tác của người dùng để có thể rút ra các tri thức đúng đắn phủ hợp nhất Các trí thức cũng cần được lưu trữ dé tái sử dụng
2.2 Các kiểu dữ liệu trong bài toán khai phá dữ liệu
Các loại dữ liệu chính có thể được sử dụng trong quá trình khai phá dữ liệu gồm các loại như sau :
Cơ sở đữ liệu quan hệ: những cơ sở đữ liệu được thiết kế và xây dựng dựa trên
mô hỉnh quan hệ Hầu hết các hệ quản trị DB phô biến hiện nay đều mang tư tưởng này như: Oracle, SQL Server,
Cơ sở dữ liệu đa chiều: dữ liệu được chắt lọc từ nhiều nguồn khác nhau phụ thuộc vào quan điểm lựa chọn và được lưu trữ vào các kho dữ liệu
Cơ sở dữ liệu giao tác: loại dữ liệu nay phát sinh trong quá trình thực thi các giao dich như thương mại điện tử, tài chính ngân hàng
Cơ sở dữ liệu quan hệ hướng đối tượng
Cơ sở dữ liệu theo chiều không gian và thời gian
Cơ sở dữ liệu đa phương tiện: các loại dữ liệu như âm thanh, hình anh, video, văn bản và một số định dạng khác được lưu trữ trong các thiết bị điện tử và truyền trên mạng
2.3 Phân lớp và dự đoán trong khai phá dữ liệu
2.3.1 Hai nhóm kỹ thuật chinh trong Data Mining
- Kỹ thuật mồ tả: có nhiệm vụ mô tả về các tính chất/ đặc tính của đữ liệu Nhóm kỹ thuật này bao gồm: phát hiện luật kết hợp (Association Rules), tổng hợp (Summar1zation), phát hiện sự biến đổi và độ lệch (Change and deviation detection), phan cum/nhom (Clustering)
- Kỹ thuật dự đoán: đưa ra các dự đoán/ dự báo dựa vào các suy diễn được
tìm ra từ tập đữ liệu hiện thời Nhóm kỹ thuật nảy gồm các phương pháp: phân lớp
(Classification), héi quy (Regression)
2.3.2 Phân lớp và dự đoán
Trang 11Phân lớp (classiñcation), dự đoán (prediction) được hiểu là việc đưa ra quyết định sắp xếp các mẫu mới vào các lớp đã được định ra từ trước Nhiệm vụ của kỹ thuật nảy là tìm các mô hình ánh xạ từ tập các mẫu dữ liệu vào tập hợp các nhãn lớp một cách chính xác Ví đụ như có một ngân hàng mong muốn xếp khách hàng của họ vào một trong hai nhóm “tốt” hay “không tốt” để từ đó giúp người quản lý ra quyết định cho vay hay không?! Quá trình phân lớp bao gồm hai bước chính: (1) xây dựng
mô hình từ bộ đữ liệu sẵn có; (2) sử dụng mô hình này để phân lớp những dữ liệu mới
- Bước l: các mẫu dữ liệu (bao gồm các thuộc tính độc lập và thuộc tính nhãn/phân lớp) được sử dụng đề xây dựng mô hình được gọi là tập đữ liệu huấn luyện
Do đó phương pháp thuộc loại học có piâm sat (supervised learning)
- Bước 2: trước hết đưa vào sử dụng, độ chính xác của mô hình cần phải được tính toán và xem xét Nếu mô hình đã tạo có độ chính xác ở mức chấp nhận được thì
nó sẽ được triển khai để dự đoán nhãn/lớp cho các mẫu mới
Hoi quy (Regression): Muc tiéu của các thuật toán hồi quy là học ra một hàm
ánh xạ từ một bộ dữ liệu mẫu với các biến độc lập (thuộc tính) là dữ liệu liên tục Kết
quả đầu ra của hàm hồi quy có thê vẫn là liên tục đối với hồi quy tuyến tính, nhưng cũng có thê là roi rac voi héi quy logistic hoặc cây hồi quy quyết định
Cây quyết định (Decision Tree): Cac ky thuat (Decision Tree) cay quyết định chia dần tập dữ liệu đến khi mỗi phần bao gồm phần lớn các mẫu từ một lớp rồi cuối củng sẽ cho ra một hoặc nhiều cây quyết định Tại một cây quyết định, mỗi nút
(không phải lá) thể hiện chỉ tiết điều kiện để thực hiện việc phân tách đữ liệu, còn
nhánh đi từ gốc tới mỗi nút lá sé thế hiện các mẫu dữ liệu có nhãn/lớp giống nhau Ưu điểm của cây quyết định là thời gian thực thi nhanh, kết quả khá tốt và đễ hiểu, dễ giải thích Tuy nhiên, nhược điểm lớn nhất của các thuật toán cây quyết định là chúng dừng phân tách dữ liệu khi gap các điểm tới hạn cục bộ, dẫn đến các kết quả không còn chính xác
2.4 Ứng dụng của khai phá dữ liệu trong ngành ngân hàng
Trong giai đoạn bùng nỗ của Internet cùng với sự phát triển của công nghệ thông tin hiện nay, hoạt động chuyên đổi số tron ngân hàng không chỉ dừng lại ở công việc gia tăng hiệu quả xử lý quy trình mà còn tập trung vào việc nâng cao chất lượng trải nghiệm của khách Do đó, vấn đề khai phá đữ liệu trong ngân hàng để đưa
ra các ứng dụng phù hợp với nhu cầu của từng cá nhân đóng vai trò quan trọng và luôn yếu tô được đặt lên hàng đầu đề thúc đây công cuộc chuyền đổi số thành công
Ky thuật khai phá dữ liệu đang được nghiên cứu chuyên sâu và ứng dụng rộng rãi trong việc hỗ trợ ra quyết định của bộ phận lãnh đạo ngân hàng Nó có thể giúp
ngân hàng quản trị rủi ro, phân loại khách hàng, phân khúc thị trường trong việc chăm
sóc khách hàng từ đó tạo ra hiệu quả kinh doanh đáng kinh ngạc Tuy nhiên, kết quả khi dự đoán ra của quá trình khai phá dữ liệu trong ngân hàng lại phụ thuộc vào chất lượng của dữ liệu từ quá khứ và tương lai mà công ty thu thập được Ngoài ra, việc
Trang 12lựa chọn phương pháp cũng như những công nghệ và giai đoạn tiền xử lý các dữ liệu
cũng là một nguyên nhân góp phần tạo nên sự thành công của quá trình khai phá đữ liệu trong ngân hàng
Khai phá dữ liệu được ứng dụng trong rất nhiều lĩnh vực và mang đến rất nhiều
cơ hội phát triển trong lĩnh vực ngân hàng Tuy nhiên, mục đích cuối cùng của việc
khai phá dữ liệu trong ngân hàng là khám phá các trị thức từ các dữ liệu thu thập được
để hỗ trợ ra quyết định cho nên đây cũng là một phương pháp được cho là hỗ trợ cho
các nhà quản trị rất nhiều khi gặp tình trạng khối lượng thông tin quá nhiều nhưng
không biết chọn lọc và sử dụng đữ liệu nào Một số nhà lãnh đạo ngân hàng thường tận dụng việc khai phá dữ liệu để phát triển nên mô hình dự báo khả năng thay đổi dich vụ Hiểu đơn giản là các dịch vụ có thể cùng năm trong một ngân hàng hoặc giữa các ngân hàng có sự khác nhau Sau khi khách hàng sử dụng và có thời gian trải nghiệm thì sẽ có xu hướng đánh giá và để lại những nhận xét từ đó họ nhận ra được ngân hàng nao có những dịch vụ phù hợp với bản thân
Trang 13II CƠ SỞ DỮ LIỆU
3.1 Đặc tả bộ dữ liệu
3.1.1 Nguồn dữ liệu
đây là một ngân hàng tư nhân cỡ trung bình, chuyên cung cấp các sản phẩm
ngân hàng như tài khoản tiết kiệm, tài khoản thanh toán, sản phẩm đầu tư, sản
phẩm tín dụng, và các dịch vụ khác Trong dự án này, ngân hàng muốn bán
chéo the tin dung cua minh cho các khách hàng hiện tại Ngân hàng đã xác định một nhóm khách hàng đủ điều kiện để kích hoạt thẻ tín dụng Thông qua thông
tin về khách hàng và mỗi quan hệ của họ với ngân hàng, chúng tôi sẽ xác định những cả nhân hoặc nhóm người có khả năng cao sé đăng ký thẻ tín dụng trong
“TƯƠNG LAI GÀN” Bộ dữ liệu bao gồm 245725 bảng ghi và 11 thuộc tính:?
In [119]: df=pd.read_csv("train data credit card.csv")
print (df)
9 NNVBBKZB Female 73 RG268 Other x3
1 IDD62UNG Female 30 RG277 Salaried X1
2 HD3DSEMC Female 56 RG268 Self_Employed x3
3 BF3NC7KV Male 34 RG270 Salaried X1
245720 BPAWWXZN Male 51 RG284 Self Employed x3
245721 HFNB7)JY8 Male 27 RG268 Salaried x1
245722 GEHAUCWT Female 26 RG281 Salaried X1
245723 GE7V8SAH Female 28 RG273 Salaried X1
245724 BOCZSWLI Male 29 RG269 Salaried X1 Vintage Credit_Product Avg_Account_Balance Is_Active Is_Lead
- - Xác định các thuộc tính:
Thuộc tính của bộ dữ liệu dự đoán khách hàng tiêm năng của thẻ tín dụng của
bộ dữ liệu này gồm:
STT Thuộc Mô tả
tính
Trang 14
Age Tuổi của khách hàng
7 Vintage Thoi gian khach hang da gắn bó với ngân hàng
10 Is Active Trạng thái hoạt động của tài khoản
11 Is Lead Biến mục tiêu, cho biết liệu khách hàng có phải
là tiềm năng cho sản phẩm thẻ tín dụng hay không
Các thuộc tính này có thể được sử dụng để phân tích các yếu tố ảnh hưởng đến khả năng của khách hàng trở thành khách hàng tiềm năng của thẻ tín dụng Ví dụ, các thuộc tính như giới tính, tuổi, nghề nghiệp, và vùng có thế được sử dụng để xác định
các nhóm khách hàng có nhiều khả năng trở thành khách hàng tiềm năng của thẻ tín
dụng Các thuộc tính như thời gian sử dụng, số dư trung bình, và sản phẩm tín dụng có thể được sử dụng đề xác định khả năng thanh toán của khách hàng
3.1.2 Mô tả bộ dữ liệu
Ham describe() cung cấp một bản tóm tắt thông tin thông kê như giá trị trung bình (mean), độ lệch chuẩn (standard deviation), giá trị nhỏ nhất (minimum), giá trị
lớn nhất (maximum) và giá trị phân vị (25%, 50%, 75%)
Trang 15Mục đích và nguồn gốc của bộ dữ liệu: Bộ đữ liệu này được thu thập tử ngân hàng Happy Customer Bank de dự đốn khách hàng tiềm năng dựa trên các thơng tin
về tuổi, thời gian tồn tại, và số dư trung bình trong tài khoản Bộ đữ liệu này giả định
rằng các biến nảy cĩ ảnh hưởng đến xác suất khách hàng trở thành khách hàng tiềm
năng Bộ đữ liệu này cũng định nehĩa khách hang tiềm năng là khách hàng cĩ khả
năng mua sản phâm tải chính của ngân hang
Định dạng và kích thước của bộ đữ liệu: Bộ dữ liệu này cĩ kích thước là
245725 hàng và 4 cột, tương ứng với số lượng quan sát và số lượng biến Dung lượng tệp tin phụ thuộc vào định dạng được chọn
Chất lượng và tính phủ hợp của bộ đữ liệu: Bộ dữ liệu này cĩ chất lượng tốt, khơng cĩ đữ liệu bị thiếu, sai lệch, hoặc nhiễu Bộ đữ liệu này phù hợp với mục đích
dự đốn khách hàng tiềm năng, nhưng cần được kiểm tra tính đại diện và độc lập của các biến
Cầu trúc và nội dung của bộ dữ liệu: Bộ đữ liệu này gồm 4 biến sau:
e©_ Aøe: Biến số liên tục, đo tuổi của khách hàng, đơn vị là năm Biến này
cĩ giá trị từ 23 đến 85, với trung bình là 43.86 và độ lệch chuẩn là
14.83
e©_ Vintage: Biến số liên tục, đo thời gian tồn tại của khách hàng với ngân
hàng, đơn vị là tháng Biến này cĩ giá trị từ 7 đến 135, với trung bình là 46.96 và độ lệch chuẩn là 32.35
e Avg Account_Balance: Bién sé lién tục, đo số dư trung bình trong tài khoản của khách hàng, đơn vị là đồng Biến này cĩ giá trị từ 20790 đến
10352010, với trung bình là 1128403 và độ lệch chuẩn là 852936 Biến
này cĩ phân bố lệch phải, cĩ nghĩa là cĩ nhiều giá trị nhỏ hơn trung bình hơn là lớn hơn trung bình
® Is Lead: Biến phân loại nhị phân, đo xác suất khách hàng trở thành
khách hàng tiềm năng, đơn vị là phan trăm Biến này cĩ giá trị là 0 hoặc
1, tương ứng với khơng phải khách hàng tiểm năng hoặc là khách hang
tiềm năng Biến này cĩ trung bình là 0.24, cĩ nghĩa là cĩ 24% khách hàng là khách hàng tiềm năng trong bộ dữ liệu
Biểu đồ Boxplot cho mơ tả bộ dữ liệu:
Trang 16Đánh giá độ phân tán: Biểu đồ boxplot cho thấy đữ liệu về Age va Vintage c6
độ tập trung tương đôi cao Ngược lại, Ave_Account_Balance có phạm vi phan tan rộng hơn, và Is_Lead là một biên phân loại với hai g1á trị riêng biệt là có và không
3.2 Tiền xử lý dữ liệu
3.2.1 Kiém tra dataset
- Cung cap một bản tóm tắt của DataFrame bao gồm tên cột, kiểu dữ liệu và số
lượng giá tri null trong mỗi cột
Data columns (total 11 columns):
4 Occupation 245725 non-null object
7 Credit Product 216400 non-null object
9 Is Active 245725 non-null object
10 Is_Lead 245725 non-null int64 dtypes: int64(4), object(7)
Nhận xét: Bộ dữ liệu này chứa bốn (4) cột số và sáu (6) cột phân loại Lưu ý
rằng cột “Credit_Product” chia gia tri null
3.2.2 Xứ ÿ dữ liệu
- _ Kiểm tra đữ liệu bị thiếu hoặc không xác định:
11
Trang 17Vintage Credit_Product Avg_Account_Balance Is_Active
Is_Lead dtype: int64
29325
for col in df.columns:
missing data = data_df[col].isna().sum() Z# rính số tượng giá trị thiếu trong cột hiện tại missing percent = missing _data/len(data_df)*100 # Tinh ty Lé phan trdm gid tri thiếu trong cột hiện tại
print(f*column {col}: has {missing percent}% missing data")#In ty Lé phan tram gid trị thiếu cho cột hiện tại
column ID: has 0.0% missing data column Gender: has @.0% missing data
column Age: has 0.0% missing data
column Region Code: has 0.0% missing data
column Occupation: has 6.0% missing data column Channel Code: has 0.0% missing data column Vintage: has @.0% missing data
column Credit_Product: has 11.9340726421813% missing data column Avg Account Balance: has 0.0% missing data
column Is_Active: has 0.0% missing data column Is_Lead: has @.0% missing data
- Xu ly dé ligu bị thiếu:
In [130]:
In [131]:
Out[131]:
df[‘Credit_ Product’ ].fillna(df[ ‘Credit Product‘ ].mode()[0],inplace=True)
#thay thế các giá trị thiếu trong cột Credit Product bằng giá trị phổ biến nhất
df.isnu11().sum() #Trá về số Luong gid tri NaN moi Gender
Age Region_Code
Occupation
Channel_Code Vintage Credit_Product Avg_Account_Balance Is_Active Is_Lead đtype: int64
- _ Kiểm tra và xử lý dữ liệu trùng lặp:
df.duplicated().sum() #tra về số Lượng hàng trùng Lặp trong bộ dữ Liệu
df.drop_duplicates(inplace=True)#xoa cdc hang trung Lap, thay thé cac hang trung Lap df.duplicated().sum()
Trang 18- Su dung cac biéu đồ xác định tập dữ liệu không cân đôi:
+ Buiéu đồ tròn:
In [135]: plt.figure(figsize=(5,5)) #vẽ biểu đồ tròn thể hiện tỷ Lệ phần trăm của khách hàng tiềm năng df['Is_Lead’].value_counts().plot(kind = ”pie” ,autopctz'#1.1f%%')
plt.title( "1s Lead' ,size=20)
0ut[135]: Text(0.5, 1.0, "1s Lead")
13
Trang 19Nhận xét: Chúng ta có thê thấy khi tuôi tăng lên, thời gian khách hàng gắn bó với ngân hàng và số dư trung bình của tài khoản”cũng tăng lên Tuổi càng cao thì số
dư trung bình trong tải khoản cũng cao lên Khả năng trở thành khách hàng tiềm năng
là như nhau đối với tuổi, thời gian găn bó và số dư trung bình của tài khoản
+ Kiểm tra các giá trị ngoại lai boxplot:
Out[137]: <Axes: >
Nhận xét: Có các giá trị ngoại lệ, chúng ta không thể loại bỏ chúng vì chúng là các ø1á trị ngoại lệ đáng kể
- _ Kiểm tra liệu đữ liệu có phân phối chuẩn hay không:
+ Tao biéu dé Histogram: