Chúng tôi đề xuất cách tiếp cận khai thác dữ liệu để dự đoán sự thành công của các cuộc gọi tiếp thị qua điện thoại để bán tiền gửi dài hạn của ngân hàng.. Một ngân hàng bán lẻ Bồ Đào Nh
Trang 1ĐẠI HỌC UEH – TRƯỜNG KINH DOANH UEH
-
-TIỂU LUẬN
Dự đoán chiến dịch tiếp thị trực tiếp của một tổ chức ngân
hàng Bồ Đào Nha
Sinh viên thực hiện: Nhóm 3 - Võ Huỳnh Phương Oanh
Phạm Thanh Duy Đinh Nguyễn Nguyên Hoa Nguyễn Thị Thanh Lan Huỳnh Thị Xuân Hiền
Mã lớp học phần: 22D1INF50905909
Giảng viên: THS.Võ Thành Đức
TP Hồ Chí Minh, ngày 20 tháng 3 năm 2022
Trang 2LỜI MỞ ĐẦU: 3
1 GIỚI THIỆU 4
1.1 Khái quát 4
1.2 Câu hỏi dự báo: 6
2 THU THẬP VÀ LÀM SẠCH DỮ LIỆU: 6
2.1 Mô tả tổng quát dữ liệu: 6
2.2 Trình bày sơ lược các thuộc tính 7
2.3 Xác định biến mục tiêu 8
2.4 .Tiền xử lí dữ liệu 8
2.5 Chọn số lượng khảo sát, thực hiện tiền xử lý dữ liệu trên Orange 9
3 KIỂM ĐỊNH MÔ HÌNH 10
3.1 Thực hiện các loại mô hình dự đoán có thể 10
3.2 Report kết quả của từng loại mô hình 11
4 ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH: 13
4.1 Lựa chọn mô hình: 13
4.2 Kết quả từ ma trận nhầm lẫn: 13
4.3 Phân tích số liệu: Dựa vào dữ liệu từ mô hình nhóm đưa ra một số đánh giá về khách hàng tìm năng sẽ chấp nhận dịch vụ tiền gửi có kỳ hạn tại ngân hàng: 13
5 TRIỂN KHAI MÔ HÌNH 14
5.1 Ứng dụng của mô hình phân lớp: 14
5.2 Ý nghĩa c a phân l p trong lĩnh v c ngân hàng ủ ớ ự , tn d ng ngân hàng: ụ 15
6 ĐÁNH GIÁ: 17
Trang 3LỜI MỞ ĐẦU:
Chiến dịch tiếp thị trực tiếp của một tổ chức ngân hàng Bồ Đào Nha Mục tiêu phân loại là để dự đoán xem liệu khách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay không.
Chúng tôi đề xuất cách tiếp cận khai thác dữ liệu để dự đoán sự thành công của các cuộc gọi tiếp thị qua điện thoại để bán tiền gửi dài hạn của ngân hàng Một ngân hàng bán lẻ Bồ Đào Nha đã được giải quyết, với dữ liệu được thu thập từ năm 2008 đến
2013, do đó bao gồm cả hiệu ứng của cuộc khủng hoảng tài chính gần đây.Kết quả xác nhận mô hình thu được là đáng tin cậy và có giá trị cho các nhà quản lý chiến dịch tiếp thị qua điện thoại.
1 Giới thiệu
1.1 Khái quát
1.1.1 Ngân hàng
- Ngân hàng là một tổ chức tài chính và trung gian tài chính chấp nhận tiền gửi và định kênh những tiền gửi đó vào các hoạt động cho vay trực tiếp hoặc gián tiếp thông qua các thị trường vốn Ngân hàng là kết nối giữa khách hàng có thâm hụt vốn và khách hàng có thặng dư vốn Hoạt động chính của ngân hàng là nhận tiền gửi từ công chúng và trả một mức lãi cho họ sau đó đem số tiền đó đi cho vay với một mức lãi suốt cao hơn Lợi nhuận của ngân hàng là phần chênh lệch giữa
2 mức lãi suất
- Nguồn vốn huy động có ý nghĩa quyết định, là cơ sở để các ngân hàng tiến hành các hoạt động cho vay, đầu tư, dự trữ… mang lại lợi nhuận cho ngân hàng Để có được nguồn vốn này, ngân hàng cần phải tiến hành các hoạt động huy động vốn, trong đó, nguồn vốn huy động từ tiền gửi chiếm vai trò quan trọng
- Tiền gửi là số tiền của khách hàng gửi tại tổ chức tín dụng dưới nhiều hình thức khác nhau Tiền gửi của khách hàng là nguồn tài nguyên quan trọng nhất của ngân hàng, chiếm tỷ trọng lớn trong tổng nguồn tiền Tiền gửi là nền tảng cho sự thịnh vượng và phát triển của Ngân hàng, quyết định đến quy mô hoạt động và quy mô tín dụng, quyết định đến khả năng thanh toán và uy tín của Ngân hàng
1.1.2 Huy động tiền gửi tại ngân hàng
- Trong nền kinh tế thị trường hiện nay bất kỳ biến động nào của nền kinh tế dù nhỏ hay lớn đều ảnh hưởng tới hoạt động kinh doanh của ngân hàng, đặc biệt là hoạt động huy động tiền gửi nói riêng Hiệu quả huy động tiền gửi không chỉ
Trang 4đánh giá chính xác đúng đắn hoạt động huy động vốn mà còn phản ánh khả năng thích nghi của ngân hàng đối với nền kinh tế Vì vậy, việc tiếp thị, quảng bá cho khách hàng về dịch vụ tiền gửi là rất cần thiết cho ngân hàng nhằm huy động vốn cũng như hoạt động thương mại
1.1.3 Cuộc khủng hoảng tài chính toàn cầu năm 2008:
- Cuộc khủng hoảng tài chính bắt đầu với việc Ngân hàng Lehman Brothers Holdings (Mỹ) nộp đơn xin phá sản vào ngày 15/9/2008 sau 158 năm hoạt động Cùng ngày, một tập đoàn ngân hàng lớn khác của Mỹ là Merrill Lynch tuyên bố sáp nhập với Bank of America do thua lỗ từ cuộc khủng hoảng tín dụng thứ cấp nhà ở cũng tại Mỹ
- Ngân hàng Lehman Brothers phá sản đã để lại một khoản nợ khổng lồ gần 700 tỷ USD, gây ra sự hỗn loạn hệ thống tài chính thế giới, kéo theo cỗ xe kinh tế toàn cầu suy giảm nghiêm trọng
- Cuộc khủng hoảng đã châm ngòi cho cuộc Đại suy thoái, vào thời điểm đó, là cuộc suy thoái toàn cầu nghiêm trọng nhất kể từ cuộc Đại suy thoái Tiếp theo là cuộc khủng hoảng nợ châu Âu, bắt đầu với thâm hụt ở Hy Lạp vào cuối năm
2009, và cuộc khủng hoảng tài chính Iceland 2008–2011, liên quan đến sự thất bại ngân hàng của cả ba ngân hàng lớn ở Iceland và so với quy mô nền kinh tế của nó, là sự sụp đổ kinh tế lớn nhất mà bất kỳ quốc gia nào trong lịch sử phải gánh chịu Đây là một trong năm cuộc khủng hoảng tài chính tồi tệ nhất mà thế giới đã trải qua và dẫn đến thiệt hại hơn
2 nghìn tỷ đô la từ nền kinh tế toàn cầu
1.1.4 Hoạt động tiếp thị trực tiếp
- Trong các ngân hàng, dữ liệu khổng lồ ghi lại thông tin về khách hàng của họ
Dữ liệu này có thể được sử dụng để tạo hay giữ mối quan hệ với khách hàng nhằm thu hút sự quan tâm đến từng sản phẩm hoặc ưu đãi nhất định của ngân hàng Thông thường, những khách hàng được chọn sẽ được liên hệ trực tiếp thông qua: điện thoại cá nhân, thư và email hoặc bất kỳ phương thức nào khác để quảng cáo sản phẩm / dịch vụ mới hoặc đưa ra lời đề nghị Đây được gọi là tiếp thị trực tiếp Trên thực tế, tiếp thị trực tiếp là chiến lược chính của nhiều ngân hàng và công ty bảo hiểm để tương tác với khách hàng của họ Về mặt lịch sử, tên và thuật ngữ tiếp thị được đề xuất lần đầu tiên vào năm 1967 bởi Lester Wunderman, ông được coi là ha đẻ của tiếp thị trực tiếp
- Bên cạnh đó, một số ngân hàng và công ty dịch vụ tài chính sử dụng chiến lược tiếp thị đại chúng để quảng bá một dịch vụ hoặc sản phẩm mới cho khách hàng của họ Trong chiến lược này, một thông điệp truyền thông duy nhất được truyền tải tới tất cả các khách hàng thông qua các phương tiện truyền thông như truyền hình, đài phát thanh hoặc hãng quảng cáo, v.v.Trong cách tiếp cận này, các công
Trang 5ty không thiết lập mối quan hệ trực tiếp với khách hàng của họ về sản phẩm mới Trên thực tế, nhiều khách hàng không hứng thú hoặc không hưởng ứng kiểu khuyến mại này
- Theo đó, các ngân hàng, công ty dịch vụ tài chính và các công ty khác đang chuyển hướng khỏi chiến lược tiếp thị đại chúng Bởi vì tính không hiệu quả của
nó, và họ hiện đang nhắm mục tiêu hầu hết khách hàng của mình bằng cách tiếp thị trực tiếp cho các sản phẩm và dịch vụ cụ thể cung cấp
- Tất cả các chiến dịch tiếp thị của ngân hàng đều phụ thuộc vào dữ liệu khổng lồ của khách hàng Quy mô của nguồn dữ liệu này là không thể đối với một nhà phân tích nhân khẩu học để đưa ra những thông tin giúp ích cho quá trình ra quyết định Các mô hình khai thác dữ liệu hoàn toàn giúp ích trong việc thực hiện các chiến dịch này
- Theo đó, các ngân hàng, các công ty dịch vụ tài chính và các công ty khác đang chuyển dần chiến lược tiếp thị hàng loạt vì sự không hiệu quả của nó, và hiện tại
họ đang nhắm mục tiêu hầu hết khách hàng của họ bằng cách tiếp thị trực tiếp cho các sản phẩm và dịch vụ cụ thể cung cấp Khai thác dữ liệu đã được sử dụng rộng rãi trong tiếp thị trực tiếp để xác định khách hàng tiềm năng cho các sản phẩm mới, bằng cách sử dụng dữ liệu mua hàng, một mô hình dự đoán để đo lường rằng một khách hàng sẽ đáp ứng với khuyến mãi hoặc một ưu đãi Khai thác dữ liệu đã trở nên phổ biến cho các ứng dụng minh họa và dự đoán trong các quy trình ngân hàng
1.2.Câu hỏi dự báo:
- Từ các tài liệu, tiếp thị trực tiếp đang trở thành một ứng dụng rất quan trọng trong khai thác dữ liệu ngày nay Khai thác dữ liệu đã được sử dụng rộng rãi trong tiếp thị trực tiếp để xác định khách hàng tiềm năng cho các sản phẩm mới, bằng cách sử dụng dữ liệu mua hàng trong quá khứ, một mô hình dự đoán để đo lường rằng khách hàng sẽ phản hồi lại chương trình khuyến mãi hoặc ưu đãi đó như thế nào, từ đó dự báo khả năng thành công của một dịch vụ hay sản phẩm
- Trong dự án này, chúng tôi đề xuất hệ thống hỗ trợ ra quyết định có thể tự động
dự đoán kết quả của một cuộc gọi điện thoại để bán tiền gửi dài hạn bằng cách
sử dụng cách tiếp cận khai thác dữ liệu Hệ thống này có giá trị hỗ trợ các nhà quản lý ưu tiên và lựa chọn khách hàng tiếp theo sẽ được liên lạc trong các chiến dịch tiếp thị ngân hàng Chẳng hạn, bằng cách sử dụng phân tích thang máy phân tích xác suất thành công và để lại cho các nhà quản lý chỉ quyết định về việc có bao nhiêu khách hàng để liên hệ Kết quả là, thời gian và chi phí của các chiến dịch đó sẽ bị giảm Ngoài ra, bằng cách thực hiện ít cuộc gọi điện thoại và hiệu quả hơn, ứng dụng khách hàng và sự xâm nhập sẽ bị giảm dần Những đóng góp chính của chiến dịch này là:
Trang 6 Chúng tôi phân tích một bộ dữ liệu lớn (từ một ngân hàng Bồ Đào Nha.
Dữ liệu đã được thu thập từ năm 2008 đến 2013, do đó bao gồm cả hiệu ứng của cuộc khủng hoảng tài chính toàn cầu đạt đến đỉnh điểm trong năm 2008
Chúng tôi thực hiện so sánh ba mô hình hồi quy Logistic, cây quyết định, SVM và đánh giá bằng chỉ số AUC và ma trận nhầm lẫn
2.1.Mô tả tổng quát dữ liệu:
- Bài báo này sử dụng bộ dữ liệu Bank Marketing từ Kho lưu trữ Máy học của Đại học California tại Irvine (UCI) Bộ dữ liệu Bank Markting được sử dụng ở đây được thu thập bởi S Moro, R Laureano và P Cortez Dữ liệu liên quan đến các chiến dịch tiếp thị trực tiếp của một tổ chức ngân hàng Bồ Đào Nha Các chiến dịch tiếp thị dựa trên các cuộc gọi điện thoại Thông thường, cần có nhiều hơn một liên hệ với cùng một khách hàng, để truy cập xem sản phẩm (tiền gửi có kỳ hạn ngân hàng) đã được đăng ký (hoặc chưa) lớp (có và không
2.2.Trình bày sơ lược các thuộc tính
2.2.1 Các biến đầu vào: dữ liệu khách hàng của ngân hàng:
1 – Age: tuổi (số)
2 - Job: loại công việc (phân loại: quản trị viên; người lao động tay chân; doanh nhân; người giúp việc; quản lý; nghỉ hưu; kinh doanh tự do; dịch vụ; sinh viên,
kỹ thuật viên, thất nghiệp, không xác định)
3 - Marital: tình trạng hôn nhân (phân loại: đã ly hôn, đã kết hôn, độc thân, không rõ
4 – Education: trình độ học vấn (phân loại: basic.4y, basic.6y, basic.9y, high.school, illiterate, professional.course, university.degree; chưa biết)
5 – Default: có tín dụng trong tình trạng vỡ nợ? (phân loại: không, có, không xác định)
6 - Housing: có cho vay mua nhà không? (phân loại: không, có, không xác định)
7 - Loan: có khoản vay cá nhân? (phân loại: không, có, không xác định)
- Thông tin liên quan đến kết quả của chiến dịch tiếp thị trước đó:
8 - contact: kiểu liên lạc liên lạc (phân loại: cellular, phone)
9 - month: tháng liên hệ cuối cùng trong năm (phân loại: jan, feb, mar, , nov, dec)
10 - day_of_week: ngày liên hệ cuối cùng trong tuần (phân loại: mon, tue, wed, thu, fri)
11 – duration: thời lượng liên lạc cuối cùng, tính bằng giây (số)
Trang 72.2.2 Các thuộc tính khác
12 - Campaigns: số lượng địa chỉ liên hệ được thực hiện trong chiến dịch này và cho khách hàng này (số, bao gồm cả liên hệ cuối cùng)
13 - Pdays: số ngày trôi qua sau khi khách hàng được liên hệ lần cuối từ một chiến dịch trước đó (số; 999 có nghĩa là khách hàng chưa được liên hệ trước đó)
14 - Previous: số lượng địa chỉ liên hệ được thực hiện trước chiến dịch này và cho khách hàng này (số)
15 - Poutcome: kết quả của chiến dịch tiếp thị trước đó (phân loại: 'thất bại', 'không tồn tại', 'thành công')
2.2.3 Các thuộc tính bối cảnh kinh tế và xã hội:
16 - emp.var.rate: tỷ lệ thay đổi việc làm - chỉ báo hàng quý (số)
17 - cons.price.idx: chỉ số giá tiêu dùng - chỉ báo hàng tháng (số)
18 - cons.conf.idx: chỉ số niềm tin của người tiêu dùng - chỉ số hàng tháng (số)
19 - euribor3m: lãi suất 3 tháng của euribor - chỉ báo hàng ngày (số)
20 - nr.employed: số lượng nhân viên - chỉ số hàng quý (số)
2.3.Xác định biến mục tiêu
21 - Subcribed - khách hàng đã đăng ký tiền gửi có kỳ hạn chưa? (nhị phân: 'yes', 'no')
2.4 Tiền xử lí dữ liệu
- Để giúp cho việc tiếp cận và sử dụng bộ dữ liệu trong thực tế được nhanh chóng và tiện lợi hơn, quá trình tiền xử lý dữ liệu có thể giúp làm sạch và nhất quán dữ liệu, giúp cải thiện chất lượng dữ liệu, từ đó làm tăng tính chính xác và hiệu quả trong quá trình khai phá dữ liệu Vì vậy mà quá trình này là một bước quan trọng
không thể thiếu trong quá trình tiếp cận và phân tích dữ liệu Tiền xử lý dữ liệu gồm có 4 bước kỹ thuật chính: Làm sạch dữ liệu (data cleasing), tích hợp dữ liệu (data integration), tích hợp và biến đổi dữ liệu (data transformation and normalization), thu giảm dữ liệu (data reduction)
- Làm sạch dữ liệu : Dữ liệu trong thực tế thường không đầy đủ, nhiễu, và không nhất quán Quá trình làm sạch dữ liệu sẽ cố gắng điền các giá trị thiếu, loại bỏ nhiễu, và sửa chữa sự không nhất quán của dữ liệu
Với dữ liệu bị thiếu:
+ Bỏ qua bộ có giá trị thiếu: Phương pháp này thường được sử dụng khi nhãn lớp bị thiếu Phương pháp này rất không hiệu quả khi phần trăm giá trị thiếu trong từng thuộc tính là đáng kể
Trang 8+ Điền vào bằng tay các giá trị thiếu: Cách tiếp cận này tốn thời gian và không khả thi khi thực hiện trên tập dữ liệu lớn với nhiều giá trị thiếu
+ Sử dụng một hằng số toàn cục để điền vào các giá trị thiếu: Thay thế toàn bộ giá trị thiếu của các thuộc tính bằng một hằng số như "Unknown" hay vô cực
+ Sử dụng giá trị trung bình của thuộc tính để điền các giá trị thiếu
+ Sử dụng một giá trị trung bình của thuộc tính cho tất cả các mẫu thử thuộc về cùng một lớp với bộ đã cho
+ Sử dụng một giá trị có khả năng nhất để điền vào các giá trị thiếu: giá trị này có thể tìm ra bằng phương pháp hồi qui, hay dựa trên các công cụ sử dụng hình thức Bayesian
Với dữ liệu nhiễu: Nhiễu là một lỗi hay một sự mâu thuẫn ngẫu nhiên trong việc đo các biến số Các kỹ thuật loại bỏ nhiễu bao gồm:
+ Phương pháp Bining
+ Phân cụm
2.5 Chọn số lượng khảo sát, thực hiện tiền xử lý dữ liệu trên Orange
- Dữ liệu gốc ban đầu có hơn 40000 kết quả khảo sát (không có dữ liệu bị thiếu) Số lượng trên là quá lớn để tiến hành khai thác, làm mất nhiều thời gian Vì thế nhóm tác giả sử Dụng công cụ Data Sampler để lấy ngẫu nhiên 4999 khảo sát để tiến hành dễ dàng hơn
Hình 1: Bảng Data Sampler thể hiện thao tác chọn ngẫu nhiên dữ liệu
Trang 9- Loại bỏ các biến không phù hợp Dữ liệu nhằm mục đích tìm hiểu sự lựa chọn của khách hàng về gửi tiền có kỳ hạn nên ta lựa chọn biến Subscribed (đã đăng ký) là biến mục tiêu - Target
Hình 2: Kết quả xử lý “Role” của các thuộc tính.
Hình 3: Bảng Select Columns loại bỏ các biến kinh tế không liên quan
Trang 10- Từ hình 3 cho thấy: Đối với các biến emp.var.rate, cons.price.idx, cons.conf.idx, euribor3m, nr.employed, đây là các biến liên quan đến tình hình chung bối cảnh kinh tế
- xã hội, không ảnh hưởng đến quyết định gửi tiền của khách hàng, nên nhóm quyết định loại bỏ bằng công cụ Select Columns
Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange
3.1 Thực hiện các loại mô hình dự đoán có thể
Dữ liệu nhóm sử dụng để thực hiện đã được gắn nhãn và có biến mục tiêu: Biến Subcribed => Thực hiện mô hình Phân lớp theo ba phương pháp: Hồi quy Logistic, Cây quyết định, SVM