Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
5,73 MB
Nội dung
ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING QUA CÁC THUẬT TOÁN TRÊN ORANGE Giảng viên hướng dẫn: Trương Việt Phương Mã học phần: 21C1INF50905911 Nhóm sinh viên thực hiện: Dương Trọng Anh 31201022014 Lê Thị Kiều Diễm 31201022108 Thái Quang Hào 31201022773 Võ Thị Mỹ Ngọc 31201022281 Liễu Ngọc Khánh Tuyền 31201022715 TP Hồ Chí Minh, Tháng 12/2021 1 BẢNG PHÂN CÔNG CÁC THÀNH VIÊN STT Họ Và Tên Nhiệm Vụ Đánh giá Dương Trọng Anh Tìm bộ dữ liệu, thảo luận đề tài , giới thiệu tổng quan về KHDL, nhận xét, làm powerpoint 100% Lê Thị Kiều Diễm Tìm bộ dữ liệu, thảo luận đề tài, cơ sở lý thuyết, mô tả các biến, nhận xét, kết luận 100% 3 Thái Quang Hào Tìm bộ dữ liệu, thảo luận đề tài, cơ sở lý thuyết, xử lý dữ liệu trên Orange, tổng hợp trên Word 100% 4 Võ Thị Mỹ Ngọc Tìm bộ dữ liệu, thảo luận đề tài, cơ sở lý thuyết, nhận xét, làm powerpoint 100% 5 Liễu Ngọc Khánh Tuyền Tìm bộ dữ liệu, thảo luận đề tài, giới thiệu đề tài, nhận xét, kết luận 100% 1 2 2 3 LỜI MỞ ĐẦU Những năm gần đây, vai trò của các hệ thống thông tin trong các doanh nghiệp đã ngày càng lớn mạnh Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn phòng, hệ thống thông tin đã trở nên có vai trò chiến lược trong doanh nghiệp Đặc biệt những thành tựu trong công nghệ thông tin đã khiến doanh nghiệp ngày càng chú ý hơn tới việc áp dụng những nó để gia tăng thế cạnh tranh và tạo cơ hội cho mình Khoa học dữ liệu là thuật ngữ dần trở nên quen thuộc ở Việt Nam trong giai đoạn ngày nay, và đang dần trở thành xu hướng được các doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ việc sử dụng những thông tin được phân tích do công nghệ này mang lại Khi cuộc cách mạng công nghiệp 4.0 bùng nổ, mọi quốc gia và doanh nghiệp đều phải dựa nhiều hơn vào khoa học công nghệ và dữ liệu Để phù hợp với chuyên ngành, chúng tôi đã tìm được bộ dữ liệu của một tổ chức ngân hàng và xử lý thông tin thông qua công cụ Orange để nhìn nhận và tìm ra hướng phát triển của tổ chức Với mục tiêu phát triển chiến dịch tiếp thị qua cuộc gọi và dự đoán liệu khách hàng có đăng ký tiền gửi có kỳ hạn hay không ? Trong bài tiểu luận này nhóm chúng tôi sẽ làm rõ vấn đề trên 4 MỤC LỤC 5 LỜI CẢM ƠN Hoàn thành được bài báo cáo về đề tài “Phân tích bộ dữ liệu Bank Marketing qua các thuật toán trên Orange” không chỉ có riêng sự cố gắng của các thành viên trong nhóm mà còn nhờ vào sự hỗ trợ của rất nhiều thầy cô Chúng tôi xin được gửi lời cảm ơn chân thành đến: • Thầy Trương Việt Phương - Giảng viên môn Khoa học dữ liệu đã tận tình hướng dẫn chúng em về cách thức tiến hành đề tài nghiên cứu, để có thể hoàn thành tốt bài báo cáo này DANH MỤC BẢNG, HÌNH ẢNH Bảng 1: Phân loại các phương pháp phân cụm Hình 1: Bảng Data Sampler thể hiện thao tác chọn ngẫu nhiên dữ liệu Hình 2: Kết quả xử lý “Role” của các thuộc tính Hình 3: Bảng Select Columns loại bỏ các biến kinh tế không liên quan Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange Hình 5: Chuỗi thao tác thực hiện phân cụm dữ liệu trên Orange Hình 6: Silhouette Plot thể hiện phân cụm theo phương pháp Hierarchical Clustering Hình 7: Bảng dữ liệu excel đã phân cụm theo phương pháp Hierarchical Clustering khi so sánh với nhãn ban đầu Hình 8: Bảng kết quả phân cụm bằng phương pháp K-Mean trên Orange Hình 9: Silhouette Plot thể hiện phân cụm theo phương pháp K-Mean Hình 10: Bảng dữ liệu excel đã phân cụm theo phương pháp K-Mean khi so sánh với nhãn ban đầu Hình 11: Chuỗi thao tác thực hiện phân lớp dữ liệu trên Orange Hình 12: Bảng kết quả cây quyết định Hình 13: Bảng đánh giá Test & Score Hình 14: Bảng kết quả ma trận nhầm lẫn của phương pháp hồi quy logistic Hình 15: Bảng kết quả dự báo bằng phương pháp hồi quy logistic Hình 16: Bảng kết quả dự báo bằng bằng phương pháp hồi quy logistic xuất ra excel CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về Khoa học dữ liệu: Khoa học dữ liệu (DS) là khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động Khoa học dữ liệu gồm ba phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, và chuyển kết quả phân tích thành giá trị của hành động Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể Cũng như các hình thức thí nghiệm khác, khoa học dữ liệu sẽ yêu cầu thực hiện các quan sát, đặt câu hỏi, hình thành các giả thuyết, tạo các bài kiểm tra, phân tích kết quả và đưa ra một khuyến nghị thực tế Chính vì vậy mà mục đích chính của Khoa học Dữ liệu là biến đổi một lượng lớn dữ liệu chưa qua xử lý, làm thế nào để định vị được thành mô hình kinh doanh, từ đó giúp đỡ các tổ chức tiết giảm chi phí, gia tăng hiệu quả làm việc, nhìn nhận cơ hội, rủi ro trên thị trường và làm gia tăng lợi thế cạnh tranh của doanh nghiệp Các lĩnh vực của khoa học dữ liệu: khai thác dữ liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming) Khoa học dữ liệu kết hợp nhiều lĩnh vực để chiết xuất giá trị từ dữ liệu Những người thực hành khoa học dữ liệu được gọi là data scientists và họ kết hợp một loạt các kỹ năng để phân tích dữ liệu thu thập được từ web, điện thoại thông minh, khách hàng, cảm biến và các nguồn khác để thu được những thông tin chi tiết hữu ích Nó chủ yếu được thực hiện bởi data scientists lành nghề , mặc dù các nhà phân tích dữ liệu cấp thấp hơn cũng có thể tham gia Ngoài ra, nhiều tổ chức hiện dựa một phần vào citizen data scientists , một nhóm có thể bao gồm các chuyên gia kinh doanh thông minh (BI), nhà phân tích kinh doanh, người dùng doanh nghiệp am hiểu dữ liệu, kỹ sư dữ liệu và những người lao động khác không có nền tảng khoa học dữ liệu chính thức Một nhà khoa học dữ liệu cần phát triển 3 nhóm kỹ năng quan trọng là phân tích (Analytics), lập trình 8 (Programming), kiến thức chuyên ngành (Domain Knowledge) và một số kỹ năng quan trọng khác 1.2 Giới thiệu về đề tài 1.2.1 Lý do chọn đề tài Hiện nay việc khai thác, phân tích dữ liệu đã trở nên không thể thiếu đối với các ngành nghề, đặc biệt ở đây chúng tôi đề cập đến là trong kinh doanh, thương mại, Một loạt các dữ liệu khổng lồ từ khách hàng, hoạt động kinh doanh, đối tác, không thể xử lý bằng sức người, do đó việc số hóa các dữ liệu này là điều cần thiết, phải làm của các công ty, các tập đoàn lớn nhỏ Việc phân tích các vấn đề kinh doanh: lấy dữ liệu làm trung tâm, việc tạo và đánh giá các giải pháp khoa học dữ liệu cũng như đánh giá các chiến lược và đề xuất khoa học dữ liệu chung Để có thể phân tích được các dữ liệu một cách tự động, chúng ta cần đến các phần mềm cũng như là công cụ để hỗ trợ như: Excel, R và Python, Power BI, Với bộ dữ liệu mà nhóm đã thu thập được, chúng tôi sẽ sử dụng Orange để xây dựng quy trình khai thác dữ liệu trực quan - đây là phần mềm khai thác dữ liệu phổ biến có thể được thực hiện mà không cần lập trình Nhóm đã tìm được bộ dữ liệu của một tổ chức ngân hàng Bồ Đào Nha, dữ liệu có liên quan đến các chiến dịch tiếp thị bằng các cuộc gọi, kêu gọi khách hàng đăng ký tiền gửi có kỳ hạn của ngân hàng Dữ liệu sau khi được phân tích bởi Orange, chúng tôi sẽ đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích; đánh giá độ hiệu quả của và đề xuất một số hướng phát triển dành cho chiến dịch tiếp thị qua cuộc gọi này Và đó lý do nhóm tác giả chọn đề tài: “Phân tích bộ dữ liệu Bank Marketing qua các thuật toán trên Orange” − − − − 1.2.2 Mục tiêu nghiên cứu Khám phá dữ liệu Làm sạch dữ liệu Phân cụm, phân lớp dữ liệu So sánh dựa trên nhãn “Subscribed” (đã đăng kí) cho việc ký gửi tiền 9 − Dự đoán liệu khách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay không − Cung cấp cái nhìn tổng quan về hoạt động của ngân hàng, từ đó đưa ra nhận xét đánh giá dựa trên dữ liệu đã phân tích 1.2.3 Phương pháp thực hiện Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp − Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương pháp chính là Hierarchical clustering và K-means + Đối với phương pháp Hierarchical clustering nhóm tiến hành tính khoảng cách giữa các phần tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot + Đối với phương pháp K-means nhóm quan sát chỉ số Silhouette trung bình khi phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu của nhóm − Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” (đã đăng kí) cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết định (Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic Rgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn 10 Hình 3: Bảng Select Columns loại bỏ các biến kinh tế không liên quan Từ hình 3 cho thấy: Đối với các biến emp.var.rate, cons.price.idx, cons.conf.idx, euribor3m, nr.employed, đây là các biến liên quan đến tình hình chung bối cảnh kinh tế xã hội, không ảnh hưởng đến quyết định gửi tiền của khách hàng, nên nhóm quyết định loại bỏ bằng công cụ Select Columns Hình 4: Chuỗi thao tác thực hiện tiền xử lý dữ liệu trên Orange 4.2 Phân cụm dữ liệu Hình 5: Chuỗi thao tác thực hiện phân cụm dữ liệu trên Orange 4.2.1 Phương pháp Hierarchical clustering Hình 6: Silhouette Plot thể hiện phân cụm theo phương pháp Hierarchical Clustering Với số cụm là 2, nhóm thực hiện phân cụm bằng phương pháp pháp Hierarchical clustering và sử 24 dụng phương pháp tính bằng liên kết đơn (Single) thì cho ra kết quả phân cụm hợp lý nhất Cụm 1 (màu xanh) có giá trị Silhouette nằm trong khoảng từ 0.5 đến 0.83 và cụm 2 (màu đỏ) có giá trị Silhouette nằm trong khoảng từ 0.4 đến 0.83 Vì các khoảng này đều nằm trong khoảng dương và tiến về 1 nên phương pháp phân cụm này là sát với thực tế Sau khi phân tích trên Orange, nhóm tiến hành xuất kết quả phân cụm dưới dạng excel và so sánh với nhãn ban đầu Hình 7: Bảng dữ liệu excel đã phân cụm theo phương pháp Hierarchical Clustering khi so sánh với nhãn ban đầu Nhóm thực hiện so sánh với nhãn ban đầu và tính được tỷ lệ chính xác khi phân cụm theo phương pháp Hierarchical Clustering bằng cách tính liên kết đơn xấp xỉ 0.9 Đây là kết quả khá cao thể hiện độ chính xác khi phân cụm biến Subscribed theo phương pháp này 4.2.2 Phương pháp K-Mean Nhóm tác giả tiến hành phân cụm dữ liệu theo phương pháp K-Mean Sau khi chạy dữ thiệu thì đã cho ra bảng kết quả như sau: 25 Hình 8: Bảng kết quả phân cụm bằng phương pháp K-Mean trên Orange Để đánh giá số cụm tốt nhất để lựa chọn phân cụm bằng phương pháp K-Mean phải dựa vào giá trị Silhouette của từng cụm Vì vậy, nhóm cho chạy random từ 2 đến 5 thì nhận được kết quả lần lượt là 0.658, 0.723, 0.656 và 0.586 Qua đó, ta thấy được giá trị Silhouette cao nhất khi phân thành ba cụm nhưng biến cần phân cụm ở đây là Subscribed chỉ có hai giá trị “yes, no” nên buộc phải chia thành hai cụm và giá trị Silhouette khi phân thành hai cụm cũng rất cao (0.658>0.5) Qua hình 9, ta quan sát được thì cụm 1 (màu xanh) giá trị Silhouette nằm trong khoảng đa số từ 0.4 đến 0.8 và cụm 2 (màu đỏ) có giá trị Silhouette nằm trong khoảng đa số từ 0.3 đến 0.5 Vì các khoảng này đều nằm trong khoảng dương (trừ cụm 2 có khoảng 25 mẫu âm) và tiến về 1 nên phân cụm theo phương pháp K-Mean cũng khá sát với thực tế, đáng tin cậy 26 Hình 9: Silhouette Plot thể hiện phân cụm theo phương pháp K-Mean 27 Tiếp theo, nhóm tiến hành xuất kết quả phân cụm bằng phương pháp K-Mean trên Excel và cũng đem đi so sánh với nhãn ban đầu Kết quả so sánh được thể hiện chi tiết trong bảng sau đây: Hình 10: Bảng dữ liệu excel đã phân cụm theo phương pháp K-Mean khi so sánh với nhãn ban đầu Nhóm thực hiện so sánh với nhãn ban đầu và tính được tỷ lệ chính xác khi phân cụm theo phương pháp K-Mean bằng cách tính liên kết đơn xấp xỉ 0.85 Và đây cũng thuộc tỷ lệ chính xác khá cao Kết luận: Cả hai phương pháp Hierachical Clustering và K-means, khi thực hiện phân cụm dữ liệu với số cụm là 2 đều thu được kết quả hợp lý, sát thực tế Vì vậy, nhóm tiến hành so sánh kết quả phân cụm với nhãn ban đầu, tính tỷ lệ chính xác để tìm ra phương pháp tốt hơn Kết quả cho thấy khi phương pháp Hierarchical Clustering có tỳ lệ chính xác cao hơn so với phương pháp K-means (0.89>0.85) Vì vậy đối với bộ dữ liệu của nhóm thì phân cụm theo phương pháp Hierarchical Clustering là tốt nhất 4.3 Phân lớp dữ liệu Trong khoa học dữ liệu, bài toán phân lớp dữ liệu là một trong những bài toán cơ bản nhưng có ý nghĩa quan trọng và có nhiều ứng dụng thực tiễn Phân lớp dữ liệu có thể được ứng dụng cho một loạt bài toán như dự báo kinh doanh, dự báo tài chính, chẩn đoán y khoa, nhận dạng đối tượng, dịch thuật, … 28 Hình 11: Chuỗi thao tác thực hiện phân lớp dữ liệu trên Orange Cây quyết định (Decision Tree) − Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định − Trong lĩnh vực khai phá dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước Hình 12: Bảng kết quả cây quyết định Nhìn vào tree viewer ta có thể thấy, bộ dữ liệu sau khi được phân lớp có 363 models và 182 nhánh cho thấy cây quyết định đã phân loại và tổng quát hóa tập dữ liệu rất rõ ràng 29 Hình 13: Bảng đánh giá Test & Score Bảng Test and Score ta thấy được chỉ số AUC của Tree là 0.607 , SVM là 0.717 và Hồi quy Logistic là 0.909 lớn nhất trong các phương pháp còn lại và gần với 1 nhất Điểu này cho thấy phương pháp Hồi quy Logistic là phương pháp được xem là đánh giá tốt nhất cho dữ liệu trên Ma trận nhầm lẫn (Confusion Matrix) Hình 14: Bảng kết quả ma trận nhầm lẫn của phương pháp hồi quy logistic Xét ma trận nhầm lẫn của phương pháp hồi quy logistic, ma trận này thể hiện rõ: − 4331 no-no: 4331 khách hàng ta đoán không đăng ký tiền gửi có kỳ hạn và trên thực tế là không đăng ký − 106 yes-no: 106 khách hàng ta đoán có đăng ký tiền gửi có kỳ hạn nhưng thực tế là không đăng ký − 352 no- yes: 352 khách hàng ta đoán không đăng ký tiền gửi có kỳ hạn nhưng thực tế là có đăng ký − 210 yes-yes: 210 khách hàng ta đoán có đăng ký tiền gửi có kỳ hạn và trên thực tế là có đăng ký → Điều trên cho thấy, đa số khách hàng không có nhu cầu đăng ký tiền gửi có kỳ hạn 30 Công cụ Predictions Hình 15: Bảng kết quả dự báo bằng phương pháp hồi quy logistic Chọn ngẫu nhiên 500 khách hàng (10% trong bộ data) để dự đoán, ta thấy rằng “no” chiếm số lượng lớn so với “yes”.Với kết quả trên cho thấy rằng, khách hàng không đăng ký tiền gửi có kỳ hạn chiếm tỷ lệ cao so với khách hàng đăng ký tiền gửi có kỳ hạn Hình 16: Bảng kết quả dự báo bằng bằng phương pháp hồi quy logistic xuất ra excel 31 CHƯƠNG 5: KẾT LUẬN 5.1 Kết luận Với bộ dữ liệu có liên quan đến các chiến dịch tiếp thị trực tiếp của một tổ chức ngân hàng Bồ Đào Nha với mục tiêu xác định khách hàng đăng ký tiền gửi có kỳ hạn hay không Nhóm tác giả đã tiến hành tiền xử lý dữ liệu với Data Sampler và bỏ qua một số thuộc tính không quan trọng, phân lớp với phương pháp Hồi quy Logistic và tiến hành phân cụm dữ liệu với phương pháp Hierarchical Sau thời gian tiến hành nghiên cứu, với biến thuộc tính Previous thể hiện số lần liên lạc với khách hàng trong chiến lược trước đa số đều là 0 lần, một số ít là 1 lần và 2 lần Pountcome kết quả của chiến dịch trước đa số đều không tồn tại Cho thấy ngân hàng không quan tâm tới khách hàng cũ và không giữ liên lạc với khách hàng trong chiến dịch trước sẽ ảnh hưởng tới kết quả chiến dịch và biến thuộc tính Duration, đây là biến thuộc tính quan trọng ảnh hưởng nhiều đến mục tiêu đầu ra, với thời lượng liên lạc cuối cùng với khách hàng, thời lượng càng nhiều thông tin thu thập được càng nhiều và độ chính xác cao, cho kết quả xác thực tế hơn và cho thấy được khách hàng có đang quan tâm đến chiến dịch này không Với các biến thuộc tính nhóm tác giả tiến hành nghiên cứu đã dự báo được khách hàng đã đăng ký tiền gửi có kỳ hạn và khách hàng chưa đăng ký tiền gửi có kỳ hạn Khách hàng chưa đăng ký tiền gửi có kỳ hạn chiếm phần lớn so với khách hàng đã đăng ký tiền gửi có kỳ hạn Với kết quả đạt được không lệch nhiều so với nhãn mục tiêu sẵn có trong bộ dữ liệu Các chiến dịch tiếp thị qua điện thoại vẫn là một trong những cách hiệu quả nhất để tiếp cận với mọi người cung cấp thông tin xác định dự báo khách hàng đăng ký tiền gửi có kỳ hạn 5.2 Hướng phát triển Sau khi phân tích, nhóm tác giả đưa ra một số đề xuất về hướng phát triển chiến lược thu hút khách hàng đăng ký tiền gửi có kỳ hạn như sau: a) Xác định đúng khách hàng cần hướng đến 32 Bởi vì khả năng tất toán của tiền gửi bị hạn chế nhiều trong khoản thời gian khách hàng đang gửi tiết kiệm, cho nên phân khúc khách hàng mà chúng ta hướng đến sẽ là những người có mối quan tâm đến gửi tiết kiệm, thu nhập ổn định, có một khoản tiền nhàn rỗi sẵn sàng để có thể gửi tiết kiệm b) Cung cấp thông tin về sản phẩm Sau khi đã có được khách hàng tiềm năng, thì ngân hàng phải tư vấn cho khách hàng về các gói tiền gửi có về lợi ích khi đăng ký gói tiền gửi có hạn, so với việc đăng ký tại ngân hàng này thì có khác gì so với các ngân hàng khác, cho khách hàng thấy sự khác biệt − − − − Mức lãi suất: Lãi suất thường cao hơn nhiều so với tiền gửi không kỳ hạn Kỳ hạn gửi: Kỳ hạn linh hoạt: theo tuần, theo tháng hoặc theo năm Phương thức trả lãi: Trả lãi trước, trả lãi định kỳ hoặc trả lãi sau Các ưu đãi: Khách hàng sẽ thường xuyên nhận được các chương trình ưu đãi từ ngân hàng như mở thẻ tín dụng không cần chứng minh thu nhập, ưu đãi lãi suất khi vay c) Đa dạng các sản phẩm tiền gửi có kỳ hạn Cũng là một khoản Tiền gửi có kỳ hạn nhưng để thu hút được khách hàng thì ngân hàng cần tạo ra đa dạng các hình thức, dịch vụ để khách hàng cảm thấy dễ dàng, không khó chịu khi sử dụng dịch vụ Ví dụ như về kênh giao dịch, khách hàng có thể lựa chọn gửi tiền tại quầy hoặc gửi online (trực tuyến), các gói sản phẩm có kỳ hạn và mức lãi suất hấp dẫn, Điều này sẽ làm cho khách hàng có thể chủ động lựa chọn, phù hợp với số tiền nhàn rỗi của mỗi khách hàng d) Tăng cường các chiến dịch quảng cáo, tiếp thị Có lẽ nhắc đến chiến lược thu hút khách hàng mới thì chắc chắn không thể “vắng mặt” các chiến dịch quảng cáo, tiếp thị Đây chính là “vũ khí” để sản phẩm, dịch vụ và thương hiệu của bạn có thể “phủ sóng” rộng rãi và thu hút được những khách hàng mới ngày càng nhiều hơn Với sự phát triển mạnh mẽ của công nghệ - thông tin, hiện nay việc triển khai các chiến dịch quảng cáo, tiếp thị cũng được tối ưu hơn rất nhiều Thậm chí, nếu ngân sách có phần eo hẹp bạn có thể ưu tiên trước cho các hoạt động digital marketing trước Sau đó, khi đã có “khởi sắc” thì những hoạt động marketing truyền 33 thống như báo chí, quảng cáo ngoài trời,… có thể xen kẽ triển khai để tối ưu về hiệu quả nhất e) Luôn giữ tương tác với khách hàng Rất nhiều khách hàng cũ không trở thành khách hàng trung thành do không có sự liên hệ và tương tác qua lại hai bên Triển khai một vài phương pháp giữ liên lạc đơn giản với khách hàng như email, gọi điện định kỳ hàng tháng, sẽ đảm bảo khách hàng không cảm thấy bị bỏ rơi sau khi đã mua hàng Nếu đã lỡ đánh mất khách hàng theo cách này, thì một trong những cách sửa sai là gửi một email (thư điện tử) cho khách hàng, thể hiện rằng doanh nghiệp rất tiếc khi họ đã ngừng mua hàng và đề nghị tặng cho họ một ưu đãi trong một khoảng thời gian nhất định nào đó Một số doanh nghiệp đã sử dụng cách này và thông thường giới hạn số thư từ 5-7 thư nếu họ không nhận được bất kỳ phản hồi tích cực nào 34 TÀI LIỆU THAM KHẢO Nguyễn Thị Thùy Linh (2005), bài luận tốt nghiệp “Nghiên cứu các thuật toán phân lớp dựa trên cây quyết định”, Trường Đại học Công nghệ, ĐHQGHN Vi Văn Sơn (2016), luận văn thạc sĩ “Phân cụm thô của dữ liệu tuần tự”, Trường Đại học Công nghệ, ĐHQGHN García, S., Luengo, J., & Herrera, F (2015), “Data Preprocessing in Data Mining”, New York: Springer Foster Provos, Tom Fawcett (2013), Data Science for Business, “What you need to know about Data Mining and Data-Analytic Thinking” Một số link tài liệu: https://abiz.edu.vn/khoa-hoc-du-lieu-data-science-la-gi/ https://www.oracle.com/in/data-science/what-is-data-science/ https://searchenterpriseai.techtarget.com/definition/data-science https://hocvien.haravan.com/blogs/guides/5-chien-luoc-giu-chan-khach-hang-giupdoanh-nghiep-cua-ban-phat-trien https://bizfly.vn/techblog/6-meo-thu-hut-khach-hang-ban-le-trong-kinh-doanh-khongngo-toi.html https://ongxuanhong.wordpress.com/2018/02/03/voc-thu-orange-phan-mem-data-mining/ https://123docz.net/document/2841059-cac-phuong-phap-phan-cum-du-lieu.htm https://123docz.net/document/3570720-ung-dung-ky-thuat-khai-pha-du-lieu-trongids.htm ... hỏi tích hợp liệu tức hợp liệu từ nhiều kho chứa Dữ liệu chuyển đổi sang hình thức thích hợp cho khai thác liệu • Phân tích liệu: Các tác vụ phân tích liệu bạn địi hỏi tích hợp liệu, kết hợp liệu. .. Và lý nhóm tác giả chọn đề tài: ? ?Phân tích liệu Bank Marketing qua thuật toán Orange? ?? − − − − 1.2.2 Mục tiêu nghiên cứu Khám phá liệu Làm liệu Phân cụm, phân lớp liệu So sánh dựa nhãn “Subscribed”... Khoa học liệu gồm ba phần chính: Tạo quản trị liệu, phân tích liệu, chuyển kết phân tích thành giá trị hành động Việc phân tích dùng liệu lại dựa vào ba nguồn tri thức: toán học (thống kê toán học),