1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu ứng dụng các kỹ thuật khai phá dữ liệu nhằm phân lớp hành vi khách hàng phục vụ một số nghiệp vụ ngân hàng

70 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 1,88 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC LÊ ANH LÂN NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM PHÂN LỚP HÀNH VI KHÁCH HÀNG PHỤC VỤ MỘT SỐ NGHIỆP VỤ NGÂN HÀNG LUẬN VĂN THẠC SĨ MÁY TÍNH THANH HÓA, NĂM 2022 i BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC LÊ ANH LÂN NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM PHÂN LỚP HÀNH VI KHÁCH HÀNG PHỤC VỤ MỘT SỐ NGHIỆP VỤ NGÂN HÀNG LUẬN VĂN THẠC SĨ MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 8480101 Người hướng dẫn khoa học: TS Nguyễn Thế Cường THANH HÓA, NĂM 2022 i i Danh sách Hội đồng đánh giá luận văn Thạc sỹ khoa học (Theo Quyết định số: /QĐ- ĐHHĐ ngày tháng năm 2022 Hiệu trưởng Trường Đại học Hồng Đức) Học hàm, học vị Cơ quan Chức danh Họ tên Công tác Hội đồng Chủ tịch HĐ UV, Phản biện UV, Phản biện Uỷ viên Uỷ viên, Thư ký Xác nhận Người hướng dẫn Học viên chỉnh sửa theo ý kiến Hội đồng Ngày tháng năm 2022 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu ứng dụng kỹ thuật khai phá liệu nhằm phân lớp hành vi khách hàng phục vụ số nghiệp vụ ngân hàng” cơng trình nghiên cứu cá nhân hướng dẫn Tiến sĩ Nguyễn Thế Cường, trung thực không chép tác giả khác Các vấn đề nghiên cứu trình bày luận văn tìm hiểu nghiên cứu cá nhân tơi trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Tôi xin chịu trách nhiệm cho lời cam đoan Thanh Hoá, ngày 12 tháng năm 2022 Người cam đoan Lê Anh Lân i i i LỜI CẢM ƠN Luận văn “Nghiên cứu ứng dụng kỹ thuật khai phá liệu nhằm phân lớp hành vi khách hàng phục vụ số nghiệp vụ ngân hàng” hồn thành khơng nhờ nỗ lực cá nhân tác giả mà cịn có trợ giúp, giúp đỡ từ nhiều tập thể cá nhân Trước hết, tác giả xin chân thành cảm ơn tất thầy giáo, cô giáo Khoa Công nghệ thông tin & Truyền thông, Trường Đại học Hồng Đức nhiệt tình giảng dạy, bảo, tạo điều kiện thuận lợi cho tác giả trình học tập, nghiên cứu, hồn thành chương trình học tập khóa học Đặc biệt, tác giả bày tỏ lòng biết ơn sâu sắc đến thầy TS Nguyễn Thế Cường, thầy hướng dẫn trực tiếp luận văn tác giả dành thời gian bảo tận tình giúp tác giả hồn thành luận văn Xin cám ơn anh/chị, kỹ sư công ty cổ phần Thinklabs hỗ trợ tác giả q trình hồn thành luận văn Tác giả xin cảm ơn gia đình, bạn bè, đồng nghiệp, động viên tiếp thêm nghị lực để tác giả hoàn thành khóa học luận văn Mặc dù có nhiều cố gắng, song luận văn khó tránh khỏi thiếu sót Tác giả mong bảo, góp ý nhà khoa học, thầy cô giáo đồng nghiệp Xin trân trọng cảm ơn! Thanh Hoá, ngày 12 tháng năm 2022 Tác giả luận văn Lê Anh Lân ii i ii MỤC LỤC LỜI CAM ĐOAN - LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC HÌNH v MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nhiệm vụ nghiên cứu 3 Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết đạt Ý nghĩa khoa học thực tiễn Bố cục luận văn Chương TỔNG QUAN VỀ BÀI TOÁN PHÂN CỤM KHÁCH HÀNG 1.1 Tổng quan toán phân cụm khách hàng 1.1.1 Kỹ thuật phân cụm K trung bình (K-mean Clustering) 1.1.2 Kỹ thuật phân cụm tổng hợp (Agglomerative Clustering) 1.1.3 Kỹ thuật phân cụm dịch chuyển trung bình (Mean shift Clustering) 1.1.4 Biểu đồ Dendrogram 1.2 Tổng quan kỹ thuật phân cụm 1.2.1 Giải thuật phân cụm dựa phân đoạn 1.2.2 Giải thuật phân cụm dựa phân cấp 1.2.3 Giải thuật phân cụm dựa phân phối 10 1.2.4 Giải thuật phân cụm dựa mật độ 11 1.3 Phát biểu toán phân lớp khách hàng hoạt động ngân hàng VIB 11 Kết luận chương 16 Chương 2.KHAI PHÁ DỮ LIỆU VÀ CÁC KỸ THUẬT PHÂN CỤM 18 2.1 Khai phá liệu 18 2.1.1.Khái niệm 18 2.1.2.Quá trình khai phá liệu 18 2.1.3.Các kỹ thuật khai phá liệu 23 2.2.Một số kỹ thuật phân cụm 26 iii i v 2.2.1.Kỹ thuật phân cụm K trung bình (K-mean) 27 2.2.2.Kỹ thuật phân cụm tổng hợp 29 2.2.3.Phương thức khuỷu tay (Elbow method) xác định số cụm 36 2.3.Công cụ khai phá liệu 38 2.3.1.Mơi trường lập trình Google Colaboratory 38 2.3.2.Môi trường thực thi Python Google Colab 39 2.3.3.Ngôn ngữ lập trình Python với khai phá liệu 41 2.4 Scale liệu 43 2.4.1.Các phương pháp scale liệu 43 2.4.2.Scale liệu học máy 44 Kết luận chương 46 Chương PHÂN CỤM KHÁCH HÀNG SỬ DỤNG DỊCH VỤ NGÂN HÀNG VIB 46 3.1.Phân tích lựa chọn đặc trưng liệu 46 3.2.Giảm chiều liệu 54 3.3.Thực phân cụm liệu 55 3.3.1.Xác định số cụm phù hợp 55 3.3.2.Thực phân cụm 56 Kết luận chương 58 KẾT LUẬN 59 Kết đạt 59 Hạn chế 59 Hướng phát triển 59 TÀI LIỆU THAM KHẢO 60 iv v DANH MỤC CÁC HÌNH Hình 1.1: Ví dụ lược đồ dendrogram Hình 2.1: Các giai đoạn khai phá liệu [3] 23 Hình 2.2: Ví dụ phân cụm liệu 25 Hình 2.3: Q trình mơ hình hóa dựa phương thức phân cụm K-mean [8] 29 Hình 2.4: Đồ thị trình phân chia hợp theo phương pháp phân cụm phân cấp 30 Hình 2.5: Hình minh hoạ bước thực thuật toán phân cụm phân cấp sử dụng chiến lược hợp điểm liệu 32 Hình 2.6: Đồ thị hàm biến dạng thuật toán k-Means Trục tung giá trị hàm biến dạng trục hoành giá trị số lượng cụm cần phân chia thuật toán k-Means 37 Hình 3.1: Một số liệu ví dụ sở liệu dùng phân cụm 53 Hình 3.2: Bản đồ tương quan đặc trưng 54 Hình 3.3: Thơng tin tập liệu sau thực PCA 55 Hình 3.4: Sử dụng phương thức elbow để xác định số cụm phù hợp 55 Hình 3.5: Minh họa số ghi xác định cụm 56 Hình 3.6: Mức độ phân bố cụm liệu 56 Hình 3.7: Sự phân bố cụm quan hệ Độ tuổi Hình thức toán 57 Hình 3.8: Sự phân bố cụm quan hệ Độ tuổi Số lượng tiền lưu chuyển trung bình 57 v MỞ ĐẦU Lý chọn đề tài Theo tiến sỹ V.L.M Oliveira, quản trị quan hệ khách hàng (CRM: Customer Relationship Management) công cụ thiếu ngân hàng nhằm giúp họ xây dựng chiến lược kinh doanh tốt Việc quản trị quan hệ khách hàng (CRM) gồm giai đoạn chính: Nhận diện khách hàng, thu hút khách hàng, chăm sóc khách hàng, phát triển khách hàng (Customer Identification, Customer Attraction, Customer Retention, Customer Development) [3] Trong đó, - Nhận diện khách hàng tiềm (Customer Identification): Đây công việc q trình CRM, gồm cơng việc phân loại phân tích khách hàng Khách hàng chia thành tập nhỏ với thuộc tính giống Nhiệm vụ phân tích khách hàng gồm việc tìm phân khúc hấp dẫn cơng ty dựa thuộc tính khách hàng Ngồi ra, giai đoạn này, cơng cụ khác nghiên cứu thị trường tiêu dùng (Consumer Market Research), theo dõi hành vi tiêu dùng khách hàng (User Tracking), đặc biệt kỹ thuật khai phá liệu (Data mining) sử dụng phổ biến giai đoạn để hỗ trợ việc nhận diện khách hàng tiềm - Thu hút khách hàng tiềm (Customer Attraction): Giai đoạn bước theo dõi, chăm sóc khách hàng nhận diện giai đoạn trước Nhận diện lớp khách hàng khác nhau, ngân hàng tập trung vào nguồn lực có để thu hút khách hàng lớp khách hàng Để có lợi cạnh tranh, ngân hàng dùng phương pháp quản lý, phân tích khiếu nại khách hàng (Complaint Management) để điều chỉnh hành vi kinh doanh phù hợp Bên cạnh đó, ngân hàng sử dụng phương pháp khác tích điểm khách hàng (Bench Marketing), giới thiệu sản phẩm (Sale Promotion), tiếp thị trực tiếp (Direct Marketing), thực số khách hàng lựa chọn có chủ định (Sample) liệu Trong sở liệu có hai loại liệu: liệu tĩnh (giới tính, kênh đăng ký, có sử dụng SMS, ) liệu động (dữ liệu hoạt động, giao dịch, số dư tháng, số nợ tháng,…) Việc kết hợp hai loại liệu cách phù hợp thách thức yếu tố cần thiết, loại bỏ để xây dựng nên mơ hình hiệu tốt Mục tiêu tác giả biến liệu có chứa dấu thời gian thuộc kỳ như: Giao dịch Ebank, Hoạt động MyVIB, Số thẻ, Số nợ, Số dư, Tiền gửi khách hàng thành ghi Sẽ hợp lý tận dụng liệu lịch sử kỳ kỳ dài (khách hàng sử dụng liên tục rời bỏ đến thời điểm phân tích, thường vài tháng), đảm bảo khả dự đoán kỳ ngắn (khách hàng sử dụng MyVIB vài lần rời bỏ đến thời điểm phân tích, thường nhỏ tháng) Ngoài ra, khách hàng thường giảm tần suất tương tác trước rời bỏ hoàn tồn, vậy, tác giả đưa vào đặc trưng biểu thị xu hướng khách hàng Để làm điều trên, đầu tiên, tác giả xác định cửa sổ thời gian để tổng hợp liệu có chứa dấu thời gian cửa sổ thời gian Dữ liệu Nợ, Số dư, Tiền gửi Số thẻ khách hàng lưu trữ theo tháng Ngoài ra, tác giả đề xuất nghiệp vụ phân tích khách hàng thực theo hàng tháng (mỗi đầu tháng, nhà phân tích tổng hợp liệu tháng trước phân cụm khách hàng tháng sau) Vì lý mà tác giả chọn cửa sổ thời gian tháng để thực việc chuẩn hóa liệu Tác giả thực việc chuẩn hóa liệu sở liệu nhằm tạo bảng liệu có trường liệu phù hợp  Đối với bảng liệu Customer, đặc trưng bảng rõ ràng, ta chọn trực tiếp số đặc trưng sau:  CLIENT_SEX  STAFF_VIB  EB_REGISTER_CHANNEL 47  SMS  VERIFY_METHOD  AGE  IB_AGE  Đối với việc lựa chọn đặc trưng cho bảng Data_VIB_Transaction, tổng hợp số đặc trưng sau theo tháng:  Transfer  Payment  Topup  Outside_VIB  Within_VIB  Trans_Count  Trans_Amount_Avg Sau tạo đặc trưng khác độ lệch đặc trưng cách áp dụng cơng thức tính độ lệch (deviation) sau: 𝑛𝑒𝑤 𝑑𝑒𝑣 = (1 − 𝑑𝑒𝑣 𝑟𝑎𝑡𝑖𝑜) ∗ 𝑜𝑙𝑑 𝑑𝑒𝑣 + 𝑑𝑒𝑣 𝑟𝑎𝑡𝑖𝑜 ∗ (𝑛𝑒𝑤 𝑣𝑎𝑙 − 𝑜𝑙𝑑 𝑣𝑎𝑙) o new dev độ lệch đặc trưng cửa sổ thời gian (nếu cửa sổ thời gian kỳ, new dev = 0) o old dev độ lệch đặc trưng cửa sổ thời gian liền trước o new val giá trị đặc trưng cửa sổ thời gian o old val giá trị đặc trưng cửa sổ thời gian liền trước o dev ratio tỷ lệ độ lệch, định nghĩa tầm quan trọng độ lệch so với độ lệch trước hay ảnh hưởng độ lệch trước 48 đến độ lệch Đây biến giúp tận dụng liệu lịch sử Kết ta có đặc trưng  Transfer_dev  Payment_dev  Topup_dev  Outside_VIB_dev  Within_VIB_dev  Trans_Count_dev  Trans_Amount_Avg_dev Ở kỳ, liệu tổng hợp theo tháng (Một kỳ có nhiều hàng bảng) Tuy nhiên, ta chọn hàng (tháng) cuối cho việc xây dựng mơ hình Transfer_dev Payment_dev Topup_dev Outside_VIB_dev Within_VIB_dev Trans_Count_dev Trans_Amount_Avg_dev CUSTOMER_NUMBER Analyze_Date Last_Trans_Date STATUS 2.72 0 2.72 2.72 -10060400 1/1/2020 12/29/2019 active 0 0 0 1/1/2020 12/28/2019 active 0.8 0 0.8 0.8 -7280000 15 1/1/2020 12/22/2019 active 3.872 17.6 3.872 21.472 -578212 32 1/1/2020 12/26/2019 active 0 0 0 -400000 44 7/1/2019 6/13/2019 churn 0 0 0 44 1/1/2020 12/12/2019 active -28.3869184 -0.653312 7.7514752 -18.6601984 -9.72672 -21.2887552 -2080213.909 68 1/1/2020 12/30/2019 active -71.968 3.2 -14.208 -57.76 -68.768 113431.4547 88 1/1/2020 12/30/2019 active 0 0 0 -15979200 107 10/1/2019 9/8/2019 active 0.96 -0.64 1.12 -0.16 0.32 307600 118 12/1/2019 11/29/2019 active -0.2944 0 -1.0944 0.8 -0.2944 -3114933.333 135 1/1/2020 12/16/2019 active 0.8920576 0.7997952 0.95488 4.1867776 -3.29472 2.6467328 11394155.24 141 1/1/2020 12/31/2019 active 0 0 0 143 10/1/2019 9/14/2019 churn 0 0 0 143 12/1/2019 11/28/2019 active -0.8 0.8 -0.8 0 -8000 216 1/1/2020 12/26/2019 active 2.4 0 2.4 2.4 -10000000 226 1/1/2020 12/31/2019 active 0 0 0 -760000 227 1/1/2020 12/4/2019 active  Đối với thuộc tính bảng Data_MyVIB_Activity Thực việc chuẩn hóa liệu sử dụng cơng thức tính độ lệch với đặc trưng liên quan đến thống kê theo cửa sổ, tạo đặc trưng bảng liệu LOGIN_dev MB_INTEREST_RATE_VIEW_dev QUERY_ACCOUNT_INFORMATION_dev TRANSACTION_OVERVIEW_QUERY_dev Activity_Count_dev Login_Intra_dev CUSTOMER_NUMBER Analyze_Date Last_Acti_Date STATUS 5.024 -1.92 -6.272 -2.304 -0.352 4.490666667 1/1/2020 12/29/2019 active 2.6624 12.6208 0.61312 -0.64 25.09056 1.9776 1/1/2020 12/20/2019 active 12.96 47.04 -5.28 0.16 66.56 -0.122917083 1/1/2020 12/28/2019 active 0 0 0 13 10/1/2019 9/7/2019 churn 1.44 -0.64 2.88 0.8 9.6 5.64 15 1/1/2020 12/31/2019 active 52.26496 43.07328 40.70656 -15.7952 212.08448 -0.823192168 32 1/1/2020 12/31/2019 active 0 0 0 37 1/1/2020 12/19/2019 active -1.76 -10.56 0.16 -16 1.68 44 7/1/2019 6/13/2019 churn 4.672 39.936 2.88 -2.88 65.344 -3.722666667 44 1/1/2020 12/31/2019 active -0.0448 -9.8688 -5.12 -1.28 -16.4928 -0.1024 51 11/1/2019 10/15/2019 churn 0 0 0 51 1/1/2020 12/31/2019 active -48.41832038 -28.70069658 -18.37307699 -0.361984 -149.1848192 0.486987009 68 1/1/2020 12/30/2019 active -70.496 -88.672 -85.376 -30.464 -465.632 0.426959707 88 1/1/2020 12/31/2019 active -5.1776 -5.2224 -1.2032 5.0432 -9.5296 10.27452121 107 1/1/2020 12/31/2019 active  Đối với thuộc tính bảng Data_Deposit 49 Thực việc chuẩn hóa liệu sử dụng cơng thức tính deviation với đặc trưng bảng, tạo đặc trưng bảng liệu COUNT_CA_ACCT_dev AVG_CA_BALANCE_dev COUNT_TD_ACCT_dev AVG_TD_BALANCE_dev CUSTOMER_NUMBER Analyze_Date 18256776.98 0 1/1/2020 -175996.2024 0 1/1/2020 2136330.096 0 1/1/2020 2074054.038 0 15 1/1/2020 3310144.688 0 32 1/1/2020 -9805.67488 0 37 1/1/2020 504551.5846 0 44 1/1/2020 0 0 51 1/1/2020 5301141.634 0 68 1/1/2020 6374261.708 0 88 1/1/2020 411.584448 0 107 1/1/2020 -107358.0823 0 118 1/1/2020 -87153.26084 0 135 1/1/2020 5309317.933 0 141 1/1/2020  Đối với thuộc tính bảng Data_Lending Thực việc chuẩn hóa liệu sử dụng cơng thức tính deviation với đặc trưng bảng, tạo đặc trưng bảng liệu COUNT_OF_LOAN_dev AVG_LOAN_AMOUNT_dev CUSTOMER_NUMBER Analyze_Date -8266560 1/1/2020 -7149981.696 44 1/1/2020 0.16 -5805762.492 248 1/1/2020 686357.1766 317 1/1/2020 -2962946.234 331 1/1/2020 0 468 1/1/2020 -49396878.62 471 11/1/2019 6.14E-05 -49705830.4 654 1/1/2020 0.8 3786400 707 1/1/2020 -1888700.109 749 1/1/2020  Đối với thuộc tính bảng Data_Card Thực việc chuẩn hóa liệu sử dụng cơng thức tính deviation với đặc trưng bảng, tạo đặc trưng bảng liệu COUNT_CREDITCARD_dev COUNT_DEBITCARD_dev CUSTOMER_NUMBER Analyze_Date 0 1/1/2020 0 1/1/2020 0 1/1/2020 0 13 1/1/2020 0 15 1/1/2020 0 32 1/1/2020 0 37 1/1/2020 0.8 44 1/1/2020 0.8 68 1/1/2020 0 88 1/1/2020 0.16 107 1/1/2020 50 Từ bước phân tích khám phá liệu, tác giả sử dụng đặc trưng sau (độ lệch đặc trưng động sử dụng mà khơng liệt kê đây):  Giới tính, Có phải nhân viên VIB, Kênh đăng ký Ebank, Có sử dụng SMS, phương thức xác thực, tuổi khách hàng, tuổi tài khoản  Số lần giao dịch, Giá trị giao dịch trung bình, Số lần chuyển tiền, Số lần tốn, Số lần nạp tiền, Số lần giao dịch VIB, Số lần giao dịch VIB  Số lần Login, Khoảng thời gian trung bình lần Login, Số lần hoạt động, Số lần xem lãi suất, Số lần xem thông tin tài khoản, Số lần xem giao dịch  Số lượng tài khoản tại, Số dư trung bình hàng tháng tài khoản tại, Số lượng tài khoản gửi tiền có kỳ hạn, Số dư trung bình hàng tháng tiền gửi kỳ hạn  Số lượng tài khoản vay, Khoản vay trung bình hàng tháng  Số lượng thẻ tín dụng, Số lượng thẻ ghi nợ Những liệu thuộc dạng danh sách sau đưa dạng số thực cách sử dụng phương pháp one-hot Sau thực việc kết nối bảng liệu, ta bảng liệu tổng bao gồm 94385 ghi, với thông tin trường liệu sau: Int64Index: 94385 entries, to 94384 Data columns (total 49 columns): # Column Non-Null Count Dtype - - MB_INTEREST_RATE_VIEW 84873 non-null float64 QUERY_ACCOUNT_INFORMATION 84873 non-null float64 TRANSACTION_OVERVIEW_QUERY 84873 non-null float64 Activity_Count 84873 non-null float64 Login_Intra 84873 non-null float64 LOGIN_dev 84873 non-null float64 MB_INTEREST_RATE_VIEW_dev 84873 non-null float64 51 QUERY_ACCOUNT_INFORMATION_dev 84873 non-null float64 TRANSACTION_OVERVIEW_QUERY_dev 84873 non-null float64 Activity_Count_dev 84873 non-null float64 10 Login_Intra_dev 84873 non-null float64 11 CUSTOMER_NUMBER 94385 non-null object 12 Analyze_Date 94385 non-null object 13 Last_Acti_Date 84873 non-null object 14 STATUS 94385 non-null object 15 Payment 53978 non-null float64 16 Topup 53978 non-null float64 17 Outside_VIB 53978 non-null float64 18 Within_VIB 53978 non-null float64 19 Trans_Count 53978 non-null float64 20 Trans_Amount_Avg 53978 non-null float64 21 Transfer_dev 53978 non-null float64 22 Payment_dev 53978 non-null float64 23 Topup_dev 53978 non-null float64 24 Outside_VIB_dev 53978 non-null float64 25 Within_VIB_dev 53978 non-null float64 26 Trans_Count_dev 53978 non-null float64 27 Trans_Amount_Avg_dev 53978 non-null float64 28 Last_Trans_Date 53978 non-null object 29 AVG_CA_BALANCE 60450 non-null float64 30 COUNT_TD_ACCT 60450 non-null float64 31 AVG_TD_BALANCE 60450 non-null float64 32 COUNT_CA_ACCT_dev 60450 non-null float64 33 AVG_CA_BALANCE_dev 60450 non-null float64 34 COUNT_TD_ACCT_dev 60450 non-null float64 35 AVG_TD_BALANCE_dev 60450 non-null float64 36 AVG_LOAN_AMOUNT 16932 non-null float64 37 COUNT_OF_LOAN_dev 16932 non-null float64 38 AVG_LOAN_AMOUNT_dev 16932 non-null float64 39 COUNT_DEBITCARD 47271 non-null float64 40 COUNT_CREDITCARD_dev 47271 non-null float64 41 COUNT_DEBITCARD_dev 47271 non-null float64 42 CLIENT_SEX 94378 non-null object 43 STAFF_VIB 94384 non-null object 52 44 EB_REGISTER_CHANNEL 94379 non-null object 45 SMS 94379 non-null object 46 VERIFY_METHOD 94374 non-null object 47 AGE 94378 non-null float64 48 IB_AGE 94379 non-null float64 Ta khơng sử dụng tồn 49 đặc trưng sở liệu sử dụng đặc trưng, bao gồm: Int64Index: 94385 entries, to 94384 Data columns (total columns): # Column Non-Null Count Dtype - - Login_Intra 84873 non-null float64 Activity_Count 84873 non-null float64 Trans_Count 53978 non-null float64 Trans_Amount_Avg 53978 non-null float64 AVG_CA_BALANCE 60450 non-null float64 Payment 53978 non-null float64 Topup 53978 non-null float64 AVG_TD_BALANCE 60450 non-null float64 AGE 94378 non-null float64 Hình 3.1: Một số liệu ví dụ sở liệu dùng phân cụm 53 Tác giả đánh giá mức độ tương quan đặc trưng cách xây dựng đồ tương quan Hình 3.2.: Bản đồ tương quan đặc trưng 3.2.Giảm chiều liệu Trong tốn có nhiều yếu tố liên quan sở thực phân loại cuối Các yếu tố thuộc tính chức Số lượng tính cao khó làm việc với Nhiều tính số có tương quan dư thừa Đây lý tác giả thực giảm kích thước tính chọn trước đưa qua phân cụm 54 5 Tác giả sử dụng kỹ thuật Phân tích thành phần (PCA) kỹ thuật để giảm kích thước liệu đó, tăng khả diễn giải đồng thời giảm thiểu mát thơng tin Đối với tốn này, tác giả giảm kích thước xuống cịn Để thuận lợi cho việc thực môi trường có hạn chế phần cứng, tác giả sử dụng sở liệu có 24.000 ghi Hình 3.3.: Thông tin tập liệu sau thực PCA 3.3.Thực phân cụm liệu 3.3.1.Xác định số cụm phù hợp Để xác định số cụm phù hợp cho phân cụm, tác giả sử dụng phương thức elbow để xác định số cụm Kết thử nghiệm với 24.000 cho thấy, số cụm phù hợp Hình 3.4: Sử dụng phương thức elbow để xác định số cụm phù hợp 55 3.3.2.Thực phân cụm Tác giả sử dụng phương thức phân cụm tổng hợp để xác định tên cụm cho ghi liệu Kết thực sau: Hình 3.5: Minh họa số ghi xác định cụm Tiếp theo, tác giả tính phân bố cụm để có nhìn tổng quát cụm tập liệu Hình 3.6: Mức độ phân bố cụm liệu Theo mô biểu đồ, phân bố cụm khơng thực đồng đều, điều lý giải phân bố không đồng giá trị đặc trưng thành phần 56 Tiếp theo, tác giả xem xét mối quan hệ nhóm với giá trị đặc trưng liệu: Hình 3.7: Sự phân bố cụm quan hệ Độ tuổi Hình thức tốn Hình 3.8: Sự phân bố cụm quan hệ Độ tuổi Số lượng tiền lưu chuyển trung bình 57 Kết luận chương Trong chương này, tác giả trình bày trình xây dựng mơ hình liệu phục vụ phân cụm khách hàng Tác giả thực lựa chọn đặc trưng phù hợp, sử dụng phương thức elbow để xác định số cụm phù hợp với tập liệu Kết cho thấy, với sở liệu cung cấp, số cụm phù hợp 5, nhiên, phân bố cụm chưa đồng Điều lí giải tập liệu có phân bố khơng đồng giá trị đặc trưng 58 KẾT LUẬN Kết đạt * Về mặt khoa học  Tổng quan nghiên cứu lĩnh vực phân cụm khách hàng sử dụng dịch vụ ngân hàng  Trình bày kỹ thuật phân cụm chính, thường sử dụng toán khai phá liệu đặc biệt toán phân cụm khách hàng * Về mặt thực tiễn  Xây dựng sở liệu huấn luyện cho mơ hình phân cụm khách hàng  Thực phân cụm khách hàng cho tập liệu khách hàng VIB Hạn chế Tuy nhiên, hạn chế kết chưa đánh giá mức độ đóng góp đặc trưng việc xây dựng mơ hình phân cụm; mức độ phân cụm chưa đồng Hướng phát triển Tiếp tục đánh giá lựa chọn đặc trưng phù hợp, có tính đóng góp cao cho mơ hình phân cụm khách hàng, phục vụ nghiệp vụ liên quan lĩnh vực ngân hàng 59 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Alvandi, M., S Fazli, and F S Abdoli (2012), “K-Mean Clustering Method For Analysis Customer Lifetime Value With LRFM Relationship Model In Banking Services,” in International Research Journal of Applied and Basic Sciences, vol 3, no 11, pp 2294–2302 [2] Asokan, G and S Mohanavalli (2011), “Fuzzy clustering for effective customer relationship management in telecom industry,” Commun Comput Inf Sci., vol 204 CCIS, pp 571–580, doi: 10.1007/978-3-64224043-0_58 [3] Cai, Q., L Ye, H Xi, Y Liu, and G Zhu (2012), “Telecom customer segmentation based on cluster analysis,” in Proceedings - 2012 International Conference on Computer Science and Information Processing, CSIP 2012, pp 1179–1182 doi: 10.1109/CSIP.2012.6309069 [4] Keramati, A., H Ghaneei, and S M Mirmohammadi (2016), “Developing a prediction model for customer churn from electronic banking services using data mining,” Financ Innov., vol 2, no 1, doi: 10.1186/s40854-016-0029-6 [5] Khan, A A., S Jamwal, and M M Sepehri (2010), “Applying Data Mining to Customer Churn Prediction in an Internet Service Provider,” [Online], Available: www.irantelecom.ir [6] Khedr, A E., A I El Seddawy, and A M Idrees (2014), “Performance Tuning of K-Mean Clustering Algorithm a Step towards Efficient DSS,” Int J Innov Res Comput Sci Technol., vol 2, no 6, pp 111–118 [7] Kansal, T., S Bahuguna, V Singh, and T Choudhury (2018), “Customer Segmentation using K-means Clustering,” in Proceedings of the International Conference on Computational Techniques, Electronics and Mechanical Systems, CTEMS, pp 135–139 doi: 10.1109/CTEMS.2018.8769171 60 [8] Niyagas, W., A Srivihok, and S Kitisin (2006), “Clustering e-Banking Customer using Data Mining and Marketing Segmentation,” in ECTI Transactions on Computer and Information Technology (ECTI-CIT), vol 2, no 1,pp 63–69 [Online] Available: https://www.tcithaijo.org/index.php/ecticit/article/view/53272 [9] Park, H.-S and C.-H Jun (2009), “A simple and fast algorithm for Kmedoids clustering,” Expert Syst Appl., vol 36, no 2, Part 2, pp 3336– 3341, doi: https://doi.org/10.1016/j.eswa.2008.01.039 [10] Patil, P S and N V Dharwadkar (2017), “Analysis of banking data using machine learning,” in Proceedings of the International Conference on IoT in Social, Mobile, Analytics and Cloud, I-SMAC , pp 876–881 doi: 10.1109/I-SMAC.2017.8058305 [11] Sayed, H., M A Abdel-Fattah, and S Kholief (2018), “Predicting potential banking customer churn using Apache Spark ML and MLlib packages: A comparative study,” Int J Adv Comput Sci Appl., vol 9, no 11, pp 674–677, doi: 10.14569/ijacsa.091196 61

Ngày đăng: 18/07/2023, 00:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN