Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
1,66 MB
Nội dung
BỘ KẾ HOẠCH VÀ ĐẦU TƢ HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN - - KHÓA LUẬN TỐT NGHIỆP CHUYÊN NGÀNH: PHÂN TÍCH DỮ LIỆU LỚN TRONG KINH TẾ VÀ KINH DOANH ĐỀ TÀI: PHÂN LỚP DỮ LIỆU VỚI PHẦN MỀM KNIME Giảng viên hƣớng dẫn : T.S Nguyễn Hữu Xuân Trƣờng Họ tên : Trần Vũ Ngọc Linh Mã sinh viên : 7103101327 Lớp : KTDL10 Hà Nội – 2023 LỜI CAM ĐOAN Em xin cam đoan Khóa luận với đề tài “Phân lớp liệu với phần mềm Knime” tự thân thực hiện, có hỗ trợ giáo viên hƣớng dẫn khơng chép cơng trình nghiên cứu ngƣời khác Các số liệu Khóa luận đƣợc sử dụng trung thực trích dẫn rõ ràng Nếu sai em xin hoàn toàn chịu trách nhiệm Hà Nội, tháng 07 năm 2023 Sinh viên Linh Trần Vũ Ngọc Linh i LỜI CẢM ƠN Sau bốn năm học tập, nghiên cứu, thân em có đƣợc trải nhiệm mơi trƣờng học tập tốt việc nâng cao kiến thức tơi cịn hồn thiện kĩ nhƣ phát triển thân Để hồn thành xuất sắc khóa luận, em xin bày tỏ lòng biết ơn tới Ban Giám đốc Học viện Chính sách Phát triển, quý thầy cô Khoa Kinh Tế Số tạo hội cho đƣợc học tập, rèn luyện tích lũy kiến thức, kỹ để thực khóa luận Đặc biệt em muốn gửi lời cảm ơn trân thành sâu sắc đến TS Nguyễn Hữu Xuân Trƣờng, thầy tận tình hƣớng dẫn, quan tâm giúp đỡ, đóng góp nhiều ý kiến giúp em hồn thiện khóa luận tốt nghiệp Tuy nhiên q trình hồn thiện luận văn trình độ kỹ cịn hạn chế nên khơng tránh khỏi khuyết điểm thiếu sót Em mong nhận đƣợc ý kiến đóng góp thầy cô để luận văn đƣợc thiện hơn, đồng thời giúp em nâng cao kiến thức để phục vụ tốt cho q trình cơng tác thực tế thời gian tới Em xin trân thành cảm ơn! Hà Nội, tháng năm 2023 ii DANH MỤC TỪ VIẾT TẮT Tên đầy đủ Ký hiệu CSDL Cơ sở liệu KPDL Khai phá liệu NHTM Ngân hàng thƣơng mại KDD Knowledge discovery in database CNTT Công nghệ thơng tin NBC Nạve Bayes Classification iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC TỪ VIẾT TẮT iii DANH MỤC BIỂU BẢNG vi MỞ ĐẦU 1 Tính cấp thiết đề tài Lý chọn đề tài Mục đích nghiên cứu 3.1 Về lý thuyết 3.2 Về đối tƣợng Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Ý nghĩa đóng góp đề tài Bố cục luận CHƢƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 1.1 Khám phá tri thức Khai phá liệu 1.2.1 Các ứng dụng khai phá liệu lĩnh vực 1.2.2 Các công cụ khai phá liệu phổ biến 11 1.2.3 Các phƣơng pháp khai phá liệu 12 1.2.4 Lợi ích khai phá liệu 15 1.2 Giới thiệu Phân lớp liệu 16 1.2.1 Khái niệm Phân lớp liệu 16 1.2.2 Qúa trình Phân lớp liệu 17 1.3 Một số phƣơng pháp phân loại 18 1.3.1 Thuật toán Cây định (Decision Trees) 18 1.3.2 Thuật toán Rừng ngẫu nhiên (Random Forest) 24 1.3.3 Thuật toán Logistic Regression 25 1.3.4 Thuật tốn Nạve Bayes 27 1.3.5 Phƣơng pháp đánh giá 29 iv CHƢƠNG : XÂY DỰNG MƠ HÌNH PHÂN LỚP DỮ LIỆU VỚI PHẦN MỀM KNIME 32 2.1 Giới thiệu phần mềm Knime 32 2.1.1 Giới thiệu phần mềm 32 2.1.2 Qúa trình phát triển cơng cụ KNIME 32 2.1.3 Ƣu điểm phần mềm 34 2.1.4 Nhƣợc điểm phần mềm KNIME 34 2.1.5 Giao diện làm việc KNIME 35 2.2 Thực nghiệm kết 36 2.2.1 Tổng quan nghiên cứu 36 2.2.2 Thực nghiệm 38 2.2.3 Xây dựng mơ hình với tập huấn luyện 42 2.2.4 Áp dụng K-Means liệu kiểm thử 46 CHƢƠNG 3: KẾT LUẬN VÀ KHUYẾN NGHỊ 49 3.1 Kết luận 49 3.2 Khuyến nghị 50 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 v DANH MỤC BIỂU BẢNG VÀ HÌNH ẢNH Bảng : Kiểu liệu cột 40 Bảng : Dữ liệu tổng quan toán 38 Bảng 3: Bảng thống kê tính toán liệu 40 Bảng : Kết gán K cụm tìm vào liệu kiểm thử 47 Bảng 5: Tập liệu kiểm thử không chuẩn hóa liệu 48 Hình Các bƣớc Data Mining Hình Sơ đồ Cây định 19 Hình : Thuật tốn định 20 Hình : Logo cơng cụ phân tích liệu KNIME 32 Hình 5: Biều đồ tƣơng quan biến 41 Hình : Xử lý giá trị thiếu 43 Hình 7: Chuẩn hóa liệu với tập liệu thực nghiệm 43 Hình : Xác định số cụm tối ƣu 44 Hình : Chỉ số trung bình Silhouette 44 Hình 10 : Dữ liệu sau sử dụng khơng chuẩn hóa 45 Hình 11 : Biểu đồ thể phân bố cụm 45 Hình 12 : Xử lý giá trị bị thiếu tập liệu kiểm thử 46 Hình 13 : Chuẩn hóa liệu tập liệu kiểm thử 47 Hình 14 : Xuất cụm nhãn file CSV 48 Hình 15 : Các tập liệu 50 vi MỞ ĐẦU Tính cấp thiết đề tài Trong gần hai thâp kỉ qua , hệ thống sở liệu đem lại lại lợi ích vơ to lớn cho nhân loại Cùng với phát triển công nghệ thông tin ứng dụng đời sống – kinh tế- xã hội, lƣơng liệu thu nhập đƣợc ngày nhiều theo thời gian , làm xuất ngày nhiều hệ thống sở liệu có kích thƣớc lớn Trong tình hình , thơng tin trở thành yếu tố định kinh doanh vấn đề tìm thơng tin hữu ích sở liệu khổng lồ ngày trở thành mục tiêu quan trọng doanh nghiệp khai phá liệu dần trở thành thành phần để thực thi nhiệm vụ khai phá tri thức Đƣợc đánh giá tạo cách mạng kỷ 21, khai phá liệu ngày đƣợc ứng dụng phổ biến linh vực kinh tế , xã hội : ngân hàng, truyền thông, quảng cáo,… Sự phát triển khoa học công nghệ , nhƣ phát triển công nghệ thông tin đƣợc áp dụng nhiều lĩnh vực đời sống , nhƣ kinh tế , xã hội , y tế , giáo dục,… Ở lĩnh vực có bƣớc tiến khác , nhằm phục vụ cho đời sống ngƣời ngày tốt lên Khi khoa học công nghệ phát triển tạo bƣớc tiến to lớn cho ngƣời Những phát minh ngày phong phú đa dạng Họ lƣu trữ liệu cho ẩn chứa giá trị định Tuy nhiên , theo thống kê có lƣợng nhỏ liệu ( khoảng từ 5%-10%) ln đƣợc phân tích , số cịn lại họ khơng biết phải làm làm với chúng nhƣng họ tiếp tục thu nhập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác , môi trƣờng cạnh tranh , ngƣời ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lƣợng liệu khổng lồ có Với lý này, phƣơng pháp quản trị khai thác sở dự liệu truyền thống ngày không đáp ứng đƣợc thực tế làm phát triển khuynh hƣớng kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovey and DataMining) Khai phá liệu đƣợc ứng dụng nhiều lĩnh vực mang đến nhiều hội phát triển lĩnh vực ngân hàng Tuy nhiên mục đích cuối việc khai thác liệu ngân hàng khám phá tri thức từ liệu đƣợc thu thập đƣợc để hỗ trợ định Một ƣu tiên hàng đầu ngân hàng đầu tƣ vào quản trị quan hệ khách hàng (CRM: Customer Relational Managtôient) Sử dụng kỹ thuật khai phá khứ có khả dự đốn để chuyển đổi liệu thành thơng tin hữu ích cho lănh đạo ngân hàng định kinh doanh Vì nên em lựa chọn đề tài “ Phân lớp liệu với phần mềm Knime” Lý chọn đề tài Đối với tất doanh nghiệp tham gia hoạt động kinh doanh , khách hàng thu hút khách hàng vấn đề đƣợc quan tâm hàng đầu Khách hàng ngƣời cung cấp hoạt động kinh doanh , định thành công hay thất bại tổ chức Đối với ngân hàng , khách hàng không mang lại lợi nhuận mà cịn cung cấp vốn để trì hoạt động ngân hàng( 70% vốn hoạt động NHTM đƣợc huy động từ khách hàng) Do , bên cạnh xây dựng chiến lƣợc kinh doanh , ngân hàng trọng tới biện pháp thu hút khách hàng , đặc biệt tình trạng ngày gay gắt việc thu hút khách hàng đƣợc coi yếu tố định tồn phát triển ngân hàng Nếu có nghiên cứu vấn đề liên quan tới trung thành khách hàng hành vi thay đổi khách hàng đƣợc phát hiện, từ nhà quản trị ngân hàng có chiến lƣợc kinh doanh phù hợp Để tìm câu trả lời cho câu hỏi hay có ý định thay đổi việc giao dịch với ngân hàng phân lớp khách hàng vơ cần thiết Vì nên em lựa chọn đề tài “ Phân lớp liệu với phần mềm Knime” Mục đích nghiên cứu 3.1.Về lý thuyết Nghiên cứu lý thuyết phần mềm KNIME, phân lớp liệu lĩnh vực máy học (Machine Learning), từ xây dụng mơ hình dự đốn hành vi mua hàng hay tâm lý mua sắm khách hàng Biết cách xử lí liệu trƣớc xây dựng mơ hình dự đốn Phân tích, tìm ngun nhân làm cho kết dự đốn có biến động 3.2 Về đối tƣợng Giúp ngƣời dùng thành thạo tool, thƣ viện phần mềm KNIME để áp dụng vào nhu cầu công việc Từ giúp ngƣời biết phân tích quản lí liệu cách khoa học Sử dụng thuật toán phân lớp để dự đoán đặc điểm, hành vi mua hàng khác khách hàng ảnh hƣởng đến chiến lƣợc kinh doanh doanh nghiệp Xác định rõ phân phân lớp liệu cách để gia tăng doanh số cho doanh nghiệp Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu: Trong đề tài em tập trung nghiên cứu vào ứng dụng công cụ KNIME để xây dựng mơ hình phân lớp liệu Cụ thể, dự đốn số lƣợng khách hàng ngân hàng từ tìm insignt đƣa đánh giá khuyến nghị giúp ngân hàng có chiến thuật thu hút giữ chân khách hàng lại Phạm vi nghiên cứu: Trong nghiên cứu, em sử dụng liệu mô từ nguồn liệu Kaggle Bộ liệu đại diện cho khách hàng liệu liên quan đến nhân học (giới tính, độ tuổi, địa ký) thông tin liên quan đến hoạt động khách hàng sử dụng thẻ tín dụng ngân hàng Phƣơng pháp nghiên cứu a, Phương pháp thu thập thông tin, kết hợp phương pháp so sánh phân tích CUST_ID: Nhân dạng thẻ tín dụng BALANCE: Số dƣ cịn lại tài khoản họ để mua hàng BALANCE_FREQUENCY: Tần suất cập nhật số dƣ, cho điểm từ đến (1: cập nhật thƣờng xuyên, 0: không cập nhật thƣờng xuyên) PURCHASES: Số tiền mua hàng đƣợc thực từ toán ONEOFF_PURCHASES: Số tiền mua hàng tối đa đƣợc thực lần INSTALLMENTS_PURCHASES: Số tiền mua hàng đƣợc thực trả góp CASH_ADVANCE: Tiền mặt ngƣời dùng trả trƣớc PURCHASES_FREQUENCY: Tần suất mua hàng đƣợc thực hiện, cho điểm từ đến (1: thƣờng xuyên mua, 0: không thƣờng xuyên mua) ONE_PURCHASES_FREQUENCY: Tần suất mua hàng diễn lần (1: thƣờng xuyên thực hiện, 0: không thƣờng xuyên thực hiện) PURCHASES_INSTALLMENTS_FREQUENCY: Tần suất mua hàng trả góp đƣợc thực CASH_ADVANCE_FREQUENCY: Tần suất mua CASH_ADVANCE_TRX: Số lƣợng giao dịch đƣợc thực với tiền mặt nhiều PURCHASE_TRX: Số lƣợng giao dịch mua hàng đƣợc thực CREDIT_LIMTL: giới hạn thẻ tín dụng cho ngƣời dùng PAYMENTS: Số tiền toán đƣợc thực ngƣời dùng MINIMUN_PAYMENTS: Số tiền toán tối thiểu đƣợc thực ngƣời dùng PRC_FULL_PAYMENT: Phần trăm toán đầy đủ ngƣời dùng TENURE: Thời hạn sử dụng dịch vụ thẻ tín dụng cho ngƣời dùng Có tính liệu có giá trị phân khúc thẻ tín dụng là: PAYMENTS, PURCHASES Hai tính đủ để nhóm chủ thẻ tín dụng chúng cho biết lịch sử mua hàng, số dƣ ngân hàng hạn mức sử dụng thẻ tín dụng Vì tơi tập trung sử dụng tính để tạo cụm từ tập liệu 39 b, Khám phá liệu Kiểu liệu cột Bảng : Kiểu liệu cột Để hiểu sâu phát sơ liệu thô nào, thực phân tích liệu khám phá Trong thực nghiệm này, tập trung vào số bƣớc cần thiết cho việc lập mô hinhg Để xây dựng mơ hình ta cần xem tổng qt Trƣớc tiên cần phải thông kê liệu phân bổ trƣờng liệu Sử dụng node Statistics() để thể thống kê liệu Bảng 3: Bảng thống kê tính tốn liệu 40 Để kiểm tra mối quan hệ biến, sử dụng node Linear Correlation để đo lƣờng độ mạnh yếu biến số, ta thấy: Hình 5: Biều đồ tương quan biến Dựa vào biểu đồ Hệ số tƣơng quan biến, ta thấy mối tƣơng quan viến có số khơng cao nên không cần lo lắng tƣợng đa cộng tuyến Hệ số tƣơng quan có giá trị từ -1.0 đến 1.0 Kết đƣợc tính lớn 1.0 nhở -1 có nghĩ có lỗi phép đo tƣơng quan Hệ số tƣơng quan r có giá trị từ -1 tới 1, giá trị gần thể strong correlation biến Nếu hệ số tƣơng quan có giá trị âm cho thấy biến có mối quan hệ nghịch biến tƣơng quan âm Nếu hệ số tƣơng quan có giá trị dƣơng cho thấy mối quan hệ đồng biến tƣơng quan dƣơng 41 Về thang đo màu sắc, thuộc tính có mối quan hệ nghịch biến có màu Cam đậm dần tiến gần đến giá trị âm Các thuộc tính có mối quan hệ đồng biến có màu xanh đậm dần tiến gần đến giá trị dƣơng c, Xây dựng mơ hình Chúng ta bƣớc vào giai đoạn xây dựng mơ hình Việc xây dựng mơ hình bao gồm việc lựa chọn mơ hình phù hợp hiệu chỉnh tham số mơ hình Để làm đƣợc việc này, thƣờng chia tập liệu đƣợc xây dựng từ bƣớc thành hai phần riêng biệt cách hoàn toàn ngẫu nhiên: Tập liệu huấn luyện (training data) tập liệu kiểm thử (testing data) Trong tập liệu huấn luyện đƣợc sử dụng để huấn luyện mơ hình tập kiểm thử đƣợc dùng để đánh giá hiệu mô hình liệu chƣa đƣợc quan sát Do toàn liệu đƣợc chia thành hai tập liệu tập huấn luyện (70%) tập thử nghiệm (30%) Việc chia hai tập liệu theo tỷ lệ 70:30 giúp mơ hình đạt đƣợc hiệu tốt tỷ lệ liệu huấn luyện dẫn đến phƣơng sai lớn ƣớc tính tham số mơ hình, liệu thử nghiệm dẫn đến phƣơng sai lớn hiệu suất mơ hình Vì mục tiêu để đảm bảo liệu đƣợc chia thành tập huấn luyện thử nghiệm dẫn đến phƣơng sai không cao, nên lựa chọn tỷ lệ 70:30 2.2.3 Xây dựng mơ hình với tập huấn luyện a, Tiền xử lý liệu Tiền xử lý liệu bƣớc quan trọng học máy giúp xây dựng mơ hình học máy xác 80% thời gian dự án machine learning thời gian giành cho vấn đề tiền xử lý liệu có khoảng 20% thời gian thực đƣợc sử dụng cho cơng việc khác Vì vậy, trƣớc tiến hành xây dựng mơ hình ta cần tiền xử lý liệu, loại bỏ giá trị trống, giá trị trùng lặp, Vì phần Statistic tơi tiến hành kiểm tra số lƣợng bị thiếu thấy cột MINIMUN_PAYMENTS (kiểu liệu Double) bị thiếu, nên tiến hành sử dụng giá trị trung bình cột thể thay vào giá trị cịn trống 42 Hình : Xử lý giá trị cịn thiếu b, Chuẩn hóa liệu Vấn đề cần đƣợc giải trƣớc đƣa liệu vào xây dựng mơ hình chuẩn hóa liệu Trong thực tế liệu có giá trị khác đơn vị đo lƣờng khác mà chúng khó so sánh đƣợc Vì sử dụng node Normalization để quy đổi tỷ lệ giá trị khác để so sánh Chuẩn hóa liệu đƣa biến miền giá trị [0, 1] Ngồi lựa chọn chuẩn hóa với Min-Max, chọn chuẩn hóa với điểm Z-Score Decimal Scaling Hình 7: Chuẩn hóa liệu với tập liệu thực nghiệm c, Thực phân cụm đánh giá Sau chuẩn hóa, cần xác định số lƣợng cụm tối ƣu cho liệu, lựa chọn mục tiêu số cụm Khi sử dụng KNIME, cần nhập số cụm mong muốn chạy 43 Hình : Xác định số cụm tối ưu Sau xác định cụm tối ƣu 3, tiền hành sử dụng Hệ số Silhouette đƣợc tính với giá trị khác thành phần xác định số lƣợng cụm tốt (k) cho K-Means theo hệ số hình bóng trung bình Thành phần sử dụng Vịng lặp tối ƣu hóa tham số để đào tạo lại K-Means với k khác lần lặp lại Dữ liệu đƣợc xáo trộn cách sử dụng hạt giống đƣợc định cấu hình trƣớc chuyển tới K-Means để ngăn việc khởi tạo sai trung tâm cụm trƣờng hợp liệu đƣợc xếp Sau tính số trung bình Silhouette 0.68, hệ số cao Hình : Chỉ số trung bình Silhouette 44 Do đó, giá trị tổng thể sấp sỉ 0.7 cho thấy mơ hình phân cụm phù hợp áp dụng cho khách hàng Sau thu đƣợc kết quả, sử dụng Denormalize (Khơng chuẩn hóa liệu) đầu vào theo tham số chuẩn hóa nhƣ đƣợc đƣa đầu vào mơ hình PMML (thƣờng đến từ nút Normalize) Do đó, phép biến đổi đƣợc đảo ngƣợc giá trị ban đầu đƣợc tạo lại Nút thƣờng đƣợc sử dụng sau liệu thử nghiệm đƣợc chuẩn hóa đƣợc chuyển đổi trở lại phạm vi ban đầu Hình 10 : Dữ liệu sau sử dụng khơng chuẩn hóa Tiến hành vẽ phân cụm, tơi thu đƣợc kết quả: Hình 11 : Biểu đồ thể phân bố cụm 45 Qua biểu đồ phân bố cụm, nhận thấy có phân bổ PAYMENTS PURCHASES giúp tơi phân bổ phân khúc khách hàng thành danh mục cấu hình thấp, tiềm cao cấp: Cụm_0 biểu thị ngƣời dùng tiềm thực toán đơn hàng từ trung bình đến cao nhƣng số lần mua tƣơng đối hơn, coi họ khách hàng tiềm nhƣ với chiến dịch tiếp thị chúng tơi, chúng tơi có khả thúc đẩy mua hàng họ Cụm_1 biểu thị ngƣời dùng có tốn đơn hàng thấp mua hàng hơn, chúng tơi coi họ hồ sơ thấp ngƣời dùng khách hàng theo mùa Cụm_2 biểu thị khách hàng cao cấp, cụm cho thấy khoản toán đặt hàng cao mua hàng nhiều, nên xây dựng chiến dịch tiếp thị xung quanh khách hàng để tối đa hóa doanh thu 2.2.4 Áp dụng K-Means liệu kiểm thử Với 30% liệu cịn lại, tơi chạy kiểm thử với K-Means a, Tiền xử lý liệu Cũng giống tập liệu huấn luyện, xử lý liệu thiếu tập kiểm thử cách nối Node Missing Values tập huấn luyện xuống Hình 12 : Xử lý giá trị bị thiếu tập liệu kiểm thử 46 Sau xử lý xong giữ liệu, tơi đên bƣớc chuẩn hóa liệu Hình 13 : Chuẩn hóa liệu tập liệu kiểm thử b, Gán liệu k cụm Sau kiểm tra K cụm tập huấn luyện, nên tập kiểm thử này, gán liệu cho tập hợp nguyên mẫu có, ví dụ nhƣ thu đƣợc cách phân cụm k-means Mỗi điểm liệu đƣợc gán cho nguyên mẫu gần Bảng : Kết gán K cụm tìm vào liệu kiểm thử 47 c, Xuất nhãn cụm Để xuất bảng liệu đầu vào vào tệp vào vị trí từ xa đƣợc biểu thị URL, sử dụng Denormalize (Khơng chuẩn hóa liệu) đầu vào theo tham số chuẩn hóa nhƣ đƣợc đƣa đầu vào mơ hình PMML (thƣờng đến từ nút Normalize) Do đó, phép biến đổi đƣợc đảo ngƣợc giá trị ban đầu đƣợc tạo lại Bảng 5: Tập liệu kiểm thử khơng chuẩn hóa liệu Sau đƣa giữ liệu trở lại ban đầu, sử dụng node CSV.Wirter để xuất nhãn cụm file CSV Hình 14 : Xuất cụm nhãn file CSV 48 CHƢƠNG 3: KẾT LUẬN VÀ KHUYẾN NGHỊ 3.1 Kết luận Mục tiêu thực nghiệm phát triển phân khúc khách hàng ngƣời sử dụng thẻ tín dụng tích cực cho ngân hàng định để xác định chiến lƣợc thị trƣờng hiệu Dự án ví dụ học máy khơng giám sát chúng tơi khơng có biến mục tiêu Do đó, tơi mong muốn phân đoạn tập liệu thành cụm khác để từ tơi phát triển chiến lƣợc tiếp thị hiệu dựa tính khác phản ánh hành vi khách hàng Bộ liệu tóm tắt hành vi sử dụng khoảng 9000 chủ thẻ tín dụng hoạt động khoảng thời gian sáu tháng Tệp bao gồm 18 biến hành vi, đƣợc giải thích báo cáo Bộ liệu đƣợc trích xuất từ Kaggle Tơi sử dụng thuật tốn K-Means với mục tiêu cụm, cụ thể KMeans PCA đƣợc sử dụng trƣớc phân cụm để giảm kích thƣớc tập liệu có đƣợc phân đoạn tốt Sau chia thành cụm, tơi thấy có kết thú vị phân bố cụm theo thay đổi toán (PAYMENTS) với Mua hàng (PURCHASES) Thanh toán số tiền tài khoản khách hàng để mua hàng, Mua hàng số tiền mua hàng khách hàng thực từ tài khoản Theo K-Means , tập liệu đƣợc chia thành ba cụm thú vị Cụm đại diện cho lớp khách hàng có số lần tốn mua hàng trung bình (Khách hàng tiềm năng) Cụm đại diện cho lớp khách hàng có số số lần tốn mua hàng thấp (Khách hàng theo mùa) Cuối cùng, cụm đại diện cho lớp khách hàng có số lần tốn mua hàng cao 49 Hình 15 : Các tập liệu Do đó, chiến dịch tiếp thị khác đƣợc thiết lập để nhắm mục tiêu khác đến cụm Ví dụ: ngân hàng chọn để đảm bảo cụm hài lịng với dịch vụ ngân hàng, số dƣ giao dịch mua nhóm cao Tuy nhiên, cụm 0, ngân hàng lựa chọn tăng cƣờng chiến dịch tiếp thị để khách hàng thuộc nhóm mua nhiều sản phẩm Nguyên nhân khách hàng từ cụm có số dƣ cao (tức họ có tiền), nhƣng họ không mua nhiều sản phẩm Đối với cụm 1, ngân hàng lựa chọn phƣơng án khuyến khích tỷ lệ mua sắm trung bình thấp tầng lớp cách cho họ vay vốn để mua hàng, tầng lớp mua sắm toán tƣơng đối thấp 3.2 Khuyến nghị Cung cấp cho nhóm tiếp thị khảo sát dẫn đầu nhƣ đặc điểm khách hàng nhƣ tuổi tác (vì họ trƣởng thành, họ thƣờng tiêu tiền) họ bỏ tiền vào tài khoản Vì khuyến khích họ mua nhiều cách trả góp, nên tơi mang lại số lợi ích nhƣ họ mua hàng tín dụng thay tốn lần, họ đƣợc giảm giá, tăng cấp độ thành viên thẻ tín dụng, v.v Cung cấp tiện ích ghi nợ tự động cho ngƣời dùng cung cấp điểm thƣởng tiền hoàn lại cho ngƣời dùng đăng ký ghi nợ tự động 50 Cung cấp khả thay đổi từ toán đầy đủ (mua lần) sang trả góp mà khơng phải trả thêm phí Phối hợp với nhà cung cấp dịch vụ nhu yếu phẩm hàng tháng để tạo chƣơng trình trả lần thời hạn định chắn rẻ so với trả hàng tháng thẻ tín dụng trả góp 0% lãi suất 51 KẾT LUẬN Phân tích liệu ngày có vai trị quan trọng giải vấn đề quan, tổ chức gặp phải Thông tin mạnh đất nƣớc Phân tích quản lý liệu giúp cho công việc quản lý đƣợc dễ dàng hơn, nâng cao hiệu sản xuất, tiết kiệm đƣợc thời gian công sức Trên sở vận dụng tổng hợp phƣơng pháp nghiên cứu khoa học từ lý thuyết đến thực tiễn, giải toán “Phân lớp liệu với phần mềm Knime” trình bày ứng dụng phƣơng pháp phân cụm giải toán phân cụm khách hàng liệu thẻ tín dụng Một điểm chuyên gia tiếp thị biết khách hàng xác định nhu cầu họ Đƣợc giao nhiệm vụ đồng nghiệp phận tiếp thị, công việc bạn tạo mơ hình để thực phân nhóm khách hàng Từ giúp nhà quản lý, cơng ty thấu hiểu khách hàng mình, có biện pháp, sách để nâng cao hiệu chăm sóc khách hàng, cải thiện thời gian khách hàng gắn bó dài lâu,… từ giúp marketing doanh nghiệp phát triển hoạt động tốt Bài khóa luận thành nhƣ cột mốc cuối đánh dấu bốn năm đại học, dù nỗ lực hoàn thiện nhƣng luận văn khơng tránh khỏi thiếu sót, em mong nhận đƣớc ý kiến đóng góp thầy giáo để luận văn đƣợc hồn thiện 52 TÀI LIỆU THAM KHẢO Bộ liệu đƣợc sử dụng đề tài nghiên cứu https://www.kaggle.com/datasets/arjunbhasin2013/ccdata/code đƣợc tải xuống ngày 20/5/2023 Bùi Thanh Hiếu , https://luanvan.co/luan-van/ky-thuat-phan-lop-dulieu-trong-khai-pha-du-lieu-34814/# Phần mềm Knime , https://www.knime.com/software-overview Thống kê club , https://thongke.club/ung-dung-cua-thuat-toan-rungngau-nhien-random-forests/ , ngày 6/9/2022 Chung Pham Van , https://viblo.asia/p/logistic-regression-bai-toan-coban-trong-machine-learning-924lJ4rzKPM , ngày 18/9/2020 Nguyen Thi Hop , https://viblo.asia/p/thuat-toan-phan-lop-naivebayes-924lJWPm5PM , ngày 14/09/2020 Tổng quan Cây định , https://tek4.vn/khoa-hoc/machinelearning-co-ban/tong-quan-ve-thuat-toan-cay-quyet-dinh 53