Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
2,33 MB
Nội dung
ĐẠI HỌC UEH TRƯỜNG KINH DOANH TIỂU LUẬN Môn học: Khoa Học Dữ Liệu Giảng viên: Trương Việt Phương Mã lớp học phần: 22C1INF50905916 Khóa – Lớp: K46- FNC07 Thành Viên: Phạm Lê Thanh Ngân- 31201022664 Nguyễn Thanh Việt- 31201026014 Nguyễn Như Quang Lâm- 31201022348 Phan Quốc Minh- 31201022446 Lê Minh Thư- 31201020972 TP Hồ Chí Minh, ngày 16 tháng 12 năm 2022 MỤC LỤC Chọn liệu cần phân tích, mơ tả liệu, mục tiêu phân tích a Giới thiệu liệu .3 b Mô tả liệu Tiền xử lý liệu Khai thác liệu .8 Tiến hành phân cụm Tiến hành dự báo 15 Kết luận 22 Chọn liệu cần phân tích, mơ tả liệu, mục tiêu phân tích a Giới thiệu liệu Ngày nay, liệu xem mỏ vàng thời đại số từ doanh nghiệp tạo thêm nhiều doanh thu Nguồn doanh thu đến từ việc khai phá liệu giúp doanh nghiệp hiểu người dùng đưa chiến lược kinh doanh đáp ứng xác nhu cầu thị hiếu người dùng Đối với lĩnh vực tài ngân hàng - tài việc phân loại nhóm khách hàng dựa đặc tính hành vi giúp ngân hàng đưa vào mơ hình tính điểm tín dụng nhằm đưa hạn mức xác để tối ưu việc cho vay đáp ứng người dùng giảm thiểu tối đa rủi ro Vì liệu liên quan đến tài người dùng khó để tiếp cận nên nhóm sử dụng liệu có sẵn đăng tải trang web Kaggle Dữ liệu chưa thông tin khách hàng sử dụng thẻ tín dụng Thơng tin sử dụng cho nhiều mục đích khác nhận dạng độ trung thành người dùng, phân loại khách hàng, phân chia nhóm để chạy marketing mục tiêu khác b Mô tả liệu Dữ liệu có 660 quan sát tương ứng cho khách hàng sử dụng thẻ đặc tính mơ tả hành vi người dùng, bao gồm đặc tính số thứ tự mã định danh cho khách hàng đặc tính khác mơ tả hành vi dạng số Mô tả cho cột thể cho đặc trưng người dùng khai thác liệu bao gồm: - Sl_No: Số thứ tự chủ sở hữu credit card - Customer Key: Mã định danh chủ sở hữu credit card - AvgCreditLimit: Hạn mức thẻ tín dụng trung bình cho khách hàng - TotalCreditCards: Tổng số thẻ tín dụng mà khách hàng sở hữu - Totalvisitsbank: Tổng số lượt đến ngân hàng khách hàng - Totalvisitsonline: Tổng số lượt truy cập trực tuyến Khách hàng Ngân hàng - Totalcallsmade: Tổng số gọi thực khách hàng đến ngân hàng Thống kê mô tả mơ hình: Dựa vào thống kê mơ tả với biểu đồ phân bố liệu, ta thấy số nhận xét vấn đề liệu sau: - Dữ liệu có phân bố khác đặc tính Ví dụ biến Avg_Credit_Limit biến Total_visits_online tập trung nhiều giá trị đầu giảm dần với giá trị tăng dần Trong có số biến lại có phân phối chuẩn Total_visits_bank - Thêm vào liệu làm việc mà liệu khơng có missing values Ngồi ra, liệu khơng có biến danh mục - Một đặc điểm khác liệu vừa nhược điểm ưu điểm việc số lượng đặc tính với đặc tính Điều giúp cho mơ hình học nhanh hơn, nhiên q nên đơi làm cho mơ hình khơng xác khơng tạo nhiều kiến thức trình kết học mơ hình đơi khơng phân cụm tốt - Dù liệu có khác biệt giá trị biến lớn so biến Avg_Credit_Limit biến khác Nhóm thử biểu diễn biểu diễn liệu dạng chiều với features hay chiều với features kết tốt điểm liệu dường không nằm cách ngẫu nhiên mà tập trung theo cụm Tiền xử lý liệu Như đề cập ưu nhược điểm phần nhóm có đề xuất số phương án để xử lý liệu sau để chạy có kết tốt nhất: - Đối với đặc tính mang tính định danh người dùng, khơng có ý nghĩa mơ hình nhóm loại bỏ khỏi việc chạy liệu Đôi việc đưa liệu đem lại kết bất ngờ ban đầu nhóm đưa tất liệu đặc tính mã định danh vào mơ hình t-nse phân cụm cụm, sau bỏ cịn cụm Dù tạo cụm mới, nhiên ý nghĩa thực tế trực quan điều hồn tồn khơng - Giá trị tuyệt đối đặc tính liệu chênh lệch nhiều mà số biến giá trị khoảng từ đến có biến lại dao động giá trị từ 3000 - 200.000 Đây xem khoảng chênh lệch lớn Nhóm đặt giả thuyết có khác biệt chạy mơ hình việc khơng chuẩn hoá liệu chuẩn hoá liệu Về việc chuẩn hố liệu, nhóm đề xuất việc chuẩn hố với trung bình độ lệch chuẩn Lý cho việc nhóm chọn phương pháp phần lớn liệu nằm khoảng -2 đến 2, giá trị đặc biệt nằm vùng Một phần việc sử dụng chuẩn hoá liệu tránh việc liệu nằm gần trường hợp đặc tính có liệu nằm q xa điểm liệu lại Kết liệu sau nhóm thực chuẩn hố liệu trình bày bảng sau: Có thể thấy chuẩn hố biến có độ phân tán lớn Tuy nhiên chênh lệch giá trị biến giảm thiểu cách đáng kể - Ngoài việc xử lý liệu nhóm muốn kết hợp phương pháp giảm số chiều Principal Components Analysis (PCA) vào việc xử lý liệu để giảm số chiều mà thơng tin mơ hình nhằm thử xem giảm số chiều tách biệt điểm liệu có tăng lên tăng tốc độ tính tốn hay khơng Dù liệu biến đầu vào với đặc tính đưa vào 660 điểm liệu số lượng đặc tính tăng lên gần việc sử dụng PCA giảm lượng liệu đáng kể, từ giảm thời gian xử lý Thông qua kết chạy xử dụng PCA nhóm chọn chạy phân cụm với liệu chọn số components Tổng hợp lại nhóm thực phân cụm cho liệu theo loại xử lý liệu sau: + Chọn biến đưa vào mơ hình -> chạy phân cụm + Chọn biến đưa vào mơ hình -> chuẩn hố liệu -> chạy phân cụm + Chọn biến đưa vào mô hình -> chuẩn hố liệu -> giảm số chiều chọn components -> chạy phân cụm Khai thác liệu a Tiến hành phân cụm Trong nội dung tiểu luận này, nhóm chọn thuật tốn K-Means để tiến hành phân cụm Trong thuật toán K-means clustering, nhãn (label) điểm liệu Mục đích làm để phân liệu thành cụm (cluster) khác cho liệu cụm có tính chất giống (2) Thuật tốn có vài hạn chế, việc khơng khơng thể xác định số k - tức số cụm liệu bao nhiêu, nhóm dựa vào hệ số Silhouette để xác định số cụm hệ Hệ số Silhouette kmeans thước đo mức độ giống điểm liệu cụm (sự gắn kết) so với cụm khác (sự phân tách) Hệ số tính tốn sau: Chọn loạt giá trị k (giả sử từ đến 10) Vẽ hệ số Silhouette cho giá trị K Phương trình tính tốn hệ số Silhouette cho điểm liệu cụ thể: Trong đó: S(i) hệ số Silhouette điểm liệu i a(i) khoảng cách trung bình i tất điểm liệu khác cụm mà i thuộc b(i) khoảng cách trung bình từ i đến tất cụm mà i khơng thuộc Và sau hệ số Silhouette cụm tính trung bình Silhouette cụm Thơng thường dựa vào thơng tin từ hệ số Silhouette theo liệu xem xét đánh giá độ phân tán hay tập cụm việc cụm có nằm chồng lấn lên hay không Tuy nhiên phần mềm Orange việc tính tốn hệ số Silhouette cho điểm liệu giới hạn liệu 5000 quan sát từ 5000 dịng liệu trở lên thuật tốn bỏ qua việc tính tốn Silhouette cho điểm liệu mà tính cho tồn cụm Vì để xét mơ hình cho kết số Silhouette cho hệ số k xác định giá trị k có hệ số Silhouette cao ta chọn số cụm tương ứng mơ hình Đối với chọn vị trí trung tâm cụm nhóm sử dụng KMeans++ Phương pháp mơ hình định trọng tâm cho vị trí điểm liệu chọn ngẫu nhiên, sau chọn trọng tâm từ điểm liệu lại dựa trên xác suất tỷ lệ với bình phương khoảng cách từ tâm gần điểm định Hiệu ứng giúp đẩy trọng tâm xa tốt, bao phủ nhiều không gian liệu bị chiếm dụng tốt từ trình khởi tạo Như đề cập phần trước nhóm chạy K-means cho loại xử lý - Đối với việc chạy k-Means cho liệu bỏ missing values ta có kết hình bên Nhóm cho chạy số lượng cụm từ đến Có thể thấy giá trị tốt k = với giá trị 0.516 Dựa vào kết nhận giá trị Silhouette biểu đồ trực quan hoá liệu, giá trị k = liệu nằm lên có phân bố nằm chung nhóm với cách rõ ràng 10 - Trong liệu xử lý chuẩn hố nhóm nhận thấy kết hồn tồn giống với liệu khơng chuẩn hoá Tuy giá trị Silhouette giống nhau, nhiên ta biểu diễn Silhouette kết cho tốt nhiều nhiều chưa chuẩn hóa liệu, khơng xảy trường hợp điểm Silhouette âm Khi trực quan hố liệu thấy phân chia cụm rõ rệt khơng có điểm liệu nhóm chồng lên nhóm khác 11 12 - Đối với liệu sau chuẩn hố có xử dụng thêm giảm số chiều với số components = mơ hình cho k = 3, khơng có thay đổi phân cụm nhiên lại tốt nhiều hệ số Silhouette cho cao nhiều không giảm số chiều liệu Dựa số điểm cho thấy giảm số chiều việc phân chia cụm rõ ràng, tốt mà cụm có tách rời tập trung cao không giảm số chiều Các điểm liệu phân hội tụ theo trung tâm cụm cách rõ ràng 13 14 - Bổ sung thêm chạy liệu với thuật tốn t-NSE Ngồi ra, bên cạnh việc phân cụm K-Means hay giảm số chiều theo phương pháp tuyến tính PCA nhóm thử sử dụng phương pháp giảm số chiều phi tuyến tính t-NSE phương pháp sử dụng để trực quan hố liệu nhằm xem thử phân số cụm có khác biệt với việc dùng PCA hay đơn dùng k-Means hay khơng nhóm nhận kết tương tự với mơ hình khác b Tiến hành dự báo Mục tiêu phần tiến hành dự báo dựa kết phân cụm mà truyền vào liệu cho mơ hình phân lớp mơ hình có phân lớp liệu mơ hình phân lớp mà phần mơ hình k-means đưa hay không Để làm rõ ý tưởng điểm liệu đưa vào thuộc cụm A, mơ hình phân lớp lại cho kết B việc phân cụm chưa tốt ngược lại Quy trình bao gồm đưa liệu dán nhãn sau phân cụm Sau đó, dựa liệu cho ta tách làm tập train test với tỉ lệ 90% 10% tương ứng Trong đó, nhãn liệu phần đầu mơ hình kmeans Tiếp đến mơ hình phân lớp nhóm chọn tiểu luận mơ hình Logistic Regression - mơ hình cổ điển tốn phân lớp Sau đó, kết xem xét tính xác phân lớp theo Precision Recall scores để đánh giá Bên cạnh đó, nhóm đưa thêm phần thời gian chạy tính tốn vào để xem ưu loại xử lý liệu Đối với cơng thức tính tốn Precision Recall tính sau: 15 Precision = True Positive True Positive+ False Positive Recall= True Positive True Positive + False Negative Tham số phương pháp tính Logistic regression: a Kết cho liệu không chuẩn hố Dựa vào kết chạy đính kèm ta thấy độ xác mơ hình cao Precision Recall đạt mức 0.996 Ở cách xử lý có ưu điểm cần thêm liệu vào mà thông qua nhiều bước xử lý liệu 16 Với kết chạy kết cao chạy mơ thấy việc phân cụm vô tốt dù sử dụng liệu thơ Qua đó, hình dung được biến có đóng góp lớn mơ hình Dưới bảng kết nhóm sử dụng phương pháp để đo độ ảnh hưởng biến lên mơ hình Nhìn chung có biến có ảnh hưởng nhiều biến Total_Credit_Cards, Total_visits_bank, Total_calls_made, Total_visits_online biến Avg_Credit_Limit lại có ảnh hưởng thấp số thấp nhiều so với biến lại 17 b Kết cho liệu chuẩn hoá Khác với việc cho kết hệ số Silhouette phần mơ hình kmeans Mơ hình phân lớp cho kết tốt hẳn đạt mức 0.998, số cao Điều cho thấy chuẩn hố liệu việc phân lớp tốt dựa đặc tính liệu Từ việc phân cụm cho kết rõ ràng Một mặt khác chuẩn hố liệu việc chạy mơ hình phân lớp tính tốn độ xác nhanh cách đáng kể 18 Đối với việc xem xét yếu tố ảnh hưởng đến mơ hình phân lớp nhóm nhận thấy so với liệu với cách xử lý trước thứ tự biến ảnh hưởng không khác nhiên so giá trị biến ảnh hưởng ta thấy mức độ ảnh hưởng biến có tăng nhẹ, giống kết việc chạy mơ hình phân lớp so liệu với cách khác 19 c Kết cho liệu chuẩn hố PCA = Mơ hình cho kết tốt đạt mức 0.994, nhiên lại thấp so với với mơ hình chạy liệu khơng giảm số chiều Điều nhiều nguyên nhân khác Bên cạnh đó, chạy mơ hình phân lớp test tính độ xác, mơ hình cần chạy biến PC1 PC2 nên tốc độ nhanh cách đáng kể so với mơ hình cịn lại 20 Khác với cách xử lý dù có chuẩn hố không thay đổi số chiều liệu, nhiên sử dụng PCA mơ hình lại giảm số chiều liệu từ việc làm rõ biến có ảnh hưởng đến mơ hình Chỉ thấy phân tích số PCA1 có ảnh hưởng lớn PCA2 có ảnh hưởng thấp đến mơ hình 21 Kết luận Nhóm khơng chọn sử dụng q nhiều mơ hình để so sánh tốt hay xấu mơ hình mà nhóm muốn tập trung vào ảnh hưởng việc xử lý liệu lên kết nên nhóm chia liệu theo nhiều phương pháp xử lý khác Bộ liệu gần xử lý tốt trước đăng tải lên internet việc phân chia cụm chạy phân lớp gần khơng gặp khó khăn đạt độ xác gần 100% Qua giúp cho thấy tầm quan trọng việc xử lý liệu đầu vào quan trọng Theo thống kê từ diễn đàn báo khoa học việc phân tích chạy mơ hình nhà khoa học liệu phải dành đến 80% thời gian để xử lý liệu 20% thời gian dành cho việc xây dựng chạy mơ hình Có thuật ngữ mà người hay sử dụng “garbage in garbage out” có nghĩa đầu vào khơng sử dụng giá trị đầu khơng có giá trị Điểm đặc biệt luận mà nhóm cảm thấy hứng thú việc sử dụng thêm giảm số chiều liệu thuật toán PCA giúp liệu tách rời tập trung vào trung tâm cụm thông qua hệ số Silhouette cao cách xử lý chạy thuật toán k-Means trực quan hoá liệu chạy phân cụm để kiểm tra lại độ xác lại thấp chưa giảm số chiều xử lý dù thấp rơi vào 0,2-0,4% Tuy nhiên điểm đáng lưu ý Cũng thơng qua việc phân tích ta thấy biến mang tính hành vi người dùng số lượng thẻ mà người dùng nắm giữ, số lượng 22 đến ngân hàng người dùng có ảnh hưởng đến hành vi đến người dùng nắm thẻ tín dụng Do đó, phân tích hành vi người dùng ta nên tập trung thêm đặc tính người dùng tăng cường thu thập thêm yếu tố hành vi người dùng Ngoài ra, dựa việc phân cụm tham số hành vi nhóm đối tượng lạ cụ thể dễ dàng nhận biết Khi yếu tố có đóng góp rõ rệt đến mơ hình cụm có tậm trung phân biệt rõ ràng Ngồi ra, chuẩn hố liệu, yếu tố không thay đổi thứ tự đóng góp tức khơng làm sai lệch thơng tin mà cịn phóng đại giá trị lên làm cho giá trị đóng góp rõ rệt mơ hình Về việc sử dụng giảm số chiều điểm bất lợi giảm số chiều ta khơng biết liệu yếu tố đóng góp lớn hay nhỏ mà ta làm giảm mức độ tính tốn mơ hình vài trường hợp cịn làm cho mơ hình có kết tốt Nhước điểm tiểu luận việc liệu xử lý tốt nên nhóm đề thực thuật toán cách xử lý bản, từ chưa làm bật lên nhiều tầm quan trọng việc xử lý liệu trước chạy mơ hình Tài liệu tham khảo: https://www.kaggle.com/datasets/aryashah2k/credit-card-customer-data https://machinelearningcoban.com/2017/01/01/kmeans/ 23