Data Science là gì?Data Science, hay còn gọi là khoa học dữ liệu có sự kết hợp của nhiều lĩnh vực khác nhau như toán học, trí tuệ nhân tạo, kỹ thuật máy tính và thống kê để phân tích khố
Tổng Quan Data Science
Data Science là gì?
Data Science, hay còn gọi là khoa học dữ liệu có sự kết hợp của nhiều lĩnh vực khác nhau như toán học, trí tuệ nhân tạo, kỹ thuật máy tính và thống kê để phân tích khối lượng lớn dữ liệu nhằm phân tích, khai thác những thông tin có chiều sâu, ý nghĩa đối với hoạt động kinh doanh, từ đó giúp đỡ các tổ chức giảm thiểu chi phí, gia tăng năng suất làm việc, nắm bắt được cơ hội, nhìn nhận rủi ro trên thị trường và làm gia tăng thêm lợi thế cạnh tranh của doanh nghiệp.
Khoa học dữ liệu bao gồm 3 thành phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu và chuyển kết quả phân tích thành giá trị của hành động.
Vai trò của Data Science
Các nhà phân tích khoa học dữ liệu sẽ tổng hợp nghiên cứu các dữ liệu đã được sắp xếp và tập trung phân tích kỹ vấn đề để trích xuất thông tin thông qua các phương pháp thống kê khác nhau Những nhà khoa học trên áp dụng các phương pháp trực quan hóa, thống kê để mô tả để đưa ra các thông tin giả thuyết
Tiếp đến, nhà phân tích khoa học dữ liệu sẽ tiến hành thuật toán Machine learning để đoán các sự kiện xảy ra trong tương lai, tổng hợp lại và đưa ra quyết định dựa trên các data đó Họ sẽ triển khai các mảng lớn công cụ và thực tiễn tìm ra các mẫu dư thừa, không liên quan trong dữ liệu Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python
Thường họ có vai trò như nhà tư vấn trong công ty hay tập đoàn, tham gia vào các quá trình đưa ra quyết định khác nhau và tìm hiểu phát minh những chiến lược phù hợp Nhờ có vốn hiểu biết từ data, những nhà khoa học giúp các nhà kinh doanh đưa ra quyết định sáng suốt hơn
Ví dụ như các công ty công nghệ lớn: Instagram, Twitter,… khoa học dữ liệu là công cụ hữu ích để phát triển, nâng cấp hệ thống các đề xuất các thông tin hữu ích cho người sử dụng Hay như, các công ty tài chính khác nhau sử dụng các phương pháp phân tích dựa vào data để dự đoán sự tăng hay giảm giá cổ phiếu, trái phiếu,…
Tóm lại, khoa học dữ liệu có vai trò lớn trong việc hỗ trợ xây dựng lên một hệ thống thông minh hơn, hiện đại, hiệu quả hơn, giúp đưa ra các quyết định dựa trên các dữ liệu lịch sử.
Ứng dụng của Data Science trong tài chính – ngân hàng
Có 6 ứng dụng chính: o Hệ thống phòng chống gian lận: Áp dụng Data science, chúng ta khai thác được triệt để sức mạnh của Machine Learning và dự đoán phân tích, tạo ra công cụ được phân theo nhóm, từng cụm dữ liệu để có thể phát hiện và theo kịp các xu hướng hiện thời Có thể nói, thuật toán phân cụm như K-Means, SVM (Support Vector Machine) cực kì hữu ích trong công cuộc gây dựng nền tảng nhằm phát hiện, ngăn chạn sự bất hợp lý, không bình thường của các hoạt động giao dịch. o Phân khúc thị trường: là phân ra những nhóm khách hàng mà họ có cùng những tính cách nhất định và các hành vi thông thường Để hỗ trợ định vị cũng như khoanh vùng chính xác hơn nhóm khách hàng này, Machine Learning là công cụ tối ưu hơn bao giờ hết Việc phân loại nhóm khách hàng giúp cho ngân hàng: xác định khách hàng dựa trên lợi nhuận của họ, xây dựng mối quan hệ và tạo sự kết nối hơn với người sử dụng, cung cấp đồng thời cải thiện những dịch vụ phù hợp. o Mô hình rủi ro: mô hình này hỗ trợ các công ty hay tập đoàn trong việc tạo ra và phát triển các chiến lược phù hợp dễ dàng hơn để có thể đánh giá đúng về hiệu quả và năng suất lao động Có thể nói, đây được coi là một mô hình vượt trội mà các công ty hoạt động trong lĩnh vực ngân hàng đặt lên hàng đầu Với sự hỗ trợ đắc lực của khoa học dữ liệu trong mô hình rủi ro, ngân hàng có thể phân tích, lọc ra những thành phần không có năng lực chi trả nhằm phòng ngừ trường hợp xấu nhất có thể xảy ra. o Giá trị vòng đời khách hàng: đây là một trong những yếu tố mang lại giá trị rất lớn cho doanh thu của công ty trong tương lai bằng cách dự đoán và xác định vòng đời khách hàng đóng góp vào giá trị chiết khấu Ai sẽ là người ở lại sau một quá trình giao dịch nhất định và tương lai họ sẽ đóng góp ra saovào doanh thu là những câu hỏi lớn cần được chú ý, quan tâm Chính khoa học dữ liệu sẽ là câu trả lời hiệu quả cho nhưng vấn đề phức tạp trên Ngân hàng có thể áp dụng để sàng lọc, nhìn nhận và phân ra những khách hàng mang lại nhiều giá trị to lớn trong thực tiễn bằng cách phân tích dự đoán trong data science. o Phân tích dự đoán theo thời gian thực: đây là một quá trình sử dụng các kỹ thuật toán học để dự đoán những tình huống mà tương lai có khả năng xảy ra, trong đó công cụ đóng góp vai trò to lớn chủ yếu trong quá trình này là
Machine Learning Sự không ngừng phát triển của dữ liệu đã lan rộng đồng thời kèm theo sự đa dạng hơn trong khâu xử lý và phương thức phân tích. o Hệ thống gợi ý: Nhằm tăng sức hút và quan tâm từ phía khách hàng vào những sản phẩm và dịch vụ ngân hàng đề xuất, có 2 loại hệ thống được đề áp dụn rộng rãi: là User-Based Collaborative Filtering và Item-Based Collaborative Filtering.
Giới Thiệu Đề Tài
Đặt vấn đề
Từ ngày ngân hàng đầu tiên trên thế giới được thành lập đến nay, ngành ngân hàng đã phát triển không ngừng và trở thành một trong những công cụ quan trọng trong việc điều tiết cung tiền quốc gia, trở thành định chế tài chính quan trọng, cung ứng những dịch vụ thanh toán giao dịch,…Tuy nhiên, một trong những hoạt động cốt lõi của ngân hàng vẫn luôn là huy động vốn và cho vay Nắm bắt những tiến bộ của công nghệ, các hình thức cho vay dần dễ tiếp cận với cá nhân hơn, không cần giấy tờ quá phức tạp và thậm chí có thể làm thủ tục vay tại nhà Nổi bật trong những hình thức vay nhanh chóng, tiện lợi và phù hợp với cá nhân là sử dụng thẻ tín dụng (credit card)
Thẻ tín dụng là loại thẻ được cấp bởi các đơn vị tài chính hoặc tổ chức tín dụng, cho phép chủ thẻ thực hiện giao dịch với hạn mức tín dụng nhất định [1] Hay nói cách khác, khi không có sẵn tiền thì chủ thẻ tín dụng vẫn có thể chi tiêu và thanh toán lại cho ngân hàng sau Tuy nhiên, đối với khách hàng là cá nhân thì cần 2 điều kiện quan trọng để được cấp thẻ tín dụng là phải có thu nhập tài chính ổn định để đảm bảo khả năng thanh toán và điểm tín dụng tốt thông qua các giao dịch đúng hạn, đặc biệt không nằm trong các nhóm nợ xấu tín dụng của ngân hàng (không thuộc 5 nhóm nợ xấu theo quy định) Điểm tín dụng và thu nhập cá nhân càng vững vàng thì hạn mức chi tiêu càng nhiều Từ đây chúng ta có thể thấy cá nhân với nguồn thu nhập ổn định hoàn toàn có thể tận dụng tối đa giá trị mà thẻ tín dụng mang lại từ thanh toán chậm đến trả góp thiết bị điện tử hay căn hộ chung cư Thẻ tín dụng giúp cải thiện phúc lợi của cá nhân bằng cách cho phép người sở hữu thẻ rút ngắn thời gian cần thiết để sở hữu thứ gì đó Thống kê của Napas tại các điểm giao dịch cho thấy, trong 5 năm trở lại đây, tốc độ tăng trưởng của số lượng giao dịch chi tiêu qua thẻ đạt 45% và giá trị giao dịch đạt 40% Nếu xét trên trực tuyến (online), con số này là 87% về số lượng giao dịch và 107% về giá trị giao dịch [2].
Theo nghiên cứu của Business Insider India và các dữ liệu của RBI (Ngân hàng Dữ trữ Ấn Độ) thì mỗi lần phát hành thẻ mới thì trong 100 thẻ ghi nợ mới có một thẻ tín dụng nhưng người dùng thẻ tín dụng online gấp 40 lần người dùng thẻ ghi nợ Đây là điểm vô cùng thú vị và cũng phần nào nói lên lý do nhóm chọn Ấn Độ cho lần nghiên cứu lần này Ấn Độ là một nước vô cùng rộng lớn, gồm nhiều tầng lớp nên sẽ cho ra số liệu khách quan nhất về thẻ tín dụng đồng thời qua đó cho thấy với cách biệt về tài chính thì cách sử dụng thẻ tín dụng ở đất nước này sẽ như thế nào Bên cạnh đó, vào tháng 8 năm 2022 thì RBI đã thắt chặt những luật lệ khi sử dụng thẻ tín dụng nhằm đảm bảo tăng trưởng nhưng nằm trong sự kiểm soát của RBI và thông qua đó có thể bảo vệ người vay RBI tích cực theo đuổi các biện pháp phòng chống gian lận và vi phạm quyền riêng tư dữ liệu là một tín hiệu cho thấy đất nước này đang thúc đẩy các hoạt động tín dụng mạnh mẽ hơn bao giờ hết và vì vậy những nghiên cứu về hành vi sử dụng thẻ tín dụng ở đất nước này là cơ sở để nhìn nhận những tiềm năng và hạn chế thẻ tín dụng ở nước ta.
Mục tiêu nghiên cứu
Bài nghiên cứu nhằm tập trung những mục tiêu được đề cập dưới đây:
Phân tích xu hướng và sở thích của người tiêu dùng bằng cách xem xét loại hàng hoá mà mọi người mua dựa trên giới tính và thành phố của họ.
Ngoài ra thông qua đó có thể phát hiện những hành vi gian lận thẻ tín dụng tiềm ẩn hoặc các hoạt động gây hại khác thông qua phân tích các thay đổi trong thói quen chi tiêu hoặc mua hàng bất thường.
Cuối cùng có thể dự đoán các mô hình chi tiêu cho các chiến dịch quảng cáo, chẳng hạn như trong các lễ hội hoặc ngày lễ, để nhắm tới các phân khúc khách hàng theo thành phố tốt hơn dựa trên thói quen chi tiêu.
Cung cấp cái nhìn tổng quát về thói quen chi tiêu qua thẻ tín dụng của người dân Ấn Độ, từ đó đưa ra nhận xét đánh giá dựa trên dữ liệu đã phân tích.
Đối tượng nghiên cứu và phạm vi nghiên cứu
2.1.1 Đối tượng nghiên cứu Đối tượng nghiên cứu là loại thẻ tín dụng bao gồm Vàng, Bạc, Bạch Kim.
Các thành phố của Ấn Độ bao gồm Bengaluru, Greater Mumbai, Ahmedabad, Delhi, Hyderabad
Thu thập số liệu thứ cấp từ 04/10/2014 đến 26/05/2015
Phương pháp nghiên cứu
Nhóm sử dụng phần mềm Orange để thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp Đối với việc phân cụm bộ dữ liệu, nhóm sử dụng hai phương pháp:
Phương pháp Hierarchical clustering nhóm tiến hành tính khoảng cách giữa các phần từ bằng Distance rồi quan sát dữ liệu được phân cụm và quan sát trênSillhouette Plot
Phương pháp K-means nhóm quan sát chỉ số Sillhouette trung bình khi phân dữ liệu thành cụm, chọn số cụm có chỉ số Sillhouette tốt, tương thích với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Sillhouette Plot.
Sau khi thực hiện phân cụm, nhóm chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu. Đối với việc phân lớp dữ liệu, nhóm chọn biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết định (Decision Tree), SVM (Support Vector Machine),
Hồi quy Logistic Regression) Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng quan sát trên Ma trận nhầm lẫn để đưa ra kết luận
Mô tả và Thuộc tính dữ liệu
o Card type là loại thẻ tín dụng bao gồm Bạc (Silver), Gold (Vàng), Platinum (Bạch Kim); được định dạng là biến định tính. o Exp Type là các loại chi phí liên quan đến giao dịch gồm Food (Đồ ăn), Fuel (Nhiên liệu), Bills (Hoá đơn), Entertainment (Giải trí), Grocery (Đồ dùng sinh hoạt); được định dạng là định tính. o Gender là giới tính; được định dạng là biến định tính. o Date là ngày thực hiện giao dịch o City là các thành phố của Ấn Độ; được định dạng là biến định tính o Amount là số lượng giao dịch diễn ra trong một ngày; được định dạng là biến định lượng
Hình 3.1.1.a: Type và Role của các thuộc tính
Hình 3.1.1.b: Role của các thuộc tính sau khi xử lí
Phân Tích Đề Tài Qua Các Thuật Toán Trên Orange
Tiền xử lí dữ liệu
Để mở file dữ liệu ta tiến hành nạp dữ liệu “credit card transactions India” vào File
3.1.1 Chọn “Role” cho các thuộc tính
Từ bộ dữ liệu “credit card transactions India”, ta chọn ra 500 mẫu random làm dữ liệu ban đầu, ta có Type và Role của 7 thuộc tính như sau:
Với mục đích dự báo cho biến đầu ra là Card Type, ta thực hiện chuyển “Role” của thuộc tính Card Type thì Feature thành Target Đồng thời Skip biến Index vì biến này không quan trọng trong việc dự báo cho biến đầu ra.
Hình 3.1.2.a: Mô hình quan sát dữ liệu
Hình 3.1.2.b: Bảng biểu dữ liệu
3.1.2 Xử lí “Missing Values” trong bộ dữ liệu
Ta thực hiện kiểm tra % missing data bằng việc quan sát dữ liệu qua Data Table từ bộ dữ liệu đã chọn Để quan sát dữ liệu bảng biểu, ta nối File widget vào Data table widget Khi double-click vào ta sẽ quan sát được dữ liệu.
Sau khi quan sát, ta thấy file dữ liệu này không có missing data, nên ta không cần phải thực hiện tiền xử lí dữ liệu thiếu.
Các phương pháp phân cụm dữ liệu: o Dựa trên phân cấp - Hierarchical approach: Phân cấp các đối tượng dựa trên một số tiêu chí: Diana, Agnes, BIRCH, CAMELEON…
Hình 3.2.1: Mô hình so sánh các thuật toán phân cụm o Dựa trên phân hoạch - Partitioning approach: Xây dựng các phân hoạch khác nhau và đánh giá Sau đó, tìm cách tối thiểu hoá tổng bình phương độ lỗi: K- means, K-medoids, fuzzy C-means… o Dựa trên mật độ - Density-based approach: Dựa trên các kết nối giữa các đối tượng và hàm mật độ: DBSCAN, OPTICS, DenClue,… o Dựa trên cấu trúc độ chi tiết nhiều cấp: STING, WaveCluster, CLIQUE,… o Dựa trên mô hình - Model-based: Giả định mỗi cụm có một mô hình và tìm cách fit mô hình đó vào mỗi cụm: EM, SOM, COBWEB,…
Dựa trên cấu trúc độ chi tiết nhiều cấp:
Dựa trên cấu trúc độ chi tiết nhiều cấp
Sử dụng mẫu dữ liệu ban đầu, ta tiến hành phân cụm dữ liệu bằng các phương pháp:
3.2.2 Đánh giá các mô hình Để kiểm tra tính đúng đắn và lựa chọn mô hình phù hợp, ta tiến hành đánh giá các phương pháp:
A Phương pháp Hierarchical Clustering Ý tưởng khi dùng Hierarchical Clustering ( Phân cụm phân cấp): Ban đầu mỗi điểm (đối tượng) là một cụm riêng biệt Thuật toán phân cụm phân cấp sẽ tạo ra các cụm lớn hơn bằng các sát nhập các cụm nhỏ hơn gần nhau nhất tại mỗi vòng lặp.
Dùng Distances widget và chọn Euchidean để xác định khoảng cách “đường thẳng” giữa cặp điểm dữ liệu, sau đó nối với Hierarchical Clustering widget để tiến hành phân cụm phân lớp.
Hình 3.2.2.a: Các bước phân cụm bằng phương pháp Hierarchical Clustering
Ta sử dụng phương pháp tính khoảng cách trung bình cho liên kết giữa các đối tượng
Average-likage Sau khi chạy dữ liệu bằng thuật toán Hierarchical Clustering, ta thấy nên chia toàn bộ mẫu trong bộ dữ liệu thành 2 phân cụm với số dữ liệu mỗi cụm tương đương nhau là hợp lí nhất (C1 gồm 235 dữ liệu và C2 gồm 265 dữ liệu).
Hình 3.2.2.b: Kết quả phân cụm bằng Average-linkage
Kết quả phân cụm được Visualize bằng Silhouette Plot, điểm này càng gần về 1 càng đáng tin cậy Ta thấy giữa 2 cụm C1, C2 không có sự khác biệt quá lớn ( hoặc có khác biệt khỏ nhỏ): cả hai cụm đều cú khoảng ẳ giỏ trị Silhouette Plot bộ hơn 0.5 So với mức 0, khoảng 1/3 giá trị này âm, chạy từ 0 trở lại – 0.6, còn giá trị dương chạy từ 0 đến hơn 0.6 Với điểm này, ta thấy kết quả phân cụm vẫn chưa đủ tin cậy với tập dữ liệu của chúng ta.
Ta sẽ thử chạy thêm phương pháp Complete-linkage: tính khoảng cách giữa hai điểm xa nhau nhất của hai cụm, sát nhập hai cụm có khoảng cách này là nhỏ nhất, để xem kết quả phân cụm phân cấp có thay đổi nhiều so với cách trên hay không.
Các bước làm vẫn tương tự và tốt nhất vẫn là chia 2 cụm có số mẫu không chênh nhau quá đáng kể ( C1: 241 dữ liệu, C2: 259 dữ liệu)
Hình 3.2.2.d: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Average-linkage
Hình 3.2.2.e: Kết quả phân cụm bằng Complete-linkage
Vẫn tiếp tục Visualize kết quả qua Sihouette Plot ta được như hình.
Hình 3.2.2.f: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Complete-linkage
Hình 3.2.2.g: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Complete-linkage
Kết quả đưa ra khá tương đương với Average-linkage, nhưng giá trị âm chạy từ -0.6 đến 0 chỉ chiếm khoản 1/6 mỗi cụm, giá trị dương vẫn chạy từ 0 đến hơn 0.6 Mặc dù kết quả này khả quan hơn so với khi dùng Average-linkage, ta sẽ tiếp tục thử nghiệm với phương pháp K-means để tìm ra phương pháp tối ưu nhất
B Phương pháp K-means Ý tưởng của thuật toán phân cụm K-means là phân chia 1 bộ dữ liệu thành các cụm khác nhau Trong đó số lượng cụm được cho trước là k Công việc phân cụm cho trước là k Công việc được phân cụm được xác lập dựa trên nguyên lý Các điểm dữ liệu trong cùng 1 cụm thì phải có cùng 1 số tính chất nhất định Tức là giữa các điểm trong cùng 1 cụm phải có sự liên quan lẫn nhau. Ý tưởng của thuật toán phân cụm K-means là phân chia 1 bộ dữ liệu thành các cụm khác nhau Trong đó số lượng cụm được cho trước là k Công việc phân cụm được xác lập dựa trên nguyên lý: Các điểm dữ liệu trong cùng 1 cụm thì phải có cùng 1 số tính chất nhất định Tức là giữa các điểm trong cùng 1 cụm phải có sự liên quan lẫn nhau
Nhập dữ liệu đã xử lý vào sau đó chọn Cluster chạy từ 2 đến 10 Đối với phương pháp K-means, ta sẽ phân tích bộ dữ liệu nên chia thành mấy cụm dựa vào giá trị Silhouette Nếu giá trị Silhouette trung bình càng lớn thì kết quả phân cụm càng đáng tin cậy Xét bộ dữ liệu này, chia thành 2, 4, 8, 9, 10 cụm với giá trị Silhouette lần lượt là 0.221, 0.192, 0.193, 0.207, 0.209
Hình 3.2.2.h: Các bước phân cụm bằng phương pháp k-Means
Nhìn qua, ta sẽ lựa chọn chia bộ dữ liệu thành 2 cụm vì kết quả Silhouette Scores của
2 cụm là lớn nhất Nhưng nếu vẫn chưa chắc là chọn 2 cụm có phải là tối ưu hay chưa, ta tiến hành Visualize từng kết quả qua Silhouette Plot Sau khi thực hiện kiểm tra dữ liệu từng cụm được chia trong K-means, nhóm chúng em quyết định chọn 2 cụm là tối ưu nhất.
Hình 3.2.2.i: Phân tích k-Means cho bộ dữ liệu
Kết quả có được là 2 cụm C1, C2 khá đẹp và tương đương nhau, đa số các mẫu đều nằm ở khoảng dương chạy từ 0 đến hơn 0.7 Số lượng mẫu âm chỉ dao động từ 1-5 mẫu trong từng cụm, không đáng kể so với tổng mẫu dữ liệu Số lượng mẫu lớn hơn 0.5 cũng đồng đều hơn và chiếm đến 4/5 tổng số mẫu trong mỗi cụm Như vậy, với
Hình 3.2.2.j: Bảng Silhouette Plot cho 2 phân cụm k-Means
Hình 3.2.2.k: Bảng Silhouette Plot cho 2 phân cụm k-Means các giá trị Silhouette trên thì phương pháp phân cụm tối ưu nhất và đáng tin cậy nhất đối với mẫu dữ liệu này là K-means
3.2.3 Kết quả sau khi phân cụm
Hình 3.2.3.a: Kết quả phân cụm theo phương pháp Hierarchical Clustering
Hình 3.2.3.b: Kết quả phân cụm theo phương pháp K-Means
Hình 3.3.1: Lựa chọn mô hình phân lớp phù hợp
Hình 3.3.2.a: Kết quả khi chia mẫu dữ liệu với K-fold với k
Phân lớp dữ liệu
Dựa trên kết quả phân cụm ở mục 3.2, ta sẽ tiến hành phân lớp dữ liệu bằng 3 phương pháp sau:
Cây quyết định (Decision Tree)
Hồi quy Logistic (Logistic Regression)
3.3.2 Đánh giá các mô hình Để có thể đưa ra lựa chọn mô hình phân lớp phù hợp vói bộ dữ liệu, ta cần phải đánh giá các mô hình bằng những công cụ sau. a) Test and Score
Hình 3.3.2.b: Kết quả khi lấy ngẫu nhiên mẫu dữ liệu với sự lặp lại là 20 và kích thước 66%
Hình 3.3.2.c: Kết quả khi lấy ngẫu nhiên mẫu dữ liệu với sự lặp lại là 10 và kích thước 50%
Dựa vào những hình trên, ta có thể thấy cả 3 phương pháp đều đưa ra chỉ số AUC tương đương nhau, không có sự trên lệch quá lớn Tuy nhiên, để chọn ra một phương pháp phù hợp nhất thì chỉ số AUC của Decision Tree trong cả 3 kết quả trên đều lớn hơn 0.52; có phần nhỉnh hơn một chút so với các phương còn lại Như vây, Decision Tree là phương pháp phù hợp nhất với bộ dữ liệu trong 3 phương pháp được sử dụng.
Tuy nhiên, để chọn ra đề một phương pháp phù hợp nhất thì chỉ số AUC của Decision trong cả 3 kết quả trên đều lớn hơn 0.52; có phần nhỉnh hơn một chút so với các phương
Hình 3.3.2.d: Kết quả ma trận nhầm lẫn của phương pháp Decision Tree
Hình 3.3.2.e: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression b) Confusion Matrix (Ma trận nhầm lẫn) Để có thể lựa chọn phương pháp phân lớp phù hợp và tốt nhất, ta cũng có thể dựa vào kết quả từ Confusion Matrix, bằng cách đánh giá tỉ lệ ở đường chéo chính cho các dự đoán
Hình 3.3.2.f: Kết quả ma trận nhầm lẫn của phương pháp SVM
Cũng giống như kết quả của Test and Score, ở cách đánh giá mô hình
Confusion Matrix, phương pháp Decision Tree cũng có kết nhỉnh hơn các phương pháp còn lại, với tỉ lệ ở đường chéo chính cao nhất lần lượt là 38.6%,
34.0%, 39.7% Phương pháp SVM có tỉ lệ này thấp hơn tí lần lượt là 36.1%, 35%, 37.8% Tỉ lệ này của Logistic Regression là thấp nhất với kết quả là 35.6%, N/A, 34.2% Như vậy, ở cả 2 cách đánh giá, phương pháp Decision
Tree đều đưa ra kết quả tốt nhất, đây là phương pháp phù hợp nhất để phân lớp dữ liệu.
Ta nối đường từ File dữ liệu đến Tree:
Hình 3.4.1.a: Trích 10% dữ liệu từ bộ dữ liệu
Hình 3.4.1.b: Nạp dữ liệu và skip biến Card Type
Dự báo về loại Credit Card mà người dân Ấn Độ sẽ sử dụng để giao dịch
Trước tiên, nhóm sinh viên sẽ trích ra 10% dữ liệu từ bộ dữ liệu đã phân cụm.
Hình 3.4.1.c: Thiết lập mẫu 10% từ bộ dữ liệu
Hình 3.4.1.d: Bảng dữ liệu sau khi trích 10% bộ dữ liệu
Hình 3.4.2.a: Mô hình dự báo
Hình 3.4.2.b: Kết quả dự báo từ phương pháp Decision Tree
Sau khi đã hoàn thành việc trích 10% dữ liệu, nhóm sinh viên sẽ tiến hành dự báo loại Credit Card mà người dân Ấn Độ sử dụng trong giao dịch.
Theo như kết quả từ Test and Score và Confusion Matrix, ta sẽ tiến hành dự báo bằng phương pháp Decision Tree
Hình 3.4.2.c: Bảng kết quả dự báo
Ta có được kết quả dự báo như sau:
Như vậy, với mô hình Decison Tree và kết quả dự báo như trên, ta đã có thể thấy được thói quen sử dụng thẻ Tín dụng của người dân Ấn Độ Loại thẻ mà họ dùng sẽ khác nhau tùy thuộc vào nơi ở, thời điểm và mục đích sử dụng thẻ của họ Từ đó, các ngân hàng ở Ấn Độ có thể đưa ra các chính sách tối ưu hơn trong việc phát triển và tìm kiếm các khách hàng tiềm năng.