Hình 1 Quá trình phân lớp dữ liệu Hình 2.1 Quy trình khai phá dữ liệu Biểu thức 2.1 Công thức tính của Phương pháp hồi quy Logistic Hình 2.2 Mô hình phân lớp nhị phân - sử dụng phương ph
Tổng quan
Tổng quan về bài toán phân lớp dữ liệu
Phân lớp dữ liệu là việc phân loại đối tượng vào một hoặc nhiều lớp dựa trên mô hình đã được huấn luyện từ dữ liệu có nhãn Gán nhãn dữ liệu chính là quá trình phân lớp.
Hình 1: Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm 2 bước chính:
- Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
- Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ: ã Bước 2.1: Đỏnh giỏ mụ hỡnh (kiểm tra tớnh đỳng đắn của mụ hỡnh) ã Bước 2.2: Phõn lớp dữ liệu mới
Bài toán phân lớp phân chia dữ liệu thành n lớp: nhị phân (n=2) hoặc đa lớp (n>2).
- Mỗi đối tượng dữ liệu chỉ thuộc vào một lớp duy nhất: Phân lớp đơn nhãn
- Một đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp khác nhau: Phân lớp đa nhãn Các ứng dụng phân lớp dữ liệu trong kinh tế:
Dự báo giá chứng khoán
Kiểm toán gian lận trên Báo cáo tài chính
Xếp hạng tín dụng cá nhân và tổ chức
Đánh giá rủi ro tài chính
Marketing theo hướng cá nhân hóa
Dự báo khách hàng trung thành
Dự báo khủng hoảng kinh tế
Giới thiệu về Python và phần mềm Orange
Python, ngôn ngữ lập trình hướng đối tượng cấp cao do Guido van Rossum tạo ra, nổi bật với cú pháp đơn giản, dễ học, lý tưởng cho người mới bắt đầu Cấu trúc dữ liệu mạnh mẽ và cách tiếp cận lập trình hướng đối tượng hiệu quả, kết hợp với cú pháp rõ ràng, linh hoạt, biến Python thành lựa chọn hàng đầu cho việc viết script và phát triển ứng dụng đa nền tảng.
Orange là phần mềm mã nguồn mở trực quan, mạnh mẽ, hỗ trợ khai thác và phân tích dữ liệu hiệu quả nhờ giao diện thân thiện và các công cụ trực quan hóa dữ liệu Được viết bằng Python, Orange kết hợp khai phá dữ liệu và học máy, mang đến trải nghiệm phân tích dữ liệu chính xác và cụ thể cho người dùng.
Orange là phần mềm tự động hóa khai phá dữ liệu, nổi bật với giao diện thân thiện và dễ sử dụng nhờ bố cục trực quan, hợp lý Do đó, Orange được lựa chọn là công cụ chính trong nghiên cứu này.
1.3 Lý Do Chọn Lựa Đề Tài
Đại dịch Covid-19 gây ra sự trì trệ kinh tế toàn cầu, khiến bức tranh doanh nghiệp gia nhập và rút khỏi thị trường trở nên rõ ràng hơn bao giờ hết Ngân hàng đối mặt với chi phí cao và doanh thu sụt giảm mạnh.
Năm 2020, hệ thống ngân hàng thương mại chịu ảnh hưởng lớn từ khó khăn kinh tế tác động đến doanh nghiệp và người dân Tuy nhiên, với vai trò trung gian tài chính chủ chốt, ngành Ngân hàng đã hỗ trợ doanh nghiệp và người dân vượt qua thách thức, thúc đẩy phát triển kinh tế.
Tiền gửi có kỳ hạn là nguồn thu nhập chính của ngân hàng, là khoản đầu tư tiền mặt có kỳ hạn cố định và lãi suất thỏa thuận Ngân hàng sử dụng nhiều kênh tiếp thị (email, quảng cáo, điện thoại, kỹ thuật số) để bán sản phẩm này Tuy nhiên, đại dịch gây tăng chi phí sinh hoạt, khiến khách hàng rút tiền, đặt ra thách thức tiếp cận khách hàng hiệu quả, tiết giảm chi phí và tuân thủ quy định phòng dịch Vì vậy, chiến lược tiếp thị ngân hàng là giải pháp tối ưu.
Tiếp thị qua điện thoại vẫn rất hiệu quả nhưng tốn kém Để tối ưu chi phí, cần xác định và nhắm mục tiêu khách hàng tiềm năng có khả năng chuyển đổi cao.
Nghiên cứu phân tích dữ liệu chiến dịch tiếp thị qua điện thoại của ngân hàng Bồ Đào Nha để dự đoán khả năng khách hàng đăng ký tiền gửi có kỳ hạn Kết quả cho thấy mức độ ảnh hưởng của chiến dịch này đến hành vi khách hàng.
Các mô hình phân tích dữ liệu
Khai phá dữ liệu
2.1.1 Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining) sắp xếp, phân loại dữ liệu lớn để tìm mẫu, mối quan hệ, giải quyết vấn đề và dự báo xu hướng tương lai cho doanh nghiệp.
Khai phá dữ liệu là quá trình phức tạp, đòi hỏi chuyên môn cao và kỹ năng tính toán đa dạng Quá trình này không chỉ dừng lại ở việc trích xuất dữ liệu mà còn bao gồm làm sạch, chuyển đổi, tích hợp và phân tích mẫu dữ liệu.
2.1.2 Các tính năng chính của khai phá dữ liệu
Khai phá dữ liệu sử dụng nhiều tham số quan trọng, bao gồm các quy tắc phân loại và phân cụm Năm tính năng chính của khai phá dữ liệu cần được chú trọng.
Dự báo nhiều mẫu dựa trên bộ dữ liệu đã được huấn luyện
Tính toán và dự đoán các kết quả
Tạo nhiều thông tin để phản hồi và phân tích
Bộ dữ liệu khá lớn
Phân cụm dữ liệu một cách trực quan, sinh động
2.1.3 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu gồm 7 bước (Hình 2.1 minh họa).
Bước 1: Làm sạch dữ liệu Đây là bước đầu tiên trong quy trình khai phá dữ liệu
Bước này được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sử dụng trực tiếp
10 trong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo ra các kết quả không được chính xác
Bước 2: Tích hợp dữ liệu giúp tăng độ chính xác và tốc độ khai phá dữ liệu.
Bước 3: Giảm dung lượng dữ liệu mà vẫn đảm bảo tính toàn vẹn.
Bước 4: Chuyển đổi dữ liệu là bước quan trọng để chuẩn bị dữ liệu thô phù hợp với quy trình khai phá dữ liệu, tối ưu hiệu quả phân tích và làm nổi bật các mẫu dữ liệu Dữ liệu được hợp nhất nhằm tăng hiệu quả và minh bạch hóa mẫu.
Bước 5: Khai thác dữ liệu để xác định các mẫu và thông tin giá trị từ tập dữ liệu lớn.
Bước 6: Đánh giá mẫu dữ liệu để xác định kiến thức cần thiết và loại bỏ kiến thức dư thừa, sử dụng trực quan hóa và tóm tắt dữ liệu nhằm đảm bảo người dùng hiểu rõ bộ dữ liệu.
Bước 7: Dữ liệu được trình bày trong các báo cáo (bảng hoặc dạng khác) và gửi cho bộ phận xử lý thông tin.
Hình 2.1 Quy trình khai phá dữ liệu
Nguồn: insight.isb.edu.vn
2.1.4 Phương pháp khai phá dữ liệu
Bài viết này sử dụng phương pháp phân lớp (classification) – một kỹ thuật khai phá dữ liệu – để dự báo dữ liệu dựa trên bộ dữ liệu huấn luyện, nhằm phân loại và dự báo số liệu.
Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để khám phá và ánh xạ dữ liệu
Phân cụm là phương pháp nhóm dữ liệu thành các cụm có điểm tương đồng, giúp mô tả dữ liệu hiệu quả hơn.
Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một mô tả nhỏ gọn
Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mô hình cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hình ràng buộc
Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Mục đích của phương pháp này là để tìm ra những thay đổi quan trọng
2.1.5 Ứng dụng của khai phá dữ liệu trong đời sống
Khai phá dữ liệu ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm phân tích thị trường chứng khoán, phát hiện gian lận, quản trị rủi ro doanh nghiệp, bán lẻ, trí tuệ nhân tạo, thương mại điện tử và phòng chống tội phạm.
2.1.6 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange
Orange là phần mềm mã nguồn mở mạnh mẽ, cung cấp giao diện trực quan và thân thiện để khai thác, phân tích dữ liệu chính xác Phần mềm kết hợp trực quan hóa dữ liệu, học máy và khai phá dữ liệu, được xây dựng trên Python, hỗ trợ người dùng phân tích dữ liệu một cách hiệu quả.
Orange là phần mềm tự động hóa khai phá dữ liệu, nổi bật với giao diện thân thiện và dễ sử dụng nhờ bố cục trực quan, logic Vì vậy, Orange được chọn làm công cụ chính trong nghiên cứu này.
Các mô hình phân lớp dữ liệu
Phân lớp dữ liệu là hướng nghiên cứu chủ chốt trong khai phá dữ liệu Dữ liệu có cấu trúc, gồm các thuộc tính và giá trị tương ứng, mỗi giá trị là một phần tử (mẫu, đối tượng ) Mỗi phần tử thuộc về một lớp định trước, dựa trên giá trị của một thuộc tính.
Bài viết này trình bày 13 thuộc tính phân lớp và các phương pháp phân lớp dữ liệu, bao gồm quy tắc if-then, cây quyết định, hồi quy logistic và mạng lưới neural.
Hồi quy Logistic dự đoán xác suất của biến phụ thuộc rời rạc dựa trên một hoặc nhiều biến độc lập (liên tục hoặc phân loại) Mô hình này sử dụng vector đầu vào để tính toán xác suất quan sát thuộc các loại khác nhau.
Chúng ta có thể biểu diễn công thức của phương pháp hồi quy Logistic như sau:
Biểu thức 2.1 Công thức tính của Phương pháp hồi quy Logistic
Mô hình sử dụng trọng số `w` (khởi tạo ngẫu nhiên và được điều chỉnh) cho mỗi thuộc tính `d` của dữ liệu.
Hình 2.2 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic
Nguồn: Tác giả tổng hợp
Mô hình cây quyết định là một cấu trúc cây phân cấp phân loại đối tượng dựa trên luật Thuộc tính đối tượng có thể là nhị phân, định danh hoặc thứ tự.
Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal Ưu điểm:
- Không đòi hỏi việc chuẩn hóa dữ liệu
- Có thể xử lý trên nhiều kiểu dữ liệu khác nhau
- Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn
- Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian
- Chi phí xây dựng mô hình cao
Hình 2.3: Mô Hình Decision Tree
Nguồn: Tác giả tổng hợp
2.2.3 Mô Hình Support Vector Machine
SVM là thuật toán giám sát chủ yếu dùng cho phân loại Dữ liệu được biểu diễn bằng các điểm trong không gian nhiều chiều, mỗi chiều tương ứng với một tính năng.
SVM phân loại dữ liệu bằng cách xây dựng siêu phẳng tối ưu trong không gian nhiều chiều để phân cách các lớp Siêu phẳng này được xác định sao cho khoảng cách (margin) đến các điểm dữ liệu của tất cả các lớp là lớn nhất, đảm bảo kết quả phân loại tối ưu.
SVM sở hữu nhiều biến thể, phù hợp đa dạng bài toán phân loại Hiểu rõ khái niệm Margin và Support Vector là chìa khóa nắm vững thuật toán này.
Margin là khoảng cách giữa siêu phẳng phân chia dữ liệu và điểm dữ liệu gần nhất của mỗi lớp.
SVM tối ưu hóa bằng cách tối đa hóa margin, tìm siêu phẳng tối ưu để phân loại dữ liệu hai lớp, giảm thiểu sai số phân loại dữ liệu mới.
Bài toán Support Vector Machine (SVM) tìm siêu phẳng tối ưu phân chia dữ liệu thành hai lớp bằng cách tối đa hóa khoảng cách giữa hai đường biên Các điểm dữ liệu nằm trên hai đường biên này gọi là support vector, đóng vai trò quyết định trong việc xác định siêu phẳng.
Hình 2.4: Hình ảnh minh họa Margin và Support Vectors
Nguồn: Tác giả tổng hợp
Mạng Neural nhân tạo (Neural Network) là chuỗi thuật toán mô phỏng bộ não người, xác định mối quan hệ trong dữ liệu Khả năng thích ứng cao với dữ liệu đầu vào khác nhau, tự động đưa ra kết quả tối ưu mà không cần định nghĩa tiêu chí đầu ra.
Quy trình phân lớp dữ liệu
Phân lớp dữ liệu gán đối tượng vào các lớp đã định sẵn dựa trên mô hình huấn luyện từ dữ liệu có nhãn.
Phân lớp dữ liệu, hay gán nhãn đối tượng, là một dạng phân tích dữ liệu quan trọng, giúp xây dựng mô hình mô tả các lớp dữ liệu và dự đoán xu hướng tương lai.
Quy trình phân lớp dữ liệu gồm hai bước như sau:
- Bước 1: Xây dựng mô hình phân lớp (Learning)
Quá trình huấn luyện nhằm xây dựng một mô hình mô tả một tập dữ liệu sẵn có
Mô hình phân lớp được huấn luyện từ tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, mỗi phần tử dữ liệu (ví dụ: đối tượng, trường hợp) thuộc về một lớp dựa trên thuộc tính phân lớp.
Hình 2.5: Mô hình phân lớp đã được huấn luyện
Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
- Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Mô hình sử dụng tập dữ liệu kiểm thử độc lập, được gán nhãn và tiền xử lý tương tự tập huấn luyện Tuy nhiên, nhãn này không được dùng làm đầu vào cho quá trình phân lớp.
Holdout là kỹ thuật đơn giản đánh giá độ chính xác mô hình phân lớp bằng cách so sánh nhãn dự đoán với nhãn thực tế trong tập dữ liệu Độ chính xác cao cho phép mô hình phân lớp dữ liệu mới hiệu quả.
Hình 2.6.1: Mô hình sẽ được sử dụng để phân lớp những dữ liệu cần thiết trong tương lai
Thuộc tính bị “lờ” đi
Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
Bước 2.2: Phân lớp dữ liệu mới
+ Ở bước này, dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
+Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1
Hình 2.6.2: Mô hình sẽ được sử dụng để phân lớp những dữ liệu cần thiết trong tương lai
Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
2.3.2 Đánh Giá Tính Hiệu Quả
Đánh giá mô hình phân lớp xác định hiệu quả của mô hình trên dữ liệu cụ thể, giúp quyết định việc sử dụng mô hình.
Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu (tránh underfitting và overfitting)
Mô hình tốt là mô hình có độ khớp tốt (good fitting), cho kết quả hợp lý cả trên tập dữ liệu huấn luyện và dữ liệu mới, đảm bảo tính tổng quát và khả năng dự đoán chính xác Kết quả đạt được phải chấp nhận được trên cả dữ liệu mẫu và dữ liệu chưa từng gặp.
Trong tất cả các giả thiết có thể giải thích được một hiện tượng, ta nên chọn giả thiết đơn giản nhất (Occam’s Razor)
=> Do đó trong tất cả các model “đúng”, chọn model đơn giản nhất
Underfitting xảy ra khi mô hình không phù hợp với dữ liệu huấn luyện và dự đoán kém trên cả dữ liệu mới, do độ phức tạp chưa đủ để nắm bắt các mẫu dữ liệu, dẫn đến độ chính xác thấp.
Quá khớp (overfitting) xảy ra khi mô hình học thuộc lòng dữ liệu huấn luyện, dẫn đến dự đoán kém trên dữ liệu mới do mô hình bị nhiễu Hiện tượng này thường xuất hiện với mô hình phức tạp và dữ liệu huấn luyện nhỏ, gây ra độ chính xác cao trên dữ liệu huấn luyện nhưng thấp trên dữ liệu chưa thấy (high variance).