THÀNH VIÊN NHÓM 11
ID3, C4.5
NGÔ TRƯƠNG HOÀNG NGỌC
Phân loại dữ liệu, dự
đoán và các lĩnh vực phổ biến
PHAN THỊ HỒNG THÚY
Giới thiệu khai phá dữ liệu và cây quyết định
PHẠM THÚY DIỄM QUỲNH
02
Trang 3ỨNG DỤNG
Dự đoán tỷ lệ rời bỏ khách hàng của ngân hàng
0304
Trang 5SỰ CẦN THIẾT CỦA KHAI PHÁ DỮ LIỆU TRONG THỜI ĐẠI SỐ HÓA
• Mọi dữ liệu hàng ngày đều được thu thập và trở thành phần của big data.
• Bigdata không chỉ hỗ trợ nghiên cứu khoa học mà còn phân tích hành vi tiêu dùng, từ đó mang lại lợi ích cho cả doanh nghiệp và khách hàng.
• Dữ liệu - được mệnh danh là “dầu mỏ mới”.
• Nâng cao khả năng cạnh tranh, đóng góp vào sự tiến bộ và phát triển bền vững của xã hội.
Trang 6• Hỗ trợ ra quyết định dựa trên dữ liệu
VAI TRÒ QUAN TRỌNG CỦA CÂY QUYẾT ĐỊNH
TRONG KHAI PHÁ DỮ LIỆU
• Diễn giải cao, cung cấp một cách tiếp cận trực quan, dễ hiểu
• Giúp “nhìn thấy” thông tin và “hiểu được” dữ liệu
(Nguồn: Viblo)
06
Trang 7CÂY QUYẾT ĐỊNH
ĐỊNH NGHĨA
Tạo mô hình dự đoán giá trị của biến mục tiêu bằng cách tìm hiểu các quy tắc quyết định đơn giản được suy ra từ đặc điểm dữ liệu
MỤC TIÊU
Cấu trúc phân cấp, dễ dàng điều hướng và tìm kiếm
CẤU TRÚC
Mỗi nút bên trong biểu thị tính năng, các nhánh
biểu thị các quy tắc và các nút lá biểu thị kết quả của thuật toán.Một thuật toán máy học
có giám sát, phân loại và hồi quy
Trang 10CÁC BƯỚC TẠO CÂY QUYẾT ĐỊNH
Tìm thuộc tính tốt nhất
BƯỚC 02
Tạo đệ quy các cây quyết định mới, “nút lá” cuối cùng, đại diện cho các kết quả hoặc
phân loại được dự đoán
BƯỚC 05
Chia “nút gốc” thành các tập con
BƯỚC 03
Thuật toán bắt đầu ở trên cùng, “nút gốc”, đại diện cho toàn bộ tập
Trang 11THUẬT TOÁN
CÂY QUYẾT ĐỊNH
ID3, C4.5, CART,
Trang 12THUẬT TOÁN ID3
Information Gain
Entropy
• H(p) là phân phối xác suất của các giá trị khác nhau mà biến rời rạc có thể nhận• ( pi ) là xác suất của giá trị thứ ( i ).
• H(S) là Entropy của toàn bộ tập dữ liệu ( S )
• H(f, S) là Entropy khi chia tập ( S ) dựa trên thuộc tính ( f )
12
Trang 13THUẬT TOÁN C4.5
SPLITINFOR Gain Ratio
Trang 14THUẬT TOÁN CLS
• Đơn giản, dễ cài đặt
• Thiết kế theo chiến lược chia để trị từ trên xuống
• Áp dụng cho các CSDL số lượng các thuộc tính nhỏ
• CSDL lớn và chứa các thuộc tính mà giá trị của nó là liên tục thì CLS làm việc ít hiệu quả
14
Trang 15ỨNG DỤNG
CÂY QUYẾT ĐỊNH
Trang 16ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH
PHÂN LOẠI DỮ LIỆU
Phân loại thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung và Đỗ Thanh Nghị)
PHÂN LOẠI DỮ LIỆU VĂN BẢN
Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)
PHÂN LOẠI KHÁCH HÀNG
Mô hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường đại học (Đào Việt Anh)
PHÂN LOẠI ỨNG VIÊN
16
Trang 17ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH
DỰ ĐOÁN QUYẾT ĐỊNH
Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Nguyễn Thị Tâm Minh)
DỰ DOÁN RỦI RO TÍN
Hệ thống chuẩn đoán bệnh tự kỷ sử dụng cây quyết định (Nguyễn Văn Hiệu , Đỗ Thị Thu Hà)
DỰ ĐOÁN BỆNH LÝ
Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học (Nguyễn Văn
DỰ ĐOÁN NGÀNH HỌC
PHÙ HỢP Ứng dụng cây quyết
định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)
TỐI ƯU HÓA QUYẾT ĐỊNH
KINH DOAN
Trang 18ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH
LĨNH VỰC ỨNG DỤNG PHỔ BIẾN
Ứng dụng phân lớp dữ liệu trong dự báo khách hàng rời bỏ dịch vụ tại ngân hàng thương mại (Vũ Văn Hiệu, Trương Hải Nam)
TIẾP THỊ
Nghiên cứu các mô hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh nghiệp tại ngân hàng (Quan Toại Mẫn)
TÀI CHÍNH
Ứng dụng kỹ thuật học máy vào phân loại bệnh tim (Trần Đình Toàn, Dương Thị Mộng Thùy)
Y TẾ
Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương (Nguyễn Hữu Cường)
NÔNG NGHIỆP
18
Trang 19HÀNH VI MUA SẮM TRỰC TUYẾN
CỦA KHÁCH HÀNG
Trang 20MÔI TRƯỜNG THỰC HIỆN
Công cụ mạnh mẽ cho khai thác dữ liệu và phân tích dữ liệu.
Giao diện người dùng đồ họa dễ sử dụng, cho phép người dùng thực hiện các công việc phức tạp trong phân tích dữ liệu mà không cần kiến thức sâu về lập trình.
20
Trang 21TẬP DỮ LIỆU
Lấy từ UCI Machine Learning.
Trong đó có 10422 khách hàng chưa hoàn tất giao dịch chiếm 84,5% được gán nhãn Revenue là 1 và 1908 khách hàng hoàn tất giao dịch chiến 15,5% được gán nhãn Revenue là 0.
Tập dữ liệu chức 18 thuộc tính và 12330 dòng dữ liệu
Trang 22Bỏ qua các đặc trưng không cần thiết
XỬ LÝ DỮ LIỆU
22
Trang 23Lựa chọn Revenue làm biến mục tiêu
XỬ LÝ DỮ LIỆU
Trang 24Kiểm tra dữ liệu có 0,1% chứa các giá trị trống
XỬ LÝ DỮ LIỆU
24
Trang 25Sử dụng tính năng Impute để loại bỏ dữ liệu trống.
XỬ LÝ DỮ LIỆU
Trang 26Xóa outlier bằng phương thức One class SVM
XỬ LÝ DỮ LIỆU
26
Trang 27Sau khi loại bỏ outlier dữ liệu còn 6156 dòng
XỬ LÝ DỮ LIỆU
Trang 28TRIỂN KHAI MÔ HÌNH
Chia tập dữ liệu thành tập train và tập test bằng tính năng Data Sample với tỷ lệ 80/20
4927 dòng làm tập train
28
Trang 29Tạo ra một cây quyết định nhị phân
Số lượng tối thiểu của các mẫu trong lá
TRIỂN KHAI MÔ HÌNH
xác định giới hạn cho độ sâu tối đa của cây quyết định
Không chia tập con nhỏ hơn
Dừng lại khi một phần lớn của các mẫu trong một nút thuộc vào cùng một lớp
Trang 30KẾT QUẢ
Sử dụng tính năng Tree View để xuất kết quả cho thấy có 287 nút và 144 lá
30
Trang 31False Positive True Positive
ĐÁNH GIÁ KẾT QUẢ
False Negative
True Negative
Trang 32ĐÁNH GIÁ KẾT QUẢ
Đánh giá trên tập testChỉ số đánh giá
32
Trang 33ĐÁNH GIÁ KẾT QUẢ
Độ chuẩnPrecision
F1-scoreĐộ chính xác
Đường cong ROC
Trang 35TÀI LIỆU THAM KHẢO
• [1] Đ V Anh, “Mô hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường đại học,” 2019.
• [2] N V Hiệu, Đ T T Hà, “Hệ thống chẩn đoán bệnh tự kỷ sử dụng cây quyết định,” 2015.
• [18] N T T Minh, “Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng,” 2011.
• [3] N V Chức, T T K Hằng, “Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự đoán bệnh đái tháo đường,” 2014.
• [4] Q T Mẫn, “Nghiên cứu các mô hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh nghiệp tại ngân hàng,” 2023 [Trực tuyến] Available:
• https://digital.lib.ueh.edu.vn/handle/UEH/69155 [Đã truy cập 30 April 2024].
• [5] T Đ Toàn, D T M Thùy, “Ứng dụng kỹ thuật máy học vào phân loại bệnh tim, 2022.
• [6] N H Cường (2018) Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương Tạp chí Khoa học Đại học cần Thơ, 54(3), 84-93
• [7] Đ V Nam, N T P Bắc, N T H Yến, “Nghiên cứu và sử dụng cây quyết định trong bài toán tuyển dụng nhân sự,” 2018.
• [8] N V Chức, "Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học," 2014.
• [9] N D Hùng, “Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại,” 2014.
• [10] H P Toàn, N V Lâm, N M Trung, Đ T Nghị, “Phân loại thư rác với giải thuật Boosting cây quyết
Trang 36f o r l i s t e n i n g