• Hỗ trợ ra quyết định dựa trên dữ liệuVAI TRÒ QUAN TRỌNG CỦA CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU • Diễn giải cao, cung cấp một cách tiếp cận trực quan, dễ hiểu • Giúp “nhìn thấy” thô
Trang 2PHAN THỊ HỒNG THÚY
Giới thiệu khai phá dữ
liệu và cây quyết định
PHẠM THÚY DIỄM
QUỲNH
0 2
Trang 3ỨNG DỤNG
Dự đoán tỷ lệ rời bỏ khách hàng của ngân hàng
DEMO
Giới thiệu khai phá dữ
liệu và cây quyết định
1 0 2
0 3 0 4
Trang 5SỰ CẦN THIẾT CỦA KHAI PHÁ DỮ LIỆU TRONG
THỜI ĐẠI SỐ HÓA
• Mọi dữ liệu hàng ngày đều được thu thập và
trở thành phần của big data
• Bigdata không chỉ hỗ trợ nghiên cứu khoa học
mà còn phân tích hành vi tiêu dùng, từ đó mang
lại lợi ích cho cả doanh nghiệp và khách hàng
• Dữ liệu - được mệnh danh là “dầu mỏ mới”
• Nâng cao khả năng cạnh tranh, đóng góp vào
sự tiến bộ và phát triển bền vững của xã hội
Trang 6• Hỗ trợ ra quyết định dựa trên dữ liệu
VAI TRÒ QUAN TRỌNG CỦA CÂY QUYẾT ĐỊNH
TRONG KHAI PHÁ DỮ LIỆU
• Diễn giải cao, cung cấp một cách tiếp cận trực quan, dễ hiểu
• Giúp “nhìn thấy” thông tin và “hiểu được” dữ liệu
(Nguồn: Viblo)
0 6
Trang 7CÂY QUYẾT ĐỊNH
ĐỊNH NGHĨA
Tạo mô hình dự đoán giá
trị của biến mục tiêu bằng
cách tìm hiểu các quy tắc
quyết định đơn giản được
suy ra từ đặc điểm dữ liệu
MỤC TIÊU
Cấu trúc phân cấp, dễ dàng điều hướng và tìm kiếm
CẤU TRÚC
Mỗi nút bên trong biểu thị tính năng, các nhánh
biểu thị các quy tắc và các nút lá biểu thị kết quả của thuật toán
Một thuật toán máy học
có giám sát, phân loại và
hồi quy
Trang 10CÁC BƯỚC TẠO CÂY QUYẾT ĐỊNH
Tìm thuộc tính tốt nhất
BƯỚC 02
Tạo đệ quy các cây quyết định mới, “nút lá” cuối cùng, đại diện cho các kết quả hoặc
phân loại được dự đoán
Trang 11THUẬT TOÁN
CÂY QUYẾT
ĐỊNH
ID3, C4.5, CART,
Trang 12THUẬT TOÁN ID3
Information
Gain Entropy
• H(p) là phân phối xác suất của các giá
trị khác nhau mà biến rời rạc có thể nhận
• ( pi ) là xác suất của giá trị thứ ( i )
• H(S) là Entropy của toàn bộ tập dữ liệu ( S )
• H(f, S) là Entropy khi chia tập ( S ) dựa trên thuộc tính ( f )
1 2
Trang 13THUẬT TOÁN C4.5
SPLITINFOR Gain Ratio
Trang 14THUẬT TOÁN CLS
• Đơn giản, dễ cài đặt
• Thiết kế theo chiến lược chia để trị từ trên
xuống
• Áp dụng cho các CSDL số lượng các thuộc tính
nhỏ
• CSDL lớn và chứa các thuộc tính mà giá trị của
nó là liên tục thì CLS làm việc ít hiệu quả
1 4
Trang 15ỨNG DỤNG
CÂY QUYẾT
ĐỊNH
Trang 16ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH
PHÂN LOẠI DỮ LIỆU
Phân loại thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung
và Đỗ Thanh Nghị)
PHÂN LOẠI
DỮ LIỆU VĂN BẢN
PHÂN LOẠI ỨNG VIÊN
1 6
Trang 17ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH
DỰ ĐOÁN QUYẾT ĐỊNH
Ứng dụng cây quyết định để dự đoán chỉ
số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Nguyễn Thị Tâm Minh)
DỰ DOÁN RỦI RO TÍN
DỰ ĐOÁN NGÀNH HỌC PHÙ HỢP Ứng dụng cây quyết
định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)
TỐI ƯU HÓA QUYẾT ĐỊNH KINH DOAN
Trang 18ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH
Y TẾ
Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương (Nguyễn Hữu Cường)
NÔNG NGHIỆP
1 8
Trang 19HÀNH VI MUA SẮM
TRỰC TUYẾN
CỦA KHÁCH HÀNG
Trang 20MÔI TRƯỜNG THỰC HIỆN
Công cụ mạnh mẽ cho khai thác
dữ liệu và phân tích dữ liệu
Giao diện người dùng đồ họa dễ
sử dụng, cho phép người dùng
thực hiện các công việc phức
tạp trong phân tích dữ liệu mà
không cần kiến thức sâu về lập
trình
2 0
Trang 22Bỏ qua các đặc trưng không cần thiết
XỬ LÝ DỮ LIỆU
2 2
Trang 23Lựa chọn Revenue làm biến
mục tiêu
XỬ LÝ DỮ LIỆU
Trang 24Kiểm tra dữ liệu có 0,1% chứa
các giá trị trống
XỬ LÝ DỮ LIỆU
2 4
Trang 25Sử dụng tính năng Impute để
loại bỏ dữ liệu trống
XỬ LÝ DỮ LIỆU
Trang 26Xóa outlier bằng phương thức
One class SVM
XỬ LÝ DỮ LIỆU
2 6
Trang 27Sau khi loại bỏ outlier dữ liệu còn
6156 dòng
XỬ LÝ DỮ LIỆU
Trang 28TRIỂN KHAI MÔ HÌNH
Chia tập dữ liệu thành tập train
và tập test bằng tính năng
Data Sample với tỷ lệ 80/20
4927 dòng làm tập train
2 8
Trang 29Tạo ra một cây quyết định nhị phân
Số lượng tối thiểu của các
Trang 30KẾT QUẢ
Sử dụng tính năng
Tree View để xuất
kết quả cho thấy có
287 nút và 144 lá
3 0
Trang 31False Positive True Positive
ĐÁNH GIÁ KẾT QUẢ
False Negative
True Negative
Trang 32ĐÁNH GIÁ KẾT QUẢ
Đánh giá trên tập test
Chỉ số đánh giá
3 2
Trang 33ĐÁNH GIÁ KẾT QUẢ
Độ chuẩn
PrecisionF1-score
Độ chính xác
Đường cong
ROC
Trang 34HƯỚNG PHÁT TRIỂN
• Tối ưu hóa tham số
• Xử lý mất cân bằng dữ liệu
• Sử dụng các mô hình học máy khác nhau
• Kiểm định và đánh giá hiệu suất của nó
trên các tập dữ liệu mới
3 4
Trang 35TÀI LIỆU THAM KHẢO
• [1] Đ V Anh, “Mô hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường
đại học,” 2019.
• [2] N V Hiệu, Đ T T Hà, “Hệ thống chẩn đoán bệnh tự kỷ sử dụng cây quyết định,” 2015.
• [18] N T T Minh, “Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng,”
2011.
• [3] N V Chức, T T K Hằng, “Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự đoán bệnh đái
tháo đường,” 2014.
• [4] Q T Mẫn, “Nghiên cứu các mô hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh
nghiệp tại ngân hàng,” 2023 [Trực tuyến] Available:
• https://digital.lib.ueh.edu.vn/handle/UEH/69155 [Đã truy cập 30 April 2024].
• [5] T Đ Toàn, D T M Thùy, “Ứng dụng kỹ thuật máy học vào phân loại bệnh tim, 2022.
• [6] N H Cường (2018) Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên
địa bàn huyện Phú Giáo, tỉnh Bình Dương Tạp chí Khoa học Đại học cần Thơ, 54(3), 84-93
• [7] Đ V Nam, N T P Bắc, N T H Yến, “Nghiên cứu và sử dụng cây quyết định trong bài toán tuyển
dụng nhân sự,” 2018.
• [8] N V Chức, "Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn
ngành tuyển sinh đại học," 2014.
• [9] N D Hùng, “Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng
thương mại,” 2014.
• [10] H P Toàn, N V Lâm, N M Trung, Đ T Nghị, “Phân loại thư rác với giải thuật Boosting cây quyết
Trang 363 6
Thaks
f o r l i s t e n i n g