1. Trang chủ
  2. » Luận Văn - Báo Cáo

kỹ thuật khai phá dữ liệu cây quyết định

36 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Kỹ Thuật Khai Phá Dữ Liệu Cây Quyết Định
Tác giả Phạm Thúy Diễm Quỳnh, Phan Thị Hồng Thúy, Ngô Trương Hoàng
Trường học Đại học James Cook Singapore
Định dạng
Số trang 36
Dung lượng 4,62 MB

Nội dung

• Hỗ trợ ra quyết định dựa trên dữ liệuVAI TRÒ QUAN TRỌNG CỦA CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU • Diễn giải cao, cung cấp một cách tiếp cận trực quan, dễ hiểu • Giúp “nhìn thấy” thô

Trang 2

PHAN THỊ HỒNG THÚY

Giới thiệu khai phá dữ

liệu và cây quyết định

PHẠM THÚY DIỄM

QUỲNH

0 2

Trang 3

ỨNG DỤNG

Dự đoán tỷ lệ rời bỏ khách hàng của ngân hàng

DEMO

Giới thiệu khai phá dữ

liệu và cây quyết định

1 0 2

0 3 0 4

Trang 5

SỰ CẦN THIẾT CỦA KHAI PHÁ DỮ LIỆU TRONG

THỜI ĐẠI SỐ HÓA

• Mọi dữ liệu hàng ngày đều được thu thập và

trở thành phần của big data

• Bigdata không chỉ hỗ trợ nghiên cứu khoa học

mà còn phân tích hành vi tiêu dùng, từ đó mang

lại lợi ích cho cả doanh nghiệp và khách hàng

• Dữ liệu - được mệnh danh là “dầu mỏ mới”

• Nâng cao khả năng cạnh tranh, đóng góp vào

sự tiến bộ và phát triển bền vững của xã hội

Trang 6

• Hỗ trợ ra quyết định dựa trên dữ liệu

VAI TRÒ QUAN TRỌNG CỦA CÂY QUYẾT ĐỊNH

TRONG KHAI PHÁ DỮ LIỆU

• Diễn giải cao, cung cấp một cách tiếp cận trực quan, dễ hiểu

• Giúp “nhìn thấy” thông tin và “hiểu được” dữ liệu

(Nguồn: Viblo)

0 6

Trang 7

CÂY QUYẾT ĐỊNH

ĐỊNH NGHĨA

Tạo mô hình dự đoán giá

trị của biến mục tiêu bằng

cách tìm hiểu các quy tắc

quyết định đơn giản được

suy ra từ đặc điểm dữ liệu

MỤC TIÊU

Cấu trúc phân cấp, dễ dàng điều hướng và tìm kiếm

CẤU TRÚC

Mỗi nút bên trong biểu thị tính năng, các nhánh

biểu thị các quy tắc và các nút lá biểu thị kết quả của thuật toán

Một thuật toán máy học

có giám sát, phân loại và

hồi quy

Trang 10

CÁC BƯỚC TẠO CÂY QUYẾT ĐỊNH

Tìm thuộc tính tốt nhất

BƯỚC 02

Tạo đệ quy các cây quyết định mới, “nút lá” cuối cùng, đại diện cho các kết quả hoặc

phân loại được dự đoán

Trang 11

THUẬT TOÁN

CÂY QUYẾT

ĐỊNH

ID3, C4.5, CART,

Trang 12

THUẬT TOÁN ID3

Information

Gain Entropy

• H(p) là phân phối xác suất của các giá

trị khác nhau mà biến rời rạc có thể nhận

• ( pi ) là xác suất của giá trị thứ ( i )

• H(S) là Entropy của toàn bộ tập dữ liệu ( S )

• H(f, S) là Entropy khi chia tập ( S ) dựa trên thuộc tính ( f )

1 2

Trang 13

THUẬT TOÁN C4.5

SPLITINFOR Gain Ratio

Trang 14

THUẬT TOÁN CLS

• Đơn giản, dễ cài đặt

• Thiết kế theo chiến lược chia để trị từ trên

xuống

• Áp dụng cho các CSDL số lượng các thuộc tính

nhỏ

• CSDL lớn và chứa các thuộc tính mà giá trị của

nó là liên tục thì CLS làm việc ít hiệu quả

1 4

Trang 15

ỨNG DỤNG

CÂY QUYẾT

ĐỊNH

Trang 16

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

PHÂN LOẠI DỮ LIỆU

Phân loại thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung

và Đỗ Thanh Nghị)

PHÂN LOẠI

DỮ LIỆU VĂN BẢN

PHÂN LOẠI ỨNG VIÊN

1 6

Trang 17

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

DỰ ĐOÁN QUYẾT ĐỊNH

Ứng dụng cây quyết định để dự đoán chỉ

số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Nguyễn Thị Tâm Minh)

DỰ DOÁN RỦI RO TÍN

DỰ ĐOÁN NGÀNH HỌC PHÙ HỢP Ứng dụng cây quyết

định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)

TỐI ƯU HÓA QUYẾT ĐỊNH KINH DOAN

Trang 18

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

Y TẾ

Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương (Nguyễn Hữu Cường)

NÔNG NGHIỆP

1 8

Trang 19

HÀNH VI MUA SẮM

TRỰC TUYẾN

CỦA KHÁCH HÀNG

Trang 20

MÔI TRƯỜNG THỰC HIỆN

Công cụ mạnh mẽ cho khai thác

dữ liệu và phân tích dữ liệu

Giao diện người dùng đồ họa dễ

sử dụng, cho phép người dùng

thực hiện các công việc phức

tạp trong phân tích dữ liệu mà

không cần kiến thức sâu về lập

trình

2 0

Trang 22

Bỏ qua các đặc trưng không cần thiết

XỬ LÝ DỮ LIỆU

2 2

Trang 23

Lựa chọn Revenue làm biến

mục tiêu

XỬ LÝ DỮ LIỆU

Trang 24

Kiểm tra dữ liệu có 0,1% chứa

các giá trị trống

XỬ LÝ DỮ LIỆU

2 4

Trang 25

Sử dụng tính năng Impute để

loại bỏ dữ liệu trống

XỬ LÝ DỮ LIỆU

Trang 26

Xóa outlier bằng phương thức

One class SVM

XỬ LÝ DỮ LIỆU

2 6

Trang 27

Sau khi loại bỏ outlier dữ liệu còn

6156 dòng

XỬ LÝ DỮ LIỆU

Trang 28

TRIỂN KHAI MÔ HÌNH

Chia tập dữ liệu thành tập train

và tập test bằng tính năng

Data Sample với tỷ lệ 80/20

4927 dòng làm tập train

2 8

Trang 29

Tạo ra một cây quyết định nhị phân

Số lượng tối thiểu của các

Trang 30

KẾT QUẢ

Sử dụng tính năng

Tree View để xuất

kết quả cho thấy có

287 nút và 144 lá

3 0

Trang 31

False Positive True Positive

ĐÁNH GIÁ KẾT QUẢ

False Negative

True Negative

Trang 32

ĐÁNH GIÁ KẾT QUẢ

Đánh giá trên tập test

Chỉ số đánh giá

3 2

Trang 33

ĐÁNH GIÁ KẾT QUẢ

Độ chuẩn

PrecisionF1-score

Độ chính xác

Đường cong

ROC

Trang 34

HƯỚNG PHÁT TRIỂN

• Tối ưu hóa tham số

• Xử lý mất cân bằng dữ liệu

• Sử dụng các mô hình học máy khác nhau

• Kiểm định và đánh giá hiệu suất của nó

trên các tập dữ liệu mới

3 4

Trang 35

TÀI LIỆU THAM KHẢO

• [1] Đ V Anh, “Mô hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường

đại học,” 2019.

• [2] N V Hiệu, Đ T T Hà, “Hệ thống chẩn đoán bệnh tự kỷ sử dụng cây quyết định,” 2015.

• [18] N T T Minh, “Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng,”

2011.

• [3] N V Chức, T T K Hằng, “Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự đoán bệnh đái

tháo đường,” 2014.

• [4] Q T Mẫn, “Nghiên cứu các mô hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh

nghiệp tại ngân hàng,” 2023 [Trực tuyến] Available:

• https://digital.lib.ueh.edu.vn/handle/UEH/69155 [Đã truy cập 30 April 2024].

• [5] T Đ Toàn, D T M Thùy, “Ứng dụng kỹ thuật máy học vào phân loại bệnh tim, 2022.

• [6] N H Cường (2018) Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên

địa bàn huyện Phú Giáo, tỉnh Bình Dương Tạp chí Khoa học Đại học cần Thơ, 54(3), 84-93

• [7] Đ V Nam, N T P Bắc, N T H Yến, “Nghiên cứu và sử dụng cây quyết định trong bài toán tuyển

dụng nhân sự,” 2018.

• [8] N V Chức, "Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn

ngành tuyển sinh đại học," 2014.

• [9] N D Hùng, “Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng

thương mại,” 2014.

• [10] H P Toàn, N V Lâm, N M Trung, Đ T Nghị, “Phân loại thư rác với giải thuật Boosting cây quyết

Trang 36

3 6

Thaks

f o r l i s t e n i n g

Ngày đăng: 18/05/2024, 07:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w