1. Trang chủ
  2. » Luận Văn - Báo Cáo

kỹ thuật khai phá dữ liệu cây quyết định

36 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 2

THÀNH VIÊN NHÓM 11

ID3, C4.5

NGÔ TRƯƠNG HOÀNG NGỌC

Phân loại dữ liệu, dự

đoán và các lĩnh vực phổ biến

PHAN THỊ HỒNG THÚY

Giới thiệu khai phá dữ liệu và cây quyết định

PHẠM THÚY DIỄM QUỲNH

02

Trang 3

ỨNG DỤNG

Dự đoán tỷ lệ rời bỏ khách hàng của ngân hàng

0304

Trang 5

SỰ CẦN THIẾT CỦA KHAI PHÁ DỮ LIỆU TRONG THỜI ĐẠI SỐ HÓA

• Mọi dữ liệu hàng ngày đều được thu thập và trở thành phần của big data.

• Bigdata không chỉ hỗ trợ nghiên cứu khoa học mà còn phân tích hành vi tiêu dùng, từ đó mang lại lợi ích cho cả doanh nghiệp và khách hàng.

• Dữ liệu - được mệnh danh là “dầu mỏ mới”.

• Nâng cao khả năng cạnh tranh, đóng góp vào sự tiến bộ và phát triển bền vững của xã hội.

Trang 6

• Hỗ trợ ra quyết định dựa trên dữ liệu

VAI TRÒ QUAN TRỌNG CỦA CÂY QUYẾT ĐỊNH

TRONG KHAI PHÁ DỮ LIỆU

• Diễn giải cao, cung cấp một cách tiếp cận trực quan, dễ hiểu

• Giúp “nhìn thấy” thông tin và “hiểu được” dữ liệu

(Nguồn: Viblo)

06

Trang 7

CÂY QUYẾT ĐỊNH

ĐỊNH NGHĨA

Tạo mô hình dự đoán giá trị của biến mục tiêu bằng cách tìm hiểu các quy tắc quyết định đơn giản được suy ra từ đặc điểm dữ liệu

MỤC TIÊU

Cấu trúc phân cấp, dễ dàng điều hướng và tìm kiếm

CẤU TRÚC

Mỗi nút bên trong biểu thị tính năng, các nhánh

biểu thị các quy tắc và các nút lá biểu thị kết quả của thuật toán.Một thuật toán máy học

có giám sát, phân loại và hồi quy

Trang 10

CÁC BƯỚC TẠO CÂY QUYẾT ĐỊNH

Tìm thuộc tính tốt nhất

BƯỚC 02

Tạo đệ quy các cây quyết định mới, “nút lá” cuối cùng, đại diện cho các kết quả hoặc

phân loại được dự đoán

BƯỚC 05

Chia “nút gốc” thành các tập con

BƯỚC 03

Thuật toán bắt đầu ở trên cùng, “nút gốc”, đại diện cho toàn bộ tập

Trang 11

THUẬT TOÁN

CÂY QUYẾT ĐỊNH

ID3, C4.5, CART,

Trang 12

THUẬT TOÁN ID3

Information Gain

Entropy

• H(p) là phân phối xác suất của các giá trị khác nhau mà biến rời rạc có thể nhận• ( pi ) là xác suất của giá trị thứ ( i ).

• H(S) là Entropy của toàn bộ tập dữ liệu ( S )

• H(f, S) là Entropy khi chia tập ( S ) dựa trên thuộc tính ( f )

12

Trang 13

THUẬT TOÁN C4.5

SPLITINFOR Gain Ratio

Trang 14

THUẬT TOÁN CLS

• Đơn giản, dễ cài đặt

• Thiết kế theo chiến lược chia để trị từ trên xuống

• Áp dụng cho các CSDL số lượng các thuộc tính nhỏ

• CSDL lớn và chứa các thuộc tính mà giá trị của nó là liên tục thì CLS làm việc ít hiệu quả

14

Trang 15

ỨNG DỤNG

CÂY QUYẾT ĐỊNH

Trang 16

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

PHÂN LOẠI DỮ LIỆU

Phân loại thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung và Đỗ Thanh Nghị)

PHÂN LOẠI DỮ LIỆU VĂN BẢN

Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)

PHÂN LOẠI KHÁCH HÀNG

Mô hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường đại học (Đào Việt Anh)

PHÂN LOẠI ỨNG VIÊN

16

Trang 17

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

DỰ ĐOÁN QUYẾT ĐỊNH

Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Nguyễn Thị Tâm Minh)

DỰ DOÁN RỦI RO TÍN

Hệ thống chuẩn đoán bệnh tự kỷ sử dụng cây quyết định (Nguyễn Văn Hiệu , Đỗ Thị Thu Hà)

DỰ ĐOÁN BỆNH LÝ

Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học (Nguyễn Văn

DỰ ĐOÁN NGÀNH HỌC

PHÙ HỢP Ứng dụng cây quyết

định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)

TỐI ƯU HÓA QUYẾT ĐỊNH

KINH DOAN

Trang 18

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

LĨNH VỰC ỨNG DỤNG PHỔ BIẾN

Ứng dụng phân lớp dữ liệu trong dự báo khách hàng rời bỏ dịch vụ tại ngân hàng thương mại (Vũ Văn Hiệu, Trương Hải Nam)

TIẾP THỊ

Nghiên cứu các mô hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh nghiệp tại ngân hàng (Quan Toại Mẫn)

TÀI CHÍNH

Ứng dụng kỹ thuật học máy vào phân loại bệnh tim (Trần Đình Toàn, Dương Thị Mộng Thùy)

Y TẾ

Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương (Nguyễn Hữu Cường)

NÔNG NGHIỆP

18

Trang 19

HÀNH VI MUA SẮM TRỰC TUYẾN

CỦA KHÁCH HÀNG

Trang 20

MÔI TRƯỜNG THỰC HIỆN

Công cụ mạnh mẽ cho khai thác dữ liệu và phân tích dữ liệu.

Giao diện người dùng đồ họa dễ sử dụng, cho phép người dùng thực hiện các công việc phức tạp trong phân tích dữ liệu mà không cần kiến thức sâu về lập trình.

20

Trang 21

TẬP DỮ LIỆU

Lấy từ UCI Machine Learning.

Trong đó có 10422 khách hàng chưa hoàn tất giao dịch chiếm 84,5% được gán nhãn Revenue là 1 và 1908 khách hàng hoàn tất giao dịch chiến 15,5% được gán nhãn Revenue là 0.

Tập dữ liệu chức 18 thuộc tính và 12330 dòng dữ liệu

Trang 22

Bỏ qua các đặc trưng không cần thiết

XỬ LÝ DỮ LIỆU

22

Trang 23

Lựa chọn Revenue làm biến mục tiêu

XỬ LÝ DỮ LIỆU

Trang 24

Kiểm tra dữ liệu có 0,1% chứa các giá trị trống

XỬ LÝ DỮ LIỆU

24

Trang 25

Sử dụng tính năng Impute để loại bỏ dữ liệu trống.

XỬ LÝ DỮ LIỆU

Trang 26

Xóa outlier bằng phương thức One class SVM

XỬ LÝ DỮ LIỆU

26

Trang 27

Sau khi loại bỏ outlier dữ liệu còn 6156 dòng

XỬ LÝ DỮ LIỆU

Trang 28

TRIỂN KHAI MÔ HÌNH

Chia tập dữ liệu thành tập train và tập test bằng tính năng Data Sample với tỷ lệ 80/20

4927 dòng làm tập train

28

Trang 29

Tạo ra một cây quyết định nhị phân

Số lượng tối thiểu của các mẫu trong lá

TRIỂN KHAI MÔ HÌNH

xác định giới hạn cho độ sâu tối đa của cây quyết định

Không chia tập con nhỏ hơn

Dừng lại khi một phần lớn của các mẫu trong một nút thuộc vào cùng một lớp

Trang 30

KẾT QUẢ

Sử dụng tính năng Tree View để xuất kết quả cho thấy có 287 nút và 144 lá

30

Trang 31

False Positive True Positive

ĐÁNH GIÁ KẾT QUẢ

False Negative

True Negative

Trang 32

ĐÁNH GIÁ KẾT QUẢ

Đánh giá trên tập testChỉ số đánh giá

32

Trang 33

ĐÁNH GIÁ KẾT QUẢ

Độ chuẩnPrecision

F1-scoreĐộ chính xác

Đường cong ROC

Trang 35

TÀI LIỆU THAM KHẢO

• [1] Đ V Anh, “Mô hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường đại học,” 2019.

• [2] N V Hiệu, Đ T T Hà, “Hệ thống chẩn đoán bệnh tự kỷ sử dụng cây quyết định,” 2015.

• [18] N T T Minh, “Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng,” 2011.

• [3] N V Chức, T T K Hằng, “Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự đoán bệnh đái tháo đường,” 2014.

• [4] Q T Mẫn, “Nghiên cứu các mô hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh nghiệp tại ngân hàng,” 2023 [Trực tuyến] Available:

• https://digital.lib.ueh.edu.vn/handle/UEH/69155 [Đã truy cập 30 April 2024].

• [5] T Đ Toàn, D T M Thùy, “Ứng dụng kỹ thuật máy học vào phân loại bệnh tim, 2022.

• [6] N H Cường (2018) Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương Tạp chí Khoa học Đại học cần Thơ, 54(3), 84-93

• [7] Đ V Nam, N T P Bắc, N T H Yến, “Nghiên cứu và sử dụng cây quyết định trong bài toán tuyển dụng nhân sự,” 2018.

• [8] N V Chức, "Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học," 2014.

• [9] N D Hùng, “Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại,” 2014.

• [10] H P Toàn, N V Lâm, N M Trung, Đ T Nghị, “Phân loại thư rác với giải thuật Boosting cây quyết

Trang 36

f o r l i s t e n i n g

Ngày đăng: 18/05/2024, 07:22