Tập thuộc tính sau khi canh tác dữ liệu

- Tuổi

- Huyết áp

- Đau bụng

- Ói mửa

- Dung tích hồng cầu (Hematocrit) Hct

- Tiểu cầu

- Tỉnh hay hôn mê, đến khám (nhập viện) ngày thứ mấy của bệnh.

2.4 KẾT CHƯƠNG

Chương II đã trình bày các nội dung chính sau:

- Giới thiệu khái niệm khai phá dữ liệu có canh tác dữ liệu. - Các quy trình và các phương pháp khai phá dữ liệu có canh tác

dữ liệu.

- Ứng dụng canh tác dữ liệu y khoa cụ thể là bệnh nhân sốt xuất huyết.

Kỹ thuật khai phá dữ liệu là công cụ quan trọng trong quá trình KDD và KPDL. KPDL thành công hay không phụ thuộc vào kỹ thuật khai phá, kỹ thuật khai phá ví như đào núi tìm vàng phải nhờ vào công cụ khai phá tinh vi thì mới có thể dễ dàng tìm ra vàng. Chương kế tiếp sẽ trình bày kỹ thuật khai phá dữ liệu bằng cây quyết định. Đây là một trong những kỹ thuật phân lớp dữ liệu đơn giản nhưng mạnh mẽ được ứng dụng thành công trong phân lớp dữ liệu.

Chương III

KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH

3.1 CÂY QUYẾT ĐỊNH

3.1.1 Khái niệm

Cây quyết định là một cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi node trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root).

Hình 3.1 Biễu diễn cây quyết định cơ bản

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định

Root

Internal node Leaf node

Leaf node Leaf node

được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định [10].

Ví dụ 3.1: Một người có chơi tennis hay không?

Hình 3.2 Cây quyết định cho việc chơi Tennis

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (series of rules). Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.

Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết (unseen data).

Tập thuộc tính sau khi canh tác dữ liệu

Quy trình canh tác dữ liệu

Tập thuộc tính ban đầu