Cây quyết định

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng công cụ dự đoán kết quả học tập của sinh viên đại học đồng tháp (Trang 33 - 36)

2.5.1.1 Khái niệm

Cây quyết định là một cấu trúc biễu diễn dƣới dạng cây. Trong đĩ, mỗi node trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị cĩ thể cĩ của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root) [6].

Hình 2.4. Biểu diễn cây quyết định cơ bản [1]

Trong lĩnh vực học máy, cây quyết định là một kiểu mơ hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tƣợng tới các kết luận về giá trị mục tiêu của sự vật/hiện tƣợng. Mỗi nút trong (internal node) tƣơng ứng với một biến; đƣờng nối giữa nĩ với nút con của nĩ thể hiện giá trị cụ thể cho biến đĩ. Mỗi nút lá đại diện cho giá trị dự đốn của biến mục tiêu, cho trƣớc các giá trị dự đốn của các biến đƣợc biểu diễn bởi đƣờng đi từ nút gốc tới nút lá đĩ. Kỹ thuật học máy dùng trong cây quyết định đƣợc gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.

Hình 2.5: Cây quyết định cho việc chơi Tennis [1]

2.5.1.2 Biểu diễn cây quyết định

Cây quyết định phân lớp các trƣờng hợp cụ thể bằng cách sắp đặt chúng từ trên xuống và bắt đầu từ nút gốc và đi xuống các nút lá:

 Mỗi nút trong biểu diễn một thuộc tính cần kiểm tra giá trị (an attribute to be tested) đối với các ví dụ kiểm tra giá trị (an attribute to be tested) đối với các ví dụ.

 Mỗi nhánh từ một nút sẽ tƣơng ứng với một giá trị cĩ thể của thuộc tính gắn với nút đĩ trị cĩ thể của thuộc tính gắn với nút đĩ.

 Mỗi nút lá biểu diễn một phân lớp (a classification).

 Một cây quyết định học đƣợc sẽ phân lớp đối với một ví dụ, bằng cách duyệt cây từ nút gốc đến một nút lá. → Nhãn lớp gắn với nút lá đĩ sẽ đƣợc gán cho ví dụ cần phân lớp.

 Một cây quyết định biểu diễn một phép tuyển (disjunction) của các kết hợp (conjunctions) của các ràng buộc đối với của các kết hợp (conjunctions) của các ràng buộc đối với các giá trị thuộc tính của các ví dụ.

 Mỗi đƣờng đi (path) từ nút gốc đến một nút lá sẽ tƣơng ứng với một kết hợp (conjunction) của các kiểm tra giá trị thuộc tính (attribute tests).

 Cây quyết định (bản thân nĩ) chính là một phép tuyển (disjunction) của các kết hợp (conjunctions) này.

Ví dụ 2.2: Trở lại ví dụ 2.1 ở trên, ta hồn tồn cĩ thể biểu diễn cây quyết định bằng đại số quan hệ nhƣ sau để thể hiện quyết định chơi tennis:

[(Outlook=Sunny) ∧ (Humidity=Normal)]

∨ (Outlook=Overcast) ∨ (Outlook Overcast) ∨ [(Outlook=Rain) ∧ (Wind=Weak)]

2.5.1.3 Các bƣớc chính xây dựng cây quyết định

Cĩ nhiều thuật tốn khác nhau để xây dựng cây quyết định nhƣ: CLS, ID3, C4.5, SLIQ, SPRINT, C5.0…Nhƣng nĩi chung quá trình xây dựng cây quyết định đều đƣợc chia ra làm 3 giai đoạn cơ bản:

a. Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp.

b. Cắt tỉa cây: Là việc làm dùng để tối ƣu hố cây. Cắt tỉa cây chính là việc trộn một cây con vào trong một nút lá.

c. Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết quả. Tiêu chí đánh giá là tổng số mẫu đƣợc phân lớp chính xác trên tổng số mẫu đƣa vào.

2.5.1.4 Cây quyết định so với kỹ thuật khai phá khác

So với các phƣơng pháp KPDL khác, cây quyết định là một trong những hình thức mơ tả dữ liệu tƣơng đối đơn giản, trực quan, dễ hiểu đối với ngƣời dùng nhƣng lại hiệu quả nên đƣợc sử dụng nhiều. Trong những năm qua, nhiều mơ hình phân lớp dữ liệu đã đƣợc các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất nhƣ mạng notron, mơ hình thống kê tuyến tính /bậc 2, cây quyết định, mơ hình di truyền... Trong số những mơ hình đĩ, cây quyết định đƣợc đánh giá là một cơng cụ mạnh, phổ biến đặt biệt là thích hợp cho DM nĩi chung cho phân lớp dữ liệu nĩi riêng.

Một số ƣu điểm của cây quyết định

- Khả năng sinh ra các quy tắc hiểu được:

- Khả năng thực thi trong những lĩnh vực hướng quy tắc: - Dễ dàng tính tốn trong khi phân lớp:

- Thể hiện rõ ràng những thuộc tính tốt nhất: - Quá trình xây dựng cây tương đối đơn giản:

- Cĩ khả năng thực hiện tốt đối với dữ liệu lớn trong thời gian ngắn:

Một số điểm yếu của cây quyết định

Song song những sức mạnh nổi bật trên, cây quyết định cũng cĩ điểm yếu. Đĩ là:

 Cây quyết định khơng thích hợp lắm với mục tiêu là dự đốn giá trị của thuộc tính liên tục nhƣ thu nhập, huyết áp hay lãi xuất ngân hàng… Cây quyết định cũng khĩ giải quyết với thời gian liên tục.

 Dễ xảy ra lỗi khi cĩ nhiều lớp. Một số cây quyết định chỉ thao tác với lớp giá trị nhị phân dạng yes/no hay acept/reject. Dễ xảy ra lỗi khi số ví dụ đào tạo là nhỏ và càng nhanh hơn với cây mà cĩ nhiều tầng hay cĩ nhiều nhánh trên một node.

 Chi phí tính tốn đắt để học: do phải đi qua nhiều node để đến node lá cuối cùng. Tại từng node, cần tính tốn mật độ (hay tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác sắp xếp lại tập dữ liệu theo thứ tự giá trị của từng thuộc tính đĩ. Sau đĩ mới cĩ thể chọn đƣợc một thuộc tính phát triển và tƣơng ứng là một phân chia tốt nhất.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng công cụ dự đoán kết quả học tập của sinh viên đại học đồng tháp (Trang 33 - 36)

Tải bản đầy đủ (PDF)

(94 trang)