2.2. Phương pháp sử dụng học máy
2.2.2. Mơ hình cây quyết định
Trong lý thuyết quyết định, một cây quyết định là một đồ thị những quyết định và những kết quả cĩ khả năng của chúng (bao gồm cả giá phải trả và độ rủi ro) được sử dụng để tạo ra một đường đi tới đích [6]. Cây quyết định là một dạng đặc biệt của cấu trúc cây được xây dựng để trợ giúp việc ra quyết định.
Trong lĩnh vực học máy, cây quyết định là một mơ hình dự đốn, cĩ nghĩa là từ việc quan sát các item để rút ra kết luận về giá trị đích của item đĩ. Mỗi nút bên trong tương đương với một biến, mỗi cung đi tới một nút con tương ứng với giá trị cĩ thể của biến đĩ. Các là tương ứng với giá trị đích được dự đốn cho các biến. Kỹ thuật học máy sử dụng việc xây dựng cây quyết định trên tập dữ liệu được gọi là học cây quyết định hay đơn giản chỉ là cây quyết định.
Học cây quyết định cũng là một phương pháp rất thơng dụng trong khai phá dữ liệu. Trong đĩ cây quyết định mơ tả cấu trúc cây mà ở đĩ các lá đại diện cho các lớp và các nhánh cây biểu diễn sự kết hợp của các đặc trưng dẫn dắt tới việc phân lớp. Một cây quyết định cĩ thể được học bằng cách chia tập nguồn thành các tập con dựa trên giá trị các thuộc tính kiểm tra. Quá trình này được lặp lại trên từng tập con thu được. Quá trình đệ quy sẽ kết thúc khi khơng thể chia tiếp được nữa hoặc khi từng phần tử của tập con được gán với một lớp đơn.
Cây quyết định được mơ tả bằng cách tính tốn xác suất cĩ điều kiện. Cây quyết định cũng cĩ thể được mơ tả như là một kỹ thuật tính tốn và hỗ trợ tốn học, kỹ thuật này hỗ trợ việc mơ tả, phân loại và khái quát tập dữ liệu đưa vào. Dữ liệu đưa
vào dạng ghi cĩ dạng:(x, y) =( , , … , , y). Biến phụ thuộc y là biến mà chúng ta cố
23
hiện cơng việc đĩ.Trong bài tốn phân lớp văn bản, x là vector đặc trưng, y là phân lớp
cần tìm.
So với các phương pháp khác trong Data Mining, phương pháp cây quyết định cĩ những ưu điểm nổi bật như:
- Dễ hiểu và dễ giải thích: mọi người đều cĩ thể hiểu mơ hình cây quyết định qua
một số giải thích tổng quát ban đầu.
- Dữ liệu dùng cho cây quyết định chỉ là những dữ liệu căn bản hoặc cĩ thể khơng
cần thiết. Một số kỹ thuật khác cĩ thể địi hỏi dữ liệu chuẩn, tạo các biến giả và loại bỏ đi các giá trị trống.
- Cĩ khả năng xử lý cả dữ liệu thực và dữ liệu mập mờ. Một số kỹ thuật khác chỉ sử
dụng những tập dữ liệu đặc biệt chẳng hạn như mạng nơron cĩ thể chỉ sử dụng các biến là số.
- Cĩ thể kiểm chứng mơ hình bằng cách thử thống kê.
- Cĩ khả năng thực hiện tốt đối với dữ liệu lớn trong thời gian ngắn: một lượng lớn
dữ liệu cĩ thể được phân tích bằng máy tính cá nhân trong thời gian ngắn đủ để người sử dụng đưa ra quyết định dựa trên sự phân tích đĩ.
Tuy nhiên sử dụng phương pháp cây quyết định cĩ thể xảy ra hiện tượng
overfit, tức là tồn tại một giả thuyết h phù hợp với tập ví dụ huấn luyện nhưng tiên đốn khơng chính xác bằng giả thuyết h’ ít phù hợp với tập ví dụ huấn luyện hơn so với h. Để
giải quyết vấn đề này chúng ta phải dùng cách chặt bớt cây (pruning), bỏ bớt đi các nhánh dữ liệu nhiễu và dư thừa…
Một vấn đề khác nữa của phương pháp cây quyết định là sự khơng an định của thuật tốn. Tức là, dù chỉ một sự thay đổi nhỏ như thêm đỉnh, giảm đỉnh, thêm noise, ... thì kết quả của thuật tốn sẽ khác đi rất nhiều.
Với những ưu, khuyết điểm như thế, cây quyết định cũng khơng phải là 1 phương pháp thường được sử dụng trong bài tốn phân loại văn bản.