Cây quyết định

Cây quyết định là một mô hình vừa có khả năng mô tả vừa có khả năng dự báo. Gọi là cây quyết định vì mô hình kết quả được biểu diễn dưới dạng một cấu trúc cây. Cách trình bày trực quan này khiến cho mô hình cây quyết định trở nên dễ hiểu. Do đó cây quyết định trở thành một kỹ thuật thường dùng trong khai phá dữ liệu. Các cây quyết định thường được dùng cho việc phân loại (dự báo trường hợp nào thuộc nhóm nào), tuy nhiên cũng có thể dùng cho việc dự báo một giá trị cụ thể.[4]

Phương pháp cây quyết định bao gồm một số thuật toán cụ thể như Classification and Regression Trees(CART), Chi-squared Automatic Interaction Detection(CHAID), C4.5 và C5.0.

Các cây quyết định mô tả một cách trực quan các mối liên hệ tìm thấy trong dữ liệu. Mỗi biểu diễn theo luật từ cây sang văn bản như If Thu nhập = Cao And Số năm công tác >5 Then Khả năng rủi ro tài chính = Tốt.

Thực tế là các thuật toán cây quyết định rất gần gũi với các thuật toán luật hồi quy, tạo ra các tập luật mà không cần tới cây quyết định.

Đầu ra chính của một thuật toán cây quyết định là chính cây đó. Quá trình xử lý để tạo ra cây quyết định thường yêu cầu một số ít lần quét qua tập dữ liệu học (thường là nhỏ hơn 100). Điều này làm cho thuật toán có hiệu quả cao hơn mạng nơ ron vì mạng này cần một số lớn lần quét, có thể lên tới hàng nghìn. Chính xác hơn, số lần quét cần thực hiện để xây dựng một cây quyết định không lớn hơn số mức trong cây đó. Số mức này không có một giá trị giới hạn cho trước nào, tuy nhiên độ phức tạp của cây thường tăng cùng với số các giá trị độc lập.

Mô tả cây quyết định: Ta sẽ xem xét cây quyết định với cấu trúc của nó và tìm hiểu cách dùng cây quyết định để dự báo và nhận biết. Ví dụ ta có thể dùng dữ liệu từ một bảng phân loại khả năng rủi ro tài chính.

Tên Nợ Thu nhập Có gia đình Khả năng rủi ro

Nguyễn Văn A Nhiều Cao Có Tốt

Trần Thị B Ít Cao Có Tốt

Nguyễn Văn C Ít Cao Không Xấu

Phan Văn D Nhiều Thấp Có Xấu

Nguyễn Thị E Ít Thấp Có Xấu

Bảng 3.1 Phân loại khả năng rủi ro tài chính Tương ứng với bảng trên ta có cây quyết định sau :

Nguyễn Tiến Thành – Công nghệ phần mềm K44 26 Tốt (2) 40% Xấu (3) 60% Tổng 5 Thu nhập Cao Thấp Tốt (2) 66.7% Xấu (1) 33.3% Tổng 3 60% Tốt (0) 0% Xấu (2) 100% Tổng 2 40% Có gia đình ? Có Không Tốt (0) 0% Xấu (1) 100% Tổng 1 20% Tốt (2) 100% Xấu (0) 0% Tổng 2 40%

Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

Hình 3.1 Cây quyết định cho dữ liệu rủi ro tài chính

Mỗi hộp trên hình 3.1 biểu diễn một nút. Nút trên cùng được gọi là nút gốc. Một cây quyết định được phát triển từ nút gốc, vì vậy cây được phát triển từ trên xuống, phân tách các dữ liệu tại mỗi mức để hình thành các nút mới. Cây kết quả bao gồm rất nhiều nút liên kết bởi các nhánh. Các nút ở cuối của mỗi nhánh được gọi là nút lá và đóng vai trò đặc biệt khi cây được dùng để dự báo.

Trong hình 3.1 mỗi nút bao gồm thông tin về số trường hợp tại nút đó và sự phân loại các giá trị phụ thuộc (Khả năng rủi ro tài chính). Số trường hợp tai nút gốc là tổng số trường hợp của cả tập dữ liệu. Nút này bao gồm 5 trường hợp, với 60% có Khả năng rủi ro là Tốt và 40% có Khả năng rủi ro là Xấu. Bên dưới nút gốc (nút cha) là sự phân tách đầu tiên, trong trường hợp này là phân chia dữ liệu thành 2 nút mới (nút con) tùy vào mức Thu nhập là Cao hay Thấp.

Nút bên phải (Thu nhập Thấp) từ cách phân chia này bao gồm 2 trường hợp, cả 2 đều ứng với mức rủi ro tài chính Xấu. Vì tất cả các trường hợp này đều có cùng giá trị biến phụ thuộc (Khả năng rủi ro tài chính), nút này được gọi là nút thuần (pure) và sẽ không phải phân tách tiếp. Nút bên trái bao gồm 3 trường hợp, 66.7% trong đó là Tốt. Nút này sẽ được phân tách theo giá trị của Có gia đình (Có hoặc Không), tạo nên 2 nút mới đều là nút

Tốt (0) 0% Xấu (1) 100% Tổng 1 20% Tốt (2) 100% Xấu (0) 0% Tổng 2 40%

thuần. Thứ tự của sự phân tách, đầu tiên là Thu nhập, sau đó là Có gia đình, được quyết định bởi một thuật toán hồi quy.

Cây chỉ có gồm các nút thuần được gọi là cây thuần, một điều kiện không những không cần thiết mà còn khá rắc rối. Hầu hết các cây đều là không thuần, do đó các nút lá của chúng bao gồm các trường hợp có nhiều hơn một kết quả.

Sau khi được xây dựng, một cây có thể được dùng để dự báo cho một trường hợp khác bằng cách bắt đầu từ gốc của cây và đi theo con đường qua các nhánh cho đến khi tìm thấy một nút lá. Đường đi này được xác định bằng cách áp dùng luật tách cho các giá trị biến độc lập trong trường hợp mới. Ta xem xét bản ghi đầu tiên của tập dữ liệu. Vì A có thu nhâp Cao, ta đi theo nhánh bên trái. Vì A có gia đình nên tiếp tục đi theo nhánh bên phải. Tại đây ta gặp một nút là và giá trị dự báo là giá trị lớn hơn tại nút lá, trong trường hợp này là Tốt. Tiếp tục kiểm tra dự báo cho các trường hợp khác trong tập dữ liệu theo cách tương tự sẽ cho thấy cây này phù hợp 100% với tập dữ liệu trên.

Một cây thuần sẽ luôn luôn phù hợp 100% với tập dữ liệu thử, nhưng điều này không có nghĩa là nó sẽ phù hợp 100% hay thậm chí là gần mức đó – với một tập thử nghiệm độc lập. Phần lớn các thuật toán sẽ sử dụng các tham số thêm trong quá trình hồi quy để xác định xem có tách một nút hay không, làm giảm khả năng xuất hiện một cây thuần.

Một điều có thể xảy ra là tất cả các kểt quả đều bằng nhau tại nút lá, như vậy nút lá này không có giá trị trội. Dự báo trong trường hợp này hoàn toàn phụ thuộc vào cài đặt, nếu cài đặt cho phép thì kết quả dự báo là kết quả mà người dùng định trước. Một số hệ thống cây quyết định cho phép có dự báo “không rõ”, số khác sẽ mặc định với giá trị có vẻ thích hợp nhất (ví dụ như các giá trị trội trong nút gốc), số còn lại sẽ lược bỏ nút này, quay lại cho đến khi gặp giá trị trội tại một nút trước.

Nguyễn Tiến Thành – Công nghệ phần mềm K44 28

Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

Việc duyệt qua một cây để tìm các giá trị dự đoán có thể trở nên nặng nề khi kích thước và độ phức tạp của cây tăng lên. Có thể thu được một tập luật cho một cây với mỗi luật cho một nút lá – bằng cách đi theo đường đi từ gốc đên nút lá đó. Các luật cho các nút lá trong hình 3.1 :

IF Thu nhập = Cao AND Có gia đình = Không THEN Khả năng rủi ro = XẤU

IF Thu nhập = Cao AND Có gia đình = Có THEN Khả năng rủi ro = TỐT

IF Thu nhập = Thấp THEN Khả năng rủi ro = XẤU

Có thể giảm kích thước tập luật này còn 2 luật, một cho khả năng Xấu

và một cho khả năng Tốt bằng việc sử dụng liên kết OR. Có thể có những phát biểu sau đây về các luật và cây:

- Số luật chỉ sử dụng AND đúng bằng số nút lá.

- Bằng cách sử dụng OR để kết hợp các luật, tổng số luật có thể được giảm xuống do đó có đúng một luật với mỗi giá trị có thể của biến phụ thuộc.

Ngay cả khi không dùng để dự báo, các luật cho biết những thông tin mô tả cần thiết về dữ liệu. Có thể có những nhận xét hữu ích về dữ liệu sau khi xây dựng xong cây. Trong ví dụ trên, cây trong hình 3.1 cho thấy:

- Nợ không có vai trò trong việc xác định Khả năng rủi ro - Người có Thu nhập Thấp luôn có Khả năng rủi ro Xấu

- Thu nhập là nhân tố có ảnh hưởng quyết định đến Khả năng rủi ro Ngoài ra, ta còn có thể xem xét lại những phân tích của mình. Chú ý rằng kết luận thứ 3 ở trên chỉ đúng trong phạm vi thuật toán quy nạp xác định ưu tiên trong khi phân tách bằng cách chọn phân tách có ý nghĩa nhất trước. Thứ hai, cần chú ý rằng đây là các kết luận về một mẫu. Cụ thể hơn, ta cần có những xem xét cẩn trọng khi khái quát hóa cho các tập dữ liệu lớn hơn.

Kỹ thuật K-láng giềng gần nhất

Luật quyết định và luật liên kết