BÀI THUYẾT TRÌNH CÂY QUYẾT ĐỊNH Cây định gì? Trong lý thuyết định, một cây định (Decision tree) một đồ thị của định hậu (bao gồm rủi ro hao phí tài nguyên). Cây định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn Các định dùng để hỗ trợ trình định Cây định dạng đặc biệt cấu trúc Trong lĩnh vực học máy, cây định là kiểu mơ hình dự báo (Predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng dẫn tới kết luận giá trị mục tiêu vật/hiện tượng Kỹ thuật học máy dùng định gọi là học định, hay gọi với tên ngắn gọn là cây định Định nghĩa định Cây định mô tả cấu trúc phân cấp bao gồm nút nhánh Nút: có loại nút cây: • Nút khởi đầu • Nút trong: (internal node) tương ứng với biến (thường mang tên thuộc tính CSDL) • Nút lá: đại diện cho giá trị dự đoán biến mục tiêu (thường mang tên lớp Ci) Nhánh: đường nối nút với nút thể giá trị cụ thể cho biến (thường mang giá trị thuộc tính) Học định Học định phương pháp thông dụng trong khai phá liệu Khi đó, các đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại Một định học cách chia tập hợp nguồn thành tập dựa theo kiểm tra giá trị thuộc tính Q trình lặp lại cách đệ qui cho tập dẫn xuất Q trình đệ qui hồn thành khơng thể tiếp tục thực việc chia tách nữa, hay phân loại đơn áp dụng cho phần tử tập dẫn xuất Học định Cây định phương tiện có tính mơ tả dành cho việc tính tốn các xác suất có điều kiện Cây định mô tả kết hợp kỹ thuật tốn học tính tốn nhằm hỗ trợ việc mơ tả, phân loại tổng qt hóa tập liệu cho trước Dữ liệu cho dạng ghi có dạng: (x, y) = (x1, x2, x3 , xk, y) y : Biến phụ thuộc (dependant variable) là biến mà cần tìm hiểu, phân loại hay tổng qt hóa. x1, x2, x3 biến giúp ta thực cơng việc Các dạng định Cây hồi quy (Regression tree) ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại (ví dụ: ước tính giá ngơi nhà khoảng thời gian bệnh nhân nằm viện) Cây phân loại (Classification tree), nếu y là biến phân loại như: giới tính (nam hay nữ), kết trận đấu (thắng hay thua) Ví dụ Lượng khách chơi Golf David quản lý câu lạc đánh golf tiếng Anh ta có rắc rối chuyện thành viên đến hay khơng đến Có ngày muốn chơi golf số nhân viên câu lạc lại khơng đủ phục vụ Có hơm, khơng hiểu lý mà chẳng đến chơi, câu lạc lại thừa nhân viên Mục tiêu David tối ưu hóa số nhân viên phục vụ ngày cách dựa theo thông tin dự báo thời tiết để đoán xem người ta đến chơi golf Để thực điều đó, anh cần hiểu khách hàng định chơi tìm hiểu xem có cách giải thích cho việc hay khơng Ví dụ Lượng khách chơi Golf Trong hai tuần, thu thập thơng tin về: © Thời tiết (outlook) Nắng (sunny) Nhiều mây (overcast) Mưa (raining) © Nhiệt độ (temperature) Tính oF © Độ ẩm (humidity) © Gió (windy) © Khách có chơi hay ko (play) David thu liệu gồm 14 dòng cột Play golf dataset Day Outlook Temperature (OF) Humidity Windy Play Sunny 85 85 False NO Sunny 80 90 True NO Overcast 83 78 False YES Rain 70 96 False YES Rain 68 80 False YES Rain 65 70 True NO Overcast 64 65 True YES Sunny 72 95 False NO Sunny 69 70 False YES 10 Rain 75 80 False YES 11 Sunny 75 70 True YES 12 Overcast 72 90 True YES 13 Overcast 81 75 False YES 14 Rain 87 80 True NO Kiểm tra khách có đến chơi hay khơng? Play Don’t play RAIN SUNNY OUTLOOK Play Don’t play Play Don’t play OVERCAST Play Don’t play HUMDITY WINDY 70 TRUE Play Don’t play Play Don’t play Play Don’t play FALSE Play Don’t play