MỤC LỤC ………………………………………………………………………………2 Chương 1 CƠ SỞ LÝ THUYẾT 6 1.1. Giới thiệu chung 6 1.2. Các kiểu cây quyết định 8 1.3. Ví dụ 8 1.4. Ưu điểm của cây quyết định 11 Chương 2 XÂY DỰNG CÂY QUYẾT ĐỊNH ỨNG DỤNG THUẬT TOÁN ID3 13 2.1. Giới thiệu 13 2.2. Giải thuật ID3 xây dựng cây quyết định 14 2.3. Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất? 15 2.4. Entropy đo tính thuần nhất của tập ví dụ 15 2.5. Lượng thông tin thu được đo mức độ giảm entropy mong đợi 17 2.6. Tìm kiếm không gian giả thuyết trong ID3 17 2.7. Đánh giá hiệu suất của cây quyết định 19 2.8. Ví dụ minh họa 19 Chương 3 DEMO Với DecisionTreeApplet_3.20 33 KẾT LUẬN ……………………………………………………………………………..35 TÀI LIỆU THAM KHẢO 36
TẬP ĐỒN BƯU CHÍNH VIỄN THƠNG VIỆT NAM HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG ĐỀ TÀI MƠN HỌC THUẬT TOÁN NÂNG CAO ĐỀTÀI: CÂY QUYẾT ĐỊNH VÀ THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH Giáo viên hướng dẫn : TS NGUYỄN QUANG TẤN Nhóm thực : HUỲNH PHƯỚC THÁI HUỲNH CÔNG KHANH Lớp : CH10CNT2 THÀNH PHỐ HỒ CHÍ MINH Tháng 11 năm 2010 Thuật tốn nâng cao – Cây định thuật toán Lời cảm ơn Báo cáo đề tài hoàn thành, trước hết chúng em xin chân thành cảm ơn thầy, TS Nguyễn Quang Tấn, giúp đỡ nhóm chúng em nhiều việc chuẩn bị kiến thức tổng quan mơn học Thuật tốn nâng cao, đặc biệt kiến thức Cây định thuật toán định; đồng thời chúng em gửi lời cám ơn đến bạn khóa học, trao đổi, chia sẻ thông tin kiến thức liên quan để nghiên cứu hồn thành tốt tiểu luận mơn học Đối với chúng em đề tài mới, hạn chế trình độ hiểu biết thân, tài liệu tham khảo thời gian có hạn, dù cố gắng làm việc, nghiên cứu tích cực báo cáo chúng em khơng thể tránh sai sót cịn có vấn đề chưa hồn thiện Kính mong góp ý dẫn tận tình thầy, bạn để đề tài chúng em hồn thiện Thành phố Hồ Chí Minh, ngày 09 tháng 11 năm 2010 Nhóm học viên thực Huỳnh Phước Thái Huỳnh Cơng Khanh Thuật tốn nâng cao – Cây định thuật toán MỤC LỤC MỤC LỤC ………………………………………………………………………………2 Chương CƠ SỞ LÝ THUYẾT 1.1 Giới thiệu chung 1.2 Các kiểu định .8 1.3 Ví dụ .8 1.4 Ưu điểm định .11 Chương XÂY DỰNG CÂY QUYẾT ĐỊNH ỨNG DỤNG THUẬT TOÁN ID3 13 2.1 Giới thiệu 13 2.2 Giải thuật ID3 xây dựng định 14 2.3 Thuộc tính thuộc tính dùng để phân loại tốt nhất? 15 2.4 Entropy đo tính tập ví dụ 15 2.5 Lượng thông tin thu đo mức độ giảm entropy mong đợi 17 2.6 Tìm kiếm khơng gian giả thuyết ID3 17 2.7 Đánh giá hiệu suất định .19 2.8 Ví dụ minh họa 19 Chương DEMO Với DecisionTreeApplet_3.20 33 KẾT LUẬN …………………………………………………………………………… 35 TÀI LIỆU THAM KHẢO 36 Thuật toán nâng cao – Cây định thuật toán Danh mục bảng Hình 1.1 Mơ hình định chơi golf 10 Hình 1.2 Cây định chơi golf 11 Hình 2.1 Chức entropy liên quan đến phân loại 16 Hình 2.2 Cây định thuật toán ID3 quy nạp .21 Hình 2.3 Một phần định sinh từ bước đầu ID3 .29 Hình 3.4 Cây định cần tìm 32 Thuật toán nâng cao – Cây định thuật tốn Danh mục hình vẽ, đồ thị Bảng 1.1 Dữ liệu chơi golf Bảng 2.1 Tập liệu ví dụ cho chơi Tennis .20 Bảng 3.2 Xác định thuộc tính tt2 30 Thuật toán nâng cao – Cây định thuật tốn MỞ ĐẦU Với nhà đầu tư tài chính, họ thường xuyên phải định liên quan đến trình đầu tư Dù họ ln mong muốn định xác thực tế khơng phải lúc Rủi ro điều hoàn toàn xảy kèm với định đầu tư Như vậy, vấn đề không chỗ định mà cịn kiểm sốt rủi ro liên quan cho tối thiểu hố thiệt hại gặp phải Trong năm gầy nhà quản lý sử dụng phương pháp kỹ thuật suy luận thống kê để giải nhiều vấn đề mà thông tin bị thiếu, bất định, số trường hợp thiếu hoàn chỉnh Lĩnh vực thống kê có tên gọi: Lý thuyết định thống kê đơn giản Lý thuyết định Lý thuyết công cụ khoa học mà nhà quản lý cần hiểu biết dùng để định Trong lý thuyết định, định (decision tree) đồ thị định hậu có (bao gồm rủi ro hao phí tài nguyên) Cây định sử dụng để xây dựng kế hoạch nhằm đạt mục tiêu mong muốn Các định dùng để hỗ trợ trình định Cây định dạng đặc biệt cấu trúc Trong khuôn khổ báo cáo chúng em xin trình bày vấn đề sở lý thuyết định xây dựng định ứng dụng thoật toán ID3 Thuật toán nâng cao – Cây định thuật toán Chương CƠ SỞ LÝ THUYẾT Cây định phương pháp sử dụng rộng rãi thiết thực cho suy luận quy nạp Nó phương pháp cho chức xấp xỉ giá trị xấp xỉ rời rạc mà mạnh mẽ để liệu tiếng ồn có khả học tập biểu thức ly phản Những định học phương pháp tìm kiếm khơng gian giả thuyết hồn tồn ý nghĩa tránh khó khăn giả thuyết không gian hạn chế 1.1 Giới thiệu chung Trong lý thuyết định (chẳng hạn quản lí rủi ro), định (tiếng Anh: decision tree) đồ thị định hậu (bao gồm rủi ro hao phí tài nguyên) Cây định sử dụng để xây dựng kế hoạch nhằm đạt mục tiêu mong muốn Các định dùng để hỗ trợ trình định Cây định dạng đặc biệt cấu trúc Trong lĩnh vực học máy, định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng Mỗi nút (internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định Thuật toán nâng cao – Cây định thuật toán Học định phương pháp thông dụng khai phá liệu Khi đó, định mơ tả cấu trúc cây, đó, đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại Một định học cách chia tập hợp nguồn thành tập dựa theo kiểm tra giá trị thuộc tính Q trình lặp lại cách đệ qui cho tập dẫn xuất Q trình đệ qui hồn thành khơng thể tiếp tục thực việc chia tách nữa, hay phân loại đơn áp dụng cho phần tử tập dẫn xuất Một phân loại rừng ngẫu nhiên (random forest) sử dụng số định để cải thiện tỉ lệ phân loại Cây định phương tiện có tính mơ tả dành cho việc tính tốn xác suất có điều kiện Cây định mô tả kết hợp kỹ thuật tốn học tính tốn nhằm hỗ trợ việc mơ tả, phân loại tổng qt hóa tập liệu cho trước Dữ liệu cho dạng ghi có dạng: ( x, y ) ( x1 , x2 , x3 , , xk , y ) Biến phụ thuộc (dependant variable) y biến mà cần tìm hiểu, phân loại hay tổng quát hóa x1 , x2 , x3 biến giúp ta thực cơng việc Có thể mơ tả định cấu trúc phân cấp nút nhánh, bao gồm : - loại nút cây: Nút gốc; Nút nội bộ: mang tên thuộc tính CSDL; Nút lá: mang tên lớp Ci; - Nhánh: mang giá trị thuộc tính Thuật tốn nâng cao – Cây định thuật toán Cây định sử dụng phân lớp cách duyệt từ nút gốc đụng đến nút lá, từ rút lớp đối tượng cần xét 1.2 Các kiểu định Cây định cịn có hai tên khác: Cây hồi quy (Regression tree): ước lượng hàm giá có giá trị số thực thay sử dụng cho nhiệm vụ phân loại (ví dụ: ước tính giá ngơi nhà khoảng thời gian bệnh nhân nằm viện) Cây phân loại (Classification tree): y biến phân loại như: giới tính (nam hay nữ), kết trận đấu (thắng hay thua) 1.3 Ví dụ Ta dùng ví dụ để giải thích định: David quản lý câu lạc đánh golf tiếng Anh ta có rắc rối chuyện thành viên đến hay không đến Có ngày muốn chơi golf số nhân viên câu lạc lại khơng đủ phục vụ Có hơm, khơng hiểu lý mà chẳng đến chơi, câu lạc lại thừa nhân viên Mục tiêu David tối ưu hóa số nhân viên phục vụ ngày cách dựa theo thông tin dự báo thời tiết để đoán xem người ta đến chơi golf Để thực điều đó, anh cần hiểu khách hàng định chơi tìm hiểu xem có cách giải thích cho việc hay khơng Vậy hai tuần, thu thập thông tin về: Trời (outlook) (nắng (sunny), nhiều mây (overcast) mưa (raining) Nhiệt độ (temperature) độ F Độ ẩm (humidity) Có gió mạnh (windy) hay không V số người đến chơi golf vào hơm David thu liệu gồm 14 dịng cột Thuật tốn nâng cao – Cây định thuật toán Quang cảnh Nắng Nắng Âm u Mưa Mưa Mưa Âm u Nắng Nắng Mưa Nắng Âm u Âm u mưa Dữ liệu chơi golf Các biến độc lập Nhiệt Độ độ ẩm 85 85 80 90 83 78 70 96 68 80 65 70 64 65 72 95 69 70 75 80 75 70 72 90 81 75 71 80 Gió Chơi khơng có khơng khơng khơng có có khơng khơng khơng có có khơng có khơng khơng có có có khơng có khơng có có có có có khơng Bảng 1.1 Dữ liệu chơi golf Sau đó, để giải toán David, người ta đưa mơ hình định