1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỒ án mô HÌNH cây QUYẾT ĐỊNH DECISION TREE

70 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 15,28 MB

Nội dung

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC MÁY HỌC Lớp Cao Học - Chun Ngành KHMT & HTTT MƠ HÌNH CÂY QUYẾT ĐỊNH DECISION TREE GVHD: TS Trần Thái Sơn Thành viên nhóm: 1112016 – Hồ Sơn Lâm 1112023 – Bùi Tuấn Phụng 1112042 – Đỗ Minh Tuấn 1112044 – Trần Thị Tuyết Vân 1112046 – Phan Hoàn Vũ TP.HCM – 4-5-6/2012 Decision Tree LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Giới thiệu (Đỗ Minh Tuấn) 1.1 Mơ hình định 1.2 Chiến lược để xây dựng định 1.3 Thuận lợi hạn chế mơ hình định Các tiêu chuẩn tạo định (Đỗ Minh Tuấn) 2.1 Tiêu chuẩn tách chiều (Univariate Splitting Criteria): 2.1.1 Impurity-based Criteria: 2.1.2 Normalized impurity based criteria: 13 2.1.3 Binary criteria 13 2.2 Tiêu chuẩn tách đa chiều: 14 2.3 Tiêu chuẩn dừng (Stopping Criteria): 14 Một số thuật toán (Trần Thị Tuyết Vân) 15 3.1 Thuật toán CLS 15 3.2 Thuật toán ID3 18 3.3 Thuật toán C4.5 22 3.4 Một số cài tiến thuật toán C4.5 so với thuật toán ID3 23 3.4.1 Chọn độ đo Gain Ratio 23 3.4.2 Xử lý thuộc tính có kiểu giá trị liên tục 24 3.4.3 Làm việc với thuộc tính thiếu giá trị 26 3.4.4 Xử lý thuộc tính có giá trị chi phí 28 3.5 Thuật toán SPRINT 29 3.5.1 SPRINT sử dụng độ đo Gini-index 30 3.5.2 Cấu trúc liệu SPRINT 30 3.5.3 Danh sách thuộc tính 31 3.5.4 Thực thi phân chia 34 Vấn đề Overfitting giải pháp giảm Overfitting (Hồ Sơn Lâm) 37 Decision Tree LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.1 Quá khớp liệu (Overfitting) 37 4.1.1 Định nghĩa: 37 4.1.2 Nguyên nhân khớp liệu 38 4.2 Phương pháp tránh khớp liệu 39 4.2.1 Cắt tỉa để giảm lỗi (Reduced error pruning) 40 4.2.2 Luật hậu cắt tỉa (Rule Post-Pruning) 46 Cây định mở rộng (Bùi Tuấn Phụng) 48 5.1 Oblivious Decision Trees Error! Bookmark not defined 5.2 Fuzzy decision trees Error! Bookmark not defined 5.3 Decision Trees Inducers for Large Datasets Error! Bookmark not defined 5.4 Incremental Induction: Error! Bookmark not defined Demo (Phan Hoàn Vũ) 53 Tài liệu tham khảo 68 Decision Tree LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giới thiệu (Đỗ Minh Tuấn) 1.1 Mơ hình định Cây định (decision tree) hình thức mơ tả liệu trực quan nhất, dễ hiểu người dùng Cấu trúc định bao gồm nút nhánh Nút gọi nút lá, mơ hình phân lớp liệu giá trị nhãn lớp (gọi tắt nhãn) Các nút khác nút gọi nút con, cịn thuộc tính tập liệu, hiển nhiên thuộc tính phải khác thuộc tính phân lớp Mỗi nhánh xuất phát từ nút p ứng với phép so sánh dựa miền giá trị nút Nút gọi nút gốc Xem xét ví dụ định sau[1]: Từ bảng liệu trên, ta xây dựng định sau: Decision Tree LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Cây định ví dụ giải thích sau: nút chứa giá trị thuộc tính phân lớp (thuộc tính “Play”) Các nút tương ứng với thuộc tính khác thuộc tính phân lớp; nút gốc xem nút đặc biệt, thuộc tính “Outlook” Các nhánh từ nút tương đương phép so sánh so sánh bằng, so sánh khác, lớn nhỏ hơn… kết phép so sánh bắt buộc phải thể giá trị logic (Đúng Sai) dựa giá trị thuộc tính nút Lưu ý định khơng có tham gia thuộc tính “thu nhập” thành phần cây, thuộc tính gọi chung thuộc tính dư thừa thuộc tính khơng ảnh hưởng đến q trình xây dựng mơ hình Các thuộc tính tham gia vào q trình phân lớp thơng thường có giá trị liên tục hay gọi kiểu số (ordered or numeric values) kiểu rời rạc hay gọi kiểu liệu phân loại (unordered or category values) Ví dụ kiểu liệu lương biểu diễn số thực kiểu liệu liên tục, kiểu liệu giới tính kiểu liệu rời rạc (có thể rời rạc hóa thuộc tính giới tính cách dễ dàng) 1.2 Chiến lược để xây dựng định • Bắt đầu từ nút đơn biểu diễn tất mẫu • Nếu mẫu thuộc lớp, nút trở thành nút gán nhãn lớp • Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính phân tách tốt mẫu vào lớp Decision Tree LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com • Một nhánh đƣợc tạo cho giá trị thuộc tính chọn mẫu đƣợc phân hoạch theo • Dùng đệ quy q trình để tạo định • Tiến trình kết thúc điều kiện sau - Tất mẫu cho nút cho trƣớc thuộc lớp - Khơng cịn thuộc tính mà mẫu dựa vào để phân hoạch xa - Không mẫu cho nhánh test_attribute = Tuy nhiên, khơng chọn thuộc tính phân lớp hợp lý nút, ta tạo ca phức tạp, ví dụ đây: Như vậy, vấn đề đặt phải chọn thuộc tính phân lớp tốt Phần giới thiệu tiêu chuẩn, dựa vào tiêu chuẩn này, ta chọn thuộc tính phân lớp tốt nút 1.3 Thuận lợi hạn chế mơ hình định Một số thuận lợi sau định xem công cụ phân loại mà tài liệu này: Cây định tự giải thích gắn kết lại, chúng dễ dàng tự sinh Nói cách khác, định mà có số lượng nút vừa phải người Decision Tree LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com không chuyên dễ dàng hiểu Hơn nữa, định chuyển sang tập luật Vì vậy, định xem dễ hiểu Cây định xử lý thuộc tính tên số đầu vào Thể định đủ đa dạng để biểu diễn cho giá trị rời rạc Cây định có khả xử lý liệu mà gây lỗi Cây định có khả xử lý liệu mà có giá trị rỗng Cây định xem phương pháp phi tham số Điều có nghĩa định khơng có giả định phân chia nhớ cấu trúc phân lớp Bên cạnh đó, định có bất lợi sau đây: Hầu hết thuật tốn (như ID3 C4.5) bắt buộc thuộc tính mục tiêu phải giá trị rời rạc Khi định sử dụng phương pháp “chia để trị”, chúng thực tốt tồn số thuộc tính liên quan chặt chẽ với nhau, khó khăn số tương tác phức tạp xuất Một nguyên nhân gây điều phân lớp mà có mơ tả mạch lạc việc phân lớp gặp khó khăn việc biểu diễn định Một minh họa đơn giản tượng vấn đề tái tạo định (Pagallo Huassler, 1990) Khi mà hầu hết định phân chia không gian thể thành khu vực loại trừ lẫn để biểu diễn khái niệm, số trường hợp, nên chứa vài giống thứ tự thể việc phân lớp Ví dụ, khái niệm sau mà thể theo hàm nhị phân: y = (A1 ∩ A2) ∪ (A3 ∩ A4) định đơn biến tối tiểu mà biểu diễn hàm biểu diễn phần 9.3 Lưu ý có chứa Các đặc tính liên quan định dẫn đến khó khăn khác độ nhạy với tập huấn luyện, thuộc tính khơng phù hợp, nhiễu (Quinlan, 1993) Decision Tree LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các tiêu chuẩn tạo định (Đỗ Minh Tuấn) Việc tìm tiêu chí để đánh giá tìm điểm chia quan trọng, chúng xem tiêu chuẩn “heuristic” để phân chia liệu Ý tưởng việc đưa tiêu chí cho tập phân chia trở nên “trong suốt” (tất thuộc nhãn) tốt Cho tập liệu D, tập nhãn Ci (i>=1 i file] có nhiệm vụ gọi thực thi java class với tham số có Decision Tree 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com break: dừng thread hành Dùng để dừng thao tác khơng mong muốn trước kill: dừng lại xóa thread hành Xóa thao tác thực thi trước capabilities : cho phép xem description java class hệ thống weka cls: xóa hình history: xem lại lịch sử lần chạy chương trình exit: khỏi weka simple CLI help : cung cấp nhìn tổng quát cho tất dòng lệnh chế độ simple CLI Ví dụ: Chạy dịng lệnh sau: java weka.classifiers.trees.J48 -t test.arff > j48.txt Kết thực thi xuất file j48.txt Giao diện mơi trường console Decision Tree 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6.1.3 Demo sử dụng Weka Explorer Trong phần trình bày cách sử dụng Weka để xây dựng định C4.5 sử dụng liệu play tennis Dữ liệu nhập từ file tennis.arff Các bước thực huấn luyện sau: a Nhập liệu Nhấn Open file để import file liệu b Hiệu chỉnh liệu Hiệu chỉnh liệu để đáp ứng yêu cầu toán Decision Tree 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com c Chọn thuật toán huấn luyện Chú ý ta chọn J48 Weka implement thuật tốn dựa C4.5 gọi J48 để giải số vần đề implement thuật toán C4.5 Decision Tree 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com d Cấu hình training set Chọn liệu test thích hợp để test sau huấn luyện tính độ lỗi, tỉa … e Start training Nhấn Start để bắt đầu huấn luyện Decision Tree 64 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com f Xem kết Kết hiển thị khung Classifier Output Sử dụng scrollbar để xem kết đầy đủ Cây định kết view dạng Cây cách trực quan cách thực hình vẽ Cây định sau chạy có dạng sau: Decision Tree 65 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6.2 Ứng dụng xây dựng 6.2.1 Ứng dụng xây dựng định đơn giản 6.2.1.1 Mô tả ứng dụng Ứng dụng xây dựng định dựa thuật toán ID3 C4.5 Dữ liệu training testing import từ file ARFF (theo chuẩn WEKA) Kết huấn luyện xuất hình console 6.2.1.2 Cơng cụ sử dụng: Ngơn ngữ lập trình sử dụng: JAVA Cơng cụ lập trình: Eclipse Framework sử dụng: apache common-lang (để xử lý thao tác String) 6.2.1.3 Kết thực hiện: Đối với thuật tốn ID3 chương trình cho kết tương tự định xây dựng WEKA phiên 3.7.5 Tuy nhiên thuật toán C4.5 xử lý liệu rời rạc Và so sánh với WEKA WEKA khơng implement thuật tốn C4.5 cách túy Dưới số hình console thể kết huấn luyện: Decision Tree 66 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Màn hình thể kết huấn luyện dự đoán chơi tennis thuật toán C4.5 Decision Tree 67 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Màn hình thể kết huấn luyện dự đoán chơi tennis thuật toán ID3 6.2.2 Ứng dụng lọc thư rác 6.2.2.1 Mô tả ứng dụng Ứng dụng hệ thống web/webservice cung cấp khả phân biệt email rác với email thông thường Hệ thống dễ dàng tích hợp với hệ thống mail server, outlook thông qua chế webservice 6.2.2.2 Công cụ sử dụng: Ngôn ngữ lập trình sử dụng: JAVA Decision Tree 68 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Framework sử dụng: - Apache common-lang : dùng để xử lý thao tác String - Grails: web framework dùng để xây dựng web/web service framework - Weka core: dùng để tiền xử lý liệu huấn luyện định - ExtJS: javascript framework dùng để vẽ giao diện hình web Dữ liệu huấn luyện lấy từ website http://repository.seasr.org/Datasets/UCI/arff/spambase.arff Cơng cụ lập trình: Eclipse 6.2.2.3 Kết thực hiện: Kết thực demo dạng video lưu trữ Mediafire server: http://www.mediafire.com/?32jo6xpw2miq9 Decision Tree 69 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo [1] http://www.nsl.hcmus.edu.vn/greenstone/collect/thesiskh/index/assoc/HASH8c8d.dir/5.pdf [2] Nguyễn Thị Hạnh, T.S Hồ Cẩm Hà, “Khai phá liệu định”, 2008 [3] Nguyễn Thị Thùy Linh, “Nghiên cứu thuật toán phân lớp liệu dựa định”, 2005 [4] slide Prof Pier Luca Lanzi file DM2012-07-ClassificationTrees.pdf [5] Lior Rokach, Oded Maimon, “Decision Tree”, Data mining and knowlegde discovery handbook, 2010 [6] http://www.cs.waikato.ac.nz/ml/weka/index_documentation.html [7] http://repository.seasr.org/Datasets/UCI Decision Tree 70 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tham khảo 68 Decision Tree LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giới thiệu (Đỗ Minh Tuấn) 1.1 Mơ hình định Cây định (decision tree) hình thức mơ tả liệu trực... Thể định đủ đa dạng để biểu diễn cho giá trị rời rạc Cây định có khả xử lý liệu mà gây lỗi Cây định có khả xử lý liệu mà có giá trị rỗng Cây định xem phương pháp phi tham số Điều có nghĩa định. .. độ xác định Đây mơ hình diễn tả q trình q khớp liệu ứng dụng điển hình định Trong trường hợp này, định xây dựng thuật toán ID3 việc học chữa bệnh tiểu đường Với đường chân trời Decision Tree 37

Ngày đăng: 01/11/2022, 15:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN