Cây quyết định và độ đo đã được làm đầy đủ,bài báo cáo này đã được 9 điểm,nói về các độ đo áp dụng vào cây quyết định sau đó làm ra 1 demo viết bằng c++Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là ánh xạ từ các quan sát từ một sự vậthiện tượng đến các kết luận về giá trị mục tiêu của sự vật hiện tượng đó. Intenal node (node trong) tương ứng với một biến, đường nối giữa Internal node với node lá của nó thể hiện giá trị cụ thể của biến đó. Mỗi node lá đại diện cho giá trị được dự đoán của Internal node.
1 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN 1 CÂY QUYẾT ĐỊNH VÀ ĐỘ ĐO Người hướng dẫn: TS VÕ ĐÌNH BẢY Người thực hiện: NGUYỄN KHÁNH PHƯƠNG VÕ THỊ PHI PHỤNG Lớp : 11050302 Khoá : 15 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2014 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN 1 CÂY QUYẾT ĐỊNH VÀ ĐỘ ĐO Người hướng dẫn: TS VÕ ĐÌNH BẢY Người thực hiện: NGUYỄN KHÁNH PHƯƠNG VÕ THỊ PHI PHỤNG Lớp : 11050302 Khoá : 15 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2014 3 LỜI CẢM ƠN Trước tiên chúng em xin được gửi lời cảm ơn chân thành tới các thầy cô giáo trong khoa Công nghệ thông tin - Trường đại học Tôn Đức Thắng đã tận tình giúp đỡ và giảng dạy cho chúng em trong học kì này. Đặc biệt, chúng em xin gửi lời cảm ơn chân thành nhất tới thầy T.s Võ Đình Bảy đã tận tình hướng dẫn, giúp đỡ chúng em hoàn thành đề tài nghiên cứu khoa học này. Trong thời gian vừa qua mặc dù chúng em đã cố gắng rất nhiều để hoàn thành tốt đề tài nghiên cứu khoa học của mình. Song chắc chắn kết quả nghiên cứu sẽ không tránh khỏi những thiếu sót, vì vậy kính mong nhận được sự chỉ bảo và góp ý của quý thầy cô. Chúng em xin chân thành cám ơn! Ký tên Phương Phụng Nguyễn Khánh Phương Võ Thị Phi Phụng 4 ĐỒ ÁN ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG Tôi xin cam đoan đây là sản phẩm đồ án của riêng tôi chúng tôi và được sự hướng dẫn của TS Võ Đình Bảy. Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo. Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc. Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung đồ án của mình. Trường đại học Tôn Đức Thắng không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có). TP. Hồ Chí Minh, ngày 29 tháng 05 năm 2014 Tác giả (ký tên và ghi rõ họ tên) Nguyễn Khánh Phương 5 Võ Thị Phi PhụngPHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Phần xác nhận của GV hướng dẫn ______________________________________________________ ______________________________________________________ ______________________________________________________ ______________________________________________________ ______________________________________________________ ______________________________________________________ ______________________________________________________ _____________________ Tp. Hồ Chí Minh, ngày tháng 05 năm 2014 (kí và ghi họ tên) Phần đánh giá của GV chấm bài ______________________________________________________ ______________________________________________________ ______________________________________________________ ______________________________________________________ ______________________________________________________ ______________________________________________________ ______________________________________________________ _____________________ Tp. Hồ Chí Minh, ngày tháng 05 năm 2014 (kí và ghi họ tên) 6 TÓM TẮT Trong quá trình hoạt động, con người tạo ra nhiều dữ liệu nghiệp vụ. Các tập dữ liệu được tích lũy có kích thước càng lớn, và có thể chưa nhiều thông tin ẩn dạng những quy luật chưa được khám phá. Chính vì vậy một nhu cầu đặt ra là cần tìm cách trích rút từ tập dữ liệu đó các luật về phân lớp dữ liệu hay dự đoán những xu hướng dữ liệu tương lai. Những quy tắc nghiệp vụ thông minh được tạo ra sẽ phục vụ đắc lực cho các hoạt động thực tiễn, cũng như phục vụ đắc lực cho quá trình nghiên cứu khoa học. Công nghệ phân lớp và dự đoán dữ liệu ra đời để đáp ứng mong muốn đó. Công nghệ phân lớp dữ liệu đã, đang và sẽ phát triển mạnh mẽ trước những khao khát tri thức của con người. Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm của các nhà nghiên cứu trong nhiều lĩnh vưc khác nhau. Công nghệ này cũng ứng dụng trong nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing… Nhiều kỹ thuật phân lớp đã được đề xuất như: Phân lớp cây quyết định (Decision tree classification), phân lớp Bayesian (Bayesian classifier), phân tích thống kê…Trong các kỹ thuật đó, cây quyết định được coi là công cụ mạnh, phổ biến và đặc biệt. Do vậy cần xây dựng những thuật toán có độ chính xác cao, thực thi nhanh đi kèm với khả năng mở rộng được để có thao tác với những tập dữ liệu ngày càng lớn. Đồ án này tập trung vào nguyên cứu vào cây quyết định và độ đo. Trước tiên ta sẽ nói đến phân lớp dữ liệu rồi đi chuyên sâu vào khái niệm cây quyết định, ưu nhược điểm của nó. Từ đó tập trung vào phân tích, đánh giá, so sánh các độ đo áp dụng vào. Mỗi độ đo sẽ đi kèm với các thuật toán khác nhau và như vậy thì cách biểu hiện cây quyết định của mỗi bài toán cũng sẽ khác đi. Ở đây chúng em tập trung nguyên cứu bốn độ đo chính là Information Gain, Gain Ratio, độ đo V và Gini. Bài báo cáo này gồm các mục sau: Chương I : KIẾN THỨC CHUNG Chương II : TÌM HIỂU CÂY QUYẾT ĐỊNH VÀ ĐỘ ĐO 7 Chương III : PHÂN TÍCH THUẬT TOÁN Chương IV : THỰC NGHIỆM Chương V : TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 8 MENU 9 DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT CÁC KÝ HIỆU p+ tỷ lệ các mẫu có giá trị của thuộc tính quyết định là "yes" p- tỷ lệ các mẫu có giá trị của thuộc tính quyết định là "no" CÁC CHỮ VIẾT TẮT MDL Minimum Description Length 10 DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ DANH MỤC HÌNH Hình 2.1: Cây quyết định biểu diễn Độ Tuổi và Loại Xe thể hiện nguy cơ gây tai nạn Hình 3.1 : Mô hình các thuộc tính khi được chọn Hình 3.2: Cây quyết định với thuật toán CLS Hình 3.3: Cây quyết định với thuật toán ID3 Hình 3.4: Cây quyết định với thuật toán C4. 5 Hình 4.1: Giao diện của chương trình Hình 4.2: Giao diện của chương trình khi bấm nút load Hình 4.3: Giao diện khi load file .txt thành công Hình 4.4: Giao diện khi chạy thuật toán ID3 Hình 4.5: Giao diện khi chạy thuật toán C4.5 Hình 4.6: Giao diện vẽ cây Hình 4.7: Giao diện khi bấm nút reset Hình 4.8: Giao diện khi bấm nút about DANH MỤC BẢNG Bảng 3.1: Dữ liệu huấn luyện trong tài liệu tham khảo [1] [...]... được (Interpretability): Tính hiểu được là mức độ hiểu và hiểu rõ những kết quả sinh ra bởi mô hình đã học 14 o Tính đơn giản (Simplicity): Tính đơn giản liên quan đến kích thước của cây quyết định hay độ cô đọng của các luật CHƯƠNG 2 2.1 TÌM HIỂU CÂY QUYẾT ĐỊNH VÀ ĐỘ ĐO TÌM HIỂU CÂY QUYẾT ĐỊNH 2.1.1 Khái niệm Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa... đến bước 4 Cắt tỉa cây: nhằm đơn giản hóa, khái quát hóa cây quyết định để tăng độ chính xác Đánh giá cây: dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng số mẫu được phân lớp chính xác trên tổng số mẫu được đưa vào 2.1.4 Cắt tỉa cây quyết định Qua tìm hiểu các thuật toán xây dựng cây quyết định ở trên, ta thấy việc xây dựng cây bằng cách phát triển nhánh cây đầy đủ theo chiều... khác khi phân lớp cây quyết định Tiếp tục với các - Kết quả Cây Quyết Định theo thuật toán ID3 giống hình 3.3: Outlook Sunny [D1,D2,D8,D9,D11] Ssunny[2+,3-] [D3,D7,D12,D13] SOver[4+,0-] Humidity Normal Yes Overcast Rain [D4,D5,D6,D10,D14 ] Srain[3+,2-] Wind Hight Yes No Weak Yes Strong No Hình 3.3: Cây quyết định với thuật toán ID3 Đánh giá hiệu suất của cây quyết định: Một cây quyết định dược sinh... trong việc nghiên cứu và ứng dụng cây quyết định Để giải quyết tình trạng này người ta sử dụng phương pháp cắt tỉa cây quyết định Có hai phương pháp cắt tỉa cây quyết định 17 2.1.4.1 Tiền cắt tỉa (Prepruning) Chiến thuật tiến cắt tỉa nghĩa là sẽ dừng sớm việc phát triển cây trước khi nó vươn đến điểm mà việc phân lớp các mẫu huấn luyện được hoàn thành Nghĩa là trong quá trình xây dựng cây, một nút có thể... của thuộc tính Tất cả các thuộc tính sẽ được tính toán độ đo tỉ lệ GainRatio Thuộc tính nào có giá trị GainRatio lớn nhất sẽ được chọn làm thuộc tính phân chia: 21 GainRatio = 2.2.3 Độ đo V Độ đo V là độ đo dùng để xác định các mẫu ổn định trong các tập huấn luyện trong bảng dữ liệu huấn luyện Trong tập huấn luyện, xác định các giá trị cho trước và tính lệ của cá giá trị đó Ví dụ: áp dụng cho bài toán... được giới thiệu và trình bày trong mục Induction on decision trees, machine learning năm 1986 ID3 được xem như là một cải tiến của CLS với khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tại mỗi bước ID3 xây dựng cây quyết định từ trên- xuống (top -down) ID3 sử dụng độ đo Information Gain để đo tính hiệu quả của các thuộc tính phân lớp Trong quá trình xây dựng cây quyết định theo thuật... đại diện cho giá trị được dự đo n của Internal node Cây quyết định là một đồ thị phát triển có cấu trúc dạng cây được mô tả trong hình 1: Age Age ≤ 27.5 Age > 27.5 Car type Risk = High Car type {sport} Risk = High Car type {family,truck} Risk = Low 15 Hình 2.1: Cây quyết định biểu diễn Độ Tuổi và Loại Xe thể hiện nguy cơ gây tai nạn Trong đó: * Root: là node trên cùng của cây * Internal node: biểu diễn... huấn luyện: do phải đi qua nhiều node để đến node lá cuối cùng 2.1.3 Quá trình xây dựng cây Quá trình xây dựng cây quyết định được chia làm 3 giai đo n cơ bản: Xây dựng cây: • Đi từ Root đến các nhánh, phát triển quy nạp theo hình thức chia để trị • Chọn thuộc tính tốt nhất bằng một độ đo đã định trước • Phát triển cây bằng việc thêm nhánh tương ứng với từng giá trị của thuộc tính đã chọn • Sắp xếp... khai cây khác nhau, sẽ cho ra các cây có hình dạng khác nhau Việc lựa chọn thuộc tính sẽ ảnh hưởng tới độ rộng, độ sâu, độ phức tạp của cây Vì vậy một câu hỏi đặt ra là thứ tự thuộc tính nào được chọn để triển khai cây sẽ là tốt nhất Vấn đề này sẽ được giải quyết trong thuật toán ID3 dưới đây 3.3 Thuật toán ID3 ID3 được phát biểu bởi tác giả Quinlan (trường đại học Syney, Australia) và được công bố vào... lỗi BackUpError Nếu BackUpError(S) E(S) thì chiến thuật hậu cắt tỉa cây quyết định sẽ cắt tại nút S (tức là cắt bỏ các cây con của S) Tóm lại, việc cắt tỉa cây nhằm: tối ưu hoá cây kết quả Tối ưu về kích cỡ cây và về độ chính xác của việc phân lớp bằng cách cắt bỏ các nhánh không phù hợp (over fitted branches) Để thực hiện việc cắt tỉa cây thì có các kỹ thuật cơ bản sau đây: - Sử dụng tập hợp tách rời