1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3

78 533 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 817,11 KB

Nội dung

1 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN DƢƠNG THỊ NHUNG NGHIÊN CỨU PHƢƠNG PHÁP CÂY QUYẾT ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN DƢƠNG THỊ NHUNG NGHIÊN CỨU PHƢƠNG PHÁP CÂY QUYẾT ĐỊNH VÀ CÀI ĐẶT MÔ PHỎNG THUẬT TOÁN ID3 Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI Thái Nguyên 2010 2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung luận văn này là do tôi tự sƣu tầm, tra cứu thông tin trên mạng internet, trong một số sách tham khảo để sắp xếp, hoàn thiện cho phù hợp với nội dung yêu cầu của đè tài. Đến nay, nội dung luận văn của tôi chƣa từng đƣợc công bố hay xuất bản dƣới bất kỳ hình thức nào. Nếu sai tôi xin chịu hoàn toàn trách nhiệm. Ngày 10 tháng 10 năm 2010 Tác giả Dƣơng Thị Nhung 3 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Để hoàn thành luận văn này tôi đã nhận đƣợc sự giúp đỡ tận tình của các thầy cô Khoa Công nghệ thông tin – Đại học Thái Nguyên, các thầy cô viện công nghệ thông tin – viện Khoa học và công nghệ Việt Nam, các bạn bè đông nghiệp. Đặc biệt là PGS.TS Vũ Đức Thi, ngƣời thầy trực tiếp hƣớng dẫn tôi trong quá trình nghiên cứu và thực hiện luận văn. Nhân dịp này tôi xin đƣợc bày tỏ lời cảm ơn tới tất cả các thầy cô giáo viện Công nghệ thông tin – Viện Khoa học và công nghệ Việt Nam, các thầy cô ở khoa Công nghệ thông tin – Đại học Thái nguyên đã giảng dạy và tạo mọi điều kienẹ thuận lợi giúp đỡ chúng tôi trong quá trình học tập, nghiên cứu. Tôi xin trân trọng cảm ơn PGS.TS. Vũ Đức Thi – Viện công nghệ thông tin, ngƣời thầy trực tiếp hƣớng dẫn, đƣa ra ý tƣởng, định hƣớng, đóng góp các ý kiến chuyên môn và tận tình giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận văn này. Tôi xin cảm ơn các bạn bè đồng nghiệp và gia đình đã giúp đỡ, đóng góp ý kiến và động viên tôi trong suốt qua trình học, quá trình nghiên cứu và hoàn thành luận văn này. Tác giả Dƣơng Thị Nhung 4 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI MỞ ĐẦU 1 Phần 1: TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ 2 KHAI PHÁ DỮ LIỆU 2 1.1. Khái quát chung về phát hiện tri thức và khai phá dữ liệu. 2 1.2. Quá trình khám phá tri thức 3 1.2.1. Hình thành và định nghĩa bài toán 4 1.2.2. Thu thập và tiền xử lý dữ liệu 4 1.2.3. KPDL và rút ra các tri thức 5 1.2.4. Phân tích và kiểm định kết quả 5 1.2.5. Sử dụng các tri thức phát hiện đƣợc 5 1.3. Quá trình KPDL 6 1.3.1. Gom dữ liệu ( gatherin ) 6 1.3.2. Trích lọc dữ liệu ( selection ) 7 1.3.3. Làm sạch và tiền xử lý dữ liệu ( cleansing preprocessing preparation ). 7 1.3.4. Chuyển đổi dữ liệu ( transformation ) 7 1.3.5. Phát hiện và trích mẫu dữ liệu ( pattern extraction and discovery) 7 1.3.6. Đánh giá kết quả ( evaluation of result ) 7 1.4. Chức năng của KPDL 8 1.5. Các kỹ thuật KPDL 8 1.5.1. Phân lớp dữ liệu: 8 1.5.2. Phân cụm dữ liệu: 9 1.5.3. Khai phá luật kết hợp: 9 1.5.4. Hồi quy: 9 1.5.5. Giải thuật di truyền: 9 1.5.6. Mạng nơron: 9 1.5.7. Cây quyết định. 10 1.6. Các dạng dữ liệu có thể khai phá đƣợc 10 1.7. Các lĩnh vực liên quan và ứng dụng của KPDL 10 5 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.7.1. Các lĩnh vực liên quan đến khám phá tri thức và KPDL 10 1.7.2. Ứng dụng của KPDL 11 1.8. Các thách thức và hƣớng phát triển của KPDL. 12 Phần 2: CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 13 2.1 Cây quyết định 13 2.1.1 Mô tả 13 2.1.2 Định nghĩa cây quyết định 13 2.1.3 Ƣu điểm của cây quyết định. 15 2.1.4 Vấn đề xây dựng cây quyết định 16 2.1.5 Rút ra các luật từ cây quyết định. 17 2.2 Các thuật toán KPDL bằng cây quyết định 18 2.2.1 Thuật toán CLS 18 2.2.2. Thuật toán ID3 23 2.2.3. Thuật toán C4.5 38 2.2.4. Thuật toán SLIQ 52 2.2.5. Cắt tỉa cây quyết định 61 2.2.6. Đánh giá và kết luận về các thuật toán xây dựng cây quyết định. 66 Phần 3: CÀI ĐẶT MÔ PHỎNG THUẬT TOÁN ID3 69 3.1. Mô tả bài toán 69 3.2. Màn hình nhập dữ liệu của chƣơng trình 69 3.3. Màn hình phân tích dữ liệu đƣa ra kết quả của chƣơng trình 70 Phần 4: KẾT LUẬN 71 TÀI LIỆU THAM KHẢO 72 Tài Liệu Tiếng Việt 72 Tài Liệu Tiếng Anh 72 Danh Sách Website 72 1 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Trong nhiều năm qua, cùng với sự phát triển của công nghệ thông tin và ứng dụng của công nghệ thông tin trong nhiều lĩnh vực của đời sống xã hội, thì lƣợng dữ liệu đƣợc các cơ quan thu thập và lƣu trữ ngày một nhiều lên. Theo thống kê thì trong lƣợng dữ liệu đó chỉ có khoảng từ 5% đến 10% dữ liệu là luôn đƣợc phân tích, số còn lại ngƣời ta không biết sẽ phải làm gì với chúng. Tuy nhiên con ngƣời vẫn tiếp tục thu thập và lƣu trữ dữ liệu vì cho rằng chúng ẩn chứa những giá trị nhất định nào đó, chẳng hạn có thể cung cấp cho họ thông tin đƣa ra quyết định chiến lựoc một cách nhanh chóng trong một lúc nào đó. Chính do lƣợng dữ liệu đƣợc lƣu trữ ngày càng nhiều lên đến mức khổng lồ thì các phƣơng pháp quản trị và khai thác dữ liệu truyền thống ngày càng không đáp ứng đƣợc nhu cầu của thực tế và đã làm phát triển một khuynh hƣớng kỹ thuật mới đó là Kỹ thuật khám phá tri thức và KPDL (Khai phá dữ liệu). Kỹ thuật khám phá tri thức và KPDL đã và đang đƣợc nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau trên thế giới. Tại Việt Nam, kỹ thuật này còn tƣơng đối mới mẻ tuy nhiên cũng đang đƣợc nghiên cứu và dần đƣa vào một số ứng dụng thực tế; đặc biệt trong lĩnh vực giáo dục đào tạo thì chƣa có một ứng dụng thiết thực nào. Hiện nay vấn đề khám phá tri thức và KPDL cũng đang thu hút đƣợc sự quan tâm của nhiều ngƣời và nhiều công ty phát triển ứng dụng công nghệ thông tin ở nƣớc ta. Luận văn này bao gồm các nội dung sau: Chƣơng 1: Tổng quan về phát hiện tri thức và khai phá dữ liệu. Chƣơng 2: Cây quyết định và các thuật toán khai phá dữ liệu bằng cây quyết định. Chƣơng 3: Cài đặt mô phỏng thuật tóan ID3 2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Phần 1: TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1. Khái quát chung về phát hiện tri thức và khai phá dữ liệu. Trong vài thập kỷ gần đây, khả năng tạo sinh và lƣu trữ dữ liệu của con ngƣời đã tăng lên nhanh chóng. Lƣợng dữ liệu lớn đƣợc lƣu trữ dẫn đến một đòi hỏi cấp bách phải có những kỹ thuật mới, những công cụ tự động mới trợ giúp con ngƣời một cách thông minh trong việc chuyển đổi một lƣợng lớn dữ liệu thành thông tin hữu ích và tri thức. Vì vậy mà kỹ thuật khám phá tri thức (Knowledge Discovery) đã ra đời và ngày càng phát triển để đáp ứng nhu cầu của con ngƣời trong việc xử lý các kho dữ liệu lớn. Vậy tri thức ở đây là gì? Thông thƣờng chúng ta coi dữ liệu nhƣ là một dãy các bit, các số và các ký hiệu, hoặc các “đối tƣợng” đƣợc gửi cho một chƣơng trình dƣới một định dạng nhất định nào đó. Chúng ta sử dụng các bit để đo lƣờng thông tin và xem nó nhƣ là dữ liệu đã đƣợc lọc bỏ dƣ thừa, đƣợc rút gọn tới mức tối thiểu. Bít đƣợc dùng làm đơn vị đặc trƣng cho dữ liệu. Chúng ta có thể xem tri thức nhƣ là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể đƣợc hiểu, đƣợc phát hiện ra, hoặc có thể đƣợc học. Nói cách khác, tri thức có thể coi là dữ liệu có độ trừu tƣợng và tổ chức cao. Hiện nay khám phá tri thức đang phát triển mạnh mẽ trong nhiều ngành học thuật. Nó đƣợc kết hợp cùng với việc quản lý cơ sở dữ liệu, khoa học thống kê, học máy, nghiên cứu mối quan hệ giữa các lĩnh vực nhằm rút ra các tri thức có ích từ tập hợp lớn dữ liệu. Khám phá tri thức là quá trình nhận biết cái logic, cái mới lạ, những tri thức tiềm tàng hữu ích từ cơ sở dữ liệu, và cuối cùng là việc hiểu đƣợc các mẫu các mô hình trong dữ liệu. Còn thuật ngữ KPDL (Khai phá dữ liệu) ra đời vào những năm cuối của thập kỷ 1980. Có rất nhiều định nghĩa khác nhau về "KPDL" đã đƣợc đƣa ra. Giáo sƣ Tom 3 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Mitchell đã đƣa ra định nghĩa về KPDL nhƣ sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tƣơng lai.”. Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu: ”KPDL thƣờng đƣợc xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trƣớc đây chƣa biết và có khả năng là hữu ích, dƣới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”. Còn các nhà thống kê thì xem " KPDL nhƣ là một quá trình phân tích đƣợc thiết kế thăm dò một lƣợng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm đƣợc bằng cách áp dụng các mẫu đã phát hiện đƣợc cho tập con mới của dữ liệu". Nói chung, KPDL là cốt lõi của quá trình khám phá tri thức. Nó gồm có các giải thuật KPDL chuyên dùng, dƣới một số quy định về hiệu quả tính toán chấp nhận đƣợc. KPDL là nhằm tìm ra những mẫu mới, mẫu có tính chất không tầm thƣờng, những thông tin tiềm ẩn mang tính dự đoán chƣa đƣợc biết đến và có khả năng mang lại ích lợi. Nói tóm lại, mục đích chung của việc khám phá tri thức và KPDL là tìm ra các mẫu đƣợc quan tâm nhất và/ hoặc các mô hình tồn tại trong cơ sở dữ liệu, nhƣng chúng lại bị che dấu bởi một số lƣợng lớn dữ liệu. 1.2. Quá trình khám phá tri thức Quá trình khám phá tri thức đƣợc tiến hành qua 5 bƣớc sau: 4 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 1.1. Quá trình khám phá tri thức 1.2.1. Hình thành và định nghĩa bài toán Đây là bƣớc tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bƣớc này quyết định cần rút ra những tri thức dạng nhƣ thế nào, đồng thời lựa chọn các phƣơng pháp KPDL thích hợp với mục đích ứng dụng và bản chất của dữ liệu. 1.2.2. Thu thập và tiền xử lý dữ liệu Trong bƣớc này dữ liệu đƣợc thu thập ở dạng thô (nguồn dữ liệu thu thập có thể là từ các kho dữ liệu hay nguồn thông tin internet). Trong giai đoạn này dữ liệu cũng đƣợc tiền xử lý để biến đổi và cải thiện về chất lƣợng cho phù hợp với phƣơng pháp KPDL đƣợc chọn lựa trong bƣớc một. Bƣớc này thƣờng chiếm nhiều thời gian nhất trong quá trình khám phá tri thức. Các công việc tiền xử lý dữ liệu bao gồm : 1. Xử lý dữ liệu bị mất/ thiếu: Các dữ liệu bị thiếu sẽ đƣợc thay thế bởi các giá trị thích hợp. 2. Khử sự trùng lặp: các đối tƣợng dữ liệu trùng lặp sẽ bị loại bỏ. Kỹ thuật này không đƣợc sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu. 3. Giảm nhiễu: dữ liệu nhiễu và các đối tƣợng tách rời khỏi phân bố chung sẽ bị loại bỏ khỏi tập dữ liệu. 5 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4. Chuẩn hoá: thông thƣờng là chuẩn hoá miền giá trị của dữ liệu cho phù hợp. 5. Rời rạc hoá: chính là việc biến đổi các dữ liệu dạng số về dữ liệu với các giá trị rời rạc. 6. Rút trích và xây dựng đặc trƣng mới từ các thuộc tính đã có. 7. Giảm chiều: là loại bỏ bớt các thuộc tính chứa ít thông tin. 1.2.3. KPDL và rút ra các tri thức Đây là bƣớc quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của bƣớc này là trích ra đƣợc các mẫu và/hoặc các mô hình ẩn dƣới một khối lƣợng lớn dữ liệu. Một mô hình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả hệ thống trong cơ sở dữ liệu, hoặc miêu tả cách dữ liệu đƣợc nảy sinh. Còn một mẫu là một cấu trúc cục bộ có liên quan đến vài biến và vài trƣờng hợp trong cơ sở dữ liệu. 1.2.4. Phân tích và kiểm định kết quả Bƣớc thứ tƣ là hiểu các tri thức đã tìm đƣợc, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Trong bƣớc này, kết quả tìm đƣợc sẽ đƣợc biến đổi sang dạng phù hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho ngƣời dùng. 1.2.5. Sử dụng các tri thức phát hiện đƣợc Trong bƣớc này, các tri thức khám phá đƣợc sẽ đƣợc củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó. Các mô hình rút ra đƣợc đƣa vào những hệ thống thông tin thực tế dƣới dạng các môdun hỗ trợ việc đƣa ra quyết định. Các giai đoạn của quá trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ thuật đƣợc sử dụng trong giai đoạn trƣớc có thể ảnh hƣởng đến hiệu quả của các giải thuật đƣợc sử dụng trong những giai đoạn tiếp theo. Các bƣớc của quá trình khám phá tri thức có thể đƣợc lặp đi lặp [...]... đƣờng đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định đƣợc gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định Cây quyết định có thể đƣợc mô tả nhƣ là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hoá một tập dữ liệu cho trƣớc Cây quyết định có 2 tên khác:  Cây hồi quy : ƣớc lƣợng các hàm giá có... các quyết định kịp thời nhanh chóng dựa vào việc phân tích cây quyết định, trong thời đại công nghệ thông tin mà ai có đƣợc thông tin và đƣa ra quyết định sớm thì ngƣời đó gần nhƣ nắm chắc phần thắng trong kinh doanh 2.1.4 Vấn đề xây dựng cây quyết định Xây dựng cây quyết định là việc làm quan trọng nhất trong việc sử dụng cây quyết định để KPDL Có nhiều thuật toán khác nhau để xây dựng cây quyết định. .. huấn luyện quyết định phân lớp mức lƣơng Cây quyết định phân lớp mức lƣơng có dạng nhƣ sau: Age? ≤ 35 > 35 salary ≤ 40 salary good bad >5 0 bad ≤5 >40 0 good Hình 2.1 Cây quyết đinh phân lớp mức lƣơng 2.1.3 Ƣu điểm của cây quyết định So với các phƣơng pháp KPDL khác, cây quyết định có một số ƣu điểm sau: - Cây quyết định tƣơng đối dễ hiểu Ngƣời ta có thể hiểu đƣợc mô hình của cây quyết định chỉ cần... trình KPDL, định hƣớng hệ thống KPDL trong việc phát hiện các mẫu đáng quan tâm; tích hợp KPDL vào trong các hệ cơ sở dữ liệu; ứng dụng KPDL để KPDL web trực tuyến Một vấn đề quan trọng trong việc phát triển khám phá tri thức và KPDL đó là an toàn và bảo mật thông tin trong KPDL Phần 2: CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Cây quyết định 2.1.1 Mô tả Cây quyết định (decision... phân lớp 2.1.2 Định nghĩa cây quyết định Trong lý thuyết quyết định, một cây quyết định (decision tree) là một đồ thị của các quyết định và hậu quả có thể của nó (bao gồm cả rủi ro và hao phí tài nguyên ) Cây quyết định đƣợc sử dụng để xây dựng một kế hoạch nhằm đạt đƣợc Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 14 mục tiêu mong muốn Các cây quyết định đƣợc dùng... Các thuật toán KPDL bằng cây quyết định Kỹ thuật khai phá dữ liệu bằng cây quyết định là kỹ thuật thuật đƣợc trình bày trọng tâm trong luận văn này Từ rất lâu, ngƣời ta đã quan tâm đến việc phân loại dữ liệu bằng cây quyết định Mỗi cách phân loại đƣợc ghi chép lại và sau đó đƣợc công bố nhƣ là một kỹ thuật KPDL Mỗi kỹ thuật theo thời gian và theo nhu cầu cần sử dụng đã dần bộc lộ những điểm mạnh và. .. rộng cây sao cho độ phức tạp của cây là nhỏ nhất và độ chính xác của việc phân lớp là tốt nhất Vấn đề này sẽ đƣợc giải quyết trong thuật toán ID3 dƣới đây 2.2.2 Thuật toán ID3 Thuật toán ID3 đƣợc phát biểu bởi Quinlan (trƣờng đại học Syney, Australia) và đƣợc công bố vào cuối thập niên 70 của thế kỷ 20 Sau đó, thuật toán Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 24 ID3. .. cây tƣơng đối đơn giản Đánh giá bằng cách cho một tập dữ kiện vào và so sánh nhãn của lớp đã dự đoán với nhãn của lớp trên thực tế đạt đƣợc Tiêu chí để đánh giá độ chính xác của cây quyết định là tỷ số các mẫu đƣợc phân lớp chính xác trên tổng số các mẫu đƣa vào 2.1.5 Rút ra các luật từ cây quyết định Có thể chuyển đổi qua lại giữa mô hình cây quyết định và mô hình dạng luật Sau khi xây dựng đƣợc cây. .. Hai cây quyết định trong hình 2.4 và 2.5 là khác nhau Điều đó nói lên rằng khi áp dụng thuật toán CLS để xây dựng cây trên cùng một tập mẫu huấn luyện, cây quyết định thu đƣợc phù thuộc vào việc chọn thuộc tính mở rộng cây ở bƣớc 4) Việc chọn thứ tụ thuộc tính mở rộng cây ảnh hƣởng lớn đến hình dạng cây nhƣ độ rộng, độ sâu hay nói cách khác là ảnh hƣởng đến độ phức tạp của cây Vậy một câu hỏi đặt ra... giới thiệu và trình bày trong mục Induction on Decision Trees, Machine learning năm 1986 ID3 là một thuật toán đơn giản nhƣng tỏ ra thành công trong nhiều lĩnh vực ID3 biểu diễn các khái niệm (concept) ở dạng cây quyết định Biểu diễn này cho phép chúng ta xác định phân loại của đối tƣợng bằng cách kiểm tra giá trị của nó trên một số thuộc tính nào đó Nhiệm vụ của thuật toán ID3 là học cây quyết định từ . thức và KPDL đó là an toàn và bảo mật thông tin trong KPDL. Phần 2: CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Cây quyết định 2.1.1 Mô tả Cây quyết định (decision. 17 2.2 Các thuật toán KPDL bằng cây quyết định 18 2.2.1 Thuật toán CLS 18 2.2.2. Thuật toán ID3 23 2.2.3. Thuật toán C4.5 38 2.2.4. Thuật toán SLIQ 52 2.2.5. Cắt tỉa cây quyết định 61 2.2.6 NGHIÊN CỨU PHƢƠNG PHÁP CÂY QUYẾT ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN DƢƠNG THỊ NHUNG NGHIÊN CỨU PHƢƠNG PHÁP CÂY QUYẾT ĐỊNH VÀ CÀI ĐẶT MÔ PHỎNG THUẬT

Ngày đăng: 09/10/2014, 12:53

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. GS.TS. Đỗ Phúc, Bài giảng khai thác dữ liệu, Đại học Quốc gia TP. Hồ Chí Minh, 2007 Sách, tạp chí
Tiêu đề: Bài giảng khai thác dữ liệu
[2]. Nguyễn Thanh Thuỷ, Khai phá dữ liệu - kỹ thuật và ứng dụng, Hà Nội, 2001 [3]. Võ Huỳnh Tâm - Trần Ngân Bình, Giáo trình trí tuệ nhân tạo, Chương 9 Họcmáy, Nhà xuất bản Đại học Cần Thơ Sách, tạp chí
Tiêu đề: Khai phá dữ liệu - kỹ thuật và ứng dụng", Hà Nội, 2001 [3]. Võ Huỳnh Tâm - Trần Ngân Bình, "Giáo trình trí tuệ nhân tạo, Chương 9 Học "máy
Nhà XB: Nhà xuất bản Đại học Cần Thơ
[4]. Vũ Đức Thi, Cơ sở dữ liệu – kiến thức và thực hành, nhà xuất bản thống kê, 1991 Sách, tạp chí
Tiêu đề: Cơ sở dữ liệu – kiến thức và thực hành
Nhà XB: nhà xuất bản thống kê
[5]. Nguyễn Văn Thu, Khai phá dữ liệu bằng cây quyết định, luận văn thạc sĩ khoa học, đại học sƣ phạm Hà Nội, 2006Tài Liệu Tiếng Anh Sách, tạp chí
Tiêu đề: Khai phá dữ liệu bằng cây quyết định
[6]. Jaiwei Han and Micheline Kamber, Data Mining: Concepts and Techniques (2001) Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
[10]. U.S. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996.Danh Sách Website Sách, tạp chí
Tiêu đề: Advances in Knowledge Discovery and Data Mining
[11]. Knowledge Discovery Nuggets: http://www.kdnuggets.com/ Link
[12]. Wikipedia - Bách khoa toàn thƣ mở - Cây quyế t đị nh . http://en.wikipedia.org/wiki/Decision tree Link
[7]. G.piatetsky - Shapiro and W.J. Frawley. AAAI/MIT Press.. Knowledge Discovery in Databases Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Quá trình khám phá tri thức - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Hình 1.1. Quá trình khám phá tri thức (Trang 9)
Hình 1.3. Các lĩnh vực liên quan đến KPDL - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Hình 1.3. Các lĩnh vực liên quan đến KPDL (Trang 16)
Bảng dữ liệu trên là một tập các mẫu mô tả quyết định đi chơi tennis. Trong  bảng,  thuộc  tính  Day  đƣợc  dùng  để  định  danh  (chỉ  số) - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Bảng d ữ liệu trên là một tập các mẫu mô tả quyết định đi chơi tennis. Trong bảng, thuộc tính Day đƣợc dùng để định danh (chỉ số) (Trang 25)
Hình 2.11 Cây quyết định đi chơi tennis - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Hình 2.11 Cây quyết định đi chơi tennis (Trang 43)
Bảng 2.3 Bảng thống kê mức độ nguy hiểm khi lái xe và độ tuổi  Trong đó: - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Bảng 2.3 Bảng thống kê mức độ nguy hiểm khi lái xe và độ tuổi Trong đó: (Trang 49)
Hình 2.15 Cây kết quả sử dụng thuật toán C4.5 - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Hình 2.15 Cây kết quả sử dụng thuật toán C4.5 (Trang 57)
Bảng 2.5 Bảng đánh giá độ tuổi và mức lương - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Bảng 2.5 Bảng đánh giá độ tuổi và mức lương (Trang 59)
Bảng 2.6 dữ liệu sau khi tiền xử lý phân loại: - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Bảng 2.6 dữ liệu sau khi tiền xử lý phân loại: (Trang 62)
Bảng 2.7  Tính giá trị gini tại các điểm tách của thuộc tính Age - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Bảng 2.7 Tính giá trị gini tại các điểm tách của thuộc tính Age (Trang 64)
Hình 2.16: Cây kết quả sử dụng thuật toán SLIQ với tập dữ liệu trong bảng 2.5 - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Hình 2.16 Cây kết quả sử dụng thuật toán SLIQ với tập dữ liệu trong bảng 2.5 (Trang 66)
Hình 2.17 Cây trước khi cắt tỉa  Tiến hành tính lỗi cho các nút trong ta có: - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Hình 2.17 Cây trước khi cắt tỉa Tiến hành tính lỗi cho các nút trong ta có: (Trang 68)
Hình 2.18 Cây sau khi cắt tỉa - nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3
Hình 2.18 Cây sau khi cắt tỉa (Trang 69)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w