Khai phá dữ liệu và xây dựng cây quyết định cải tiến, ứng dụng thoật toán ID3

45 484 0
Khai phá dữ liệu và xây dựng cây quyết định cải tiến, ứng dụng thoật toán ID3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN MỤC LỤC NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN MỤC LỤC NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN 1 1 MỤC LỤC 2 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN 2 MỤC LỤC 2 LỜI NÓI ĐẦU 3 1.2.Quá trình phát hiện tri thức từ cơ sở dữ liệu 5 1.2.1. Xác định bài toán 5 1.2.2. Thu thập và tiền xử lý dữ liệu 6 1.2.2.1. Gom dữ liệu 6 1.2.2.2. Chọn lọc dữ liệu 7 1.2.2.3. Làm sạch 7 1.2.2.4. Làm giàu dữ liệu 7 1.2.2.5. Mã hoá dữ liệu 8 1.2.2.6. Đánh giá và trình diễn 8 1.2.3. Khai phá dữ liệu và rút ra tri thức 8 1.2.4.Phát biểu và đánh giá kết quả 8 1.2.5.Sử dụng tri thức đã phát hiện 9 1.3.2.1. Phân lớp (Classification) 10 1.3.2.2. Hồi quy (Regression) 10 1.3.2.3. Gom nhóm (Clustering) 10 1.3.2.4. Tổng hợp (Summarization) 11 1.3.2.5. Mô hình ràng buộc (Dependency modeling) 11 1.3.2.6. Dò tìm biến đổi và độ lệch (Change and Deviation Dectection) 11 1.3.3. Ứng dụng của khai phá dữ liệu 11 1.3.4. Một số kỹ thuật khai phá dữ liệu 12 1.3.4.1. Phương pháp quy nạp (Induction) 12 1.3.4.2. Cây quyết định và luật 13 1.3.4.3. Phát hiện các luật kết hợp 13 1.3.4.4. Mạng Neuron 14 1.3.4.5. Giải thuật di truyền 14 1.3.6. Một vài thách thức đặt ra trong việc khai phá dữ liệu 15 Chương 2 16 2.1. Cây quyết định 16 2.1.2. Các kiểu cây quyết định 18 2.2.4.Thuật toán SLIQ 26 2.2.5.Cắt tỉa cây quyết định 29 3.1. Mô tả bài toán 32 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm LỜI NÓI ĐẦU Kỹ nguyên Internet, Intranets, Warehouses, đã mở ra nhiều cơ hội cho các cơ quan, các doanh nghiệp, các đơn vị trong việc thu thập và xử lý thông tin. Bên cạnh đó, với sự phát triển mạnh mẽ của công nghệ điện tử và các thiết bị thu thập dữ liệu tự động đã tạo ra những kho dữ liệu khổng lồ; những bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, các chủ doanh nghiệp đã xây dựng các hệ thống thông tin nhằm tự động hoá mọi hoạt động kinh doanh của họ. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch đơn giản nhất như: một cuộc điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, đều được ghi vào trong máy tính. Vấn đề đặt ra là làm thế nào để xử lý khối lượng thông tin cực lớn như vậy để phát hiện ra các tri thưc tiềm ẩn trong nó. Trong điều kiện và yêu cầu của thương trường, đòi hỏi phải có những phương pháp nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị. Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống không đáp ứng được kỳ vọng này, và giải pháp là sự ra đời của “Kỹ thuật phát hiện tri thức và khai phá dữ liệu” (KDD - Knowledge Discovery and Data Mining). Nhiệm vụ của KDD là từ dữ liệu sẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện cũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên chúng .Các kỹ thuật cho phép HVTH: Phạm Ngọc Giàu – CH1101080 Trang 3 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm ta lấy được các tri thức từ cơ sở dữ liệu sẵn có đó được gọi là kỹ thuật Khai phá dữ liệu( Data Mining). Từ những lý do đó em đã hiểu đề tài Khai phá dữ liệu và xây dựng cây quyết định cải tiến, ứng dụng thoật toán ID3. Với lượng thời gian có giới hạn và năng lực còn hạn chế nên không tránh khỏi những sai sót, em mong nhận được sự góp ý hơn nữa của Thầy và các bạn. Qua đây, em xin chân thành gửi lời cảm ơn tới Giáo sư - Tiến sĩ Khoa Học Hoàng Văn Kiếm, Người đã tận tâm chỉ dẫn em trong suốt quá trình học và thực hiện đề tài. Bên cạnh đó, em cũng xin cảm ơn các chuyên gia cố vấn qua mạng và các bạn bè học viên trong lớp đã giúp đỡ em hoàn thành bài thu hoạch. Em xin chân thành cảm ơn! Sinh viên thực hiện: Phạm Ngọc Giàu Chương 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1. Phát hiện tri thức và khai phá dữ liệu Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử dụng thông tin có hiệu quả. Điều đó có nghĩa là từ các dữ liệu có sẵn phải tìm ra những thông tin tiềm ẩn mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng. Thực hiện công việc đó chính là quá trình phát hiện tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật cho phép ta lấy được các tri thức chính ra từ kỹ thuật khai phá dữ liệu. Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu thì quá trình phát hiện tri thức chỉ toàn bộ quá trình chiết xuất tri thức từ cơ sở dữ liệu, trong đó trải qua nhiều giai đoạn khác nhau như: Tìm hiểu và phát hiện vấn đề, thu thập và tiền xử lý dữ liệu, phát hiện tri thức, minh hoạ và đánh giá tri thức đã phát hiện và đưa kết quả vào thực tế. Khai phá dữ liệu có những điểm khác nhau về mặt ngữ nghĩa so với phát hiện tri thức từ cơ sở dữ liệu nhưng thực tế ta thấy khai phá dữ liệu là chỉ một giai đoạn phát hiện tri thức trong một chuỗi các giai đoạn quá trình HVTH: Phạm Ngọc Giàu – CH1101080 Trang 4 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm phát hiện tri thức trong cơ sở dữ liệu. Tuy nhiên đây là giai đoạn đóng vai trò chủ chốt và là giai đoạn chính tạo nên tính đa ngành của phát hiện tri thức trong cơ sở dữ liệu. 1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu Phát hiện tri thức từ cơ sở dữ liệu là một quá trình có sử dụng nhiều phương pháp và công cụ tin học nhưng vẫn là một quá trình mà trong đó con người làm trung tâm. Do đó nó không phải là một hệ thống phân tích tự động mà là một hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ liệu, tất nhiên là với sự hỗ trợ của các công cụ tin học. Hình 1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu Mặc dù có 5 giai đoạn như trên(hình 1.1), song quá trình phát hiện tri thức từ cơ sở dữ liệu là một quá trình tương tác và lặp đi lặp lại theo kiểu xoắn trôn ốc, trong đó lần lặp sau hoàn chỉnh hơn lần lặp trước. Ngoài ra giai đoạn sau lại dựa trên kết quả thu được của giai đoạn trước theo mô hình thác nước. Đây là một quá trình biện chứng mang tính chất học của quá trình phát hiện tri thức và là phương pháp luận trong việc phát hiện tri thức. Các giai đoạn đó được trình bày cụ thể như sau: 1.2.1. Xác định bài toán Đây là một quá trình mang tính định hình với mục đích xác định được lĩnh vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết. Trong thực tế các cơ sở dữ liệu được chuyên môn hoá và phân chia theo các lĩnh vực khác nhau như: Sản phẩm, kinh doanh, tài chính, Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnh vực này nhưng lại không mang nhiều ý nghĩa HVTH: Phạm Ngọc Giàu – CH1101080 Trang 5 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm với một lĩnh vực khác. Vì vậy việc xác định lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu thập và tiền xử lý dữ liệu. 1.2.2. Thu thập và tiền xử lý dữ liệu Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt. Vì vậy giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ cơ sở dữ liệu. Có thể nói giai đoạn này chiếm từ 70%- 80% giá thành trong toàn bài toán. Người ta chia giai đoạn tiền xử lý dữ liệu như sau: Gom dữ liệu, chọn dữ liệu, làm sạch, mã hoá dữ liệu, làm giàu, đánh giá và trình diễn dữ liệu. Các công đoạn này được thực hiện theo trình tự nhất định cụ thể như sau: Hình 1.2.2. Quá trình phát hiện tri thức 1.2.2.1. Gom dữ liệu Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web. HVTH: Phạm Ngọc Giàu – CH1101080 Trang 6 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm 1.2.2.2. Chọn lọc dữ liệu Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó. Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết từ cơ sở dữ liệu tác nghiệp vào một cơ sở dữ liệu riêng. Chúng ta chọn ra những dữ liệu cần thiết cho các giai đoạn sau. Tuy nhiên công việc thu gom dữ liệu vào một cơ sở dữ liệu thường rất kho khăn vì dữ liệu nằm rải rác khắp nơi trong cơ quan, tổ chức cùng một loại thông tin, nhưng được tạo lập theo các dạng hình thức khác nhau. Ví dụ nơi này dùng kiểu chuỗi, nơi kia lại dùng kiểu số để khai báo một thuộc tính nào đó của khách hàng. Đồng thời chất lượng dữ liệu của các nơi cũng không giống nhau. Vì vậy chúng ta cần chọn lọc dữ liệu thật tốt để chuyển sang giai đoạn tiếp theo. 1.2.2.3. Làm sạch Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẻ, logíc. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiệm trọng. Giai đoạn này thực hiện một số chức năng sau: - Điều hoà dữ liệu - Xử lý các giá trị khuyết. - Xử lý nhiễu và các ngoại lệ 1.2.2.4. Làm giàu dữ liệu Mục đích của giai đoạn này là bổ sung thêm nhiều loại thông tin có liên quan vào cơ sở dữ liệu gốc. Để làm được điều này, chúng ta phải có các cơ sở dữ liệu khác ở bên ngoài có liên quan tới cơ sở dữ liệu gốc ban đầu. Ta tiến hành bổ sung những thông tin cần thiết, làm tăng khả năng khám phá tri thức. Đây là bước mang tính tư duy trong khai phá dữ liệu.Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự, v. v. HVTH: Phạm Ngọc Giàu – CH1101080 Trang 7 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm Quá trình làm giàu bao gồm việc tích hợp và chuyển đổi dữ liệu. Các dữ liệu từ nhiều nguồn khác nhau được tích hợp thành một kho thông nhất. Các khuôn dạng khác nhau của dữ liệu cũng được quy đổi, tính toán lại để đưa về một kiểu thống nhất, tiện cho quá trình phân tích. 1.2.2.5. Mã hoá dữ liệu Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác. Mục đích của giai đoạn này là chuyển đổi kiểu dữ liệu về những dạng thuật tiện để tiến hành các thuật toán khám phá dữ liệu. Có nhiều cách mã hoá dữ liệu như: - Phân vùng: Dữ liệu là giá trị chuỗi, nằm trong các tập các chuỗi cố đinh. - Biến đổi giá trị năm thành con số nguyên là số năm đã trôi qua so với năm hiện hành. - Chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn. - Chuyển đổi Yes-No thành 0-1. 1.2.2.6. Đánh giá và trình diễn Đây là giai đoạn cuối trong quá trình khai phá dữ liệu.Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra. Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu. 1.2.3. Khai phá dữ liệu và rút ra tri thức Giai đoạn khai thác dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và tiến hành xử lý. Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai phá dữ liệu, tiến hành lựa chọn các phương pháp khai thác phù hợp với dữ liệu có được và tách ta các tri thức cần thiết. Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu. 1.2.4. Phát biểu và đánh giá kết quả Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau. Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiết, các HVTH: Phạm Ngọc Giàu – CH1101080 Trang 8 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau. Do nhiều phương pháp khai thác có thể được áp dụng nên các kết quả có mức độ tốt, xấu khác nhau. Việc đánh giá các kết quả thu được là cần thiêt, giúp tạo cơ sở cho những quyết định chiến lược. Thông thường, chúng được tổng hợp, so sánh bằng các biểu đồ và được kiểm nghiệm, tin hoc. 1.2.5. Sử dụng tri thức đã phát hiện Củng cố, tinh chế các tri thức đã được phát hiện. Kết hợp các tri thức thành hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó tri thức được chuẩn bị sẵn sàng cho ứng dụng. Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong những lĩnh vực khác nhau. Do các kết quả có thể là các dự báo hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này. 1.3. Khai phá dữ liệu 1.3.1. Khái niệm khai phá dữ liệu Khai phá dữ liệu là một khái niệm ra đời vào những năn cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu. 1.3.2. Chức năng của khai phá dữ liệu Rõ ràng rằng mục đích của khai phá dữ liệu là các tri thức chiết xuất được sẽ được sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong nghiên cứu khoa học. Do đó, ta có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả và dự đoán. Các mẫu mà khai phá dữ liệu phát hiện được nhằm vào mục đích này. Dự đoán liên quan đến việc sử dụng các biến hoặc các trường trong cơ sở HVTH: Phạm Ngọc Giàu – CH1101080 Trang 9 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm dữ liệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà con người có thể hiểu được. Để đạt được hai mục đích này, chức năng chính của khai phá dữ liệu là: - Phân lớp (Classification). - Hồi qui (Regression). - Gom nhóm (Clustering). - Tổng hợp (Summarization). - Mô hình ràng buộc (Dependency modeling). - Dò tìm biến đổi và độ lệch (Change and Deviation Dectection). 1.3.2.1. Phân lớp (Classification) Phân lớp là việc phân loại một mẫu dữ liệu vào một trong số các lớp đã xác định. Mục tiêu của thuật toán phân lớp là tìm ra các mối quan hệ nào đó giữa các thuộc tính dự báo và thuộc tính phân lớp, từ đó sử dụng mối quan hệ này để dự báo lớp cho các bộ dữ liệu mới khác cùng khuông dạng. 1.3.2.2. Hồi quy (Regression) Hồi quy là việc l ọc một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực. Có rất nhiều ứng dụng khai phá dữ liệu với nhiệm vụ hồi quy, ví dụ như biết các phép đo vi sóng từ xa, đánh giá khả năng tử vong của bệnh nhân biết các kết quả xét nghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chỉ tiêu quảng cáo, 1.3.2.3. Gom nhóm (Clustering) Là việc mô tả chung để tìm ra các tập xác định các nhóm hay các loại để mô tả dữ liệu. Các nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lên nhau. Có nghĩa là một dữ liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia. Các ứng dụng khai phá dữ liệu có nhiệm vụ gom nhóm như: Phát hiện tập các khách hàng có phản ứng giống nhau trong cơ sở dữ liệu tiếp thị, xác định các loại quang phổ từ các phương pháp đo tia hồng ngoại. HVTH: Phạm Ngọc Giàu – CH1101080 Trang 10 [...]... lượng dữ liệu lớn một cách hiệu quả Tạo ra tương tác người sử dụng tốt, giúp người sử dụng tham gia điều khiển quá trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các mẫu đáng quan tâm Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến Một vấn đề quan trọng trong việc phát triển khám phá tri thức và khai. .. khác… 1.3.7 Hướng phát triển của khám phá tri thức và khai phá dữ liệu Hướng phát triển của khám phá tri thức và khai phá dữ liệu là vượt qua được tất cả những thách thức trên, chú trọng vào việc mở rộng ứng dụng để đáp ứng cho mọi lĩnh vực trong đời sống xã hội, và tăng tính hữu ích của việc khai phá dữ liệu trong những lĩnh vực đã có khai phá dữ liệu Tạo ra các phương pháp khai phá dữ liệu linh động,... của cây quyết định So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm như sau: - Cây quyết định tương đối dể hiểu Đòi hỏi mức tiền xử lý dữ liệu đơn giản Có thể xử lý với cả các dữ liệu rời rạc và liên tục Cây quyết định là một mô hình hộp trắng Kết quả dự đoán bằng cây quyết định có thể thẩm định lại bằng cách kiểm tra thống kê 2.1.4 Giải quyết vấn đề xây dựng cây quyết định. .. tri thức và khai phá dữ liệu đó là vấn đề an toàn và bảo mật thông tin trong khai phá dữ liệu HVTH: Phạm Ngọc Giàu – CH1101080 Trang 15 Thu hoạch Môn Công nghệ tri thức và ứng dụng GVHD: GS TS Hoàng Văn Kiếm Chương 2 CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU DÙNG CÂY QUYẾT ĐỊNH 2.1 Cây quyết định 2.1.1 Khái niệm cây quyết định Trong lý thuyết quyết định (chẳng hạn quản lí rủi ro), một cây quyết định (tiếng Anh:... kế và chọn giải thuật khai phá dữ liệu khác nhau 1.3.3 Ứng dụng của khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như: Hệ CSDL, thống kê, trực quan hoá.v.v Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức, v.v.So với các phương pháp này, khai phá dữ liệu. .. sinh ra từ cơ sở dữ liệu Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu với các tri thức đã biết trước Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật 1.3.4.2 Cây quyết định và luật • Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn... số ưu thế rõ rệt So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn Phương pháp hệ chuyên gia: Phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên... GVHD: GS TS Hoàng Văn Kiếm định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định Ví dụ: Cây quyết định phân lớp mức lương Age? ≤ 35 > 35 salary ≤ 40 bad salary >40 ≤50 good bad >50 good Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn... (tiếng Anh: decision tree) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên) Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định Cây quyết định là một dạng đặc biệt của cấu trúc cây Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive... đề này sẽ được giải quyết trong thuật toán C4.5 sau đây 2.2.3 Thuật toán C4.5 Thuật toán C4.5 được phát triển và công bố bởi Quinlan vào năm 1996 Thuật toán C4.5 là một thuật toán được cải tiến từ thuật toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính số (numeric atributes) và và làm việc được với tập dữ liệu bị thiếu và bị nhiễu Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược . trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các mẫu đáng quan tâm. Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu. Ứng dụng khai phá dữ liệu để khai. tri thức đã biết trước. Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật. 1.3.4.2. Cây quyết định và luật • Cây quyết định: Cây quyết định là một mô tả tri thức dạng. tri thức và ứng dụng GVHD: GS. TS Hoàng Văn Kiếm Chương 2 CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU DÙNG CÂY QUYẾT ĐỊNH 2.1. Cây quyết định 2.1.1. Khái niệm cây quyết định Trong lý thuyết quyết định (chẳng

Ngày đăng: 10/04/2015, 16:26

Từ khóa liên quan

Mục lục

  • NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

  • MỤC LỤC

  • NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

  • MỤC LỤC

  • LỜI NÓI ĐẦU

    • 1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu

      • Hình 1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu

      • 1.2.1. Xác định bài toán

      • 1.2.2. Thu thập và tiền xử lý dữ liệu

        • Hình 1.2.2. Quá trình phát hiện tri thức

        • 1.2.2.1. Gom dữ liệu

        • 1.2.2.2. Chọn lọc dữ liệu

        • 1.2.2.3. Làm sạch

        • 1.2.2.4. Làm giàu dữ liệu

        • 1.2.2.5. Mã hoá dữ liệu

        • 1.2.2.6. Đánh giá và trình diễn

        • 1.2.3. Khai phá dữ liệu và rút ra tri thức

        • 1.2.4. Phát biểu và đánh giá kết quả

        • 1.2.5. Sử dụng tri thức đã phát hiện

        • 1.3.2.1. Phân lớp (Classification)

        • 1.3.2.2. Hồi quy (Regression)

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan