NGHIÊN CỨU CÁC THUẬT TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÂY QUYẾT ĐỊNH

Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN PHÒNG ĐÀO TẠO SAU ĐẠI HỌC BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU ĐỀ TÀI: NGHIÊN CỨU CÁC THUẬT TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÂY QUYẾT ĐỊNH HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 1 GVHD PGS.TS. ĐỖ PHÚC HỌC VIÊN LƯƠNG VĂN NGUYÊN NƠI SINH HÀ NAM LỚP CAO HỌC, KHÓA 7 MSHV CH1102005 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc HÀ NỘI - 2012 LỜI CẢM ƠN  Em xin chân thành cảm ơn các Thầy Cô trong Trường Đại học Công nghệ thông tin, đã tận tình giúp đỡ chúng em học tập, nghiên cứu. Em vô cùng biết ơn phó giáo sư tiến sỹ Đỗ Phúc đã cho phép em tìm hiểu, nghiên cứu đề tài “Các thuật toán phân lớp dữ liệu trên cây quyết định” và Thầy đã dành nhiều thời gian, tận tình hướng dẫn em trên diễn đàn môn học Khai phá dữ liệu và Nhà kho dữ liệu. Học viên: Lương Văn Nguyên MỤC LỤC LỜI NÓI ĐẦU 4 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU TRONG DATA MINING 4 Phân lớp dữ liệu là gì? 4 Qúa trình phân lớp dữ liệu gồm 2 bước : 4 Một số ứng dụng phân lớp tiêu biểu: 6 Tiến trình phân lớp dữ liệu: 6 Tiền xử lý dữ liệu để tiến hành phân lớp: 6 Các phương pháp phân lớp: 6 HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 2 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc Tiêu chuẩn để đánh giá các phương pháp phân lớp: 7 Độ chính xác trong phân lớp: 7 CHƯƠNG 2: CÂY QUYẾT ĐỊNH ỨNG DỤNG TRONG PHÂN LỚP DỮ LIỆU 7 I.TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH: 7 1. Giới thiệu chung: 7 2. Các kiểu cây quyết định: 8 Ví dụ: 8 Ưu điểm cây quyết định: 11 II.CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH: 11 III.PHƯƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH: 12 IV.XÂY DỰNG CÂY QUYẾT ĐỊNH: 13 1. Chọn thuộc tính phân tách: 13 Phép kiểm tra để chọn phép phân tách tốt nhất: 15 CHƯƠNG 3: CÁC THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 18 I.THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH ID3: 19 1. Giới thiệu: 19 Giải thuật ID3 xây dựng cây quyết định từ trên xuống 20 Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất? 22 2. Tìm kiếm không gian giả thuyết trong ID3 28 3. Đánh giá hiệu suất của cây quyết định: 29 4. Khi nào nên sử dụng ID3 29 II.THUẬT TOÁN PHÂN LỚP CÂY DỮ LIỆU C4.5 30 1. Giới thiệu: 30 2. Thuật toán xây dựng cây quyết định: 31 Độ đo sử dụng để xác định điểm chia tốt nhất: 32 4. Một số vấn đề với thuộc tính: 33 ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CƠ SỞ DỮ LIỆU THỰC TÊ 46 III.KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 52 HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 3 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc LỜI NÓI ĐẦU Ngày nay phân lớp dữ liệu (classification) là một trong những hướng nghiên cứu chính của khai phá dữ liệu. Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn con người có thể trích rút ra các quyết định nghiệp vụ thông minh. Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai. Phân lớp dự đoán giá trị của những nhãn xác định hay những giá trị rời rạc, có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là biết trước. Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục. Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ,… của ngày hôm nay và các ngày trước đó. Hay nhờ các luật về xu hướng mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh có thể ra những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán… Một mô hình dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng. Những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ này cũng ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn các thuật toán ra đời trước đều sử dụng cơ chế dữ liệu cư trú trong bộ nhớ (memory resident), thường thao tác với lượng dữ liệu nhỏ. Một số thuật toán ra đời sau này đã sử dụng kỹ thuật cư trú trên đĩa cải thiện đáng kể khả năng mở rộng của thuật toán với những tập dữ liệu lớn lên tới hàng tỉ bản ghi. CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU TRONG DATA MINING Phân lớp dữ liệu là gì? Phân lớp dữ liệu là xếp đối tượng dữ liệu vào một trong các lớp đã được xác định trước. Qúa trình phân lớp dữ liệu gồm 2 bước : Bước 1 (Learning) Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các khái niệm định trước. Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó. Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu (sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case). Khoá luận sử dụng các thuật ngữ này với nghĩa tương đương. Trong tập HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 4 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute). Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết định, công thức logic, hay mạng nơron. Quá trình này được mô tả như trong Hình 1: a) Hình 1 - Quá trình phân lớp dữ liệu - (a) Bước xây dựng mô hình phân lớp Bước 2 (Classification) Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ liệu mới. Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng. Holdout là một kỹ thuật đơn giản để ước lượng độ chính xác đó. Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp. Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo. Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế). Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu. Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ liệu đào tạo có thể kết hợp từ các đặc điểm riêng biệt của tập dữ liệu đó Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo. Nếu độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết. b1) HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 5 A g e C a r Ty p e R i s k 2 0 C o m b i H ig h1 8 S p o r t s H ig h4 0 S p o r t s H ig h5 0 F a m i ly L o w35 M in iv a nL ow 30 C o m b i H ig h3 2 F a m i ly L o w4 0 C o m b iL o w If age <31 Or car Type = Sport Then Rist = Hight Tranning Data Classification algorithm Classifier (model) Classifier (model) Test Datad A g e C a r T y p e R i s k 2 0 C o m b i H ig h1 8 S p o r t s H ig h4 0 S p o r t s H ig h5 0 F a m i ly L o w3 5 M in iv a nL o w 3 0 C o m b i H ig h3 2 F a m i ly L o w4 0 C o m b iL o w R is k H i g h L o w L o w H i g h Test Data Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc Hình 2 - Quá trình phân lớp dữ liệu - (b1)Ước lượng độ chính xác của mô hình b2) Hình 3 - Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới sự thành công của mô hình phân lớp. Do vậy chìa khóa của vấn đề phân lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và có khả năng mở rộng được. Trong đó khả năng mở rộng được của thuật toán được đặc biệt trú trọng và phát triển Một số ứng dụng phân lớp tiêu biểu: - Tín dụng: phân lớp khách hàng… - Tiếp thị: phân lớp nhu cầu mua hàng của khách hàng… - Chẩn đoán y khoa: từ một số triệu chứng -> xác định bệnh… - Phân tích hiệu quả điều trị: kiểm tra tính đúng đắn của luật phân lớp Tiến trình phân lớp dữ liệu: Tiến trình gồm hai bước: - Xây dựng mô hình từ tập huấn luyện, mô hình được biểu diễn bởi các luật phân lớp, các cây quyết định hoặc các công thức toán học. - Sử dụng mô hình: kiểm tra tính đúng đắn của mô hình và dùng nó để phân lớp dữ liệu mới. Tiền xử lý dữ liệu để tiến hành phân lớp: Bao gồm các công việc: - Làm sạch dữ liệu: dữ liệu nhiễu, các giá trị trống… - Phân tích sự liên quan giữa các dữ liệu để chọn đặc trưng - Biến đổi dữ liệu về dạng dữ liệu rời rạc, số hóa dữ liệu Các phương pháp phân lớp: - Phân lớp bằng mạng Neural lan truyền ngược HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 6 Classifier (model) Test Data A g e C a r T y p e R i s k 2 7 Sports 3 4 Minivan 5 5 Family 34 S ports R is k H i g h L o w L o w H i g h Classifier (model) Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc - Phân lớp K-láng giềng gần nhất - Suy luận dựa vào trường hợp - Thuật giải di truyền - Tiếp cận tập thô - Hướng tập mờ Tiêu chuẩn để đánh giá các phương pháp phân lớp: Đánh giá các phương pháp phân lớp dựa trên: - Độ chính xác - Tốc độ - Bền vững - Gia/giảm: phân lớp các tập dữ liệu có hàng triệu mẫu và hàng trăm thuộc tính với tốc độ chấp nhận được. - Có thể biểu diễn được - Dễ làm Độ chính xác trong phân lớp: Dùng một trong các cách sau để ước lượng tỉ lệ sai: - Phân hoạch: dành cho tập dữ liệu lớn  Dùng hai tập dữ liệu độc lập: tập huấn luyện (2/3), tập kiểm tra (1/3) - Kiểm tra chéo: dành cho tập dữ liệu vừa  Chia tập dữ liệu thành k mẫu con  Sử dụng (k – 1) mẫu con làm tập huấn luyện và một mẫu con làm tập kiểm tra, kiểm tra chéo k thành phần. - Bootstrapping: dành cho tập dữ liệu nhỏ Xóa dần mỗi lần 1 phần tử của tập dữ liệu để kiểm tra. CHƯƠNG 2: CÂY QUYẾT ĐỊNH ỨNG DỤNG TRONG PHÂN LỚP DỮ LIỆU I. TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH: 1. Giới thiệu chung: Cây quyết định (decision tree) là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật If-Then. Cây quyết định là cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root). HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 7 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở phân lớp này chúng ta có thể chuyển đổi về các luật quyết định. Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây. Tạo cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự đoán. Cây quyết định được tạo thành bằng cách lần lượt chia (đệ quy) một tập dữ liệu thành các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một lớp. Lựa chọn thuộc tính để tạo nhánh thông qua Entropy và Gain. Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính . Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước. Dữ liệu được cho dưới dạng các bản ghi có dạng: 1 2 3 ( , ) ( , , , , , ) k x y x x x x y = . Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa. 1 2 3 , , x x x là các biến sẽ giúp ta thực hiện công việc đó. 2. Các kiểu cây quyết định: Cây quyết định còn có hai tên khác: o Cây hồi quy (Regression tree): ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện) o Cây phân loại (Classification tree): nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua). Ví dụ: Ta sẽ dùng một ví dụ để giải thích về cây quyết định: David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối chuyện các thành viên đến hay không đến. Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm, không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên. HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 8 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf. Để thực hiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không. Vậy là trong hai tuần, anh ta thu thập thông tin về: Quang cảnh (outlook), nắng (sunny), nhiều mây (clouded) hoặc mưa (raining)). Nhiệt độ (temperature), độ ẩm (humidity). Có gió mạnh (windy) hay không. Và tất nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu gồm 14 dòng và 5 cột. Dữ liệu chơi golf Các biến độc lập Biến phụ thuộc Quang cảnh Nhiệt độ Độ ẩm Gió Chơi Nắng Nóng Cao Nhẹ Không Nắng Nóng Cao Mạnh Không Âm u Nóng Cao Nhẹ Có Mưa Ấm áp Cao Nhẹ Có Mưa Mát Trung bình Nhẹ Có Mưa Mát Trung bình Mạnh Không Âm u Mát Trung bình Mạnh Có Nắng Ấm áp Cao Nhẹ Không Nắng Mát Trung bình Nhẹ Có Mưa Ấm áp Trung bình Nhẹ Có Nắng Ấm áp Trung bình Mạnh Có Âm u Ấm áp Cao Mạnh Có Âm u Nóng Trung bình Nhẹ Có Mưa Ấm áp Cao Mạnh không Sau đó, để giải quyết bài toán của David, người ta đã đưa ra một mô hình cây quyết định kiểm tra khi nào chơi golf, khi nào không chơi. HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 9 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc Cây quyết định là một mô hình dữ liệu mã hóa phân bố của nhãn lớp (cũng là y) theo các thuộc tính dùng để dự đoán. Nút gốc (nút nằm trên đỉnh) đại diện cho toàn bộ dữ liệu. Thuật toán cây phân loại phát hiện ra rằng cách tốt nhất để giải thích biến phụ thuộc Chơi (play), là sử dụng biến Quang cảnh. Phân loại theo các giá trị của biến Quang cảnh, ta có ba nhóm khác nhau: Nhóm người chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, và nhóm chơi khi trời mưa. Kết luận thứ nhất: nếu trời nhiều mây tức là âm u, người ta luôn luôn chơi golf. Và có một số người đi chơi golf cả khi trời mưa. Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con. Ta thấy rằng khách hàng không muốn chơi golf nếu độ ẩm cao. Cuối cùng, ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ không chơi golf nếu trời nhiều gió. Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây phân loại. David cho phần lớn nhân viên nghỉ vào những ngày trời nắng và ẩm, hoặc những ngày mưa gió. Vì hầu như sẽ chẳng có ai chơi golf trong những ngày đó. Vào những hôm khác, khi nhiều người sẽ đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ giúp công việc. Lưu ý : o Cây quyết định trên không có sự tham gia của thuộc tính “Nhiệt độ” trong thành phần cây, các thuộc tính như vậy được gọi chung là các thuộc tính dư thừa bởi vì các thuộc tính này không ảnh hưởng đến quá trình xây dựng mô hình của cây. o Các thuộc tính tham gia vào quá trình phân lớp thông thường có các giá trị liên tục hay còn gọi là kiểu số (ordered or numeric values) hoặc kiểu rời rạc hay còn gọi là kiểu dữ liệu phân loại (unordered or category values). Ví dụ kiểu dữ liệu độ ẩm hay lương có thể biểu diễn bằng số thực là kiểu dữ liệu liên tục, kiểu dữ liệu giới tính là kiểu dữ liệu rời rạc (có thể rời rạc hóa thuộc tính giới tính một cách dễ dàng). HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 10 [...].. .Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS Đỗ Phúc Kết luận là cây quyết định giúp ta biến một biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản hơn rất nhiều Ưu điểm cây quyết định: So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm: • • Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết Các. .. 07 Trang 18 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định I GVHD: PGS.TS Đỗ Phúc THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH ID3: 1 Giới thiệu: Giải thuật quy nạp cây ID3 (gọi tắt là ID3) là một giải thuật học đơn giản nhưng tỏ ra thành công trong nhiều lĩnh vực ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree) Biểu diễn này cho phép chúng ta xác định phân loại của... hiện lại giải thuật ID3 trên một tập dữ liệu rèn luyện khác Ứng với một tập dữ liệu rèn luyện sẽ có nhiều cây quyết định có thể phân loại đúng tất cả các ví dụ trong tập dữ liệu rèn luyện Kích cỡ của các cây quyết định khác nhau tùy thuộc vào thứ tự của các kiểm tra trên thuộc tính Giải thuật ID3 xây dựng cây quyết định từ trên xuống ID3 xây dựng cây quyết định (cây QĐ) theo cách từ trên xuống Lưu... DỰNG CÂY QUYẾT ĐỊNH: Việc tạo cây quyết định bao gồm 2 giai đoạn : Tạo cây và tỉa cây HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 12 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS Đỗ Phúc  Để tạo cây ở thời điểm bắt đầu tất cả những ví dụ huấn luyện là ở gốc sau đó phân chia ví dụ huấn luyện theo cách đệ qui dựa trên thuộc tính được chọn  Việc tỉa cây là xác định. .. Tạocây (E, tập danh sách thuộc tính của E, tập nhãn lớp) Giải thích thuật toán: Đây là một thuật toán kiểu đệ qui tạo cây quyết định HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 31 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS Đỗ Phúc + Tại hàm chính, gọi hàm đệ qui Tạocây() với ba tham số vào là tập dữ liệu E, tập danh sách thuộc tính của E và tập nhãn Thuật toán. .. chắn có chứa cây quyết định cần tìm HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 28 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS Đỗ Phúc  Trong khi tìm kiếm, ID3 chỉ duy trì một giả thuyết hiện tại Vì vậy, giải thuật này không có khả năng biểu diễn được tất cả các cây quyết định khác nhau có khả năng phân loại đúng dữ liệu hiện có  Vì ID3 sử dụng tất cả các ví dụ... giá trị thực + Trong việc xây dựng cây quyết đinh, C4.5 có thể giải quyết tốt đối với trường hợp thuộc tính có nhiều giá trị mà mỗi giá trị này lại duy nhất 2 Thuật toán xây dựng cây quyết định: Dữ liệu vào: Tập dữ liệu D, tập danh sách thuộc tính, tập nhãn lớp Dữ liệu ra: Mô hình cây quyết định Thuật toán: Tạocây(Tập dữ liệu E, tập danh sách thuộc tính F, tập nhãn lớp) 1 Nếu điều_kiện_dừng(E,F) = đúng... để đưa ra các quyết định dựa trên thống kê, nên kết quả tìm kiếm của ID3 rất ít bị ảnh hưởng bởi một vài dữ liệu sai (hay dữ liệu nhiễu)  Trong quá trình tìm kiếm, giải thuật ID3 có xu hướng chọn cây quyết định ngắn hơn là những cây quyết định dài 3 Đánh giá hiệu suất của cây quyết định: Một cây quyết định sinh ra bởi ID3 được đánh giá là tốt nếu như cây này có khả năng phân loại đúng được các trường... nhiều vào số lượng của những tập hợp dữ liệu đưa vào Quản lý sự tạp nhiễu của tập dữ liệu vào là vô cùng HV: Lương Văn Nguyên (CH1102005) – Cao học 07 Trang 30 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS Đỗ Phúc quan trọng khi chúng ta ứng dụng giải thuật học cây quyết định vào thế giới thực Ví dụ như Khi có sự lẫn tạp trong tập dữ liệu đưa vào hoặc khi số lượng ví dụ... một lượng dữ liệu lớn trong thời gian ngắn Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH: Cây quyết định là một cấu trúc được sử dụng để chia liên tiếp một tập các bản ghi lớn thành các tập con nhỏ hơn bằng cách áp dụng một chuỗi các luật đơn . (S1) Partition (S2) Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc I. THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH ID3: 1. Giới thiệu: Giải thuật quy nạp cây ID3 (gọi tắt. TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU TRONG DATA MINING Phân lớp dữ liệu là gì? Phân lớp dữ liệu là xếp đối tượng dữ liệu vào một trong các lớp đã được xác định trước. Qúa trình phân lớp dữ liệu gồm 2. 2 Nghiên cứu các thuật toán phân lớp dữ liệu trên cây quyết định GVHD: PGS.TS. Đỗ Phúc Tiêu chuẩn để đánh giá các phương pháp phân lớp: 7 Độ chính xác trong phân lớp: 7 CHƯƠNG 2: CÂY QUYẾT ĐỊNH

Định dạng
Số trang	52
Dung lượng	0,91 MB