1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn sư phạm tìm hiểu về khai phá dữ liệu bằng cây quyết định và ứng dụng hướng nghiệp

51 142 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 1,42 MB

Nội dung

Mục đích và nhiệm vụ nghiên cứu - Mục đích: Từ việc nghiên cứu phương pháp khai phá dữ liệu bằng cây quyết định để xây dựng mô hình phân tích kết quả học tập và đưa ra tư vấn nghề nghiệ

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2 VIỆN CÔNG NGHỆ THÔNG TIN

TRẦN THỊ THÙY LINH

TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG HƯỚNG NGHIỆP

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Chuyên ngành: Sư phạm Tin học

Người hướng dẫn khoa học

ThS Đỗ Thị Lan Anh

HÀ NỘI, 2019

Trang 2

LỜI CẢM ƠN

Em xin chân thành cảm ơn cô giáo ThS Đỗ Thị Lan Anh, giảng viên Viện Công nghệ thông tin, trường Đại học Sư phạm Hà Nội 2, người đã trực tiếp hướng dẫn em trong suốt thời gian qua để em có thể hoàn thành khóa luận này

Em xin gửi lời cảm ơn tới các thầy, cô giáo trong Viện Công nghệ thông tin, các bạn lớp K41 – Sư Phạm tin học đã tạo điều kiện, động viên khích lệ em trong suốt quá trình học tập và nghiên cứu

Do thời gian nghiên cứu còn hạn chế nên những vấn đề mà em trình bày trong khóa luận sẽ không tránh khỏi những thiếu xót Em kính mong nhận được những ý kiến đóng góp từ thầy cô và các bạn để bài khóa luận của em được hoàn thiện hơn

Em xin trân thành cảm ơn!

Hà Nội, ngày tháng 5 năm 2019

Sinh viên

Trần Thị Thùy Linh

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan khóa luận này được hoàn thành bằng sự cố gắng của bản thân, dưới sự hướng dẫn tận tình của cô giáo ThS Đỗ Thị Lan Anh và tham khảo một số tài liệu đã được ghi rõ nguồn

Khóa luận hoàn toàn không sao chép từ tài liệu có sẵn nào Kết quả nghiên cứu không trùng lặp với các tác giả khác

Nếu sai, tôi xin hoàn toàn chịu trách nhiệm!

Hà Nội, ngày tháng 5 năm 2019

Sinh viên

Trần Thị Thùy Linh

Trang 4

DANH MỤC CÁC HÌNH

Hình 2.1: Cây quyết định được xây dựng theo thuật toán CLS 11

Hình 2.2: Mở rộng nhánh bên trái của cây quyết định 12

Hình 2.3: Mở rộng nhánh bên phải cây quyết định 13

Hình 2.4: Phân chia theo các giá trị của thuộc tính 32

Hình 2.5: Cây quyết định có ngưỡng cho phép tách 34

Hình 2.6: Kết quả sử dụng thuật toán C4.5 35

Hình 3.1: Đăng nhập 39

Hình 3.2: Đăng ký 39

Hình 3.3: Làm trắc nghiệm 40

Hình 3.4: Kết quả 40

Hình 3.5: Kết quả 41

Hình 3.6: Lưu trữ thông tin 41

Trang 5

DANH MỤC CÁC BẢNG

Bảng 2.1 Tập dữ liệu huấn luyện quyết định đi Picnic 11 Bảng 2.2 Thống kê mối quan hệ mức độ thực phẩm cần cung cấp và độ tuổi 29 Bảng 2.3 Minh họa tìm ngưỡng 33

Trang 6

MỤC LỤC LỜI CẢM ƠN

LỜI CAM ĐOAN

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích và nhiệm vụ nghiên cứu 1

3 Phương pháp nghiên cứu 1

4 Nội dung chính của đề tài 2

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3

1.1 Khái niệm 3

1.2 Các bước khai phá dữ liệu 3

1.2.1 Tìm hiểu bài toán 3

1.2.2 Thu thập và xử lý dữ liệu 3

1.2.3 Khai phá dữ liệu và lựa chọn giải thuật phù hợp 3

1.2.4 Phân tích đánh giá 3

1.2.5 Sử dụng kết quả 3

1.3 Một số kỹ thuật khai phá dữ liệu 4

1.3.1 Phân lớp dữ liệu 4

1.3.2 Phân cụm dữ liệu 5

1.3.3 Sử dụng luật kết hợp 6

1.3.4 Sử dụng cây quyết định 7

CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 8

2.1 Kỹ thuật khai phá dữ liệu sử dụng cây quyết định 8

2.1.1 Các kiểu cây quyết định 8

2.1.2 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu 8

2.1.3 Xây dựng cây quyết định 9

2.2 Các thuật toán sử dụng cây quyết định 9

Trang 7

2.2.1 Thuật toán CLS 9

2.2.2 Thuật toán ID3 13

2.2.3 Thuật toán C4.5 25

2.3 Cắt tỉa cây quyết định 35

2.4 Đánh giá về các thuật toán 36

CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG 38

3.1 Lựa chọn thuật toán 38

3.2 Lựa chọn ngôn ngữ lập trình 38

3.3 Chương trình 38

3.3.1 Phát biểu bài toán 38

3.3.2 Yêu cầu bài toán 38

3.3.3 Giao diện chương trình 39

3.3.4 Đánh giá kết quả chương trình 41

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43

TÀI LIỆU THAM KHẢO 44

Trang 8

MỞ ĐẦU

1 Lý do chọn đề tài

Ngày nay, với sự phát triển về mọi mặt của đời sống từ văn hóa, giáo dục cho đến công nghệ và đặc biệt lĩnh vực công nghệ thông tin có những bước phát triển chóng mặt Cùng với sự phát triển thì lượng dữ liệu thu thập được ngày càng nhiều, lượng thông tin được lưu trữ trên các thiết bị ngày càng tăng lên Để tìm

ra những thông tin hữu ích trong lượng dữ liệu khổng lồ ngày càng khó Chính vì vậy mà hiện nay đã phát triển một kỹ thuật mới nhằm tìm ra những thông tin hữu ích đó chính là khai phá dữ liệu

Nghề nghiệp là một vấn đề quan trọng đối với mỗi con người, có rất nhiều các bạn đang rất băn khoăn về việc lựa chọn nghề nghiệp cho bản thân mình, đặc biệt đối với những học sinh lớp 12 Do vậy việc hướng nghiệp cho học sinh trung học phổ thông là hết sức cần thiết

Trước những thực tế đó, tôi chọn đề tài: “Tìm hiểu về khai phá dữ liệu bằng cây quyết định và ứng dụng hướng nghiệp” cho khóa luận tốt nghiệp của mình

2 Mục đích và nhiệm vụ nghiên cứu

- Mục đích: Từ việc nghiên cứu phương pháp khai phá dữ liệu bằng cây quyết định để xây dựng mô hình phân tích kết quả học tập và đưa ra tư vấn nghề nghiệp cho học sinh

- Nhiệm vụ nghiên cứu:

+ Tìm hiểu các kỹ thuật về khai phá dữ liệu, các thuật toán được áp dụng cho từng kỹ thuật

+ Áp dụng thuật toán cơ bản trong cây quyết định để phân tích kết quả học tập của học sinh

3 Phương pháp nghiên cứu

- Phương pháp nghiên cứu lí thuyết:

Tìm hiểu và lựa chọn phương pháp khai phá dữ liệu cho phù hợp

- Phương pháp nghiên cứu thu thập thông tin, phân tích số liệu:

Trang 9

Thu thập thống kê số liệu từ khảo sát sinh viên, phân tích các dữ liệu, tham khảo tài liệu của các chuyên gia hướng nghiệp cho học sinh để có được các kinh nghiệm

4 Nội dung chính của đề tài

Ngoài phần mở đầu, kết luận, tài liệu tham khảo, phụ lục luận văn bao gồm

3 chương

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH

CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG

Trang 10

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó [6]

Các tên gọi khác như: Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging (nạo vét dữ liệu),

1.2 Các bước khai phá dữ liệu

1.2.1 Tìm hiểu bài toán

Đây là bước đầu trong khai phá dữ liệu nhằm xác định các tri thức của lĩnh vực, các mục đích của bài toán và xây dựng được bài toán cụ thể giúp định hướng cho giai đoạn tiếp theo trong khai phá dữ liệu

1.2.2 Thu thập và xử lý dữ liệu

Đây là giai đoạn quan trọng nhất của quá trình khai phá vì thông tin thu thập được chưa đầy đủ, chính xác cần phải xử lý, chọn lọc nếu không sẽ dẫn đến những kết quả không mong muốn trong khai phá dữ liệu

1.2.3 Khai phá dữ liệu và lựa chọn giải thuật phù hợp

Sau khi dữ liệu được thu thập, xử lý sẽ bắt đầu lựa chọn phương pháp khai phá phù hợp với dữ liệu có được

Trang 11

1.3 Một số kỹ thuật khai phá dữ liệu

1.3.1 Phân lớp dữ liệu

Mục đích của phân lớp là dự đoán các nhãn phân lớp cho các bộ dữ liệu mới Kỹ thuật phân lớp bao gồm hai bước: Xây dựng mô hình và sử dụng mô hình

- Xây dựng mô hình: Là mô tả một tập những lớp được định nghĩa trước trong đó: Mỗi bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như

là được xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụng trong việc sử dụng mô hình được gọi là tập huấn luyện Mô hình được biểu diễn

là những luật phân lớp, cây quyết định và những công thức toán học

- Sử dụng mô hình: Việc sử dụng mô hình phục vụ cho mục đích phân lớp

dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sử dụng mô hình người ta thường phải đánh giá tính chính xát của mô hình trong đó: Nhãn được biết của mẫu kiểm tra được so sánh với kết quả phân lớp của mô hình, độ chính xác là phần trăm của tập hợp mẫu kiêm tra mà phân loại đúng bởi mô hình, tập kiểm tra là độc lập với tập huấn luyện [2]

* Một số thuật toán về phân lớp dữ liệu:

- Phân lớp dữ liệu với quy nạp cây quyết định:

+ Cây quyết định là một dạng đặc biệt của cấu trúc cây Mỗi nút bên trong biểu thị một sự kiểm tra trên một thuộc tính Mỗi nhánh biểu thị kết quả cụ thể của sự kiểm tra đó Mỗi nút lá biểu thị một nhãn lớp

+ Cách áp dụng cây quyết định cho phân lớp dữ liệu: Những đối tượng cần phân lớp, giá trị các thuộc tính của đối tượng được đưa vào phân tích trên cây quyết định Sau quá trình phân tích, mỗi đối tượng tương ứng có một đường đi từ gốc đến một nút lá chứa kết quả dự báo kết quả phân lớp cho những đối tượng đó

- Phân lớp dữ liệu với Bayesian:

+ Trong lĩnh vực khai phá dữ liệu, Bayesian là kỹ thuật phân lớp dựa vào việc tính xác suất có điều kiện

Trang 12

Công thức tính xác suất có điều kiện có dạng:

P(H/X) = 𝑃(

𝑋

𝑃(𝑋) Trong đó:

+ P(H/X) là xác suất hậu của H điều kiện X

+ P(H) là tiền xác suất của H

+ P(X/H) là hậu xác suất của X xác định điều kiện trên H

+ P(X) là tiền xác suất của X

1.3.2 Phân cụm dữ liệu

Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các đối tượng trong cùng một cụm là tương đồng Trong quá trình phân cụm dữ liệu thì vấn đề trở ngại lớn nhất đó là nhiễu Nhiễu xuất hiện trong quá trình thu thập thông tin chưa chính xác Vì vậy phải khử nhiễu trong quá trình phân cụm dữ liệu

* Các vấn đề con cơ bản của phân cụm dữ liệu cần giải quyết đó là:

- Biểu diễn dữ liệu

- Xây dựng hàm tính độ tương tự

- Xây dựng các tiêu chuẩn phân cụm

- Xây dựng mô hình cho cấu trúc cụm dữ liệu

- Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo

- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm

* Một số kiểu dữ liệu trong phân cụm:

- Phân loại dựa trên kích thước miền:

Cách phân loại này phân biệt các đối tượng dữ liệu dựa trên lích thước miền của đối tượng đó, hay là các giá trị khác nhau của vùng đó Giả sử cơ sở dữ liệu X và k đối tượng Nếu a, b, c là 3 đối tượng của X thì chúng sẽ có dạng:

a = (a1, a2, a3, , ay), b = (b1, b2, b3, , by), c = (c1, c2, c3, , cy) Với y là số chiều và ai, bi, ci với 1 ≤ i ≤ y là các thuộc tính tương ứng của các đối tượng

Trang 13

Các loại dữ liệu dựa trên kích thước miền:

+ Thuộc tính liên tục: Miền giá trị của các thuộc tính này là các miền liên tục Ví dụ như âm thanh, nhiệt độ

+ Thuộc tính rời rạc: Miền giá trị của thuộc tính này là các miền các giá trị rời rạc Ví dụ như số quả táo, số bông hoa

- Phân loại dựa vào phép đo:

Giả sử hai đối tượng a, b và giá trị thuộc tính x của mỗi đối tượng tương ứng là ax, bx Ta có các lớp sau:

+ Thuộc tính định danh: Các giá trị ở lớp này chỉ có phép toán so sánh bằng (ax = bx) hoặc không bằng (ax ≠ bx)

+ Thuộc tính có thứ tự: Là thuộc tính định danh nhưng có thêm tính thứ tự Nếu a và b là 2 thuộc tính thứ tự thì có thể xác định a = b, a ≠ b, a < b, a > b

+ Thuộc tính có khoảng cách: Với thuộc tính có khoảng cách có thể xác định một thuộc tính đứng trước hay đứng sau một thuộc tính khác với khoảng là bao nhiêu Nếu ax < bx thì có thể nói b cách a một khoảng là bx - ax tương ứng với thuộc tính thứ x

* Các phương pháp phân cụm:

- Phương pháp phân cấp

- Phương pháp phân hoạch

- Phương pháp dựa trên mật độ

- Phương pháp dựa vào lưới

- Phương pháp dựa vào mô hình

1.3.3 Sử dụng luật kết hợp

Định nghĩa: Một luật kết hợp thường được kí hiệu là xRy hoặc X →Y, trong đó X, Y là tập con các mục của tập mục I và X ∩ Y = Ø; X được gọi là tiên

đề và Y được gọi là hệ quả của luật hay X là giả thiết còn Y là kết luận.[2]

Hai tham số quan trọng của luật kết hợp là độ hỗ trợ và độ tin cậy Nó làm thước đo cho tính tin cậy và mức độ chính xác của luật

Trang 14

Mục đích của luật kết hợp là tìm ra mối quan hệ giữa các đối tượng trong

cơ sở dữ liệu Từ đó ứng dụng các luật vừa tìm được vào những mục đích cụ thể

* Một số thuật toán cơ bản trong khai phá dữ liệu

- Thuật toán APPIORI

- Thuật toán FB – Growwth

- Thuật toán AIS

- Thuật toán STEAM

1.3.4 Sử dụng cây quyết định

Cây quyết định là cấu trúc biểu diễn dưới dạng cây Trong đó mỗi nút trong tương ứng với một biến Đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu Đỉnh trên cùng gọi là gốc

Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn Cây quyết định nhằm hỗ trợ quá trình ra quyết định

Trang 15

CHƯƠNG 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

BẰNG CÂY QUYẾT ĐỊNH 2.1 Kỹ thuật khai phá dữ liệu sử dụng cây quyết định

2.1.1 Các kiểu cây quyết định

Có hai kiểu cây quyết định:

- Cây hồi quy: Ước lượng các hàm có giá trị là số thực thay vì sử dụng cho các nhiệm vụ phân loại

- Cây phân loại: Nếu x có các nhiệm vụ phân loại như: Thời tiết (nắng hay mưa), kết quả (thắng hay thua)

2.1.2 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu

- Cây quyết định có thể xử lý các dữ liệu bằng số, liên tục và dữ liệu dạng phân loại rời rạc Các kỹ thuật khác thường xuyên để phân tích các bộ dữ liệu chỉ gồm các thuộc tính có giá trị hoặc rời rạc Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên loại rời rạc

- Cây quyết định là một mô hình hộp trắng Nếu có thể quan xát một tình huống cho trước trong một mô hình, thì dễ dàng có thể giải thích điều kiện đó bằng logic boolean

- Có thể thẩm định một mô hình cây quyết định bằng cách kiểm tra thống

kê Điều này làm cho ta có thể tin tưởng vào kết quả của mô hình

- Cây quyết định có thể xử lý tốt một đối tượng dữ liệu lớn trong thời gian ngắn Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định

Trang 16

* Nhược điểm:

- Xảy ra lỗi khi có quá nhiều lớp: Một cây quyết định chỉ thao tác với những lớp giá trị nhị phân Số khác lại có thể chỉ định các bản ghi vào một số lớp bất kỳ, những dễ xảy ra lỗi khi số ví dụ huấn luyện ứng với một lớp là nhỏ

- Chi phí tính toán đắt: Vì cây quyết định có nhiều node trong trước khi đến lá cuối cùng Tại từng node cần tính một độ đo trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác sắp xếp lại dữ liệu theo thứ tự giá trị của tập thuộc tính đó Sau đó mới có thể chọn được thuộc tính phát triển và tương ứng là một phân chia tốt nhất

2.1.3 Xây dựng cây quyết định

Để xây dựng cây quyết định có thể thực hiện bằng thuật toán nhất đinh nào

đó, nhưng quá trình xây dựng cây gồm 3 giai đoạn:

- Giai đoạn 1: Tạo dựng cây Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp theo cách thức chia để trị để đến khi đạt được cây quyết định với tất cả các lá được gán nhãn lớp

- Giai đoạn 2: Cắt tỉa cây Đây là công việc để tối ưu hóa cây, khái quát hóa để tăng độ chính xác của cây bằng cách loại bỏ sự phụ thuộc vào mức độ nhiễu

- Giai đoạn 3: Đánh giá cây Dùng để đánh giá độ chính xác của cây kết quả Tiêu chí đánh giá là tổng

số mẫu được phân lớp chính xác trên tổng số mẫu đưa vào

2.2 Các thuật toán sử dụng cây quyết định

Trang 17

thuộc tính được phân loại hay rời rạc Cùng với một tập dữ liệu đầu vào, thuật toán có thể cho các kết quả khác nhau Do thuật toán này chưa có tiêu chí để lựa chọn thuộc tính trong quá trình xây dựng Thuật toán CLS khá đơn giản, dễ cài đặt phù hợp giải quyết trong các nhiệm vụ đơn giản

Nó gồm các bước sau:

- Tạo một nút T, nút này gồm tất cả các mẫu của tập huấn luyện

- Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị “YES” (hay thuộc cùng một lớp), thì gán nhãn cho nút T là “YES” và dừng lại T lúc này

+ Tạo n nút con Ti (i=1,2, n) với nút cha là T

+ Tạo các nhánh nối từ nút T đến các nút Ti (i = 1, 2, 3, n) Thực hiện lặp cho các nút con Ti (i = 1, 2, n) và quay lại bước 2

Ví dụ: Cho tập dữ liệu huấn luyện thể hiện trong bảng, xây dựng cây quyết định đi Picnic

Ngày Áo Quần Giày Phương Tiện Đi Picnic N1 Áo dài Quần Jean Bốt Bus Không N2 Áo dài Quần Jean Bốt Xe máy Không N3 Áo phông Quần Jean Bốt Bus Có N4 Áo sơ mi Quần vải Bốt Bus Có

Trang 18

N5 Áo sơ mi Quần ngố Thể thao Bus Có N6 Áo sơ mi Quần ngố Thể thao Xe máy Không N7 Áo phông Quần ngố Thể thao Xe máy Có N8 Áo dài Quần vải Bốt Bus Không N9 Áo dài Quần ngố Thể thao Bus Có N10 Áo sơ mi Quần vải Thể thao Bus Có N11 Áo dài Quần vải Thể thao Xe máy Có N12 Áo dài Quần vải Bốt Xe máy Có N13 Áo phông Quần Jean Thể thao Bus Có N14 Áo sơ mi Quần vải Bốt Xe máy Không

Bảng 2.1: Tập dữ liệu huấn luyện quyết định đi Picnic

Bảng dữ liệu trên là một tập các mẫu mô tả quyết định đi Picnic Ở bảng trên, thuộc tính Ngày được dùng để định danh (chỉ số) Các thuộc tính quần, áo, giầy, phương tiện là các thuộc tính ứng cử viên được dùng để xét Còn thuộc tính

đi picnic là thuộc tính khẳng định được dùng để phân lớp các mẫu dữ liệu Khi

đó cây quyết định được xây dựng theo thuật toán CLS đối với tập dữ liệu trong bảng được xây dựng như sau:

Chọn thuộc tính Áo = {Áo sơ mi, Áo phông, Áo dài} ta có cây như sau:

[N1, N2, N3, N4, N5, N6, N7, N8, N9, N10, N11, N12, N13, N14]

[N1, N2, N8, N9, N11] [N3, N7, N12, N13] [N4, N5, N6, N10, N14]

Hình 2.1: Cây quyết định được xây dựng theo thuật toán CLS

Với giá trị thuộc tính Áo = ”Áo dài “ các giá trị thuộc tính Đi Picnic của

{N3, N7, N12, N13} đều có giá trị là có, chúng thuộc cùng lớp “có” Đây là nút

lá có nhãn là “có”

Áo

Trang 19

Tiếp theo chọn thuộc tính Giầy = {bốt, thể thao} để mở rộng cho nhánh bên trái của cây, chúng ta được cây như hình 2.2 như sau:

Hình 2.2: Mở rộng nhánh bên trái của cây quyết định

Chọn thuộc tính Phương tiện = {xe bus, xe máy} để mở rộng cho nhánh bên phải chúng, ta được cây con sau:

Áo

Giầy

Trang 20

Hình 2.3: Mở rộng nhánh bên phải cây quyết định

Hình 2.3 là kết quả thu được khi áp dụng thuật toán CLS cho tập dữ liệu huấn luyện trong bảng 2.1 với thứ tự các thuộc tính áo, giầy, phương tiện Nếu áp dụng thuật toán CLS với thứ tự khác của thuộc tính ta sẽ thu được cây kết quả có hình dạng khác

2.2.2 Thuật toán ID3

Thuật toán ID3 được công bố bởi Quainlan vào cuối thập niên 70 của thế kỷ

XX Sau đó, thuật toán ID3 được giới thiệu và trình bày trong mục Induction on decision tree, machine learning năm 1986 ID3 là một thuật toán đơn giản nhưng

tỏ ra thành công trong nhiều lĩnh vực ID3 thể hiện các khái niệm ở dạng cây quyết định Biểu diễn này cho phép chúng ta xác định phân loại của đối tượng bằng cách kiểm tra giá trị của nó trên một số thuộc tính nào đó Nhiệm vụ của thuật toán ID3 là học cây quyết định từ một tập dữ liệu rèn luyện Giải thuật có:

- Đầu vào: Một tập hợp các mẫu dữ liệu Mỗi mẫu bao gồm các thuộc tính

mô tả một tình huống hoặc một đối tượng nào đó và một giá trị phân loại của nó

Áo

Trang 21

- Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập

dữ liệu rèn luyện và hy vọng phân loại đúng cho cả các ví dụ chưa gặp trong tương lai

Với ví dụ ở trên, xét xem có đi Picnic ứng với điều kiện nào đó không Giải thuật ID3 sẽ học cây quyết định từ tập hợp các ví dụ sau:

Tập dữ liệu này bao gồm 14 ví dụ Mỗi ví dụ bao gồm: Áo, quần, giầy, phương tiện và có thuộc tính “đi Picnic” (có hay không) “Có” có nghĩa là có đi picnic trong điều kiện đó, còn “không” nghĩa là sẽ không đi trong trường hợp tương ứng Ta chỉ có hai giá trị để phân loại là Có và không Thuộc tính “đi Picnic” được gọi là thuộc tính đích

Mỗi thuộc tính đều có một tập giá trị hữu hạn Thuộc tính Áo có ba giá trị:

Áo dài, áo phông, áo sơ mi, thuộc tính quần có 3 giá trị: Chân váy, quần vải, quần jean, thuộc tính giầy có 2 giá trị: Bốt, giầy thể thao, thuộc tính phương tiện có 2 giá trị: Xe bus, xe máy Các giá trị này chính là các ký hiệu dùng để biểu diễn bài toán

Từ tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trong tương lai nó cũng sẽ phân loại đúng các ví dụ không nằm trong tập này

Sau khi giải thuật quy nạp được cây quyết định thì cây này sẽ sử dụng để phân loại tất cả các vi dụ hay thể hiện trong tương lai Và cây quyết định sẽ không thay đổi cho đến khi ta thực hiện giải thuật ID3 trên một tập dữ liệu rèn luyện khác

Ứng với một tập dữ liệu rèn luyện sẽ có nhiều cây quyết định có thể phân loại đúng tất cả các ví dụ trong tập dữ liệu rèn luyện Kích cỡ của các cây quyết định khác nhau tùy thuộc vào thứ tự các kiểm tra trên thuộc tính

* Hàm xây dựng cây quyết định ID3 từ trên xuống

ID3 xây dựng cây quyết định theo cách từ trên xuống Lưu ý rằng với bất kỳ thuộc tính nào chúng ta cũng có thể phân vùng tập hợp các ví dụ rèn luyện thành những tập con tách rời, mà ở đó mọi ví dụ trong một phân vùng có một giá trị

Trang 22

chung cho thuộc tính đó ID3 chọn một thuộc tính để kiểm tra tại nút hiện tại của cây và dùng trắc nghiệm này để phân vùng tập hợp các ví dụ Thuật toán khi đó xây dựng theo cách đệ quy một cây con cho từng phân vùng Việc này tiếp tục cho đến khi mọi thành viên của phân vùng đều nằm trong cùng một lớp, nút đó trở thành nút lá của cây

Vì thứ tự trắc nghiệm của các trắc nghiệm là rất quan trọng đối với xây dựng một cây quyết định đơn giản ID3 phụ thuộc rất nhiều vào tiêu chuẩn chọn lựa trắc nghiệm để làm gốc của cây

* Giải thuật xây dựng thuật toán ID3 Tên hàm: Genrate_decision_tree

Input: Tập dữ liệu học S có chứa các mẫu, tập thuộc tính A

Output: Cây quyết định T

Hàm Genrate_decision_tree được mô tả dưới dạng giải mã:

Function Genrate_decision_tree (S, A)

Begin

If mọi mẫu trong tập S đều nằm trong một lớp then Return một nút lá được gán nhãn bởi lớp đó Else

If tập thuộc tính A là rỗng then Return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập S (Lớp phổ biến nhất trong tập S)

Else

Begin

Chọn thuộc tính test_attribute là thuộc tính có giá trị Gain lớn nhất trong A với tập mẫu S, lấy nó làm gốc cho cây hiện tại

Xóa test_attribute;

Với mỗi giá trị ai của test_attribute Begin

Trang 23

Tạo một nhánh của cây gán nhãn ai;

Đặt vào phân vùng Si các mẫu trong tập mẫu S

có giá trị ai tại thuộc tính test_attribute;

Gọi Genrate_ decision _ tree (Si, attribute _ list _ test _ attribute ), gắn kết quả vào nhánh ai

End End

End

* Các khả năng có thể có của các phân vùng:

- Trong quá trình xây dựng cây quyết định, phân vùng của một nhánh mới

- Không còn ví dụ nào => Giải thuật trở về mặc nhiên

- Không còn thuộc tính nào => Nghĩa là dữ liệu bị nhiễu, khi đó giải thuật phải sử dụng một luật nào đó để xử lý, chẳng hạn như luật đa số (lớp nào có nhiều

ví dụ hơn sẽ được dùng để gán nhãn cho nút lá trở về)

- Để hiểu hơn về thuật toán ID3, ta xét ví dụ được cho trong bảng 2.1 với tập dữ liệu S Tập S gồm 14 mẫu dữ liệu, thuộc tính Ngày là thuộc tính định danh Các thuộc tính ứng viên, thuộc tính đi Picnic là thuộc tính phân lớp Ta có: S gồm

Trang 24

Theo lý thuyết thông tin, mã có độ dài tối ưu là mã gán – log2p bit cho thông điệp

Entropy(S) = -P+ log2 (P+) - P- log2 (P-)

Để tổng quát hơn, đối với tập con S có n phân lớp thì ta có công thức sau:

Entropy (S) = ∑𝑛𝑖=1( −𝑃𝑖 log 2 (𝑃𝑖))Trong đó Pi là tỷ lệ các mẫu thuộc lớp i trên tập S các mẫu kiểm tra

Ví dụ

Với bảng 2.1 tập dữ liệu S gồm có 14 mẫu dữ liệu về điều kiện trong bảng 2.1 thì số mẫu có giá trị “có “ là 9, số mẫu có giá trị “ không” là 5 Chúng ta ký hiệu [9+, 5-] Khi đó Entropy của tập S là:

Entropy (S) = Entropy ([9+, 5-])

Trang 25

* Lượng thông tin thu được đo mức độ giảm Entropy mong đợi

Gain là đại lượng dùng để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc phân lớp Đại lượng này được thông qua hai giá trị Information và Entropy

Cho tập dữ liệu S gồm có n thuộc tính Ai (i=1, 2, 3, , n) giá trị information của thuộc tính Ai ký hiệu là Info(Ai) được xác định bởi công thức:

Info (Ai)= - ∑𝑛𝑖=1log2(pi) = Entropy(S) Giá trị Gain của công thức A trong tập S ký hiệu là Gain( S,A ) và được xác định theo công thức sau:

Gain (S,A) = Info (A) – Entropy(A)

có 5 trường hợp áo = áo dài, có 4 trường hợp hợp áo = áo phông, có 5 trường hợp

áo = áo sơ mi

Trong 5 trường hợp ứng với thuộc tính áo = áo dài thì có 2 mẫu nhận giá trị “ có”, 3 mẫu nhận giá trị “không”

Ngày đăng: 12/09/2019, 20:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w