PHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG TRONG SQL SERVER 2012

Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của mộtthuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp..

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

1 Trần Thế Duy CH1301009

2 Lê Thúc Quốc Anh CH1301002

TpHCM - THÁNG 06, NĂM 2014

Trang 2

Lời cảm ơn

Em xin chân thành cảm ơn thầy Đỗ Phúc trường Đại Học Công Nghệ Thông Tin đã truyền đạt cho em kiến thức quý báu trong suốt quá trình học tập

Tuy đây chỉ là bài tiểu luận của môn học, em cũng được sự giúp đỡ của các bạn trong lớp, quý thầy cô và anh chị phòng sau đại học đã cung cấp cho những tài liệu hay để em hoàn thành bài tiểu luận

Em xin chân thành cảm ơn tất cả mọi người!

Trần Thế Duy

NHẬN XÉT ĐÁNH GIÁ CỦA GIÁO VIÊN

Trang 3

Điểm bằng số :

Điểm băng chữ

TP Hồ Chí Minh, ngày 07 tháng 06 năm 201 NHẬN XÉT GIÁO VIÊN

PGS.TS ĐỖ PHÚC M C L C ỤC LỤC ỤC LỤC LỜI NÓI ĐẦU 2

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH 3

1.1 Tổng quan về phân lớp dữ liệu trong khai phá dữ liệu 3

1.1.1 Phân lớp dữ liệu 3

1.1.2 Các vấn đề liên quan đến phân lớp dữ liệu 7

1.2 Cây quyết định ứng dụng trong phân lớp dữ liệu 8

1.2.1 Định nghĩa 8

1.2.2 Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định 9

1.3 Đánh giá cây quyết định trong khai phá dữ liệu 11

1.3.1 Điểm mạnh của việc sử dụng cây quyết định 11

1.3.2 Điểm yểu của cây quyết định 12

CHƯƠNG 2 GIẢI THUẬT QUY NẠP CÂY QUYẾT ĐỊNH ID3 13

2.1 Giới thiệu 13

2.2 Giải thuật ID3 xây dựng cây quyết định từ trên xuống 17

2.3 Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất? 19

2.3.1 Entropy đo tính thuần nhất của tập ví dụ 20

2.3.2 Lượng thông tin thu được đo mức độ giảm entropy mong đợi 22

Trang 4

2.4 Tìm kiếm không gian giả thuyết trong ID3 24

2.5 Đánh giá hiệu suất của cây quyết định: 25

2.6 Chuyển cây về các luật 25

2.7 Khi nào nên sử dụng ID3 26

CHƯƠNG 3 ỨNG DỤNG PHÂN LỚP DỮ LIỆU TRÊN MICROSOFT SQL SERVER 2012 27

3.1 Giới thiệu tính năng khai phá dữ liệu 27

3.2 Chuẩn bị các yêu cầu để khai phá dữ liệu 28

3.3 Xây dựng một mô hình quyết định dựa trên Microsoft Decision Trees 29

Bước 1 – Chuẩn bị CSDL để phân tích 31

Bước 2 – Xây dựng mô hình dữ liệu 32

Bước 3 – Thực hiện khai phá 35

Bước 4 – Khám phá kết quả 36

Bước 5 – Kiểm thử kết quả 38

Bước 6 – Dự báo 40

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 41

TÀI LIỆU THAM KHẢO 42

Trang 5

LỜI NÓI ĐẦU

Trong lĩnh vực khai phá dữ liệu, phân lớp dữ liệu là việc phân lo ại các mẫu dữliệu vào một trong các nhóm cho trước sao cho đặc tính của mẫu dữ liệu gần vớiđặc tính của nhóm đó nhất Chẳng hạn một người bán hàng, bằng kinh nghiệm củamình, chỉ cần nhìn bề ngoài và thái độ của một khách hàng thì người bán hàng cóthể dự đoán là khách hàng đó có khả năng mua hàng hay không Tức là người bánhàng đã làm công việc phân lớp khách hàng vào lớp “những người có nhiều khảnăng mua hàng” hoặc lớp “những người ít có khả năng mua hàng”, dựa vào đặcđiểm của khách hàng đó

Việc phân lớp rất có ý nghĩa, nó không chỉ đơn thuần là phân loại mà còn chochúng ta biết một mẫu dữ liệu trong tương lai có khả năng thuộc lớp nào, từ đóđịnh hướng chiến lược hành động phù hợ p với mẫu d ữ liệu đó Nếu biết được đâu

là “những người có nhiều khả năng mua hàng” thì chúng ta sẽ đẩy mạnh các chiếnlược tiếp thị vào nhóm khách hàng đó, khả năng thành công sẽ cao hơn

Phân lớp được ứng dụng rộng rãi trong nhiều lĩnh vực cần dự đoán và ra quyếtđịnh, nhất là lĩnh vực thương mại

Có nhiều phương pháp phân lớp dữ liệu Trong số đó, “Cây quyết định” là mộtphương pháp hiệu quả, đã được sử dụng thành công trong nhiều vấn đề thực tế.Microsoft SQL Server 2012 là một hệ quản trị cơ sở dữ liệu có cung cấp những

tính năng khai phá dữ liệu mạnh mẽ Trong đó tính năng phân lớp Microsoft

Decision Trees được thiết kế dựa trên thuật toán ID3 Thay vì phải tự viết ra một

phần mềm để sử dụng, ta nên sử dụng các công cụ mạnh mẽ có sẵn để khai phá dữliệu, tất nhiên ta phải tìm hiểu các kiến thức nền tảng về khai phá dữ liệu

Vì những lý do đó, bài tiểu luận này sẽ trình bày giải thuật phân lớp Cây quyếtđịnh và minh họa bằng Microsoft SQL Server 2012

Trang 6

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY

QUYẾT ĐỊNH

1.1 Tổng quan về phân lớp dữ liệu trong khai phá dữ liệu

1.1.1 Phân lớp dữ liệu

Ngày nay phân lớp dữ liệu là một trong những hướng nghiên cứu chính

của khai phá dữ liệu Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiềuthông tin ẩn con người có thể trích rút ra các quyết định nghiệp vụ thông minh.Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một môhình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai.Phân lớp dự đoán giá trị của những nhãn xác định hay những giá trị rời rạc, cónghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là biếttrước Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liêntục Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai làmưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ,… của ngàyhôm nay và các ngày trước đó Hay nhờ các luật về xu hướng mua hàng của kháchhàng trong siêu thị, các nhân viên kinh doanh có thể ra những quyết sách đúng đắn

về lượng mặt hàng cũng như chủng loại bày bán… Một mô hình dự đoán có thể dựđoán được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên nhữngthông tin về thu nhập và nghề nghiệp của khách hàng Trong những năm qua, phânlớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khácnhau như học máy, hệ chuyên gia, thống kê Công nghệ này cũng ứng dụng trongnhiều lĩnh vực khác nhau như: thương mại, nhà băng, maketing, nghiên cứu thịtrường, bảo hiểm, y tế, giáo dục Phần lớn các thuật toán ra đời trước đều sử dụng

cơ chế dữ liệu cư trú trong bộ nhớ , thường thao tác với lượng dữ liệu nhỏ Một sốthuật toán ra đời sau này đã sử dụng kỹ thuật cư trú trên đĩa cải thiện đáng kể khảnăng mở rộng của thuật toán với những tập dữ liệu lớn lên tới hàng tỉ bản ghi

Trang 7

Quá trình phân lớp dữ liệu gồm hai bước:

Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệuhay các khái niệm định trước Đầu vào của quá trình này là một tập dữ liệu có cấutrúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của cácthuộc tính đó Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu, có thể là cácmẫu, ví dụ, đối tượng, bản ghi hay trường hợp Trong tập dữ liệu này, mỗi phần

tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của mộtthuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp Đầu racủa bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then, câyquyết định, công thức logic, hay mạng nơron Quá trình này được mô tả như tronghình 1

Trang 8

 Bước thứ hai (classification)

Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ liệumới Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừatạo ra được ước lượng Holdout là một kỹ thuật đơn giản để ước lượng độ chínhxác đó Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gánnhãn lớp Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữliệu đào tạo Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệphần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (sovới thực tế) Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệuđào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quávừa” dữ liệu Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệuthực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ liệu đào tạo có thể đã kếthợp những đặc điểm riêng biệt của tập dữ liệu đó Do vậy cần sử dụng một tập dữliệu kiểmtra độc lập với tập dữ liệu đào tạo Nếu độ chính xác của mô hình là chấpnhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặcnhững dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết

Trang 9

Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyếtđịnh tới sự thành công của mô hình phân lớp Do vậy chìa khóa của vấn đề phânlớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chínhxác cao và có khả năng mở rộng được Trong đó khả năng mở rộng được của thuậttoán được đặc biệt trú trọng và phát triển.

Trang 10

1.1.2 Các vấn đề liên quan đến phân lớp dữ liệu

Chuẩn bị dữ liệu cho việc phân lớp : Việc tiền xử lý dữ liệu cho quá trìnhphân lớp là một việc làm không thể thiếu và có vai trò quan trọng quyết định tới sự

áp dụng được hay không của mô hình phân lớp Quá trình tiền xử lý dữ liệu sẽgiúp cải thiện độ chính xác, tính hiệu quả và khả năng mở rộng được của mô hìnhphân lớp

Quá trình tiền xử lý dữ liệu gồm có các công việc sau:

Làm sạch dữ liệu liên quan đến việc xử lý với lỗi và giá trị thiếu trong tập

dữ liệu ban đầu Lỗi ở đây là các lỗi ngẫu nhiên hay các giá trị không hợp lệ củacác biến trong tập dữ liệu Để xử lý với loại lỗi này có thể dùng kỹ thuật làm trơn.giá trị thiếu là những ô không có giá trị của các thuộc tính Giá trị thiếu có thể dolỗi chủ quan trong quá trình nhập liệu, hoặc trong trường hợp cụ thể giá trị củathuộc tính đó không có, hay không quan trọng Kỹ thuật xử lý ở đây có thể bằngcách thay giá trị thiếu bằng giá trị phổ biến nhất của thuộc tính đó hoặc bằng giá trị

có thể xảy ra nhất dựa trên thống kê Mặc dù phần lớn thuật toán phân lớp đều có

cơ chế xử lý với những giá trị thiếu và lỗi trong tập dữ liệu, nhưng bước tiền xử lýnày có thể làm giảm sự hỗn độn trong quá trình học (xây dựng mô hình phân lớp)

Có rất nhiều thuộc tính trong tập dữ liệu có thể hoàn toàn không cần thiếthayliên quan đến một bài toán phân lớp cụ thể Ví dụ dữ liệu về ngày trong tuầnhoàn toàn không cần thiết đối với ứng dụng phân tích độ rủi ro của các khoản tiềncho vay của ngân hàng, nên thuộc tính này là dư thừa Phân tích sự cần thiết của

dữ liệu nhằm mục đích loại bỏ những thuộc tính không cần thiết, dư thừa khỏi quátrình học vì những thuộc tính đó sẽ làm chậm, phức tạp và gây ra sự hiểu sai trongquá trình học dẫn tới một mô hình phân lớp không dùng được

Việc khái quát hóa dữ liệu lên mức khái niệm cao hơn đôi khi là cần thiếttrong quá trình tiền xử lý Việc này đặc biệt hữu ích với những thuộc tính liên tục

Ví dụ các giá trị số của thuộc tính thu nhập của khách hàng có thể đượckhái quát hóa thành các dãy giá trị rời rạc: thấp, trung bình, cao Tương tự với

Trang 11

những thuộc tính rời rạc như địa chỉ phố có thể được khái quát hóa lên thànhthành phố Việc khái quát hóa làm cô đọng dữ liệu học nguyên thủy, vì vậy cácthao tác vào/ ra liên quan đến quá trình học sẽ giảm.

1.2 Cây quyết định ứng dụng trong phân lớp dữ liệu

1.2.1 Định nghĩa

Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhàkhoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình thông

kê tuyến tính /bậc 2, cây quyết định, mô hình di truyền Trong số những mô hình

đó, cây quyết định với những ưu điểm của mình được đánh giá là một công cụmạnh, phổ biến và đặc biệt thích hợp cho data mining nói chung và phân lớp dữliệu nói riêng Có thể kể ra những ưu điểm của cây quyết định như: xây dựngtương đối nhanh; đơn giản, dễ hiểu Hơn nữa các cây có thể dễ dàng được chuyểnđổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ sở dữ liệu mộtcách hiệu quả Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương

tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác

Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả tronghình vẽ sau:

Trang 12

Trong cây quyết định:

 Gốc: là node trên cùng của cây

 Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)

 Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)

 Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)

Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưavào kiểm tra trên cây quyết định Mỗi mẫu tương ứng có một đường đi từ gốc đến

lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó

1.2.2 Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định

Các vấn đề đặc thù trong khi học hay phân lớp dữ liệu bằng cây quyết địnhgồm: xác định độ sâu để phát triển cây quyết định, xử lý với những thuộc tính liêntục, chọn phép đo lựa chọn thuộc tính thích hợp, sử dụng tập dữ liệu đào tạo vớinhững giá trị thuộc tính bị thiếu, sử dụng các thuộc tính với những chi phí khácnhau, và cải thiện hiệu năng tính toán Sau đây chúng tôi sẽ đề cập đến những vấn

đề chính đã được giải quyết trong các thuật toán phân lớp dựa trên cây quyết định

a Tránh “quá vừa” dữ liệu

Thế nào là “quá vừa” dữ liệu? Có thể hiểu đây là hiện tượng cây quyếtđịnh chứa một số đặc trưng riêng của tập dữ liệu đào tạo, nếu lấy chính tậptraning data để test lại mô hình phân lớp thì độ chính xác sẽ rất cao, trong khiđối với những dữ liệu tương lai khác nếu sử dụng cây đó lại không đạt được độchính xác như vậy Quá vừa dữ liệu là một khó khăn đáng kể đối với học bằngcây quyết định và những phương pháp học khác Đặc biệt khi số lượng ví dụtrong tập dữ liệu đào tạo quá ít, hay có noise trong dữ liệu

Có hai phương pháp tránh “quá vừa” dữ liệu trong cây quyết định:

 Dừng phát triển cây sớm hơn bình thường, trước khi đạt tới điểm phân lớphoàn hảo tập dữ liệu đào tạo Với phương pháp này, một thách thức đặt ra làphải ước lượng chính xác thời điểm dừng phát triển cây

 Cho phép cây có thể “quá vừa” dữ liệu, sau đó sẽ cắt, tỉa cây

Mặc dù phương pháp thứ nhất có vẻ trực tiếp hơn, nhưng với phương

Trang 13

pháp thứ hai thì cây quyết định được sinh ra được thực nghiệm chứng minh làthành công hơn trong thực tế Hơn nữa việc cắt tỉa cây quyết định còn giúptổng quát hóa, và cải thiện độ chính xác của mô hình phân lớp Dù thực hiệnphương pháp nào thì vấn đề mấu chốt ở đây là tiêu chuẩn nào được sử dụng đểxác định kích thước hợp lý của cây cuối cùng.

b Thao tác với thuộc tính liên tục

Việc thao tác với thuộc tính liên tục trên cây quyết định hoàn toànkhông đơn giản như với thuộc tính rời rạc

Thuộc tính rời rạc có tập giá trị xác định từ trước và là tập hợp các giá trịrời rạc Ví dụ loại ô tô là một thuộc tính rời rạc với tập giá trị là: {xe tải, xe khách,

xe con,taxi}.Việc phân chia dữ liệu dựa vào phép kiểm tra giá trị của thuộc tính rờirạc được chọn tại một ví dụ cụ thể có thuộc tập giá trị của thuộc tính đó hay không:value(A) ∈ X với X ⊂domain (A) Đây là phép kiểm tra logic đơn giản, không tốnnhiều tài nguyên tính toán Trong khi đó, với thuộc tính liên tục (thuộc tính dạngsố) thì tập giá trị là không xác định trước Chính vì vậy, trong quá trình phát triểncây, cần sử dụng kiểm tra dạng nhị phân: value(A) ≤ θ Với θ là hằng số ngưỡng(threshold) được lần lượt xác định dựa trên từng giá trị riêng biệt hay từng cặp giátrị liền nhau (theo thứ tự đã sắp xếp) của thuộc tính liên tục đang xem xét trong tập

dữ liệu đào tạo Điều đó có nghĩa là nếu thuộc tính liên tục A trong tập dữ liệu đàotạo có d giá trị phân biệt thì cần thực hiện d-1 lần kiểm tra value(A) ≤ θi với i =1 d-1 để tìm ra ngưỡng θbest tốt nhất tương ứng với thuộc tính đó Việc xác địnhgiá trị của θ và tiêu chuẩn tìm θ tốt nhất tùy vào chiến lược của từng thuật toán

1.3 Đánh giá cây quyết định trong khai phá dữ liệu

1.3.1 Điểm mạnh của việc sử dụng cây quyết định

Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi được

Trang 14

sang dạng tiếng Anh, hoặc các câu lệnh SQL Đây là ưu điểm nổi bật của kỹ thuậtnày Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn

và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến

và rõ ràng Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự đoán nào đềutương đối minh bạch

Điều này có nghe có vẻ hiển nhiên, nhưng quy tắc quy nạp nói chung vàcây quyết định nói riêng là lựa chọn hoàn hảo cho những lĩnh vực thực sự là cácquy tắc Rất nhiều lĩnh vực từ di truyền tới các quá trình công nghiệp thực sự chứacác quy tắc ẩn, không rõ ràng do khá phức tạp và tối nghĩa bởi những dữ liệu lỗi.Cây quyết định là một sự lựa chọn tự nhiên khi chúng ta nghi ngờ sự tồn tại củacác quy tắc ẩn, không rõ ràng

Mặc dù như chúng ta đã biết, cây quyết định có thể chứa nhiều định dạng,nhưng trong thực tế, các thuật toán sử dụng để tạo ra cây quyết định thường tạo ranhững cây với số phân nhánh thấp và các test đơn giản tại từng node Những testđiển hình là: so sánh số, xem xét phần tử của một tập hợp, và các phép nối đơngiản Khi thực thi trên máy tính, những test này chuyển thành các toán hàm logic

và số nguyên là những toán hạng thực thi nhanh và không đắt Đây là một ưu điểmquan trọng bởi trong môi trường thương mại, các mô hình dự đoán thường được sửdụng để phân lớp hàng triệu thậm trí hàng tỉ bản ghi

Cây quyết định xử lý “tốt” như nhau với thuộc tính liên tục và thuộc tính rờirạc Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn Nhữngthuộc tính rời rạc đã từng gây ra những vấn đề với mạng neural và các kỹ thuậtthống kê lại thực sự dễ dàng thao tác với các tiêu chuẩn phân chia trên cây quyếtđịnh: mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộctính được chọn để phát triển tại node đó Các thuộc tính liên tục cũng dễ dàng phânchia bằng việc chọn ra một số gọi là ngưỡng trong tập các giá trị đã sắp xếp củathuộc tính đó Sau khi chọn được ngưỡng tốt nhất, tập dữ liệu phân chia theo testnhị phân của ngưỡng đó

Trang 15

 Thể hiện rõ ràng những thuộc tính tốt nhất

Các thuật toán xây dựng cây quyết định đưa ra thuộc tính mà phân chia tốtnhất tập dữ liệu đào tạo bắt đầu từ node gốc của cây Từ đó có thể thấy nhữngthuộc tính nào là quan trọng nhất cho việc dự đoán hay phân lớp

1.3.2 Điểm yểu của cây quyết định

Dù có những sức mạnh nổi bật trên, cây quyết định vẫn không tránh khỏi cónhững điểm yếu Đó là cây quyết định không thích hợp lắm với những bài toán vớimục tiêu là dự đoán giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãixuất ngân hàng,… Cây quyết định cũng khó giải quyết với những dữ liệu thời gianliên tục nếu không bỏ ra nhiều công sức cho việc đặt ra sự biểu diễn dữ liệu theocác mẫu liên tục

Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân dạng yes/

no hay accept/reject Số khác lại có thể chỉ định các bản ghi vào một số lớp bất kỳ,nhưng dễ xảy ra lỗi khi số ví dụ đào tạo ứng với một lớp là nhỏ Điều này xẩy racàng nhanh hơn với cây mà có nhiều tầng hay có nhiều nhánh trên một node

Điều này nghe có vẻ mâu thuẫn với khẳng định ưu điểm của cây quyết định

ở trên Nhưng quá trình phát triển cây quyết định đắt về mặt tính toán Vì câyquyết định có rất nhiều node trong trước khi đi đến lá cuối cùng Tại từng node,cần tính một độ đo (hay tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tínhliên tục phải thêm thao tác xắp xếp lại tập dữ liệu theo thứ tự giá trị của thuộc tính

đó Sau đó mới có thể chọn được một thuộc tính phát triển và tương ứng là mộtphân chia tốt nhất Một vài thuật toán sử dụng tổ hợp các thuộc tính kết hợp vớinhau có trọng số để phát triển cây quyết định

CHƯƠNG 2 GIẢI THUẬT QUY NẠP CÂY QUYẾT ĐỊNH ID3

2.1 Giới thiệu

Giải thuật quy nạp cây quyết định ID3 (gọi tắt là ID3) là một giải thuật họcđơn giản nhưng tỏ ra thành công trong nhiều lĩnh vực ID3 là một giải thuật hay vìcách biểu diễn tri thức học được của nó, tiếp cận của nó trong việc quản lý tính

Trang 16

phức tạp, heuristic của nó dùng cho việc chọn lựa các khái niệm ứng viên, và tiềmnăng của nó đối với việc xử lý dữ liệu nhiễu.

ID3 biểu diễn các khái niệm ở dạng các cây quyết định Biểu diễn này chophép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trịcủa nó trên một số thuộc tính nào đó

Như vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các

ví dụ huấn luyện hay còn gọi là dữ liệu huấn luyện Hay nói khác hơn, giải thuậtcó:

 Đầu vào: Một tập hợp các ví dụ Mỗi ví dụ bao gồm các thuộc tính mô tảmột tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó

 Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập

dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặptrong tương lai

Ví dụ, chúng ta hãy xét bài toán phân loại xem ta ‘có đi chơi tennis’ ứngvới thời tiết nào đó không Giải thuật ID3 sẽ học cây quyết định từ tập hợp các ví

dụ sau:

Trang 17

Tập dữ liệu này bao gồm 14 ví dụ Mỗi ví dụ biểu diễn cho tình trạng thờitiết gồm các thuộc tính quang cảnh, nhiệt độ, độ ẩm và gió; và đều có một thuộctính phân loại ‘chơi Tennis’ (có, không) ‘Không’ nghĩa là không đi chơi tennisứng với thời tiết đó, ‘Có’ nghĩa là ngược lại Giá trị phân loại ở đây chỉ có hai loại(có, không), hay còn ta nói phân loại của tập ví dụ của khái niệm này thành hailớp Thuộc tính ‘Chơi tennis’ còn được gọi là thuộc tính đích.

Trang 18

Mỗi thuộc tính đều có một tập các giá trị hữu hạn Thuộc tính quang cảnh

có ba giá trị (âm u, mưa, nắng), nhiệt độ có ba giá trị (nóng, mát, ấm áp), độ ẩm cóhai giá trị (cao, TB) và gió có hai giá trị (mạnh, nhẹ) Các giá trị này chính là kýhiệu dùng để biểu diễn bài toán

Từ tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định cókhả năng phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trongtương lai, nó cũng sẽ phân loại đúng các ví dụ không nằm trong tập này Một câyquyết định ví dụ mà giải thuật ID3 có thể quy nạp được là:

Các nút trong cây quyết định biểu diễn cho một sự kiểm tra trên một thuộctính nào đó, mỗi giá trị có thể có của thuộc tính đó tương ứng với một nhánh củacây Các nút lá thể hiện sự phân loại của các ví dụ thuộc nhánh đó, hay chính làgiá trị của thuộc tính phân loại

Sau khi giải thuật đã quy nạp được cây quyết định, thì cây này sẽ được sửdụng để phân loại tất cả các ví dụ hay thể hiện trong tương lai Và cây quyết định

Trang 19

sẽ không thay đổi cho đến khi ta cho thực hiện lại giải thuật ID3 trên một tập dữliệu rèn luyện khác.

Ứng với một tập dữ liệu rèn luyện sẽ có nhiều cây quyết định có thể phânloại đúng tất cả các ví dụ trong tập dữ liệu rèn luyện Kích cỡ của các cây quyếtđịnh khác nhau tùy thuộc vào thứ tự của các kiểm tra trên thuộc tính

Vậy làm sao để học được cây quyết định có thể phân loại đúng tất cả các ví

dụ trong tập rèn luyện? Một cách tiếp cận đơn giản là học thuộc lòng tất cả các ví

dụ bằng cách xây dựng một cây mà có một lá cho mỗi ví dụ Với cách tiếp cận nàythì có thể cây quyết định sẽ không phân loại đúng cho các ví dụ chưa gặp trongtương lai Vì phương pháp này cũng giống như hình thức ‘học vẹt’, mà cây không

hề học được một khái quát nào của khái niệm cần học Vậy, ta nên học một câyquyết định như thế nào là tốt?

Occam’s razor và một số lập luận khác đều cho rằng ‘giả thuyết có khảnăng nhất là giả thuyết đơn giản nhất thống nhất với tất cả các quan sát’, ta nênluôn luôn chấp nhận những câu trả lời đơn giản nhất đáp ứng một cách đúng đắn

dữ liệu của chúng ta Trong trường hợp này là các giải thuật học cố gắng tạo ra câyquyết định nhỏ nhất phân loại một cách đúng đắn tất cả các ví dụ đã cho Trongphần kế tiếp, chúng ta sẽ đi vào giải thuật ID3, là một giải thuật quy nạp cây quyếtđịnh đơn giản thỏa mãn các vấn đề vừa nêu

2.2 Giải thuật ID3 xây dựng cây quyết định từ trên xuống

ID3 xây dựng cây quyết định (cây QĐ) theo cách từ trên xuống Lưu ý rằngđối với bất kỳ thuộc tính nào, chúng ta cũng có thể phân vùng tập hợp các ví dụrèn luyện thành những tập con tách rời, mà ở đó mọi ví dụ trong một phân vùng(partition) có một giá trị chung cho thuộc tính đó ID3 chọn một thuộc tính đểkiểm tra tại nút hiện tại của cây và dùng trắc nghiệm này để phân vùng tập hợp các

ví dụ; thuật toán khi đó xây dựng theo cách đệ quy một cây con cho từng phân

Trang 20

vùng Việc này tiếp tục cho đến khi mọi thành viên của phân vùng đều nằm trongcùng một lớp; lớp đó trở thành nút lá của cây.

Vì thứ tự của các trắc nghiệm là rất quan trọng đối với việc xây dựng mộtcây QĐ đơn giản, ID3 phụ thuộc rất nhiều vào tiêu chuẩn chọn lựa trắc nghiệm đểlàm gốc của cây Để đơn giản, phần này chỉ mô tả giải thuật dùng để xây dựng cây

QĐ, với việc giả định một hàm chọn trắc nghiệm thích hợp Phần kế tiếp sẽ trìnhbày heuristic chọn lựa của ID3

Ví dụ, hãy xem xét cách xây dựng cây QĐ của ID3 từ ví dụ trước đó

Bắt đầu với bảng đầy đủ gồm 14 ví dụ rèn luyện, ID3 chọn thuộc tínhquang cảnh để làm thuộc tính gốc sử dụng hàm chọn lựa thuộc tính mô tả trongphần kế tiếp Trắc nghiệm này phân chia tập ví dụ như cho thấy trong hình 9.2 vớiphần tử của mỗi phân vùng được liệt kê bởi số thứ tự của chúng trong bảng

Trang 21

ID3 áp dụng hàm induce_tree một cách đệ quy cho từng phân vùng Ví dụ,phân vùng của nhánh “Âm u” có các ví dụ toàn dương, hay thuộc lớp ‘Có’, nênID3 tạo một nút lá với nhãn là lớp ‘Có’ Còn phân vùng của hai nhánh còn lại vừa

có ví dụ âm, vừa có ví dụ dương Nên tiếp tục chọn thuộc tính “Độ ẩm” để làmtrắc nghiệm cho nhánh Nắng, và thuộc tính Gió cho nhánh Mưa, vì các ví dụ trongcác phân vùng con của các nhánh cây này đều thuộc cùng một lớp, nên giải thuậtID3 kết thúc và ta có được cây QĐ như sau

Lưu ý, để phân loại một ví dụ, có khi cây QĐ không cần sử dụng tất cả các thuộc tính đã cho, mặc dù nó vẫn phân loại đúng tất cả các ví dụ

* Các khả năng có thể có của các phân vùng:

Trong quá trình xây dựng cây QĐ, phân vùng của một nhánh mới có thể có

Trang 22

các dạng sau:

 Có các ví dụ thuộc các lớp khác nhau, chẳng hạn như có cả ví dụ âm vàdương như phân vùng “Quang cảnh = Nắng” của ví dụ trên => giải thuậtphải tiếp tục tách một lần nữa

 Tất cả các ví dụ đều thuộc cùng một lớp, chẳng hạn như toàn âm hoặc toàndương như phân vùng “Quang cảnh = Âm u” của ví dụ trên => giải thuật trả

về nút lá với nhãn là lớp đó

 Không còn ví dụ nào => giải thuật trả về mặc nhiên

 Không còn thuộc tính nào => nghĩa là dữ liệu bị nhiễu, khi đó giải thuậtphải sử dụng một luật nào đó để xử lý, chẳng hạn như luật đa số (lớp nào cónhiều ví dụ hơn sẽ được dùng để gán nhãn cho nút lá trả về)

Từ các nhận xét này, ta thấy rằng để có một cây QĐ đơn giản, hay một cây

có chiều cao là thấp, ta nên chọn một thuộc tính sao cho tạo ra càng nhiều các phânvùng chỉ chứa các ví dụ thuộc cùng một lớp càng tốt Một phân vùng chỉ có ví dụthuộc cùng một lớp, ta nói phân vùng đó có tính thuần nhất Vậy, để chọn thuộctính kiểm tra có thể giảm thiểu chiều sâu của cây QĐ, ta cần một phép đo để đotính thuần nhất của các phân vùng, và chọn thuộc tính kiểm tra tạo ra càng nhiềuphân vùng thuần nhất càng tốt ID3 sử dụng lý thuyết thông tin để thực hiện điềunày

2.3 Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất?

Quinlan (1983) là người đầu tiên đề xuất việc sử dụng lý thuyết thông tin

để tạo ra các cây quyết định và công trình của ông là cơ sở cho phần trình bày ởđây Lý thuyết thông tin của Shannon (1948) cung cấp khái niệm entropy để đotính thuần nhất (hay ngược lại là độ pha trộn) của một tập hợp Một tập hợp làthuần nhất nếu như tất cả các phần tử của tập hợp đều thuộc cùng một loại, và khi

đó ta nói tập hợp này có độ pha trộn là thấp nhất

Trong trường hợp của tập ví dụ, thì tập ví dụ là thuần nhất nếu như tất cảcác ví dụ đều có cùng giá trị phân loại

Khi tập ví dụ là thuần nhất thì có thể nói: ta biết chắc chắn về giá trị phânloại của một ví dụ thuộc tập này, hay ta có lượng thông tin về tập đó là cao nhất

Trang 23

Khi tập ví dụ có độ pha trộn cao nhất, nghĩa là số lượng các ví dụ có cùng giá trịphân loại cho mỗi loại là tương đương nhau, thì khi đó ta không thể đoán chínhxác được một ví dụ có thể có giá trị phân loại gì, hay nói khác hơn, lượng thông tin

ta có được về tập này là ít nhất Vậy, điều ta mong muốn ở đây là làm sao chọnthuộc tính để hỏi sao cho có thể chia tập ví dụ ban đầu thành các tập ví dụ thuầnnhất càng nhanh càng tốt Vậy trước hết, ta cần có một phép đo để đo độ thuầnnhất của một tập hợp, từ đó mới có thể so sánh tập ví dụ nào thì tốt hơn Phần kếtiếp sẽ trình bày công thức tính entropy của một tập hợp

2.3.1 Entropy đo tính thuần nhất của tập ví dụ

Khái niệm entropy của một tập S được định nghĩa trong Lý thuyết thông tin

là số lượng mong đợi các bít cần thiết để mã hóa thông tin về lớp của một thànhviên rút ra một cách ngẫu nhiên từ tập S Trong trường hợp tối ưu, mã có độ dàingắn nhất Theo lý thuyết thông tin, mã có độ dài tối ưu là mã gán –log2p bits chothông điệp có xác suất là p

Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví dụ, mỗi ví dụthuộc một lớp hay có một giá trị phân loại

 Entropy có giá trị nằm trong khoảng [0 1],

 Entropy(S) = 0 tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay S làthuần nhất

 Entropy(S) = 1 tập ví dụ S có các ví dụ thuộc các loại khác nhau với độpha trộn là cao nhất

 0 < Entropy(S) < 1 tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau

là không bằng nhau

Để đơn giản ta xét trường hợp các ví dụ của S chỉ thuộc loại âm (-) hoặc dương (+)

Định dạng
Số trang	46
Dung lượng	1,84 MB