1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG GIẢI THUẬT ID3 VÀO HỆ HỔ TRỢ RA QUYẾT ĐỊNH

37 346 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 574,43 KB

Nội dung

những bài toán trên con người thường dựa vào những kinh nghiệm của thế hệ trước, kinh nghiệm bản thân, dựa vào linh cảm v.v… Vậy để có được những kinh nghiệm thì ta phải có sẵn những cơ

Trang 1

MỤC LỤC 1

LỜI NÓI ĐẦU 1

CHƯƠNG 1: ĐẶT VẤN ĐỀ 2

1.1 Đặt vấn đề 2

1.2 Mô tả bài toán 2

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 7

3.1 Khái niệm hệ hỗ trợ ra quyết định: 7

3.2 Năng lực của hệ hỗ trợ ra quyết định: 8

3.3 Hệ hỗ trợ ra quyết định và hệ thống thông tin: 8

3.4 Các thành phần của một hệ hỗ trợ ra quyết định: 9

3.5 Cây quyết định: 14

CHƯƠNG 3: GIẢI THUẬT ID3 16

3.1 Sơ lược về giải thuật ID3 16

3.2 Giải thuật ID3 xây dựng cây quyết định từ trên xuống 19

3.3 Giải thuật ID3: 20

3.4 Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất? 22

3.4.1 Entropy đo tính thuần nhất của tập ví dụ 23

3.4.2 Lượng thông tin thu được đo mức độ giảm entropy mong đợi 24

3.5 Tìm kiếm không gian giả thuyết trong ID3 26

3.6 Đánh giá hiệu suất của cây quyết định 27

3.7 Chuyển cây về các luật 28

3.8 Khi nào nên sử dụng ID3 28

CHƯƠNG 4: TRIỂN KHAI 30

CHƯƠNG 5: CẢI TIẾN 34

5.1 Những khuyết điểm của thuật toán ID3 34

5.2 Cải tiến thuật toán : sẽ sử dụng thuật toán C4.5 34

TÀI LIỆU THAM KHẢO 36

Trang 2

Trong cuộc sống hằng ngày ai cũng phải có lần quyết định nên làm việc này hay không nên, làm việc này hay làm việc kia Khi đứng trước tình huống khó xử ấy tacần gì để tránh khỏi những sai lầm? những bài toán trên con người thường dựa vào những kinh nghiệm của thế hệ trước, kinh nghiệm bản thân, dựa vào linh cảm v.v… Vậy để có được những kinh nghiệm thì ta phải có sẵn những cơ sở dữ liệu về những việc đã có từ trước, cách thức giải quyết và kết quả của việc giải quyết vấn đề đó.

Việc phải ra một quyết định là một việc làm hết sức là cần thiết con mỗi con người, từ người nông dân bình thường đến các thương nhân, lãnh đâọ Ví dụ như người nông dân khi phơi lúa thì họ cũng phải nhìn lên bầu trời, dựa vào những dữ liệu:mây, cấp độ gió, hướng di chuyển của gió… để họ ra quyết định là có phơi hay không,nếu đang phơi thì có gom lúa lại hay không Họ cũng đút kết ra kinh nghiệm “Mưa đằng đông vừa dông vừa chạy, mưa đằng tây vừa làm vừa chơi”, bên cạnh đối ta còn phải cân nhắc câu ca trên đúng được bao nhiêu phần trăm, hay nói đến độ tin cậy Còn đối với doanh nghiệp thì quyết định của họ mạng đến sức thành công hay thất bại của công ty Đối với các nguyên thủ quốc gia, nhà lãnh đạo một nước, thì quyết định của

họ liên quan đến vận mệnh một đất nước, dân tộc ví dụ như việc kéo pháo của trận Điện Biên Phủ, trận đánh Buôn Mê Thuộc làm ảnh hưởng và thay đổi vận mệnh dân tộc ta Từ đó ta thấy rõ một quyết định có tầm quan trọng như thế nào, nhu cầu có một

hệ hổ trợ ra quyết định là không thể thiếu trong xã hội ngày nay

Trong khuôn khổ bài đồ án này, tôi xin trình về GIẢI THUẬT ID3 áp dụng cho hệ hổ trợ ra quyết định

Qua đây, tôi xin được gửi lời cảm ơn đến PGS - TS Đỗ Phúc, người đã tận tâm truyền đạt những kiến thức nền tảng cơ bản về môn học “Hệ hổ trợ ra quyết định”,

để tôi có cơ sở kiến thức để có thể viết được bài thu hoạch này

Do kiến thức còn hạn hẹp, bài thu hoạch có thể có những sai sót nhất định, mong thầy và các bạn góp ý để bài thu hoạch ngày càng hoàn thiện hơn

Nội dung báo cáo gồm các phần chính: CHƯƠNG 1: ĐẶT VẤN ĐỀ,

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT, CHƯƠNG 3: : GIẢI THUẬT ID3, CHƯƠNG 4: TRIỂN KHAI, CHƯƠNG 5: CẢI TIẾN

Trang 3

CHƯƠNG 1: ĐẶT VẤN ĐỀ

1.1 Đặt vấn đề

Vấn đề ra quyết định là một vấn đề hết sức quan trọng, con người ai cũng ao ước mình sẽ ra quyết định đúng đắn Tuy nhiên để có một quyết định đúng thì không phải phán đoán đơn giản, mà phải dựa vào tập hợp các cơ sở tri thức nền tảng và cũng

có thể là vận may

Đôi khi con người có một nguồn cơ sở dữ liệu nền tảng, nhưng với những số liệu thô, khô khan thì chúng ta khó có thể hình dung ra được ta sẽ được gì từ khối dữ liệu đó, hoặc ta sẽ quá nhiều kết quả từ tập dữ liệu đó, ta không biết nên dựa vào tập

dữ liệu nào là hợp lý

Hệ hổ trợ ra quyết định đã là cánh tay đắt lực giúp con người có thể ra tiên

đoán dựa trên cơ sở phân tích một cách có khoa học Hệ hổ trợ ra quyết định giúp ta cóthể dự báo, phân loại các vấn đề một cách khoa học

Trong đồ án này tôi không nêu ra cụ thể một vấn đề, mà tôi đưa ra một vài ví

dụ cụ thể với các tập dữ liệu mẫu có sẵn thì hệ hổ trợ ra quyết định đã giúp con người

có được quyết định nhanh chóng

1.2 Mô tả bài toán

Bài toán ở đây không cụ thể là một bài toán nào, dữ liệu đầu vào đơn giản chỉ

là file text dạng bảng, ở đồ án này tôi sẽ trình bày một số dữ liệu mẫu ở vài lĩnh vực khác nhau nhằm cho giúp người đọc sẽ thấy hiểu được phạm vi ứng dụng của hệ hổ trợ

ra quyết định là không giới hạn, nếu chúng ta có dữ liệu đầu vào là đáng tin cậy, thì

quyết định ở đây cũng khá chính xác

Tập liệu

Process

(Xử lí với tập dữ liệu đầu vào)

Thu t toán ID3 ật toán ID3

OUTPUT Cây quyết định

Trang 4

- Minh họa thuật toán với tập dữ liệu sau:

Từ bảng này người đi biển có thể dự báo có sóng lớn hay không để neo thuyền hay chạy tiếp

Bảng 2:

Các

trường

hợp

Tuổi Thu nhập Sinh

Viên Chỉ số tín nhiệm Mua máy tính

Từ bảng này giúp người điều hành có thể điều chỉnh số lượng bán, hay ra những chính sách hợp lý để chăm sóc, thu hút khách hàng

Bảng 3:

Trang 5

Finance 28 Single 12 no Good

Từ bảng này ta thấy rằng dự đoán được rằng khách hàng nào hay trả không đúng

kỳ hạn

Bảng 4: từ bảng này ta thấy rằng hệ hổ trợ ra quyết định cũng hổ trợ trong lĩnh

vực y tế

Độ tuổi (Dotuoi): Có 2 độ tuổi được xem xét kỹ theo tiêu chuẩ n quy hoạchcán bộ là:: trên 40 tuổi và dưới 40 tuổi Ta có thể chia khoảng như sau: dưới 40 tuổi (40-), từ 40 tuổi trở lên (40+)

Trình độ chuyên môn (TDCM): Là trình độ được tào tạo của các nhân sự ta cần xem xét để đưa vào quy hoạch Ta có thể chia theo 3 mức sau:

Trang 6

+ Dhtc: Những người có bằng đại học tại chức, từ xa, văn bằng 2 và các loại hình đào đại học khác.

+ Khong: là những người chưa có bằng đại học

Trình độ Lý luận chính trị (LLCT): Ta chia làm làm 3 loại hình theo quy định hiện nay:

+ Cctt: Là những người có trình độ cao cấp lý luận chính trị hệ tập trung trở lên.(Cao cấp chính trị và cử nhân chính trị)

+ Cc0tt: Là những người có trình độ cao cấp lý luận chính trị không thuộc hệ tập trung

+ Khong: những người chưa có trình độ lý chính trị cao cấp, trung cấp

Trình độ ngoại ngữ (NN): Chia làm 2 tường hợp

+ Co: Là ngững người có chứng chỉ ngoại ngữ trình độ B trở lên

+ Khong: Chưa chứng chỉ ngoại ngữ trình độ B trở lên.Các yếu tố trên chính

là tập thuộc tính, dựa vào tập thuộc tính này để dự đoán giá trị cho thuộc tính đích

Quyết định

Quyết định (QD): là kết quả của việc áp dung cây quyết định Ta chia 2 tình huống: những người có thể đưa vào diện quy hoạch

(Yes) và những người không nên đưa vào diện quy hoạch (No)

Ta có các giá trị của các thuộc tính như sau:

Trang 8

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

3.1 Khái niệm hệ hỗ trợ ra quyết định:

Hệ hỗ trợ ra quyết định là phương pháp lấy tri thức đúng để cho ra quyết địnhhợp lý vào đúng lúc và có mức phí hợp lý

Đó là sự kết hợp giữa tri thức và việc tạo lập quyết định (Knowledge –Decision making)

Khái niệm hệ hỗ trợ ra quyết định được đề xuất bởi Michael S.Scott Morton vàonhững năm 1970 Hệ hỗ trợ ra quyết định bao gồm:

 Phần mềm máy tính

 Chức năng hỗ trợ ra quyết định

 Làm việc với bài toán có cấu trúc yếu

 Hoạt động theo cách tương tác với người dùng

 Được trang bị nhiều mô hình phân tích và mô hình dữ liệu

Hình 2.1: Khái niệm hệ hỗ trợ ra quyết định

Trang 9

3.2 Năng lực của hệ hỗ trợ ra quyết định:

Hình 2.2: Năng lực hệ hỗ trợ quyết định

 Hệ hỗ trợ quyết định cơ bản hỗ trợ các nhà ra quyết định trong các tình huốngnửa cấu trúc và phi cấu trúc bằng cách kết hợp phán xử của con người và xử lýthông tin bằng máy tính Các bài toán như vậy không thể/không thuận tiện giảiquyết được chỉ bằng các công cụ máy tính hóa hay các phương pháp địnhlượng

 Phù hợp cho các cấp quản lý khác nhau từ cao đến thấp

 Phù hợp cho cá nhân lẫn nhóm Các bài toán ít có tính cấu trúc thường liên đớiđến nhiều cá nhân ở các đơn vị chức năng hay mức tổ chức khác nhau cũng như

 Phù hợp cho một số các phong cách và quá trình ra quyết định

3.3 Hệ hỗ trợ ra quyết định và hệ thống thông tin:

Các hệ thống thông tin quản lý tập trung vào các hoạt động của hệ thống thông

Trang 10

Hệ thống thông tin quản lý có các tính chất:

 Tập trung vào thông tin, hướng đến các nhà quản lý cấp điều hành

 Làm việc với dòng thông tin có cấu trúc

Các hệ hỗ trợ quyết định có các tính chất:

 Hướng đến các quyết định, các nhà lãnh đạo

 Tính uyển chuyển, thích ứng với hoàn cảnh và phản ứng nhanh

 Do người dùng khởi động và kiểm soát

 Hỗ trợ các quyết định cá nhân của nhà lãnh đạo

GADS: Geodata Analysis Display

IFPS:Interactive Financial Planning

cáo

3.4 Các thành phần của một hệ hỗ trợ ra quyết định:

Một cách hình dung về các thành phần của một hệ hỗ trợ ra quyết định (DDS –decision support system) và quan hệ giữa chúng là sử dụng các khái niệm đối thoại(dialog), dữ liệu (data) và mô hình (model) Đối với những người thiết kế hệ thốngDDS cũng như những người sử dụng hệ thống, điều quan trọng là hiểu được các thànhphần này được thiết kế như thế nào Người sử dụng cần phải biết có thể yêu cầu cái gì

ở DDS Người thiết kế phải biết được DDS có thể cung cấp cái gì

Trang 11

Hình 2.4: Mô hình hệ hỗ trợ ra quyết định

Các kỹ thuật mới có nhiều ảnh hưởng đến các thành phần đối thoại, dữ liệu, và

mô hình; ví dụ như giao diện đồ họa hay cơ sở dữ liệu quan hệ Ngoài ra trí tuệ nhântạo cũng cung cấp các khả năng biểu diễn và sử dụng mô hình trong những hình thứcmới

a Thành phần đối thoại:

Từ cách nhìn của người sử dụng, thành phần đối thoại là toàn bộ hệ thống.Cách dùng hệ thống, hướng dẫn cách vận hành của hệ thống và thể hiện các trả lời của

hệ thống đều thông qua thành phần đối thoại Bennett gọi các yếu tố này bằng các kháiniệm: cơ sở tri thức (knowledge base), ngôn ngữ hành động (action language), và ngônngữ trình bày (representation language)

Xem xét chung

Khi thiết kế thành phần đối thoại của một DDS, điều quan trọng là nhận ra ai

là người dùng của nó Một DDS có thể chỉ có một người dùng, nhưng cũng có thể cónhiều người dùng Một số người dùng chỉ quan tâm đến khía cạnh hỗ trợ quyết định cótính bề mặt của DDS, một số khác lại có thể dùng DDS một cách rất thành thục Đôikhi người ra quyết định dùng DDS một cách trực tiếp, nhưng đôi lúc họ ra quyết định

Trang 12

dựa trên một ban cố vấn và ban cố vấn lại sử dụng DDS Như vậy ban quyết định cóthể được xem là phần mở rộng của DDS.

Cơ sở tri thức (knowledge base):

Cơ sở tri thức bao gồm những gì người dùng biết về cách thức hệ thống vậnhành cũng như cách dùng hệ thống đó Thường thì các tri thức xung quanh bài toáncần được giải phải được cung cấp cho DDS, sau đó thì DDS mới có thể ra quyết định.Một ngoại lệ là trường hợp DDS được dùng để huấn luyện người ra quyết định Lúcnày DDS là một phương tiện giáo dục

Người dùng có thể được huấn luyện sử dụng DDS theo nhiều cách khác nhau

Có thể học sử dụng DDS theo cách một truyền một (one to one), nhưng khi có nhiềungười cần được huấn luyện thì phải sử dụng đến các lớp hay khóa học Thêm vào đó,

có thể tìm kiếm sự trợ giúp từ một chuyên gia (con người) hay từ những lệnh giúp đỡ

đã được chuẩn bị kèm theo DDS

Ngôn ngữ hành động (action language):

Có nhiều loại ngôn ngữ hành động khác nhau, hiểu theo nghĩa ngôn ngữ dùng

để điều hành DDS Hỏi-đáp, dùng menu, hay ngôn ngữ lệnh đã được giải thích ở trên.Ngoài ra còn có một số “ngôn ngữ ” khác như sau

Một vài DDS sử dụng form để nhập/xuất dữ liệu Người dùng điền dữ liệu đầuvào (input) dùng form và nhận dữ liệu đầu ra (output) cũng trên form

Giao diện đồ họa cung cấp một phương pháp tiếp cận khác Các biểu tượng(icon), ảnh được dùng để đại diện cho các đối tượng như tài liệu, tập tin…, người dùng

sử dụng con chuột để tác động lên các đối tượng đó (như di chuyển, chọn menu…)

Giọng nói cũng là một loại ngôn ngữ hành động, và yêu cầu công nghệ nhậndạng giọng nói (speech recognition) Với sự phát triển của công nghệ này, chúng ta cóthể trông đợi nhiều DDS sử dụng giọng nói làm ngôn ngữ hành động hơn

Tóm lại, bàn phím không phải là sự lựa chọn duy nhất, có thể kể đến các lựachọn khác như chuột, các thiết bị trỏ dùng trực tiếp trên màn hình hay là micro

Ngôn ngữ trình bày:

Trang 13

Ngày trước, máy in là một nguồn xuất dữ liệu Khả năng đồ họa của màn hìnhcung cấp nhiều cách thể hiện mới Màn hình có thể thể hiện các hình ảnh, đồ thị.Ngoài ra âm thanh cũng được xem xét như một khả năng mới.

Các kiểu (style) thành phần đối thoại:

Tổ hợp các kiểu thực hiện các thành phần con như cơ sở tri thức, ngôn ngữhành động và ngôn ngữ trình bày, ta được nhiều kiểu thành phần hội thoại khác nhau.Một số DDS thiên về bàn phím và buộc người dùng phải nhớ các tổ hợp phím để thựcthi các lệnh Một số DDS trực quan hơn thì cho phép người dùng dùng chuột để tácđộng lên các đại diện của các đối tượng cần thao tác

b Thành phần dữ liệu:

DDS không dùng các dạng dữ liệu thô thu được trong các quá trình giao dịchcủa các tổ chức Dữ liệu thường phải được tóm tắt, cô đọng trước khi được sử dụngbởi DDS Lý tưởng nhất là công việc này cũng được tự động bằng máy tính Nhưngđôi lúc cũng được thực hiện bằng tay khi không tốn quá nhiều công sức hay công việcđòi hỏi việc xử lý tinh tế của con người Thông thường cần phải dùng một hệ quản trị

cơ sở dữ liệu (DBMS)

Các dữ liệu nội (internal data) cũng được cần đến Ví dụ như loại dữ liệu liênquan đến các lĩnh vực của kỹ sư hay của nhà quản lý Các dữ liệu này thường khôngthể có được qua các quá trình xử lý dữ liệu thông thường được Chúng phải đượcthu thập, nhập liệu, lưu trữ và cập nhật thông qua các phương pháp và tiến trình đặcbiệt Loại dữ liệu này cũng cần dùng đến hệ quản trị cơ sở dữ liệu (DBMS)

Các dữ liệu ngoại (external data): như thông tin thương mại, tài chính của mộtnền kinh tế, các số liệu công nghiệp cũng đòi hỏi nhiều nỗ lực đặc biệt để có được.Nhưng khác với dữ liệu nội, dữ liệu ngoại có thể mua được từ các công ty, tổ chức.Loại dữ liệu này được rút trích từ các cơ sở dữ liệu thương mại…

c Thành phần mô hình:

Các loại mô hình:

Có nhiều loại mô hình khác nhau được phân chia dựa trên mục đích sử dụng,cách xử lý với tính tình cờ (randomness), tính tổng quát của ứng dụng…

Trang 14

Mục đích của mô hình là tối ưu hóa hay để mô tả Một mô hình dùng để tối ưuhóa là một mô hình trong đó một đại lượng nào đó cần phải được cực tiểu hóa hay cựcđại hóa Ví dụ như cực đại hóa lợi nhuận hay cực tiểu hóa chi phí Nói chung loại môhình dùng để mô tả cho người dùng một hình dung đúng về thực tế, còn theo nghĩa hẹp

nó mô tả về cách vận hành của hệ thống và không thực hiện một phép tối ưu nào

Các lớp mô hình:

Thông thường các mô hình được phân thành các lớp sau:

 Mô hình chiến lược: được dùng cho công việc quản lý ở tầm cao, dùng

để hỗ trợ xác định mục đích của tổ chức, các tài nguyên cần có để thực thi các mụcđích này

 Mô hình chiến thuật: được dùng quản lý ở mức trung cấp, để giúp cấtphát và sử dụng tài nguyên của tổ chức

 Mô hình hoạt động: dùng để ra những quyết định ngắn hạn (hàng ngày,hàng tuần)

Các vấn đề thường gặp với mô hình:

 Khó khăn trong việc tìm dữ liệu nhập cho mô hình

 Khó khăn trong việc sử dụng dữ liệu xuất ra từ mô hình

 Khó khăn trong việc cập nhật hóa mô hình

 Sự thiếu tin cậy đối với mô hình của người dùng

 Ít có sự hợp nhất, tích hợp giữa các mô hình

 Sự tương tác yếu (nghèo nàn) giữa mô hình và người dùng

 Người dùng khó mà tạo mô hình của riêng họ

 Các mô hình thường ít đưa ra giải thích về dữ liệu xuất (output)

Thành phần đối thoại:

 Các khái niệm thành phần dữ liệu, thành phần đối thoại và thành phần

mô hình cung cấp một phương pháp hữu hiệu để hiểu các thành phần của một DDS vàcác tương tác giữa chúng với nhau

 Thành phần dữ liệu cung cấp dữ liệu để xây dựng, kiểm tra và “bảodưỡng” mô hình Kết xuất của mô hình lại được lưu trong cơ sở dữ liệu nên có thể làm

dữ liệu nhập cho các mô hình khác, do đó có thể tích hợp nhiều mô hình lại với nhau

Trang 15

 Thành phần đối thoại không chỉ giúp cho người dùng sử dụng tốt môhình, sử dụng một DDS có hiệu quả để ra quyết định mà còn giúp người dùng xâydựng mô hình của riêng họ, cho những nhu cầu của riêng họ.

3.5 Cây quyết định:

Cây quyết định bao gồm bốn thành phần: nhánh, nút quyết định, nút biến cố

và kết quả Nhánh là một biến cố hay chiến lược nối hai nút hay một nút và kết quả.Nút quyết định là một điểm trên cây được biểu diễn bằng hình vuông và từ đó sẽ phátxuất nhiều nhánh Mỗi nhánh từ nút quyết định là một chiến lược khả dĩ sẽ được người

ra quyết định xem xét Nút biến cố là một điểm trên cây quyết định được biểu diễnbằng hình tròn và từ đó cũng sẽ phát xuất nhiều nhánh, mỗi nhánh là một biến cố cóthể xảy ra Kết quả là một chuỗi chiến lược và biến cố tạo thành một con đường duynhất trên cây quyết định từ điểm đầu cho đến điểm cuối

Trang 16

E4: biến cố 48

CP11

E4: biến cố 4E4: biến cố 4E4: biến cố 4E4: biến cố 4

E4: biến cố 4E3: biến cố 3

E4: biến cố 4E4: biến cố 4

E3: biến cố 3E3: biến cố 3E3: biến cố 3E3: biến cố 3

E3: biến cố 3E3: biến cố 3E3: biến cố 3

S4: chiến lược 4S4: chiến lược 4S4: chiến lược 4S4: chiến lược 4

S3: chiến lược 3S3: chiến lược 3S3: chiến lược 3S3: chiến lược 3

S1: chiến lược 1

E2: biến cố 2E1: biến cố 1

CP4CP5

CP6CP7

CP1410

CP15CP1610

Hình 1.5: Sơ đồ cây quyết định.

Trang 17

CHƯƠNG 3: GIẢI THUẬT ID3

3.1 Sơ lược về giải thuật ID3

Nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví dụrèn luyện (training example) hay còn gọi là dữ liệu rèn luyện (training data) Hay nóikhác hơn, giải thuật có:

Đầu vào: Một tập hợp các ví dụ Mỗi ví dụ bao gồm các thuộc tính mô tả mộttình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó

Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữliệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong tương lai

Thuật toán ID3(Iterative Dichotomiser 3) do Quinlan phát triển vào năm 1979,mục đích xây dựng nên một cây quyết định dựa vào tập dữ liệu dataset, với mỗi thuộctính sẽ có những giá trị đi cùng

Ý tưởng thuật toán : ID3(D, Target, Atts)

Kết quả trả về : một cây quyết định được xây dựng theo những giá trị đầu vàoCác biến :

+ D : tập dữ liệu huấn luyện của đầu vào

+ Target : những thuộc tính mà giá trị được dự đoán bởi cây quyết định

+ Atts : tập hợp các thuộc tính cần kiểm thử trong quá trình xây dựng cây(chưa được xét duyệt)

Mỗi nút (không phải lá) của một cây quyết định tương ứng với một thuộc tínhđầu vào, và mỗi một nhánh con đi ra tiếp theo chính là giá trị của thuộc tính đó Mộtnút lá tương ứng với giá trị kỳ vọng của các thuộc tính trước đó mà được xác địnhbằng cách đi từ nút gốc cho đến nút lá đó (ta có thể hiểu đó là kết quả kì vọng cuốicùng được đưa ra sau khi đã duyệt qua tất cả những thuộc tính có liên quan trước đótuân theo những luật, ràng buộc được nêu ra)

Một cây quyết định “tốt” là cây có mỗi nút lá tương ứng với một thuộc tính màthuộc tính đó có giá trị ý nghĩa tốt nhất trong toàn bộ những thuộc tính chưa đượcduyệt (tính từ nút gốc cho đến nút hiện tại) Tức là, chúng ta muốn dự đoán giá trị của

Trang 18

thuộc tính bằng cách dựa vào số lượng những nghi vấn nhỏ nhất trên tổng số nhữngnghi vấn trung bình (mức độ tin cậy và chính xác càng cao thì sẽ được chọn)

Ví dụ: chúng ta hãy xét bài toán phân loại xem ta ‘có đi chơi tennis’ ứng vớithời tiết nào đó không Giải thuật ID3 sẽ học cây quyết định từ tập hợp các ví dụ sau:

Tập dữ liệu này bao gồm 14 ví dụ Mỗi ví dụ biểu diễn cho tình trạng thời tiếtgồm các thuộc tính quang cảnh, nhiệt độ, độ ẩm và gió; và đều có một thuộc tính phânloại ‘chơi Tennis’ (có, không) ‘Không’ nghĩa là không đi chơi tennis ứng với thời tiết

đó, ‘Có’ nghĩa là ngược lại Giá trị phân loại ở đây chỉ có hai loại (có, không), hay còn

ta nói phân loại của tập ví dụ của khái niệm này thành hai lớp (classes) Thuộc tính

‘Chơi tennis’ còn được gọi là thuộc tính đích (target attribute)

Mỗi thuộc tính đều có một tập các giá trị hữu hạn Thuộc tính quang cảnh có

ba giá trị (âm u, mưa, nắng), nhiệt độ có ba giá trị (nóng, mát, ấm áp), độ ẩm có hai giátrị (cao, TB) và gió có hai giá trị (mạnh, nhẹ) Các giá trị này chính là ký hiệu(symbol) dùng để biểu diễn bài toán

Từ tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định có khảnăng phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trong tương lai, nó

Ngày đăng: 21/05/2015, 08:13

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w