những bài toán trên con người thường dựa vào những kinh nghiệm của thế hệ trước, kinh nghiệm bản thân, dựa vào linh cảm v.v… Vậy để có được những kinh nghiệm thì ta phải có sẵn những cơ
Trang 1MỤC LỤC 1
LỜI NÓI ĐẦU 1
CHƯƠNG 1: ĐẶT VẤN ĐỀ 2
1.1 Đặt vấn đề 2
1.2 Mô tả bài toán 2
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 7
3.1 Khái niệm hệ hỗ trợ ra quyết định: 7
3.2 Năng lực của hệ hỗ trợ ra quyết định: 8
3.3 Hệ hỗ trợ ra quyết định và hệ thống thông tin: 8
3.4 Các thành phần của một hệ hỗ trợ ra quyết định: 9
3.5 Cây quyết định: 14
CHƯƠNG 3: GIẢI THUẬT ID3 16
3.1 Sơ lược về giải thuật ID3 16
3.2 Giải thuật ID3 xây dựng cây quyết định từ trên xuống 19
3.3 Giải thuật ID3: 20
3.4 Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất? 22
3.4.1 Entropy đo tính thuần nhất của tập ví dụ 23
3.4.2 Lượng thông tin thu được đo mức độ giảm entropy mong đợi 24
3.5 Tìm kiếm không gian giả thuyết trong ID3 26
3.6 Đánh giá hiệu suất của cây quyết định 27
3.7 Chuyển cây về các luật 28
3.8 Khi nào nên sử dụng ID3 28
CHƯƠNG 4: TRIỂN KHAI 30
CHƯƠNG 5: CẢI TIẾN 34
5.1 Những khuyết điểm của thuật toán ID3 34
5.2 Cải tiến thuật toán : sẽ sử dụng thuật toán C4.5 34
TÀI LIỆU THAM KHẢO 36
Trang 2Trong cuộc sống hằng ngày ai cũng phải có lần quyết định nên làm việc này hay không nên, làm việc này hay làm việc kia Khi đứng trước tình huống khó xử ấy tacần gì để tránh khỏi những sai lầm? những bài toán trên con người thường dựa vào những kinh nghiệm của thế hệ trước, kinh nghiệm bản thân, dựa vào linh cảm v.v… Vậy để có được những kinh nghiệm thì ta phải có sẵn những cơ sở dữ liệu về những việc đã có từ trước, cách thức giải quyết và kết quả của việc giải quyết vấn đề đó.
Việc phải ra một quyết định là một việc làm hết sức là cần thiết con mỗi con người, từ người nông dân bình thường đến các thương nhân, lãnh đâọ Ví dụ như người nông dân khi phơi lúa thì họ cũng phải nhìn lên bầu trời, dựa vào những dữ liệu:mây, cấp độ gió, hướng di chuyển của gió… để họ ra quyết định là có phơi hay không,nếu đang phơi thì có gom lúa lại hay không Họ cũng đút kết ra kinh nghiệm “Mưa đằng đông vừa dông vừa chạy, mưa đằng tây vừa làm vừa chơi”, bên cạnh đối ta còn phải cân nhắc câu ca trên đúng được bao nhiêu phần trăm, hay nói đến độ tin cậy Còn đối với doanh nghiệp thì quyết định của họ mạng đến sức thành công hay thất bại của công ty Đối với các nguyên thủ quốc gia, nhà lãnh đạo một nước, thì quyết định của
họ liên quan đến vận mệnh một đất nước, dân tộc ví dụ như việc kéo pháo của trận Điện Biên Phủ, trận đánh Buôn Mê Thuộc làm ảnh hưởng và thay đổi vận mệnh dân tộc ta Từ đó ta thấy rõ một quyết định có tầm quan trọng như thế nào, nhu cầu có một
hệ hổ trợ ra quyết định là không thể thiếu trong xã hội ngày nay
Trong khuôn khổ bài đồ án này, tôi xin trình về GIẢI THUẬT ID3 áp dụng cho hệ hổ trợ ra quyết định
Qua đây, tôi xin được gửi lời cảm ơn đến PGS - TS Đỗ Phúc, người đã tận tâm truyền đạt những kiến thức nền tảng cơ bản về môn học “Hệ hổ trợ ra quyết định”,
để tôi có cơ sở kiến thức để có thể viết được bài thu hoạch này
Do kiến thức còn hạn hẹp, bài thu hoạch có thể có những sai sót nhất định, mong thầy và các bạn góp ý để bài thu hoạch ngày càng hoàn thiện hơn
Nội dung báo cáo gồm các phần chính: CHƯƠNG 1: ĐẶT VẤN ĐỀ,
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT, CHƯƠNG 3: : GIẢI THUẬT ID3, CHƯƠNG 4: TRIỂN KHAI, CHƯƠNG 5: CẢI TIẾN
Trang 3CHƯƠNG 1: ĐẶT VẤN ĐỀ
1.1 Đặt vấn đề
Vấn đề ra quyết định là một vấn đề hết sức quan trọng, con người ai cũng ao ước mình sẽ ra quyết định đúng đắn Tuy nhiên để có một quyết định đúng thì không phải phán đoán đơn giản, mà phải dựa vào tập hợp các cơ sở tri thức nền tảng và cũng
có thể là vận may
Đôi khi con người có một nguồn cơ sở dữ liệu nền tảng, nhưng với những số liệu thô, khô khan thì chúng ta khó có thể hình dung ra được ta sẽ được gì từ khối dữ liệu đó, hoặc ta sẽ quá nhiều kết quả từ tập dữ liệu đó, ta không biết nên dựa vào tập
dữ liệu nào là hợp lý
Hệ hổ trợ ra quyết định đã là cánh tay đắt lực giúp con người có thể ra tiên
đoán dựa trên cơ sở phân tích một cách có khoa học Hệ hổ trợ ra quyết định giúp ta cóthể dự báo, phân loại các vấn đề một cách khoa học
Trong đồ án này tôi không nêu ra cụ thể một vấn đề, mà tôi đưa ra một vài ví
dụ cụ thể với các tập dữ liệu mẫu có sẵn thì hệ hổ trợ ra quyết định đã giúp con người
có được quyết định nhanh chóng
1.2 Mô tả bài toán
Bài toán ở đây không cụ thể là một bài toán nào, dữ liệu đầu vào đơn giản chỉ
là file text dạng bảng, ở đồ án này tôi sẽ trình bày một số dữ liệu mẫu ở vài lĩnh vực khác nhau nhằm cho giúp người đọc sẽ thấy hiểu được phạm vi ứng dụng của hệ hổ trợ
ra quyết định là không giới hạn, nếu chúng ta có dữ liệu đầu vào là đáng tin cậy, thì
quyết định ở đây cũng khá chính xác
Tập liệu
Process
(Xử lí với tập dữ liệu đầu vào)
Thu t toán ID3 ật toán ID3
OUTPUT Cây quyết định
Trang 4- Minh họa thuật toán với tập dữ liệu sau:
Từ bảng này người đi biển có thể dự báo có sóng lớn hay không để neo thuyền hay chạy tiếp
Bảng 2:
Các
trường
hợp
Tuổi Thu nhập Sinh
Viên Chỉ số tín nhiệm Mua máy tính
Từ bảng này giúp người điều hành có thể điều chỉnh số lượng bán, hay ra những chính sách hợp lý để chăm sóc, thu hút khách hàng
Bảng 3:
Trang 5Finance 28 Single 12 no Good
Từ bảng này ta thấy rằng dự đoán được rằng khách hàng nào hay trả không đúng
kỳ hạn
Bảng 4: từ bảng này ta thấy rằng hệ hổ trợ ra quyết định cũng hổ trợ trong lĩnh
vực y tế
Độ tuổi (Dotuoi): Có 2 độ tuổi được xem xét kỹ theo tiêu chuẩ n quy hoạchcán bộ là:: trên 40 tuổi và dưới 40 tuổi Ta có thể chia khoảng như sau: dưới 40 tuổi (40-), từ 40 tuổi trở lên (40+)
Trình độ chuyên môn (TDCM): Là trình độ được tào tạo của các nhân sự ta cần xem xét để đưa vào quy hoạch Ta có thể chia theo 3 mức sau:
Trang 6+ Dhtc: Những người có bằng đại học tại chức, từ xa, văn bằng 2 và các loại hình đào đại học khác.
+ Khong: là những người chưa có bằng đại học
Trình độ Lý luận chính trị (LLCT): Ta chia làm làm 3 loại hình theo quy định hiện nay:
+ Cctt: Là những người có trình độ cao cấp lý luận chính trị hệ tập trung trở lên.(Cao cấp chính trị và cử nhân chính trị)
+ Cc0tt: Là những người có trình độ cao cấp lý luận chính trị không thuộc hệ tập trung
+ Khong: những người chưa có trình độ lý chính trị cao cấp, trung cấp
Trình độ ngoại ngữ (NN): Chia làm 2 tường hợp
+ Co: Là ngững người có chứng chỉ ngoại ngữ trình độ B trở lên
+ Khong: Chưa chứng chỉ ngoại ngữ trình độ B trở lên.Các yếu tố trên chính
là tập thuộc tính, dựa vào tập thuộc tính này để dự đoán giá trị cho thuộc tính đích
Quyết định
Quyết định (QD): là kết quả của việc áp dung cây quyết định Ta chia 2 tình huống: những người có thể đưa vào diện quy hoạch
(Yes) và những người không nên đưa vào diện quy hoạch (No)
Ta có các giá trị của các thuộc tính như sau:
Trang 8CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
3.1 Khái niệm hệ hỗ trợ ra quyết định:
Hệ hỗ trợ ra quyết định là phương pháp lấy tri thức đúng để cho ra quyết địnhhợp lý vào đúng lúc và có mức phí hợp lý
Đó là sự kết hợp giữa tri thức và việc tạo lập quyết định (Knowledge –Decision making)
Khái niệm hệ hỗ trợ ra quyết định được đề xuất bởi Michael S.Scott Morton vàonhững năm 1970 Hệ hỗ trợ ra quyết định bao gồm:
Phần mềm máy tính
Chức năng hỗ trợ ra quyết định
Làm việc với bài toán có cấu trúc yếu
Hoạt động theo cách tương tác với người dùng
Được trang bị nhiều mô hình phân tích và mô hình dữ liệu
Hình 2.1: Khái niệm hệ hỗ trợ ra quyết định
Trang 93.2 Năng lực của hệ hỗ trợ ra quyết định:
Hình 2.2: Năng lực hệ hỗ trợ quyết định
Hệ hỗ trợ quyết định cơ bản hỗ trợ các nhà ra quyết định trong các tình huốngnửa cấu trúc và phi cấu trúc bằng cách kết hợp phán xử của con người và xử lýthông tin bằng máy tính Các bài toán như vậy không thể/không thuận tiện giảiquyết được chỉ bằng các công cụ máy tính hóa hay các phương pháp địnhlượng
Phù hợp cho các cấp quản lý khác nhau từ cao đến thấp
Phù hợp cho cá nhân lẫn nhóm Các bài toán ít có tính cấu trúc thường liên đớiđến nhiều cá nhân ở các đơn vị chức năng hay mức tổ chức khác nhau cũng như
Phù hợp cho một số các phong cách và quá trình ra quyết định
3.3 Hệ hỗ trợ ra quyết định và hệ thống thông tin:
Các hệ thống thông tin quản lý tập trung vào các hoạt động của hệ thống thông
Trang 10Hệ thống thông tin quản lý có các tính chất:
Tập trung vào thông tin, hướng đến các nhà quản lý cấp điều hành
Làm việc với dòng thông tin có cấu trúc
Các hệ hỗ trợ quyết định có các tính chất:
Hướng đến các quyết định, các nhà lãnh đạo
Tính uyển chuyển, thích ứng với hoàn cảnh và phản ứng nhanh
Do người dùng khởi động và kiểm soát
Hỗ trợ các quyết định cá nhân của nhà lãnh đạo
GADS: Geodata Analysis Display
IFPS:Interactive Financial Planning
cáo
3.4 Các thành phần của một hệ hỗ trợ ra quyết định:
Một cách hình dung về các thành phần của một hệ hỗ trợ ra quyết định (DDS –decision support system) và quan hệ giữa chúng là sử dụng các khái niệm đối thoại(dialog), dữ liệu (data) và mô hình (model) Đối với những người thiết kế hệ thốngDDS cũng như những người sử dụng hệ thống, điều quan trọng là hiểu được các thànhphần này được thiết kế như thế nào Người sử dụng cần phải biết có thể yêu cầu cái gì
ở DDS Người thiết kế phải biết được DDS có thể cung cấp cái gì
Trang 11Hình 2.4: Mô hình hệ hỗ trợ ra quyết định
Các kỹ thuật mới có nhiều ảnh hưởng đến các thành phần đối thoại, dữ liệu, và
mô hình; ví dụ như giao diện đồ họa hay cơ sở dữ liệu quan hệ Ngoài ra trí tuệ nhântạo cũng cung cấp các khả năng biểu diễn và sử dụng mô hình trong những hình thứcmới
a Thành phần đối thoại:
Từ cách nhìn của người sử dụng, thành phần đối thoại là toàn bộ hệ thống.Cách dùng hệ thống, hướng dẫn cách vận hành của hệ thống và thể hiện các trả lời của
hệ thống đều thông qua thành phần đối thoại Bennett gọi các yếu tố này bằng các kháiniệm: cơ sở tri thức (knowledge base), ngôn ngữ hành động (action language), và ngônngữ trình bày (representation language)
Xem xét chung
Khi thiết kế thành phần đối thoại của một DDS, điều quan trọng là nhận ra ai
là người dùng của nó Một DDS có thể chỉ có một người dùng, nhưng cũng có thể cónhiều người dùng Một số người dùng chỉ quan tâm đến khía cạnh hỗ trợ quyết định cótính bề mặt của DDS, một số khác lại có thể dùng DDS một cách rất thành thục Đôikhi người ra quyết định dùng DDS một cách trực tiếp, nhưng đôi lúc họ ra quyết định
Trang 12dựa trên một ban cố vấn và ban cố vấn lại sử dụng DDS Như vậy ban quyết định cóthể được xem là phần mở rộng của DDS.
Cơ sở tri thức (knowledge base):
Cơ sở tri thức bao gồm những gì người dùng biết về cách thức hệ thống vậnhành cũng như cách dùng hệ thống đó Thường thì các tri thức xung quanh bài toáncần được giải phải được cung cấp cho DDS, sau đó thì DDS mới có thể ra quyết định.Một ngoại lệ là trường hợp DDS được dùng để huấn luyện người ra quyết định Lúcnày DDS là một phương tiện giáo dục
Người dùng có thể được huấn luyện sử dụng DDS theo nhiều cách khác nhau
Có thể học sử dụng DDS theo cách một truyền một (one to one), nhưng khi có nhiềungười cần được huấn luyện thì phải sử dụng đến các lớp hay khóa học Thêm vào đó,
có thể tìm kiếm sự trợ giúp từ một chuyên gia (con người) hay từ những lệnh giúp đỡ
đã được chuẩn bị kèm theo DDS
Ngôn ngữ hành động (action language):
Có nhiều loại ngôn ngữ hành động khác nhau, hiểu theo nghĩa ngôn ngữ dùng
để điều hành DDS Hỏi-đáp, dùng menu, hay ngôn ngữ lệnh đã được giải thích ở trên.Ngoài ra còn có một số “ngôn ngữ ” khác như sau
Một vài DDS sử dụng form để nhập/xuất dữ liệu Người dùng điền dữ liệu đầuvào (input) dùng form và nhận dữ liệu đầu ra (output) cũng trên form
Giao diện đồ họa cung cấp một phương pháp tiếp cận khác Các biểu tượng(icon), ảnh được dùng để đại diện cho các đối tượng như tài liệu, tập tin…, người dùng
sử dụng con chuột để tác động lên các đối tượng đó (như di chuyển, chọn menu…)
Giọng nói cũng là một loại ngôn ngữ hành động, và yêu cầu công nghệ nhậndạng giọng nói (speech recognition) Với sự phát triển của công nghệ này, chúng ta cóthể trông đợi nhiều DDS sử dụng giọng nói làm ngôn ngữ hành động hơn
Tóm lại, bàn phím không phải là sự lựa chọn duy nhất, có thể kể đến các lựachọn khác như chuột, các thiết bị trỏ dùng trực tiếp trên màn hình hay là micro
Ngôn ngữ trình bày:
Trang 13Ngày trước, máy in là một nguồn xuất dữ liệu Khả năng đồ họa của màn hìnhcung cấp nhiều cách thể hiện mới Màn hình có thể thể hiện các hình ảnh, đồ thị.Ngoài ra âm thanh cũng được xem xét như một khả năng mới.
Các kiểu (style) thành phần đối thoại:
Tổ hợp các kiểu thực hiện các thành phần con như cơ sở tri thức, ngôn ngữhành động và ngôn ngữ trình bày, ta được nhiều kiểu thành phần hội thoại khác nhau.Một số DDS thiên về bàn phím và buộc người dùng phải nhớ các tổ hợp phím để thựcthi các lệnh Một số DDS trực quan hơn thì cho phép người dùng dùng chuột để tácđộng lên các đại diện của các đối tượng cần thao tác
b Thành phần dữ liệu:
DDS không dùng các dạng dữ liệu thô thu được trong các quá trình giao dịchcủa các tổ chức Dữ liệu thường phải được tóm tắt, cô đọng trước khi được sử dụngbởi DDS Lý tưởng nhất là công việc này cũng được tự động bằng máy tính Nhưngđôi lúc cũng được thực hiện bằng tay khi không tốn quá nhiều công sức hay công việcđòi hỏi việc xử lý tinh tế của con người Thông thường cần phải dùng một hệ quản trị
cơ sở dữ liệu (DBMS)
Các dữ liệu nội (internal data) cũng được cần đến Ví dụ như loại dữ liệu liênquan đến các lĩnh vực của kỹ sư hay của nhà quản lý Các dữ liệu này thường khôngthể có được qua các quá trình xử lý dữ liệu thông thường được Chúng phải đượcthu thập, nhập liệu, lưu trữ và cập nhật thông qua các phương pháp và tiến trình đặcbiệt Loại dữ liệu này cũng cần dùng đến hệ quản trị cơ sở dữ liệu (DBMS)
Các dữ liệu ngoại (external data): như thông tin thương mại, tài chính của mộtnền kinh tế, các số liệu công nghiệp cũng đòi hỏi nhiều nỗ lực đặc biệt để có được.Nhưng khác với dữ liệu nội, dữ liệu ngoại có thể mua được từ các công ty, tổ chức.Loại dữ liệu này được rút trích từ các cơ sở dữ liệu thương mại…
c Thành phần mô hình:
Các loại mô hình:
Có nhiều loại mô hình khác nhau được phân chia dựa trên mục đích sử dụng,cách xử lý với tính tình cờ (randomness), tính tổng quát của ứng dụng…
Trang 14Mục đích của mô hình là tối ưu hóa hay để mô tả Một mô hình dùng để tối ưuhóa là một mô hình trong đó một đại lượng nào đó cần phải được cực tiểu hóa hay cựcđại hóa Ví dụ như cực đại hóa lợi nhuận hay cực tiểu hóa chi phí Nói chung loại môhình dùng để mô tả cho người dùng một hình dung đúng về thực tế, còn theo nghĩa hẹp
nó mô tả về cách vận hành của hệ thống và không thực hiện một phép tối ưu nào
Các lớp mô hình:
Thông thường các mô hình được phân thành các lớp sau:
Mô hình chiến lược: được dùng cho công việc quản lý ở tầm cao, dùng
để hỗ trợ xác định mục đích của tổ chức, các tài nguyên cần có để thực thi các mụcđích này
Mô hình chiến thuật: được dùng quản lý ở mức trung cấp, để giúp cấtphát và sử dụng tài nguyên của tổ chức
Mô hình hoạt động: dùng để ra những quyết định ngắn hạn (hàng ngày,hàng tuần)
Các vấn đề thường gặp với mô hình:
Khó khăn trong việc tìm dữ liệu nhập cho mô hình
Khó khăn trong việc sử dụng dữ liệu xuất ra từ mô hình
Khó khăn trong việc cập nhật hóa mô hình
Sự thiếu tin cậy đối với mô hình của người dùng
Ít có sự hợp nhất, tích hợp giữa các mô hình
Sự tương tác yếu (nghèo nàn) giữa mô hình và người dùng
Người dùng khó mà tạo mô hình của riêng họ
Các mô hình thường ít đưa ra giải thích về dữ liệu xuất (output)
Thành phần đối thoại:
Các khái niệm thành phần dữ liệu, thành phần đối thoại và thành phần
mô hình cung cấp một phương pháp hữu hiệu để hiểu các thành phần của một DDS vàcác tương tác giữa chúng với nhau
Thành phần dữ liệu cung cấp dữ liệu để xây dựng, kiểm tra và “bảodưỡng” mô hình Kết xuất của mô hình lại được lưu trong cơ sở dữ liệu nên có thể làm
dữ liệu nhập cho các mô hình khác, do đó có thể tích hợp nhiều mô hình lại với nhau
Trang 15 Thành phần đối thoại không chỉ giúp cho người dùng sử dụng tốt môhình, sử dụng một DDS có hiệu quả để ra quyết định mà còn giúp người dùng xâydựng mô hình của riêng họ, cho những nhu cầu của riêng họ.
3.5 Cây quyết định:
Cây quyết định bao gồm bốn thành phần: nhánh, nút quyết định, nút biến cố
và kết quả Nhánh là một biến cố hay chiến lược nối hai nút hay một nút và kết quả.Nút quyết định là một điểm trên cây được biểu diễn bằng hình vuông và từ đó sẽ phátxuất nhiều nhánh Mỗi nhánh từ nút quyết định là một chiến lược khả dĩ sẽ được người
ra quyết định xem xét Nút biến cố là một điểm trên cây quyết định được biểu diễnbằng hình tròn và từ đó cũng sẽ phát xuất nhiều nhánh, mỗi nhánh là một biến cố cóthể xảy ra Kết quả là một chuỗi chiến lược và biến cố tạo thành một con đường duynhất trên cây quyết định từ điểm đầu cho đến điểm cuối
Trang 16E4: biến cố 48
CP11
E4: biến cố 4E4: biến cố 4E4: biến cố 4E4: biến cố 4
E4: biến cố 4E3: biến cố 3
E4: biến cố 4E4: biến cố 4
E3: biến cố 3E3: biến cố 3E3: biến cố 3E3: biến cố 3
E3: biến cố 3E3: biến cố 3E3: biến cố 3
S4: chiến lược 4S4: chiến lược 4S4: chiến lược 4S4: chiến lược 4
S3: chiến lược 3S3: chiến lược 3S3: chiến lược 3S3: chiến lược 3
S1: chiến lược 1
E2: biến cố 2E1: biến cố 1
CP4CP5
CP6CP7
CP1410
CP15CP1610
Hình 1.5: Sơ đồ cây quyết định.
Trang 17CHƯƠNG 3: GIẢI THUẬT ID3
3.1 Sơ lược về giải thuật ID3
Nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví dụrèn luyện (training example) hay còn gọi là dữ liệu rèn luyện (training data) Hay nóikhác hơn, giải thuật có:
Đầu vào: Một tập hợp các ví dụ Mỗi ví dụ bao gồm các thuộc tính mô tả mộttình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữliệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong tương lai
Thuật toán ID3(Iterative Dichotomiser 3) do Quinlan phát triển vào năm 1979,mục đích xây dựng nên một cây quyết định dựa vào tập dữ liệu dataset, với mỗi thuộctính sẽ có những giá trị đi cùng
Ý tưởng thuật toán : ID3(D, Target, Atts)
Kết quả trả về : một cây quyết định được xây dựng theo những giá trị đầu vàoCác biến :
+ D : tập dữ liệu huấn luyện của đầu vào
+ Target : những thuộc tính mà giá trị được dự đoán bởi cây quyết định
+ Atts : tập hợp các thuộc tính cần kiểm thử trong quá trình xây dựng cây(chưa được xét duyệt)
Mỗi nút (không phải lá) của một cây quyết định tương ứng với một thuộc tínhđầu vào, và mỗi một nhánh con đi ra tiếp theo chính là giá trị của thuộc tính đó Mộtnút lá tương ứng với giá trị kỳ vọng của các thuộc tính trước đó mà được xác địnhbằng cách đi từ nút gốc cho đến nút lá đó (ta có thể hiểu đó là kết quả kì vọng cuốicùng được đưa ra sau khi đã duyệt qua tất cả những thuộc tính có liên quan trước đótuân theo những luật, ràng buộc được nêu ra)
Một cây quyết định “tốt” là cây có mỗi nút lá tương ứng với một thuộc tính màthuộc tính đó có giá trị ý nghĩa tốt nhất trong toàn bộ những thuộc tính chưa đượcduyệt (tính từ nút gốc cho đến nút hiện tại) Tức là, chúng ta muốn dự đoán giá trị của
Trang 18thuộc tính bằng cách dựa vào số lượng những nghi vấn nhỏ nhất trên tổng số nhữngnghi vấn trung bình (mức độ tin cậy và chính xác càng cao thì sẽ được chọn)
Ví dụ: chúng ta hãy xét bài toán phân loại xem ta ‘có đi chơi tennis’ ứng vớithời tiết nào đó không Giải thuật ID3 sẽ học cây quyết định từ tập hợp các ví dụ sau:
Tập dữ liệu này bao gồm 14 ví dụ Mỗi ví dụ biểu diễn cho tình trạng thời tiếtgồm các thuộc tính quang cảnh, nhiệt độ, độ ẩm và gió; và đều có một thuộc tính phânloại ‘chơi Tennis’ (có, không) ‘Không’ nghĩa là không đi chơi tennis ứng với thời tiết
đó, ‘Có’ nghĩa là ngược lại Giá trị phân loại ở đây chỉ có hai loại (có, không), hay còn
ta nói phân loại của tập ví dụ của khái niệm này thành hai lớp (classes) Thuộc tính
‘Chơi tennis’ còn được gọi là thuộc tính đích (target attribute)
Mỗi thuộc tính đều có một tập các giá trị hữu hạn Thuộc tính quang cảnh có
ba giá trị (âm u, mưa, nắng), nhiệt độ có ba giá trị (nóng, mát, ấm áp), độ ẩm có hai giátrị (cao, TB) và gió có hai giá trị (mạnh, nhẹ) Các giá trị này chính là ký hiệu(symbol) dùng để biểu diễn bài toán
Từ tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định có khảnăng phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trong tương lai, nó