- Các thuật toán “Cây quyết định” đã học: Quinlan, Bayes, K-NN, C4.5, Độ lộnxộn, ID3. xộn, ID3.
ILA? (Inductive (quy nạp) Learning Algorithm: Thuật toán này cũng sử dụng phương
pháp Devide & Conquer. Khác với các thuật toán cây quyết định đã học: Chia (Devide) theo nhãn (giá trị đầu ra MONG MUỐN).
3.6.1. Bài tốn
Input: Cho cơ sở dữ liệu “Weather”
Output: Tìm (học) hàm (thể hiện qua các luật (Rules) xấp xỉ hàm đích (Target Function)
3.6.2. Thuật toán ILA
Bước 1: Chia (phân hoạch) theo đặc trưng đầu ra thành hai bảng như dưới đây
Đổi TT mới Outlook Tem
p Humidity Windy Play
D1 Overcast Hot High False Yes D2 Rainy Mild High False Yes D3 Rainy Cool Normal False Yes D4 Overcast Cool Normal True Yes D5 Sunny Cool Normal False Yes D6 Rainy Mild Normal False Yes D7 Sunny Mild Normal True Yes D8 Overcast Mild High True Yes D9 Overcast Hot Normal False Yes
D10 Sunny Hot High False No
D11 Sunny Hot High True No
D12 Rainy Cool Normal True No D13 Sunny Mild High False No
D14 Rainy Mild High True No
Ai j Điểm A1 Outlook j= 1 (Overcast) 4 j = 2 (Rainy) 3 j = 3 (Sunny) 2 A2 Temperature j = 1 (Hot) 2 j = 2 (Mild) 4 j = 3 (Cool) 3 A3 Humidity j = 1 (High) 3 j = 2 (Normal) 6(max) A4 Windy j = 1 (False) 6(Max) j = 2 (True) 3 BẢNG 1 VỚI NHÃN –‘YES” Ai j Điểm j = 1 (Rainy) 2 j = 3 (Sunny) 3 A2 j = 2 (Mild)j = 1 (Hot) 22 j = 3 (Cool) 1 A3 j = 1 (High) 4 j = 2 (Normal) 2 A4 j = 1 (False) 4 j = 2 (True) 3 BẢNG 2 VỚI NHÃN –‘NO”
Bước 2: Chọn bảng 1. Đếm số đối tượng và cho điểm. Điểm số lớn nhất sẽ được chọn.
Trường hợp có những giá trị của các đặc trưng khác nhau cùng điểm, về nguyên tắc chọn tùy ý.
Bước 3. Viết luật. Tiêu chí: chọn giá trị của thuộc tính nào có điểm cao nhất (ứng với trường
hợp chiếm số ngày nhiều nhất). Trường hợp có các ngày lớn nhất bằng nhau, chọn tùy ý, Dựa vào bảng 1, ta chọn đượcviết luật:
Luật 1: IF “Windy HAY A4” là “False” THEN “Play” là “Yes”
Bước 4: Bảng dữ liệu 1 cịn 3 ngày với thuộc tính “Windy”=”True”. Để học tiếp, tổ hợp chấp
2 thuộc tính.
Đổi số mới Outlook
A1 Temp A2 Humidit y A3 Wind y A4 Pla y
4 Overcast Cool Normal True Yes7 Sunny Mild Normal True Yes 7 Sunny Mild Normal True Yes 8 Overcast Mild High True Yes
Ai J Điểm
(A4 là
True) ^ A1 j=1 (Overcast)j = 2 (Sunny) 21 (A4 là
True) ^ A2 j = 1 (Cool)j = 2 (Mild) 12 (A4 là True)
^ A3 j = 1 (Normal)j = 2 (High) 21 Viết luật 2: IF (A4 là True) ^ (A1 là Overcast)
THEN “Play” là “Yes”
Bước 5: Lặp lại bước 4. Ta tổ hợp chập 3, thì có hai trường hợp, và lập bảng tương tự. Tuy
nhiên, trong trường hợp này chỉ còn 1 ngày. Sau hai luật được lập ở bảng 1, số bản ghi còn lại chưa được xếp luật còn lại như sau:
Đổi số mới Outlook
A1 TempA2 HumidityA3 WindyA4 Play
7 Sunny Mild Normal True Yes
nên có 2 luật là tương đương:
Viết luật 3: IF (A4 là True) ^ (A1 là SUNNY) ^( Humidity(A3) là Normal)
THEN “Play” là “Yes”
Hoặc: IF (A4 là True) ^ (A1 là SUNNY) ^( Temp(A2) là Mild) THEN “Play” là “Yes”.
Sau ba luật được lập ở bảng 1, số bản ghi đã được xếp luật hết. Ta chuyển sang xét lặp lại cho bảng hai một cách tương tự.
Bước 6. Lăp lại các bước trên với bảng 2
Đổi TT mới Outlook
A1 Temp A2 Humidit y A3 Wind y A4 Pla y =N0
1 Sunny Hot High False No
2 Sunny Hot High True No
Ai j Điểm
A1 j = 1 (Rainy) 2 j = 3 (Sunny) 3 A2 j = 1 (Hot)j = 2 (Mild) 22
4 Sunny Mild High False No
5 Rainy Mild High True No A3 j = 3 (Cool)j = 1 (High) 14j = 2 (Normal) 1 j = 2 (Normal) 1 A4 j = 1 (False) 2 j = 2 (True) 3
BẢNG 2 VỚI NHÃN –‘NO”
Luật 4: : IF A3 là High
THEN “Play” là “No”
Đổi TT mới Outlook
A1 Temp A2 Humidit y A3 Wind y A4 Pla y =N0
3 Rainy Cool Normal True No
Tổ hợp chập 2 và có 3 luật tương đương: Luật 5: IF (A3 là Normal) ^( A1 là Rainy) THEN “Play” là “No”
Hoặc IF (A3 là Normal) ^( A2 là Cool) THEN “Play” là “No” Hoặc IF (A3 là Normal) ^( A4 là True) THEN “Play” là “No”
Có thể kết hợp các luật 1, 2, 3 thành một luật với (Play là “yes”). Có thể kết hợp các luật 4, 5, thành một luật thứ hai với (Play là “No”) để trở thành một hàm (Sinh viên tự làm)
Remark:
1. Thuật tốn ILA dựa theo thống kê nên có thể gọi là luật học thống kê (StatisticLearning Rule). Mặt khác, dữ liệu cũng được chia thành 2 bảng như một cây, cho nên Learning Rule). Mặt khác, dữ liệu cũng được chia thành 2 bảng như một cây, cho nên cũng có thể xếp vào loại học cây quyết định. Trường hợp đầu ra có nhiều hơn 2, ta chia nhiều hơn 2 bảng. Việc học cũng tiến hành tương tự.
2. Do thuật tốn thuộc loại cây, cũng có thể dùng các tiêu chí đánh giá độ chính xác bằngma trận nhầm lẫn, hoặc các độ đo chính xác khác (sẽ nghiên cứu sau). ma trận nhầm lẫn, hoặc các độ đo chính xác khác (sẽ nghiên cứu sau).
Bài tập ngày 11.9.22: lớp chuyển đổi Hạ Long. Cho CSDL “Rám nắng). Dùng ILA tìm luật.
3.7. Các thuật tốn học cây quyết định có tính chất tổ hợp
1) Do cây quyết định có độ chính xác khơng cao, độ q khớp (Over-Fitting) lớn nên ngườ ta chủ trương kết nhiều cây để học. Khi dữ liệu lớn (Big Data) thì dữ liệu được coi như rừng cây (Tree Forest) và có nhiều cách học tổ hợp. Có thể kể đến:
Phương pháp Bagging Phương pháp Boosteping
Phương pháp Cây trong rừng ngẫu nhiên (Random Tree) Phương pháp rừng ngẫu nhiên (Random Forest)
(tham khảo của Đỗ Thanh Nghị, Đại học Cần Thơ: Nguyên lý Học máy, Khai mỏ Dữ liệu) Nhiều phương pháp khác (Xem References)
2) Rất nhiều phần mềm, và phương pháp mới cải tiến cũng được phát triển (Xem thêm các tài liệu khác) trong thời đại của AI, cụ thể là học máy.
BÀI TẬP LỚN VÀ THÍ NGHIÊM 1 (Machine Learning) Ngày 2 tháng 3 năm 2022
I. Phần Bài tập lớn: Cho tệp dữ liệu thời tiết. Sử dụng tuật toán C4.5 rút ra các hàm hàm
xâp xỉ đích dưới dạng các luật.
II. Phần Thí nghiệm ảo.
II.1. Cho dữ liệu Rám nắng
II.2. Cho dữ liệu “Weather”. Hãy a) Dùng phần mềm Weka, Chạy in kết quả
b) In sơ đồ cây quyết định và giải thích các chi tiêu đánh giá.