H ọ c Máy Machine Learning Học learning là bất cứ sự thay ñổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với nhiệm vụ khác
Trang 11
Trang 2H ọ c Máy (Machine Learning)
Học (learning) là bất cứ sự thay ñổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với nhiệm vụ khác từ cùng một quần thể ñó (Herbert Simon)
Học liên quan ñến vấn ñề khái quát hóa từ kinh nghiệm (dữ
liệu rèn luyện) => bài toán quy nạp (induction)
Vì dữ liệu rèn luyện thường hạn chế, nên thường khái quát
hóa theo một số khía cạnh nào ñó (heuristic) => tính thiên
lệch quy nạp (inductive bias)
Có ba tiếp cận học:
Các phương pháp học dựa trên ký hiệu (symbol-based): ID3
Tiếp cận kết nối: Các mạng neuron sinh học
Tiếp cận di truyền hay tiến hóa: giải thuật genetic
Trang 3Cây quy ế t ñị nh (ID3)
Là một giải thuật học ñơn giản nhưng thành công
Cây quyết ñịnh (Qð) là một cách biểu diễn cho phép chúng ta xác
ñịnh phân loại của một ñối tượng bằng cách kiểm tra giá trị của một số
thuộc tính.
Giải thuật có:
ðầ u vào: Một ñối tượng hay một tập hợp các thuộc tính mô tả một
tình huống
ðầ u ra: thường là quyết ñịnh yes/no, hoặc các phân loại.
Trong cây quyết ñịnh:
Mỗi nút trong biểu diễn một sự kiểm tra trên một thuộc tính nào ñó, mỗi giá trị có thể của nó tương ñương với một nhánh của cây
Các nút lá thể hiện sự phân loại.
Kích cỡ của cây Qð tùy thuộc vào thứ tự của các kiểm tratrên các thuộc tính
Trang 4No
Trang 5Quy n ạ p cây Qð t ừ các ví d ụ
Ví dụ (hay dữ liệu rèn luyện cho hệ thống) gồm:
Giá trị của các thuộc tính + Phân loại của ví dụ
không Mạnh
Cao
ấm áp
Mưa D14
Có nhẹ
TB Nóng
Âm u D13
Có Mạnh
Cao
ấm áp
Âm u D12
Có Mạnh
TB
ấm áp
Nắng D11
Có nhẹ
TB
ấm áp
Mưa D10
Có nhẹ
TB Mát
Nắng D9
Không nhẹ
Cao
ấm áp
Nắng D8
Có Mạnh
TB Mát
Âm u D7
Không Mạnh
TB Mát
Mưa D6
Có nhẹ
TB Mát
Mưa D5
Có nhẹ
Cao
ấm áp
Mưa D4
Có Nhẹ
Cao Nóng
Âm u D3
Không Mạnh
Cao Nóng
Nắng D2
Cao
ðộ ẩ m
Không nhẹ
Nóng Nắng
D1
Chơi Tennis Gió
Nhiệt ñộ Quang cảnh
Ngày
Trang 6Làm sao ñể h ọ c ñượ c cây Qð
Tiếp cận ñơn giản
Học một cây mà có một lá cho mỗi ví dụ
Học thuộc lòng một cách hoàn toàn các ví dụ
Có thể sẽ không thực hiện tốt trong các trường hợp
khác
Tiếp cận tốt hơn:
Học một cây nhỏ nhưng chính xác phù hợp với các vídụ
Occam’s razor – cái ñơn giản thường là cái tốt nhất!
Giả thuyết có khả năng nhất là giả thuyết ñơn giản nhất thống nhất với tất cả các quan sát.
Trang 7Xây d ự ng cây Qð : Trên - xu ố ng
Vòng lặp chính:
1. A <- thuộc tính quyết ñịnh tốt nhất cho nút kế
2. Gán A là thuộc tính quyết ñịnh cho nút
3. Với mỗi giá trị của A, tạo một nút con mới cho nút
4. Sắp xếp các ví dụ vào các nút lá
5. If các ví dụ ñã ñược phân loại ñúng, dừng ctr; Else lặp
lại trên mỗi nút lá mới
ðể phân loại một trường hợp, có khi cây Qð không
cần sử dụng tất cả các thuộc tính ñã cho, mặc dù nó
vẩn phân loại ñúng tất cả các ví dụ.
Trang 8Không còn thuộc tính nào (nhiễu)
Quyết ñịnh dựa trên một luật nào ñó (luật ña số)
Trang 9D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14
-:
D4, D5, D10 D6, D14
+:
-:
Cao Trung bình D3, D4, D12
D1, D2, D8, D14
+:
-:
D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14
+:
-:
Trang 10Gi ó ? Yes
-:
D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14
+:
-:
Quang c ảnh?
D9, D11 D1, D2, D8
+:
-:
D3, D7, D12, D13 +:
-:
D4, D5, D10 D6, D14
-:
Trang 11ID3 xây d ự ng cây Qð theo gi ả i thu ậ t sau:
Trang 12ð ánh giá hi ệ u su ấ t
Chúng ta muốn có một cây Qð có thể phân loại ñúng một
ví dụ mà nó chưa từng thấy qua
Việc học sử dụng một “tập rèn luyện” (traning set), và
Việc ñánh giá hiệu suất sử dụng một “tập kiểm tra” (test
set):
1 Thu thập một tập hợp lớn các ví dụ
2 Chia thành tập rèn luyện và tập kiểm tra
3 Sử dụng giải thuật và tập rèn luyện ñể xây dựng giả thuyết h (cây
Qð)
4 ðo phần trăm tập kiểm tra ñược phân loại ñúng bởi h
5 Lặp lại bước 1 ñến 4 cho các kích cỡ tập kiểm tra khác nhau ñược
chọn một cách nhẫu nhiên.
Trang 13S ử d ụ ng lý thuy ế t thông tin
Chúng ta muốn chọn các thuộc tính có thể giảm thiểu
chiều sâu của cây Qð
Thuộc tính tốt nhất: chia các ví dụ vào các tập hợp chứatoàn ví dụ âm hoặc ví dụ dương
Chúng ta cần một phép ño ñể xác ñịnh thuộc tính nào chokhả năng chia tốt hơn
Thuộc tính nào tốt hơn?
[29+, 36-] A1 = ? [29+, 36-] A2 = ?
[21+, 6-] [8+, 30-] [18+, 34-] [11+,2-]
Trang 14Entropy(S) = số lượng mong ñợi các bit cần thiết ñể mã hóa một
lớp (+ hay – ) của một thành viên rút ra một cách ngẫu nhiên từ S
(trong trường hợp tối ưu, mã có ñộ dài ngắn nhất).
Theo lý thuyết thông tin: mã có ñộ dài tối ưu là mã gán –log2p
bits cho thông ñiệp có xác suất là p.
= c pi piS
Entropy ( ) log2
Θ Θ
⊕
−
= p p p p S
Entropy( ) log2 log2
Trang 15( )
,
(
A Values v
v
v
S
Entropy S
S S
Entropy A
S Gain
[29+, 36-] A1 = ? [29+, 36-] A2 = ?
[21+, 6-] [8+, 30-] [18+, 34-] [11+,2-]
Trang 17KG giả thuyết ñầy ñủ =>giả thuyết chắc chắn thuộc KG này
ðầu ra là một giả thuyết
(cây Qð) =>Cây nào?
Không thể chọn cây với 20 câu hỏi
Không quay lui => cực tiểu
ñịa phương
Lựa chọn tìm kiếm dựa trên thống kê => chịu ñược dữ liệu nhiễu
Thiên lệch quy nạp: thích cây ngắn hơn.
Trang 18Chuy ể n cây v ề thành các lu ậ t
If (Quang-cảnh =nắng) ∧ (ðộ ẩm = Cao) Then Chơi-Tennis = No
If (Quang-cảnh =nắng) ∧ (ðộ ẩm = TB) Then Chơi-Tennis = Yes
If (Quang-cảnh =Âm u) Then Chơi-Tennis = Yes
No
Trang 19Khi nào nên s ử d ụ ng cây Qð
Các ví dụ ñược mô tả bằng các cặp “thuộc tính – giá trị”, vd: Gió - mạnh, Gió - nhẹ
Kết quả phân loại là các giá trị rời rạc, vd: Yes, No
Dữ liệu rèn luyện có thể chứa lỗi (bị nhiễu)
Dữ liệu rèn luyện có thể thiếu giá trị thuộc tính
Ví dụ:
Phân loại bệnh nhân theo các bệnh của họ
Phân loại hỏng hóc thiết bị theo nguyên nhân
Phân loại người vay tiền theo khả năng chi trả
Trang 20Table 13.1: Data from credit history of loan applications.
Trang 2121
Trang 22Figure :M ộ t cây Qð ñơ n gi ả n h ơ n.
Trang 2323