Bài Giảng Học Máy (Machine Learning)

H ọ c Máy Machine Learning Học learning là bất cứ sự thay ñổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với nhiệm vụ khác

Trang 1

1

Trang 2

H ọ c Máy (Machine Learning)

Học (learning) là bất cứ sự thay ñổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với nhiệm vụ khác từ cùng một quần thể ñó (Herbert Simon)

Học liên quan ñến vấn ñề khái quát hóa từ kinh nghiệm (dữ

liệu rèn luyện) => bài toán quy nạp (induction)

Vì dữ liệu rèn luyện thường hạn chế, nên thường khái quát

hóa theo một số khía cạnh nào ñó (heuristic) => tính thiên

lệch quy nạp (inductive bias)

Có ba tiếp cận học:

Các phương pháp học dựa trên ký hiệu (symbol-based): ID3

Tiếp cận kết nối: Các mạng neuron sinh học

Tiếp cận di truyền hay tiến hóa: giải thuật genetic

Trang 3

Cây quy ế t ñị nh (ID3)

Là một giải thuật học ñơn giản nhưng thành công

Cây quyết ñịnh (Qð) là một cách biểu diễn cho phép chúng ta xác

ñịnh phân loại của một ñối tượng bằng cách kiểm tra giá trị của một số

thuộc tính.

Giải thuật có:

ðầ u vào: Một ñối tượng hay một tập hợp các thuộc tính mô tả một

tình huống

ðầ u ra: thường là quyết ñịnh yes/no, hoặc các phân loại.

Trong cây quyết ñịnh:

Mỗi nút trong biểu diễn một sự kiểm tra trên một thuộc tính nào ñó, mỗi giá trị có thể của nó tương ñương với một nhánh của cây

Các nút lá thể hiện sự phân loại.

Kích cỡ của cây Qð tùy thuộc vào thứ tự của các kiểm tratrên các thuộc tính

Trang 4

No

Trang 5

Quy n ạ p cây Qð t ừ các ví d ụ

Ví dụ (hay dữ liệu rèn luyện cho hệ thống) gồm:

Giá trị của các thuộc tính + Phân loại của ví dụ

không Mạnh

Cao

ấm áp

Mưa D14

Có nhẹ

TB Nóng

Âm u D13

Có Mạnh

Cao

ấm áp

Âm u D12

Có Mạnh

TB

ấm áp

Nắng D11

Có nhẹ

TB

ấm áp

Mưa D10

Có nhẹ

TB Mát

Nắng D9

Không nhẹ

Cao

ấm áp

Nắng D8

Có Mạnh

TB Mát

Âm u D7

Không Mạnh

TB Mát

Mưa D6

Có nhẹ

TB Mát

Mưa D5

Có nhẹ

Cao

ấm áp

Mưa D4

Có Nhẹ

Cao Nóng

Âm u D3

Không Mạnh

Cao Nóng

Nắng D2

Cao

ðộ ẩ m

Không nhẹ

Nóng Nắng

D1

Chơi Tennis Gió

Nhiệt ñộ Quang cảnh

Ngày

Trang 6

Làm sao ñể h ọ c ñượ c cây Qð

Tiếp cận ñơn giản

Học một cây mà có một lá cho mỗi ví dụ

Học thuộc lòng một cách hoàn toàn các ví dụ

Có thể sẽ không thực hiện tốt trong các trường hợp

khác

Tiếp cận tốt hơn:

Học một cây nhỏ nhưng chính xác phù hợp với các vídụ

Occam’s razor – cái ñơn giản thường là cái tốt nhất!

Giả thuyết có khả năng nhất là giả thuyết ñơn giản nhất thống nhất với tất cả các quan sát.

Trang 7

Xây d ự ng cây Qð : Trên - xu ố ng

Vòng lặp chính:

1. A <- thuộc tính quyết ñịnh tốt nhất cho nút kế

2. Gán A là thuộc tính quyết ñịnh cho nút

3. Với mỗi giá trị của A, tạo một nút con mới cho nút

4. Sắp xếp các ví dụ vào các nút lá

5. If các ví dụ ñã ñược phân loại ñúng, dừng ctr; Else lặp

lại trên mỗi nút lá mới

ðể phân loại một trường hợp, có khi cây Qð không

cần sử dụng tất cả các thuộc tính ñã cho, mặc dù nó

vẩn phân loại ñúng tất cả các ví dụ.

Trang 8

Không còn thuộc tính nào (nhiễu)

Quyết ñịnh dựa trên một luật nào ñó (luật ña số)

Trang 9

D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14

-:

D4, D5, D10 D6, D14

+:

-:

Cao Trung bình D3, D4, D12

D1, D2, D8, D14

+:

-:

D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14

+:

-:

Trang 10

Gi ó ? Yes

-:

D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14

+:

-:

Quang c ảnh?

D9, D11 D1, D2, D8

+:

-:

D3, D7, D12, D13 +:

-:

D4, D5, D10 D6, D14

-:

Trang 11

ID3 xây d ự ng cây Qð theo gi ả i thu ậ t sau:

Trang 12

ð ánh giá hi ệ u su ấ t

Chúng ta muốn có một cây Qð có thể phân loại ñúng một

ví dụ mà nó chưa từng thấy qua

Việc học sử dụng một “tập rèn luyện” (traning set), và

Việc ñánh giá hiệu suất sử dụng một “tập kiểm tra” (test

set):

1 Thu thập một tập hợp lớn các ví dụ

2 Chia thành tập rèn luyện và tập kiểm tra

3 Sử dụng giải thuật và tập rèn luyện ñể xây dựng giả thuyết h (cây

Qð)

4 ðo phần trăm tập kiểm tra ñược phân loại ñúng bởi h

5 Lặp lại bước 1 ñến 4 cho các kích cỡ tập kiểm tra khác nhau ñược

chọn một cách nhẫu nhiên.

Trang 13

S ử d ụ ng lý thuy ế t thông tin

Chúng ta muốn chọn các thuộc tính có thể giảm thiểu

chiều sâu của cây Qð

Thuộc tính tốt nhất: chia các ví dụ vào các tập hợp chứatoàn ví dụ âm hoặc ví dụ dương

Chúng ta cần một phép ño ñể xác ñịnh thuộc tính nào chokhả năng chia tốt hơn

Thuộc tính nào tốt hơn?

[29+, 36-] A1 = ? [29+, 36-] A2 = ?

[21+, 6-] [8+, 30-] [18+, 34-] [11+,2-]

Trang 14

Entropy(S) = số lượng mong ñợi các bit cần thiết ñể mã hóa một

lớp (+ hay – ) của một thành viên rút ra một cách ngẫu nhiên từ S

(trong trường hợp tối ưu, mã có ñộ dài ngắn nhất).

Theo lý thuyết thông tin: mã có ñộ dài tối ưu là mã gán –log2p

bits cho thông ñiệp có xác suất là p.

= c pi piS

Entropy ( ) log2

Θ Θ

⊕

−

= p p p p S

Entropy( ) log2 log2

Trang 15

( )

,

(

A Values v

v

S

Entropy S

S S

Entropy A

S Gain

[29+, 36-] A1 = ? [29+, 36-] A2 = ?

[21+, 6-] [8+, 30-] [18+, 34-] [11+,2-]

Trang 17

KG giả thuyết ñầy ñủ =>giả thuyết chắc chắn thuộc KG này

ðầu ra là một giả thuyết

(cây Qð) =>Cây nào?

Không thể chọn cây với 20 câu hỏi

Không quay lui => cực tiểu

ñịa phương

Lựa chọn tìm kiếm dựa trên thống kê => chịu ñược dữ liệu nhiễu

Thiên lệch quy nạp: thích cây ngắn hơn.

Trang 18

Chuy ể n cây v ề thành các lu ậ t

If (Quang-cảnh =nắng) ∧ (ðộ ẩm = Cao) Then Chơi-Tennis = No

If (Quang-cảnh =nắng) ∧ (ðộ ẩm = TB) Then Chơi-Tennis = Yes

If (Quang-cảnh =Âm u) Then Chơi-Tennis = Yes

No

Trang 19

Khi nào nên s ử d ụ ng cây Qð

Các ví dụ ñược mô tả bằng các cặp “thuộc tính – giá trị”, vd: Gió - mạnh, Gió - nhẹ

Kết quả phân loại là các giá trị rời rạc, vd: Yes, No

Dữ liệu rèn luyện có thể chứa lỗi (bị nhiễu)

Dữ liệu rèn luyện có thể thiếu giá trị thuộc tính

Ví dụ:

Phân loại bệnh nhân theo các bệnh của họ

Phân loại hỏng hóc thiết bị theo nguyên nhân

Phân loại người vay tiền theo khả năng chi trả

Trang 20

Table 13.1: Data from credit history of loan applications.

Trang 21

21

Trang 22

Figure :M ộ t cây Qð ñơ n gi ả n h ơ n.

Trang 23

23

Định dạng
Số trang	23
Dung lượng	536,67 KB