1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài Giảng Học Máy (Machine Learning)

23 1,4K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 536,67 KB

Nội dung

H ọ c Máy Machine Learning Học learning là bất cứ sự thay ñổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với nhiệm vụ khác

Trang 1

1

Trang 2

H ọ c Máy (Machine Learning)

 Học (learning) là bất cứ sự thay ñổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với nhiệm vụ khác từ cùng một quần thể ñó (Herbert Simon)

 Học liên quan ñến vấn ñề khái quát hóa từ kinh nghiệm (dữ

liệu rèn luyện) => bài toán quy nạp (induction)

 Vì dữ liệu rèn luyện thường hạn chế, nên thường khái quát

hóa theo một số khía cạnh nào ñó (heuristic) => tính thiên

lệch quy nạp (inductive bias)

 Có ba tiếp cận học:

 Các phương pháp học dựa trên ký hiệu (symbol-based): ID3

 Tiếp cận kết nối: Các mạng neuron sinh học

 Tiếp cận di truyền hay tiến hóa: giải thuật genetic

Trang 3

Cây quy ế t ñị nh (ID3)

 Là một giải thuật học ñơn giản nhưng thành công

 Cây quyết ñịnh (Qð) là một cách biểu diễn cho phép chúng ta xác

ñịnh phân loại của một ñối tượng bằng cách kiểm tra giá trị của một số

thuộc tính.

 Giải thuật có:

 ðầ u vào: Một ñối tượng hay một tập hợp các thuộc tính mô tả một

tình huống

 ðầ u ra: thường là quyết ñịnh yes/no, hoặc các phân loại.

 Trong cây quyết ñịnh:

 Mỗi nút trong biểu diễn một sự kiểm tra trên một thuộc tính nào ñó, mỗi giá trị có thể của nó tương ñương với một nhánh của cây

 Các nút lá thể hiện sự phân loại.

 Kích cỡ của cây Qð tùy thuộc vào thứ tự của các kiểm tratrên các thuộc tính

Trang 4

No

Trang 5

Quy n ạ p cây Qð t ừ các ví d ụ

 Ví dụ (hay dữ liệu rèn luyện cho hệ thống) gồm:

Giá trị của các thuộc tính + Phân loại của ví dụ

không Mạnh

Cao

ấm áp

Mưa D14

Có nhẹ

TB Nóng

Âm u D13

Có Mạnh

Cao

ấm áp

Âm u D12

Có Mạnh

TB

ấm áp

Nắng D11

Có nhẹ

TB

ấm áp

Mưa D10

Có nhẹ

TB Mát

Nắng D9

Không nhẹ

Cao

ấm áp

Nắng D8

Có Mạnh

TB Mát

Âm u D7

Không Mạnh

TB Mát

Mưa D6

Có nhẹ

TB Mát

Mưa D5

Có nhẹ

Cao

ấm áp

Mưa D4

Có Nhẹ

Cao Nóng

Âm u D3

Không Mạnh

Cao Nóng

Nắng D2

Cao

ðộ ẩ m

Không nhẹ

Nóng Nắng

D1

Chơi Tennis Gió

Nhiệt ñộ Quang cảnh

Ngày

Trang 6

Làm sao ñể h ọ c ñượ c cây Qð

 Tiếp cận ñơn giản

 Học một cây mà có một lá cho mỗi ví dụ

 Học thuộc lòng một cách hoàn toàn các ví dụ

 Có thể sẽ không thực hiện tốt trong các trường hợp

khác

 Tiếp cận tốt hơn:

 Học một cây nhỏ nhưng chính xác phù hợp với các vídụ

 Occam’s razor – cái ñơn giản thường là cái tốt nhất!

Giả thuyết có khả năng nhất là giả thuyết ñơn giản nhất thống nhất với tất cả các quan sát.

Trang 7

Xây d ự ng cây Qð : Trên - xu ố ng

Vòng lặp chính:

1. A <- thuộc tính quyết ñịnh tốt nhất cho nút kế

2. Gán A là thuộc tính quyết ñịnh cho nút

3. Với mỗi giá trị của A, tạo một nút con mới cho nút

4. Sắp xếp các ví dụ vào các nút lá

5. If các ví dụ ñã ñược phân loại ñúng, dừng ctr; Else lặp

lại trên mỗi nút lá mới

ðể phân loại một trường hợp, có khi cây Qð không

cần sử dụng tất cả các thuộc tính ñã cho, mặc dù nó

vẩn phân loại ñúng tất cả các ví dụ.

Trang 8

 Không còn thuộc tính nào (nhiễu)

 Quyết ñịnh dựa trên một luật nào ñó (luật ña số)

Trang 9

D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14

-:

D4, D5, D10 D6, D14

+:

-:

Cao Trung bình D3, D4, D12

D1, D2, D8, D14

+:

-:

D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14

+:

-:

Trang 10

Gi ó ? Yes

-:

D3, D4, D5, D7, D9, D10, D11, D12, D13 D1, D2, D6, D8, D14

+:

-:

Quang c ảnh?

D9, D11 D1, D2, D8

+:

-:

D3, D7, D12, D13 +:

-:

D4, D5, D10 D6, D14

-:

Trang 11

ID3 xây d ự ng cây Qð theo gi ả i thu ậ t sau:

Trang 12

ð ánh giá hi ệ u su ấ t

 Chúng ta muốn có một cây Qð có thể phân loại ñúng một

ví dụ mà nó chưa từng thấy qua

 Việc học sử dụng một “tập rèn luyện” (traning set), và

 Việc ñánh giá hiệu suất sử dụng một “tập kiểm tra” (test

set):

1 Thu thập một tập hợp lớn các ví dụ

2 Chia thành tập rèn luyện và tập kiểm tra

3 Sử dụng giải thuật và tập rèn luyện ñể xây dựng giả thuyết h (cây

Qð)

4 ðo phần trăm tập kiểm tra ñược phân loại ñúng bởi h

5 Lặp lại bước 1 ñến 4 cho các kích cỡ tập kiểm tra khác nhau ñược

chọn một cách nhẫu nhiên.

Trang 13

S ử d ụ ng lý thuy ế t thông tin

 Chúng ta muốn chọn các thuộc tính có thể giảm thiểu

chiều sâu của cây Qð

 Thuộc tính tốt nhất: chia các ví dụ vào các tập hợp chứatoàn ví dụ âm hoặc ví dụ dương

 Chúng ta cần một phép ño ñể xác ñịnh thuộc tính nào chokhả năng chia tốt hơn

Thuộc tính nào tốt hơn?

[29+, 36-] A1 = ? [29+, 36-] A2 = ?

[21+, 6-] [8+, 30-] [18+, 34-] [11+,2-]

Trang 14

 Entropy(S) = số lượng mong ñợi các bit cần thiết ñể mã hóa một

lớp (+ hay – ) của một thành viên rút ra một cách ngẫu nhiên từ S

(trong trường hợp tối ưu, mã có ñộ dài ngắn nhất).

 Theo lý thuyết thông tin: mã có ñộ dài tối ưu là mã gán –log2p

bits cho thông ñiệp có xác suất là p.

= c pi piS

Entropy ( ) log2

Θ Θ

= p p p p S

Entropy( ) log2 log2

Trang 15

( )

,

(

A Values v

v

v

S

Entropy S

S S

Entropy A

S Gain

[29+, 36-] A1 = ? [29+, 36-] A2 = ?

[21+, 6-] [8+, 30-] [18+, 34-] [11+,2-]

Trang 17

 KG giả thuyết ñầy ñủ =>giả thuyết chắc chắn thuộc KG này

 ðầu ra là một giả thuyết

(cây Qð) =>Cây nào?

Không thể chọn cây với 20 câu hỏi

 Không quay lui => cực tiểu

ñịa phương

 Lựa chọn tìm kiếm dựa trên thống kê => chịu ñược dữ liệu nhiễu

 Thiên lệch quy nạp: thích cây ngắn hơn.

Trang 18

Chuy ể n cây v ề thành các lu ậ t

If (Quang-cảnh =nắng) ∧ (ðộ ẩm = Cao) Then Chơi-Tennis = No

If (Quang-cảnh =nắng) ∧ (ðộ ẩm = TB) Then Chơi-Tennis = Yes

If (Quang-cảnh =Âm u) Then Chơi-Tennis = Yes

No

Trang 19

Khi nào nên s ử d ụ ng cây Qð

 Các ví dụ ñược mô tả bằng các cặp “thuộc tính – giá trị”, vd: Gió - mạnh, Gió - nhẹ

 Kết quả phân loại là các giá trị rời rạc, vd: Yes, No

 Dữ liệu rèn luyện có thể chứa lỗi (bị nhiễu)

 Dữ liệu rèn luyện có thể thiếu giá trị thuộc tính

Ví dụ:

 Phân loại bệnh nhân theo các bệnh của họ

 Phân loại hỏng hóc thiết bị theo nguyên nhân

 Phân loại người vay tiền theo khả năng chi trả

Trang 20

Table 13.1: Data from credit history of loan applications.

Trang 21

21

Trang 22

Figure :M ộ t cây Qð ñơ n gi ả n h ơ n.

Trang 23

23

Ngày đăng: 18/10/2015, 10:17

TỪ KHÓA LIÊN QUAN

w