Nhập môn trí tuệ nhân tạo | Tài liệu, cơ sở ngành CNTT

Tính (xác định) lại điểm trung tâm (centroid) dựa trên các quan sát hiện thời đang thuộc vào cụm này. end while[r]

(1)

Học Máy

(Machine Learning)

Viện Công nghệ thông tin Truyền thông

Ngô Văn Linh

(2)

Nội dung môn học: ◼ Giới thiệu chung

◼ Các phương pháp học không giám sát

◼ Giới thiệu phân cụm ◼ Phương pháp k-Means

◼ Online k-Means cho liệu lớn

◼ Các phương pháp học có giám sát

(3)

1 Hai toán học

◼ Học có giám sát (Supervised learning)

❑ Tập liệu học (training data) bao gồm quan sát (examples,

observations), mà quan sát gắn kèm với giá trị đầu

ra mong muốn.

❑ Ta cần học hàm (vd: phân lớp, hàm hồi quy, ) phù

hợp với tập liệu có

❑ Hàm học sau dùng để dự đốn cho quan sát

mới

◼ Học không giám sát (Unsupervised learning)

❑ Tập học (training data) bao gồm quan sát, mà quan sát

không có thơng tin nhãn lớp giá trị đầu mong muốn.

(4)

Ví dụ học không giám sát (1)

◼ Phân cụm (clustering)

❑ Phát cụm liệu, cụm tính chất,…

◼ Community detection

(5)

Ví dụ học không giám sát (2)

◼ Trends detection

❑ Phát xu hướng, thị yếu,…

(6)

2 Phân cụm

◼ Phân cụm (clustering)

❑ Đầu vào: tập liệu {x1, …, xM} khơng có nhãn (hoặc giá trị

đầu mong muốn)

❑ Đầu ra: cụm (nhóm) quan sát

◼ Một cụm (cluster) là tập quan sát

❑ Tương tự với (theo ý nghĩa, đánh giá đó) ❑ Khác biệt với quan sát thuộc cụm khác

(7)

Phân cụm

◼ Giải thuật phân cụm

• Dựa phân hoạch (Partition-based clustering) • Dựa tích tụ phân cấp (Hierarchical clustering) • Bản đồ tự tổ thức (Self-organizing map – SOM)

• Các mơ hình hỗn hợp (Mixture models)

• …

◼ Đánh giá chất lượng phân cụm (Clustering quality)

• Khoảng cách/sự khác biệt giữa cụm → Cần cực đại hóa

(8)

3 Phương pháp K-means

◼ K-means giới thiệu Lloyd năm 1957. ◼ Là phương pháp phân cụm phổ biến

phương pháp dựa phân hoạch (partition-based clustering)

◼ Biểu diễn liệu: D={x1,x2,…,xr}

•xi quan sát (một vectơ không gian n chiều)

◼ Giải thuật K-means phân chia tập liệu thành k cụm

• Mỗi cụm (cluster) có điểm trung tâm, gọi centroid

•k (tổng số cụm thu được) giá trị cho trước

(9)

k-Means: Các bước chính

Đầu vào: tập học D, số lượng cụm k, khoảng cách d(x,y)

• Bước 1. Chọn ngẫu nhiên k quan sát (được gọi hạt nhân – seeds) để sử dụng làm các điểm trung tâm ban đầu (initial centroids) k cụm.

• Bước 2. Lặp liên tục hai bước sau gặp điều kiện hội tụ (convergence criterion):

❑ Bước 2.1 Đối với quan sát, gán vào cụm (trong số k

cụm) mà có tâm (centroid) gần

❑ Bước 2.2 Đối với cụm, tính tốn lại điểm trung tâm

(10)

K-means(D, k)

D: Tập học

k: Số lượng cụm kết (thu được)

Lựa chọn ngẫu nhiên k quan sát tập D để làm điểm trung tâm ban đầu (initial centroids)

while not CONVERGENCE

for each xD

Tính khoảng cách từ x đến điểm trung tâm (centroid)

Gán x vào cụm có điểm trung tâm (centroid) gần x

end for

for each cụm

Tính (xác định) lại điểm trung tâm (centroid) dựa quan sát thời thuộc vào cụm

end while

(11)

(12)

K-means: Minh họa (2)

(13)

K-means: Điều kiện hội tụ Quá trình phân cụm kết thúc, nếu:

• Khơng có (hoặc có khơng đáng kể) việc gán lại quan sát vào cụm khác, hoặc

• Khơng có (hoặc có khơng đáng kể) thay đổi điểm trung tâm (centroids) cụm, hoặc

• Giảm khơng đáng kể tổng lỗi phân cụm:

▪ Ci: Cụm thứ i

▪ mi: Điểm trung tâm (centroid) cụm Ci

▪ d(x, mi): Khoảng cách (khác biệt) quan sát x điểm

 

= 

= k

i Ci

(14)

K-means: Điểm trung tâm, hàm khoảng cách

◼ Xác định điểm trung tâm: Điểm trung bình (Mean centroid)

• (vectơ) mi điểm trung tâm (centroid) cụm Ci

• |Ci| kích thước cụm Ci (tổng số quan sát Ci) ◼ Hàm khoảng cách: Euclidean distance

• (vectơ) mi điểm trung tâm (centroid) cụm Ci

• d(x,mi) khoảng cách x điểm trung tâm mi

  = i C i C x i x m 1

( ) ( )2 ( )2

2 2 1 ) ,

( x mi x mi xn min

(15)

K-means: hàm khoảng cách

◼ Hàm khoảng cách

❑ Mỗi hàm tương ứng với cách nhìn liệu ❑ Vô hạn hàm!!!

❑ Chọn hàm nào?

◼ Có thể thay độ đo

tương đồng

(16)

K-means: Các ưu điểm

◼ Đơn giản: dễ cài đặt, dễ hiểu

◼ Rất linh động: cho phép dùng nhiều độ đo khoảng cách

khác → phù hợp với loại liệu khác nhau.

◼ Hiệu (khi dùng độ đo Euclide)

• Độ phức tạp tính toán bước ~ O(r.k)

▪ r: Tổng số quan sát (kích thước tập liệu) ▪ k: Tổng số cụm thu

◼Thuật toán có độ phức tạp trung bình đa thức

(17)

K-means: Các nhược điểm (1)

◼ Số cụm k phải xác định trước

◼ Thường ta khơng biết xác !

◼ Giải thuật K-means nhạy cảm (gặp lỗi) với các quan sát

ngoại lai (outliers)

• Các quan sát ngoại lai quan sát (rất) khác biệt với tất quan sát khác

• Các quan sát ngoại lai lỗi q trình thu thập/lưu liệu

(18)

K-means: ngoại lai

(19)

Giải vấn đề ngoại lai

• Giải pháp 1: Trong q trình phân cụm, cần loại bỏ số

quan sát quá khác biệt với (cách xa) điểm trung tâm

(centroids) so với quan sát khác

─ Để chắn (không loại nhầm), theo dõi quan sát ngoại lai

(outliers) qua vài (thay 1) bước lặp phân cụm, trước định loại bỏ

• Giải pháp 2: Thực việc lấy ngẫu nhiên (random sampling) một tập nhỏ từ D để học K cụm

─ Do tập nhỏ tập liệu ban đầu, nên khả

ngoại lai (outlier) chọn nhỏ

(20)

◼ Giải thuật K-means phụ thuộc vào việc chọn điểm trung tâm ban

đầu (initial centroids)

1st centroid

(21)

K-means: Các hạt nhân ban đầu (1)

◼ Kết hợp nhiều kết phân cụm với → Kết tốt hơn!

(22)

K-means: Các hạt nhân ban đầu (2)

◼ Một cách chọn hạt nhân nên dùng:

❑ Lựa chọn ngẫu nhiên hạt nhân thứ (m1)

❑ Lựa chọn hạt nhân thứ (m2) xa tốt so với hạt nhân

thứ

❑ …

❑ Lựa chọn hạt nhân thứ i (mi) xa tốt so với hạt nhân

gần số {m1, m2, … , mi-1}

❑

(23)

◼ K-means (với khoảng cách Euclid) phù hợp với cụm

hình cầu.

◼ K-means không phù hợp để phát cụm (nhóm)

khơng có dạng hình cầu.

(24)

K-means: Tổng kết

◼ Mặc dù có nhược điểm trên, k-means

giải thuật phổ biến dùng để giải tốn phân cụm – tính đơn giản hiệu quả.

• Các giải thuật phân cụm khác có nhược điểm riêng ◼ So sánh hiệu giải thuật phân cụm

nhiệm vụ khó khăn (thách thức).

(25)

4 Online K-means ◼ K-means:

❑ Cần dùng toàn liệu bước lặp

❑ Do khơng thể làm việc liệu lớn (big data)

❑ Không phù hợp với luồng liệu (stream data, liệu đến liên

tục)

◼ Online K-means cải thiện nhược điểm K-means, cho

phép ta phân cụm liệu lớn, phân cụm luồng dữ liệu.

❑ Được phát triển từ K-means [Bottou, 1998]

(26)

Online K-means: ý tưởng

◼ K-means tìm K tâm cụm gán quan sát {x1, …, xM}

vào cụm cách cực tiểu hố hàm lỗi sau

❑ Trong w(xi) tâm gần với xi

◼ Online K-means cực tiểu hàm Q theo phương pháp leo

đồi dùng thông tin đạo hàm (gradient) Q

❑ Tuy nhiên bước lặp t ta lấy phần thông tin gradient, ❑ Phần gradient thu từ quan sát bước t Ví dụ:

Q(w) = || xi - w(xi) ||22 i=1

M

å

(27)

Online K-means: thuật toán

◼ Khởi tạo K tâm ban đầu

◼ Cập nhật tâm điểm liệu đến:

❑ Tại bước t, lấy quan sát xt .

❑ Tìm tâm wt gần với xt Sau cập nhật lại wt như sau:

◼ Chú ý: tốc độ học dãy hệ số dương nên

chọn thoả mãn điều kiện sau

wt+1 = wt +gt(xt -wt)

gt t= ¥

å = ¥; gt2

t= ¥

å < ¥

(28)

Online K-means: tốc độ học

◼ Một cách lựa chọn tốc độ học hay dùng:

◼ 𝜏, 𝜅 là số dương

◼ 𝜅  (0.5, 1] tốc độ lãng quên k càng lớn nhớ

quá khứ lâu; quan sát đóng góp vào mơ hình hơn.

(29)

Online K-means: tốc độ hội tụ

◼ Hàm Q giảm số lần lặp tăng lên. (so sánh phương pháp khác nhau)

200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 2000 2100 2200 2300 2400 2500 -20 -40 -60 -80 -100

KM Cost EM Cost

Q

Online K-means (hình trịn đen), K-means

(hình vng đen) Dùng phần Q’ để tối ưu hàm Q (hình trịn trắng), Dùng hết Q’ để tối ưu hàm Q

(30)

Tài liệu tham khảo

•Arthur, D., Manthey, B., & Rưglin, H (2011) Smoothed analysis of the k-means method Journal of the ACM

(JACM), 58(5), 19

•Bottou, Léon Online learning and stochastic

approximations On-line learning in neural networks 17 (1998)

•B Liu Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data Springer, 2006

•Lloyd, S., 1982 Least squares quantization in PCM IEEE Trans Inform Theory 28, 129–137 Originally as an

unpublished Bell laboratories Technical Note (1957)

•Jain, A K (2010) Data clustering: 50 years beyond K-means Pattern recognition letters, 31(8), 651-666

(31)

Câu hỏi ôn tập

◼ Làm để phân cụm tốt trường hợp cụm

khơng phân bố theo hình cầu?

Định dạng
Số trang	31
Dung lượng	1,13 MB