mô hình trộn và cực đại kỳ vọng

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC ———————o0o——————– BÁO CÁO MÔN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH TÊN ĐỀ TÀI: MƠ HÌNH TRỘN VÀ CỰC ĐẠI KÌ VỌNG Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Nhóm sinh viên thực hiện: Nhóm 14 - Toán Tin - K61 Bùi Tiến Tùng 20164496 Vũ Mạnh Quang 20163332 Trần Quốc Huy 20161866 Hoàng Ngọc Doanh 20160629 HÀ NỘI, 04/2020 Mục lục Lời mở đầu 1 Mơ hình trộn cho phân lớp có giám sát 2 Mơ hình trộn cho phân lớp bán giám sát Tối ưu với thuật tốn cực đại kì vọng 10 Các giả thuyết với mơ hình trộn 13 Một số vấn đề với mơ hình sinh mẫu 16 Phương pháp phân cụm-gán nhãn 19 Kết luận 23 Tài liệu tham khảo 24 i Lời mở đầu Các liệu gán nhãn ln đóng vai trị vơ quạn trọng, sở để phương pháp học có giám sát học tham số mơ hình đưa lời giải cho nhiều toán học máy Tuy vậy, toán học bán giám sát, liệu gán nhãn lại chiếm số lượng ỏi, thay vào số lượng lớn liệu không gán nhãn Dữ liệu không gắn nhãn cho biết thông tin mẫu liệu từ tất lớp, trộn lẫn với nhau, phân phối Nếu tìm mẫu liệu lớp phân phối nào, phân rã phân phối hỗn hợp thành phân phối riêng lẻ, từ học đặc trưng liệu Đây ý tưởng đằng sau mơ hình trộn (mixture models) Trong báo cáo này, chúng em trình bày ý tưởng mơ hình hỗn hợp cho học tập bán giám sát khái niệm xác suất Chương Mơ hình trộn cho phân lớp có giám sát 1.1 Mơ hình sinh mẫu (generative model) Giả định rằng, có tập liệu thu thập từ nguồn liệu có phân phối Gaussian hình 1.1 Hình 1.1: Mơ hình trộn Gaussian thành phần Mặc dù biết liệu lấy từ hai phân phối Gaussian, tham số phân phối (trung bình, phương sai).Tuy nhiên, dựa vào liệu để ước tính tham số cho hai phân phối Một vấn đề ví dụ này, liệu gán nhãn thực chênh lệch: liệu gán nhãn bên phải giá trị trung bình phân phối (nhìn hình 1.1), nên dựa vào liệu gán nhãn để xác định tham số phân phối Mặt khác, liệu chưa gán nhãn lại giúp xác định giá trị trung bình hai phân Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc phối Gaussian Một cách tổng quát, gọi x mẫu lấy từ X Chúng ta cần dự đoán nhãn y x Để làm điểu này, phương pháp xác suất đề xuất với mục tiêu tối đa xác suất có điều kiện p(y|x) Xác suất p(x|y) xác suất để mẫu x có nhãn y với điều kiện x ∈ X Ta có    p(x|y) ∈ [0, 1]∀y    y p(x|y) = Để sai số việc phân lớp nhỏ nhất, chiến lược tốt phân lớp x vào lớp có khả yˆ với : yˆ = argmaxy p(y|x) (1.1) Cần ý có nhiều loại phân lớp khác với mục tiêu khác nhau, nên việc sử dụng mơ hình xác suất khơng phải tối ưu trường hợp không hiệu với số trường hợp phân lớp định Tuy nhiên việc xử lí vấn đề tối ưu xác suất thường lựa chọn tương đối đơn giản Trong ví dụ này, để tính tốn p(x|y), sử dụng mơ hình sinh mẫu (generative model), để đơn giản ta áp dụng luật Bayes: p(x|y) = p(x|y)p(y) y p(x|y )p(y ) (1.2) Trong đó: y p(x|y )p(y ) cơng thức xác suất nhóm đầy đủ, p(x|y) xác suất để x ∈ X với điều kiện x có nhãn y, p(y) xác suất để mẫu mang nhãn y(prior probability) Để dễ hình dung, xét ví dụ mối tương quan chiều cao, cân nặng giới tính, cụ thể đây, tìm cách để nhận biết giới tính người biết chiều cao, cân nặng người • Ta gọi x vector đặc trưng với giá trị (chiều cao, cân nặng), p(x|y) xác xuất để người x có giới tính nam nữ Ta có: p(y = nam|x) + p(y = nữ|x) = NSVTH: Nhóm 14 Tốn Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc • Xét giá trị xác suất có điều kiện p(x|y = nam) p(x|y = nữ) Các giá trị liên tục đặc trưng cho độ sai khác dự đốn giới tính thơng qua chiều cao, cân nặng • giá trị xác suất p(y = nam) p(y = nữ) tính tốn dựa số lượng nam, nữ toàn tập liệu Ngồi hồn tồn sinh (generate) cặp giá trị (x, y) từ phân phối xác suất, việc lặp lại bước dây: Lấy y ∼ p(y) Lấy x ∼ p(x|y) Ta gọi xác suất xảy đồng thời x y: p(x, y) = p(y)p(x|y) join distribution liệu nhãn Phân phối Gaussian nhiều chiều ví dụ generative model, thường áp dụng với giá trị liên tục vector đặc trưng x Xác suất có điều kiện p(x|y) xác định qua hàm mật độ phân phối Gaussian p(x|y) = N (x; µy , Σy ) = (2π)D/2 |Σy |1/2 exp(− (x − µy )T Σ−1 y (x − µy )) (1.3) Trong đó, µy Σy vecto trung bình ma trận hiệp phương sai liệu Có thê lấy ví dụ tác vụ cụ thể: Phân lớp ảnh (image classification), với x vector cho giá trị điểm ảnh Với hình ảnh thuộc lớp, có chung phân phối Gaussian nhiều chiều Khi đó, generative model mơ hình trộn Gaussian (Gaussian Mixture Model) Một ví dụ khác generative model phân phối đa thức: p(x = (x1 , , xd )|µy ) = ( D D i=1 xi )! x1 ! xD ! µxydd (1.4) d=1 Trong đó, µy vector xác suất, đại diện cho khả lựa chọn mơ hình cho vector đếm x Có thể lấy ví dụ việc phân loại văn bản, đó, x vector đại diện cho việc đếm số lượng từ văn (phương pháp Bag of Word) Khi đó, văn thuộc loại có chung phân phối đa thức, generative model lúc gọi mơ hình trộn đa thức (Multinomial Mixture Model) NSVTH: Nhóm 14 Tốn Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc Một ví dụ generative model mơ hình chuỗi Markov ẩn (Hidden Markov Models), thường sử dụng mơ hình với liệu chuỗi (sequence) Với điểm liệu generate từ trạng thái ẩn mà với phân phối xác suất Gaussian phân phối đa thức Quá trình học chuỗi Markov ẩn trình xác định phân phối xác suất các tham số ma trận xác suất chuyển trạng thái Từ đó, thấy, trạng thái ẩn chịu trách nhiệm cho việc generate liệu chuỗi Vậy bây giờ, biết, để tiến hành phân loại liệu bất kì, cần xác định p(x|y) p(y), nhiên, chưa biết giá trị này, cần học để lấy giá trị từ liệu huấn luyện • Xác suất có điều kiện p(x|y) thường xác định thông qua tham số mơ hình Ví dụ phân phối Gaussian, p(x|y) xác định qua vector trung bình µ ma trận hiệp phương sai Σ • Với p(y), có C lớp, cần xác định C - xác suất: p(y = 1), , P (y = C − 1) Xác suất p(y = C) xác định từ xác suất lại p(y = C) = − C−1 c=1 p(y = c) Ngoài ra, cần thêm biến θ để thể cho tham số p(x|y) p(y) Để rõ ràng, kí hiệu p(x|y, θ) p(y|θ) Quá trình huấn luyện trình tìm giá trị θ đủ tốt để mơ hình hợp lí Vậy làm để xác định điều ? 1.2 Ước lượng hợp lí cực đại Một tiêu chí phố biến để đánh giá định nghĩa mơ hình đủ tốt sử dụng Ước lượng hợp lí cực đại (Maximum Likelihood Estimate -MLE) Cho tập liệu huấn luyện D, giá trị θ xác định theo MLE sau: θˆ = argmaxθ p(D|θ) = argmaxθ logp(D|θ) (1.5) Có nghĩa là, MLE tiến hành xác định tham số dựa vào giá trị lớn p(D|θ) Tuy nhiên, để tính tốn khơng q phức tạp, thường làm việc với hàm logarit lgp(D|θ) thay trực tiếp với p(D|θ) Kết đạt hàm logarit đơn điệu, việc tính tốn đơn giản nhiều NSVTH: Nhóm 14 Toán Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc Trong việc học có giám sát, liệu huấn luyện có dạng D = {(xi , yi )}li=1 , việc xác định θ dựa MLE lại đơn giản Chúng ta viết lại hàm hợp lí sau: l l logp(yi |θ)p(xi |yi , θ) p(xi , yi |θ) = logp(D|θ) = log (1.6) i=1 i=1 Việc ước lượng giá trị θ trở thành toán tối ưu, xác định θ cho log likehood lớn Trong học có giảm sát giải pháp cho MLE thường đơn giản trực quan Ta xét ví dụ sau: MLE cho mơ hình trộn Gaussian với tất liệu gán nhãn Chúng ta xây dựng hàm ước lượng MLE cho mơ hình trộn Gaussian2 lớp với D = {(xi , yi )}li=1 Khi đó, thiết lập tốn tối ưu: θˆ = argmaxθ logp(D|θ) với j=1 p(yj |θ) (1.7) =1 Tiếp theo, sử dụng nhân tử Lagrange β phương trình Lagrange: ∧(θ, β) = logp(D|θ) − β( p(yj |θ) − 1) j=1 l p(xi , yi |θ) − β( = log i=1 p(yj |θ) − 1) j=1 l logp(yi |θ)p(xi |yi , θ) − β( = i=1 j=1 l = l logN (xi ; µyi , Σyi ) − β( logπi + i=1 p(yj |θ) − 1) i=1 πj − 1) j=1 Trong đó: • πj với j ∈ [1, 2] l cỏc giỏ tr class priors ã àj vi j ∈ [1, 2] vector trung bình phân phối Gaussian NSVTH: Nhóm 14 Tốn Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc • Σj với j ∈ [1, 2] ma trận hiệp phương sai phân phối Gaussian Chúng ta tính tốn đạo hàm biểu thức theo biến β, πj , sau tiến hành giải phương trình đạo hàm để xác định tham số Ta có ∂∧ = ∂β 2 πj − = ⇒ (1.8) πj = j=1 j=1 Rõ ràng, vai trò β lúc xác định ràng buộc class priors ∂∧ = ∂πj i:yi =j lj lj lj −β = − β = ⇒ pij = = πj πj β l (1.9) với lj số lượng mẫu liệu thuộc lớp j Có thể thấy đây, ước lượng hợp lí cực đại cho class priors đơn giản tỉ lệ liệu lớp so với tất liệu Tiếp theo, tìm giá trị trung bình µ lớp cách đạo ∂ T hàm Lagrange theo µj Kết hợp với biểu thức ∂v v Av = 2Av với v vector bất kì, A ma trận vng, ta có: ∂ ∂∧ = ∂µj ∂µj i:yi =j − (xi − µj )T Σ−1 j (xi − µj ) Σ− j 1(xi − µj ) = = i:yi =j => µj = lj (1.10) xi i:yi =j Ước lượng hợp lí cực đại cho giá trị trung bình µ gía trị trung bình liệu lấy mẫu Cuối ước lượng cho ma trận hiệp phương sai: Σ= NSVTH: Nhóm 14 lj (xi − µj )(xi − µj )T (1.11) i:yi =j Tốn Tin K61 Chương Mơ hình trộn cho phân lớp bán giám sát Trong học bám giám sát, tập D thường bao gồm liệu gán nhãn chưa gán nhãn Hàm hợp lí phụ thuộc vào phân phối hai loại liệu này, lí mà liệu chưa gán nhãn sử dụng để giúp trình học bán giám sát thu kết từ mơ hình trộn (mixed models) Tuy vậy, khơng phải tất mơ hình trộn ước lượng MLE Đó lí do, phần này, tìm hiểu phương pháp iteractive để tìm cực tiểu địa phương cho việc ước lượng tham số mơ hình: Thuật tốn cực đại kì vọng (EM algorithm) Do liệu luyện bao gồm liệu gán nhãn chưa gán nhãn, hàm log hợp lí định nghĩa sau: Với D = {(x1 , y1 ), , (xl , yl ), xl+1 , , xl+u } l+u l p(xi , yi |θ) logp(D|θ) = log i=1 p(xi |θ) i=l+1 l l+u logp(yi |θ)p(xi |yi , θ) + = (2.1) i=1 logp(xi |θ) (2.2) i=l+1 Điểm khác biệt rõ hàm log likehood học bán giám sát với hàm log likehood học có giám sát phần thứ công thức (2.2), đại diện cho phần liệu chưa gán nhãn Gọi p(x|θ) xác suất biên (marginal Chương Tối ưu với thuật tốn cực đại kì vọng Gọi tập quan sát D = {(x1 , y1 ), , (xl , yl ), xl+1 , , xl+u } Tập liệu ẩn H = yl+1 , , yl+u Dưới phần trình bày thuật tốn Cực đại kì vọng (EM) để ước lượng θ thỏa mãn tối đa giá trị p(D|θ) Thuật tốn cực đại kì vọng (EM Algorithm) tổng qt • Input: – Tập quan sát D – Tập liệu ẩn H – Khởi giá trị ban đầu θ(0) • Output: giá trị θ(t) chưa có nhãn yl+1 , , yl+u • Thuật tốn – Khởi tạo t = – 2.Lặp lại bước sau p(D|θ(t) ) hội tụ – E-step: Tính toán giá trị q (t) (H) ≡ p(H|D, θ(t) ) – M-step: Tìm giá trị θ(t+1) để làm cực đại giá trị hàm (t) (t+1) ) H q (H)logp(D, H|θ – t = t + 10 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc Có số điểm sau cần ý thuật tốn: • q (t) (H) đại diện cho phân phối nhãn ẩn Nó gắn cho liệu khơng có nhãn nhãn gọi "soft label" dựa theo giá trị θ(t) • Thuật toán EM cập nhật lại giá trị hàm log likehood sau vòng lặp, nhiên, kết hội tụ nghiệm tối ưu địa phương khơng đảm bảo nghiệm tồn cục • Việc khởi giá trị ban đầu θ(0) ảnh hưởng đến kết hội tụ sau thuật tốn Thơng thường, θ(0) khởi tạo dựa phần nhỏ liệu gán nhãn Tiếp theo, ta xét thuật toán EM với trường hợp cụ thể: mơ hình trộn Gauss (GMM) với biến ẩn Trong trường hợp này, tập liệu quan sát liệu gán nhãn chưa gán nhãn, tập liệu ẩn nhãn liệu chưa gán nhãn Chúng ta tiến hành sử dụng thuật toán EM để học tham số phân phối Gaussians Thuật tốn cực đại kì vọng (EM Algorithm) cho GMM • Input: tập D = {(x1 , y1 ), , (xl , yl ), xl+1 , , xl+u } ã Output: j àj , j j=1,2 ã Thut toán (0) – Khởi tạo t = θ(0) = {πj(0) , µ(0) j , Σj } – 2.Lặp lại bước sau p(D|θ(t) ) hội tụ – E-step: Với liệu chưa gán nhãn, (t) (t) γij ≡ p(yj |xi , θ ) = (t) (t) πj N (xi ; µj , Σj ) (t) (t) (t) k=1 πk N (xi ; µj , Σj ) (3.1) Với liệu gán nhãn: NSVTH: Nhóm 14 11 Tốn Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc γij =    0 (yi = j)   1 (yi = j) – M-step: Tìm giá trị θ(t+1) dựa vào giá trị γij Với j ∈ {1, 2}, l+u lj = (3.2) γij i=1 l+u µt+1 = j Σt+1 = j πjt+1 = lj lj γij xi (3.3) t+1 T γij (xi − µt+1 j )(xi − µj ) (3.4) i=1 l+u i=1 lj l+u (3.5) – t = t + Để ý rằng, thuật toán bắt đầu việc tìm MLE cho liệu gán nhãn trước Tiếp theo, bước E-step, tính tốn giá trị γ , tạm coi nhãn mẫu Tiếp theo, từ γ tính được, bước M-step, cập nhật giá trị tham số phân phối Thuật toán dừng hàm log likehood hội tụ Hàm log likehood mơ hình trộn phân phối Gauss có cơng thức sau: l l+u logπyi N (xi ; µyi , Σyi ) + logp(D|θ) = i=1 πyj N (xi ; µj , Σj ) log i=l+1 (3.6) j=1 Có thể thấy có tương đồng thuật tốn cực đại kì vọng (EM) trình tự huấn luyện (self-training) Thực tế, EM dạng self-training, đó, hệ số θ tiến hành gán nhãn cho tất liệu chưa có nhãn, cụ thể tất nhãn gán, với trọng số p(H|D, θ) Sau đó, sử dụng liệu không nhãn để cập nhật phân lớp thay sử dụng liệu gán nhãn NSVTH: Nhóm 14 12 Tốn Tin K61 Chương Các giả thuyết với mơ hình trộn Các mơ hình trộn cung cấp framework cho việc học bán giám sát, liệu khơng có nhãn giữ vai trò định Trong thực tế, việc học bán giám sát mang lại hiệu đáng kể mơ hình sinh mẫu (generative model) coi (gần) Chúng ta đưa giả định sau: Giả định mơ hình trộn: Tất liệu mơ hình trộn thỏa mãn: số lượng components, xác suất p(y) xác suất có điều kiện p(x|y) coi Mặc dù vậy, lại gặp khó khăn kiểm tra tính đắn mơ hình, lí khơng có đủ liệu gán nhãn Thơng thường, người ta lựa chọn mơ hình sinh mẫu (generative model) dựa kiến thức biết mối tương quan toán học Tuy nhiên, việc học bán giám sát sai, điều ảnh hưởng lớn đến hiệu dự đoán Trong trường hợp này, cách tốt sử dụng liệu gán nhãn áp dụng học có giám sát Ví dụ sau hậu việc mơ hình bán giám sát bị sai Giả sử, tập liệu bao gồm cụm chính, cụm thuộc lớp Hình 4.1 cho ta thấy hình ảnh trực quan cách phân bố liệu Đường phân lớp trường hợp là trục hồnh x2 = Tất nhiên, phân phối liệu phân phối chuẩn Do đó, giả sử phân phối mơ hình phân phối chuẩn, điều sai 13 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc Hình 4.1: Dữ liệu gồm lớp phân làm cụm Hình 4.2 biểu diễn mơ hình GMMs áp dụng lên liệu Trong đó, pannel (a), q trình học mơ hình với liệu không nhãn thật tốt, mà hàm log likehood có giá trị cao, vậy, đem dự đoán thực tế, kết đạt lại bị sai đến 50%.Ngược lại, với mơ hình bên panel (b), liệu dự đoán tốt hơn, nhiên bị phương pháp tối ưu kì vọng (EM) bỏ qua, có giá trị log likehood thấp Trong trường hợp này, việc dùng liệu có nhãn với học có giám sát phù hơn Nêú có liệu gán nhãn cụm bên trái cụm bên phải, q trình học có giám sát đưa hàm ranh giới y = -x, kết bị mắc 25% lỗi NSVTH: Nhóm 14 14 Toán Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc Hình 4.2: Ví dụ mơ hình giả định sai Có số cách để hàm hạn chế việc giả định sai mơ hình, cách số định nghĩa lại mơ hình để phù hợp với tác vụ tốt hơn, điều naỳ cần phụ thuộc nhiều vào kiến thức chuyên môn liên quan đến lĩnh vực xử lí Trong ví dụ trên, thay giả định tồn liệu tn theo phân phối Gauss, gỉa định lớp tuân theo phân phối Gauss Một cách khác giảm tính ảnh hưởng liệu khơng có nhãn lên mơ hình Cụ thể, đánh lại trọng số cho liệu hàm log likehood với trọng số λ < 1: l l+u logp(yi |θ)p(xi |yi , θ) + λ i=1 logp(xi |θ) (4.1) i=l+1 Khi λ → 0, việc học mơ hình khơng bị ảnh hưởng bới liệu khơng có nhãn, q trình học bám giám sát trở thành q trình học có giám sát NSVTH: Nhóm 14 15 Tốn Tin K61 Chương Một số vấn đề với mơ hình sinh mẫu Khi tìm cách định nghĩa mơ hình sinh mẫu (generative model), mong muốn mơ hình có tính xác định (identifiability) Một mơ hình gọi xác định nếu: p(x|θ1 ) = p(x|θ2 ) ↔ θ1 = θ2 tương ứng với thành phần mơ hình Theo đó, mơ hình gọi tương đương chúng khác thành phần 1, thành phần 2, , tức là, có mơ hình θ giải thích cho liệu khơng có nhãn Đây sở để hi vọng, kích thước liệu khơng nhãn tăng lên, việc tách thành phần trộn mơ hình trở nên dễ dàng Ví dụ, mơ hình GMMs xác định, mơ hình khác khơng Sau ví dụ mơ hình khơng xác định, lí mà khơng phù hợp với việc học bám giám sát Ví dụ mơ hình sinh mẫu khơng xác định: Giả sử mơ hình p(x|y) có phân phối đồng với y ∈ [−1, +1] Bây giờ, thử sử dụng học bán giám sát để học mơ hình trộn từ phân phối đồng Chúng ta đưa cho tập liệu lớn, với hầu hết liệu chưa gán nhãn, thứ biết p(x) đồng khoảng [0, 1] Có điểm gán nhãn điểm (0.1, -1) (0.9, +1) Câu hỏi đặt xác định nhãn cho điểm 0.5? Câu trả lời Với giả định chúng ta, 16 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc khơng thể phân biệt mơ hình sau: p(y = −1) = 0.2, p(x|y = −1) = unif(0, 0.2), p(x|y = 1) = unif(0.2, 1) (5.1) p(y = −1) = 0.6, p(x|y = −1) = unif(0, 0.6), p(x|y = 1) = unif(0.6, 1) (5.2) Cả mơ hình áp dụng với liệu gán nhãn liệu khơng có nhãn, với mơ hình đầu tiên, mơ hình dự đốn điểm x = 0.5 có nhãn y = 1, đó, mơ hình thứ lại dự đoán nhãn y = -1 Điều minh họa hình 5.1 Hình 5.1: Minh họa mơ hình khơng xác định Một vấn đề khác với mơ hình sinh mẫu nghiệm tối ưu địa phương (local optima) Thậm chí mơ hình xác định hàm log likehood tham số θ nói chung, khơng lõm (non-concave) Điều tạo nhiều tiếp điểm (bumps) bề mặt Tiếp điểm cao giá trị nghiệm tối ưu tồn cục, giá trị ước lượng cực đại hợp lí (MLE) Những tiếp điểm khác nghiệm tối ưu địa phương Thuật tốn EM dễ bị mắc kẹt nghiệm tối ưu địa phương dẫn đến việc kết thu có độ xác khơng cao Để tránh trường hợp nghiệm thu bị rơi vào nghiệm địa phương, cách thông thường sử dụng khởi tạo ngẫu nhiên giá trị θ(0) lặp lặp lại thao tác nhiều lần, lần giá trị khởi tạo khác Sau đó, tiến hành so sánh giá trị hội tụ hàm log likehood sau lần chạy Giá trị θ khiến cho giá trị log likehood cao chọn làm tham số cho mơ hình Tuy nhiên, việc khởi tạo ngẫu nhiên không thật giải NSVTH: Nhóm 14 17 Tốn Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc vấn đề nghiệm tối ưu địa phương mà làm giảm bớt khả nghiệm bị rơi vào nghiệm tối ưu địa phương Chọn giá trị θ(0) tốt phương pháp heuristic khác để tìm nghiệm tối ưu tồn cục việc đòi hỏi kiến thức hiểu biết chuyên môn Cuối cùng, cần ý rằng, mục tiêu việc tìm nghiệm tối ưu toàn cục thực chất cực đại giá trị hợp lí log likehood Phương pháp EM nhiều phương pháp để tìm nghiệm tối ưu, ngồi ra, cịn nhiều phương pháp khác kể đến phương pháp quasi-Newton L-BFGS NSVTH: Nhóm 14 18 Toán Tin K61 Chương Phương pháp phân cụm-gán nhãn Chúng ta sử dụng thuật toán EM để xác định thành phần trộn từ liệu chưa gán nhãn Nhắc lại chút thuật toán phân cụm thuật tốn học khơng giám sát, xác định cụm từ liệu chưa gán nhãn Điều dẫn đến ý tưởng cho thuật toán phân cụm-gán nhãn(cluster-then-label) cho toán phân lớp bán giám sát Thuật toán phân cụm-gán nhãn (Cluster-then-Label) • Input: – tập liệu có nhãn (x1 , y1 ), , (xl , yl ) – tập liệu chưa có nhãn xl+1 , , xl+u – thuật toán phân cụm A – thuật toán học giám sát L • Output: gán nhãn cho liệu chưa có nhãn yl+1 , , yl+u • Thuật toán – Phân cụm cho tập liệu x1 , , xl+u thuật toán A – Với cụm nhận được, gọi S tập liệu gán nhãn cụm – Nếu S không rỗng, tiến hành áp dụng thuật toán phân lớp L lên tập S để học hàm f(S)=L(S) Sau đó, áp dụng f(S) cho tồn tập liệu chưa gán nhãn cụm 19 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc – Nếu S rỗng, sử dụng thuật toán L lên toàn tập liệu gán nhãn Ở bước đầu tiên, sử dụng thuật toán phân cụm A qúa trình học khơng giám sát (Unsupervised Learning) để tách liệu thành cụm Tiếp theo, tiến hành sử dụng liệu gán nhãn cụm để từ đó, tiến hành sử dụng liệu để gán nhãn cho liệu lại cụm Ở A L thuật tốn phân cụm gán nhãn Điều đáng ý phân cụm-gán nhãn (cluster-then-label) không thiết u cầu mơ hình cần mơ hình trộn xác suất Dưới ví dụ cụ thể sau ví dụ việc sử dụng phương pháp Phân cụm-gán nhãn với • A thuật tốn Hierarchical Agglomerative Clustering (Phân cụm dựa phân cấp liên kết) • L thuật toán gán nhãn dựa voting cụm [Nhắc lại thuật tốn Hierarchical Agglomerative Clustering] • Input: – tập liệu train {xi }ni=1 – hàm khoảng cách d (thường khoảng cách Euclidean) • Output: Cây phân cụm nhị phân • Thuật tốn – Khởi tạo điểm liệu thuộc cụm (singleton cluster) – Xét vịng lặp, cịn nhiều cụm, xét ∗ Tìm minimize d(A B) ∗ Merge cụm A, B thành cụm [Phân cụm-gán nhãn dựa Hierarchical Agglomerative Clustering]: Trong ví dụ này, quay trở lại với vấn đề ví dụ mối tương quan chiều cao, cân nặng giới tính, tương tự Chapter NSVTH: Nhóm 14 20 Tốn Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc Hình 6.2: Biểu diễn liệu Đầu tiên, sử dụng Hierarchical Agglomerative Clustering với hàm khoảng cách Euclidean Do tất liệu gán nhãn gồm lớp chính, dừng thuật tốn số cụm giảm xuống cụm Bước tiến hành tìm kiếm nhãn trọng yếu cụm, sau đó, sử dụng nhãn để gán nhãn cho liệu lại cụm Ở đây, phân biệt chút khác Single linkage hierarchical agglomerative clustering (Phân cụm dựa phân cấp liên kết đơn) Complete linkage hierarchical agglomerative clustering (Phân cụm dựa phân cấp liên kết đầy đủ) Trong sử dụng liên kết đơn tạo cụm dài hẹp sử dụng liên kết đầy đủ tạo cụm có xu hướng tròn Dù vậy, trường hợp với liệu chiều cao, cân nặng khơng tồn nhãn trọng yếu cụm, việc gán nhãn phương pháp gán nhãn ngẫu nhiên cho liệu khơng nhãn NSVTH: Nhóm 14 21 Toán Tin K61 Hệ hỗ trợ định GVHD: TS Lê Chí Ngọc Hình 6.1: Kết phương pháp Phân cụm - gán nhãn với Single linkage hierarchical agglomerative clustering Hình 6.1: Kết phương pháp Phân cụm - gán nhãn với Complete linkage hierarchical agglomerative clustering Qua ví dụ này, ta thấy rằng, việc học bán giám sát nhạy cảm với giả định ban đầu liệu Trong trường hợp giả định ban đầu sai, kết thu tệ NSVTH: Nhóm 14 22 Tốn Tin K61 Kết luận Trong báo cáo này, chúng em giới thiệu lý thuyết mơ hình trộn thuật toán cực đại kỳ vọng (EM) cho việc học bán giám sát Chúng em xem xét số vấn đề phổ biến gặp phải sử dụng mơ hình sinh mẫu, hướng tiếp cận xử lí vấn đề Cuối cùng, chúng em trình bày cách tiếp cận tốn học bán giám sát,nhưng không theo theo hướng sử dụng phương pháp xác suất: phân cụm- gán nhãn Bằng cách sử dụng ý tưởng tương tự đằng sau mô hình trộn: liệu chưa gắn nhãn giúp xác định cụm không gian đầu vào tương ứng với lớp, Phân cụm-gán nhãn thực tỏ hiệu trường hợp giả định ban đầu xác 23 Tài liệu tham khảo [1] Xiaojin Zhu, Andrew B Goldberg, Introduction to Semi-Supervised Learning, Synthesis Lectures on Artificial Intelligence and Machine Learning, 2009 24 ... đầu 1 Mơ hình trộn cho phân lớp có giám sát 2 Mơ hình trộn cho phân lớp bán giám sát Tối ưu với thuật tốn cực đại kì vọng 10 Các giả thuyết với mơ hình trộn 13 Một số vấn đề với mơ hình sinh... hình trộn (mixed models) Tuy vậy, tất mô hình trộn ước lượng MLE Đó lí do, phần này, tìm hiểu phương pháp iteractive để tìm cực tiểu địa phương cho việc ước lượng tham số mô hình: Thuật tốn cực. .. mơ hình đầu tiên, mơ hình dự đốn điểm x = 0.5 có nhãn y = 1, đó, mơ hình thứ lại dự đốn nhãn y = -1 Điều minh họa hình 5.1 Hình 5.1: Minh họa mơ hình khơng xác định Một vấn đề khác với mơ hình

Định dạng
Số trang	26
Dung lượng	685,41 KB