Phân cụm dựa vào mô hình

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan (Trang 31 - 34)

Phân cụm dựa vào mô hình (model-base clustering)xuất phát từ ý tưởng cho rằng, mỗi cụm dữ liệu được sinh ra bởi một phân phối xác suất nào đó. Ta giả sử tập dữ liệu D = {X1,…,XN} có K cụm: c1,…,cK, chúng ta xem rằng, cụm thứ k (k = 1,…,K) được sinh ra bởi hàm mật độ xác suất pK(X/𝜃𝐾), trong đó 𝜃𝐾 là véctơ tham biến của phân phối, và toàn bộ tập dữ liệu D được sinh ra bởi hàm mật độ

Trong đó, 𝜋𝐾 là các hệ số sao cho 𝜋𝐾 ≥ 0 và ∑𝐾𝐾=1𝜋𝐾 = 1. Hàm mật độ (1.53) được gọi là mật độ hỗn hợp (finite mixture density). Có thể xem mật độ hỗn hợp như mô hình biến ẩn. Ta đưa vào các biến ẩn z nhận K giá trị là các nhãn cụm c1,…,cK, nó nhận giá trị cK nếu dữ liệu thuộc cụm cK. Khi đó, mật độ sinh ra tập dữ liệu có thể biểu diễn thành:

𝑝(𝑋) = ∑ 𝑃(𝑧 = 𝑐𝐾)𝑝(𝑋 𝑧⁄ = 𝑐𝐾) = ∑ 𝑃(𝑐𝐾)𝑝(𝑋 𝑐⁄ )𝐾

𝐾

𝐾=1 𝐾

𝐾=1

Như vậy, 𝜋𝐾 = P(cK) = P(z = cK) là xác suất để một dữ liệu thuộc cụm cK; còn 𝑝𝐾(𝑋 𝜃⁄ 𝐾)= 𝑝(𝑋 𝑐⁄ )𝐾 = 𝑝(𝑋 𝑧⁄ = 𝑐𝐾) là phân phối xác suất của các dữ liệu thuộc cụm cK, ta gọi là phân phối thành phần thứ k của phân phối hỗn hợp. Nếu chúng ta biết mật độ hỗn hợp sinh ra tập dữ liệu, thì từ công thức Bayes ta có:

𝑃(𝑐𝐾

𝑋 ⁄ ) =

𝜋𝐾𝑝𝐾(𝑋 𝜃⁄ 𝐾) ∑𝐾𝐾=1𝜋𝐾𝑝𝐾(𝑋 𝜃⁄ 𝐾)

Đây là xác suất để dữ liệu X thuộc cụm cK. Ta đặt

𝑝𝑘𝑛 = 𝑃 (𝑐𝐾

𝑋𝑛

⁄ ) (𝐾 = 1, … , 𝐾; 𝑛 = 1, … , 𝑁) (1.11)

Bởi vì pkn là xác suất để dữ liệu Xnthuộc cụm cK, do đó {pkn} xác định một phân cụm mềm của tập dữ liệu D.

Khi các phân phối thành phần là phân phối Gaus, ta có mô hình hỗn hợp Gaus. Giả sử phân phối thành phần thứ k là phân phối Gaus với kỳ vọng 𝜇𝑘 và ma trận covariance Σ𝑘: N(X/𝜇𝑘, Σ𝑘), khi đó phân phối hỗn hợp Gaus có dạng:

𝑝(𝑋 𝜃⁄ ) = ∑𝐾𝐾=1𝜋𝐾𝑁(𝑋 𝜇⁄ 𝑘,Σ𝑘)

Trong đó, 𝜃 = (𝜋, 𝜇, Σ) với 𝜋 = (𝜋1, … , 𝜋𝑘); 𝜇 =

(𝜇1, … , 𝜇𝐾); Σ = (Σ1, … , Σ𝐾) là tham biến của phân phối. Phân phối hỗn hợp Gaus được phổ biến rộng rãi nhất cho mục đích phân cụm dữ liệu. Khi đã lựa chọn hỗn hợp Gaus, chúng ta cần đánh giá vectơ tham biến 𝜃 = (𝜋, 𝜇, Σ) từ tập dữ liệu. Có

(1.9)

(1.10)

nhiều cách tiếp cận để đánh giá các tham biến của hỗn hợp Gaus, phổ biến nhất vẫn là thuật toán EM.

Thuật toán EM cho phân cụm

Inputs:Tập dữ liệu D = {X1,…,XN}; số cụm K;

Outputs: phân cụm mềm {pkn/K = 1,…,K; n = 1,…,N}

 Khởi tạo các tham biến

𝜋 = (𝜋1, … , 𝜋𝑘); 𝜇 = (𝜇1, … , 𝜇𝐾); Σ = (Σ1, … , Σ𝐾);

 (Bước lặp) thực hiện hai bước sau cho tới khi hội tụ:

Bước E: 𝑝𝑘𝑛 ← 𝑃(𝑐𝐾⁄ , 𝜃) =𝑋 𝜋𝐾𝑁(𝑋 𝜇⁄ 𝑘,Σ𝑘) ∑𝐾𝐾=1𝜋𝐾𝑁(𝑋 𝜇⁄ 𝑘,Σ𝑘) (1.13) (𝑘 = 1, … , 𝐾; 𝑛 = 1, … , 𝑁) Bước M: 𝑁𝐾 ← ∑𝑁𝑛=1𝑝𝑘𝑛 (1.14) 𝜋𝑘 ← 𝑁𝑘 𝑁 (𝐾 = 1, … , 𝐾) (1.15) 𝜇𝑘 ← ∑𝑁𝑛=1𝑝𝑘𝑛𝑋𝑛 𝑁𝑘 (𝐾 = 1, … , 𝐾) (1.16) Σ𝑘 ← 1 𝑁𝑘∑𝑁𝑛=1𝑝𝑘𝑛(𝑋𝑛− 𝜇𝑘)′(𝑋𝑛 − 𝜇𝑘) (1.17) (𝑘 = 1, … , 𝐾)

Trong phân cụm dựa vào mô hình hỗn hợp Gaus, hình dạng và kích cỡ của các cụm phụ thuộc vào ma trận convariance Σ𝑘.

Cũng như K-Means, nhượcđiểm lớn nhất của phân cụm dựa vào mô hình hỗn hợp Gaus là ta cần biết trước số cụm K, và kết quả phụ thuộc vào việc khởi tạo các tham biến ban đầu. Tuy nhiên, với phân cụm dựa vào mô hình hỗn hợp Gaus thì việc lựa chọn số cụm K có thể quy về việc lựa chọn mô hình, và cụ thể là sử dụng tiêu chuẩn thông tin Bayes BIC, ta sẽ chọn K cho BIC lớn nhất. Cũng cần lưu ý rằng, ngoài mô hình hỗn hợp Gaus, một số mô hình hỗn hợp khác đã được đề xuất.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan (Trang 31 - 34)

Tải bản đầy đủ (PDF)

(62 trang)