Phương pháp EM-DD

Phương pháp Expectation-Maximization Diversity Density (EM-DD) được hai tác giả Zhang và Goldman [11] đề xuất trên cơ sở phát triển từ phương pháp AD [9] cho gán nhãn nhị phân và gán nhãn số thực. Phương pháp EM-DD là sự kết hợp của thuật toán cực đại hóa kỳ vọng (Expectation-Maximization) cùng với thuật toán DD, trong đó thuật toán DD sử dụng ước lượng “most-likely- cause” [10] thay cho ước lượng “noisy-or” [9] đối với nhãn nhị phân.

Ký hiệu là tập dữ liệu đã được gán nhãn. bao gồm tập túi =

{ 1, 2, … , } và tập các nhãn = { 1, 2, … , }. Ta có tập :

={< 1, 1

Kí hiệu= { 1, 2, … , } là túi thứ , là kí hiệu cho thểhiện thứ ℎ của túi . Giả sử các nhãn của các thể hiện trong túi là

Với các nhãn nhị phân ta có

max{ 1, 2, . . . , }.Độ đoDiversity Density của điểm giảthuyết ℎ được địnhnghĩa như sau:

(ℎ) = Pr(ℎ| ) =

Giả sử có phân phối xác suất tiên nghiệm trong không gian giả thuyết và

các cặp < , > độc lập với nhau. Áp dụng công thức Bayes, cực đại hóa hợp lí ℎ ta có:

arg max Pr( |ℎ) = max ∏ Pr( , |ℎ)

ℎ∈

Với các nhãn là có giá trị số thực, Zhang và Goldman ước lượng cho xác suất ( |ℎ, ) theo [2]:

( |ℎ, ) = 1 − | − ( |ℎ)|

Trong đó ( |ℎ) là nhãn sẽ được gán cho nếu ℎ là giả thuyết đúng.

Khi các nhãn có giá trị nhị phân (0 hoặc 1), thì ước lượng của xác suất ( |ℎ, ) chính là ước lượng “most-likely-cause” được Maron đề xuất trong [11]. Ngoài ra,

phương pháp DD [11] còn bổ sung thêm mức độ quan trọng của các chiều trong không gian đặc trưng với vec tơ trọng số , giả sử điểm giả thuyết ℎ ={ℎ1, ℎ2, … , ℎ , 1, 2, … , } ta cóước lượng cho nhãn ( |ℎ) của túi :

( |ℎ) = max { [− ∑

Vớilà trọng số của đặc trưng thứ , ℎ là giá trị của chiều thứ của

điểm ℎ,là giá trị đặc trưng của thể hiệntại chiều thứ .

Ký hiệu (ℎ, ) = ∑

của DD. Cực đại hóa xác suất DD(x) tương đương với cực tiểu hóa (ℎ, ).

Phương pháp EM-DD được bắt đầu với một số điểm giả thuyết ℎ từ các túi dương. Sau đó thực hiện lặp đi lặp lại hai bước kết hợp EM và DD để tìm ra điểm giả thuyết có cực đại hóa hợp lí. Tại bước E, điểm giả thuyết hiện tại ℎ được dùng để lấy ra một thể hiện đại diện cho nhãn của túi từ mỗi túi. Ở bước M, ta sử dụng giải thuật tối ưu gradient ascent tương tự như trong phương pháp DD để tìm ra điểm giả thuyết mới ℎ′, sao cho tại điểm ℎ′ đạt cực đại

hóa (ℎ). Kết thúc bước cực đại hóa, ta thay điểm giả thuyết ℎ ban đầu bằng điểm giả thuyết mới ℎ′, rồi quay lại

thực hiện bước E. Chi tiết mã giả của phương pháp EM-DD được miêu tả trong Hình 2.5.

Trong phương pháp DD [9], tất cả các thể hiện trong mỗi túi dương đều được sử dụng để tìm điểm có Diverse Density cực đại. Phương pháp EM-DD chỉ sử dụng các thể hiện trong ngẫu nhiên túi dương được chọn. Tại mỗi vòng lặp , bước E sẽ chọn ra một tập các thể hiện. Sau đó, bước M sẽ tìm một điểm giả

thuyết ℎ và độ đo DD ( ) tương ứng. Tại vòng lặp + 1, nếu +1≤ thì thuật toán dừng. Ngược lại, nếu +1> tức là ta sẽ có tập các thể hiện khác để tìm điểm giả thuyết mới. Do có hữu hạn tập các thể hiện và tập các thể hiện không được sử dụng lại ở bước E, nên thuật toán sẽ dừng sau một hữu hạn vòng lặp. Để đảm bảo tốc độ hội tụ của thuật toán EM, Zhang và Goldman có đưa thêm điều kiện dừng |1−0| < 0.01 ∗0 hoặc số vòng lặp lớn hơn 10.

Hình 2.5: Mã giả của phương pháp EM-DD [11]

Trong mã giả của phương pháp EMDD (Hình 2.5), là số túi khác nhau được sử dụng cho khởi

đầu của phương pháp EMDD. Xác suất Pr( ℎ) được tính như sau:

Pr( ℎ) = [− ∑

Xác suất Pr( | ℎ, ∗) được tính bằng:

hoặc

Pr( | ℎ, ∗) = [−(

Xác suất ( ∗ ℎ) được tính như sau:

( ∗ ℎ) =

Môi trường và các công cụ