Phương pháp EM-DD

Phương pháp Expectation-Maximization Diversity Density (EM-DD) được hai tác giả Zhang và Goldman [11] đề xuất trên cơ sở phát triển từ phương pháp DD [9] cho gán nhãn nhị phân và gán nhãn số thực. Phương pháp EM-DD là sự kết hợp của thuật toán cực đại hóa kỳ vọng (Expectation-Maximization) cùng với thuật toán DD, trong đó thuật toán DD sử dụng ước lượng “most-likely-cause” [10] thay cho ước lượng “noisy-or” [9] đối với nhãn nhị phân.

Ký hiệu 𝐷 là tập dữ liệu đã được gán nhãn. 𝐷 bao gồm tập 𝑚 túi 𝐵 = {𝐵1, 𝐵2, … , 𝐵𝑚} và tập các nhãn 𝐿 = {𝑙1, 𝑙2, … , 𝑙𝑚}. Ta có tập 𝐷:

𝐷 = {< 𝐵1, 𝑙1 >, < 𝐵2, 𝑙2 >, … , < 𝐵𝑚, 𝑙𝑚 >} (2.10) Kí hiệu 𝐵𝑖 = {𝐵𝑖1, 𝐵𝑖2, … , 𝐵𝑖𝑛} là túi thứ 𝑖, 𝐵𝑖𝑗 là kí hiệu cho thể hiện thứ 𝑗𝑡ℎ của túi 𝐵𝑖. Giả sử các nhãn của các thể hiện trong túi 𝐵𝑖 là 𝑙𝑖1, 𝑙𝑖2, … , 𝑙𝑖𝑗, … , 𝑙𝑖𝑛. Với các nhãn nhị phân ta có 𝑙𝑖 = 𝑙𝑖1 ⋁ 𝑙𝑖2 ⋁ . . . ⋁ 𝑙𝑖𝑛, các nhãn là số thực ta có 𝑙𝑖 = max {𝑙𝑖1, 𝑙𝑖2, . . . , 𝑙𝑖𝑛}. Độ đo Diversity Density của điểm giả thuyết ℎ được định nghĩa như sau:

𝐷𝐷(ℎ) = Pr(ℎ|𝐷) = Pr (𝐷|ℎ)Pr (ℎ)

Pr (𝐷) =Pr(𝐵, 𝐿|ℎ)Pr(ℎ)

Pr(𝐵,𝐿) (2.11) Giả sử có phân phối xác suất tiên nghiệm trong không gian giả thuyết và các cặp < 𝐵𝑖, 𝑙𝑖 > độc lập với nhau. Áp dụng công thức Bayes, cực đại hóa hợp lí ℎ𝐷𝐷 ta có: arg max ℎ∈𝐻 Pr(𝐷|ℎ) = 𝑎𝑟𝑔 max ℎ∈𝐻 ∏ Pr(𝐵𝑖, 𝑙𝑖|ℎ) 𝑛 𝑖=1 = 𝑎𝑟𝑔 min ℎ∈𝐻 ∑𝑛𝑖=1(−𝑙𝑜𝑔 𝑃𝑟(𝑙𝑖|ℎ, 𝐵𝑖)) (2.12) Với các nhãn là có giá trị số thực, Zhang và Goldman ước lượng cho xác suất 𝑃𝑟(𝑙𝑖|ℎ, 𝐵𝑖) theo [2]:

phương pháp DD [11] còn bổ sung thêm mức độ quan trọng của các chiều trong không gian đặc trưng với vec tơ trọng số 𝑠𝑛, giả sử điểm giả thuyết ℎ = {ℎ1, ℎ2, … , ℎ𝑛, 𝑠1, 𝑠2, … , 𝑠𝑛} ta có ước lượng cho nhãn 𝐿𝑎𝑏𝑒𝑙(𝐵𝑖|ℎ) của túi 𝐵𝑖: 𝐿𝑎𝑏𝑒𝑙(𝐵𝑖|ℎ) = max

𝑗 {𝑒𝑥𝑝 [− ∑𝑛𝑑=1(𝑠𝑑(𝐵𝑖𝑗𝑑 − ℎ𝑑))2]} (2.14) Với 𝑠𝑑 là trọng số của đặc trưng thứ 𝑑, ℎ𝑑 là giá trị của chiều thứ 𝑑 của điểm ℎ, 𝐵𝑖𝑗𝑑 là giá trị đặc trưng của thể hiện 𝐵𝑖𝑗 tại chiều thứ 𝑑.

Ký hiệu 𝑁𝐿𝐷𝐷(ℎ, 𝐷) = ∑𝑛𝑖=1(−𝑙𝑜𝑔(Pr (𝑙𝑖|ℎ, 𝐵𝑖))) là logarit nghịch đảo của DD. Cực đại hóa xác suất DD(x) tương đương với cực tiểu hóa 𝑁𝐿𝐷𝐷(ℎ, 𝐷). Phương pháp EM-DD được bắt đầu với một số điểm giả thuyết ℎ từ các túi dương. Sau đó thực hiện lặp đi lặp lại hai bước kết hợp EM và DD để tìm ra điểm giả thuyết có cực đại hóa hợp lí. Tại bước E, điểm giả thuyết hiện tại ℎ được dùng để lấy ra một thể hiện đại diện cho nhãn của túi từ mỗi túi. Ở bước M, ta sử dụng giải thuật tối ưu gradient ascent tương tự như trong phương pháp DD để tìm ra điểm giả thuyết mới ℎ′, sao cho tại điểm ℎ′ đạt cực đại hóa 𝐷𝐷(ℎ). Kết thúc bước cực đại hóa, ta thay điểm giả thuyết ℎ ban đầu bằng điểm giả thuyết mới ℎ′, rồi quay lại thực hiện bước E. Chi tiết mã giả của phương pháp EM-DD được miêu tả trong Hình 2.5.

Trong phương pháp DD [9], tất cả các thể hiện trong mỗi túi dương đều được sử dụng để tìm điểm có Diverse Density cực đại. Phương pháp EM-DD chỉ sử dụng các thể hiện trong 𝑘 ngẫu nhiên túi dương được chọn. Tại mỗi vòng lặp 𝑡, bước E sẽ chọn ra một tập các thể hiện. Sau đó, bước M sẽ tìm một điểm giả thuyết ℎ𝑡 và độ đo DD (𝑑𝑑𝑡) tương ứng. Tại vòng lặp 𝑡 + 1, nếu 𝑑𝑑𝑡+1 ≤ 𝑑𝑑𝑡 thì thuật toán dừng. Ngược lại, nếu 𝑑𝑑𝑡+1 > 𝑑𝑑𝑡 tức là ta sẽ có tập các thể hiện khác để tìm điểm giả thuyết mới. Do có hữu hạn tập các thể hiện và tập các thể hiện không được sử dụng lại ở bước E, nên thuật toán sẽ dừng sau một hữu hạn vòng lặp. Để đảm bảo tốc độ hội tụ của thuật toán EM, Zhang và Goldman có đưa thêm điều kiện dừng |𝑑𝑑1 − 𝑑𝑑0| < 0.01 ∗ 𝑑𝑑0 hoặc số vòng lặp lớn hơn 10.

Hình 2.5: Mã giả của phương pháp EM-DD [11]

Trong mã giả của phương pháp EMDD (Hình 2.5), 𝑘 là số túi khác nhau được sử dụng cho khởi đầu của phương pháp EMDD. Xác suất Pr(𝐵𝑖𝑗𝜖ℎ) được tính như sau:

Pr(𝐵𝑖𝑗𝜖ℎ) = 𝑒𝑥𝑝 [− ∑𝑛𝑑=1(𝑠𝑑(𝐵𝑖𝑗𝑑 − ℎ𝑑))2] (2.15) Xác suất Pr(𝑙𝑖 | ℎ, 𝑝𝑖∗) được tính bằng:

hoặc

Pr(𝑙𝑖 | ℎ, 𝑝𝑖∗) = 𝑒𝑥𝑝[−(𝑙𝑖 − 𝑃𝑟(𝑝𝑖∗𝜖ℎ))2] (2.17) Xác suất 𝑃𝑟(𝑝𝑖∗𝜖ℎ) được tính như sau:

𝑃𝑟(𝑝𝑖∗𝜖ℎ) = max

𝐵𝑖𝑗𝜖𝐵𝑖Pr (𝐵𝑖𝑗𝜖ℎ) (2.18)

Môi trường và các công cụ