Do đó, bài toàn chuyển từ tìm điểm giao của các đa tạp trở thành tìm một vùng có mật độ cao của các điểm dương và mật độ thấp của các điểm âm. Ngoài ra, không chỉ tìm vùng có mật độ cao mà còn tìm vùng có “Diverse Density” cao. Trong đó, Diverse Density của một điểm là độ đo của số các túi dương có các thể hiện gần điểm đó và khoảng cách từ điểm đó đến các thể hiện âm. Trong Hình 2.4 (b), vùng section B là vùng có mật độ cao nhưng điểm A lại có Diverse Density cao.
Ký hiệu các túi dương là 𝐵𝑖+, điểm thứ 𝑗𝑡ℎ trong túi 𝐵𝑖+ là 𝐵𝑖𝑗+ và giá trị của đặc trưng thứ 𝑘𝑡ℎ của điểm 𝐵𝑖𝑗+ là 𝐵𝑖𝑗𝑘+ . Ngược lại, 𝐵𝑖𝑗− biểu thị cho điểm âm. Giả sử, tồn tại một điểm “khái niệm đúng” (true concept) [8] ký hiệu là 𝑡. Mục tiêu là cực đại hóa xác suất DD(x) thông qua tất cả các điểm x trong không gian đặc trưng:
𝐷𝐷(𝑥) = Pr(𝑥 = 𝑡|𝐵1+, 𝐵2+, … , 𝐵𝑛+, 𝐵1+, 𝐵2+, … , 𝐵𝑚−) (2.2) Áp dụng công thức Bayes và giả sử biết phân phối xác suất tiên nghiệm Pr (t) cho điểm “khái niệm đúng”, việc cực đại hóa xác suất DD(x) tương đương với cực đại hóa hợp lí (khả năng):
Giả sử rằng, các túi độc lập có điều kiện với điểm 𝑡, khi đó giả thuyết tốt nhất là 𝑎𝑟𝑔𝑚𝑎𝑥𝑥∏ Pr (𝐵𝑖 𝑖+|𝑥 = 𝑡)∏ Pr (𝐵𝑖 𝑖−|𝑥 = 𝑡). Giả sử biết phân phối xác suất tiên nghiệm, áp dụng công thức Bayes một lần nữa, ta có cực đại hóa xác suất DD(x) tương đương với:
𝑎𝑟𝑔𝑚𝑎𝑥𝑥∏ Pr (𝑥 = 𝑡|𝐵𝑖 𝑖+)∏ Pr (𝑥 = 𝑡|𝐵𝑖 𝑖−) (2.4) Từ đó, ta có định nghĩa chung nhất của cực đại hóa Diverse Density. Để ước lượng được xác suất Pr (𝑥 = 𝑡|𝐵𝑖) , Maron và Lozano-Perez [8] đề xuất sử dụng ước lượng “noisy-or”:
Pr(𝑥 = 𝑡|𝐵𝑖+) = Pr(𝑥 = 𝑡|𝐵𝑖1+, 𝐵𝑖2+, … ) = 1 − ∏ (1 − Pr(𝑥 = 𝑡|𝐵𝑗 𝑖𝑗+)) (2.5) Ngược lại:
Pr(𝑥 = 𝑡|𝐵𝑖−) = ∏ (1 − Pr(𝑥 = 𝑡|𝐵𝑗 𝑖𝑗−)) (2.6) Để tính xác suất Pr(𝑥 = 𝑡|𝐵𝑖𝑗+), ta dựa vào phân phối xác suất tựa Gaussian giữa một thể hiện bất kỳ với một điểm tiềm năng liên quan đến khoảng cách giữa hai điểm, nên ta có:
Pr(𝑥 = 𝑡|𝐵𝑖𝑗) = exp(−‖𝐵𝑖𝑗 − 𝑥‖2) (2.7) Ta có thể thấy rằng, một trong các thể hiện trong một túi dương gần với 𝑥 = 𝑡 thì xác suất Pr(𝑥 = 𝑡|𝐵𝑖+) cao. Nếu mỗi túi dương có một thể hiện gần với 𝑥 và không có túi âm nào gần với 𝑥 thì 𝑥 có Diverse Density cao. Ngoài ra, Maron và Lozano-Perez bổ sung thêm mức độ quan trọng của các chiều trong không gian đặc trưng với vec tơ trọng số 𝑠𝑘, khi đó ta có:
‖𝐵𝑖𝑗 − 𝑥‖2 = ∑ 𝑠𝑘 𝑘2(𝐵𝑖𝑗𝑘 − 𝑥𝑘)2 (2.8) Giả định tất cả các túi giao tại một điểm đơn không còn cần thiết. Ví dụ, ta có cặp điểm “khái niệm đúng” được biểu diễn bằng một điểm hợp 𝑡𝑎⋁𝑡𝑏, ta cực đại hóa thông qua một cặp điểm 𝑥𝑎 và 𝑥𝑏, khi đó:
Pr(𝑥𝑎 = 𝑡𝑎⋁𝑥𝑏 = 𝑡𝑏|𝐵𝑖𝑗) = 𝑚𝑎𝑥𝑥𝑎,𝑥𝑏(Pr(𝑥𝑎 = 𝑡𝑎|𝐵𝑖𝑗) , Pr(𝑥𝑏 = 𝑡𝑏|𝐵𝑖𝑗)) (2.9) Vấn đề còn lại là, làm thế nào để tìm được điểm có Diverse Density cực đại. Maron và Lozano-Perez [8] đề suất sử dụng giải thuật tối ưu gradient ascent với nhiều điểm bắt đầu (từ mỗi điểm (thể hiện) trong mỗi túi dương), với hi vọng sẽ tìm ra được điểm cực đại toàn cục (điểm có Diverse Density cực đại). Nếu bắt
đầu thuật toán gradient ascent từ mỗi điểm dương thì một trong số các điểm dương đó có thể gần với điểm cực đại.
2.3.2. Phương pháp EM-DD
Phương pháp Expectation-Maximization Diversity Density (EM-DD) được hai tác giả Zhang và Goldman [11] đề xuất trên cơ sở phát triển từ phương pháp DD [9] cho gán nhãn nhị phân và gán nhãn số thực. Phương pháp EM-DD là sự kết hợp của thuật toán cực đại hóa kỳ vọng (Expectation-Maximization) cùng với thuật toán DD, trong đó thuật toán DD sử dụng ước lượng “most-likely-cause” [10] thay cho ước lượng “noisy-or” [9] đối với nhãn nhị phân.
Ký hiệu 𝐷 là tập dữ liệu đã được gán nhãn. 𝐷 bao gồm tập 𝑚 túi 𝐵 = {𝐵1, 𝐵2, … , 𝐵𝑚} và tập các nhãn 𝐿 = {𝑙1, 𝑙2, … , 𝑙𝑚}. Ta có tập 𝐷:
𝐷 = {< 𝐵1, 𝑙1 >, < 𝐵2, 𝑙2 >, … , < 𝐵𝑚, 𝑙𝑚 >} (2.10) Kí hiệu 𝐵𝑖 = {𝐵𝑖1, 𝐵𝑖2, … , 𝐵𝑖𝑛} là túi thứ 𝑖, 𝐵𝑖𝑗 là kí hiệu cho thể hiện thứ 𝑗𝑡ℎ của túi 𝐵𝑖. Giả sử các nhãn của các thể hiện trong túi 𝐵𝑖 là 𝑙𝑖1, 𝑙𝑖2, … , 𝑙𝑖𝑗, … , 𝑙𝑖𝑛. Với các nhãn nhị phân ta có 𝑙𝑖 = 𝑙𝑖1 ⋁ 𝑙𝑖2 ⋁ . . . ⋁ 𝑙𝑖𝑛, các nhãn là số thực ta có 𝑙𝑖 = max {𝑙𝑖1, 𝑙𝑖2, . . . , 𝑙𝑖𝑛}. Độ đo Diversity Density của điểm giả thuyết ℎ được định nghĩa như sau:
𝐷𝐷(ℎ) = Pr(ℎ|𝐷) = Pr (𝐷|ℎ)Pr (ℎ)
Pr (𝐷) =Pr(𝐵, 𝐿|ℎ)Pr(ℎ)
Pr(𝐵,𝐿) (2.11) Giả sử có phân phối xác suất tiên nghiệm trong không gian giả thuyết và các cặp < 𝐵𝑖, 𝑙𝑖 > độc lập với nhau. Áp dụng công thức Bayes, cực đại hóa hợp lí ℎ𝐷𝐷 ta có: arg max ℎ∈𝐻 Pr(𝐷|ℎ) = 𝑎𝑟𝑔 max ℎ∈𝐻 ∏ Pr(𝐵𝑖, 𝑙𝑖|ℎ) 𝑛 𝑖=1 = 𝑎𝑟𝑔 min ℎ∈𝐻 ∑𝑛𝑖=1(−𝑙𝑜𝑔 𝑃𝑟(𝑙𝑖|ℎ, 𝐵𝑖)) (2.12) Với các nhãn là có giá trị số thực, Zhang và Goldman ước lượng cho xác suất 𝑃𝑟(𝑙𝑖|ℎ, 𝐵𝑖) theo [2]:
𝑃𝑟(𝑙𝑖|ℎ, 𝐵𝑖) = 1 − |𝑙𝑖 − 𝐿𝑎𝑏𝑒𝑙(𝐵𝑖|ℎ)| (2.13) Trong đó 𝐿𝑎𝑏𝑒𝑙(𝐵𝑖|ℎ) là nhãn sẽ được gán cho 𝐵𝑖 nếu ℎ là giả thuyết đúng. Khi các nhãn có giá trị nhị phân (0 hoặc 1), thì ước lượng của xác suất 𝑃𝑟(𝑙𝑖|ℎ, 𝐵𝑖) chính là ước lượng “most-likely-cause” được Maron đề xuất trong [11]. Ngoài ra,
phương pháp DD [11] còn bổ sung thêm mức độ quan trọng của các chiều trong không gian đặc trưng với vec tơ trọng số 𝑠𝑛, giả sử điểm giả thuyết ℎ = {ℎ1, ℎ2, … , ℎ𝑛, 𝑠1, 𝑠2, … , 𝑠𝑛} ta có ước lượng cho nhãn 𝐿𝑎𝑏𝑒𝑙(𝐵𝑖|ℎ) của túi 𝐵𝑖: 𝐿𝑎𝑏𝑒𝑙(𝐵𝑖|ℎ) = max
𝑗 {𝑒𝑥𝑝 [− ∑𝑛𝑑=1(𝑠𝑑(𝐵𝑖𝑗𝑑 − ℎ𝑑))2]} (2.14) Với 𝑠𝑑 là trọng số của đặc trưng thứ 𝑑, ℎ𝑑 là giá trị của chiều thứ 𝑑 của điểm ℎ, 𝐵𝑖𝑗𝑑 là giá trị đặc trưng của thể hiện 𝐵𝑖𝑗 tại chiều thứ 𝑑.
Ký hiệu 𝑁𝐿𝐷𝐷(ℎ, 𝐷) = ∑𝑛𝑖=1(−𝑙𝑜𝑔(Pr (𝑙𝑖|ℎ, 𝐵𝑖))) là logarit nghịch đảo của DD. Cực đại hóa xác suất DD(x) tương đương với cực tiểu hóa 𝑁𝐿𝐷𝐷(ℎ, 𝐷). Phương pháp EM-DD được bắt đầu với một số điểm giả thuyết ℎ từ các túi dương. Sau đó thực hiện lặp đi lặp lại hai bước kết hợp EM và DD để tìm ra điểm giả thuyết có cực đại hóa hợp lí. Tại bước E, điểm giả thuyết hiện tại ℎ được dùng để lấy ra một thể hiện đại diện cho nhãn của túi từ mỗi túi. Ở bước M, ta sử dụng giải thuật tối ưu gradient ascent tương tự như trong phương pháp DD để tìm ra điểm giả thuyết mới ℎ′, sao cho tại điểm ℎ′ đạt cực đại hóa 𝐷𝐷(ℎ). Kết thúc bước cực đại hóa, ta thay điểm giả thuyết ℎ ban đầu bằng điểm giả thuyết mới ℎ′, rồi quay lại thực hiện bước E. Chi tiết mã giả của phương pháp EM-DD được miêu tả trong Hình 2.5.
Trong phương pháp DD [9], tất cả các thể hiện trong mỗi túi dương đều được sử dụng để tìm điểm có Diverse Density cực đại. Phương pháp EM-DD chỉ sử dụng các thể hiện trong 𝑘 ngẫu nhiên túi dương được chọn. Tại mỗi vòng lặp 𝑡, bước E sẽ chọn ra một tập các thể hiện. Sau đó, bước M sẽ tìm một điểm giả thuyết ℎ𝑡 và độ đo DD (𝑑𝑑𝑡) tương ứng. Tại vòng lặp 𝑡 + 1, nếu 𝑑𝑑𝑡+1 ≤ 𝑑𝑑𝑡 thì thuật toán dừng. Ngược lại, nếu 𝑑𝑑𝑡+1 > 𝑑𝑑𝑡 tức là ta sẽ có tập các thể hiện khác để tìm điểm giả thuyết mới. Do có hữu hạn tập các thể hiện và tập các thể hiện không được sử dụng lại ở bước E, nên thuật toán sẽ dừng sau một hữu hạn vòng lặp. Để đảm bảo tốc độ hội tụ của thuật toán EM, Zhang và Goldman có đưa thêm điều kiện dừng |𝑑𝑑1 − 𝑑𝑑0| < 0.01 ∗ 𝑑𝑑0 hoặc số vòng lặp lớn hơn 10.