Phương pháp DD

Phương pháp Diverse Density (mật độ đa dạng - DD) được Maron và Lozano-Perez [9] đề xuất năm 1998 để ứng dụng vào nhận dạng một người từ một tập các ảnh (trong đó, các ảnh được gán nhãn dương khi có người đó trong bức ảnh, ngược lại thì được gán nhãn âm) và cho vấn đề lựa chọn cổ phiếu.

Maron và Lozano-Perez [9] đề xuất phương pháp DD với ví dụ về một phân tử thuốc trong dự báo hoạt tính của thuốc. Giả sử rằng, hình dạng của một phân tử ứng cử viên được biểu diễn bởi một vec tơ đặc trưng. Do đó, một thể hiện của phân tử thuốc được biểu diễn bằng một điểm trong không gian đặc trưng n chiều. Khi phân tử thuốc thay đổi hình dạng, chúng sẽ sinh ra một đa tạp trong không gian đặc trưng n chiều. Hình 2.4 (a) mô tả đường đi của bốn phân tử trong không gian đặc trưng hai chiều. Nếu phân tử ứng cử viên được gán nhãn dương, thì ta có thể biết rằng ít nhất có một điểm của đa tạp, mà ở đó hình dạng của phân tử phù hợp với protein đích (đa tạp dương). Ngược lại, phân tử dược gán nhãn âm khi

không có hình dạng nào phù hợp với protein đích (đa tạp âm). Câu hỏi đặt ra là làm thế nào xác định được vị trí của phân tử trong không gian đặc trưng mà tại đó hình dạng của phân tử phù hợp với protein đích? Câu trả lời chính là tại điểm giao của các đa tạp dương và không giao với bất kỳ đa tạp âm nào. Ví dụ, trong Hình 2.4 (a), điểm A là điểm giao của các đa tạp dương và không giao với đa tạp âm nào. Trong các nghiên cứu về dự báo hoạt tính thuốc, các đa tạp là không liên tục. Do vậy Hình 2.4 (a) thành Hình 2.4 (b).

Hình 2.4: Ví dụ một điểm có Diverse Density [8]

Do đó, bài toàn chuyển từ tìm điểm giao của các đa tạp trở thành tìm một vùng có mật độ cao của các điểm dương và mật độ thấp của các điểm âm. Ngoài ra, không chỉ tìm vùng có mật độ cao mà còn tìm vùng có “Diverse Density” cao. Trong đó, Diverse Density của một điểm là độ đo của số các túi dương có các thể hiện gần điểm đó và khoảng cách từ điểm đó đến các thể hiện âm. Trong Hình 2.4 (b), vùng section B là vùng có mật độ cao nhưng điểm A lại có Diverse Density cao.

Ký hiệu các túi dương là 𝐵𝑖+, điểm thứ 𝑗𝑡ℎ trong túi 𝐵𝑖+ là 𝐵𝑖𝑗+ và giá trị của đặc trưng thứ 𝑘𝑡ℎ của điểm 𝐵𝑖𝑗+ là 𝐵𝑖𝑗𝑘+ . Ngược lại, 𝐵𝑖𝑗− biểu thị cho điểm âm. Giả sử, tồn tại một điểm “khái niệm đúng” (true concept) [8] ký hiệu là 𝑡. Mục tiêu là cực đại hóa xác suất DD(x) thông qua tất cả các điểm x trong không gian đặc trưng:

𝐷𝐷(𝑥) = Pr(𝑥 = 𝑡|𝐵1+, 𝐵2+, … , 𝐵𝑛+, 𝐵1+, 𝐵2+, … , 𝐵𝑚−) (2.2) Áp dụng công thức Bayes và giả sử biết phân phối xác suất tiên nghiệm Pr (t) cho điểm “khái niệm đúng”, việc cực đại hóa xác suất DD(x) tương đương với cực đại hóa hợp lí (khả năng):

Giả sử rằng, các túi độc lập có điều kiện với điểm 𝑡, khi đó giả thuyết tốt nhất là 𝑎𝑟𝑔𝑚𝑎𝑥𝑥∏ Pr (𝐵𝑖 𝑖+|𝑥 = 𝑡)∏ Pr (𝐵𝑖 𝑖−|𝑥 = 𝑡). Giả sử biết phân phối xác suất tiên nghiệm, áp dụng công thức Bayes một lần nữa, ta có cực đại hóa xác suất DD(x) tương đương với:

𝑎𝑟𝑔𝑚𝑎𝑥𝑥∏ Pr (𝑥 = 𝑡|𝐵𝑖 𝑖+)∏ Pr (𝑥 = 𝑡|𝐵𝑖 𝑖−) (2.4) Từ đó, ta có định nghĩa chung nhất của cực đại hóa Diverse Density. Để ước lượng được xác suất Pr (𝑥 = 𝑡|𝐵𝑖) , Maron và Lozano-Perez [8] đề xuất sử dụng ước lượng “noisy-or”:

Pr(𝑥 = 𝑡|𝐵𝑖+) = Pr(𝑥 = 𝑡|𝐵𝑖1+, 𝐵𝑖2+, … ) = 1 − ∏ (1 − Pr(𝑥 = 𝑡|𝐵𝑗 𝑖𝑗+)) (2.5) Ngược lại:

Pr(𝑥 = 𝑡|𝐵𝑖−) = ∏ (1 − Pr(𝑥 = 𝑡|𝐵𝑗 𝑖𝑗−)) (2.6) Để tính xác suất Pr(𝑥 = 𝑡|𝐵𝑖𝑗+), ta dựa vào phân phối xác suất tựa Gaussian giữa một thể hiện bất kỳ với một điểm tiềm năng liên quan đến khoảng cách giữa hai điểm, nên ta có:

Pr(𝑥 = 𝑡|𝐵𝑖𝑗) = exp(−‖𝐵𝑖𝑗 − 𝑥‖2) (2.7) Ta có thể thấy rằng, một trong các thể hiện trong một túi dương gần với 𝑥 = 𝑡 thì xác suất Pr(𝑥 = 𝑡|𝐵𝑖+) cao. Nếu mỗi túi dương có một thể hiện gần với 𝑥 và không có túi âm nào gần với 𝑥 thì 𝑥 có Diverse Density cao. Ngoài ra, Maron và Lozano-Perez bổ sung thêm mức độ quan trọng của các chiều trong không gian đặc trưng với vec tơ trọng số 𝑠𝑘, khi đó ta có:

‖𝐵𝑖𝑗 − 𝑥‖2 = ∑ 𝑠𝑘 𝑘2(𝐵𝑖𝑗𝑘 − 𝑥𝑘)2 (2.8) Giả định tất cả các túi giao tại một điểm đơn không còn cần thiết. Ví dụ, ta có cặp điểm “khái niệm đúng” được biểu diễn bằng một điểm hợp 𝑡𝑎⋁𝑡𝑏, ta cực đại hóa thông qua một cặp điểm 𝑥𝑎 và 𝑥𝑏, khi đó:

Pr(𝑥𝑎 = 𝑡𝑎⋁𝑥𝑏 = 𝑡𝑏|𝐵𝑖𝑗) = 𝑚𝑎𝑥𝑥𝑎,𝑥𝑏(Pr(𝑥𝑎 = 𝑡𝑎|𝐵𝑖𝑗) , Pr(𝑥𝑏 = 𝑡𝑏|𝐵𝑖𝑗)) (2.9) Vấn đề còn lại là, làm thế nào để tìm được điểm có Diverse Density cực đại. Maron và Lozano-Perez [8] đề suất sử dụng giải thuật tối ưu gradient ascent với nhiều điểm bắt đầu (từ mỗi điểm (thể hiện) trong mỗi túi dương), với hi vọng sẽ tìm ra được điểm cực đại toàn cục (điểm có Diverse Density cực đại). Nếu bắt

đầu thuật toán gradient ascent từ mỗi điểm dương thì một trong số các điểm dương đó có thể gần với điểm cực đại.

Môi trường và các công cụ