3.1.1. Giới thiệu
Trên cơ sở hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện lấy học máy đa thể hiện làm cầu nối, luận văn đề xuất tích hợp các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] đã trình bày ở Chương hai vào học máy MIML thành các phương pháp học máy đa nhãn – đa thể hiện MIML-DD, MIML-EMDD, MIML-MISVM. Ngoài ra, luận văn đề xuất bổ sung một số thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn.
Tuy hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện lấy học máy đa thể hiện làm cầu nối đã được thực hiện trước đây [17, 18]. Việc tích hợp các phương pháp học máy đa thể hiện DD, EM-DD, MISVM vào học máy MIML và ứng dụng trong bài toán gán nhãn vùng ảnh là hoàn toàn mới.
Luận văn tiến hành thực nghiệm, so sánh việc tích hợp các thuật toán học máy đa thể hiện DD, EM-DD và MISVM vào học máy MIML để giải quyết không chỉ bài toán gán nhãn vùng ảnh mà còn cả bài toán gán nhãn cấp độ hình ảnh.
3.1.2. Nội dung phương pháp đề xuất
Hình 3.1 là mô hình của phương pháp đề xuất. Đầu tiên, từ tập dữ liệu MIML ta thực hiện chuyển đổi thành tập dữ liệu đa thể hiện. Với mỗi ví dụ MIML (𝑋𝑢, 𝑌𝑢) (𝑢 = 1,2, … , 𝑚), ta chuyển đổi thành một tập gồm |𝑌| túi đa thể hiện [17, 18]:
{[(𝑋𝑢, 𝑦1), Ψ(𝑋𝑢, 𝑦1) ], [(𝑋𝑢, 𝑦2), Ψ(𝑋𝑢, 𝑦2) ], … , [(𝑋𝑢, 𝑦|𝑌|), Ψ(𝑋𝑢, 𝑦|𝑌|) ]} Trong đó [(𝑋𝑢, 𝑦𝑣), Ψ(𝑋𝑢, 𝑦𝑣)] (𝑣 = 1,2, … , |𝑌|) là các túi đa thể hiện đã được gán nhãn. Ψ(𝑋𝑢, 𝑦𝑣) ∈ {0,1} là nhãn của túi (𝑋𝑢, 𝑦𝑣), (𝑋𝑢, 𝑦𝑣) là một túi chứa 𝑛𝑢 thể hiện: {(𝑥𝑢1, 𝑦𝑣), (𝑥𝑢1, 𝑦𝑣), … , (𝑥𝑢,𝑛𝑢, 𝑦𝑣)}. Ψ(𝑋𝑢, 𝑦) = 1 nếu 𝑦 ∈ 𝑌𝑢 và Ψ(𝑋𝑢, 𝑦) = 0 nếu 𝑦 ∉ 𝑌𝑢.
Vì vậy, tập dữ liệu MIML ban đầu đã được chuyển thành tập dữ liệu đa thể hiện 𝐷𝑀𝐼 chứa 𝑚 × |𝑌| túi thể hiện. Ta sắp xếp danh sách các túi trong tập dữ liệu 𝐷𝑀𝐼 theo thứ tự:
[(𝑋2, 𝑦|𝑌|), Ψ(𝑋2, 𝑦|𝑌|) ], … , [(𝑋𝑚, 𝑦1), Ψ(𝑋𝑚, 𝑦1) ], … , [(𝑋𝑚, 𝑦|𝑌|), Ψ(𝑋𝑚, 𝑦|𝑌|) ]
Trong đó [(𝑋(𝑖), 𝑦(𝑖)), Ψ(𝑋(𝑖), 𝑦(𝑖))] là túi thứ 𝑖 trong tổng số 𝑚 × |𝑌| túi, túi thứ 𝑖 chứa 𝑛𝑖 thể hiện.
Từ tập dữ liệu đa thể hiện 𝐷𝑀𝐼 mới này, ta có thể sử dụng để học hàm ánh xạ 𝑓𝑀𝐼𝐿 của học máy đa thể hiện. Hàm 𝑓𝑀𝐼𝐿 có thể thực hiện được các yêu cầu của học máy đa nhãn – đa thể hiện do [18]:
𝑓𝑀𝐼𝑀𝐿(𝑋∗) = {𝑦|𝑠𝑖𝑔𝑛[𝑓𝑀𝐼𝐿(𝑋∗, 𝑦)] = 1} (3.1) Quay trở lại với đặc điểm của học máy đa thể hiện, túi được gán nhãn âm nếu tất cả các thể hiện trong túi đó có nhãn âm, túi được gán nhãn dương nếu có ít nhất một thể hiện có nhãn dương (chỉ cần có một thể hiện có nhãn dương thì túi chứa thể hiện đó sẽ được gán nhãn dương). Học máy đa thể hiện chỉ quan tâm đến nhãn của túi, ta sẽ không biết chính xác nhãn của tất cả các thể hiện có trong túi đó (túi được gán nhãn dương, các thể hiện trong túi âm đều có nhãn âm) [18]. Trong các túi dương có thể chứa các thể hiện có nhãn âm. Thách thức chính trong học máy đa thể hiện là xác định được thể hiện nào trong túi có nhãn dương thực sự là thể hiện có nhãn dương, ngay cả khi tỉ lệ giữa các thể hiện âm và các thể hiện dương có trong túi là tùy ý [12]. Trên cơ sở như vậy, luận văn đề xuất bổ sung thêm các thể hiện đã biết nhãn vào tập dữ liệu 𝐷𝑀𝐼 nhằm tăng cường chất lượng gán nhãn. Với việc bổ sung các thể hiện đã biết nhãn, ta cung cấp cho thuật toán học máy đa thể hiện căn cứ xác định chính xác túi có nhãn dương nhờ đó giảm sự nhập nhằng và tăng cường được chất lượng gán nhãn. Trước khi áp dụng các hàm 𝑓𝑀𝐼𝐿 cho tập dữ liệu 𝐷𝑀𝐼, luận văn tiến hành xây dựng các giả túi (pseudo bag – túi chỉ có một thể hiện) từ các thể hiện đã biết nhãn trong các túi đã được gán nhãn.
Từ các túi [(𝑋𝑢, 𝑦𝑣), Ψ(𝑋𝑢, 𝑦𝑣)] (𝑣 = 1,2, … , |𝑌|), ta xây dựng các giả túi: [(𝑋′ 𝑢1, 𝑦1), 𝜓(𝑋′𝑢1, 𝑦1)], … , [(𝑋′ 𝑢𝑛𝑢, 𝑦1), ψ(𝑋′𝑢𝑛𝑢, 𝑦1)], [(𝑋′𝑢1, 𝑦2), ψ(𝑋′ 𝑢1, 𝑦2)], … , [(𝑋′𝑢𝑛𝑢, 𝑦|𝑌|), ψ(𝑋′𝑢𝑛𝑢, 𝑦|𝑌|)], … , [(𝑋′𝑢𝑛𝑢, 𝑦|𝑌|), ψ(𝑋′𝑢𝑛𝑢, 𝑦|𝑌|)] Trong đó [(𝑋′𝑢𝑖, 𝑦𝑣), ψ(𝑋′𝑢𝑖, 𝑦𝑣)] (𝑖 = 1,2, … , 𝑛𝑢, 𝑣 = 1,2, … , |𝑌|) là các giả túi đã được gán nhãn. ψ(𝑋′𝑢𝑖, 𝑦𝑣) ∈ {0,1} là nhãn của túi (𝑋′𝑢𝑖, 𝑦𝑣), (𝑋′𝑢𝑖, 𝑦𝑣) là một giả túi chứa một thể hiện: {(𝑥𝑢𝑖, 𝑦𝑣)}. ψ(𝑋′𝑢𝑖, 𝑦) = 1 nếu 𝑦 là nhãn của thể hiện 𝑥𝑢𝑖 và ψ(𝑋′𝑢𝑖, 𝑦) = 0 nếu ngược lại. Từ tập các giả túi, ta chọn ngẫu nhiên các giả túi với điều kiện ψ(𝑋′𝑢𝑖, 𝑦) = 1 để bổ sung cho tập dữ liệu 𝐷𝑀𝐼, ta có tập dữ liệu mới:
𝐷′𝑀𝐼 = 𝐷𝑀𝐼 ∪ {[(𝑋′𝑢𝑖, 𝑦𝑣), ψ(𝑋′𝑢𝑖, 𝑦𝑣)]} với điều kiện ψ(𝑋′𝑢𝑖, 𝑦𝑣) = 1 Với các túi chưa được gán nhãn, ta cũng xây dựng các giả túi từ tất cả các thể hiện có trong túi. Tập các túi cần được gán nhãn sẽ là tập các giả túi được tạo từ các thể hiện có trong các túi chưa được gán nhãn ban đầu. Với bài toán gán nhãn cho cấp độ hình ảnh, ta sẽ gán nhãn cho tập các túi chưa được gán nhãn ban đầu, thay vì gán nhãn cho tập các giả túi được xây dựng từ các thể hiện có trong các túi chưa được gán nhãn này.
Cuối cùng, áp dụng các phương pháp học máy đa thể hiện DD, EM-DD, MISVM đã trình bày ở trên cho tập dữ liệu 𝐷′𝑀𝐼. Việc tích hợp các phương pháp học đa thể hiện DD [9], EM-DD [11], MISVM [3] vào học máy đa nhãn - đa thể hiện sẽ tạo thành các phương pháp học máy đa nhãn – đa thể hiện MIML-DD, MIML-EMDD và MIML-MISVM tương ứng.