Chương 2. Các phương pháp phân lớp đa nhãn sử dụng độ gần nhau giữa các nhãn
2.3 Các phương pháp phân lớp đa nhãn sử dụng độ gần nhau giữa các nhãn
2.3.4 Collective Multi-Label Classifier (CML)
2.3.4.1 Giới thiệu phương pháp Collective Multi-Label Classifier
Ý tưởng cơ bản của giải thuật này là tương thích giải thuật entropy cực đại để giải quyết dữ liệu đa nhãn, ở đó mối quan hệ giữa các được chuyển thành các ràng buộc mà hàm phân phối kết quả phải thỏa mãn [13] [6].
Với bất kỳ thể hiện ví dụ (𝑥, 𝑌), Gọi (𝑥, 𝑦) là biểu diễn cho các biến ngẫu nhiên tương ứng sử dụng vector nhãn nhị phân 𝑦 = (𝑦1, 𝑦2, … , 𝑦𝑞)𝑇 ∈ {−1, +1}𝑞, thành phần thứ j chỉ ra Y chứa nhãn thứ j nếu (𝑦𝑗 = +1) hoặc không nếu (𝑦𝑗 = −1). Nói theo cách thống kê, bài toán học đa nhãn là tương đương với bài toán học phân phối xác suất kết hợp p(𝑥, 𝑦).
Mô hình entropy cực đại cung cấp một phương pháp đơn giản để ước lượng xác suất có điều kiện p(𝑦 | 𝑥) thông qua việc thống kê các thuộc tính quan trọng quan sát được từ tập dữ liệu huấn luyện.
Tư tưởng chủ đạo của nguyên lý entropy cực đại rất đơn giản: ta phải xác định một phân phối mô hình sao cho phân phối đó tuân theo mọi giả thiết đã quan sát từ thực nghiệm (từ tập mẫu), ngoài ra không cho thêm bất kì giả thiết nào khác. Điều này có nghĩa là phân phối mô hình phải thoả mãn các ràng buộc quan sát từ thực nghiệm, và phải gần nhất với phân phối đều [2] [5].
Áp dụng cho bài toán phân lớp đa nhãn, gọ𝑖 ℋ𝑝(𝑥, 𝑦) biểu diễn entropy thông tin của (𝑥, 𝑦) trong phân phối p(x,y). Theo nguyên lý entropy cực đại từ tập các ràng buộc 𝒦 thu được từ tập dữ liệu mẫu, sẽ tìm ra được một mô hình thoả mãn điều kiện làm cực đại độ đo entropy ℋ𝑝(𝑥, 𝑦):
𝑚𝑎𝑥𝑝 ℋ𝑝(𝑥, 𝑦) (15)
Thỏa mãn phương trình ràng buộc: 𝔼𝑝 [𝑓𝑘(𝑥, 𝑦)] = 𝐹𝑘 (𝑘 ∈ 𝒦)
Trong đó hàm f là hàm đặc trưng hay đặc trưng theo thống kê từ tập mẫu, ví dụ về đặc trưng như tần số của từ 𝑤𝑘 trong một văn bản. 𝔼𝑝 [𝑓𝑘(𝑥, 𝑦)] là kỳ vọng của hàm đặc trưng f với mô hình p(x, y). 𝐹𝑘 là giá trị kỳ vọng của f với phân phối thực nghiệm thu được từ tập huấn luyện, ví dụ 𝐹𝑘 = 1
𝑚∑(𝑥,𝑦)∈𝒟𝑓𝑘(𝑥, 𝑦).
Vấn đề tối ưu ràng buộc ở công thức (15) có thể được thực hiện sử dụng kỹ thuật nhân tử Lagrange. Với mỗi đặc trưng 𝑓𝑘 ta đưa vào một tham số 𝜆𝑘 là một thừa số nhân Lagrange:
Ở đây, 𝛬 = {𝜆𝑘 | 𝑘 ∈ 𝒦} là tập các tham số cần được xác định, và 𝑍𝛬(𝑥) là thừa số chuẩn hóa, ví dụ 𝑍𝛬(𝑥) = ∑ 𝑒𝑥𝑝 (∑𝑦 𝑘 ∈ 𝒦𝜆𝑘. 𝑓𝑘(𝑥, 𝑦)).
Theo giả định tiên nghiệm Gauss, các tham số trong 𝛬 có thể đượng tìm thấy bằng việc cực đại hàm log-posterior sau:
𝑙(Λ |𝒟) = log (∏ 𝑝(𝑦 |𝑥)
(𝑥,𝑦) ∈ 𝒟 ) − ∑ 𝜆𝑘2 2𝜀2
𝑘 ∈ 𝒦
(17)
= ∑ (∑ 𝜆𝑘. 𝑓𝑘(𝑥, 𝑦)
𝑘 ∈ 𝒦 − 𝑙𝑜𝑔𝑍𝛬(𝑥))
(𝑥,𝑦) ∈ 𝒟 − ∑ 𝜆𝑘2
2𝜀2
𝑘 ∈ 𝒦
Công thức (17) là hàm lồi trên 𝛬, ở đó giá trị tối ưu toàn cục của nó có thể được tìm thấy bởi bất kỳ phương thức tối ưu không ràng buộc thông thường nào ví dụ phương pháp BFGS [5] [2].
Một cách tổng quát, gradients của 𝑙(Λ |𝒟) được yêu cầu bởi hầu hết các phương thức số học:
𝜕𝑙(Λ |𝒟)
𝜕𝜆𝑘 = ∑ ( 𝑓𝑘(𝑥, 𝑦) − ∑ 𝑓𝑘(𝑥, 𝑦)𝑝(𝑦 |𝑥)
𝑦
) −𝜆𝑘 𝜀2
(𝑥,𝑦) ∈ 𝒟 (𝑘
∈ 𝒦)
(18)
Trong CML, tập các ràng buộc bao gồm hai phần 𝒦 = 𝒦1∪ 𝒦2. Cụ thể, 𝒦1 = {(𝑙, 𝑗)| 1 ≤ 𝑙 ≤ 𝑑, 1 ≤ 𝑗 ≤ 𝑞} định ra tổng 𝑑 . 𝑞 ràng buộc với 𝑓𝑘(𝑥, 𝑦) = 𝑥𝑙 ⟦𝑦𝑗 = 1⟧ (𝑘 = (𝑙, 𝑗) ∈ 𝒦1). Thêm vào đó, 𝒦2 = {(𝑗1, 𝑗2, 𝑏1, 𝑏2) | 1 ≤ 𝑗1 < 𝑗2 ≤ 𝑞, 𝑏1, 𝑏2 ∈ {−1, +1} } định ra tổng số 4 . (𝑞
2) ràng buộc với 𝑓𝑘(𝑥, 𝑦) = ⟦𝑦𝑗 = 1⟧ . ⟦𝑦𝑗2 = 𝑏2⟧ ( 𝑘 = (𝑗1, 𝑗2, 𝑏1, 𝑏2) ∈ 𝒦2).
Với thể hiện mới x, tập nhãn được dự đoán sẽ là:
𝑌 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑦 𝑝(𝑦 |𝑥) (19)
𝑌 = 𝐶𝑀𝐿(𝐷,𝜀2, 𝑥) 1. for l = 1 to d do 2. for j = 1 to q do
3. Thiết lập ràng buộc 𝐟𝐤(𝐱, 𝐲) = 𝐱𝐥 ⟦𝐲𝐣 = 𝟏⟧ (𝐤 = (𝐥, 𝐣) ∈ 𝓚𝟏);
4. endfor 5. endfor
6. for 𝐣𝟏 = 1 to q - 1 do 7. for 𝐣𝟐 =𝐣𝟏+ 1 to q do
8. Thiết lập ràng buộc 𝐟𝐤(𝐱, 𝐲) = ⟦𝐲𝐣𝟏 = 𝟏⟧ . ⟦𝐲𝐣𝟐 = 𝐛𝟐⟧ ( 𝐤 = (𝐣𝟏, 𝐣𝟐, 𝐛𝟏, 𝐛𝟐) ∈ 𝓚𝟐);
9. endfor 10. endfor
11. Xác định các tham số 𝚲 = {𝛌𝐤 | 𝐤 ∈ 𝓚𝟏 ∪ 𝓚𝟐} bằng cách cực đại công thức (17) (cùng với công thức (18));
12. Trả về 𝐘 theo công thức (19)
Hình 2.7: Mã giả của phương pháp CML
Nhận xét: CML là phương pháp theo cách tiếp cận bậc 2, ở đó mối quan hệ giữa mỗi cặp nhãn được xét đến thông qua các ràng buộc trong 𝒦2. Mối quan hệ bậc 2 được xét đến trong CML là tổng quát hơn một số phương pháp như Rank-SVN [13] vì Rank-SVN chỉ xem xét cặp nhãn phù hợp - không phù hợp.
2.3.4.2 Tích hợp độ đo gần nhau giữa các nhãn vào Collective Multi-Label Classifier Như đã trình bày ở trên, phương pháp CML thiết lập tập các ràng buộc gồm 2 phần 𝒦 = 𝒦1∪ 𝒦2:
+ 𝒦1 là tập ràng buộc giữa một đặc trưng (từ) của thể hiện x với nhãn y; ở bước (3) của Hình 2.7: Mã giả của phương pháp CML đưa ra đoạn mã để tính giá trị cho hàm đặc trưng, ta có thể thay đổi trọng số với ràng buộc bằng việc sử dụng kết quả của mô hình Word2vec cho độ gần nhau giữa các từ bằng việc nhân giá trị của hàm đặc trưng cũ với độ gần nhau của 𝐱𝐥 và 𝐲𝐣: 𝐟𝐤(𝐱, 𝐲) = 𝐟𝐤(𝐱, 𝐲) × 𝒅𝒙𝒍𝒚𝒋.
Với 𝑑𝑥𝑙𝑦𝑗 là khoảng cách (giá trị độ gần nhau) của từ 𝑤𝑙 𝑐ủ𝑎 𝑡ℎể ℎ𝑖ệ𝑛 𝑥 với nhãn 𝑦𝑗.
+ Tương tự với 𝒦2 là tập ràng buộc giữa 2 nhãn bất kỳ; ở bước (8) của Hình 2.7: Mã giả của phương pháp CML ta cũng có thể thay đổi trọng số với ràng buộc bằng việc sử dụng kết quả của mô hình Word2vec cho độ gần nhau giữa các từ bằng việc nhân giá trị của hàm đặc trưng cũ với độ gần nhau của 𝐲𝐣𝟏 𝐯à 𝐲𝐣𝟐 khi đó giá trị của hàm đặc trưng sẽ là: 𝐟𝐤(𝐱, 𝐲) = 𝐟𝐤(𝐱, 𝐲) × 𝑑𝑦𝑗1𝑦𝑗2.
Với 𝑑𝑦𝑗1𝑦𝑗2 là khoảng cách (giá trị độ gần nhau) của 2 nhãn 𝐲𝐣𝟏 𝐯à 𝐲𝐣𝟐.