2.3 Các phương pháp phân lớp đa nhãn sử dụng độ gần nhau giữa các nhãn
2.3.4 Collective Multi-Label Classifier (CML)
2.3.4.1 Giới thiệu phương pháp Collective Multi-Label Classifier
Ý tưởng cơ bản của giải thuật này là tương thích giải thuật entropy cực đại để giải quyết dữ liệu đa nhãn, ở đĩ mối quan hệ giữa các được chuyển thành các ràng buộc mà hàm phân phối kết quả phải thỏa mãn [13] [6].
Với bất kỳ thể hiện ví dụ (𝑥, 𝑌), Gọi (𝑥, 𝑦) là biểu diễn cho các biến ngẫu nhiên tương ứng sử dụng vector nhãn nhị phân 𝑦 = (𝑦1, 𝑦2, … , 𝑦𝑞)𝑇 ∈ {−1, +1}𝑞, thành phần thứ j chỉ ra Y chứa nhãn thứ j nếu (𝑦𝑗 = +1) hoặc khơng nếu (𝑦𝑗 = −1). Nĩi theo cách thống kê, bài tốn học đa nhãn là tương đương với bài tốn học phân phối xác suất kết hợp p(𝑥, 𝑦).
Mơ hình entropy cực đại cung cấp một phương pháp đơn giản để ước lượng xác suất cĩ điều kiện p(𝑦 | 𝑥) thơng qua việc thống kê các thuộc tính quan trọng quan sát được từ tập dữ liệu huấn luyện.
Tư tưởng chủ đạo của nguyên lý entropy cực đại rất đơn giản: ta phải xác định một phân phối mơ hình sao cho phân phối đĩ tuân theo mọi giả thiết đã quan sát từ thực nghiệm (từ tập mẫu), ngồi ra khơng cho thêm bất kì giả thiết nào khác. Điều này cĩ nghĩa là phân phối mơ hình phải thoả mãn các ràng buộc quan sát từ thực nghiệm, và phải gần nhất với phân phối đều [2] [5].
Áp dụng cho bài tốn phân lớp đa nhãn, gọ𝑖 ℋ𝑝(𝑥, 𝑦) biểu diễn entropy thơng tin của (𝑥, 𝑦) trong phân phối p(x,y). Theo nguyên lý entropy cực đại từ tập các ràng
buộc 𝒦 thu được từ tập dữ liệu mẫu, sẽ tìm ra được một mơ hình thoả mãn điều kiện làm cực đại độ đo entropy ℋ𝑝(𝑥, 𝑦):
𝑚𝑎𝑥𝑝 ℋ𝑝(𝑥, 𝑦) (15)
Thỏa mãn phương trình ràng buộc: 𝔼𝑝 [𝑓𝑘(𝑥, 𝑦)] = 𝐹𝑘 (𝑘 ∈ 𝒦)
Trong đĩ hàm f là hàm đặc trưng hay đặc trưng theo thống kê từ tập mẫu, ví dụ về đặc trưng như tần số của từ 𝑤𝑘 trong một văn bản. 𝔼𝑝 [𝑓𝑘(𝑥, 𝑦)] là kỳ vọng của hàm đặc trưng f với mơ hình p(x, y). 𝐹𝑘 là giá trị kỳ vọng của f với phân phối thực
nghiệm thu được từ tập huấn luyện, ví dụ 𝐹𝑘 = 1
𝑚∑(𝑥,𝑦)∈𝒟𝑓𝑘(𝑥, 𝑦).
Vấn đề tối ưu ràng buộc ở cơng thức (15) cĩ thể được thực hiện sử dụng kỹ thuật nhân tử Lagrange. Với mỗi đặc trưng 𝑓𝑘 ta đưa vào một tham số 𝜆𝑘 là một thừa số nhân Lagrange:
Ở đây, 𝛬 = {𝜆𝑘 | 𝑘 ∈ 𝒦} là tập các tham số cần được xác định, và 𝑍𝛬(𝑥) là thừa số chuẩn hĩa, ví dụ 𝑍𝛬(𝑥) = ∑ 𝑒𝑥𝑝 (∑𝑦 𝑘 ∈ 𝒦𝜆𝑘. 𝑓𝑘(𝑥, 𝑦)).
Theo giả định tiên nghiệm Gauss, các tham số trong 𝛬 cĩ thể đượng tìm thấy bằng việc cực đại hàm log-posterior sau:
𝑙(Λ |𝒟) = log (∏ 𝑝(𝑦 |𝑥) (𝑥,𝑦) ∈ 𝒟 ) − ∑ 𝜆𝑘 2 2𝜀2 𝑘 ∈ 𝒦 (17) = ∑ (∑ 𝜆𝑘. 𝑓𝑘(𝑥, 𝑦) 𝑘 ∈ 𝒦 − 𝑙𝑜𝑔𝑍𝛬(𝑥)) (𝑥,𝑦) ∈ 𝒟 − ∑ 𝜆𝑘 2 2𝜀2 𝑘 ∈ 𝒦
Cơng thức (17) là hàm lồi trên 𝛬, ở đĩ giá trị tối ưu tồn cục của nĩ cĩ thể được tìm thấy bởi bất kỳ phương thức tối ưu khơng ràng buộc thơng thường nào ví dụ phương pháp BFGS [5] [2].
Một cách tổng quát, gradients của 𝑙(Λ |𝒟) được yêu cầu bởi hầu hết các phương thức số học: 𝜕𝑙(Λ |𝒟) 𝜕𝜆𝑘 = ∑ ( 𝑓𝑘(𝑥, 𝑦) − ∑ 𝑓𝑘(𝑥, 𝑦)𝑝(𝑦 |𝑥) 𝑦 ) −𝜆𝑘 𝜀2 (𝑥,𝑦) ∈ 𝒟 (𝑘 ∈ 𝒦) (18)
Trong CML, tập các ràng buộc bao gồm hai phần 𝒦 = 𝒦1∪ 𝒦2. Cụ thể, 𝒦1 = {(𝑙, 𝑗)| 1 ≤ 𝑙 ≤ 𝑑, 1 ≤ 𝑗 ≤ 𝑞} định ra tổng 𝑑 . 𝑞 ràng buộc với 𝑓𝑘(𝑥, 𝑦) = 𝑥𝑙 ⟦𝑦𝑗 = 1⟧ (𝑘 = (𝑙, 𝑗) ∈ 𝒦1). Thêm vào đĩ, 𝒦2 = {(𝑗1, 𝑗2, 𝑏1, 𝑏2) | 1 ≤ 𝑗1 < 𝑗2 ≤ 𝑞, 𝑏1, 𝑏2 ∈ {−1, +1} } định ra tổng số 4 . (𝑞
2) ràng buộc với 𝑓𝑘(𝑥, 𝑦) = ⟦𝑦𝑗 = 1⟧ . ⟦𝑦𝑗2 = 𝑏2⟧ ( 𝑘 = (𝑗1, 𝑗2, 𝑏1, 𝑏2) ∈ 𝒦2).
Với thể hiện mới x, tập nhãn được dự đốn sẽ là:
𝑌 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑦 𝑝(𝑦 |𝑥) (19) 𝑌 = 𝐶𝑀𝐿(𝐷,𝜀2, 𝑥) 1. for l = 1 to d do 2. for j = 1 to q do 3. Thiết lập ràng buộc 𝐟𝐤(𝐱, 𝐲) = 𝐱𝐥 ⟦𝐲𝐣 = 𝟏⟧ (𝐤 = (𝐥, 𝐣) ∈ 𝓚𝟏); 4. endfor 5. endfor
6. for 𝐣𝟏 = 1 to q - 1 do 7. for 𝐣𝟐 =𝐣𝟏+ 1 to q do 8. Thiết lập ràng buộc 𝐟𝐤(𝐱, 𝐲) = ⟦𝐲𝐣𝟏 = 𝟏⟧ . ⟦𝐲𝐣𝟐 = 𝐛𝟐⟧ ( 𝐤 = (𝐣𝟏, 𝐣𝟐, 𝐛𝟏, 𝐛𝟐) ∈ 𝓚𝟐); 9. endfor 10.endfor
11.Xác định các tham số 𝚲 = {𝛌𝐤 | 𝐤 ∈ 𝓚𝟏 ∪ 𝓚𝟐} bằng cách cực đại cơng thức (17) (cùng với cơng thức (18));
12.Trả về 𝐘 theo cơng thức (19)
Hình 2.7: Mã giả của phương pháp CML
Nhận xét: CML là phương pháp theo cách tiếp cận bậc 2, ở đĩ mối quan hệ giữa mỗi cặp nhãn được xét đến thơng qua các ràng buộc trong 𝒦2. Mối quan hệ bậc 2 được xét đến trong CML là tổng quát hơn một số phương pháp như Rank-SVN [13] vì Rank-SVN chỉ xem xét cặp nhãn phù hợp - khơng phù hợp.
2.3.4.2 Tích hợp độ đo gần nhau giữa các nhãn vào Collective Multi-Label Classifier
Như đã trình bày ở trên, phương pháp CML thiết lập tập các ràng buộc gồm 2 phần 𝒦 = 𝒦1∪ 𝒦2:
+ 𝒦1 là tập ràng buộc giữa một đặc trưng (từ) của thể hiện x với nhãn y; ở bước (3) của Hình 2.7: Mã giả của phương pháp CML đưa ra đoạn mã để tính giá trị cho hàm đặc trưng, ta cĩ thể thay đổi trọng số với ràng buộc bằng việc sử dụng kết quả của mơ hình Word2vec cho độ gần nhau giữa các từ bằng việc nhân giá trị của hàm đặc trưng cũ với độ gần nhau của 𝐱𝐥 và 𝐲𝐣: 𝐟𝐤(𝐱, 𝐲) = 𝐟𝐤(𝐱, 𝐲) × 𝒅𝒙𝒍𝒚𝒋.
Với 𝑑𝑥𝑙𝑦𝑗 là khoảng cách (giá trị độ gần nhau) của từ 𝑤𝑙 𝑐ủ𝑎 𝑡ℎể ℎ𝑖ệ𝑛 𝑥 với nhãn 𝑦𝑗.
+ Tương tự với 𝒦2 là tập ràng buộc giữa 2 nhãn bất kỳ; ở bước (8) của Hình 2.7: Mã giả của phương pháp CML ta cũng cĩ thể thay đổi trọng số với ràng buộc
bằng việc sử dụng kết quả của mơ hình Word2vec cho độ gần nhau giữa các từ bằng việc nhân giá trị của hàm đặc trưng cũ với độ gần nhau của 𝐲𝐣𝟏 𝐯à 𝐲𝐣𝟐 khi đĩ giá trị của hàm đặc trưng sẽ là: 𝐟𝐤(𝐱, 𝐲) = 𝐟𝐤(𝐱, 𝐲) × 𝑑𝑦𝑗1𝑦𝑗2.