Calibrated Label Ranking (CLR)

Một phần của tài liệu Các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt luận văn ths công nghệ thông tin 60 48 01 04 pdf (Trang 28 - 31)

Chương 2. Các phương pháp phân lớp đa nhãn sử dụng độ gần nhau giữa các nhãn

2.3 Các phương pháp phân lớp đa nhãn sử dụng độ gần nhau giữa các nhãn

2.3.3 Calibrated Label Ranking (CLR)

2.3.3.1 Giới thiệu phương pháp Calibrated Label Ranking

Ý tưởng cơ bản của phương pháp này là chuyển bài toán học đa nhãn thành bài toán xếp hạng nhãn, trong đó bài toán xếp hạng nhãn được thực hiện bằng việc sử dụng kỹ thuật so sánh cặp pairwise [13] [9].

Với q nhãn {𝑦1,𝑦2,… 𝑦𝑞 } ta sẽ có tổng q(q-1)/2 bộ phân lớp nhị phân có thể được tạo ra bởi kỹ thuật so sánh pairwise, một cho mỗi cặp (𝑦𝑗, 𝑦𝑘) (1 ≤ 𝑗 < 𝑘 ≤ 𝑞).

Cụ thể là với mỗi cặp nhãn (𝑦𝑗, 𝑦𝑘), đầu tiên giải thuật so sánh cặp pairwise sẽ tạo một bộ huấn luyện nhị phân tương ứng bằng việc xem xét sự phù hợp có liên quan của mỗi ví dụ huấn luyện với 𝑦𝑗 𝑣à 𝑦𝑘:

𝒟𝑗𝑘 = {(𝑥𝑖, 𝜓(𝑌𝑖, 𝑦𝑗, 𝑦𝑘)) | 𝜙(𝑌𝑖, 𝑦𝑘), 1 ≤ 𝑖 ≤ 𝑚} (8)

Trong đó 𝜓(𝑌𝑖, 𝑦𝑗, 𝑦𝑘) = {+1, 𝑛ế𝑢 𝜙(𝑌𝑖, 𝑦𝑗) = +1 𝑣à 𝜙(𝑌𝑖, 𝑦𝑘) = −1

−1, 𝑛ế𝑢 𝜙(𝑌𝑖, 𝑦𝑗) = −1 𝑣à 𝜙(𝑌𝑖, 𝑦𝑘) = +1

Nói cách khác, chỉ những thể hiện phù hợp với hoặc 𝑦𝑗 ℎ𝑜ặ𝑐 𝑦𝑘 thì mới được bao gồm trong 𝒟𝑗𝑘. Sau đó, sử dụng giải thuật học nhị phân ℬ bất kỳ để học bộ phân lớp nhị phân 𝑔𝑗𝑘 : 𝒳 → ℝ; 𝑣í 𝑑ụ 𝑔𝑗𝑘 ← ℬ (𝐷𝑗𝑘); Do vậy, với bất kỳ ví dụ huấn luyện (𝑥𝑖, 𝑌𝑖) nào, thể hiện 𝑥𝑖 sẽ được bao gồm trong quá trình học của các bộ phân lớp nhị phân |𝑌𝑖||𝑌𝑖|. Với thể hiện 𝑥 ∈ 𝒳, hệ thống học sẽ bầu trọn cho 𝑦𝑗 𝑛ế𝑢 𝑔𝑗𝑘 >

0 𝑣à 𝑦𝑘 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖.

Cho thể hiện mới 𝑥, Calibrated Label Ranking đầu tiên sẽ đưa x vào q(q – 1)/2 bộ phân lớp nhị phân đã được huấn luyện để đạt được các bầu trọn (votes) trên mỗi nhãn:

𝜁(𝑥, 𝑦𝑗) = Σ𝑘=1𝑗−1⟦𝑔𝑘𝑗 (𝑥) ≤ 0⟧ + Σ𝑘=𝑗+1𝑞 ⟦𝑔𝑗𝑘 (𝑥) > 0⟧(1 ≤ 𝑗 ≤ 𝑞) (9)

Dựa trên định nghĩa trên, ta khó có thể xác minh rằng Σ𝑗=1𝑞 𝜁(𝑥, 𝑦𝑗) = q(q – 1)/2.

Trong đó, các nhãn trong 𝒴 có thể được xếp hạng theo các bầu trọn của chúng.

Sau đó, sử dụng thêm một vài hàm xác định ngưỡng để phân đôi danh sách các nhãn đã được xếp hạng vào tập phù hợp và tập không phù hợp. Để đạt điều này sử dụng kỹ thuật so sánh cặp pairwise, Calibrated Label Ranking kết hợp nhãn ảo 𝑦𝑉 vào mỗi ví dụ huấn luyện (𝑥𝑖, 𝑌𝑖). Có thể hiểu nhãn ảo có nhiệm vụ giống như một điểm

phân tách nhân tạo giữa các nhãn phù phợp của thể hiện 𝑥𝑖 và các nhãn không phù hợp. Theo nghĩa khác, 𝑦𝑉 sẽ được xếp hạng thấp hơn 𝑦𝑗 ∈ 𝑌𝑖 và cao hơn 𝑦𝑘 ∈ 𝑌̅𝑖.

Cùng với q(q-1)/2 bộ phân lớp nhị phân, q bộ phân lớp nhị phân bổ trợ sẽ được thêm vào, mỗi bộ cho mỗi cặp nhãn mới (𝑦𝑗, 𝑦𝑉). Giống với công thức (8), tập huấn luyện tương ứng với cặp nhãn (𝑦𝑗, 𝑦𝑉) sẽ được xây dựng như sau:

𝒟𝑗𝑉 = {(𝑥𝑖, 𝜑(𝑌𝑖, 𝑦𝑗, 𝑦𝑉)) 1 ≤ 𝑖 ≤ 𝑚} (10)

Trong đó 𝜑(𝑌𝑖, 𝑦𝑗, 𝑦𝑉) = {+1, 𝑛ế𝑢 𝑦𝑗 ∈ 𝑌𝑖

−1, 𝑛𝑔ượ𝑐 𝑙ạ𝑖

Sau đó, sử dụng giải thuật học nhị phân ℬ bất kỳ để học bộ phân lớp nhị phân 𝑔𝑗𝑉 : 𝒳 → ℝ; 𝑣í 𝑑ụ 𝑔𝑗𝑉 ← ℬ (𝐷𝑗𝑉); Khi đó tổng số bầu trọn theo công thức (9) sẽ được cập nhật với các bộ phân lớp mới:

𝜁∗(𝑥, 𝑦𝑗) = 𝜁(𝑥, 𝑦𝑗) + ⟦𝑔𝑗𝑉 (𝑥) > 0⟧ (1 ≤ 𝑗 ≤ 𝑞) (11)

Thêm vào đó tổng số bầu trọn trên nhãn ảo sẽ được tính:

𝜁∗(𝑥, 𝑦𝑉) = Σ𝑗=1𝑞 ⟦𝑔𝑗𝑉 (𝑥) ≤ 0⟧ (12)

Do vậy tập nhãn được dự đoán cho thể hiện mới 𝑥 sẽ là:

𝑌 = {𝑦𝑗 | 𝜁∗(𝑥, 𝑦𝑗) > 𝜁∗(𝑥, 𝑦𝑉), 1 ≤ 𝑗 ≤ 𝑞} (13)

So sánh công thức (10) với công thức (1), ta dễ dàng thấy rằng tập huấn luyện 𝒟𝑗𝑉 trong Calibrated Label Ranking là giống với tập huấn luyện 𝒟𝑗 trong Binary Relevance. Do vậy, Calibrated Label Ranking được xem như phiên bản cải tiến của giải thuật so sánh cặp pairwise. Ở đó, q(q-1)/2 bộ phân lớp nhị phân được thêm vào với q bộ phân lớp nhị phân của Binary Relevance để cho việc hoặc được dễ dàng hơn.

𝑌 = 𝐶𝑎𝑙𝑖𝑏𝑟𝑎𝑡𝑒𝑑𝐿𝑎𝑏𝑒𝑙𝑅𝑎𝑛𝑘𝑖𝑛𝑔(𝐷, ℬ, 𝑥)

2. for k = j + 1 to q do

3. Khởi tạo tập dữ liệu huấn luyện 𝐃𝐣𝐤 theo công thức (8);

4. 𝐠𝐣𝐤 ← 𝓑 (𝐃𝐣𝐤);

5. endfor 6. endfor

7. for j = 1 to q do

8. Khởi tạo tập dữ liệu huấn luyện 𝐃𝐣𝐕 theo công thức (10);

9. 𝐠𝐣𝐕 ← 𝓑 (𝐃𝐣𝐕 );

10. endfor

11. Trả về 𝐘 theo công thức (13) (Kết hợp với công thức (11) – (12))

Hình 2.6: Mã giả của phương pháp CLR

Nhận xét: Calibrated Label Ranking là phương pháp theo cách tiếp cận bậc 2, phương pháp này xây dựng bộ phân lớp nhị nhân cho cặp nhãn bất kỳ trong tập nhãn.

Khác với phương pháp Binary Relevance và Classifier Chain tạo các bộ phân lớp nhị phân theo kiểu một – với – phần còn lại (one - vs - rest), Calibrated Label Ranking tạo các bộ phân lớp nhị phân theo kiểu một – với – một (one – vs – one) do vậy phương pháp này có ưu điểm là làm giảm ảnh hưởng tiêu cực của vấn đề mất cân bằng nhãn.

2.3.3.2 Tích hợp độ đo gần nhau giữa các nhãn vào Calibrated Label Ranking

Calibrated Label Ranking là phương pháp học máy đa nhãn theo cách tiếp cận chuyển đổi bài toán học đa nhãn thành bài toán xếp hạng nhãn. Từ việc tìm hiểu phương pháp Calibrated Label Ranking như đã trình bày ở trên, luận văn xin đưa ra đề xuất cho việc tích hợp độ gần nhau giữa các nhãn vào Calibrated Label Ranking. Cụ thể là, ta sẽ tích hợp vào công thức (9) như sau:

𝜁(𝑥, 𝑦𝑗) = ∑ [⟦𝑔𝑘𝑗 (𝑥) ≤ 0⟧ × 𝑑𝑘𝑗] + ∑ [⟦𝑔𝑗𝑘 (𝑥) > 0⟧ × 𝑑𝑗𝑘]

𝑞 𝑘=𝑗+1

𝑗−1 𝑘=1

(14)

𝑑𝑘𝑗 𝑙à 𝑘ℎ𝑜ả𝑛𝑔 𝑐á𝑐ℎ 𝑔𝑖ữ𝑎 2 𝑛ℎã𝑛 𝑦𝑗 𝑣à 𝑦𝑘 (1 ≤ 𝑗

≤ 𝑞)

Ngoài ra, trong quá trình học bộ phân lớp việc xếp hạng nhãn được tính theo giá trị của 𝜁 ở công thức (9). Như vậy, có thể xảy ra trường hợp khi 2 hoặc nhiều nhãn có cùng giá trị 𝜁, ta sẽ phải quyết định nhãn nào sẽ được xếp hạng trước. Bằng việc sử dụng độ gần nhau giữa các nhãn ta có thể giải quyết được vấn đề này, cụ thể là ta sẽ xét xem trong các nhãn có cùng giá trị 𝜁 nhãn nào gần với nhãn có xếp hạng cao nhất thì sẽ được cho là có ranking cao hơn nhãn còn lại.

Một phần của tài liệu Các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt luận văn ths công nghệ thông tin 60 48 01 04 pdf (Trang 28 - 31)

Tải bản đầy đủ (PDF)

(55 trang)