Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN
1.2. Giới thiệu chung về phân lớp đa nhãn
1.2.1.2. Tiếp cận thích nghi thuật tốn
a.Thuật tốn k láng giềng gần nhất đa nhãn – Multi-Label k Nearest Neighbour (ML-kNN)
Ý tưởng chính của thuật tốn này là sử dụng kỹ thuật k láng giềng gần nhất để xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đĩ sử dụng luật cực đại hậu nghiệm trên các thơng tin liên quan đến nhãn từ các láng giềng để đưa ra tập nhãn dự đốn.
Đoạn giả mã thuật tốn ML-kNN được trình bày ở Hình 1.11. Thuật tốn này cĩ ưu điểm là thừa kế được những điểm mạnh của phương pháp học lười và suy diễn Bayesian đĩ là: Một là, biên quyết định cĩ thể điều chỉnh một cách thích hợp dựa trên các láng giềng khác nhau được xác định cho mỗi dữ liệu chưa biết. Hai là, cĩ thể xác định cân bằng lớp dựa trên các xác suất tiên nghiệm ước lượng cho mỗi nhãn lớp. Thuật tốn cĩ độ phức tạp tính tốn cho pha huấn luyện là ( ) và pha kiểm thử là ( ) được trình bày trong [84].
( ) 1.for i=1 to m do
2.Xác định tập ( ) gồm k láng giềng gần nhất của x
3.endfor
4.for j=1 to q do
5. Xác định xác suất tiên nghiệm ( ) và ( ) theo cơng thức ( ) ∑ ⟦ ⟧
( ) ( ) ( )
6. Tính mảng tần suất và ̃ theo cơng thức , - ∑ ⟦ ⟧ ⟦ ( ) ⟧ ( ) 7.endfor 8.Xác định tập ( ) gồm k láng giềng gần nhất của x 9.for j=1 to q do Xác định lớp theo cơng thức ∑ ⟦ ⟧ ( ) ( ) 10. endfor
11.Trả kết quả Y theo cơng thức { ( ) ( ) }
Hình 1.11 Thuật tốn ML-kNN [84]
b.Thuật tốn cây quyết định đa nhãn – Multi-Label Decision Tree(ML-DT)
Ý tưởng chính của phương pháp này là sử dụng thuật tốn cây quyết định để giải quyết với dữ liệu đa nhãn, trong đĩ sử dụng độ lợi thơng tin dựa trên entropy đa nhãn để xây dựng cây quyết định đệ quy.
Cho một tập dữ liệu đa nhãn *( ) + với là số mẫu, thơng tin thu được bằng việc chia theo đặc trưng thứ tại giá trị chia như sau:
( ) ( ) ∑ * + ( ) (1.9) Trong đĩ, *( ) + *( ) + (1.10)
và bao gồm các mẫu cĩ giá trị trên đặc trưng thứ l tương ứng thấp hơn và lớn hơn .
Bắt đầu từ nút gốc ( ), ML-DT xác định đặc trưng và giá trị chia cắt tương ứng làm cực đại hĩa thơng tin đạt được trong cơng thức (1.9) sau đĩ sinh ra 2 nút con tương ứng với và . Quá trình trên được thực thi một cách đệ quy bằng việc coi hoặc là nút gốc mới và kết thúc khi đáp ứng một số tiêu chuẩn dừng (ví dụ như kích thước của nút con nhỏ hơn một ngưỡng được xác định trước).
( )̂ ∑ ( ) ( ( ))
(1.11)
Trong đĩ, ( ) ∑ ⟦ ⟧
Để minh họa cho thuật tốn ML-DT, cơ chế tính entropy đa nhãn, MLEnt(.) trong cơng thức (1.9) cần được xây dựng trước. Một giải pháp trực tiếp là coi mỗi tập con là một lớp mới và sắp xếp lại theo entropy đơn nhãn. Tuy nhiên, khi số lớp mới tăng theo hàm mũ theo , nhiều lớp mới cĩ thể khơng xuất hiện trong , do đĩ, xác suất được cho là tầm thường (ví dụ ( ) ) Để hạn chế được vấn đề này, ML-DT giả thiết độc lập giữa các nhãn và tính entropy đa nhãn theo cách cĩ thể phân rã được:
( ) ∑ ( ) ( )
(1.12)
Trong đĩ, ∑ ⟦ ⟧
Ở đây, thể hiện tỷ lệ các mẫu trong với nhãn . Cơng thức (1.12) cĩ thể coi là dạng đơn giản của cơng thức (1.9) với giải thiết độc lập nhãn và ( ) ̂ ( ).
Đối với một thể hiện x chưa biết, nĩ được thực hiện trên cây quyết định bằng cách duyệt qua các cạnh cho đến khi gặp một nút lá được kết hợp với một số mẫu huấn luyện . Sau đĩ, tập nhãn được dự đốn tương ứng với:
{ } (1.13)
Nĩi cách khác, nếu đối với một nút lá, phần lớn các mẫu huấn luyện được gán nhãn và thể hiện kiểm tra được đặt trong cùng nút là sẽ được gán nhãn .
hjff
( )
1.Tạo cây quyết định với nút gốc liên kết với tồn bộ tập huấn luyện ( )
2.if điều kiên dừng thỏa mãn then
3. break và go to bước 9
4.else
5. Xác định cặp thuộc tính-giá trị ( ) làm cực đại cơng thức (1.9)
6. Thiết lập và theo cơng thức (1.10) 7. Thiết lập 2 nút con tương ứng với và 8.endif
9.Duyệt x từ nút gốc đến khi gặp nút lá 10.Trả kết quả Y theo cơng thức (1.13)
Hình 1.12 Thuật tốn phân lớp ML-DT [84]
Hình 1.12 mơ tả giả mã của thuật tốn ML-DT với giả thiết độc lập về nhãn trong việc tính tốn entropy đa nhãn. Một ưu điểm nổi bật của ML-DT là hiệu quả cao trong việc xây dựng mơ hình cây quyết định từ dữ liệu đa nhãn.
Thuật tốn cĩ độ phức tạp tính tốn cho pha huấn luyện là ( ) và pha kiểm tra là ( ) được trình bày trong [84].
c. Thuật tốn xếp hạng máy vectơ hỗ trợ - Rank-SVM
Ý tưởng chính của thuật tốn này là thích nghi chiến thuật cực đại biên để giải quyết bài tốn học đa nhãn, tiến hành xây dựng hệ thống học gồm q bộ phân lớp tuyến tính {( ) } trong đĩ và là vectơ trọng số và giá trị xếp hạng (bias) của nhãn lớp thứ j - ; khi đĩ biên quyết định trên mẫu ( ) được xác định dựa trên xếp hạng trên các lớp liên quan và khơng liên quan của mẫu.
( ) ̅
〈 〉
‖ ‖ (1.14)
Ở đây, 〈 〉 trả về tích vơ hướng . Về phương diện hình học, mỗi cặp nhãn liên quan và khơng liên quan ( ) ̅, biên phân biệt tương ứng với
siêu phẳng 〈 〉 . Do đĩ, cơng thức (1.14) coi khoảng cách L2 của đến siêu phẳng của mọi cặp nhãn liên quan, khơng liên quan, cơng thức này trả về giá trị cực tiểu là biên trên ( ). Do đĩ, đường biên của hệ thống học trên tồn tập huấn luyện được xác định như sau:
( ) ( ) ̅
〈 〉
‖ ‖ (1.15)
Xếp hạng các biên quyết định cho mỗi một mẫu, khi đĩ việc xác định tập nhãn của một mẫu dựa trên ngưỡng sao cho đồng thời cực đại hĩa biên quyết định và cực tiểu hĩa độ đo rủi ro xếp hạng.
( )
1. Xây dựng hệ thống phân lớp {( ) } bằng việc giải quyết bài tốn quy hoạch tồn phương trong cơng thức
( ) ∑ ‖ ‖ ∑ ̅ ∑ ( ) ̅ (1.16)
Với giả thiết 〈 〉
( ( ) ̅)
2.Xác định cặp ( ) cho hàm ngưỡng bằng cách giải quyết vấn đề bình phương tối thiểu tuyến tính trong cơng thức
* +∑(〈 ( )〉 ( )) (1.17) Trong đĩ: ( ) ( * ( ) + * ̅ ( ) + ) 3.Trả kết quả Y theo cơng thức
{ 〈 〉 〈 ( )〉 }
Hình 1.13 Thuật tốn phân lớp Rank-SVM [84]
Hình 1.13 là đoạn giả mã của thuật tốn Rank-SVM. Đây là tiếp cận theo quy hoạch tồn phương (bậc hai), định nghĩa một biên trên các siêu phẳng cho cặp nhãn liên quan và khơng liên quan. Rank-SVM thừa hưởng ưu điểm từ phương pháp nhân (kernel) để giải quyết vấn đề phân lớp khơng tuyến tính và nhiều biến thể khác cĩ thể đạt được. Thuật tốn cĩ độ phức tạp tính tốn cho pha huấn luyện là ( ( )
phương QP để giải quyết cơng thức (1.16)với a là các biến và b là các ràng buộc; độ phức tạp tính tốn cho pha kiểm tra là ( ) được trình bày trong [84].
d.Thuật tốn bộ phân lớp đa nhãn nhĩm – Collective Multi-Label (CML)
Ý tưởng cơ bản của thuật tốn này là sử dụng nguyên lý cực đại entropy để giải quyết bài tốn học đa nhãn với yêu cầu thỏa mãn các ràng buộc về phân phối nhãn.
( )
1.for l=1 to d do // d là số tài liệu 2. for j=1 to q do 3. Thiết lập tập ràng buộc ( ) ⟦ ⟧ ( ( ) ) // *( ) + 4. endfor 5.endfor 6.for =1 to q-1 do 7. for = 1 to q do 8. Thiết lập ràng buộc ( ) ⟦ ⟧ ⟦ ⟧ ( ( ) // {( ) * +} 9. endfor 10.endfor 11.Xác định các tham số * + ( ) bằng việc cực đại hĩa cơng thức
( ) (∏ ( ) ( ) ) ∑ ∑ (∑ ( ) ( )) ( ) ∑ 12.Trả kết quả Y theo cơng thức
( )
Hình 1.14 Thuật tốn phân lớp CML [84]
Với một mẫu đa nhãn bất kỳ ( ), ta cĩ ( ) là biểu diễn các biến ngẫu nhiên tương ứng sử dụng vectơ nhãn nhị phân ( ) * + , trong đĩ thành phần thứ j thể hiện Y chứa nhãn thứ j tương ứng với và Y
khơng chứa nhãn thứ j tương ứng với . Khi đĩ, học đa nhãn tương ứng với việc học một phân phối xác suất chung ( ).
Đầu tiên xây dựng các ràng buộc về mối quan hệ nhãn, từ đĩ xác định phân phối xác suất cĩ điều kiện ( ) dựa trên nguyên lý cực đại hĩa entropy của mẫu
( ) . Tập nhãn của mẫu quan sát là giá trị làm cực đại phân phối xác suất này. Hình 1.14 là đoạn giả mã thuật tốn CML, đây là tiếp cận quy hoạch tồn phương (bậc hai) trong đĩ mối quan hệ giữa mọi cặp nhãn được xác định thơng qua các ràng buộc trong Mối quan hệ bậc hai trong CML tổng quan hơn trong thuật tốn Rank-SVM do thuật tốn Rank-SVM chỉ xem xét đến những cặp nhãn liên quan-khơng liên quan. Thuật tốn cĩ độ phức tạp tính tốn cho pha huấn luyện là ( ( )) và pha kiểm tra là (( ) ) trong đĩ ( ) là hàm độ phức tạp về thời gian cho phương pháp tối ưu khơng ràng buộc để giải quyết cơng thức với biến [84].