Tiếp cận chuyển đổi bài tốn

Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN

1.2. Giới thiệu chung về phân lớp đa nhãn

1.2.1.1. Tiếp cận chuyển đổi bài tốn

Để minh họa cho phương pháp này, luận án sử dụng tập dữ liệu ở Bảng 1.1. Trong bảng dữ liệu cĩ bốn mẫu được phân lớp vào tập nhãn lớp gồm bốn nhãn:

. Mẫu Tập nhãn 1 * + 2 * + 3 * + 4 * + Bảng 1.1 Ví dụ về dữ liệu đa nhãn

Sau đây là phát biểu của bài tốn phân lớp đa nhãn được sử dụng chung cho các phương pháp được trình bày ở các phần tiếp theo.

Đầu vào:

- : Tập dữ liệu đa nhãn

- L: Tập nhãn cho trước gồm q nhãn

Đầu ra:

- Một bộ phân lớp đa nhãn ( )

Độ phức tạp tính tốn của các thuật tốn trình bày dưới đây được xác định chủ yếu qua ba thành phần chung cho mọi thuật tốn là: số mẫu huấn luyện ( ), số chiều thuộc tính ( ) và số nhãn lớp ( ). Ngồi ra, các thuật tốn học nhị phân (hoặc đa lớp) trong phương pháp chuyển đổi bài tốn cĩ ký hiệu độ phức tạp pha huấn luyện là ( ) và pha kiểm thử là ( ).

a.Thuật tốn tương hợp nhị phân – Binary Relevance(BR)

Theo M. R. Boutell và cộng sự [89], ý tưởng chính của thuật tốn này là giảm cấp bài tốn học đa nhãn thành q bài tốn phân lớp nhị phân độc lập, trong đĩ mỗi bài tốn phân lớp nhị phân tương ứng với một nhãn trong khơng gian nhãn. Theo đĩ, để xác định nhãn lớp thứ được ký hiệu là , đầu tiên thuật tốn BR xây dựng một tập huấn luyện nhị phân tương ứng bằng việc xem xét sự liên quan của mỗi mẫu huấn luyện với nhãn .

{. ( )/ } (1.1)

Trong đĩ ( ) {

Tiếp đĩ, cĩ thể sử dụng bất kỳ thuật tốn học máy nhị phân để xây dựng một bộ phân lớp nhị phân ví dụ ( ). Khi đĩ, với bất kỳ mẫu huấn luyện đa nhãn ( ), sẽ xem xét quá trình học của q bộ phân lớp nhị phân trên dữ liệu . Nếu nhãn tương ứng thì được coi là một dữ liệu dương, ngược lại được coi là một dữ liệu âm. Chiến thuật này là huấn luyện chéo (cross- training).

Với một dữ liệu cần phân lớp, BR sẽ dự đốn tập nhãn tương ứng bằng việc kết hợp các nhãn được xác định từ mỗi bộ phân lớp nhị phân.

{ ( ) } (1.2)

Mẫu Nhãn Mẫu Nhãn Mẫu Nhãn Mẫu Nhãn

1 1 1 1

2 2 2 2

3 3 3 3

4 4 4 4

(a) (b) (c) (d)

Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn

Tuy nhiên, khi tất cả các bộ phân lớp nhị phân cho đầu ra là âm, thì tập nhãn dự đốn Y sẽ bị rỗng. Để tránh việc dự đốn tập nhãn rỗng, luật T-Criterion cĩ thể được áp dụng:

{ ( ) } ⋃* ( )+ (1.3) Trường hợp khơng bộ phân lớp nhị phân nào cho kết quả dương, T-Criterion sẽ bổ sung cơng thức (1.2) bằng việc đưa vào nhãn lớp với đầu ra tốt nhất (ít âm nhất). Bộ phân lớp đa nhãn được xác định theo cơng thức (1.3). Ngồi T-Criterion, một số quy tắc khác cũng cĩ thể được sử dụng trong việc dự đốn tập nhãn dựa trên đầu ra của mỗi bộ phân lớp nhị phân.

Hình 1.7 mơ tả đoạn giả mã minh họa cho thuật tốn BR.

( ) 1.For j=1 to q do

2.Xây dựng tập huấn luyện nhị phân theo cơng thức (1.1) 3.Gán ( );

4.Endfor

5.Trả kết quả Y theo cơng thức (1.3)

Hình 1.7 Thuật tốn phân lớp BR [89]

Ưu điểm vượt trội của BR là cách tiếp cận trực tiếp để giải quyết vấn đề dữ liệu đa nhãn. Ngược lại, nhược điểm của BR là đã loại bỏ tất cả các mối quan hệ tiềm năng giữa các nhãn và bộ phân lớp nhị phân cho mỗi nhãn cĩ thể rơi vào trạng thái mất cân bằng lớp khi lớn và mật độ nhãn thấp. Dựa theo đoạn chương trình giả mã, M.R Boutell và cộng sự [89] xác định được độ phức tạp tính tốn cho giai đoạn huấn luyện là ( ( )) và cho giai đoạn kiểm tra là ( ( )).

b.Phương pháp chuỗi bộ phân lớp – Classifier Chain(CC)

Theo J.Read và cộng sự [64], ý tưởng của phương pháp này là chuyển bài tốn học đa nhãn thành một chuỗi các phân lớp nhị phân, trong đĩ các bộ phân lớp nhị phân trong chuỗi được xây dựng dựa trên dự đốn của các bộ phân lớp trước đĩ. Cho nhãn lớp { }, hàm * + * + là hàm hốn vị các nhãn theo một thứ tự xác định ( ) ( ) ( ). Với nhãn thứ trong danh sách, ( ) ( ), một tập huấn luyện nhị phân tương ứng được xây dựng bằng việc kết hợp mỗi dữ liệu với các dữ liệu liên quan đến các nhãn trước ( )

( ) {.[ ( )] ( ( ))/ } (1.4) Trong đĩ, ( ) . ( ( )) ( ( ))/

[ ( )] là vectơ kết hợp của vectơ và vectơ ( )

( )là vectơ nhãn nhị phân cho các nhãn đứng trước ( ) trên dữ liệu Trường hợp đặc biệt ( ) . Tiếp đĩ, các thuật tốn học nhị phân được sử dụng để đưa ra bộ phân lớp nhị phân ( ) * + , ví dụ ( ) ( ( )). Nĩi cách khác, ( ) xác định ( ) cĩ là nhãn liên quan hay khơng.

Đối với một dữ liệu chưa biết, tập nhãn kết hợp của nĩ được dự đốn bằng cách đi qua chuỗi bộ phân lớp một số lần lặp. Ký hiệu ( ) * + là giá trị nhị phân dự đốn của ( ) trên dữ liệu x, được xác định như sau:

( ) [ ( )( )]

( ) [ ( )([ ( ) ( )])] ( ) (1.5) Trong đĩ, , - là hàm xác định giá trị nhị phân dự đốn của nhãn. Theo đĩ, tập nhãn dự đốn tương ứng là:

{ ( ) ( ) } (1.6) Rõ ràng là, hiệu quả của chuỗi bộ phân lớp được xây dựng như trên phụ thuộc nhiều vào hàm sắp xếp . Để giải thích cho ảnh hưởng của trật tự nhãn, một tập chuỗi bộ phân lớp (Ensemble of Classifier Chain) cĩ thể được xây dựng với hốn vị ngẫu nhiên trên khơng gian nhãn, ví dụ ( ) ( ) ( ). Với mỗi hốn vị,

( ) ( ) một chuỗi bộ phân lớp áp dụng hàm ( ) khơng trực tiếp trên tập huấn luyện ban đầu mà lên một tập huấn luyện đã thay đổi ( ), trong đĩ ( ) được xác định bằng việc lấy mẫu khơng thay thế hoặc cĩ thay thế [67].

Hình 1.8 mơ tả đoạn giả mã thuật tốn chuỗi bộ phân lớp (CC). Trong thuật tốn này, mối quan hệ giữa các nhãn đã được xem xét theo một cách ngẫu nhiên. So với thuật tốn BR, thuật tốn chuỗi bộ phân lớp cĩ ưu điểm là đã khai thác mối quan hệ giữa các nhãn nhưng nhược điểm là khơng thực thi song song được do đặc điểm của chuỗi. Luận án J. Read [67] chỉ ra rằng độ phức tạp tính tốn của thuật

tốn chuỗi bộ phân lớp cho pha huấn luyện là ( ( )) và pha kiểm tra là ( ( )).

( ) 1.For j=1 to q do

2.Xây dựng chuỗi tập huấn luyện nhị phân ( ) theo cơng thức (1.4)

3.Gán ( ) ( ( ));

4.Endfor

5.Trả kết quả Y theo cơng thức (1.6)

Hình 1.8 Thuật tốn phân lớp CC [64]

c. Phương pháp xếp hạng nhãn theo kích cỡ - CalibratedLabelRanking (CLR)

Ý tưởng chính của thuật tốn này là chuyển bài tốn học đa nhãn thành bài tốn xếp hạng nhãn trong đĩ việc xếp hạng các nhãn được thực thi bằng kỹ thuật so sánh cặp đơi.

Với q nhãn lớp { }, cĩ tổng cộng ( ) bộ phân lớp nhị phân cĩ thể được sinh ra bằng phương pháp so sánh cặp đơi, mỗi bộ phân lớp cho một cặp nhãn ( ) ( ). Cụ thể là, với mỗi cặp nhãn ( ), so sánh cặp đơi đầu tiên sẽ xây dựng một tập huấn luyện nhị phân tương ứng bằng việc xem xét mối quan hệ của mỗi mẫu huấn luyện với :

{. ( )/ | ( ) ( ) } (1.7) Trong đĩ

( ) { ( ) ( ) ( ) ( )

Đối với thể hiện chưa biết , thuật tốn CLR đầu tiên sẽ xây dựng ( ) bộ phân lớp nhị phân được huấn luyện để đạt được tất cả các phiếu bầu cho mỗi nhãn lớp cĩ thể. ( ) ∑ ⟦ ( ) ⟧ ∑ ⟦ ( ) ⟧ ( ) (1.8)

Dựa vào định nghĩa trên, ta cĩ ∑ ( ) ( ) . Do đĩ, các nhãn trong khơng gian nhãn cĩ thể được xếp hạng theo số phiếu bầu của nĩ.

( ) 1.for j=1 to q-1 do

2. for k=j+1 to q do

3. Xây dựng tập huấn luyện nhị phân theo cơng thức {. ( )/ | ( ) ( ) } 4. Gán ( );

5. endfor 6.endfor

7.for j=1 to q do

8. Xây dựng tập huấn luyện nhị phân theo cơng thức {. ( )/ }

9. Gán ( );

10.endfor

11. Trả kết quả Y theo cơng thức { ( ) ( ) }

Hình 1.9 Thuật tốn phân lớp CLR [84]

Hình 1.9 trình bày đoạn giả mã của thuật tốn CLR. Thuật tốn này cĩ độ phức tạp tính tốn cho pha huấn luyện là ( ( )) và pha kiểm tra là ( ( )) [84]

d.Thuật tốn tập k nhãn ngẫu nhiên – Random k Labelset (RakEL)

Ý tưởng chính của thuật tốn này là chuyển bài tốn học đa nhãn thành một bộ các phân lớp đa lớp, trong đĩ mỗi máy học thành phần trong bộ tập trung vào một tập con ngẫu nhiên của khơng gian nhãn dựa trên bộ phân lớp đa lớp được tạo ra bằng kỹ thuật tập lũy thừa nhãn – LP [41], [43]. Chiến thuật chính là sử dụng thuật tốn LP trên các tập k nhãn ngẫu nhiên (tập con kích thước k trên khơng gian nhãn để đảm báo hiệu quả tính tốn), sau đĩ xây dựng bộ kết hợp các bộ phân lớp LP để đạt được tính hồn thiện trong dự đốn.

trong đĩ tập nhãn kích thước thứ được kí hiệu là ( ), ( ) ( ) ( ).

( ) 1.for r=1 to n do

2.Chọn ngẫu nhiên một tập k nhãn ( ) với ( ) 3.Xây dựng tập huấn luyện đa lớp

( ) theo cơng thức ( ) {( ( ). ( )/) }

4.Gán

( ) . ( )/;

5.endfor

6. Trả kết quả Y theo cơng thức { ( ) ( ) }

Hình 1.10 Thuật tốn phân lớp RakEL [43], [84]

Hình 1.10 trình bày đoạn giả mã của thuật tốn Random k-Labelsets. Tiếp cận thể hiện mức độ liên quan của nhãn được kiểm sốt bởi kích thước của tập nhãn k. Thuật tốn RakEL cĩ độ phức tạp tính tốn cho pha huấn luyện là ( ( )) và pha kiểm tra là ( ( )) được trình bày trong [43], [84].

Tiếp cận thích nghi thuật tốn

Mối quan hệ giữa các nhãn