Mối quan hệ giữa các nhãn

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 43 - 44)

Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN

1.2. Giới thiệu chung về phân lớp đa nhãn

1.2.2.3. Mối quan hệ giữa các nhãn

J.Read [67] cịn giới thiệu khái niệm tỷ lệ xuất hiện của tập nhãn với tần suất lớn nhất PMax. Đại lượng này thể hiện tỷ lệ của các mẫu liên quan tập nhãn xuất hiện nhiều nhất.

( ) ( )

( )

(1.21)

Trong đĩ, ( ) là tần suất nhãn y trong tổ hợp nhãn trong tập dữ liệu . Hai đại lượng này thể hiện mức độ về tính cân đối và tính đồng nhất trong lược đồ gán nhãn. PUniq( ) cao thể hiện gán nhãn khơng đều và khi PMax( ) cao là trường hợp dữ liệu lệch nhãn. Trong ngữ cảnh đa nhãn, lệch nhãn tương ứng với số lượng lớn các mẫu liên quan đến các tập nhãn phổ biến nhất, trong khi một lượng lớn các mẫu liên quan đến tập nhãn hiếm. Lệch nhãn thì đối lập với đồng nhất nhãn, đây là trường hợp phổ biến trong ngữ cảnh đa nhãn trong đĩ nhiều nhãn cĩ thể được liên quan đến hơn một nửa số mẫu.

1.2.2.2. Phân bố nhãn

Phân bố nhãn là sự phân bố của tần suất các tập nhãn xuất hiện trong dữ liệu. Phân bố này cĩ thể đặc trưng theo các độ đo đã được giới thiệu ở mục con 1.2.2.1

Giá trị LCard (LDens) thấp là điển hình của phân lớp dữ liệu văn bản và dữ liệu đa phương tiện trong trường hợp hầu hết các mẫu vừa khớp tự nhiên với một lược đồ nhãn đơn và gán đa nhãn được đưa ra để giải quyết sự nhập nhằng này. Giá trị LCard thường cao trong những tập dữ liệu ở miền hẹp.

Phân bố nhãn trong các tập dữ liệu cĩ thể xấp xỉ bằng phân bố Poisson. Sự thay đổi các giá trị PUniq( ) và PMax( ) thể hiện các bậc khác nhau của luật phân bố trong dữ liệu thực.

1.2.2.3. Mối quan hệ giữa các nhãn

thiếu đi mối quan hệ này, dữ liệu đa nhãn khơng cịn thú vị nữa vì mỗi nhãn cĩ thể giả thiết độc lập và được coi như là một bài tốn nhị nhân riêng rẽ khơng mất bất kỳ thơng tin nào và ý nghĩa của phân lớp đa nhãn khơng cịn.

Trong phân lớp văn bản, khơng gian thể hiện của một mẫu được gán cả nhãn A và B cĩ thể biểu diễn một hỗn hợp của các mẫu A và các mẫu B. Một bài báo cĩ thể được gán nhãn “kinh tế” và “chiến tranh” cĩ thể vì những từ trong bài báo liên quan đến cả hai nhãn này. Tuy nhiên, điều này khơng áp dụng hồn tồn cho tất cả mọi miền. Một ảnh chứa vùng ảnh biển và vùng ảnh về người cĩ thể khơng phải là một sự pha trộn của đặc trưng biển và người vì rõ ràng người nhìn khác với biển và ngược lại.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 43 - 44)