Tiếp cận giảm chiều khơng gian nhãn đầu ra

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 54 - 56)

Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN

1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn

1.3.2. Tiếp cận giảm chiều khơng gian nhãn đầu ra

Khơng gian nhãn đầu ra với số chiều lớn cũng mang lại nhiều khĩ khăn về thời gian và độ phức tạp cho các tiếp cận phân lớp đa nhãn như:

- Tiếp cận chuyển đổi bài tốn phân lớp đa nhãn thành các bài tốn phân lớp nhị phân truyền thống cĩ thời gian thực thi tuyến tính với số lượng nhãn. - Tiếp cận dựa trên tập lũy thừa nhãn (LP) đối mặt với số lượng tập con nhãn

tăng theo hàm mũ, thêm vào đĩ dữ liệu huấn luyện thưa dẫn đến sự suy giảm trong thực thi của nhiều mơ hình.

- Một vấn đề cũng cần phải đề cập là mối quan hệ giữa các nhãn cũng là yếu tố quan trọng trong học các mơ hình. Điển hình như tiếp cận láng giềng gần nhất, lựa chọn tập nhãn của các phần tử dữ liệu láng giềng gần nhất để gán cho phần tử dữ liệu đang xem xét. Khi khơng gian nhãn tăng, mối quan hệ và độ phức tạp giữa các nhãn cũng tăng theo.

Việc giảm chiều khơng gian nhãn đầu ra sẽ gĩp phần giảm thời gian và bộ nhớ huấn luyện các bộ phân lớp. Tuy nhiên, các nhãn khơng chỉ đơn giản là loại bỏ ra khỏi dữ liệu vì tất cả các nhãn phải cĩ mặt trong pha dự đốn của bộ phân lớp. Do đĩ, các kỹ thuật sử dụng cho bài tốn giảm khơng gian đặc trưng đầu vào khơng thể áp dụng trong trường hợp này. Mặt khác, cĩ hai vấn đề cần xem xét về khơng gian nhãn. Một là vấn đề thưa nhãn xuất hiện khá phổ biến, đặc biệt là trong các ứng dụng về phân lớp văn bản. Vấn đề này được hiểu là dữ liệu đa nhãn cĩ số lượng nhãn lớn nhưng sự xuất hiện của từng nhãn lại thấp. Vấn đề thứ hai là mối quan hệ phụ thuộc nhãn. Trong một số tiếp cận phân lớp như BR đều giả thiết là các nhãn là hồn tồn độc lập, nên bỏ qua mối quan hệ đồng xuất hiện hoặc phụ thuộc nào đĩ giữa các nhãn. F. Herrera và cộng sự [29] trình bày hai mơ hình quan hệ phụ thuộc: Phụ thuộc khơng điều kiện là quan hệ phụ thuộc được cho là tồn tại giữa hai nhãn bất kỳ mà khơng chịu sự tác động của đặc trưng đầu vào và mối quan hệ này cĩ thể được khai thác trên tồn tập dữ liệu khi thiết kế bộ phân lớp đa nhãn. Phụ thuộc cĩ điều kiện là quan hệ phụ thuộc giữa các nhãn theo giá trị đặc trưng đầu vào của phần tử dữ liệu. Một số tiếp cận đề xuất cho tiếp cận giảm chiều khơng gian nhãn như sau:

- Phương pháp lựa chọn tập con nhãn: Điển hình là thuật tốn RAkEL [43], [84] trình bày ở mục 1.2.1.1. Trong đĩ, tập nhãn được chia thành các tập con nhẫu nhiên dựa trên kỹ thuật chuyển đổi dữ liệu tập lũy thừa nhãn LP, từ đĩ mơ hình huấn luyện một nhĩm các bộ phân lớp sử dụng tập con nhãn được phân chia ở trên cho mỗi bộ phân lớp.

- Phương pháp cắt tỉa tập nhãn hiếm: Điển hình là phương pháp tập cắt tỉa (Pruned Set) PS [66] và bộ tập cắt tỉa (Ensemble of Pruned Set) EPS [67] cũng dựa trên kỹ thuật chuyển đổi dữ liệu LP, phát hiện các tập nhãn hiếm và cắt tỉa chúng. Bằng cách này, số lượng tập con nhãn sẽ giảm đi đáng kể. Phương pháp này tránh được các sự kết hợp của nhãn hiếm nhưng thường khơng giảm số lượng nhãn.

- Phương pháp ước lượng phụ thuộc nhân KDE (Kernel Dependency Estimation): Đây là một kỹ thuật khái quát để tìm mối quan hệ phụ thuộc giữa tập đầu vào và dầu ra. Phương pháp này sử dụng kỹ thuật phân tích thành phần chính PCA trên khơng gian nhãn ban đầu để thu được một tập các ánh xạ độc lập, từ đĩ giữ lại các nhãn quan trọng dựa trên xác định ngưỡng về giá trị riêng. Sau các bước dự đốn trên tập nhãn giảm, một thủ tục khơi phục lại tập nhãn ban đầu được thực hiện.

- Phương pháp suy luận nhãn giải quyết bài tốn số chiều lớn trong khơng gian nhãn: Phương pháp này được để xuất trong [28] gọi là LI-MLC dựa trên thơng tin về quan hệ phụ thuộc nhãn thu được từ thuật tốn khai phá luật kết hợp. Trong đĩ, coi nhãn là các mục và các phân tử dữ liệu là các giao dịch, một tập các luật kết hợp sẽ được sinh ra từ tập các giao dịch này. Vế thứ nhất của mỗi luật chỉ ra những nhãn nào phải xuất hiện trong dự đốn để suy luận ra nhãn trong vế thứ hai cũng sẽ xuất hiện cùng. Từ đĩ chỉ giữ lại những luật tin cậy và loại bỏ những nhãn được suy luận từ các nhãn khác. Kết quả thu được là tập dữ liệu đa nhãn với khơng gian nhãn được thu gọn nên cĩ thể áp dụng các thuật tốn phân lớp đa nhãn đã biết.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 54 - 56)