Tiếp cận giảm chiều khơng gian đặc trưng đầu vào

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 50 - 54)

Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN

1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn

1.3.1. Tiếp cận giảm chiều khơng gian đặc trưng đầu vào

Các dữ liệu đa nhãn trong các ứng dụng thực tế như phân lớp văn bản, gán nhãn ảnh,… thường cĩ chiều rất lớn cỡ hàng trăm, thậm chí hàng nghìn đặc trưng.

Khơng gian đặc trưng trong dữ liệu đa nhãn đơi khi được sắp theo một hoặc nhiều trật tự khác nhau dẫn đến khơng gian tìm kiếm bùng nổ hơn nhiều so với dữ liệu trong phân lớp nhị phân và phân lớp đa lớp truyền thống.

Theo F.Herrera và cộng sự [29], các phương pháp giảm chiều đặc trưng phân chia theo nhiều cách khác nhau tùy thuộc vào tiêu chuẩn lựa chọn tập con đặc trưng như sau:

- Tiếp cận lựa chọn đặc trưng và trích rút đặc trưng: Phương pháp lựa chọn đặc trưng tiến hành lựa chọn các đặc trưng hữu ích dựa trên đánh giá độ liên quan của đặc trưng xuất hiện trong dữ liệu nguồn. Phương pháp trích rút đặc trưng sinh ra đặc trưng mới từ tập đặc trưng ban đầu.

- Tiếp cận giảm chiều đặc trưng cĩ giám sát và khơng giám sát: Phương pháp khơng giám sát thực hiện giảm chiều đặc trưng chỉ dựa trên bản thân dữ liệu mà khơng quan tâm đến tập nhãn của phần tử dữ liệu, điển hình là phương pháp phân tích thành phần chính PCA[55]. Ngược lại, các phương pháp giảm chiều cĩ giám sát tận dụng được thơng tin về nhãn lớp thơng qua việc phân tích mối quan hệ giữa đặc trưng và nhãn lớp, điển hình là phương pháp phân tích tương quan kinh điển CCA[45] và phân tích biệt thức tuyến tính LDA6

[33], trong đĩ mối quan hệ phụ thuộc giữa đầu vào và đầu ra được xác định thơng qua các ma trận biến thiên chéo.

- Tiếp cận lọc và đĩng gĩi: Tiếp cận lọc thực hiện lựa chọn đặc trưng dựa hồn tồn vào tập dữ liệu ban đầu dựa trên một số tiêu chuẩn như độ đo khoảng cách và độ đo phân kỳ, độ đo thơng tin, xác suất lỗi, độ đồng nhất hoặc khoảng cách giữa các lớp,… Tiếp cận này khơng phụ thuộc vào bất kỳ thuật tốn học nào nên loại bỏ được vấn đề sai lệch (bias) giữa việc lựa chọn đặc trưng và mơ hình học. Trong khi đĩ, tiếp cận đĩng gĩi được thiết kế để tối ưu tập con đặc trưng sử dụng một bộ phân lớp cho trước trong quá trình đánh giá. Tiếp cận này bị phụ thuộc vào bộ phân lớp và do đĩ cĩ thể suy diễn các tương tác giữa các đặc

6 LDA – Linear Discriminant Analysis

trưng. Tiếp cận lai giữa hai phương pháp này cũng được đề xuất trong đĩ khâu lựa chọn đặc trưng được coi là một phần của quá trình huấn luyện mơ hình. Phương pháp cây quyết định và rừng ngẫu nhiên [77] là hai điển hình của phương pháp lai. Trong khi, tiếp cận lọc cho hiệu quả tốt hơn về thời gian, tiếp cận đĩng gĩi lại cho thực thi tốt hơn.

- Tiếp cận giảm chiều đặc trưng tuyến tính và phi tuyến tính: Hầu hết các thuật tốn lựa chọn đặc trưng dựa trên phương pháp thống kê tuyến tính (hồi quy tuyến tính) như PCA và LDA. Trong PCA, một chuyển đổi tuyến tính được áp dụng trên tập đặc trưng ban đầu để ánh xạ sang khơng gian đặc trưng ít chiều hơn.

Các phương pháp giảm chiều đặc trưng khơng giám sát chỉ dựa trên sự phân tích của thơng tin dư thừa trên tập đặc trưng đầu vào mà khơng sử dụng các thơng tin nhãn lớp, do đĩ các phương pháp này cĩ thể áp dụng trực tiếp trên dữ liệu đa nhãn. Ngược lại, các phương pháp giảm chiều đặc trưng cĩ giám sát cĩ sử dụng thơng tin về nhãn lớp nên cần biến đổi để thích nghi với dữ liệu đa nhãn. Hướng tiếp cận chuyển đổi bài tốn đa nhãn về dạng truyền thống sử dụng biến đổi nhị phân BR và biến đổi tập con LP; sau đĩ kết quả đánh giá tương ứng với mỗi nhãn được kết hợp để tạo ra xếp hạng tổng thể cho các đặc trưng. Tiếp cận này là tiêu chuẩn quan hệ đơn biến hay nĩi cách khác các đặc trưng được đánh giá một cách độc lập, khơng xem xét đến sự dư thừa đặc trưng và mối quan hệ giữa các đặc trưng. Một tiêu chuẩn đa biến như kỹ thuật thơng tin tương hỗ là một giải pháp được sử dụng trong nhiều nghiên cứu để khắc phục những nhược điểm này. G.Doquire và M.Verleysen [33], [34] đề xuất mơ hình phân lớp đa nhãn theo tiếp cận chuyển đổi bài tốn sử dụng phương pháp cắt tỉa PPT theo chiến thuật tìm kiếm tham lam với tiêu chuẩn tìm kiếm là thơng tin tương hỗ đa chiều. J. Lee và cộng sự [61] đề xuất một thuật tốn lựa chọn đặc trưng đa nhãn sử dụng độ đo thơng tin tương hỗ xấp xỉ để đánh giá mối quan hệ giữa tập đặc trưng và tập nhãn.

S. Li và cộng sự [112] đề xuất bộ thuật tốn lựa chọn thuộc tính đa nhãn dựa trên độ lợi thơng tin để đánh giá mối quan hệ giữa đặc trưng và tập nhãn, sau đĩ tiến hành lựa chọn các đặc trưng hữu ích dựa trên ngưỡng. Mơ hình đề xuất là độc lập

với máy phân lớp nên cĩ thể được áp dụng cho nhiều bài tốn.

Trong luận án của mình [111], S. Jungjit đã đề xuất một số phương pháp lựa chọn đặc trưng cho phân lớp đa nhãn dựa trên mối quan hệ tương quan, trong đĩ tập trung vào các phương pháp tìm kiếm tập con đặc trưng phù hợp bao gồm kỹ thuật tìm kiếm leo đồi (hill-climbing search), kỹ thuật khai thác tri thức di truyền sử dụng tìm kiếm leo đồi và kỹ thuật tìm kiếm sử dụng giải thuật di truyền (Genetic Algorithms), đồng thời kết hợp với hai bộ phân lớp đa nhãn kinh điển là phân lớp đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn trên mạng Nơron lan truyền ngược (BPMLL).

Gần đây, L.Jian và cộng sự [78] đã đề xuất một tiếp cận lựa chọn đặc trưng đa nhãn MIFS (Multi-label Informed Feature Selection) với hai đĩng gĩp chính là sử dụng các ngữ nghĩa ẩn của đa nhãn để định hướng pha lựa chọn đặc trưng bằng cách ánh xạ khơng gian nhãn vào khơng gian rút gọn cĩ chiều thấp hơn rồi sử dụng khơng gian rút gọn này thay vì sử dụng khơng gian nhãn ban đầu để điều chỉnh quá trình lựa chọn đặc trưng và khai thác mối quan hệ nhãn trong khơng gian nhãn để chọn các đặc trưng tiêu biểu chung cho các nhãn. J.Li và H.Liu [62] đã khái quát một số thách thức trong lựa chọn đặc trưng đối với dữ liệu lớn và cung cấp một kho mã nguồn mở (scikit-feature) các thuật tốn lựa chọn đặc trưng phổ biến như nhĩm thuật tốn lựa chọn đặc trưng cĩ giám sát và khơng giám sát dựa trên lý thuyết thơng tin, nhĩm thuật tốn dựa trên thống kê, nhĩm thuật tốn lựa chọn đặc trưng luồng, đặc trưng cĩ cấu trúc,… nhằm thúc đẩy các nghiên cứu về lựa chọn đặc trưng. Kho mã nguồn mở này được K.Cheng và cộng sự [75] phát triển thành bộ cơng cụ FeatureMiner với mục đích giúp việc sử dụng các thuật tốn lựa chọn đặc trưng dễ dàng hơn.

Xây dựng tập đặc trưng riêng cho từng nhãn hoặc tập con nhãn là một hướng mới trong bài tốn giảm chiều đặc trưng [54], [59], [83]. Theo xu thế đĩ, luận án tiến hành các nghiên cứu xây dựng tập đặc trưng riêng cho từng nhãn / tập con nhãn nhằm tìm kiếm tập con đặc trưng tối ưu nhất và nâng cao hiệu quả phân lớp tại cơng trình [PTNgan5, PTNgan6].

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 50 - 54)