5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
5.7 Ví dụ về khối phoBERT trong mơ hình đề xuất
5.4 Khối Autoencoder
5.4.1 Tổng quan về giảm chiều dữ liệu
Trong học máy, việc giảm chiều dữ liệu là quá trình giảm thiểu số lượng đặc trưng biểu diễn dữ liệu. Việc này đồng nghĩa với việc biến đổi không gian cao chiều về khơng gian có chiều thấp hơn, nhưng vẫn giữ được hầu hết những đặc trưng dữ liệu như ở khơng gian cao chiều. Có hai cách giảm chiều dữ liệu:
• Lựa chọn đặc trưng(feature selection): Lựa chọn những đặc trưng đại diện cho tập dữ liệu và loại bỏ các đặc trưng khơng cần thiết. Q trình này giống như lựa chọn tập con từ tập đặc trưng của dữ liệu ban đầu. Có ba chiến lược trong lựa chọn đặc trưng là: chiến lược bộ lọc, chiến lược bao bọc và chiến lược nhúng.
• Trích xuất đặc trưng(feature extraction): Tái cấu trúc lại tập dữ liệu ban đầu, sao cho sẽ hình thành những đặc trưng mới mang tính đại diện cho tập dữ liệu ban đầu nhưng với số lượng đặc trưng ít hơn. Một số thuật tốn như: Principal component analysis (PCA), Non-negative matrix factorization (NMF), Kernel PCA, Graph-based kernel PCA, Linear discriminant analysis (LDA), Autoencoder...
Việc dữ liệu ở khơng gian cao chiều, q trình phân tích hoặc áp dụng dữ liệu cho các ứng dụng thường gặp nhiều khó khăn. Vấn đề nằm ở lượng dữ liệu quá lớn gây ra hiện tượng dữ liệu thưa thớt, phức tạp để tính tốn, tốn thời gian để xử lý dữ liệu. Giảm chiều dữ liệu rất có ích trong việc giảm nhiễu, trực quan hố dữ liệu, phân cụm, lưu trữ hoặc giảm thiểu chi phí tính tốn.
5.4.2 Autoencoder
Autoencoder là một mạng nơ-ron nhân tạo được dùng trong học không giám sát. Mục tiêu của Autoencoder là sao chép dữ liệu đầu vào để tái cấu trúc và hình thành lại dữ liệu đầu ra. Quá trình này được thực hiện bằng cách nén đầu vào thành một biểu diễn khơng gian tiềm ẩn(latent space representation) và sau đó tái cấu tạo đầu ra từ biểu diễn khơng gian tiềm ẩn đó.