5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
5.8 Kiến trúc của một Autoencoder [19]
Autoencoder có ba thành phần chính:
1. Encoder: Khối encoder sẽ nhận dữ liệu là một vector biểu diễn dữ liệu có N chiều, đầu ra sẽ là một vector trong khơng gian ẩn M chiều. Kiến trúc của encoder và decoder gần giống như nhau và sử dụng mạng nơ ron truyền thẳng(feedforward neural network)
2. Latent Space representation: Không gian ẩn M chiều, với M < N.
3. Decoder: Đầu vào là vector biểu diễn dữ liệu M chiều của encoder sau đó cố gắng khơi phục lại dữ liệu ban đầu(véc-tơ biểu diễn dữ liệu N chiều).
Nếu chỉ sao chép đầu ra từ dữ liệu ban đầu thì autoencoder sẽ khơng có ý nghĩa. Mục tiêu của autoencoder nằm ở việc nén và khôi phục lại đầu ra, nó phải học được cách lưu trữ các đặc tính dữ liệu quan trọng trong khi giảm chiều và vì thế mới có thể khơi phục lại dữ liệu gốc ban đầu.
Bởi vì khả năng học với đầu vào nguyên bản, không cần dán nhãn. Autoencoder đem lại nhiều phép chiếu dữ liệu thú vị hơn các phương pháp giảm chiều dữ liệu khác như PCA. Ngày nay, autoencoder được ứng dụng trong nhiều lĩnh vực như: giảm chiều dữ liệu, phân tích thành
phần chính của dữ liệu, xử lý ảnh, truy xuất thông tin, ....
5.4.3 Khối Autoencoder trong mơ hình đề xuất
Đầu ra của khối LDA và khối BERT được kết hợp với nhau bởi một siêu tham số gamma, với cơng thứcvec_lda+gamma∗vec_phobert. Q trình này gọi là q trình nối 2 véc-tơ. Kết
quả của quá trình nối này hình thành nên một ma trận (N*778). Gamma được chọn là một số nguyên, hiện trải qua một số thực nghiệm về tính phân cụm của mơ hình, gamma được chọn với giá trị là 15. Quá trình này nhằm đảm bảo véc-tơ xác suất của mơ hình LDA được chú ý nhiều hơn, và véc-tơ sentence embedding là phần bổ sung để tăng độ chính xác(giảm khoảng cách chênh lệch giữa các véc-tơ trong cùng một topic) của mơ hình phân cụm. Khối Autoencoder nhận đầu vào là 2 ma trận đầu ra của khối LDA và PhoBERT. Sau đó tiến hành q trình kết hợp 2 vector. Cuối cùng là đưa vector kết hợp này đi qua mạng Autoencoder. Để đạt được hội tụ nhất định, mạng được lặp lại nhiều lần và sẽ lấy véc-tơ giảm chiều dữ liệu ở không gian ngữ nghĩa tiềm ẩn(đầu ra của encoder). Hiện tại encoder được thiết kế với kiến trúc hai lớp, gồm 1 đầu vào, 1 lớp giữa 64 nơ-ron và lớp cuối 32 nơ-ron. Do đó đầu ra sẽ là một ma trận (Nx32).