5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
5.4 Khối Autoencoder
5.4.3 Khối Autoencoder trong mơ hình đề xuất
Đầu ra của khối LDA và khối BERT được kết hợp với nhau bởi một siêu tham số gamma, với công thứcvec_lda+gamma∗vec_phobert. Quá trình này gọi là quá trình nối 2 véc-tơ. Kết
quả của quá trình nối này hình thành nên một ma trận (N*778). Gamma được chọn là một số nguyên, hiện trải qua một số thực nghiệm về tính phân cụm của mơ hình, gamma được chọn với giá trị là 15. Quá trình này nhằm đảm bảo véc-tơ xác suất của mơ hình LDA được chú ý nhiều hơn, và véc-tơ sentence embedding là phần bổ sung để tăng độ chính xác(giảm khoảng cách chênh lệch giữa các véc-tơ trong cùng một topic) của mơ hình phân cụm. Khối Autoencoder nhận đầu vào là 2 ma trận đầu ra của khối LDA và PhoBERT. Sau đó tiến hành q trình kết hợp 2 vector. Cuối cùng là đưa vector kết hợp này đi qua mạng Autoencoder. Để đạt được hội tụ nhất định, mạng được lặp lại nhiều lần và sẽ lấy véc-tơ giảm chiều dữ liệu ở không gian ngữ nghĩa tiềm ẩn(đầu ra của encoder). Hiện tại encoder được thiết kế với kiến trúc hai lớp, gồm 1 đầu vào, 1 lớp giữa 64 nơ-ron và lớp cuối 32 nơ-ron. Do đó đầu ra sẽ là một ma trận (Nx32).
5.4.4 Mơ phỏng giản lược
Hình 5.10: Mơ phỏng q trình kết hợp véc-tơ LDA với vec-tơ sentence embedding và kết quả với Autoencoder
5.4.5 Ví dụ thực tế với bộ dữ liệu
Tiếp tục ví dụ cho khối AutoEncoder, với việc kết hợp véc-tơ xác suất của LDA với véc-tơ sentence embedding của PhoBERT ta đã tạo ra một véc-tơ mới. Véc-tơ này mang lượng thông
tin của LDA nhiều hơn nhằm sử dụng khả năng xác định topic tương đối tốt của LDA, nhưng thêm vào đó lượng thơng tin ngữ cảnh của véc-tơ sentence embedding có 2 khả năng tối ưu có thể xảy ra: thứ nhất trong q trình xác định topic của LDA không tránh khỏi trường hợp một văn bản thuộc về nhiều chủ đề do đó nhờ vec-tơ ngữ cảnh này có thể xác định chênh lệch khả năng bài báo có thể rơi vào chủ đề tương đồng nó theo ngữ nghĩa của nó nhất; thứ hai trong cùng một chủ đề những chủ đề nhỏ hơn có thể lộ rõ mà khơng bị trùng lắp nhờ sự tương đồng về ngữ nghĩa. Xem xét ví dụ bên dưới, sau khi giảm chiều để giảm chi phí tính tốn nhưng vẫn giữ được các thuộc tính đại diện đặc trưng của những véc-tơ đó. So sánh khoảng cách Euclid giữa những véc-tơ này, lấy véc-tơ đầu tiên(index bằng 0) làm gốc so sánh. Dễ dàng nhận ra, 3 véc-tơ có index là 0,1,3 sẽ có khả năng cao thuộc về một chủ đề và véc-tơ ở index là 2 có khả năng thuộc về một chủ đề khác.