5 Đề xuất mô hình gom cụm văn bản dựa trên mô hình chủ đề kết hợp với véc-tơ ngữ
5.1 Kiến trúc của mô hình phân cụm dựa trên mô hình chủ đề
5.1 Đầu vào dữ liệu
Dữ liệu đầu vào là các đoạn văn hoặc bài báo. Về cơ bản đầu vào sẽ được tiền xử lý với VnCoreNLP để sinh hai phần:
• token_list: Đây là một danh sách các từ(hoặc cụm từ), nhờ nhiệm vụ phân đoạn từ tiếng Việt và gắn thẻ cho từng thành phần trong câu. Ta sẽ được danh sách các từ bao gồm: động từ, danh từ và tính từ. Đây là đầu vào cho mô hình LDA, giảm bớt các từ nối, từ không mang nhiều tính phân loại. Giữ tính từ để phát triển cho việc phân loại cảm xúc nếu mô hình phát triển thêm về sau.
• sentence: Đây là một văn bản mới được hình thành sau quá trình phân đoạn từ. Về hình dung, đó là nối các từ sau khi đã phân đoạn từ lại với nhau để hình thành lại văn bản ban đầu. Sentence này sẽ được dùng cho khối PhoBERT.
text = "Lấy một ví dụ cho câu: ’Hôm nay, tôi đi học. Và trời thì đang mưa rất to.’" token_list = [’lấy’, ’ví_dụ’, ’câu’, ’hôm_nay’, ’đi’, ’học’, ’trời’, ’mưa’, ’to’]
sentence = " Lấy một ví_dụ cho câu : ’ Hôm_nay , tôi đi học . Và trời thì đang mưa rất to . ’ "
5.2 Khối LDA
Là thành phần chính của mô hình. Từ tập dữ liệu ban đầu sau quá trình xử lý đầu vào. Khối LDA nhận thành phần token_list làm input. Quá trình tiếp theo từ các token_list nhận được LDA xây dựng nên bộ từ vựng(vocabulary). Xây dựng bộ ngữ liệu(corpus) mới bao gồm: các từ trong token_list được mã hoá thành ’id’(id đại diện cho thứ tự của token trong vocabulary) và tần suất xuất hiện của chúng trong văn bản. Mô hình LDA nhận đầu vào bao gồm bộ từ vựng và bộ ngữ liệu, qua quá trình huấn luyện với những tham số và các siêu tham số cho trước cùng với K(số lượng topic được xác định trước). Kết quả của khối LDA là một vector xác suất K chiều, mỗi chiều đại diện cho xác suất mà văn bản đó có khả năng thuộc về topic thứ i. Giả sử gọi số lượng văn bản đầu vào là N, thì đầu ra của khối LDA sẽ là ma trận (NxK).