a Giảm số chiều đặc trưng văn bản
Theo phương pháp TF, đặc trưng văn bản chính là các từ trong văn bản mà ta lấy nĩ theo tần số. Khĩa luận lựa chọn 2000 từ cĩ tần số xuất hiện lớn nhất từ gần 3000 bài báo làm đặc trưng.
Để giảm bớt số chiều đặc trưng của văn bản, khĩa luận áp dụng mơ hình chủ đề ẩn LDA. Khi đĩ, khĩa luận lấy số chủ đề ẩn làm đặc trưng cho văn bản thay vì lấy từ theo
Nguyễn Thị Thảo 25 Khĩa luận tốt nghiệp TF. Số chủ đề ẩn phụ thuộc vào tham số lấy ra. Với mỗi thực nghiệm, ta dùng K chủ đề ẩn khác nhau để so sánh chúng.
b Xây dựng tập đặc trưng bổ xung từ mơ hình chủ đề ẩn
Theo mục 2.2.1, LDA là kết quả trộn lẫn chủ đề trong tài liệu của mơ hình. Cho trước một tập các văn bản, tìm xem mơ hình chủ đề nào đã sinh ra tập văn bản trên. Bao gồm: tìm phân phối xác suất tập từ ở mỗi chủ đề, tìm phân phối chủ đề ở mỗi tài liệu. Ở đây, khĩa luận sử dụng tập phân phối xác suất của các chủ đề trên mỗi tài liệu là thành phần của tập đặc trưng bổ sung.
Giả sử, ta lấy K chủ đề (phụ thuộc vào tham số đầu vào) từ tập dữ liệu học. Với mỗi tài liệu d, khĩa luận tính các xác suất để tài liệu d thuộc vào chủ đề i là pd (i), với i = 1, 2 … k.
Khi đĩ, ta xác định được tập đặc trưng bổ xung từ mơ hình chủ đề ẩn LDA: T (d) = [pd1, pd2 … pdk]
Một số ví dụ về mơ hình chủ đề ẩn và xác suất của các từ khĩa đại diện được lấy ra từ mơ hình chủ đề ẩn LDA trong các bảng ở mục 2.2.2.