Pha 1 Huấn luyện mô hình

Khóa luận tập trung xây dựng mô hình phân lớp dữ liệu đa nhãn, trong đó, có bổ

xung các đặc trưng từ mô hình chủđề Nn. Để xây dựng được tập đặc trưng từ mô hình chủ đềNn, khóa luận cần xây dựng một mô hình xác suất để xác định các chủđề, các từ khóa đại diện cho một chủđề và xác suất của từ khóa trên chủđề. Sau khi xác định

được tập đặc trưng bổ xung, khóa luận sẽ áp dụng phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ MI đểđưa ra tập đặc trưng phù hợp cho quá trình phân lớp. Cuối cùng, là việc học bộ phân lớp dữ liệu đa nhãn để tiến hành đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam.

3.3.1. Xây dựng tập đặc trưng bổ xung từ mô hình chủđền LDA

Với mô hình chủđề Nn, từ tập dữ liệu là sẽ cho đầu ra là các chủ đề và phân phối xác suất của các chủ đề trên từng tài liệụ Ởđây, khóa luận sử dụng tập phân phối xác suất của các chủđề trên mỗi tài liệu là thành phần của tập đặc trưng bổ xung.

Giả sử chúng ta xác định được K topic từ tập dữ liệu học. Với mỗi tài liệu d,

khóa luận tính các xác suất để tài liệu d thuộc vào topic i là pd(i), với i=1,…,k. Từđó xác định được tập đặc trưng bổ xung từ mô hình chủđềNn LDA là :

T(d)=[pd1, pd2, …, pdk]

Xét ví dụ: có 4 topic, tài liệu đầu vào d, có phân bố xác suất trên 4 topic như

bảng sau :

Bảng 3.1: Ví dụ về kết quả của mô hình chủ đề 4n cho tài liệu t Chủ đề Xác suất Từ khóa đại diện

Topic 1 0.924 Nhân viên, tốt, phục vụ, nhiệt tình, thân thiện,… Topic 2 0.001 Sáng, ngon, món, nhiều, được,…

Topic 3 0.002 Đẹp, view, hướng, rộng, vườn,… Topic 4 0.065 Gần, trung tâm, vị trí, đường, ….

Khi đó tập đặc trưng bổ xung từ mô hình chủđềNn là:

T(d) = [0.924, 0.001, 0.002, 0.065,…]

Mô hình sinh trong LDA

Ước lượng tham số và suy luận