Ước lượng tham số cho mô hình LDA bằng tối ưu hóa một cách trực tiếp và chính xác xác suất của toàn bộ tập dữ liệu trong biểu thức (1) là khó có thể thực hiện. Một giải pháp đã được đề ra là sử dụng phương pháp ước lượng xấp xỉ như phương pháp biến phân [17] và lấy mẫu Gibbs [19].
Một chủđềđược gán cho một từ cụ thểđược lấy mẫu theo phân bốđa thức sau:
(K4 = X|KF¬4, LIIF = Z[,¬4
% + J% ]∑_^=Z[^+ J^` − 1
Z,,¬4[ + G[
]∑ Z_= ,+ G` − 1
Trong đó Z[,¬4% là số lần từ t được gán cho chủ đề k, không tính đến lần gán hiện thời;]∑b Z[^− 1
16
là số từ trong tài liệu m được gán cho chủ đề k, không tính lần gán hiện thời;]∑ Z_ ,− 1
= ` là số từ trong tài liệu m, không kể từ t. Sau khi lấy mẫu Gibbs, giá trị các tham sốđược xác định, các phân phối Nn được tính như sau:
H[,% = Z[%+ J% ∑b Z[^+ J^ ^= E,,[ = Z,[ + G[ ∑ Z_ ,+ G =
Kết luận chương hai
Trong chương hai, khóa luận đã trình bày chi tiết phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ MI, phương pháp mô hình chủ đề Nn.Như đã trình bày ở
chương 1, bài toán phân lớp dữ liệu đa nhãn là bài toán trọng tâm của bài toán quản lý danh tiếng. Theo nghiên cứu của Surender Ređy Yerva và cộng sự [20], việc bổ xung
đặc trưng từ nhiều nguồn khác nhau đã cải tiến rất lớn hiệu quả của thuật toán phân lớp. Trong khi đó, nghiên cứu của Lê Diệu Thu [21] đã chỉ ra rằng, việc sử dụng chủ đề Nn trong quảng cáo theo ngữ cảnh nhằm mở rộng tập từ vựng của quảng cáo cũng như trang web đem lại kết quả rất khả quan. Do vậy, bên cạnh các đặc trưng về từ
khóa thu được từ tập dữ liệu học, khóa luận còn đề xuất giải pháp bổ xung thêm các
đặc trưng từ mô hình chủđềNn.
Trong nhiên cứu của Gauthier Doquire và Michel Verleysen [11], đã cho thấy dữ
liệu đa nhãn với số lượng đặc trưng lớn trong đó có nhiều đặc trưng không có giá trịđã làm giảm đi đáng kểđộ chính xác của thuật toán phân lớp. Chính vì thế, ngoài việc bổ
xung đặc trưng từ mô hình chủ đề Nn như trình bày ở trên, khóa luận còn đề xuất kết hợp với phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ MI của Vanessa Gomez-Verdejo và Michel Verleysen [3].
Chương ba sẽ trình bày chi tiết giải pháp đề xuất bổ xung đặc trưng mô hình chủ đề Nn và lựa chọn đặc trưng dựa vào độ tương hỗ MI để cải tiến độ chính xác của bộ
17
CHƯƠNG 3. PHƯƠNG PHÁP LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN