3. Bố cục và cấu trúc của luận văn
3.4. Phƣơng pháp Linear Least Square Fit LLSF
LLSF là một cách tiếp cận ánh xạ đƣợc phát triển bởi Yang và Chute vào năm 1992. Ban đầu LLSF đƣợc thử nghiệm trong lĩnh vực xác định từ đồng nghĩa sau đó sử dụng trong phân loại văn bản vào năm 1994. [12]
Ý tƣởng của LLSF là sử dụng phƣơng pháp hồi quy để học từ tập huấn luyện và các chủ đề có sẵn. Trong đó, tập huấn luyện đƣợc biểu diễn dƣới dạng một cặp vector đầu vào và đầu ra. Với vector đầu vào là một văn bản bao gồm các từ và trọng số. Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứng với vector đầu vào.
Giải phƣơng trình các cặp vector đầu vào, đầu ra chúng ta sẽ thu đƣợc ma trận đồng hiện hệ số quy hồi của từ và chủ đề.
Phƣơng pháp này sử dụng công thức
FLS= argminF ||FA-B||2 (3-8) trong đó:
A, B là ma trận tƣơng ứng với tập dữ liệu huấn luyện (các cột trong ma trận tƣơng ứng là các vector đầu vào và đầu ra).
FLS là là ma trận kết quả chỉ ra một ánh xạ từ một văn bản bất kỳ vào vector của chủ đề đã gán trọng số.
Khi sắp xếp trọng số của các chủ đề, chúng ta sẽ có đƣợc một danh sách chủ đề có thể gán cho văn bản cần phân loại. Vì đã đặt ngƣỡng lên trọng số của các chủ đề nên ta tìm đƣợc chủ đề thích hợp của văn bản đầu vào. Hệ thống tự động học các ngƣỡng tối ƣu cho từng chủ đề.
Mặc dù phƣơng pháp LLFS và kNN sử dụng các thống kê khác nhau, nhƣng thực nghiệm của Y Yang [12] cho thấy, hai phƣơng pháp này có hiệu năng nhƣ nhau.