Thông thường sau bước biểu diễn văn bản ta đã sử dụng dữ liệu là các vectơ làm đầu vào cho thuật toán huyến luyện và phân loại, nhưng luận văn tập chung vào thử nghiệm phân loại kết hợp với các phương pháp giảm số chiều nhằm làm giảm thời gian tính toán và không gian bộ nhớ dữ liệu tính toán do đó sau bước biểu diễn văn bản ta được tập các vec tơ dữ liệu huấn luyện và tập các vec tơ dữ liệu test tập các vec tơ này được thực hiện qua các phép toán tối ưu để giảm số chiều.
Kết quả của việc giảm số chiều được sử dụng làm đầu vào cho thuật toán huấn luyện và phân loại.
5.1.4.1.Thuật toán giảm số chiều LSI/SVD
Input: Cho ma trận term–doc A∈¡ mxn là ma trận biểu diễn tập dữ liệu huấn
luyện và số nguyên k>0 1. Tính T k k k k A =U ∑ V 2. Đặt ma trận Y bằng T kVk ∑ Output: Y∈¡ kxn - Ma trận Y = T kVk
∑ là ma trận term – doc biểu diễn văn bản trong không gian ngữ nghĩa ẩn k chiều của tập văn bản huấn luyện hay nói cách khác Y là ma trận biểu diễn giảm số chiều của ma trận A.
- Ma trận ^ T k
Q U Q= là ma trận term – doc biểu diễn tập văn bản kiểm thử (test) trong không gian ngữ nghĩa ẩn k chiều hay nói cách khác Q^ là ma trận biểu diễn giảm số chiều của ma trận Q .
- Nếu một văn bản q muốn biểu diễn giảm số chiều trong không gian k chiều thì ^
T k
5.1.4.2.Thuật toán giảm số chiều Centroid
Input: Cho ma trận term–doc A∈¡ mxn là ma trận biểu diễn tập dữ liệu huấn luyện
hoặc tập dữ liệu kiểm thử (test) và số nguyên k>0 là số lớp dữ liệu huấn luyện (trong luận văn này k=6 lớp)
1. Tính trọng tâm ci của chủ đề thứ i với 1≤ ≤i k
2. Đặt ma trận C =[c c1, ,...,2 ck]
3. Tìm minY CY A− 2
Output: Ma trận Y∈¡ kxn
– Nếu A là ma trận biểu diễn tập dữ liệu huấn luyện thì Y là ma trận dữ liệu huấn luyện biểu diễn giảm số chiều của A
– Nếu A là ma trận biểu diễn tập dữ liệu kiểm thử thì Y là ma trận dữ liệu kiểm thử biểu diễn giảm số chiều của A
– Nếu một văn bản q muốn biểu diễn giảm số chiều trong không gian k chiều thì
–
^
T k
q Q q= là một biểu diễn của q
5.1.4.3.Thuật toán giảm số chiều Orthogonal Centroid
Input: Cho ma trận term–doc A∈¡ mxn là ma trận biểu diễn tập dữ liệu huấn luyện
hoặc tập dữ liệu kiểm thử (test) và số nguyên k>0 là số lớp dữ liệu huấn luyện (trong luận văn này k=6 lớp)
1. Tính trọng tâm ci của lớp thứ i với 1≤ ≤i k
2. Đặt ma trận C =[c c1, ,...,2 ck]
3. Tính QR của ma trận C Q R= k
4. Y Q A= kT
Output: ma trận Y∈¡ kxn
– Nếu A là ma trận biểu diễn tập dữ liệu huấn luyện thì Y là ma trận dữ liệu huấn luyện biểu diễn giảm số chiều của A
– Nếu A là ma trận biểu diễn tập dữ liệu kiểm thử thì Y là ma trận dữ liệu kiểm thử biểu diễn giảm số chiều của A
– Nếu một văn bản q muốn biểu diễn giảm số chiều trong không gian k chiều thì
–
^
T k