Thuật toán giảm số chiều văn bản

Một phần của tài liệu XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU (Trang 59 - 61)

Thông thường sau bước biểu diễn văn bản ta đã sử dụng dữ liệu là các vectơ làm đầu vào cho thuật toán huyến luyện và phân loại, nhưng luận văn tập chung vào thử nghiệm phân loại kết hợp với các phương pháp giảm số chiều nhằm làm giảm thời gian tính toán và không gian bộ nhớ dữ liệu tính toán do đó sau bước biểu diễn văn bản ta được tập các vec tơ dữ liệu huấn luyện và tập các vec tơ dữ liệu test tập các vec tơ này được thực hiện qua các phép toán tối ưu để giảm số chiều.

Kết quả của việc giảm số chiều được sử dụng làm đầu vào cho thuật toán huấn luyện và phân loại.

5.1.4.1.Thuật toán giảm số chiều LSI/SVD

Input: Cho ma trận term–doc A∈¡ mxn là ma trận biểu diễn tập dữ liệu huấn

luyện và số nguyên k>0 1. Tính T k k k k A =UV 2. Đặt ma trận Y bằng T kVkOutput: Y∈¡ kxn - Ma trận Y = T kVk

∑ là ma trận term – doc biểu diễn văn bản trong không gian ngữ nghĩa ẩn k chiều của tập văn bản huấn luyện hay nói cách khác Y là ma trận biểu diễn giảm số chiều của ma trận A.

- Ma trận ^ T k

Q U Q= là ma trận term – doc biểu diễn tập văn bản kiểm thử (test) trong không gian ngữ nghĩa ẩn k chiều hay nói cách khác Q^ là ma trận biểu diễn giảm số chiều của ma trận Q .

- Nếu một văn bản q muốn biểu diễn giảm số chiều trong không gian k chiều thì ^

T k

5.1.4.2.Thuật toán giảm số chiều Centroid

Input: Cho ma trận term–doc A∈¡ mxn là ma trận biểu diễn tập dữ liệu huấn luyện

hoặc tập dữ liệu kiểm thử (test) và số nguyên k>0 là số lớp dữ liệu huấn luyện (trong luận văn này k=6 lớp)

1. Tính trọng tâm ci của chủ đề thứ i với 1≤ ≤i k

2. Đặt ma trận C =[c c1, ,...,2 ck]

3. Tìm minY CY A− 2

Output: Ma trận Y∈¡ kxn

– Nếu A là ma trận biểu diễn tập dữ liệu huấn luyện thì Y là ma trận dữ liệu huấn luyện biểu diễn giảm số chiều của A

– Nếu A là ma trận biểu diễn tập dữ liệu kiểm thử thì Y là ma trận dữ liệu kiểm thử biểu diễn giảm số chiều của A

– Nếu một văn bản q muốn biểu diễn giảm số chiều trong không gian k chiều thì

^

T k

q Q q= là một biểu diễn của q

5.1.4.3.Thuật toán giảm số chiều Orthogonal Centroid

Input: Cho ma trận term–doc A∈¡ mxn là ma trận biểu diễn tập dữ liệu huấn luyện

hoặc tập dữ liệu kiểm thử (test) và số nguyên k>0 là số lớp dữ liệu huấn luyện (trong luận văn này k=6 lớp)

1. Tính trọng tâm ci của lớp thứ i với 1≤ ≤i k

2. Đặt ma trận C =[c c1, ,...,2 ck]

3. Tính QR của ma trận C Q R= k

4. Y Q A= kT

Output: ma trận Y∈¡ kxn

– Nếu A là ma trận biểu diễn tập dữ liệu huấn luyện thì Y là ma trận dữ liệu huấn luyện biểu diễn giảm số chiều của A

– Nếu A là ma trận biểu diễn tập dữ liệu kiểm thử thì Y là ma trận dữ liệu kiểm thử biểu diễn giảm số chiều của A

– Nếu một văn bản q muốn biểu diễn giảm số chiều trong không gian k chiều thì

^

T k

Một phần của tài liệu XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU (Trang 59 - 61)

Tải bản đầy đủ (DOC)

(72 trang)
w