a. Phương pháp dựa trên tần số từ khĩa TF – Term Frequency
Các giá trị wij được tính dựa trên tần số xuất hiện của từ khĩa trong văn bản. Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj, khi đĩ wij được tính bởi một trong 3 cơng thức sau:
wij = fij
Hoặc wij = 1 + log(fij) Hoặc wij = √fij
Trong phương pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện của từ ti trong văn bản dj. Khi số lần xuất hiện từ khĩa ti trong văn bản dj càng nhiều thì điều đĩ cĩ nghĩa là văn bản dj càng phụ thuộc vào từ khĩa ti, hay nĩi cách khác từ khĩa ti mang nhiều thơng tin trong văn bản dj. Ví dụ: khi văn bản xuất hiện nhiều từ khĩa “phần mềm”, điều đĩ cĩ nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực cơng nghệ thơng tin.
b. Phương pháp dựa trên nghịch đảo tần số văn bản IDF
Trong phương pháp này, giá trị wij được tính theo cơng thức sau:
wij = {log m
hi = log m − log hi nếu từ khĩa ti xuất hiện trong tài liệu di 0 nếu ngược lại
Trong đĩ: m là số lượng văn bản và hi là số văn bản mà từ khĩa ti xuất hiện.
c. Phương pháp TF × IDF
trận trọng số được tính như sau:
wij = {[1 + log fij] ∗ logm
hi nếu fij≥ 1 0 nếu ngược lại
Phương pháp này kết hợp được ưu điểm của cả 2 phương pháp trên. Trọng số wij được tính bằng tần số xuất hiện của từ khĩa ti trong văn bản dj và độ hiếm của từ khĩa ti trong tồn bộ cơ sở dữ liệu.
Kết luận chương:
Chương này em đã giới thiệu tổng quan về bài tốn phân loại văn bản, một số phương pháp phân loại và các kỹ thuật liên quan đến biểu diễn văn bản. Bên cạnh đĩ, chương 1 cịn đưa ra lý do tại sao lại chọn thuật tốn SVM trong luận văn.
Chương 2 - ÁP DỤNG SVM VÀO BÀI TỐN PHÂN LOẠI VĂN BẢN