xử lí văn bản, đơn vị thông tin cơ bản được xử lí là các “tài liệu văn bản”. Theo cách đó các từ loại “thông tin” và “tài liệu” sẽ được sử dụng để thay thế cho nhau qua các phần còn lại của báo cáo này.
Trong giai đoạn tiền xử lí văn bản, mỗi văn bản được biểu diễn bởi một
vector C có N chiều w1, w2 ,..wN mỗi chiều wi đại diện cho một từ (term) xuất hiện trong văn bản, được đặc trưng bởi một đại lượng gọi là tần suất từ kí hiệu TF (term frequency) là số lần xuất hiện của từ đó trong tài liệu đang xét.
Kí hiệu DF (document frequency) là đại lượng đặc trưng cho số tài liệu có sự xuất hiện của từ loại wi và được kí hiệu là DF(wi). Lấy logarit cơ số 2 của nghịch đảo của đại lượng này nhân với tổng số tài liệu ta được tần suất tài liệu ngược kí hiệu là IDF(wi)
Công thức xác định IDF(Inverse document frequency)
IDF(wi) = log ) ( | | i w DF D
Trong đó |D| là tổng số các tài liệu. Tần suất tài liệu ngược của một từ là thấp nếu từ đó xuất hiện trong nhiều tài liệu và là cao nhất nếu từ đó chỉ xuất hiện trong một tài liệu. Trọng số của một từ loại wi trong tài liệu d là:
d(i) = TF(wi,d)*IDF(wi)
2.3 Giới thiệu về phân loại văn bản và một số phương pháp phân loại văn bản loại văn bản
2.3 Giới thiệu về phân loại văn bản và một số phương pháp phân loại văn bản loại văn bản văn bản D={d1,d2,…,dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}. Nhiệm vụ của bài toán là gán lớp di thuộc về cj đã được định nghĩa.
Có rất nhiều hướng tiếp cận bài toán phân loại văn bản đã được nghiên cứu như: tiếp cận bài toán phân loại dựa trên lý thuyết đồ thị, cách tiếp cận sử dụng lý