Bước đầu tiên trong qui trình phân loại văn bản là thao tác chuyển văn bản đang được mơ tả duới dạng chuỗi các từ thành một mơ hình khác, sao cho phù hợp với các thuật tốn phân loại, thơng thường nguời ta thường biểu diễn văn bản bằng mơ hình vector. Ý tưởng của mơ hình này là xem mỗi một văn
bản ( Di ) được biểu diễn theo dạng Di di,i
, trong đĩ i là chỉ số dùng để nhận diện văn bản này và dilà vector đặc trưng của văn bản Di này , trong đĩ : di(wi1,wi2,...,win)
, và n là số luợng đặc trưng của vector văn bản , wij
là trọng số của đặc trưng thứ j , j1,2,...,n .
Một vấn đề cần quan tâm khi biểu diễn văn bản theo vector đặc trưng chính là việc chọn lựa đặc trưng và số chiều cho khơng gian vector . Cần phải chọn bao nhiêu từ , là các từ nào , phương pháp chọn ra sao ? . Đây là câu hỏi chúng ta phải trả lời trong qúa trình chuyển văn bản sang thành vector , cĩ nhiều cách tiếp cận khác nhau để trả lời cho câu hỏi này , tiêu biểu là sử dụng phương pháp Information Gain , phương pháp DF – Thresolding hay phương pháp Term Strength . Phương pháp Information Gain sử dụng độ đo MI ( Mutual Information) để chọn ra tập từ khĩa đặc trưng cĩ độ đo MI cao nhất . Tuy nhiên , việc chọn lựa phương pháp nào thì tuỳ thuộc vào độ thích hợp , phù hợp của phương pháp , của độ đo mà phương pháp đĩ sử dụng so với bài tốn mà chúng ta đang xem xét giải quyết , cĩ thể là nếu văn bản là một trang web thì sẽ cĩ phương pháp để chọn lựa đặc trưng khác so với các văn bản loại khác .
Các đặc trưng của văn bản khi biểu diễn dưới dạng vector :
Số nhiều khơng gian đặc trưng thường lớn . Các đặc trưng độc lập nhau.
Các đặc trưng rời rạc : vector đặc trưng di cĩ thể cĩ nhiều thành phần mang giá trị 0 do cĩ nhiều đặc trưng khơng xuất hiện trong văn bản di (nếu chúng ta tiếp cận theo cách sử dụng giá trị nhị phân 1, 0 để biểu diễn cho việc cĩ xuất hiện hay khơng một đặc trưng nào đĩ trong văn bản đang được biểu diễn thành vector) , tuy nhiên
nếu đơn thuần cách tiếp cận sử dụng giá trị nhị phân 0, 1 này thì kết qủa phân loại phần nào hạn chế là do cĩ thể đặc trưng đĩ khơng cĩ trong văn bản đang xét nhưng trong văn bản đang xét lại cĩ từ khĩa khác với từ đặc trưng nhưng cĩ ngữ nghĩa giống với từ đặc trưng này , do đĩ một cách tiếp cận khác là khơng sử dụng số nhị phân 0, 1 mà sử dụng giá trị số thực để phần nào giảm bớt sự rời rạc trong vector văn bản.