Bƣớc đầu tiên của mọi phƣơng pháp phân cụm là chuyển việc mô tả văn bản dùng chuỗi ký tự thành một dạng mô tả khác, phù hợp với các thuật toán học theo mẫu và phân cụm. Hầu hết các thuật toán đều sử dụng cách biểu diễn văn bản sử dụng vector đặc trƣng.
Ý tuởng chính là xem mỗi văn bản di tƣơng ứng là một vector đặc trƣng:
trong không gian các từ Wn (wi là một từ, một đặc trƣng, tƣơng ứng một chiều của không gian). Giá trị của TF(wi) chính là số lần xuất hiện của từ wi trong văn bản di. Từ đƣợc chọn là một đặc trƣng khi nó xuất hiện trong ít nhất 3 văn bản. Để không bị phụ thuộc vào chiều dài văn bản vector đặc trƣng sẽ đƣợc chuẩn hóa về chiều dài đơn vị:
Trong thực tế để cải thiện tốc độ và kết quả ngƣời ta thƣờng sử dụng
IDF(wi) hoặc TFIDF(wi) thay cho TF(wi)
Trong đó:
m chính là số văn bản huấn luyện DF(wi) là số văn bản có chứa từ wi
Các đặc trƣng của văn bản khi biểu diễn dƣới dạng vector : Số chiều không gian đặc trƣng thƣờng rất lớn (trên 10000)
Có các đặc trƣng độc lập nhau, sự kết hợp các đặc trƣng này thƣờng không có ý nghĩa trong phân loại
Đặc trƣng rời rạc : vector di có rất nhiều giá trị 0 do có nhiều đặc trƣng không xuất hiện trong văn bản di .
Hầu hết các văn bản có thể đƣợc phân chia một cách tuyến tính bằng các hàm tuyến tính.
Vấn đề mà ta cần quan tam trong quá trình chuyển dữ liệu từ dạng văn bản sang dạng vector là vấn đề lựa chọn đặc trƣng cho vector đặc trƣng, số chiều của vector. Nhƣ vậy ta cần phải trả lời câu hỏi chọn bao nhiêu từ, chọn các từ nào, dùng phƣơng pháp nào để chọn…
* Một số đặc trƣng của văn bản đƣợc biểu diễn dƣới dạng vector:
Đặc trƣng thứ nhất của văn bản là:Không gian đặc trƣng thƣơng rất lớn. Vì các văn bản thƣờng rất dài, lƣợng thông tin mà các văn bản đề cập đến thƣờng là rất nhiều vấn đề.
Nội dung đặc trƣng của văn bản thƣờng là độc lập nhau. Do vậykhi kết hợp các đặc trƣng nàytrong phân lớpthƣờng không có ý nghĩa.
Đặc trƣng thứ ba là:Tính rời rạc. Nếu chúng ta sử dụng giá trị nhị phân 0 hoặc 1 để biểu diễn việc có xuất hiện một một đặc trƣng nào đó hay không trong văn bản. Thì vector di có thể có nhiều thành phần chứa giá trị 0 vì có thể có nhiều đặc trƣng không xuất hiện trong văn bản. Điều đó dẫn đến kết quả phân lớp bị hạn chế.Vì có thể đặc trƣng đó không có trong văn bản đang xét, mà trong văn bản đang xét lại có từ khóa khác với từ đặc trƣng, nhƣng có ngữ nghĩa giống với từ đặc trƣng này.Có một cách giải quyết vấn đề này là không sử dụng số nhị phân 0, 1 mà ta thay bằng giá trị thực để giảm bớt sự rời rạc trong vector văn bản.
Đa số các văn bản đều có thể phân chia ra thành dữ liệu tuyến tính thông qua các hàm tuyến tính.
Độ dài của vector đƣợc xác định thông qua số các từ khóa xuất hiện ít nhất một lần trong một mẫu dữ liệu huấn luyện.
Khi đánh trọng số cho các từ khoá ta cần loại bỏ các từ thƣờng xuất hiện mà không mang lại ý nghĩa gì trong việc phân lớp văn.
Ví dụ: Trong tiếng Việt có một số từ sau: “hoặc”, “và”, “thì”, … Trong tiếng Anh thƣờng là các liên từ, trạng từhoặc các giới từ nhƣ: “an”, “and”,“the”, “a”, …
* Một số yếu tố tác động đến phân cụm văn bản:
Tập dữ liệu huấn luyện: Tập dữ liệu huấn luyện phải chuẩn và đủ lớn để đảm bảo thuật toán sau khi đƣợc huấn luyện sẽ có khả năng phân cụm tốt các dữ liệu mới đƣợc đƣa vào.
Phƣơng pháp tách từ: Đối với một số ngôn ngữ thì thao tác tách từ trongvăn bản rất đơn giảnlà ta dựa vào các khoảng trắng để tiến hành tách từ, nhƣngmột số ngôn ngữ khác thì cách tách nhƣ vậy lại không chính xác nhƣ tiêng thái, tiếng campuchia, ... Do đó phƣơng pháp tách từ là một yếu tốquan trọng, ta phải dựa vào đặc điểm của từng loại ngôn ngữ, để có thể đƣa ra chiến lƣợc tách tự cho phù hợp.
Thời gian xử lý: Là một yếu tố rất quan trọng tác động đến phân lớp văn bản vì số lƣợng văn bản là rất lớn. Do vậy nếu thời gian xử lý không hợp lý thì sẽ dẫn tới thuật toán phân lớp văn bản không khả thi.
3.2 Hƣớng giải quyết của bài toán * Tiền xử lý văn bản: