CHƢƠNG 1 : KHAI PHÁ DỮ LIỆU
1.4. Phân lớp văn bản
1.4.3. Biểu diễn văn bản
Bƣớc đầu tiên của mọi phƣơng pháp phân loại là chuyển việc mơ tả văn bản dùng chuỗi ký tự thành một dạng mơ tả khác, phù hợp với các thuật tốn học theo mẫu và phân lớp. Hầu hết các thuật tốn đều sử dụng cách biểu diễn văn bản sử dụng vector đặc trƣng.
Ý tuởng chính là xem mỗi văn bản di tƣơng ứng là một vector đặc trƣng: trong khơng gian các từ Wn (wi là một từ, một đặc trƣng, tƣơng ứng một chiều của khơng gian). Giá trị của TF(wi) chính là số lần xuất hiện của từ wi trong văn bản di. Từ đƣợc chọn là một đặc trƣng khi nĩ xuất hiện trong ít nhất 3 văn bản. Để khơng bị phụ thuộc vào chiều dài văn bản vector đặc trƣng sẽ đƣợc chuẩn hĩa về chiều dài đơn vị:
Hình 1.7. Biểu diễn văn bản
Trong thực tế để cải thiện tốc độ và kết quả ngƣời ta thƣờng sử dụng IDF(wi) hoặc TFIDF(wi) thay cho TF(wi)
Trong đĩ:
m chính là số văn bản huấn luyện. DF(wi) là số văn bản cĩ chứa từ wi .
Các đặc trƣng của văn bản khi biểu diễn dƣới dạng vector. Số chiều khơng gian đặc trƣng thƣờng rất lớn (trên 10000).
Cĩ các đặc trƣng độc lập nhau, sự kết hợp các đặc trƣng này thƣờng khơng cĩ ý nghĩa trong phân loại.
Đặc trƣng rời rạc: vector di cĩ rất nhiều giá trị 0 do cĩ nhiều đặc trƣng khơng xuất hiện trong văn bản di .
Hầu hết các văn bản cĩ thể đƣợc phân chia một cách tuyến tính bằng các hàm tuyến tính.
Việc phân loại sẽ tốt hơn nếu các thuật tốn tận dụng đƣợc những đặc trƣng này.