Theo truyền thống , một văn bản D thì được biểu diễn bằng một vector đặc trưng theo dạng (d1,d2,…,dn) , trong đó di là trọng số của đặc trưng thứ i và n là số lượng
__________________________________________________________________________ _
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
các đặc trưng . Mỗi một đặc trưng tương ứng với một từ xuất hiện trong tập huấn luyện , sau khi loại bỏ các stopword ra khỏi các văn bản .
Phương pháp 1:
Phương pháp phổ biến nhất để rút trích các đặc trưng là dựa vào tần suất xuất hiện của các từ riêng biệt trong các văn bản . Phương pháp này thực hiện thông qua hai bước sau
Bước 1 : Loại bỏ các từ chung (ngữ nghĩa của các từ này không ảnh hưởng đến nội dung của văn bản) ra khỏi văn bản bằng cách sử dụng một từ điển đặc biệt , hoặc là sử dụng danh sách các từ tầm thường ( stopword ) .
Bước 2 : Xác định tần suất xuất hiện tfij của các từ Tj còn lại trong mỗi văn bản Di và đặc biệt là số lần xuất hiện của Tj trong Di . Sau đó dựa vào tần suất xuất hiện của các từ này , chúng ta sẽ tính giá trị trọng số cho các từ Tj này . Và n từ Tj có giá trị trọng số lớn nhất sẽ được chọn làm n đặc trưng của văn bản .
Phương pháp 2:
Một phương pháp khác để rút trích các đặc trưng của văn bản là sự kết hợp tần suất xuất hiện của từ trong văn bản và tần suất xuất hiện ngược trong văn bản (TF-IDF) . Lúc này chúng ta có công thức tính giá trị trọng số cho từ Tj trong văn bản Di , như sau :
wij tf ih log(df j) N
×
=
Trong đó : dfj là số luợng văn bản trong tập văn bản N mà trong đó từ Tj có xuất hiện
.Và cũng tương tự như trong phương pháp 1 , n từ Tj có giá trị trọng số lớn nhất sẽ được chọn làm n đặc trưng của văn bản .
Tuy nhiên , chúng ta nhận thấy rằng các phương pháp rút trích đặc trưng trình bày ở trên thì không phù hợp , vì các lý do sau :
__________________________________________________________________________ _
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
o Phương pháp kết hợp TF-IDF có thể lấy ra tất cả các đặc trưng có tần suất xuất hiện tương đối thấp trong văn bản .
o Các phương pháp trình bày ở trên đã không xem xét đến mức độ phủ của các đặc trưng được rút trích . Mức độ phủ của các đặc trưng được định nghĩa là số phần trăm các văn bản chứa ít nhất một đặc trưng trong số các đặc trưng được rút trích .Do các phương pháp ở trên chỉ chọn n từ có giá trị trọng số lớn nhất và xem đó như là các đặc trưng , thì dẫn tới là không có gì bảo đảm là các đặc trưng này có số phần trăm bao phủ các văn bản là cao . Hơn nữa , nếu số phần trăm bao phủ là thấp thì sẽ có nhiều văn bản được biểu diễn bằng một vector đặc trưng , mà trong đó tất cả các thành phần trong vector này đều có giá trị là 0 ( giá trị trọng số bằng không ) .
o Nếu tất cả các từ đều được chọn như là đặc trưng thì chiều dài của vector đặc trưng sẽ lên tới con số hàng ngàn .Điều này làm cho thời gian xử lý sẽ rất lâu . Khi tất cả các đặc trưng được chọn thì theo [8] thì có ít hơn 4% các vector mà giá trị tất cả các thành phần trong vector này khác 0.Như thế thì trên 96% không gian bộ nhớ sẽ bị bỏ trống , khi vector đặc trưng này được dùng để biểu diễn một văn bản .