Việc phân loại văn bản bao gồm hai bước chính: biểu diễn dữ liệu văn bản, huấn luyện mơ hình phân lớp. Do dữ liệu văn bản ở đầu vào ở dạng khơng cấu trúc, trong khi các giải thuật máy học ở giai đoạn tiếp theo sau thường chỉ cĩ thể xử lý được dữ liệu dạng cấu trúc bảng (mỗi dịng là một phần tử dữ liệu, cột là chiều hay thuộc tính). Để giải quyết vấn đề này, mơ hình túi từ cho phép chúng ta biểu diễn tập dữ liệu văn bản về cấu trúc bảng.
Bước tiền xử lý này bao gồm việc phân tích từ vựng và tách các từ trong nội dung của tập văn bản, sau đĩ chọn tập hợp các từ cĩ ý nghĩa quan trọng dùng để phân loại, biểu diễn dữ liệu văn bản về dạng bảng để từ đĩ các giải thuật máy học cĩ thể học để phân loại. Ở bước phân tích từ vựng, cơng việc cĩ thể là quy về từ gốc của các biến thể từ, cĩ thể xĩa bỏ các từ khơng cĩ ý nghĩa cho việc phân lớp như các mạo từ, từ nối,... Tiếp đến là tách các từ, đưa vào tự điển
Một văn bản được biểu diễn dạng vector (cĩ n thành phần là các từ tương ứng) mà giá trị thành phần thứ j là tần số xuất hiện từ thứ j trong văn bản. Nếu xét tập D gồm m văn bản và tự điển cĩ n từ vựng, thì D cĩ thể được biểu diễn thành bảng D kích thước m x n, dịng thứ i của bảng là vector biểu diễn văn bản thứ i tương ứng [2].
Ví dụ cách biểu diễn Bag of word của 2 văn bản như sau:
Hình 2.3 Ví dụ cách biểu diễn Bang of word
- Với những ứng dụng thực tế, từ điển cĩ nhiều hơn 10 từ rất nhiều, cĩ thể đến một trăm nghìn hoặc cả triệu, như vậy vector đặc trưng thu được sẽ rất dài. Một văn bản chỉ cĩ 1 câu, và 1 tiểu thuyết nghìn trang đều được biểu diễn bằng các vec- tor cĩ số chiều bằng 100 nghìn hoặc 1 triệu.
- Cĩ rất nhiều từ trong từ điển khơng xuất hiện trong một văn bản. Như vậy các vector đặc trưng thu được thường cĩ rất nhiều phần tử bằng 0. Các vector cĩ nhiều phần tử bằng 0 được gọi là sparse vector (sparse hiểu theo nghĩa là thưa thớt, rải rác, tơi xin phép chỉ sử dụng khái niệm này bằng tiếng Anh). Để việc lưu trữ được hiệu quả hơn, ta khơng lưu cả vector đĩ mà chỉ lưu vị trí của các phần tử khác 0 và giá trị tương ứng. Lưu ý: nếu cĩ hơn 50% số phần tử khác 0, việc làm này lại phản tác dụng!
- Đối những từ hiếm gặp khơng nằm trong từ điển, ta sẽ làm gì? Một cách thường được dùng là mở rộng vector đặc trưng thêm 1 phần tử, gọi là phẩn tử <Unknown>. Mọi từ khơng cĩ trong từ điền đều được coi là <Unknown>.
- Trong thực tế, đơi khi những từ hiếm đơi khi lại mang những thơng tin qua trọng nhất mà chỉ loại văn bản đĩ cĩ. Đây là một nhược điểm của Bag of World. Cĩ một phương pháp cải tiến khác giúp khắc phục nhược điểm này cĩ tên là Term Frequency-Inverse Document Frequency (TF-IDF) dùng để xác định tầm quan trọng của một từ trong một văn bản dựa trên tồn bộ văn bản trong cơ sở dữ liệu (corpus).
- Nhược điểm lớn nhất của Bag of World là nĩ khơng mang thơng tin về thứ tự của các từ. Cũng như sự liên kết giữa các câu, các đoạn văn trong văn bản. Ví dụ, ba câu sau đây: “Em yêu anh khơng?”, “Em khơng yêu anh”, và “Khơng, (nhưng) anh yêu em” khi được trích chọn đặc trưng bằng Bag of World sẽ cho ra ba vector giống hệt nhau, mặc dù ý nghĩa khác hẳn nhau.