Trong phần này, luận văn giới thiệu một số mơ hình biểu diễn văn bản trong giai đoạn tiền xử lý văn bản.
Mơ hình xác suất
Hình 1. 4 Biểu diễn văn bản theo mơ hình xác suất [1].
Mơ hình xác suất là mơ hình tốn học làm việc với các biến ngẫu nhiên và phân bố xác suất của nĩ . Theo thuật ngữ tốn học, một mơ hình xác suất cĩ thể được coi như một cặp (Y, P), trong đĩ Y là tập các quan sát (biến ngẫu nhiên) và P là tập các phân bố xác suất trên Y. Khi đĩ, sử dụng suy diễn xác suất sẽ cho ta kết luận về các phần tử của tập Y. Các phương pháp suy diễn cĩ thể là các phương pháp hồi quy hoặc suy diễn Bayes.
Văn bản trong mơ hình xác suất được coi như một quan sát trong tập Y, trong đĩ các từ trong văn bản được giả thiết là độc lập, khơng phụ thuộc vào vị trí cũng như ngữ pháp trong văn bản. Khi đĩ văn bản sẽ gồm các từ mà nĩ chứa trong đĩ, chính vì vậy mà phương pháp này được gọi là biểu diễn túi - các - từ (bag - of - word). Để đơn giản, người ta cịn gọi là mơ hình biểu diễn theo túi - các - từ. Mơ hình này được sử dụng nhiều trong phân lớp văn bản khi áp dụng suy diễn Bayes trong bài tốn phân lớp.
Mơ hình khơng gian vector
Mơ hình khơng gian vector là một trong những mơ hình tốn học được sử dụng rộng rãi nhất trong biểu diễn văn bản bởi tính chất dễ hiểu của nĩ [6]. Mơ hình này được đề xuất bởi Salton và cộng sự năm 1975 khi giải quyết bài tốn truy vấn thơng tin. Theo cách biểu diễn này, mỗi văn bản được biểu diễn trong một khơng
gian nhiều chiều, trong đĩ mỗi chiều tương ứng với một từ trong văn bản. Một từ với độ quan trọng của nĩ được xác định bằng một phương pháp đánh chỉ số trong văn bản và giá trị trọng số được chuẩn hố trong đoạn [0, 1].
Tổng quát hơn, một văn bản d trong khơng gian vector, ký hiệu là vd sẽ được
biểu diễn như sau trong một khơng gian vector gồm N chiều, trong đĩ N là số lượng từ cĩ trong tập văn bản: vd = [w1,d, w2,d,..., wN,d]T
. Khi đĩ độ giống nhau giữa hai văn bản sẽ được tính bằng độ đo cosine giữa hai vector:
cos = (𝑣1∗𝑣2)
‖𝑣1‖∗‖𝑣2‖ (1.8) Mơ hình khơng gian vector là mơ hình tốn học hết sức quan trọng trong biểu diễn văn bản, đặc biệt là trong lĩnh vực truy vấn thơng tin. Với mơ hình này, các văn bản được sắp xếp theo mức độ liên quan đến nội dung yêu cầu. Việc lưu trữ dữ liệu và tìm kiếm đơn giản hơn khi sử dụng mơ hình logic.
Các đặc trưng của văn bản khi biểu diễn dưới dạng vector
- Khơng gian đặc trưng thường lớn. Các văn bản càng dài, lượng thơng tin trong nĩ đề cập đến nhiều vấn đề thì khơng gian đặc trưng càng lớn.
- Các đặc trưng độc lập nhau. Sự kết hợp các đặc trưng này thường khơng cĩ ý nghĩa trong phân lớp.
- Các đặc trưng rời rạc: Vector đặc trưng di cĩ thể cĩ nhiều thành phần mang giá trị 0 do cĩ nhiều đặc trưng khơng xuất hiện trong văn bản di (nếu tiếp cận theo cách sử dụng giá trị nhị phân 0,1 để biểu diễn cho việc cĩ xuất hiện hay khơng một đặc trưng nào đĩ trong văn bản đang được biểu diễn thành vector). Tuy nhiên, nếu đơn thuần cách tiếp cận sử dụng giá trị nhị phân 0,1 này thì kết quả phân loại phần nào hạn chế do cĩ thể đặc trưng đĩ khơng cĩ trong văn bản đang xét, nhưng trong văn bản đang xét lại cĩ từ khĩa khác với từ đặc trưng nhưng cĩ ngữ nghĩa giống với từ đặc trưng này. Do đĩ, một cách tiếp cận khác là khơng sử dụng số nhị phân 0,1 mà sử dụng giá trị số thực để phần nào giảm bớt sự rời rạc trong vector văn bản.