4. Phạm vi ứng dụng
2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng
Giới thiệu phương pháp
Sử dụng mô hình không gian vector (vector space model) là cách làm phổ biến để biểu diễn các văn bản. Mỗi văn bản sẽ tương ứng với một vectơ nhiều chiều trong không gian Euclide. Ở đây mỗi chiều sẽ tương ứng với một từ. Dựa trên tập hợp các văn bản, có thể xây dựng khối lượng từ vựng tương đối đầy đủ, tương ứng số chiều của không gian. Điều quan trọng ngoài văn bản lưu trữ, các câu truy vấn đưa vào cũng phải được biểu diễn bằng vector. Theo phương pháp này, sử dụng
mô hình không gian vector đểmô tả đặc trưng của văn bản. Trong đó số chiều của không gian vector phụ thuộc vào phương pháp rút trích đặc trưng văn bản sẽ nêu ở sau và mỗi thành phần của vector đặc trưng là trọng số của 1 từ (term) trong hệ
thống các văn bản.
Theo phương pháp này, mỗi một văn bản (Di) được biểu diễn theo dạng → i i
D , , trong đó i là chỉ số dùng để nhận diện văn bản này và d→i là vector đặc trưng của văn bản Di này , trong đó : d→ =(wi1,...,win) , và n là số luợng đặc trưng của vector văn bản , Wijlà trọng số của đặc trưng thứ j, j∈{1,2,...,n} .Trọng số Wijlà là một đại lượng được sẽ được trình bày dưới đây
Một số công thức tính vector thành phần của vector đặc trưng
Mỗi thành phần của vector đặc trưng là mỗi từ hay cụm từ. Chất lượng của việc tách từ trong văn bản phụ thuộc vào phương pháp và kỹthuật tách từ.
+Phương pháp trọng lượng từ
Theo phương pháp này, mỗi thành phần của vector đặc trưng được tính theo công thức sau = k df n k i tf wi *log (2.1) Trong đó
– n là tổng số văn bản trong cơ sởdữ liệu. – tfik là sốlần từ k xuất hiện trong văn bản Di. – dfklà tổng số văn bản có từk.
+Phương pháp đếm từ(Term count)
Theo phương pháp này, mỗi thành phần của vector đặc trưng được tính theo công thức sau:
ik k tf w = hoặc =log k k df n w (2.2) Trong đó
– n là tổng số văn bản trong cơ sởdữ liệu.
– tfik là số lần từthứk xuất hiện trong văn bản Di. – dfklà tổng số văn bản có từ k.
+Phương pháp nhịphân
Phương pháp này khá đơn giản, trọng số Wik=1 nếu từ i xuất hiện trong văn bản Divà ngược lại thì Wik=0
Các đặc điểm của vector đặc trưng của văn bản
−Số chiều không gian đặc trưng thường lớn.
−Các đặc trưng độc lập nhau.
−Các đặc trưng rời rạc nhau như khi vector đặc trưng di có thể có nhiều thành phần mang giá trị 0 do có nhiều đặc trưng không xuất hiện trong văn bản di(nếu tiếp cận theo cách sử dụng giá trị nhị phân 1, 0 để biểu diễn cho việc có xuất hiện hay không một đặc trưng nào đó trong văn bản đang được biểu diễn thành vector), tuy nhiên nếu đơn thuần cách tiếp cận sử dụng giá trị nhị phân 0, 1 này thì kết quả phân loại phần nào hạn chế là do có thể đặc trưng đó không có trong văn bản đang xét nhưng trong văn bản đang xét lại có từ khóa khác với từ đặc trưng nhưng có ngữ nghĩa giống với từ đặc trưng này, do đó một cách tiếp cận khác là không sử dụng số nhị phân 0,1 mà sử dụng giá trị số thực để phần nào giảm bớt sựrời rạc trong vector văn bản.
Wik = 1: nếu từthứk xuất hiện trong văn bản
Di
0 :nếu từ thứ k không xuất hiện trong văn bản Di