Biểu diễn văn bản bằng vector đặc trưng

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh (Trang 33 - 36)

4. Phạm vi ứng dụng

2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng

Giới thiệu phương pháp

Sử dụng mô hình không gian vector (vector space model) là cách làm phổ biến để biểu diễn các văn bản. Mỗi văn bản sẽ tương ứng với một vectơ nhiều chiều trong không gian Euclide. Ở đây mỗi chiều sẽ tương ứng với một từ. Dựa trên tập hợp các văn bản, có thể xây dựng khối lượng từ vựng tương đối đầy đủ, tương ứng số chiều của không gian. Điều quan trọng ngoài văn bản lưu trữ, các câu truy vấn đưa vào cũng phải được biểu diễn bằng vector. Theo phương pháp này, sử dụng

mô hình không gian vector đểmô tả đặc trưng của văn bản. Trong đó số chiều của không gian vector phụ thuộc vào phương pháp rút trích đặc trưng văn bản sẽ nêu ở sau và mỗi thành phần của vector đặc trưng là trọng số của 1 từ (term) trong hệ

thống các văn bản.

Theo phương pháp này, mỗi một văn bản (Di) được biểu diễn theo dạng     → i i

D , , trong đó i là chỉ số dùng để nhận diện văn bản này và di là vector đặc trưng của văn bản Di này , trong đó : d→ =(wi1,...,win) , và n là số luợng đặc trưng của vector văn bản , Wijlà trọng số của đặc trưng thứ j, j∈{1,2,...,n} .Trọng số Wijlà là một đại lượng được sẽ được trình bày dưới đây

Một số công thức tính vector thành phần của vector đặc trưng

Mỗi thành phần của vector đặc trưng là mỗi từ hay cụm từ. Chất lượng của việc tách từ trong văn bản phụ thuộc vào phương pháp và kỹthuật tách từ.

+Phương pháp trọng lượng từ

Theo phương pháp này, mỗi thành phần của vector đặc trưng được tính theo công thức sau     = k df n k i tf wi *log (2.1) Trong đó

n là tổng số văn bản trong cơ sởdữ liệu. – tfik là sốlần từ k xuất hiện trong văn bản Di. – dfklà tổng số văn bản có từk.

+Phương pháp đếm từ(Term count)

Theo phương pháp này, mỗi thành phần của vector đặc trưng được tính theo công thức sau:

ik k tf w = hoặc =log k k df n w (2.2) Trong đó

n là tổng số văn bản trong cơ sởdữ liệu.

tfik là số lần từthứk xuất hiện trong văn bản Di. – dfklà tổng số văn bản có từ k.

+Phương pháp nhịphân

Phương pháp này khá đơn giản, trọng số Wik=1 nếu từ i xuất hiện trong văn bản Divà ngược lại thì Wik=0

Các đặc điểm của vector đặc trưng của văn bản

−Số chiều không gian đặc trưng thường lớn.

−Các đặc trưng độc lập nhau.

−Các đặc trưng rời rạc nhau như khi vector đặc trưng di có thể có nhiều thành phần mang giá trị 0 do có nhiều đặc trưng không xuất hiện trong văn bản di(nếu tiếp cận theo cách sử dụng giá trị nhị phân 1, 0 để biểu diễn cho việc có xuất hiện hay không một đặc trưng nào đó trong văn bản đang được biểu diễn thành vector), tuy nhiên nếu đơn thuần cách tiếp cận sử dụng giá trị nhị phân 0, 1 này thì kết quả phân loại phần nào hạn chế là do có thể đặc trưng đó không có trong văn bản đang xét nhưng trong văn bản đang xét lại có từ khóa khác với từ đặc trưng nhưng có ngữ nghĩa giống với từ đặc trưng này, do đó một cách tiếp cận khác là không sử dụng số nhị phân 0,1 mà sử dụng giá trị số thực để phần nào giảm bớt sựrời rạc trong vector văn bản.

Wik = 1: nếu từthứk xuất hiện trong văn bản

Di

0 :nếu từ thứ k không xuất hiện trong văn bản Di

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh (Trang 33 - 36)

Tải bản đầy đủ (PDF)

(83 trang)