Biểu diễn văn bản bằng vector đặc trưng

Một phần của tài liệu Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ (Trang 33 - 36)

4. Phạm vi ứng dụng

2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng

Giới thiệu phương pháp

Sử dụng mơ hình khơng gian vector (vector space model) là cách làm phổ biến để biểu diễn các văn bản. Mỗi văn bản sẽ tương ứng với một vectơ nhiều chiều trong khơng gian Euclide. Ở đây mỗi chiều sẽ tương ứng với một từ. Dựa trên tập hợp các văn bản, cĩ thể xây dựng khối lượng từ vựng tương đối đầy đủ, tương ứng số chiều của khơng gian. Điều quan trọng ngồi văn bản lưu trữ, các câu truy vấn đưa vào cũng phải được biểu diễn bằng vector. Theo phương pháp này, sử dụng

mơ hình khơng gian vector đểmơ tả đặc trưng của văn bản. Trong đĩ số chiều của khơng gian vector phụ thuộc vào phương pháp rút trích đặc trưng văn bản sẽ nêu ở sau và mỗi thành phần của vector đặc trưng là trọng số của 1 từ (term) trong hệ

thống các văn bản.

Theo phương pháp này, mỗi một văn bản (Di) được biểu diễn theo dạng     → i i

D , , trong đĩ i là chỉ số dùng để nhận diện văn bản này và di là vector đặc trưng của văn bản Di này , trong đĩ : d→ =(wi1,...,win) , và n là số luợng đặc trưng của vector văn bản , Wijlà trọng số của đặc trưng thứ j, j∈{1,2,...,n} .Trọng số Wijlà là một đại lượng được sẽ được trình bày dưới đây

Một số cơng thức tính vector thành phần của vector đặc trưng

Mỗi thành phần của vector đặc trưng là mỗi từ hay cụm từ. Chất lượng của việc tách từ trong văn bản phụ thuộc vào phương pháp và kỹthuật tách từ.

+Phương pháp trọng lượng từ

Theo phương pháp này, mỗi thành phần của vector đặc trưng được tính theo cơng thức sau     = k df n k i tf wi *log (2.1) Trong đĩ

n là tổng số văn bản trong cơ sởdữ liệu. – tfik là sốlần từ k xuất hiện trong văn bản Di. – dfklà tổng số văn bản cĩ từk.

+Phương pháp đếm từ(Term count)

Theo phương pháp này, mỗi thành phần của vector đặc trưng được tính theo cơng thức sau:

ik k tf w = hoặc =log k k df n w (2.2) Trong đĩ

n là tổng số văn bản trong cơ sởdữ liệu.

tfik là số lần từthứk xuất hiện trong văn bản Di. – dfklà tổng số văn bản cĩ từ k.

+Phương pháp nhịphân

Phương pháp này khá đơn giản, trọng số Wik=1 nếu từ i xuất hiện trong văn bản Divà ngược lại thì Wik=0

Các đặc điểm của vector đặc trưng của văn bản

−Số chiều khơng gian đặc trưng thường lớn.

−Các đặc trưng độc lập nhau.

−Các đặc trưng rời rạc nhau như khi vector đặc trưng di cĩ thể cĩ nhiều thành phần mang giá trị 0 do cĩ nhiều đặc trưng khơng xuất hiện trong văn bản di(nếu tiếp cận theo cách sử dụng giá trị nhị phân 1, 0 để biểu diễn cho việc cĩ xuất hiện hay khơng một đặc trưng nào đĩ trong văn bản đang được biểu diễn thành vector), tuy nhiên nếu đơn thuần cách tiếp cận sử dụng giá trị nhị phân 0, 1 này thì kết quả phân loại phần nào hạn chế là do cĩ thể đặc trưng đĩ khơng cĩ trong văn bản đang xét nhưng trong văn bản đang xét lại cĩ từ khĩa khác với từ đặc trưng nhưng cĩ ngữ nghĩa giống với từ đặc trưng này, do đĩ một cách tiếp cận khác là khơng sử dụng số nhị phân 0,1 mà sử dụng giá trị số thực để phần nào giảm bớt sựrời rạc trong vector văn bản.

Wik = 1: nếu từthứk xuất hiện trong văn bản

Di

0 :nếu từ thứ k khơng xuất hiện trong văn bản Di

Một phần của tài liệu Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ (Trang 33 - 36)

Tải bản đầy đủ (PDF)

(83 trang)