Đặc trưng văn bản tiếng Việt

Một phần của tài liệu giải pháp biểu diễn và so sánh mức độ tương đồng giữa các hồ sơ cá nhân trên mạng xã hội tv (Trang 29 - 31)

Các phương pháp rút trích thông tin [6][14][15] cổ điển thì coi mỗi một văn bản như là tập các từ khóa và gọi tập các từ khóa này là tập các term. Một phần tử trong tập term thì đơn giản là một từ, mà ngữ nghĩa của từ này giúp

tạo thành nên nội dung của văn bản. Vì vậy, tập term được sử dụng để tạo các chỉ mục và tóm lược nội dung của văn bản.

Giả sử cho một tập term của một văn bản nào đó, chúng ta có thể nhận thấy rằng không phải tất cả các từ trong tập term này đều có mức độ quan trọng như nhau trong việc mô tả nội dung văn bản. Ví dụ, bây giờ chúng ta xét một tập gồm một trăm ngàn văn bản, giả sử có một từ A nào đó xuất hiện trong một trăm ngàn văn bản này thì chúng ta có thể khẳng định rằng từ A này không quan trọng và chúng ta sẽ không quan tâm đến nó, bởi vì chắc chắn là nó sẽ không cho chúng ta biết được về nội dung của các văn bản này. Vì vậy từ A sẽ bị loại ra khỏi tập các term, khi chúng ta xây dựng tập term cho văn bản để miêu tả nội dung ngữ nghĩa của các văn bản này. Kết quả này có được thông qua thao tác xác định trọng số cho mỗi một từ trong tập term của một văn bản .

Đặt ki là từ thứ i trong tập term, dj là văn bản j, và wij >= 0 là trọng số của từ ki trong văn bản dj. Giá trị của trọng số này thì rất là quan trọng trong việc miêu tả nội dung của văn bản.

Đặt t là số luợng các từ trong tập term của hệ thống. K = {k1, k2, k3, …, kt} là tập tất cả các từ trong tập term, trong đó ki là từ thứ i trong tập term. Trọng số wij > 0 là trọng số của từ ki trong văn bản dj. Với mỗi một từ, nếu nó không xuất hiện trong văn bản thì wij = 0. Do đó, văn bản dj thì được biểu diễn bằng vector dj, trong đó vector dj = {wj1,wj2,wj3, ….,wjt }.

Các đặc trưng của văn bản khi biểu diễn dưới dạng vector

 Không gian đặc trưng thường lớn.  Các đặc trưng độc lập nhau.

 Các đặc trưng rời rạc: vector đặc trưng di

có thể có nhiều thành phần mang giá trị 0 do có nhiều đặc trưng không xuất hiện trong văn bản di (nếu chúng ta tiếp cận theo cách sử dụng giá trị nhị phân 1, 0 để biểu diễn cho việc có xuất hiện hay không một đặc trưng nào đó trong văn bản đang được biểu diễn thành vector), tuy nhiên

nếu đơn thuần cách tiếp cận sử dụng giá trị nhị phân 0, 1 này thì kết quả phân loại phần nào hạn chế là do có thể đặc trưng đó không có trong văn bản đang xét nhưng trong văn bản đang xét lại có từ khóa khác với từ đặc trưng nhưng có ngữ nghĩa giống với từ đặc trưng này, do đó một cách tiếp cận khác là không sử dụng số nhị phân 0, 1 mà sử dụng giá trị số thực để phần nào giảm bớt sự rời rạc trong vector văn bản.

2.3 Biểu diễn văn bản tiếng Việt

Có nhiều cách biểu diễn văn bản [2], luận văn trình bày các phương pháp biểu diễn văn bản phổ biến.

Một phần của tài liệu giải pháp biểu diễn và so sánh mức độ tương đồng giữa các hồ sơ cá nhân trên mạng xã hội tv (Trang 29 - 31)