Trọng số từ

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 43 - 47)

Cĩ một số phương pháp tính trọng số từ sau:

a. Phương pháp tính trọng số từ dựa trên Tần suất thuật ngữ (TF - Term Frequency)

- Là phương pháp để đánh giá các thuật ngữ trong một tài liệu. Ý tưởng cơ bản của phương pháp này là xem xét đến tần suất xuất hiện của từ đĩ trong tài liệu. Tức là một từ được coi là quan trọng trong tài liệu khi nĩ xuất hiện nhiều lần.

Gọi wij là giá trị trọng số của thuật ngữ ti trong văn bản dj.

Các giá trị wij được tính dựa trên tần số xuất hiện của thuật ngữ trong văn bản

[8]. Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj, khi đĩ wij được tính

bởi một trong các cơng thức:

(16)

Trọng số wij tỷ lệ thuận với số lần xuất hiện của thuật ngữ ti trong văn bản dj.

Khi số lần xuất hiện thuật ngữ ti trong văn bản dj càng lớn thì điều đĩ cĩ nghĩa là

văn bản dj càng phụ thuộc vào thuật ngữ ti, thuật ngữ ti mang nhiều thơng tin trong

văn bản dj.

b. Phương pháp tính trọng số từ dựa trên nghịch đảo tần số văn bản

(IDF – Inverse Document Frequency):

-Là phương pháp dựa trên nghịch đảo tần số văn bản. Trong phương pháp này trọng số của một từ được tính dựa trên độ quan trọng của từ đĩ trong văn bản. Nếu từ đĩ xuất hiện trong càng ít văn bản, điều đĩ cĩ nghĩa là khi nĩ xuất hiện trong một văn bản nào đĩ thì trọng số của nĩ đối với văn bản đĩ càng lớn hay nĩ là điểm quan trọng để phân biệt giữa văn bản đĩ với các văn bản khác.

(17)

Trong đĩ m là số lượng văn bản và hi là số văn bản mà thuật ngữ ti xuất hiện.

Trọng số wij trong cơng thức này được tính dựa trên độ quan trọng của thuật

ngữ ti trong văn bản dj. Nếu ti xuất hiện trong càng ít văn bản, điều đĩ cĩ nghĩa là

nếu nĩ xuất hiện trong dj thì trọng số của nĩ đối với văn bản dj càng lớn hay nĩ là

điểm quan trọng để phân biệt văn bản dj với các văn bản khác và hàm lượng thơng

tin trong nĩ càng lớn. Ví dụ các thuật ngữ “tiền đạo”, “hậu vệ”, “thủ mơn” chỉ xuất hiện trong các bài báo nĩi về lĩnh vực bĩng đá. Như vậy, hàm lượng thơng tin về bĩng đá chứa đựng trong các thuật ngữ trên là rất lớn.

c. Phương pháp tính trọng số từ dựa trên TF.IDF (Term Frequency Inverse Document Frequency)

Mơ hình này là sự kết hợp của 2 mơ hình trên, giá trị của ma trận trọng số được tính như sau:

  

  

 log log( ) log( )

0

h m

h m

wij i i Nếu thuật ngữ ti xuất hiện trong tài liệu dj

Nếu ngược lại

ij if

              l¹i ng-ỵc nÕu nÕu 1 0 h h m f wij [ log( ij)]log i ij 1 (18)

Ưu điểm của TF là tận dụng được tính thường xuyên của thuật ngữ trong văn bản. Ưu điểm của IDF là loại bỏ được các thuật ngữ xuất hiện quá phổ biến trong cơ sở dữ liệu. Trọng số wijđược tính bằng tần số xuất hiện của thuật ngữ ti trong văn

bản dj và độ hiếm của thuật ngữ ti trong tồn bộ cơ sở dữ liệu.

Với mơ hình TF.IDF, trọng số wij cĩ ý nghĩa kết hợp sự quan trọng của ti

trong văn bản dj với giá trị phân biệt bởi tigiữa văn bản d với các văn bản khác.

d. Phương pháp tính trọng số từ dựa trên TF.ISF (Term Frequency Inverse Sentence Frequency).

Trong bài tốn tĩm tắt văn bản Tiếng việt đang xét thì đối tượng tĩm tắt là khơng phải là đa văn bản mà là đơn văn bản, chính vì vậy việc xử lý được tiến hành trên các câu và thành phần vector được biểu diễn chính là các câu chứ khơng phải là các văn bản. Tương tự vậy, số lượng văn bản D trong cơng thức sẽ được thay thế bởi số lượng các câu của văn bản. Do đĩ, phương pháp TF.ISF sẽ được áp dụng trong bài tốn này để tính trọng số của một từ i trong một câu j, ký hiệu là TF.ISF(i,j) và được tính theo cơng thức:

Wij = tfij . isfi

Với giá trị

tfij = 1 + log(fij) isfij =  

i

h m

log (19)

Trong đĩ,

fij là số lần xuất hiện của từ thứ i trong câu j.

tfij là ‘term frequency’ của từ thứ i trong câu thứ j.

isfij là ‘inverse sentence frequency’ của từ thứ i trong câu thứ j m là tổng số các câu trong văn bản đầu vào.

Giải thuật tính trọng số câu là giải thuật đơn giản nhất của hệ thống. Mục đích của nĩ là tạo ra TTVB bằng cách xây dựng hệ thống tính trọng số cho mỗi câu của văn bản. Sau đĩ dựa vào hệ số rút gọn để rút ra những câu cĩ điểm cao nhất.

3.3.2.2. Tính trọng số câu

Trước khi mơ tả việc xây dựng giải thuật, cĩ thể đưa ra một số nhận xét sau: - Các từ xuất hiện trong tiêu đề thường là các từ rất quan trọng trong văn bản, tuy khơng thể chỉ dùng chúng để quyết định độ quan trọng của các câu trong văn bản. Cĩ thể áp dụng cho giải thuật bằng cách tăng trọng số của các từ này theo một hệ số nào đĩ.

- Thơng tin đưa ra trong một vài câu đầu (nhiều khi là một đoạn văn đầu) của văn bản trong hầu hết trường hợp cĩ tính biểu lộ cao ý nghĩa của văn bản. Các câu quan trọng cũng cĩ thể xuất hiện ở cuối văn bản, nhưng ít hơn so với đầu văn bản. Vì vậy, với mỗi câu thuộc các vị trí đầu hoặc cuối văn bản, tăng trọng số của chúng theo một hệ số nào đĩ.

- Với những văn bản cĩ mật độ thơng tin dày đặc, đặc biệt đối với những văn bản về lĩnh vực thương mại hay tài chính, sẽ rất khĩ khăn cho hệ thống khi trích rút. Do vậy độ chính xác của tĩm tắt sẽ thấp hơn, cĩ nghĩa là hệ thống cĩ thể sẽ bỏ qua nhiều thơng tin quan trọng. Điều này hiển nhiên sẽ giới hạn các lĩnh vực nội dung văn bản mà hệ thống cĩ thể thực hiện. Tuy nhiên, cũng phải thừa nhận rằng chính con người khi tĩm tắt các văn bản thuộc loại này cũng gặp rất nhiều khĩ khăn.

Vì vậy trong luận văn này sẽ gán một hệ số vị trí như sau: - Hệ số vị trí 3 ( ) 2 1 vt h s      

nếu s là đầu câu

Tính trọng số các câu

Đầu vào: Các từ trong câu sau khi loại bỏ từ dừng Đầu ra: Trọng số của câu.

Tính trọng số cho mỗi thuật ngữ t trong câu s: nếu s là câu tiêu đề

. ( , ) (1 log( ts)) log( ) vt( ) t m TF ISF t s f h t h     (20)

Trong đĩ: m là số lượng câu trong văn bản. hvt (t) là hệ số vị trí

ftslà số lần xuất hiện từ t trong câu s ht là số lượng các câu chứa từ t -Tính trọng số câu ( ) 1 ore(s) = t s .IS ( , )i i Sc   TF F t s (21) Trong đĩ: t(s) là số thuật ngữ cĩ trong câu s.

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 43 - 47)