Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 42)

Trong phương pháp tính độ này, các câu sẽ được biểu diễn theo một mơ hình khơng gian vector. Mỗi thành phần trong vector chỉ đến một từ tương ứng trong danh sách mục từ chính. Danh sách mục từ chính thu được từ quá trình tiền xử lý văn bản đầu vào, các bước tiền xử lý gồm: tách câu, tách từ, loại bỏ những câu khơng hợp lệ (khơng phải là câu thực sự) và biểu diễn câu trên khơng gian vectơ. Khơng gian vector cĩ kích thước bằng số mục từ trong danh sách mục từ chính. Mỗi phần tử là độ quan trọng của mục từ tương ứng trong câu. Độ quan trọng của từ i

được tính bằng TF như sau: wij ij 2 ij j tf tf   (12) Trong đĩ, tfij là tần số xuất hiện của mục từ i trong câu j.

Với khơng gian biểu diễn tài liệu được chọn là khơng gian vector và trọng số TF, độ đo tương đồng được chọn là cosine của gĩc giữa hai vector tương ứng của hai câu Si và Sk. Vector biểu diễn hai câu lần lượt cĩ dạng:

Si = <w1i, …, wti> , với wti là trọng số của từ thứ t trong câu i

Sk = <w1k, …, wtk> , với wtk là trọng số của từ thứ t trong câu k Độ tương tự giữa chúng được tính theo cơng thức:

    1 2 2 1 1 w w ( , ) w . w t ji jk j i k t t ji jk j j Cos S S        (13) 3.3.2. Tính trọng số câu

Để tính trọng số câu trước hết ta phải tính trọng số của từ trong câu.

3.3.2.1. Trọng số từ

Cĩ một số phương pháp tính trọng số từ sau:

a. Phương pháp tính trọng số từ dựa trên Tần suất thuật ngữ (TF - Term Frequency)

- Là phương pháp để đánh giá các thuật ngữ trong một tài liệu. Ý tưởng cơ bản của phương pháp này là xem xét đến tần suất xuất hiện của từ đĩ trong tài liệu. Tức là một từ được coi là quan trọng trong tài liệu khi nĩ xuất hiện nhiều lần.

Gọi wij là giá trị trọng số của thuật ngữ ti trong văn bản dj.

Các giá trị wij được tính dựa trên tần số xuất hiện của thuật ngữ trong văn bản

[8]. Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj, khi đĩ wij được tính

bởi một trong các cơng thức:

(16)

Trọng số wij tỷ lệ thuận với số lần xuất hiện của thuật ngữ ti trong văn bản dj.

Khi số lần xuất hiện thuật ngữ ti trong văn bản dj càng lớn thì điều đĩ cĩ nghĩa là

văn bản dj càng phụ thuộc vào thuật ngữ ti, thuật ngữ ti mang nhiều thơng tin trong

văn bản dj.

b. Phương pháp tính trọng số từ dựa trên nghịch đảo tần số văn bản

(IDF – Inverse Document Frequency):

-Là phương pháp dựa trên nghịch đảo tần số văn bản. Trong phương pháp này trọng số của một từ được tính dựa trên độ quan trọng của từ đĩ trong văn bản. Nếu từ đĩ xuất hiện trong càng ít văn bản, điều đĩ cĩ nghĩa là khi nĩ xuất hiện trong một văn bản nào đĩ thì trọng số của nĩ đối với văn bản đĩ càng lớn hay nĩ là điểm quan trọng để phân biệt giữa văn bản đĩ với các văn bản khác.

(17)

Trong đĩ m là số lượng văn bản và hi là số văn bản mà thuật ngữ ti xuất hiện.

Trọng số wij trong cơng thức này được tính dựa trên độ quan trọng của thuật

ngữ ti trong văn bản dj. Nếu ti xuất hiện trong càng ít văn bản, điều đĩ cĩ nghĩa là

nếu nĩ xuất hiện trong dj thì trọng số của nĩ đối với văn bản dj càng lớn hay nĩ là

điểm quan trọng để phân biệt văn bản dj với các văn bản khác và hàm lượng thơng

tin trong nĩ càng lớn. Ví dụ các thuật ngữ “tiền đạo”, “hậu vệ”, “thủ mơn” chỉ xuất hiện trong các bài báo nĩi về lĩnh vực bĩng đá. Như vậy, hàm lượng thơng tin về bĩng đá chứa đựng trong các thuật ngữ trên là rất lớn.

c. Phương pháp tính trọng số từ dựa trên TF.IDF (Term Frequency Inverse Document Frequency)

Mơ hình này là sự kết hợp của 2 mơ hình trên, giá trị của ma trận trọng số được tính như sau:

  

  

 log log( ) log( )

0

h m

h m

wij i i Nếu thuật ngữ ti xuất hiện trong tài liệu dj

Nếu ngược lại

ij if

              l¹i ng-ỵc nÕu nÕu 1 0 h h m f wij [ log( ij)]log i ij 1 (18)

Ưu điểm của TF là tận dụng được tính thường xuyên của thuật ngữ trong văn bản. Ưu điểm của IDF là loại bỏ được các thuật ngữ xuất hiện quá phổ biến trong cơ sở dữ liệu. Trọng số wijđược tính bằng tần số xuất hiện của thuật ngữ ti trong văn

bản dj và độ hiếm của thuật ngữ ti trong tồn bộ cơ sở dữ liệu.

Với mơ hình TF.IDF, trọng số wij cĩ ý nghĩa kết hợp sự quan trọng của ti

trong văn bản dj với giá trị phân biệt bởi tigiữa văn bản d với các văn bản khác.

d. Phương pháp tính trọng số từ dựa trên TF.ISF (Term Frequency Inverse Sentence Frequency).

Trong bài tốn tĩm tắt văn bản Tiếng việt đang xét thì đối tượng tĩm tắt là khơng phải là đa văn bản mà là đơn văn bản, chính vì vậy việc xử lý được tiến hành trên các câu và thành phần vector được biểu diễn chính là các câu chứ khơng phải là các văn bản. Tương tự vậy, số lượng văn bản D trong cơng thức sẽ được thay thế bởi số lượng các câu của văn bản. Do đĩ, phương pháp TF.ISF sẽ được áp dụng trong bài tốn này để tính trọng số của một từ i trong một câu j, ký hiệu là TF.ISF(i,j) và được tính theo cơng thức:

Wij = tfij . isfi

Với giá trị

tfij = 1 + log(fij) isfij =  

i

h m

log (19)

Trong đĩ,

fij là số lần xuất hiện của từ thứ i trong câu j.

tfij là ‘term frequency’ của từ thứ i trong câu thứ j.

isfij là ‘inverse sentence frequency’ của từ thứ i trong câu thứ j m là tổng số các câu trong văn bản đầu vào.

Giải thuật tính trọng số câu là giải thuật đơn giản nhất của hệ thống. Mục đích của nĩ là tạo ra TTVB bằng cách xây dựng hệ thống tính trọng số cho mỗi câu của văn bản. Sau đĩ dựa vào hệ số rút gọn để rút ra những câu cĩ điểm cao nhất.

3.3.2.2. Tính trọng số câu

Trước khi mơ tả việc xây dựng giải thuật, cĩ thể đưa ra một số nhận xét sau: - Các từ xuất hiện trong tiêu đề thường là các từ rất quan trọng trong văn bản, tuy khơng thể chỉ dùng chúng để quyết định độ quan trọng của các câu trong văn bản. Cĩ thể áp dụng cho giải thuật bằng cách tăng trọng số của các từ này theo một hệ số nào đĩ.

- Thơng tin đưa ra trong một vài câu đầu (nhiều khi là một đoạn văn đầu) của văn bản trong hầu hết trường hợp cĩ tính biểu lộ cao ý nghĩa của văn bản. Các câu quan trọng cũng cĩ thể xuất hiện ở cuối văn bản, nhưng ít hơn so với đầu văn bản. Vì vậy, với mỗi câu thuộc các vị trí đầu hoặc cuối văn bản, tăng trọng số của chúng theo một hệ số nào đĩ.

- Với những văn bản cĩ mật độ thơng tin dày đặc, đặc biệt đối với những văn bản về lĩnh vực thương mại hay tài chính, sẽ rất khĩ khăn cho hệ thống khi trích rút. Do vậy độ chính xác của tĩm tắt sẽ thấp hơn, cĩ nghĩa là hệ thống cĩ thể sẽ bỏ qua nhiều thơng tin quan trọng. Điều này hiển nhiên sẽ giới hạn các lĩnh vực nội dung văn bản mà hệ thống cĩ thể thực hiện. Tuy nhiên, cũng phải thừa nhận rằng chính con người khi tĩm tắt các văn bản thuộc loại này cũng gặp rất nhiều khĩ khăn.

Vì vậy trong luận văn này sẽ gán một hệ số vị trí như sau: - Hệ số vị trí 3 ( ) 2 1 vt h s      

nếu s là đầu câu

Tính trọng số các câu

Đầu vào: Các từ trong câu sau khi loại bỏ từ dừng Đầu ra: Trọng số của câu.

Tính trọng số cho mỗi thuật ngữ t trong câu s: nếu s là câu tiêu đề

. ( , ) (1 log( ts)) log( ) vt( ) t m TF ISF t s f h t h     (20)

Trong đĩ: m là số lượng câu trong văn bản. hvt (t) là hệ số vị trí

ftslà số lần xuất hiện từ t trong câu s ht là số lượng các câu chứa từ t -Tính trọng số câu ( ) 1 ore(s) = t s .IS ( , )i i Sc   TF F t s (21) Trong đĩ: t(s) là số thuật ngữ cĩ trong câu s.

3.3.3 . Sinh câu tĩm tắt

Ở bước này thực hiện các cơng việc sau đây:

 Loại bỏ một câu trong cặp câu cĩ độ tương đồng cao (là các câu cĩ khả năng trùng lặp nội dung). Ta thực hiện loại bỏ câu cĩ độ dài ngắn hơn trong cặp câu cần loại.

 Lấy danh sách các câu theo tỷ lệ rút gọn.

 Sắp xếp chỉ số các câu được chọn cho văn bản tĩm tắt theo thứ tự giảm dần.  Lấy ra các câu sau khi đã sắp xếp tăng dần theo chỉ số được gán ban đầu. Đối với việc lựa chọn ngưỡng cho việc loại bỏ bớt câu cĩ nội dung trùng nhau trong văn bản cần cĩ thời gian trải qua quá trình thực nghiệm kiểm thử hoặc áp dụng các phương pháp hoc máy mới cĩ thể cho hiệu quả cao nhất. Do thời gian cĩ hạn nên chưa thể đưa ra được một ngưỡng chính xác tổng quát cho bài tốn tĩm tắt văn bản. Tuy nhiên, trong luận văn này vẫn đưa ra một ngưỡng cho việc loại bỏ câu theo ý kiến chủ quan dựa trên quá trình thử nghiệm thủ cơng nhằm cĩ thể minh họa một phần nào đĩ cho cách thức áp dụng module này vào hệ thống. Cụ thể, ngưỡng loại bỏ câu trùng nhau được đưa ra là 0.8.

3.4. Giai đoạn hiển thị

Giai đoạn hiển thị đơn giản là tiếp nhận các câu được chọn ở giai đoạn xử lý sau đĩ lấy ra nội dung ban đầu và hiển thị chúng ra màn hình.

CHƯƠNG 4: CÀI ĐẶT ỨNG DỤNG

Chương trình tĩm tắt đơn văn bản được xây dựng trên mơi trường .NET bằng ngơn ngữ C#. Đây là một ngơn ngữ cĩ khả năng xử lý tốt đối với dữ liệu phẳng, đồng thời nĩ cĩ hỗ trợ các đối tượng cấu trúc dữ liệu rất hữu ích cho bài tốn tĩm tắt văn bản.

4.1 Mơ tả sơ lược về hệ thống

4.1.1. Các bước triển khai chương trình

Bước 1: Tiền xử lý văn bản tiếng Việt:

- Tại bước này sẽ tiến hành tách câu trong văn bản bằng việc sử dụng cơng cụ tách câu được cung cấp miễn phí như: vnSentdetector được phát triển bởi nhĩm tác giả Lê Hồng Phương và Hồ Tường Vinh, mỗi câu khi tách xong sẽ được để trên một dịng đề tiện cho quá trình tách từ sau này hoặc sử dụng các thuật tốn để nhận dạng từng câu trong văn bản như các ký tự hết câu,…

- Sau khi tách câu thì sử dụng chương trình tách từ VnTokenizer được nhĩm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương để tách nội dung văn bản cần tĩm tắt thành các đơn vị từ.

- Từ danh sách các câu, các từ đã được tách ta tiến hành loại bỏ các từ dừng thơng qua bộ từ điển từ dừng.

- Đến thời điểm này chúng ta cĩ được danh sách các câu với việc loại bỏ các từ dừng. Để phục vụ cho các bước tiếp theo ta tiến hành vector hĩa các câu trong văn bản. Mỗi câu trong văn bản được biểu diễn dưới dạng một vector.

Bước 2: Tính trọng số câu: Dựa vào kết quả vector hĩa các câu trong văn

bản, ta tiến hành tính trọng số câu qua các bước sau:  Tính độ tương đồng giữa câu trong văn bản.  Tính trọng số cho tồn bộ câu.

Bước 3: Trích rút, tạo văn bản tĩm tắt:

Sau khi tính được trọng số cho tồn bộ câu, căn cứ vào kết quả tính tốn và tỷ lệ tĩm tắt X đã được xác định từ trước thì hồn tồn cĩ thể chọn ra những câu thỏa

mãn để tạo thành văn bản tĩm tắt được trích xuất từ văn bản gốc thỏa mãn điều kiện của chương trình.

4.1.2. Một số giao diện chương trình

Hệ thống gồm cĩ 2 giao diện:

Giao diện chính

Hình 5. Giao diện chính của hệ thống

Cách sử dụng chương trình

Bước 1: Nhập văn bản cần tĩm tắt

Bước 2: Lựa chọn tỉ lệ cần để tĩm tắt văn bản Bước 3: Thực hiện xử lý văn bản

+ Kết quả hiển thị theo thứ tự các câu trong văn bản + Kết quả hiển thị theo thứ tự của giá trị trọng số câu Bước 4: Nhấn nút Thực hiện để bắt đầu tĩm tắt

Sau khi tĩm tắt xong thì kết quả tĩm tắt sẽ được lưu trữ lại theo để thực hiện truy xuất dữ liệu sau này.

Chọn tỉ lệ tĩm tắt Ch ọn v ăn bả n c ần tĩ m tắt Chạy chương trình

Hình 6. Giao diện trọng số câu 4.2. Kiểm thử, đánh giá

4.2.1. Bộ dữ liệu mẫu

Bộ dữ liệu mẫu sử dụng cho quá trình kiểm thử trong luận văn này gồm 70 văn bản với các bản tĩm tắt tương ứng được sử dụng trong đề tài cấp bộ của PGS.TS Lê Thanh Hương [2]. Các văn bản tĩm tắt trong chương trình sẽ được chọn tỉ lệ phần trăm để cĩ độ dài tương đương với bản tĩm tắt mẫu để kết quả đánh giá được chính xác

Các văn bản trong tập ngữ liệu được lấy từ các trang web tin tức tiếng Việt (như Dantri, VnExpress, v.v…) và các bản tin trên trang web của Bộ Khoa học Cơng nghệ. Các bản tin trên các báo điện tử được lấy từ các lĩnh vực chính trị, khoa học giáo dục, kinh tế, văn hĩa và xã hội. Độ dài của các bản tin từ 300 đến 1000 từ. Các bản tin này đã được loại bỏ các hình ảnh, các liên kết đến các văn bản khác, chỉ giữ lại phần nội dung thơng tin. Bản tĩm tắt cĩ độ dài xấp xỉ 100 từ.

4.2.2. Phương pháp sử dụng cho việc đánh giá

Sử dụng phương pháp đánh giá ROUGE cho việc đánh giá hệ thống tĩm tắt tự động mà luận văn xây dựng. Bởi nĩ là phương pháp đánh giá phổ biến được sử dụng nhiều cho đánh giá tĩm tắt đơn văn bản.

4.2.3. Các kết quả kiểm thử

Thực hiện kiểm thử văn bản mẫu như đã giới thiệu ở trên. Kiểm thử sử dụng độ đo ROUGE với n-grams là 1,2,3,4.

Để hiểu rõ hơn cho hệ thống của mình tơi xin đưa ra một ví dụ minh họa đầu vào, đầu ra của hệ thống tĩm tắt văn bản:

Văn bản đầu vào:

“Thắt” chi tiêu, gửi ngân hàngSau 4 năm khủng hoảng kinh tế, dịng tiền từ khu vực dân cư vào các khu vực bất động sản và kinh doanh giảm mạnh, thay vào đĩ, trở thành một trong những cứu cánh cho huy động của các tổ chức tín dụng giai đoạn này.Báo cáo của Ủy ban Giám sát Tài chính Quốc gia (NFSC) vừa cơng bố mới đây cho thấy, tình trạng tăng trưởng kinh tế thấp, tổng cầu nền kinh tế yếu đã tác động mạnh đến xu hướng đầu tư của hộ gia đình.Kết quả khảo sát của cơ quan này cho thấy, trong vịng 1 năm kể từ tháng 3/2012 đến tháng 2/2013, đầu tư vào bất động sản và sản xuất kinh doanh đều suy giảm mạnh.Nếu đầu năm 2012 cĩ tới trên 25% số người được hỏi cho biết đang đầu tư vào thị trường bất động sản thì tại thời điểm tháng 3/2013 chỉ cĩ 10% đầu tư vào khu vực này. Tại khu vực sản xuất kinh doanh, chỉ cĩ 8% cho biết đang đầu tư vào hoạt động này trong năm 2013, giảm 32% so với thời điểm tháng 2 năm ngối là 40%. Thay vào đĩ, khu vực hộ gia đình cĩ xu hướng chuyển dịng tiền vào ngoại tệ và đầu tư khác.Qua khảo sát,

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 42)