phù hợp (Relevance )

c. Mô hình tập thô dung sai

3.3.2.1. phù hợp (Relevance )

Đầu vào là văn bản và một chủ đề, yêu cầu xác định độ phù hợp của văn bản với chủ đề đó. Chủ đề có thể thay bằng truy vấn.

3.3.2.2. Độ dễ đọc dễ hiểu ( Reading Comprehence )

Một người được giao việc đọc văn bản kết quả, sau đó phải trả lời các câu hỏi. Hệ thống sẽ phải cho điểm và từ đó đưa ra phần trăm những câu trả lời đúng.

3.3.3. So sánh đánh giá bên trong - bên ngoài

Các phương pháp đánh giá bên trong thường được thực hiện trong quá trình đầu, khi xây dựng và tự kiểm nghiệm ứng dụng, nghĩa là nó có ích cho người phát triển ứng dụng đó. Ngược lại các phương pháp đánh giá bên ngoài thường được dùng khi muốn đánh giá giá trị thực của ứng dụng, các giá trị thực tiễn có lợi cho người sử dụng ứng dụng đó. Tuy vậy các phương pháp đánh giá bên ngoài thường không giúp gì cho người phát triển ứng dụng trong việc phản hồi lại các kết quả đánh giá nhằm cải thiện chất lượng tóm tắt, trong khi đó lại là một chức năng quan trọng của các phương pháp đánh giá bên trong.

3.3.4. Các phương pháp đánh giá

Sau đây là các phương pháp cụ thể hay được dùng để đánh giá một ứng dụng tóm tắt văn bản. Đầu tiên chúng ta cần nói đến hai tiêu chí cơ bản : Độ chính xác và độ hồi tưởng.

3.3.4.1. Độ chính xác (Precision ) và độ hồi tưởng (Recall)

Xét một ứng dụng tóm tắt đang cần đánh giá (C) và một phương pháp tóm tắt khác. Phương pháp này được gọi là Gold Standard (GS). GS có thể là do người thực hiện, do máy thực hiện tự động theo cách khác, hoặc bán tự động…

Độ chính xác là số câu chọn ra chính xác của văn bản kết quả (C) chia cho tổng số câu của văn bản kết quả.

Độ hồi tưởng là số câu chọn ra chính xác của văn bản kết quả chia cho tổng số câu của văn bản có được do tóm tắt bằng GS [13,18].

Để minh họa rõ hơn cách xác định độ chính xác và độ hồi tưởng, giả sử ta có bảng kết quả kiểm thử như sau:

Số câu được C chọn Số câu không được C chọn

Số câu được GS chọn A B

Số câu không được GS chọn C D

Độ chính xác P = A+AB

Độ hồi tưởng R = A+AC

Người ta thường dùng một tiêu chí tổng hợp của độ chính xác và độ hồi tưởng :

F = R P 1 ) 1 ( 1 1 ⋅ − + ⋅ α α

Trong đó:

P: độ chính xác theo công thức trên.

α : độ hồi tưởng theo công thức trên.

R: số thực bất kỳ thỏa điều kiện 0<α <1.

3.3.4.2. Đánh giá độ tương tự về nội dung (Content-based Similarity)

Đây là phương pháp đánh giá độ tương tự về mặt nội dung của văn bản kết quả do ứng dụng tóm tắt nên và các văn bản kết quả tương ứng của các phương pháp đánh giá khác. Giả sử văn bản kết quả của ứng dụng đang xét là S, văn bản kết quả tương ứng của n phương pháp đánh giá khác là J1,J2,…,Jn. Ta có công thức đánh giá độ tương tự về nội dung như sau :

3 ) 3 , ( ) 2 , ( ) 1 , ( }) 3 , 2 , 1 { , , (M S J J J M S J M S J M S J sim = + +

Trong đó M là tiêu chí tính toán độ tương tự về nội dung giữa 2 văn bản A và B, M thường là hai công thức sau :

∑ ∑ ∑ ⋅ ⋅ = 2 2 ( ) ) ( ) , cos( y x y x i i i i Y X

Trong đó X, Y là hai văn bản biểu diễn ở dạng vector.

2 / )) , ( ) ( ) ( ( ) , (X Y length X length Y d X Y LCS = + −

Trong đó X, Y là hai văn bản biểu diễn ở dạng chuỗi các thuật ngữ.

d(X, Y) là số nhỏ nhất các phép toán xoá và thêm cần thực hiện để chuyển văn bản (chuỗi) X thành văn bản (chuỗi) Y.

Ở đây LCS(X, Y) chính là chiều dài của chuỗi chung dài nhất của X và Y Phương pháp này là một trong các phương pháp đánh giá bên trong.

3.3.4.2. Độ tương quan phù hợp (Relevance Correlation)

Đây là phương pháp đánh giá ứng dụng tóm tắt dựa trên truy vấn, thuộc các phương pháp đánh giá bên ngoài. Tư tưởng của phương pháp này như sau :

Cho một truy vấn Q và một tập ngữ liệu văn bản {Di}, một Search Engine sắp xếp các văn bản Di giảm dần theo sự phù hợp của Di với Q. Nếu thay vì tập {Di}, ta dùng tập {Si} là tập các văn bản Si được ứng dụng đang xét tóm tắt tương ứng Di. Search Engine cũng sẽ sắp xếp {Si} giống như trên. Để đánh giá ứng dụng tóm tắt, ta xác định mối tương quan giữa hai danh sách đã được sắp xếp này.

Một công thức để xác định mối tương quan hay được dùng là độ tương quan tuyến tính giữa hai tập điểm phù hợp x và y :

∑ ∑ ∑ − ⋅ − − ⋅ − = i i i i i i i y x y x r y x y x 2 2 ( ) ) ( ) ( ) (

Trong đó, x ngang và y ngang là trung bình của từng tập điểm phù hợp tương ứng đối với tập văn bản Di.

Trên đây là một số phương pháp đánh giá bên trong cũng như bên ngoài một ứng dụng tóm tắt văn bản. Một vài phương pháp trong số này được em sử dụng để đánh giá hệ thống tóm tắt văn bản tiếng Việt. Kết quả đánh giá kiểm thử được nêu ở chương 5.

3.3.6. Các hệ đánh giá ứng dụng tóm tắt văn bản

Hiện nay có rất nhiều các hệ thống đánh giá, các hệ này có thể áp dụng cho các loại ứng dụng tóm tắt, thậm chí còn áp dụng trong bất kỳ ngôn ngữ nào.

Các hệ thống đánh giá này thường tiến hành các phương pháp đánh giá bên ngoài như TIPSTER, DUC... Tuy nhiên cũng có các hệ có thể dùng để đánh giá theo cả cách bên ngoài và bên trong như ROUGE. Nói chung các hệ thống đánh giá hiện nay thường cho các kết quả tin cậy. Tuy nhiên các hệ thống này chỉ mặc định dùng cho các ứng dụng tóm tắt tiếng Anh, Pháp...còn tiếng Việt thì ta cần phải xây dựng thêm vào hoặc xây dựng mới các tiêu chí đánh giá.

3.4. Một số hệ thống tóm tắt văn bản trên thế giới

Hiện tại, trên thế giới đã có rất nhiều nghiên cứu và dự án xây dựng các ứng dụng tóm tắt văn bản. Các ứng dụng này có thể đáp ứng rất nhiều các mục đích khác nhau. Có thể kể ra một số ứng dụng Tóm tắt văn bản tiêu biểu như sau :

• SUMMARIST

Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng Anh, tiếng Nhật, tiếng Tây Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc). Hiện tại SUMMARIST đang nghiên cứu để cải tiến trở thành một hệ thống Tóm lược văn bản và hỗ trợ nhiều ngôn ngữ hơn như tiếng Pháp và Indonesia.

• SweSUM

Ứng dụng Tóm tắt văn bản đa ngôn ngữ của Học viện công nghệ hoàng gia Thụy Điển. SweSUM có thể tóm tắt các văn bản có ngôn ngữ vùng Scandinavi như Thụy

Điển, Đan Mạch, Na Uy và các ngôn ngữ khác như tiếng Anh, Pháp, Đức, Tây Ban Nha và cả tiếng Iran.

Hình 3.8: Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ

• SumUM

Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu xử lý ngôn ngữ tự nhiên trường Đại học Montréal, Canada. SumUM có thể thực hiện cả chức năng tóm tắt chỉ định và tóm tắt thông tin rất tốt..

• FJCL

Hệ thống Rút trích văn bản tiếng Nhật được phát triển trong phòng nghiên cứu Ikeda của trường đại học Gifu. Đây là một hệ thống sử dụng các phương pháp áp dụng cho hệ ngôn ngữ đơn âm tiết (monosyllabic language system) như tiếng Nhật, Hàn Quốc, Trung Quốc và Việt Nam.

• Pertinence Summarizer

Hệ thống tóm tắt tin tức đa ngôn ngữ trực tuyến nổi tiếng. Hiện tại để thử nghiệm khả năng của mình, Pertinence đã được tích hợp với Google và tóm tắt tự động

danh sách tìm kiếm trả về từ Google thông qua câu truy vấn đưa vào. Chúng ta có thể thử nghiệm hệ thống này trên trang web : www.pertinence.net .

• MEAD

Nền tảng cho các hệ thống Tóm tắt nhiều văn bản và đa ngôn ngữ. Đây là một bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng ngôn ngữ Perl - Một ngôn ngữ có khả năng xử lý văn bản rất linh hoạt và mạnh mẽ. MEAD biểu diễn, lưu trữ dữ liệu ở dạng XML, cung tấp cho chúng ta khung ứng dụng để cài đặt các ứng dụng Tóm tắt văn bản cho ngôn ngữ mà ta muốn. Ngoài ra MEAD cũng cung cấp các công cụ để xây dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và các tập mẫu nổi tiếng. MEAD được xây dựng bởi các chuyên gia nổi tiếng về Xử lý ngôn ngữ ở khắp nơi trên thế giới dưới sự tài trợ của Chương trình Nghiên cứu Công nghệ thông tin của Tổ chức Khoa học quốc gia Mỹ. MEAD được cung cấp ở dạng mã nguồn mở để nghiên cứu và kế thừa. Hiện tại phiên bản mới nhất của MEAD là MEAD v3.07..

• Microsoft Word AutoSummary

Microsoft cũng cài đặt chức năng Trích rút và sinh tiêu đề trong Microsoft Word từ phiên bản Word '97. Chúng ta có thể thử bằng cách chọn Tools - AutoSummarize trên thanh công cụ (có thể khác tùy vào phiên bản). Công cụ này cho phép chúng ta chọn thông số về độ rút gọn, trích rút hay sinh tiêu đề...

Ngoài ra còn các hệ thống Tóm tắt văn bản nổi tiếng khác như ANES hay SUMMONS. Tuy nhiên tại Việt Nam hiện nay chưa có một nghiên cứu và ứng dụng Tóm tắt văn bản chính thức nào.

3.5. Kết chương

Như vậy, một ứng dụng tóm tắt văn bản thường đi qua ba pha chính : Ở pha phân tích, các câu quan trọng, chứa đựng ý chính sẽ được chọn ra thông qua các phương pháp trích rút. Sang pha Biến đổi, các câu này sẽ được rút gọn từng câu một, kết quả ta sẽ được một mảng các câu quan trọng và ngắn gọn. Ở pha Hiển thị cuối cùng, dựa trên các thông tin ban đầu về liên kết giữa các đoạn và câu, chúng ta sinh ra văn bản mới, là phiên bản rút gọn của văn bản đầu vào.

Một ứng dụng Rút trích chỉ gồm hai pha : pha Phân tích và Pha Hiển thị. Trong đó, qua pha Hiển thị, các câu quan trọng được xếp lại theo thứ tự ban đầu, không có liên kết về cú pháp và ngữ nghĩa. Điều này sẽ nảy sinh một số vấn đề về độ dễ đọc dễ hiểu của văn bản kết quả. Một ứng dụng Tóm lược, ngược lại, thực hiện các công việc của cả ba pha, và đạt được kết quả mang tính tự nhiên hơn.

Ngoài ra, việc đánh giá tóm tắt là một công việc vô cùng quan trọng, là một phần không thể thiếu trong khi cài đặt các giải thuật và xây dựng ứng dụng tóm tắt cũng đã được em đề cập đến bằng những khái niệm cơ bản nhất.

Thông qua những tìm hiểu và nghiên cứu về bài toán Tóm tắt văn bản và các đặc trưng ngôn ngữ của tiếng Việt, em quyết định sẽ xây dựng một hệ Tóm lược văn bản tiếng Việt tự động. Chương sau sẽ nói rõ hơn về các thuật toán cài đặt các vấn đề lý thuyết cơ bản mà em đã nêu ra ở những chương trước và việc tích hợp các module Phân tích, Biến đổi, Hiển thị thành một ứng dụng Tóm lược hoàn chỉnh.

Chương 4. XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT

Chương này em xin trình bày về VTAS. Ứng dụng Tóm lược văn bản tiếng Việt. VTAS được cài đặt các thuật toán hiện thực hóa các vấn đề lý thuyết đã nêu ở các chương trước:

 Vấn đề tiền xử lý và mô hình hóa văn bản.

 Chọn câu quan trọng và rút gọn các câu này theo các phương pháp khác nhau, hiển thị kết quả.

4.1. Mô hình xây dựng ứng dụng

Dựa trên mô hình chung của bài toán Tóm tắt văn bản, em đã xây dựng mô hình ứng dụng tóm lược tự động văn bản tiếng Việt VTAS (Vietnamese Text Abstractive System). Ứng dụng gồm các phần sau:

• Phần Tiền xử lý văn bản tiếng Việt làm các công việc như chuẩn hóa văn bản đầu vào, mô hình hóa văn bản và phân loại văn bản đó nhằm áp dụng các “chiến lược” tóm tắt khác nhau đối với từng thể loại văn bản.

• Phần Phân tích, Biến đổi, Hiển thị có cài đặt của một số thuật toán cụ thể hóa các vấn đề lý thuyết đã nêu trong chương ba.

• Một số các module dùng chung để thực thi các công việc của Xử lý ngôn ngữ tự nhiên cũng như của Khai phá văn bản như Phân tích cú pháp, Nhận dạng Named Entity, Vector hóa…

• Một số các module dùng để xây dựng tự động và bán tự động một số tài nguyên ngữ liệu dùng cho ứng dụng…

• Các module hiển thị kết quả thực thi các phương pháp tóm tắt nhằm mục đích đánh giá, kiểm thử.

Văn bản Văn bản

nguồn

Hệ Rút trích

Chuẩn hóa đầu vào

Mô hình hóa văn bản Danh sách

thuật ngữ Danh sách NE Việt Nhận dạng NE Title Heading Quan hệ liên đoạn Tần suất xuất hiện Phân tích cú pháp Danh sách Stopword

Kết hợp tuyến tính và sắp xếp theo điểm

TFIPF

Rút gọn câu theo cú pháp

Hợp giải tham chiếu

Hiển thị

Hình 4.1: Mô hình ứng dụng Tóm lược văn bản tiếng Việt

4.2. Cài đặt tiền xử lý văn bản tiếng Việt

4.2.1. Chuẩn hóa văn bản

Module này thực hiện các công việc như chuẩn hóa định dạng văn bản vào, loại bỏ các dấu ngắt không đáng có

4.2.2. Mô hình hóa văn bản.

Hình 4.2: Mô hình hóa văn bản

Để tiện cho việc xử lý và hiển thị, văn bản đầu vào được mô hình hóa thành đối tượng clsDocument. Đối tượng clsDocument bao gồm một mảng các đối tượng clsParagraph thể hiện cho các đoạn văn bản. Mỗi đối tượng clsParagraph về phần mình lại gồm mảng các clsSentence - đối tượng mô tả các câu trong đoạn. Một clsSentence bao gồm mảng các chỉ số của term trong câu. Ngoài ra, mỗi đối tượng clsDocument,

Đối tượng văn bản đã được mô hình hóa Văn bản

đã chuẩn hóa

Tách đoạn và câu

Tách thuật ngữ

Xác lập các thông số khác

Danh sách thuật ngữ tiếng Việt

clsParagraph, clsSentence còn chứa các thông tin khác tương ứng như số đoạn trong văn bản, số câu trong đoạn, đoạn này có phải là câu mở đầu hay không, câu này có phải là câu kết thúc hay không… Cuối cùng, các đối tượng này đều có thuộc tính Content để chứa dạng văn bản tương ứng của văn bản, đoạn hay câu. Nói chung, các đối tượng này được hiểu như là văn bản, đoạn văn, câu văn với tất cả các thuộc tính cần thiết.

Việc tách đoạn và câu dựa trên các dấu ngắt đoạn và dấu ngắt câu. Một module chuẩn hóa dấu chấm câu, phân biệt với dấu chấm thập phân, dấu chấm trong địa chỉ web, mail..., cũng được em cài đặt nhằm phân tách câu sao cho chính xác - một vấn đề khá quan trọng trong bài toán tóm tắt văn bản.

Sau khi tách đoạn và câu, mỗi câu sẽ được tách thuật ngữ theo phương pháp em sẽ trình bày dưới đây. Kết quả là một câu sẽ được tách thành mảng các term thuật ngữ dạng chuỗi ký tự hay dạng chỉ số của thuật ngữ trong từ điển. Cuối cùng, danh sách này sẽ được mô hình hóa bởi mô hình không gian vector thưa, với các trọng số của term là số lần xuất hiện của term đó trong văn bản.

Song song với quá trình tách đoạn, câu và vector hóa mảng term này, các thông số khác của đối tượng clsDocument cũng được xác lập. Chú ý rằng câu Title cũng là một câu và được mô hình hóa bởi một đối tượng clsSentence đặc biệt.

4.2.3. Tách thuật ngữ.

Như chúng ta đã đề cập trong phần Những vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên, nhiều phương pháp tách thuật ngữ đã được thế giới nghiên cứu và sử dụng như

Đặc trưng về từ pháp và hình thái

Phân loại bài toán Tóm tắt văn bản