Tĩm tắt qui trình tĩm tắt trang Web dựa vào ngữ cả- 123docz.net

Qui trình tĩm tắt trang Web dựa vào ngữ cảnh trong [19] nĩi chung bao gồm các bước sau:

-Bước 1. Thu thập ngữ cảnh của trang Web cần tĩm tắt, tức là thu thập những thơng tin mơ tả về trang Web này trên các trang Web cĩ linkđến nĩ.

-Bước 2. Giải quyết các thành phần riêng lẻ trong ngữ cảnh. Nguồn thơng tin

ngữ cảnh, thơng tin mơ tả từ bên ngồi dành cho trang Web, đã thu thập được ở

bước trên sẽđược rút gọn: loại bỏ những phần trùng lặp.

-Bước 3. Tạo tĩm tắt cho trang Web từ các thơng tin ngữ cảnhđã được tinh chế trong Bước 2. Bao gồm hai cách:

Cách 1. (Thuật tốn 1, nếu nội dung của tài liệu đích đủ

nhiều). Chọn câu tĩm tắt dựa trên sự liên quan trong của các câu ngữ cảnh với tài liệu đích.

Cách 2. (Thuật tốn 2, nếu nội dung của tài liệu đích quá ít). Tạo tĩm tắt chỉ dựa vào các câu trong ngữ cảnh, khơng cần xét đến tài liệu đích.

Theo đánh giá của các tác giả của [19], cách 1 cho kết quả tốt nhất so với cách 2 và cách tĩm tắt chỉ dựa vào nội dung của trang Web. Trong đề tài này, chúng tơi xử lý theo cách: khi tài liệu Web đã chứa nội dung tương đối nhiều, tức là đủ để mơ tả được nội dung của cả tài liệu, thì ta khơng cần lấy thêm thơng tin ngữ cảnh từ bên ngồi để giảm bớt xử lý. Đối với trường hợp trang Web ít nội dung, ta sẽ thu thập thêm thơng tin ngữ cảnh bên ngồi, và như vậy dữ liệu để xử lý tĩm tắt bao gồm dữ liệu trên chính trên trang Web và dữ liệu ngữ cảnh từ bên ngồi. Trong trường hợp này, ta khơng cần xét độ liên quan của các câu trong ngữ cảnh bên ngồi với nội dung trên trang Web như trong cách 1 vì khi nội dung này quá ít thì độ tin cậy của thơng tin này khơng cao và thơng tin từ ngữ cảnh bên ngồi sẽ chính xác hơn. Như vậy, việc xử lý tĩm tắt sẽ giống như xử lý cho nội dung trên chính trang Web, nhưng dữ liệu để xử lý đã cĩ bổ sung thêm thơng tin ngữ cảnh từ bên ngồi. Quy trình xử lý chi tiết sẽ được trình bày trong chương 6.

5.8.VẤN ĐỀĐÁNH GIÁ KẾT QUẢ TĨM TẮT 5.8.1. Giới thiệu 5.8.1. Giới thiệu

Trong phần này, chúng tơi trình bày tổng quát một số hướng, phương pháp đánh giá kết quả tĩm tắt đã được đề xuất qua các nghiên cứu trên thế giới. Từ đĩ để cĩ thể thấy được những khĩ khăn trong việc đánh giá tựđộng cho chương trình tĩm tắt tiếng Việt

5.8.2. Đặc điểm của các phương pháp đánh giá

Đánh giá kết quả tĩm tắt văn bản do phần mềm máy tính tạo ra thực sự là một thách thức lớn vì các lý do sau:

• Kết quả tĩm tắt văn bản ở dạng ngơn ngữ tự nhiên. Tùy theo quan điểm và khả năng của từng chuyên gia sẽ cĩ những quan điểm khác nhau trong việc đánh giá kết quả tĩm tắt văn bản.

• Khi các chuyên gia được yêu cầu đánh giá kết quả hệ thống, chi phí đánh giá sẽ tăng (về thời gian, tiền bạc, cơng sức…). Do đĩ, cần tập trung nghiên cứu các phương pháp đánh giá tự động cĩ khả năng lặp đi lặp cơng việc đánh giá kết quả.

• Kết quả đánh giá tĩm tắt văn bản cịn liên quan đến việc lựa chọn độ nén kích thước (giảm số câu, rút gọn từng câu), vì vậy đánh giá kết quả tĩm tắt ở các độ nén khác nhau là một việc tối quan trọng.

Các vấn đề trên được rất nhiều nhà nghiên cứu quan tâm. Bên cạnh việc đề xuất các phương pháp giải quyết bài tốn tĩm tắt, các nhà nghiên cứu cũng rất quan tâm đến các phương pháp và tiêu chí đánh giá hệ thống tự động tạo tĩm tắt văn bản. Nĩi chung, cĩ hai cách đánh giá hệ thống tự động tạo tĩm tắt văn bản là đánh giá bên trong (intrinsic) và đánh giá bên ngồi (extrinsic).

Đánh giá bên trong thẩm định hệ thống tĩm tắt ngay bên trong bản thân của hệ thống. Đánh giá bên ngồi thì quan tâm đến các yếu tố khác khơng thuộc hệ thống. Nĩi cách khác, các phương pháp đánh giá bên trong tập trung vào việc đánh giá các yếu tố bên trong như: độ liên kết mạch lạc (coherence) hay độ hàm chứa thơng tin (informationess), từ đĩ sẽ phản ánh chất lượng của hệ thống tạo tự động tĩm tắt văn bản. Các phương pháp đánh giá bên ngồi căn cứ vào những yêu cầu cụ thể của hệ thống và thơng qua các tiêu chí xác lập kết quả như độ phù hợp (relevance) hay độ dễ đọc dễ hiểu (reading comprehension) để đánh giá một hệ thống tự động tạo tĩm tắt xem cĩ tốt cho người dùng theo một mục tiêu cụ thể.

5.8.3.Đánh giá bên trong

5.8.3.1.Độ liên kết mạch lạc

Độ liên kết mạch lạc phản ánh kết quả tĩm tắt cĩ gì mâu thuẫn trong cấu trúc hay ngữ nghĩa khơng. Ngồi ra đối với các hệ thống tạo tĩm tắt (abstractor), độ liên kết mạch lạc cịn được đánh giá thơng qua việc một câu cĩ hồn chỉnh về mặt cấu trúc ngữ pháp và thậm chí là ngữ nghĩa hay khơng. Các hệ thống của tiếng Anh hay tiếng Pháp thường mắc phải vấn đề về hình thái từ, các hệ thống tiếng Nhật, tiếng Trung hay tiếng Việt thuờng gặp vấn đề tách từ, gán từ loại...

5.8.3.2. Độ hàm chứa thơng tin

Độ hàm chứa thơng tin phản ánh về lượng thơng tin chứa trong nội dung của bảng tĩm tắt. Sau khi tĩm tắt, lượng thơng tin của văn bản gốc cịn lưu lại trong văn bản tĩm tắt sẽ là bao nhiêu? Nhìn chung cĩ hai phương pháp đối sánh và cho

điểm là:

• Đối sánh giữa văn bản kết quả tĩm tắt và văn bản nguồn.

• Đối sánh giữa kết quả do phần mềm máy tính tạo ra và kết quả do chuyên gia tạo ra.

5.8.4. Đánh giá bên ngồi 5.8.4.1.Độ phù hợp 5.8.4.1.Độ phù hợp

Đầu vào là văn bản và một chủ đề, yêu cầu xác định độ phù hợp của văn bản với chủ đề đĩ. Để diễn tả chủ đề, người ta thường dùng các câu truy vấn.

5.8.4.2.Độ dễđọc dễ hiểu (Reading Comprehence)

Một người được giao việc đọc văn bản kết quả, sau đĩ phải trả lời các câu hỏi. Hệ thống sẽ phải cho điểm và từ đĩ đưa ra phần trăm những câu trả lời đúng.

Các phương pháp đánh giá bên trong thường được dùng khi bước đầu xây dựng và kiểm tra hệ thống. Ngược lại các phương pháp đánh giá bên ngồi thường được dùng khi muốn đánh giá chất lượng của hệ thống khi triển khai các ứng dụng cụ thể.

5.9. MỘT SỐ TIÊU CHÍ ĐÁNH GIÁ 5.9.1. Độ đo mức độ chính xác và mức bao phủ 5.9.1. Độ đo mức độ chính xác và mức bao phủ

Độ đo mức chính xác và mức bao phủ theo câu đã được sử dụng rộng rãi để đánh giá chất lượng của một hệ thống tĩm tắt Mức chính xác theo câu là phần trăm các câu trong bản tĩm tắt mà trùng khớp với bản tĩm tắt chuẩn, chất lượng cao. Mặt khác, mức bao phủ theo câu là phần trăm các câu trong bản tĩm tắt chuẩn mà

đã được chứa trong bản tĩm tắt cần được đánh giá.

Mặt dù các độ đo mức chính xác/ mức bao phủ theo câu cho ta sự hình dung về chất lượng của bản tĩm tắt, nhưng chúng khơng phải là những độ đo tốt nhất để đánh giá một chất lượng của các hệ thống tĩm tắt. Thực tế cho thấy một thay đổi nhỏ trong kết quả tĩm tắt cĩ thể làm ảnh hưởng đột ngột chất lượng của một bản tĩm tắt. Chẳng hạn cĩ thể xảy ra khả năng hệ thống tĩm tắt sẽ chọn một câu mà khơng trùng khớp câu chuẩn được chọn bởi chuyên gia nhưng chúng lại tương

đương về mặt ngữ nghĩa. Điều này tất nhiên sẽ ảnh hưởng một cách đột ngột đến

điểm đánh giá được dành cho hệ thống. Ngồi ra, ta cũng thấy rõ rằng mức chính xác/ mức bao phủ theo câu chỉ cĩ thể áp dung cho các tĩm tắt được tạo theo tiếp cận trích lược (extraction) câu, khơng thể cho tiếp cận tĩm lược (abstraction).

5.9.2. Độđo dựa trên nội dung

Độ đo dựa trên nội dung đo mức độ tương tự ở cấp độ từ vựng. Việc đánh giá được thực hiện bằng cách tạo các véc-tơ tần số xuất hiện của các từ (hay cụm từ) cho cả bản tĩm tắt cần đánh giá và bản tĩm tắt chuẩn, sau đĩ đo độ tương tự

cosin giữa hai vec-tơ này. Và độ tương tự giữa hai vec-tơ càng cao thì chất lượng của bản tĩm tắt càng cao. Một vấn đề nảy sinh trong tiếp cận đánh giá dùng độ đo cosin là các bản tĩm tắt cĩ thể dùng những từ khĩa khơng giống với của các tài liều gốc hoặc các tĩm tắt chuẩn. Bởi vì tần số xuất hiện của các mục từ là nền tảng để

cho điểm các bản tĩm tắt nên cĩ khả năng một bản tĩm tắt tốt sẽ bị cho điểm thấp nếu các từ được sử dụng trong bản tĩm tắt khác với các từ được dùng trong phần lớn nội dung của tài liệu.

5.10. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ

5.10.1. Phương pháp đánh giá độ tương tự về nội dung

Đây là phương pháp đánh giá độ tương tự về mặt nội dung của văn bản kết quả do ứng dụng tĩm tắt nên và các văn bản kết quả tương ứng của các phương pháp đánh giá khác. Giả sử văn bản kết quả của ứng dụng đang xét là S, văn bản kết quả tương ứng của n

phương pháp đánh giá khác là J1,J2,…,Jn. Ta cĩ cơng thức đánh giá độ tương tự về nội dung như sau :

3 ) ) 3 , ( ) 2 , ( ) 1 , ( }) 3 , 2 , 1 { , , (M S J J J M S J M S J M S J sim = + +

Trong đĩ M là tiêu chí tính tốn độ tương tự về nội dung giữa 2 văn bản X và Y, M

1. Cơng thức cosine : ∑ ∑ ∑ ∑ ⋅ ⋅ = 2 2 ( ) ) ( ) , cos( y x y x i i i i Y X

Trong đĩ X, Y là hai văn bản biểu diễn ở dạng vector.

2. cơng thức LCS : LCS(X,Y)=(length(X)+length(Y)−d(X,Y))/2Trong đĩ X, Y là hai văn bản biểu diễn ở dạng chuỗi các thuật ngữ. Trong đĩ X, Y là hai văn bản biểu diễn ở dạng chuỗi các thuật ngữ.

d(X, Y) là số nhỏ nhất các phép tốn xố và thêm cần thực hiện để chuyển văn bản

X thành văn bản Y.

Ở đây LCS(X, Y) chính là chiều dài của chuỗi chung dài nhất của X và Y

Phương pháp đánh giá độ tương tự theo nội dung là một trong các phương pháp đánh giá bên trong.

5.10.2. Độ tương quan phù hợp

Đây là phương pháp đánh giá ứng dụng tĩm tắt dựa trên truy vấn, thuộc các phương pháp đánh giá bên ngồi. Tư tưởng của phương pháp này như sau :

Cho một truy vấn Q và một tập ngữ liệu văn bản {Di}, một Search Engine sắp xếp các văn bản Di giảm dần theo sự phù hợp của Di với Q. Nếu thay vì tập {Di}, ta dùng tập {Si} là tập các văn bản Si được ứng dụng đang xét tĩm tắt tương ứng Di. Search Engine

cũng sẽ sắp xếp {Si} giống như trên. Để đánh giá ứng dụng tĩm tắt, ta xác định mối tương quan giữa hai danh sách đã được sắp xếp này.

Một cơng thức để xác định mối tương quan hay được dùng là độ tương quan tuyến tính giữa hai tập điểm phù hợp x và y :

∑∑∑ − ⋅ − ∑∑ − ⋅ − − ⋅ − = i i i i i i i y y x x y y x x r 2 2 ( ) ) ( ) ( ) (

Trong đĩ, x và yngang là trung bình của từng tập điểm phù hợp tương ứng đối với tập văn bản Di.

Trên đây là một số phương pháp đánh giá bên trong cũng như bên ngồi một ứng dụng tĩm tắt văn bản. Một vài phương pháp trong số này được sử dụng để đánh giá hệ thống tĩm tắt văn bản tiếng Việt. Kết quả đánh giá kiểm thử được nêu ở chương sáu và chương bảy.

5.10.3. Phương pháp đánh giá theo độ chính xác (precision ) và độ hồi tưởng (recall) (recall)

Xét một ứng dụng tĩm tắt đang cần đánh giá (C) và một phương pháp tĩm tắt khác. Phương pháp này được gọi là Gold Standard (GS). GS cĩ thể là do người thực hiện, do máy thực hiện tự động theo cách khác, hoặc bán tự động…

Độ chính xác là số câu chọn ra chính xác của văn bản kết quả (C) chia cho tổng số câu của văn bản kết quả.

Độ hồi tưởng là số câu chọn ra chính xác của văn bản kết quả chia cho tổng số câu của văn bản cĩ được do tĩm tắt bằng GS [13,18].

Để minh họa rõ hơn cách xác định độ chính xác và độ hồi tưởng, giả sử ta cĩ bảng kết quả kiểm thử như sau:

Số câu được C chọn Số câu khơng được C chọn

Tĩm tắt qui trình tĩm tắt trang Web dựa vào ngữ cảnh

Nguồn dữ liệu từ điển LDOCE

Bước 2: Sử dụng mơ hình