1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu các cách tiếp cận trong tóm tắt văn bản và thử nghiệm

114 439 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 114
Dung lượng 905,63 KB

Nội dung

Đây là phương pháp tóm tắt đơn giản vì các câu, các đoạn cùng nằm trên cùng một tài liệu, thuận lợi cho việc tìm kiếm các phần của văn bản để tạo ra tóm tắt.. Một hệ thống không thể đơn

Trang 1

-

LUẬN VĂN THẠC SĨ KHOA HỌC

NGHIÊN CỨU CÁC CÁCH TIẾP CẬN TRONG TÓM TẮT

Trang 2

Trường Đại học Bách Khoa Hà Nội – cam kết đây là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS LÊ THANH HƯƠNG Bộ môn

HỆ THỐNG THÔNG TIN – Khoa CNTT – Trường Đại học Bách Khoa Hà Nội.Các kết quả nêu trong luận văn là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác

Hà Nội, tháng 04 năm 2008

SAM CHANRATHANY

Trang 3

môn Hệ Thống Thông Tin, Khoa Công Nghệ Thông Tin, Trường Đại Học Bách khoa Hà Nội, Người đã định hướng đề tài và tận tình hướng dẫn chỉ báo tôi trong suốt quá trình thực hiện luận văn cao học này

Tôi xin gừi lời cảm ơn sâu sắc tới Trung Tâm Đào Tạo Sau Đại Học

và các thầy cô giáo trong Khoa Công Nghệ Thông Tin, Trường Đại học Bách Khoa Hà Nội đã tận tình giảng dậy và truyền đạt những kiến thức, những kinh nghiệm quý báu trong suốt 2 năm học Cao Học

Cuối cùng tôi xin bày tỏ lòng cảm ơn chân thành tới tất cả các bạn bè, các thầy cô giáo, các bạn khoa nghệ thông tin 2005-2007, trường đại học Bách khoa Hà Nội đã động viên, tạo điều kiện cho tôi trong suốt thời gian thực hiện luận văn này

Hà Nội, tháng 04 năm 2008

Sam chanrathany

Trang 4

MỤC LỤC

Trang

LỜI CẢM ƠN

LỜI CAM ĐOAN

Mục Lục……… 1

Danh Mục Từ Viết Tắt……… 5

Danh Mục Bảng ……… 6

Danh Mục Hình Vẽ……… 7

Mở Đầu……… 8

CHƯƠNG 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 1.1 khái niệm tóm tắt văn bản ……… 10

1.2.phân loại bài toán tóm tắt văn bản……… 11

1.2.1 Phân loại theo đầu vào……… 11

1.2.1.1 Dựa trên nguồn……… 11

1.2.1.2.Dựa Trên Ngôn Ngữ ……… 12

1.2.2.Phân Loại Theo Mục Đích ……… 13

1.2.2.1.Dựa trên cách sử dụng……… 13

1.2.2.2.Dựa Trên mục đích tóm tắt ……… 13

1.2.3.Phân Loại Theo Đầu ra ……… 14

1.2.3.1 Kiểu tóm tắt……… 14

1.2.3.2.Ứng dụng trên Desktop và ứng dụng trên Web……… 15

1.2.4.Phân Loại theo kỹ thuật……… 15

1.2.4.1.Hướng tiếp cận cô điển……… 15

1.2.4.2.Hướng tiếp cận dựa trên tập ngữ liệu Corpus……… 16

Trang 5

1.2.4.3.Hướng tiếp cận dựa trên tri thức……… 17

1.2.4.4.Hướng tiếp cận khai thác cấu trúc ngôn ngữ……… 17

1.3.Các chi tiểu đánh giá……… 18

1.4 Hệ thống tóm tắt văn bản điển hình……… 19

CHƯƠNG 2.CÁC PHƯƠNG PHÁP ĐÁNH GIÁ TÓM TẮT VĂN BẢN 2.1.Giới thiệu……… 22

2.2 Đánh giá bên trong………. 24

2.2.1 Tính mạch lạc của tóm tắt ……… 24

2.2.2 Độ hàm chứa thông tin của tóm tắt ……… 25

2.2.3.Độ chính xác và độ hồi tưởng……… 25

2.2.4.Phương pháp xếp hạng câu……… 27

2.2.5 Phương pháp Lợi ích liên quan……… 27

2 2.6.Mức độ giống nhau về nội dung ……… 28

2.3 Đánh giá bên ngoài………. 29

2.3.1 Đánh giá trên độ phù hợp……… 29

2.3.2.Đánh giá trên độ đọc hiểu………. 31

2.4 So sánh hai phương pháp ……… 31

2.5 Hệ thống đánh giá có sẵn hiện này……… 32

2.5.1 MEADeval……… 32

2.5.2 ROUGE……… 33

CHƯƠNG 3.CÁC PHƯƠNG PHÁP DÙNG TRONG TÓM TẮT VĂN BẢN 3.1 Qúa trình tóm tắt văn bản……… 40

3.1.1 Bước Xác định chủ đề ……… 42

3.1.2.Bước Biến đổi ……… 42

Trang 6

3.1.3 Bước Hiển Thị ……… 43

3.2.Các phương pháp dùng trong các bước tóm tắt……… 44

3.2.1.Phương pháp xác định chủ đề ……… 44

3.2.1.1 Phương Pháp dựa trên vị trí……… 44

3.2.1.2 Phương Pháp dựa trên từ gợi ý ……… 45

3.2.1.3 Phương Pháp dựa trên tần số xuất hiện của thuận ngữ……… 46

3.2.1.4 Phương Pháp chống lấp tiêu đề và câu truy vấn……… 47

3.2.1.5 Phương Pháp mối quan hệ từ vựng ……… 47

3.2.1.6 Phương Pháp cấu trúc diễn ngôn……… 52

3.2.1.7 Lập luận dựa trên cơ sở tri thức……… 53

3.2.1.9 Phương Pháp Phù Hợp Biên MMR……… 54

3.2.1.10.Phương pháp Ngữ nghĩa tiềm ẩn LSA……… 55

3.2.1.10.Trích rút thông tin ……… 55

3.2.2.Quá trình biến đổi ……… 57

3.2.2.1.Giản lược về cấu trúc câu……… 57

3.2.2.2.Giản lược về mặt ngữ nghĩa ……… 58

3.3.Hiển thị……… 59

3.3.1 Phương pháp hiển thị phân đoạn ……… 60

3.3.2.Phương pháp Hiển thị liên kết……… 61

3.3.3.So sánh 2 phương pháp……… 61

CHƯƠNG 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 4.1 Các hệ thống dùng để so sánh……… 63

4.2 Quý trình kiểm tra……… ……… 71

4.3 Kết quả thu được….……… 72

Trang 7

4.3.1.Văn bản tham khảo của hệ thống Mead

4.3.1.2.Đánh giá mức độ trích chọn chung………

4.3.1.2.Đánh giá mức độ giống nhau về nội dung………

4.3.2.Văn bản SUM-TREE-BANK………

4.4.NHẬN XÉT CHUNG………

72 72 73 76 78 TÀI LIỆU THAM KHẢO……… 82

PHỤ LỤC ……… 87

Trang 8

DANH MỤC CHỮ VIẾT TẮT

DUC Document Understanding

Conference

Hội nghị về hiểu văn bản

LCS Longest common subsequence Dãy con chung dài nhất

LSA Latent Sematic Analysis Phân tích ngữ nghĩa tiềm ẩn

MMR Maximal Marginal Relevance Phù hợp biên tối đa

WLCS Weighted Longest common

subsequence

Dãy con chung dài nhất dựa trên trọng số

RUM Relative Utility Method Phương pháp lợi ích liên quan

RST Rhetorical Structure Theory Lý thuyết cấu trúc diễn ngôn

SVD Singular Value Decomposition Phân tách giá trị đơn

TF-IDF Term Frequency-inverse

document frequency

Tân số kết hợp của tf và idf

Trang 9

Hình 4-9 Bảng trung bình cộng mức độ giống nhau về nội

dung dựa trên đơn vị trung lặp

76

Hình 4-11 Bảng trung bình cộng mức độ giống nhau về nội

dung Cosin so với Abstract

77

Trang 10

DANH MỤC HÌNH

Trang

Hình 3-1 Mô hình chung của tóm tắt văn bản 41

Hình 3-2 Mô hình chung của trích rút văn bản 41

Hình 3-3 Hệ thống tóm tắt dựa trên mối quan hệ từ vựng 46

Hình 3-4 Văn bản dùng để tìm mối quan hệ từ vựng 48

Hình 3-5 Biểu đồ quan hệ từ vựng cho LC3 52 Hình 3-6 Biểu đồ cấu trúc diễn ngôn 53

Hình 4-1 Mô hình hệ thống tóm tắt Swesum 66

Hình 4-3 Giao diện đồ hoạ của hệ thống Mead 69

Trang 11

MỞ ĐẦU

………

Ngày nay, Do sự phát triển mạnh mẽ của mạng máy tính toàn cầu và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản Bên cạnh những ưu điểm không thể phủ nhận, sự quá phong phú và đa dạng của WWW cũng khiến con người phải đối mặt với tình trạng “quá tải thông tin” Mặt khác, trong bối cảnh một xã hội thông tin, nhu cầu nhận thông tin một cách nhanh chóng, chính xác, cũng như nhu cầu thu nhận được các “tri thức” từ khối lượng thông tin khổng lồ nói trên đã trở nên cấp thiết Người sử dụng sẽ rất khó khăn trong việc tìm kiếm thông tin và họ không thể có thời gian đọc tất cả các tài liệu

để tìm ra thông tin họ cần Một văn bản tóm tắt sẽ tiết kiệm cho người đọc rất nhiều thời gian và công sức để tìm kiếm thông tin một cách hiệu quả

Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vực của Khai phá văn bản Trên thế giới đã có rất nhiều các ứng dụng Tóm tắt văn bản, với những mục đích nghiên cứu cũng như thương mại

Thực ra khái niệm tóm tắt văn bản đã có từ lâu bắt đầu từ cuối thập niên 50 của thế kỷ 20 và càng ngày càng có nhiều tổ chức tìm hiểu nghiên cứu tạo ra văn bản tóm tắt dựa trên thuận toán khác nhau nhằm để giải quyết cho văn bản tóm tắt càng ngày càng hiệu quả và chính xác hơn

Tuy nhiên, làm thế nào để tóm tắt văn bản một cách hiệu quả và dựa trên thuận toán nào là hiệu quả nhất vẫn là một thách thức lớn Và hiện này các nhà nghiên cứu cũng đưa ra nhiều phương pháp đánh giá trên nhiều tiểu chí khác nhau nhằm

để đánh giá các thuận toán cũng như hệ thống của họ

Ví vậy mục đích của luận văn này nhằm để tìm hiểu cơ sở lý thuyết về tóm tắt văn bản cũng như các thuận toán khác nhau thực hiện trong quá trình tóm

Trang 12

tắt đã có, các phương pháp đánh giá tóm tắt và đồng thời thực hiện thử nghiệm

so sánh về sự khác nhau và tính hiệu quả của các thuận toán đó

Nội dung chính của luận văn bao gồm :

¾ Chương 1: Giới thiệu tổng quan về tóm tắt văn bản, các hướng tiếp cận và việc phân loại bài toán

¾ Chương 2: Trình bày chi tiết về các phương pháp đánh giá, và các chi tiểu đánh giá hệ thống tóm tắt văn bản

¾ Chương 3: Trình bày chi tiết các thuận toán, kiến trúc và hoạt động của hệ thống tóm tắt tự động

¾ Chương 4: Thử nghiệm đánh giá mức độ hoạt động các hệ thống và đưa ra kết quả từ những thí nghiệm

¾ Chương 5: Kết luận và đưa ra hướng nghiên cứu tiếp theo

Trang 13

CHƯƠNG 1

TỔNG QUAN VỀ TÓM TẮT VĂN BẢN

Trong chương này sẽ đề cập đến khái niệm, việc phân loại bàii toán văn bản cũng như các hệ thống tóm tắt có sẵn hiện này

9 Khái niệm tóm tắt văn bản

9 Phân loại bài toán tóm tắt văn bản

9 Các hệ thống có sẵn hiện này

1.1 KHÁI NIỆM TÓM TẮT VĂN BẢN

Sự quan tâm đến tóm tắt văn bản xuất hiện vào cuối thập niên 50 bởi thư viện tìm kiếm của Mỹ [22] Số lượng bài báo và sách khoa học cực lớn được lưu trữ dạng số và phải dễ dàng tìm kiếm Dù sao khả năng lưu trữ bị hạn chế và toàn

bộ sách và bài báo không thể phù hợp với cơ sở dữ liệu lúc đó Do đó bản tóm tắt được lưu trữ, đánh chỉ số, và tạo ra việc tìm kiếm hiệu quả Có lúc bài báo hoặc sách đã hoàn toàn có bản tóm tắt gắn liên với chúng, nhưng trường hợp không có thì ta cần tạo cho chúng Do đó công nghệ tóm tắt đã bắt đầu phát triển ( Luhn

1958, Edmundson 1969, Salton 1988) và trong năm gần đây, với sự tăng lên việc

sử dụng internet làm cho kỹ thuật tóm tắt càng được quan tâm hơn.Từ khi kho

dữ liệu internet phát triển nhanh chống và càng ngày càng rộng lớn Việc truy

cập vào kho dữ liệu internet khổng lồ và phong phú lại là nhược điểm cho việc

tìm kiếm những thông tin mà chúng ta cần đến bởi chúng quá nhiều và không thống nhất về định dạng lưu trữ và hiển thị Kể cả khi đã lấy được những thông tin đó thông qua các hệ thống phân loại, tìm kiếm thì cũng không thể nắm bắt

Trang 14

toàn bộ vì thời gian có hạn mà số lượng thông tin trả về quá lớn Đấy là chưa kể đến việc những thông tin này liệu đã chính xác như mong muốn hay chưa, liệu

có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúp chúng

ta giải quyết phần lớn các nhu cầu vừa nêu Hệ thống sẽ giúp chúng ta đọc nhanh hơn, nắm bắt những tri thức cần thiết trong một tài liệu khoa học hàng trăm trang bằng cách tóm lược tài liệu đó lại thành một đoạn văn bản vài ba chục trang

Những văn bản tìm thấy từ internet, ta nhờ hệ thống quyết định liệu nên đọc văn

bản nào để có đúng thông tin ta cần Những tóm lược ngắn gọn các công việc mà

cô thư ký đưa, những bản giới thiệu nội dung phim truyện tuần tới, những bức

email thương mại chỉ vài dòng.Đó là những khả năng mà một hệ thống Tóm tắt

văn bản có thể mang lại

Vậy tóm tắt văn bản là gì ?

Tóm tắt văn là kỹ thuật mà máy tính tự động tạo ra bản tóm tắt của một

hay nhiều văn bản hoặc nói cách khác “tóm tắt văn bản là quá trình rút gọn hóa thông tin để đưa ra các thông tin quan trọng nhất trong văn bản”

1.2.PHÂN LOẠI BÀI TOÁN TÓM TẮT VĂN BẢN

Tóm tắt văn bản có thể chia thành nhiều loại, Mỗi loại được sử dụng cho mục đích khác nhau, cho các yêu cầu khác nhau Mỗi bài toán cũng phải áp dụng phương pháp và kỹ thuật riêng và có điểm mạnh và điểm yếu riêng Bài toán tóm tắt được nhà nghiên cứu phân thành các loại sau [7]:

1.2.1 Phân loại theo đầu vào

1.2.1.1 Dựa trên nguồn

ƒ Đơn Tài liệu ( single document )

Tóm tắt đơn tài liệu có đầu vào chỉ là một tài liệu riêng lẻ, từ tài liệu này hệ thống tóm tắt tạo ra được một tóm tắt ngắn gọn, xúc tích giúp chúng ta hiểu được

Trang 15

nội dung của tài liệu Đây là phương pháp tóm tắt đơn giản vì các câu, các đoạn cùng nằm trên cùng một tài liệu, thuận lợi cho việc tìm kiếm các phần của văn bản để tạo ra tóm tắt Mặt khác, các câu, các đoạn đều là những mô tả chi tiết về một chủ đề chung nên chúng ta cũng dễ dàng đưa ra được nội dung chính của tài

liệu

ƒ Đa Tài liệu ( Multi-Đocument)

Nội dung của các tập tài liệu này thì vô cùng phong phú, có những tài liệu

có nội dung giống nhau, có những tài liệu lại có nội dung khác nhau Tóm tắt đa tài liệu sẽ chứa các thông tin chung giữa các tất cả các tài liệu, cộng thêm với các thông tin khác của một vài tài liệu riêng biệt mà phù hợp trực tiếp với truy vấn của người sử dụng Để tạo ra một tóm tắt đa tài liệu là khó hơn tóm tắt đơn tài liệu Vì các tài liệu có liên quan với nhau bởi được lấy ra từ một truy vấn chung, chúng có khả năng chứa nội dung tương tự Một hệ thống không thể đơn giản nối nhiều các tóm tắt đơn tài liệu với nhau để tạo thành một tóm tắt đa tài liệu vì sự lặp lại các điểm quan trọng sẽ là kết quả của tóm tắt đa tài liệu Nếu một hệ thống tóm tắt văn bản tự động là một hệ thống tìm kiếm thông tin hữu ích thì điều kiện tiên quyết là hệ thống đó có thể vận dụng được sự lặp lại nội dung trong các tài liệu khác nhau

1.2.1.2.Dựa Trên Ngôn Ngữ

Trang 16

ƒ Đan xen ngôn ngữ Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ

1.2.2.Phân Loại Theo Mục Đích

1.2.2.1.Dựa trên cách sử dụng

ƒ Tóm Tắt chỉ dẫn ( indicative summary )

Mục đích chính của tóm tắt này là đoán nội dung của tài liệu mà không

quan tâm đến mức chỉ tiết của nó Vì thế, một tóm tắt chỉ dẫn giúp người sử dụng quyết định nên đọc tài liệu nguồn hay không Bìa tài liệu (book jacket ), bảng chỉ mục (card catalog entries ) và đoạn giới thiệu phim (movie trailer ) là

các ví dụ về các tóm tắt chỉ dẫn

ƒ Tóm Tắt cung cấp thông tin (informative summary ) Ngược lại, tóm tắt cung cấp thông tin bao gồm tất cả các thông tin chính trong tài liệu nguồn ở một mức độ chi tiết nào đó Nó cũng phản ánh nội dung

ngữ nghĩa của văn bản đưa vào ở một mức độ nhất định

1.2.2.2.Dựa Trên mục đích tóm tắt

ƒ Tóm tắt chung chung (generic summary ) Tóm tắt chung chung là tóm tắt cung cấp cho chúng ta một cái nhìn khái

quát nhất về toàn bộ tài liệu văn bản

ƒ Tóm tắt dựa trên truy vấn ( query-based summary ) Một tóm tắt văn bản phù hợp truy vấn phải chứa các thông tin phù hợp với mục đích tìm kiếm của người sử dụng, cũng như loại trừ các thông tin dưa thừa và

không phù hợp Với một tài liệu d và một truy vấn q, hệ thống tóm tắt phù hợp

Trang 17

truy vấn sẽ trích rút ra một phần văn bản s (các câu hoàn chỉnh hoặc các đoạn )

từ d trả lời tốt nhất cho câu hỏi được đưa ra

Thực tế trong tìm kiếm trực tuyến và thu thập thông tin người sử dụng thích các tóm tắt phù hợp truy vấn hơn tóm tắt chung chung Nó chỉ dẫn cho người sử dụng tìm kiếm được các thông tin phù hợp với nhu cầu Tuy nhiên để hiểu được nội dung chính của các tài liệu được đưa ra cần phải đọc tóm tắt chung chung

1.2.3.Phân Loại Theo Đầu ra

1.2.3.1 Kiểu tóm tắt

ƒ Tóm tắt trích rút ( extractive-summary )

Các tóm tắt trích rút là các tóm tắt được tạo tự động bằng sự trích rút các câu hay các đoạn nằm trong tài liệu Các trích rút này được sắp xếp theo một thứ

tự (thường là giống với thứ tự trong tài liệu ban đầu ) Phương pháp này còn có nhiều hạn chế, một trong những hạn chế đặc biệt quan trọng là: khả năng hệ thống tóm tắt trích rút có thể tạo ra được các tóm tắt có độ dài ngắn hơn các phần văn bản (text- spans ) đã được đánh giá và xếp hạng Hầu hết các hệ thống tóm tắt trích rút đều xem xét các câu trong một tập nhỏ văn bản đã được trích rút Điều này có nghĩa là các tóm tắt ngắn nhất mà các hệ thống này có thể tạo ra ít nhất cũng phải là một câu dài Nó có thể không tốt trong nhiều trường hợp, đặc biệt nếu muốn đưa ra một dòng tiêu đề ngắn (headline ) Do các câu được lựa chọn cho tóm tắt có xu hướng dài hơn các câu trung bình trong tài liệu và các thông tin quan trọng nhất trong tài liệu thường nằm rải rác trong nhiều câu, tóm tắt trích rút không thể kết hợp cú pháp cũng như ngữ nghĩa và các khái niệm được đề cập trong các phần văn bản khác nhau (text-spans ) của tài liệu nguồn để tạo ra một tóm tắt theo văn xuôi

Trang 18

ƒ Tóm tắt tóm lược ( abstract-summary )

Một hệ thống tóm tắt trừu tượng có thể tạo ra một tóm tắt, hơn là trích rút ra một tóm tắt Tức là tóm tắt có thể chứa các phần văn bản (các từ hoặc các câu ) không

có trong tài liệu ban đầu

1.2.3.2.Ứng dụng trên Desktop và ứng dụng trên Web

Phân theo môi trường cài đặt ứng dụng, ta có hai loại sau :

• Ứng dụng trên Desktop: Ứng dụng phát triển trên máy để bàn, đòi

hỏi độ chính xác cao, có khả năng Tóm lược (Abstract ), độ nén

không cao

• Ứng dụng trên Web: Ứng dụng phát triển trên môi trường Web, đòi

hỏi thời gian thực hiện nhanh, nên thường là Trích rút (Extract ), độ nén lớn Ví dụ : Tóm tắt danh mục từ Search Engine, trang tin

1.2.4.Phân Loại theo kỹ thuật

Theo inderjeet Mani và Mark T.Maybury thì [29] có 4 hướng tiếp cận cơ

bản : Hướng tiếp cận cô điển, Hướng tiếp cận dựa trên Corpus, Hướng tiếp cận

dựa trên tri thức, Khai thác cấu trúc ngôn ngữ

1.2.4.1.Hướng tiếp cận cô điển

Hướng tiếp cận cô điển mô tả sự tìm kiếm mức bê mặt ( surface-level ) là

sự nghiên cứu cơ sở của bài toán tóm tắt văn bản, ví dụ bài báo của Luhn được

tạo ra năm 1958 dựa trên tấn số xuất hiện của thuận ngữ term frequency,

Edmundson năm 1969 [12] so sánh phương pháp tần số xuất hiện của thuận ngữ

với các đặc trưng khác, và Chemical Abstract Service được phát triển bởi

Pollock năm 1973 dựa trên Chemical cue-phrases

Trang 19

Lunh mô tả thuận toán trích rút thông tin dựa trên tần số xuất hiện của câu

để đo câu thích hợp Thuận toán Lunh chọn thuận ngữ dựa trên danh sách list và tính toán tần số xuất hiện của thuận ngữ sau đó bằng cách tập hợp lại các thuận ngữ với nhau dựa trên phép chiếu giống nhau Các tần số xuất hiện của câu này sau này được sử dụng để cho điểm và trích rút câu trong việc tóm lược

Edmuson kết hợp phương pháp từ gợi ý, từ trong đầu đề và vị trí câu tạo ra

điểm lựa chọn cao nhất

1.2.4.2.Hướng tiếp cận dựa trên tập ngữ liệu Corpus

Hướng tiếp cận thứ 2 là mô tả các phương pháp dựa trên tập ngữ liệu

corpus khác nhau Sự nghiên cứu mô tả cách sử dụng sự phân loại Baysian để

trích rút câu thường gọi là hướng tiếp cận KPC Nó là một lớp của tầm nhìn corpus dựa trên việc thống kê Từ gợi ý Cue words, vị trí của câu sentence

location, từ trong đầu đề title word có ảnh hưởng quan trọng tới việc thống kê

corpus Về hình thái học, các từ đồng nghĩa (synonym words), tên riêng proper name và các thuộc tính ngôn ngữ khác nhấn mạnh sự thể hiện của tóm tắt văn bản [29]

Okurowski,Gorilinsky, and Larsen, mô tả DimSum, hệ thống trích rút câu sử dụng thông kế văn bản và thông kế corpus để nhận được từ đặc trưng cho bản tóm tắt

Houy and Lin thảo luận trên việc xác định chủ đề và hợp lại cho việc tóm tắt văn bản Trong việc xác định chủ đề, họ sử dụng thuật toán mới cho việc xác định tự động vị trí của câu chứa chủ đề quan trọng sau đó họ kết hợp vị trí của câu với các đặc trưng thích hợp để cho điểm các cầu Khi hợp lại chủ đề, họ triển khai thác khái niệm sử dụng cơ sở dữ liệu từ vựng WordNet, phân loại văn bản

và phân cụm văn bản

Trang 20

1.2.4.3.Hướng tiếp cận dựa trên tri thức

Khi 2 hướng tiếp cận trên dựa trên hướng tiếp cận hướng tiếp cận bê mặt

thì hướng tiếp cận thứ 3 ám chí tới các ứng dụng khác nhau tức là tóm tắt theo văn bản chỉ định về lĩnh vực khác nhau: Hầu hết mọi nghiên cứu thường là biến đổi thông tin từ nhiều sự kiện thành một câu đơn, tuy thuộc vào ràng buộc ngôn ngữ khác nhau

Hahn và Reimer 1990, thể hiện hướng tiếp cận tóm tắt văn bản dựa trên cấu trúc miểu tả trí thức nhận từ hệ thống hiểu văn bản TOPIC Họ định nghĩa tập toán tử nổi bật về ngữ nghĩa logic thuận ngữ Tập toán tử này được đặt trong

cơ sở dữ liệu tri thức được tạo ra bởi hệ thống TOPIC để chỉ định các khái niệm, các thuộc tính và mối quan hệ thể hiện vài trò thích hợp trong văn bản

McKeown, Robin và Kukich 1994, họ cài đặt hệ thống tóm tắt ngôn ngữ trên 2 hệ thống: STEAK, cho lĩnh vực bóng rổ và PLANDOC sử dụng cấu trúc tạo ra như một báo cáo chứa tóm tắt mạng telephone [29]

1.2.4.4.Hướng tiếp cận khai thác cấu trúc ngôn ngữ

Hướng tiếp cận này dựa trên thuộc tính văn bản như mối quan hệ của từ cohesion, tính mạch lạc coherence và mối quan hệ tu từ để phục vụ cho việc tóm tắt văn bản

Boguraev và Kenndy 1997, phân loại chủ đề tự động dựa trên tiến trình xử

lý ngôn ngữ, ví dụ đơn vị cụm từ miêu tả trong nội dung tài liệu sử dụng giải pháp trùng lặp

Barzilay và ELhadad 1998, sử dụng chuỗi từ vựng cho bước biến đổi, ví

dụ dãy của câu được nhóm với nhau bằng mối quan hệ liên kết cohesion trong WordNet [29], [37]

Trang 21

Daniel Marcu đưa ra thuận toán tóm tắt dựa trên cấu trúc ngôn ngữ mà sử dụng đầu ra của việc phân tích từ loại tu từ để tạo ra việc tóm tắt văn bản

Teufel and Moens khai thác cấu trúc văn bản khoa học như là biện pháp

để xây dựng tóm lược linh hoạt hệ thống trích rút câu dựa trên việc phân loại Bayesian: đầu tiên hệ thống tóm lược câu thích hợp và sau đó phân loại chúng

dựa trên vai trò tu từ

1.3.CÁC CHI TIỂU ĐÁNH GIÁ

Các tiêu chí đánh giá kết quả của một hệ thống tóm tắt văn bản, còn là những tham số mà người dùng có thể đưa vào hệ thống để phục vụ mục đích của mình, thường gồm các giá trị như sau:

có thể là nằm từ khoảng 1% đến 99% được coi là đã tóm tắt theo định nghĩa Jing, et al (1998) tóm tắt tại độ rút gọn 10% thường được coi

là tốt hơn tóm tắt tại độ rút gọn 20%

• Độ rút gọn tỉ lệ thuận với độ khó thuật toán

Trang 22

Độ chính xác

• Thể hiện mối quan hệ giữa văn bản kết quả với tập văn bản đầu vào

và câu truy vấn Nói cách khác, nó thể hiện sự phù hợp giữa kết quả

• Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và cú pháp

• Mức độ liên kết cũng tỉ lệ thuận với độ khó của thuật toán tóm tắt Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay thế

cho tiêu chí mức độ liên kết này

1.4 HỆ THỐNG TÓM TẮT VĂN BẢN ĐIỂN HÌNH

ƒ SUMMARIST: Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng Anh, tiếng Nhật, tiếng Tây Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc) Hiện tại SUMMARIST đang nghiên cứu để cải tiến trở thành một hệ thống Tóm lược văn bản và hỗ trợ nhiều ngôn ngữ hơn như tiếng Pháp

và indonesia

ƒ WEBSUMM: Hệ thống trích rút câu từ một đơn tài liệu hoặc đa tài liệu liên quan với công cụ tìm kiếm Tóm tắt kết quả là trích rút của câu

Trang 23

dựa trên sự truy vấn của người sử dụng Nó được tạo bởi sự miêu tả tài liệu nguồn như mạng lưới cầu Sử dụng thuận ngữ truy vấn để trích rút nút liên quan, câu được trích rút

ƒ LETSUM: Là một hệ thống mới được xây dựng để tóm tắt tài liệu

thuộc lĩnh vực luật pháp Hệ thống này được cài đặt trong môi trường

CanLii, học viện thông tin luận pháp của Canada

ƒ SweSUM: Ứng dụng Tóm tắt văn bản đa ngôn ngữ của Học viện công

nghệ hoàng gia Thụy Điển SweSUM có thể tóm tắt các văn bản có ngôn ngữ vùng Scandinavi như Thụy Điển, Đan Mạch, Na Uy và các ngôn ngữ khác như tiếng Anh, Pháp, Đức, Tây Ban Nhavà cả tiếng iran

ƒ SumUM: Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu

xử lý ngôn ngữ tự nhiên trường Đại học Montréal, Canada SumUM có thể thực hiện cả chức năng tóm tắt chỉ định và tóm tắt thông tin rất tốt

ƒ FJCL: Hệ thống trích rút văn bản tiếng Nhật được phát triển trong phòng nghiên cứu ikeda của trường đại học Gifu Đây là một hệ thống

sử dụng các phương pháp áp dụng cho hệ ngôn ngữ đơn âm tiết

(monosyllabic language system) như tiếng Nhật, Hàn Quốc, Trung

Quốc và Việt Nam

ƒ Pertinence Summarizer: Hệ thống tóm tắt tin tức đa ngôn ngữ trực tuyến nổi tiếng Hiện tại để thử nghiệm khả năng của mình, Pertinence

đã được tích hợp với Google và tóm tắt tự động danh sách tìm kiếm trả

về từ Google thông qua câu truy vấn đưa vào Chúng ta có thể thử

nghiệm hệ thống này trên trang web : www.pertinence.net

Trang 24

ƒ MEAD: Nền tảng cho các hệ thống Tóm tắt đa văn bản và đa ngôn ngữ Đây là một bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng ngôn ngữ Perl - Một ngôn ngữ có khả năng xử lý văn bản rất linh hoạt

và mạnh mẽ MEAD biểu diễn, lưu trữ dữ liệu ở dạng XML, cung tấp cho chúng ta khung ứng dụng để cài đặt các ứng dụng tóm tắt văn bản cho ngôn ngữ mà ta muốn Ngoài ra MEAD cũng cung cấp các công cụ

để xây dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và các tập mẫu nổi tiếng MEAD được xây dựng bởi các chuyên gia nổi tiếng về xử lý ngôn ngữ ở khắp nơi trên thế giới dưới sự tài trợ của chương trình nghiên cứu công nghệ thông tin của tổ chức khoa học quốc gia Mỹ MEAD được cung cấp ở dạng mã nguồn mở để nghiên cứu và kế thừa Hiện tại phiên bản mới nhất của MEAD

Trang 25

CHƯƠNG 2

CÁC PHƯƠNG PHÁP ĐÁNH GiÁ TÓM TẮT VĂN BẢN

Trong chương này sẽ cung cấp cho chúng ta biết về các phương pháp khác nhau trong việc đánh giá hệ thống tóm tắt văn bản tự động

9 Đánh giá bên trong

9 Đánh giá bên ngoài

9 So sánh phương pháp đánh giá bên trong và đánh giá bên ngoài

Đối với việc đánh giá một ứng dụng tóm tắt văn bản, một số vấn đề sau hiện đang là những thách thức lớn nhưng cũng là những khía cạnh làm cho việc đánh giá tóm tắt đáng được quan tâm,

Lưu ý:

Tóm tắt liên quan đến việc máy tính sinh ra kết quả ở dạng giao tiếp ngôn ngữ tự nhiên của con người Trong trường hợp kết quả là một câu trả lời cho một câu hỏi, chúng ta có thể xác định được câu trả lời đó đúng hay sai, nhưng trong các trường hợp khác, thật khó trả lời liệu đầu ra là một kết quả đúng ? Thực tế

Trang 26

luôn luôn có khả năng một hệ thống sinh ra một bản tóm tắt tốt nhưng lại khác nhiều với bất kỳ một bản tóm tắt do người thực hiện Điều này cũng là vấn đề với các bài toán khác như Dịch máy, Phân loại văn bản, tiếng nói…

Khi các chuyên gia được yêu câu đánh giá kết quả hệ thống, chi phí đánh giá sẽ tăng (về thời gian, tiền bạc, công sức…) Một phương pháp đánh giá bằng cách cho điểm tự động thay vì thực hiện bởi người sẽ được quan tâm hơn vì chúng có thể lặp đi lặp lại nhiều lần bất cứ khi nào chúng ta muốn

Việc tóm tắt còn liên quan đến việc nén kích thước văn bản (giảm số câu,

rút gọn từng câu), vì vậy đánh giá kết quả tóm tắt ở các độ nén khác nhau là một việc quan trọng, không thể thiếu Tuy nhiên điều này làm tăng độ phức tạp và chi phí của việc đánh giá

Các vấn đề trên được rất nhiều nhà nghiên cứu tìm cách giải quyết, và cùng với quá trình phát triển của bài toán tóm tắt, đã có rất nhiều các phương pháp và tiêu chí đánh giá một ứng dụng tóm tắt văn bản được đưa ra

Nhìn chung thì có 3 nhóm phương pháp đánh giá : đó là đánh giá trên mức

độ trích chọn chung, mức độ giống nhau về nội dung, mức độ liên quan phù hợp Trong đó:

Trang 27

Nhóm mức độ giống nhau về nội dung bao gồm

Theo Sparck Jones và Gallier 1996, có 2 cách đánh giá hệ thống tóm tắt

văn bản : đánh giá bên trong instrinsic evaluation, và đánh giá bên ngoài

Extraction evaluation [7],[14],[35]

2.2 ĐÁNH GIÁ BÊN TRONG ( instrinsic evaluation )

Đánh giá bên trong thẩm định hệ thống tóm tắt ngay bên trong lòng của nó.Phương pháp đánh giá thường thảo luận chính trên tính mạch lạc ( coherence)

và độ hàm chứa thông tin ( informativeness) của tóm tắt Hầu hết các hệ thống tóm tắt văn bản thường dựa trên các phương pháp đánh giá bên trong do đó chỉ

đo chất lượng đầu ra

2.2.1 Tính mạch lạc của tóm tắt ( Summary coherence )

Tóm tắt được tạo ra thông qua phương pháp trích rút ( cắt và dán thao tác trên cụm từ, câu hoặc đoạn văn) đôi lúc một số phần tóm tắt bị nằm ngoài ngữ cảnh, đây là kết quả của vấn đề tính mạch lạc Độ chặt chẽ mạch lạc phản ánh về việc văn bản kết quả có gì mâu thuẫn trong cấu trúc hay ngữ nghĩa không

Thường các vấn đề vi phạm là các vấn đề về từ nối (Conjunct) hay từ trùng lặp (Dangling Anaphor) Các đoạn văn bản kết quả của một hệ thống Trích rút hay

Trang 28

gặp những lỗi này Chúng hoàn toàn có thể được khắc phục bởi các thuật toán khắc phục tham chiếu và từ nối

Ngoài ra đối với các hệ thống Tóm lược (Abstractor), độ chặt chẽ mạch

lạc còn được đánh giá thông qua việc một câu có hoàn chỉnh về mặt cấu trúc ngữ pháp và thậm chí là ngữ nghĩa hay không Các hệ thống của tiếng Anh hay tiếng Pháp thường mắc phải vấn đề về hình thái từ, các hệ thống tiếng Nhật, tiếng Trung hay mắc phải vấn đề về phân tách từ, tùy vào đặc trưng của từng ngôn ngữ

2.2.2 Độ hàm chứa thông tin của tóm tắt (Summary informativeness)

Độ hàm chứa thông tin phản ánh về lượng thông tin chứa trong nội dung của văn bản kết quả Khi một ứng dụng tóm tắt giản lược văn bản nguồn thì độ hàm chứa thông tin của văn bản kết quả cũng sẽ giảm đi Như vậy, sau khi tóm tắt thì còn bao nhiêu phần trăm thông tin còn được giữ lại trong văn bản kết quả?

ƒ Một cách để đo độ chứa hàm thông tin của bản tóm tắt kết quả là phải so sánh bản tóm tắt kết quả với văn bản gốc để biết có bao nhiều thông tin trong văn bản nguồn còn lại trong bản tóm tắt kết quả

ƒ Cách khác là so sánh bản tóm tắt kết quả với tóm tắt tham khảo ( reference summary) để đo có bao nhiều thông tin trong tóm tắt tham khảo có trong bản tóm tắt kết quả

2.2.3.Độ chính xác và độ hồi tưởng ( Precision and Recall )

Độ hồi tưởng (recall) sẽ đo có bao nhiều câu trong tóm tắt tham khảo có trong tóm tắt kết quả Tương tự độ chính xác (Precision ) chỉ định có bao nhiều câu của tóm tắt kết quả có mặt trong tóm tắt tham khảo [35], [36]

Trang 29

Xét một ứng dụng tóm tắt đang cần đánh giá (C) Độ chính xác là số câu chọn ra chính xác của văn bản kết quả (C) chia cho tổng số câu của văn bản kết quả

Độ hồi tưởng là số câu chọn ra chính xác của văn bản kết quả chia cho tổng số câu của văn bản có trong tóm tắt tham khảo

Để minh họa rõ hơn cách xác định độ chính xác và độ hồi tưởng, giả sử ta

có bảng kết quả kiểm thử như sau

Số câu được C chọn Số câu không

được C chọn

Số câu được tóm tắt tham khảo chọn A B

Số câu không được tóm tắt tham khảo chọn C D

Độ chính xác P =

B A

A

+

Độ hồi tưởng R =

C A

A

+người ta thường dùng một tiêu chí tổng hợp của độ chính xác và độ hồi tưởng:

F =

R P

1 ) 1 (

1

1

− +

α

Trong đó:

P: độ chính xác theo công thức trên

R: độ hồi tưởng theo công thức trên

α : số thực bất kỳ thỏa điều kiện 0 < α < 1

Trang 30

2.2.4.Phương pháp xếp hạng câu Sentence Rank

Phương pháp này là hướng tiếp cận có tính chất mạnh hơn độ chính xác và

độ hồi tưởng, với tóm tắt tham khảo được xây dựng bằng cách xếp hạng câu trong văn bản nguồn bằng tiêu chuẩn thông tin trong phần tóm tắt của văn bản Cuối cùng tiêu chuẩn độ tương quan (Correlation) có thể áp dụng để so sánh bản tóm tắt kết quả với bản tóm tắt tham khảo Cũng như độ chính xác và độ hồi tưởng phương pháp này được áp dụng chính trong trích rút văn bản, dù là phương pháp này có thể áp dụng với tóm lược văn bản ( Marcu 1999, Jing and McKeown 1999)

2.2.5 Phương pháp Lợi ích liên quan - RUM

[35] Gỉa sử tóm tắt bằng con người chứa câu [1,2] từ một tài liệu và cũng giả sử có 2 hệ thống A và B, trong đó A tạo bản tóm tắt chứa câu [1,2] và B tạo bản tóm tắt chứa [1,3] Nếu sử dụng Precision và Recall, thì hệ thống A sẽ được cho điểm lớn hơn hệ thống B Dù sao, Đối với mục đích của tóm tắt cũng có thể câu 2 và 3 có mức độ quan trọng bằng nhau, vậy cả 2 hệ thống có thể có cùng một điểm

Phương pháp lợi ích liên quan ( Radev et al, 2000) RUM cho phép các văn bản tóm tắt tham khảo chứa đơn vị trích rút ( cầu, hoặc cụm từ, …) và các biến

số Trong phương pháp RUM tóm tắt tham khảo chứa mọi câu của tài liệu nguồn với gía trị tin cậy, từ 0 đến 10, cho việc có thể xuất hiện trong bản kết quả tóm tắt Cũng giống như phương pháp xếp hạng câu giá trị tin cậy này được gán bởi con người

Đối với RUM, Tóm tắt tham khảo chứa mọi câu của văn bản gốc với giá trị tin cậy mà các câu đó có thể xuất hiện trong tóm tắt kết quả

Trang 31

Ví dụ: Văn bản chứa 5 câu [1 2 3 4 5] được thể hiện bằng [1/10 2/9 3/9 4/2 5/4] Số thứ 2 của mỗi cặp chỉ định mức độ mà câu đã cho có thể chứa trong văn bản tóm tắt kết quả và số này được chỉ định bởi con người Chỉ số được gọi là

độ ưu tiên và nó phụ thuộc vào văn bản đầu vào, độ dài của tóm tắt, và sự chỉ định của con người Ví dụ: Hệ thống mà chọn câu [1 2] sẽ không được có điểm lớn hơn hệ thống mà chọn câu [1 3] ví vậy cả 2 hệ thống tóm tắt đều có cùng một điểm chỉ số ưu tiên là 10+9 Vậy cả 2 hệ thống sẽ tạo ra trích rút tốt ưu

2 2.6.Mức độ giống nhau về nội dung (Content Similarity )

Phương pháp này (Donaway et al, 2000) có thể áp dụng để đánh giá nội dung ngữ nghĩa cả trong tóm tắt trích rút và tóm tắt tóm lược

Đây là phương pháp đánh giá độ tương tự về mặt nội dung của văn bản tóm tắt kết quả do ứng dụng tóm tắt tạo nên và các văn bản tham khảo hoặc văn bản kết quả tương ứng của các phương pháp đánh giá khác Giả sử văn bản tóm

tắt kết quả của ứng dụng đang xét là S, văn bản kết quả tương ứng của n phương

pháp đánh giá khác là J1,J2,…,Jn Ta có công thức đánh giá độ tương tự về nội dung như sau [36] :

n

Jn S M J

S M J S M Jn J J

S

M

sim( , , { 1 , 2 , })= ( , 1)+ ( , 2)+ + ( , )

Trong đó M là tiêu chí tính toán độ tương tự về nội dung giữa 2 văn bản X và Y,

M thường là hai công thức sau :

, cos(

y x

y x

i i

i i Y

X

Trong đó X, Y là hai văn bản biểu diễn ở dạng vector

Công thức LCS : LCS(X,Y) = (length(X) +length(Y) −d(X,Y)) / 2

Trang 32

Trong đó X, Y là hai văn bản biểu diễn ở dạng chuỗi các thuật ngữ

d(X, Y) là số nhỏ nhất các phép toán xoá và thêm cần thực hiện để chuyển văn

bản X thành văn bản Y

Ở đây LCS(X, Y) chính là chiều dài của chuỗi chung dài nhất của X và Y

Phương pháp đánh giá độ tương tự theo nội dung là một trong các phương pháp đánh giá bên trong

2.3 ĐÁNH GIÁ BÊN NGOÀI

Khác với phương pháp đánh giá bên trong, phương pháp đánh giá bên ngoài tập trung vào người sử dụng cuối Do đó nó đo mức độ hiệu quả và mức

độ chấp nhận được của bản tóm tắt kết quả bằng mối quan hệ với các công việc khác Các công việc đó có thể là câu hỏi và đáp (question-answering) tức là xác định độ phù hợp bản tóm tắt với câu truy vấn Tính đa dạng của công việc mà công việc tóm tắt có thể áp dụng vào là rất lớn ta chỉ thảo luận một số trong các

công việc đó để đưa ra một số kiểu đánh giá bên ngoài [ 35], [36 ]:

2.3.1 Đánh giá trên độ phù hợp

Tư tưởng đánh giá độ phù hợp là, một đối tượng được thể hiện bởi văn bản

và chủ đề và xem xét về mức độ phù hợp giữa văn bản và chủ đề đó Ảnh hưởng

độ chính xác và thời gian thực hiện trên công việc tóm tắt sẽ được xem xét

Trong công việc phân loại văn bản, phương pháp đánh giá sẽ cho ta biết liệu tóm tắt chung chung có đủ thông tin hiệu quả để phân loại tài liệu một cách nhanh chống và chính xác hay không Trong này chủ đề không thể biết trước bởi

hệ thống tóm tắt Tư tưởng là, cho một tài liệu, có thể là kết quả của tóm tắt chung chung, hoặc văn bản nguồn, con người có thể chọn một loại trong 5 loại

Trang 33

(mỗi loại đếu có đặc tả chủ đề liên kết với nó) nếu tài liệu phù hợp, ngược lại thì không chọn bất kỳ loại nào

Một số hệ thống tóm tắt tập trung trên tóm tắt chỉ định chủ đề Công việc này có quan hệ với hoạt động thế giới thực của việc quản lý phân tích tìm kiếm văn bản sử dụng hệ thống phục hồi thông tin để chỉ định nhanh chống mức độ phù hợp của tài liệu được phục hồi Tư tưởng là, cho một tài liệu ( có thể là văn bản nguồn hoặc cũng có thể văn bản tóm tắt kết quả), và một đặc tả chủ đề hoặc truy vấn, con người được hỏi để chỉ định liệu tài liệu có phù hợp với chủ đề hay không

Gia sử rằng cho một truy vấn Q và một tập ngữ liệu văn bản {D i}, công cụ phục hồi thông tin sẽ sắp xếp mọi văn bản trong Di tuy theo mức độ phù hợp của

chúng với truy vấn Q, nếu thay tập {D i} bằng tập {S i} tóm tắt tối ưu của mọi văn bản gốc và {Si} cũng được sắp xếp bởi công cụ phục hồi thông tin để đánh giá mức độ phù hợp với truy vấn Nếu văn bản tóm tắt tốt cho việc đại diện cho văn bản gốc thì độ sắp xếp của chúng sẽ giống nhau

Để đánh giá ứng dụng tóm tắt, ta xác định mối tương quan giữa hai danh sách đã được sắp xếp này [36]:

Một công thức để xác định mối tương quan hay được dùng là độ tương

quan tuyến tính giữa hai tập điểm phù hợp x và y :

y x

r

y x

y x

2

) (

) (

) (

Trong đó, xyngang là trung bình của từng tập điểm phù hợp tương ứng đối

với tập văn bản D i

Trang 34

2.3.2.Đánh giá trên độ đọc hiểu ( Reading Comprehension)

Trong công việc này, đầu tiên con người đọc văn bản nguồn và văn bản tóm tắt kết quả, tiếp theo trả lời các câu hỏi thử nghiệm Hệ thống sẽ tự động cho điểm câu trả lời, bằng cách đo phần trăm của câu trả lời đúng Ví vậy, Mức độ đọc hiểu của con người trên bản tóm tắt kết qủa có thể so sánh với mức độ đọc hiểu trên văn bản nguồn Nếu việc đọc bản tóm tắt kết quả cho phép con người trả lời câu hỏi chính xác như khi họ đọc văn bản nguồn, thì việc tóm tắt là có mức độ đủ thông tin cao

[33] đưa ra phương pháp đánh giá bên ngoài ảnh hưởng tới tóm tắt văn bản trên công việc câu hỏi và đáp Tác giả đưa ra 4 bài toán đọc hiểu GMAT.Bài toán có nhiều lựa chọn, với một câu trả lời đơn có thể được chọn Đối với một câu hỏi Tác giả đo có bao nhiều câu trả lời đúng trong điều kiện khác nhau, bao gồm điều kiện văn bản nguồn, điều kiện văn bản trích rút chung chung, điều kiện tóm lược chung chung, và điều kiện không văn bản ( tức là đối tượng chọn câu hỏi đúng bằng cách nhìn vào câu hỏi mà không nhìn vào đoạn văn)

[15] đo mức độ cung cấp thông tin để đưa ra ai có thể xây dựng lại thông tin cần thiết trong tài liệu bằng cách đọc bản tóm tắt kết quả

2.4 SO SÁNH HAI PHƯƠNG PHÁP

Việc lựa chọn giữa phương pháp đánh giá bên ngoài và đánh giá bên trong tuỳ thuộc vào mục đích của người phát triển và người sử dụng kỹ thuật tóm tắt văn bản Thông thường, phương pháp đánh giá bên trong thường được yêu thích hơn

Đánh giá bên ngoài có lợi ích trong việc đánh giá sự hữu dụng của tóm tắt trong công việc, vậy chúng có thể có giá trị thích hợp với người sử dụng kỹ thuật

Trang 35

tóm tắt văn bản Nhưng dù sao Đối với người phát triển hệ thống ít sử dụng phương pháp này trong việc phát triển hệ thống tóm tắt của họ

Các phương pháp đánh giá bên trong thường được thực hiện trong quá trình đầu, khi xây dựng và tự kiểm nghiệm ứng dụng, nghĩa là nó có ích cho người phát triển ứng dụng đó Ngược lại các phương pháp đánh giá bên ngoài thường được dùng khi muốn đánh giá giá trị thực của ứng dụng, các giá trị thực tiễn có lợi cho người sử dụng ứng dụng đó Tuy vậy các phương pháp đánh giá bên ngoài thường không giúp gì cho người phát triển ứng dụng trong việc phản hồi lại các kết quả đánh giá nhằm cải thiện chất lượng tóm tắt, trong khi đó lại là một chức năng quan trọng của các phương pháp đánh giá bên trong

2.5 HỆ THỐNG ĐÁNH GIÁ CÓ SẴN HIỆN NÀY

• Phương pháp lợi ích liên quan RUM

• Unigram overlap: phương pháp dựa trên đơn vị trung khớp

• Cosine

Trang 36

2.5.2 ROUGE

ROUGE (Recall-Oriented Understudy for evaluation) chứa các tiêu chuẩn

đo tự động chỉ định chất lượng của hệ thống tóm tắt bằng cách so sánh với bản tóm tắt lý tưởng khác tạo bởi con người Tiêu chuẩn đo là đếm số lượng đơn vị trung khớp (như n-gram, chuỗi từ, hoặc cặp từ ) giữa bản tóm tắt tạo bởi hệ thống tự động tóm tắt với bản tóm tắt tạo bởi con người Dưới đây là 4 tiêu chuẩn đo khác nhau của ROUGE [14],[24]:

n

n

gram Count

gram count

) (

) (

S

Trong đó RS là văn bản tham chiếu lý tưởng, n là độ dài của n-gram,

gram n và count match (gram n )là số lượng cực đại của n-gram xuất hiện chung trong bản tóm tắt của hệ thống và bản tóm tắt tham chiếu

- Dãy con chung dài nhất mức độ câu- sentence-level LCS

Để áp dụng LCS trong đánh giá tóm tắt, ta xem một câu tóm tắt là một dãy các từ Ta hiểu rằng dãy con chung dài nhất các câu của 2 bản tóm tắt càng dài

Trang 37

thì mức độ giống nhau của bản tóm tắt càng cao Ta sử dụng độ đo F dựa trên LCS để tính mức độ giống nhau giữa 2 văn bản tóm tắt X có độ dài m và Y có

độ dài n, với X là câu văn bản tham chiếu và Y là câu văn bản do hệ thống tự động tạo :

R

Y X LCS ( , )

P

Y X LCS ( , )

F

lcs lcs

lcs lcsP R

P

R

2

21

β

β

+ +

Trong đó LCS(X,Y) là độ dài của dãy con chung dài nhất của X và Y, và lcs

L=0 khi LCS(X,Y)=0 tức là không có dãy con chung giữa X và Y

- Dãy con chung dài nhất mức độ tóm tắt- Summary-level LCS

Cho một bản tóm tắt tham chiếu có u câu tất cả chứa m từ và bản tóm tắt

tự động có v câu tất cả chứa n từ Vậy độ đo F dựa trên LCS mức tóm tắt được

tính bằng:

R

u i

i

= 1 ∪

,

Trang 38

Plcs= ( )

n

c r LCS

u i

lcs lcs

P R

Tương tự như trên β là một số cực lớn ( → ∞) vậy chỉ có Rlcs được xem xét LCS∪( )r i,c =ri c Ví dụ nếu r i = w 1 w2 w3 w4 w5 và C chứa 2 câu: c 1 = w 1 w2 w6

w 7 w 8

Và c 2 = w 1 w 3 w 8 w 9 w 5 , thì dãy con chung dài nhất của r i và c 1“w 1 w 2 “ và dãy

con chung dài nhất của r i và c 2 là “ w 1 w3w5 “ Vậy kết hợp dãy con chung dài

nhất của r i và c1 , c 2“w 1 w2w3w5 “ và LCS∪( )r i,c =4 5

ROUGE-W: Dãy con chung dài nhất về trọng lượng

LCS có một số thuộc tính tốt như đã nói qua ở trên Đáng tiếc là LCS cũng

có một nhược điểm ví dụ: cho một dãy tham chiếu X và 2 dãy được tự động Y1

Trang 39

bằng từ xi và yi Cho cầu X và Y, tỷ số WLCS của X và Y được tính thông qua hàm sau:

c (i,j) lưu trữ tỷ số WLCS kết thúc bằng từ x i của X và y i của Y, w là bảng

chứa độ dài so khớp liên tiếp tại bảng c vị trí i và j, và f là hàm so khớp liên tiếp tại c(i,j)

Hàm trọng số f phải có thuộc tính f(x+y)>f(x)+f(y) Đối với mọi x và y là

số nguyên dương

Đối với 2 dãy X và Y có độ dài tương tự là m và n Độ đo F dựa trên

WLCS được tính như sau:

Trang 40

wlcs wlcs

P R

Với f− 1là hàm nghịch đảo của f Trong DUC, β được gán bằng số cực lớn (→ ∞) Như vậy chỉ có R wlcs được xem xét Ta gọi

ROUGE-S: Thống kê sự xuất hiện chung của cặp từ có thể

Skip-bigrams : có thể hiểu là các cặp từ có thể tạo được từ câu

Rouge-S Là phương pháp đo độ trùng khớp của skip-bigrams giữa dịch tự động và dịch tham chiếu

Ví dụ:

S1:police killed the gunman

S2: police kill the gunman

S3: the gunman kill police

S4: the gunman police killed

Mỗi câu có C(4,2)1 = 6 skip-bigram Ví dụ S1 có skip-bigram như sau:

Ngày đăng: 27/07/2017, 20:28

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w