ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO KIỂU TÓM LƯỢC

Từ đó xây dựng một hệ thống tóm tắt văn bản tiếng Việt thử nghiệm, sử dụngkết hợp các phương pháp của Khai phá văn bản thống kê tần suất xuất hiện từ và Xử lý ngôn ngữ tự nhiên cấu trúc

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

các ứng dụng Tóm tắt văn bản, với những mục đích nghiên cứu cũng như thươngmại Trong khi đó việc nghiên cứu, giải quyết bài toán tóm tắt văn bản tiếng Việtmới bắt đầu được quan tâm trong vài năm gần đây và đa phần sử dụng các phươngpháp thống kê.

Nhu cầu cấp thiết cải thiện tính năng tìm kiếm cũng như tăng hiệu quả đánhchỉ mục cho bộ máy tìm kiếm đặt ra yêu cầu xây dựng một hệ thống tóm tắt văn bảnhoàn chỉnh, đáp ứng tốt những mục tiêu đặt ra.Trong đồ án này em sẽ trình bàynhững kết quả tìm hiểu về bài toán Tóm tắt văn bản và Lý thuyết cấu trúc diễnngôn Từ đó xây dựng một hệ thống tóm tắt văn bản tiếng Việt thử nghiệm, sử dụngkết hợp các phương pháp của Khai phá văn bản (thống kê tần suất xuất hiện từ) và

Xử lý ngôn ngữ tự nhiên (cấu trúc diễn ngôn)

Bố cục nội dung của đồ án:

 Phần 1: Đặt vấn đề và định hướng giải pháp

Chương I: Tổng quan về bài toán tóm tắt văn bản, đưa ra một số khái niệm

tổng quan và các tiêu chí đánh giá kết quả tóm tắt

Chương II: Giới thiệu nội dung Lý thuyết cấu trúc diễn ngôn do Mann và

Thompson đề xuất cùng một số cải tiến của Marcu

Trình bày ưu nhược điểm của phương pháp cấu trúc diễn ngôn

 Phần 2: Các kết quả đạt được

Chương I: Phân tích cấu trúc diễn ngôn

Chương II: Xây dựng chương trình tóm tắt văn bản thử nghiệm.

Trang 3

Xin gửi lời cảm ơn tới các bạn lớp HTTT - K52 , đã động viên tôi trong những lúc khó khăn và luôn nhiệt tình trao đổi tài liệu, kiến thức chuyên môn cũng như kinh nghiệm trong lúc làm đồ án

Cuối cùng, tôi muốn gửi lời cảm ơn sâu sắc đến cha mẹ, gia đình và tất cả bạn bè, những người luôn kịp thời động viên và giúp đỡ tôi vượt qua những khó khăn trong cuộc sống

Mục lục

Danh mục hình vẽ 11

Danh mục thuật ngữ 13

Lời mở đầu 14

PHẦN 1 ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP 15

Chương I Tổng quan tóm tắt văn bản 15

1 Phát biểu bài toán 15

2 Các phương pháp 16

Trang 4

2.1 Các phương pháp dựa trên kết quả thống kê 16

2.2 Các phương pháp dựa trên cấu trúc ngữ nghĩa 17

2.3 Kết hợp các phương pháp khác 19

3 Đánh giá kết quả 21

3.1 Các phép đo 21

3.2 Các phép đánh giá 22

Chương II Lý thuyết cấu trúc diễn ngôn 23

1 Các nghiên cứu trước đây về Lý thuyết cấu trúc diễn ngôn 23

1.1 Grosz và Sidner 23

1.2 Mann và Thompson 23

1.3 Daniel Marcu (1997) 23

1.4 Các nghiên cứu khác 24

2 Lý thuyết cấu trúc diễn ngôn 24

2.1 Giới thiệu 24

2.2 Một số tính chất cơ bản của cấu trúc văn bản 26

2.3 Lý thuyết cấu trúc diễn ngôn 26

2.4 Một số hạn chế của lý thuyết cấu trúc diễn ngôn 27

PHẦN 2 CÁC KẾT QUẢ ĐẠT ĐƯỢC 30

Chương I Phân tích cấu trúc diễn ngôn 30

1 Phân tích cấu trúc diễn ngôn 30

1.1 Tổng quan quá trình phân tích cấu trúc diễn ngôn 31

1.2 Phân đoạn diễn ngôn (Discourse segmentation) 32

1.3 Xác định quan hệ diễn ngôn 39

1.4 Xây dựng cây cấu trúc diễn ngôn 51

1.5 Sự nhập nhằng và phương pháp lựa chọn cây diễn ngôn “tốt nhất” 56

2 Sinh văn bản tóm tắt từ cấu trúc diễn ngôn của văn bản gốc 59

2.1 Hàm lượng giá 59

Trang 5

2.2 Giải thuật tóm tắt văn bản 61

Chương II Xây dựng chương trình thử nghiệm 62

1 Tóm tắt văn bản sử dụng cấu trúc diễn ngôn 62

2 Kết hợp với các phương pháp khác 65

3 Một số hình ảnh chương trình 67

4 Đánh giá hệ thống 68

KẾT LUẬN 71

TÀI LIỆU THAM KHẢO 72

PHỤ LỤC 74

Danh mục hình vẽ Hình 1.1 Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau 11

Hình 1.2: Mô hình phương pháp quan hệ lẫn nhau 13

Hình 1.3: Liên kết từ vựng 14

Hình 2.1 – Cây mô tả cấu trúc diễn ngôn của văn bản 21

Hình 2.2 – Một số quan hệ diễn ngôn được biểu diễn dưới dạng cây 22

Trang 6

Hình 2.3 – Một văn bản có nhiều cách phân tích khác nhau 23

Hình 2.4 : Lựa chọn cây cấu trúc diễn ngôn 24

Hình 2.5 – Cây RS theo đề xuất của Marcu 24

Hình 2.6 : Tổng quan quá trình phân tích diễn ngôn 27

Hình 2.7: Các bước phân đoạn diễn ngôn 27

Hình 2.8 : Sơ đồ các thao tác cần thực hiện trong bước tách câu thành các ĐVDNCB 32

Hình 2.9: Xây dựng cây CTDN cho các ĐVDNCB mức dưới câu ngay ở bước tách 36

Hình 2.10: Giải thuật xác định quan hệ diễn ngôn sử dụng từ hiệu 40

Hình 2.11 : Bộ tuyển các mối quan hệ diễn ngôn 41

Hình 2.12: Giải thuật xác định quan hệ diễn ngôn sử dụng độ tương đồng 42

Hình 2.13: Các cây cấu trúc diễn ngôn thu được sau khi tách và xác định quan hệ mức dưới câu.44 Hình 2.14: Các cây cấu trúc diễn ngôn thu được sau khi tách và xác định quan hệ mức dưới câu 45 Hình 2.15: Giải thuật xây dựng văn phạm dạng chuẩn Chomsky từ tập các QHDN 49

Hình 2.16: Cây suy dẫn từ các ký hiệu S(1, N, status, rel, promotion_set, used_relations) ra xâu 51

Hình 2.17: Cây cấu trúc diễn ngôn tương ứng với cây suy dẫn trên 51

Hình 2.18: Một đoạn văn có thể có tới 4 cây cấu trúc diễn ngôn 52

Hình 2.19 : Hàm lượng giá 54

Hình 3.1: Các mô-đun chính của hệ thống tóm tắt văn bản dưa trên cấu trúc diễn ngôn 57

Hình 3.2: Ba phương pháp TFIPF, Position và Title được thực hiện độc lập với phương pháp dựa trên RST 61

Hình 3.3 : Giao diện chính của chương trình 62

Hình 3.4 : Lựa chọn các thông số cho các phương pháp 63

Hình 3.5 : Bảng thống kê các độ đo 63

Trang 7

Danh mục thuật ngữ

Tiếng Việt Viết tắt Tiếng Anh Viết tắt

cấu trúc diễn ngôn CTDN rhetorical structure RS

lý thuyết cấu trúc diễn

ngôn

Lý thuyết CTDN

rhetorical structure

theory

RST

phân đoạn diễn ngôn PĐDN discourse segmentation DS

đơn vị diễn ngôn cơ bản ĐVDNCB elementary discourse

unitEDU

quan hệ diễn ngôn QHDN rhetorical relation RR

cấu trúc ngữ pháp CTNP

Trang 8

Ở Việt Nam hiện nay, hầu như tất cả các bài toán tiếng Việt điển hình củaKhai phá văn bản đều đã được nghiên cứu và cài đặt thành ứng dụng như Tìm kiếmvăn bản, Phân lớp & Phân nhóm văn bản , đóng góp rất nhiều vào sự phát triển củalĩnh vực Xử lý văn bản tự động tiếng Việt Song bài toán Tóm tắt văn bản thì chưa

có nhiều nghiên cứu tiến hành đề xuất và xây dựng thành công ứng dụng Có thể vìbài toán này không chỉ cần những công cụ và phương pháp của Khai phá văn bản

mà còn phải lưu ý đến những vấn đề về Xử lý ngôn ngữ tự nhiên (Natural LanguageProcessing) Điều này thật không tương xứng với nền thông tin tri thức hiện tại củaViệt Nam, khi mà đang có hàng ngàn nhu cầu khác nhau cần đến những ứng dụngtrợ giúp tóm lược văn bản hay sinh tiêu đề và hiển thị chúng theo những dạng mongmuốn

Chính sự dễ dàng khi truy cập vào kho dữ liệu Internet khổng lồ và phongphú lại là nhược điểm cho việc tìm kiếm những thông tin mà chúng ta cần đến bởichúng quá nhiều và không thống nhất về định dạng lưu trữ và hiển thị Kể cả khi đãlấy được những thông tin đó thông qua các hệ thống phân loại, tìm kiếm thì cũngkhông thể nắm bắt toàn bộ vì thời gian có hạn mà số lượng thông tin trả về quá lớn.Đấy là chưa kể đến việc những thông tin này liệu đã chính xác như mong muốn haychưa, liệu có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúpchúng ta giải quyết phần lớn các nhu cầu vừa nêu

Đó cũng là lý do, em chọn đề tài “Xây dựng ứng dụng tóm tắt văn bản dựatrên cấu trúc diễn ngôn” làm đồ án tốt nghiệp cho mình

Trang 9

PHẦN 1 ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP

Chương I Tổng quan tóm tắt văn bản

1 Phát biểu bài toán

 Cho một văn bản, hãy đưa ra tóm tắt gồm các ý chính của văn bản đó Bảntóm tắt phải chứa đầy đủ thông tin quan trọng, xúc tích,dễ hiểu đối với người

sử dụng

 Phương pháp tóm tắt và kết quả tóm tắt phụ thuộc vào các yếu tố : đầu vào,đầu ra, mục đích

o Đầu vào :

 Source : văn bản đơn và đa văn bản

 Ngôn ngữ: đơn ngữ và đa ngữ

 Kích thước văn bản : ngắn, dài

 Cấu trúc văn bản : nhiều đoạn, ít đoạn; 1 văn bản, nhiều vănbản (có liên quan đến nhau), phức tạp, đơn giản

 Thể loại : báo cáo, bài báo, bài giảng, thuyết trình, Tin tức vănbản khoa học…

Trang 10

Văn bản tóm tắt bao gồm: văn bản trực tuyến, văn bản ngoại tuyến, siêu vănbản, Tuỳ theo yêu cầu của tóm tắt mà tóm tắt văn bản được phân loại thànhnhiều kiểu tóm tắt văn bản khác nhau:

Tóm tắt trình bày (indicative summary): quan tâm tới diễn giải văn bản mà bỏqua ngữ cảnh

Tóm tắt thông tin (informative summary): đưa ra tóm tắt nội dung ở dạng ngắnnhất

Tóm tắt hướng truy vấn (queries –oriented summary): chỉ đưa ra nội dung màngười đọc quan tâm

Tóm tắt chung (generic summary): tóm tắt tổng quan văn bản

Tóm tắt kiểu trích rút (extraction summary): trích chọn ra những phần quantrọng trong văn bản như câu, mệnh đề, thuật ngữ,

Tóm tắt kiểu trừu tượng (abstraction summary): tạo ra một văn bản tóm tắtđảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh vi, văn bảntóm tắt kiểu trừu tượng mang lại hiệu quả cao về mặt ngôn ngữ

Hình 1.1 Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau.

2 Các phương pháp

2.1 Các phương pháp dựa trên kết quả thống kê

Trang 11

Là các phương pháp sử dụng các số liệu thống kê về độ quan trọng của các từ,ngữ, câu hay đoạn Qua đây, hệ thống có thể sẽ giảm được số lượng các đối tượngphải xem xét và trích rút chính xác các đơn vị văn bản cần tìm Các thống kê có thểnhận được từ các nghiên cứu về ngôn ngữ học hay thông qua phương pháp học máy

từ các tập mẫu có sẵn Từ đó, các thống kê này được dùng cho các tính toán hiệnthời trên văn bản đầu vào

Phương pháp vị trí (Position-Based): Phương pháp vị trí bao gồm các phươngpháp xác định độ quan trọng dựa trên thống kê về vị trí của từ, ngữ hay câu trongvăn bản Các thống kê này tất nhiên phụ thuộc vào thể loại văn bản…

Chủ đề - Tiêu đề (Title-based): Chủ đề các đoạn văn bản hay tiêu đề các bảngthường chứa các từ và ngữ quan trọng, nên trích rút thông tin từ đây

Đầu - cuối đoạn (First - Last Sentence): Xác suất câu đầu đoạn hay câu cuốiđoạn chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn Ngoài ra, cácđoạn đầu và cuối trong văn bản cũng quan trọng hơn các đoạn giữa

Minh họa - Chú thích (Comments): Trong các câu chú thích, câu minh họa choảnh hay đồ thị thường chứa các thông tin quan trọng Tuy nhiên, các câu này thườngchỉ được dùng để đánh giá độ quan trọng của các câu khác liên quan, chứ khôngđược chọn làm đầu vào cho pha tiếp

Phương pháp dựa trên các cụm từ hiệu (Cue phrases-Based): Các cụm từ hiệu cóđặc điểm thống kê rất tốt Sau các từ/cụm từ này thường là các câu hay từ có độquan trọng xác định Người ta chia thành hai loại cụm từ hiệu, một loại mang lại độquan trọng cho thành phần đi sau, được gọi là ngữ nhấn mạnh, một loại giúp ta loại

bỏ, không xét đến những thành phần đi sau vì nó không có nhiều giá trị trong việctrích rút, được gọi là ngữ dư thừa

Ngữ nhấn mạnh (Bonus phrase - Emphasizer): Ngữ nhấn mạnh gồm các ngữnhư “nói chung là…”, “đặc biệt là…”, "cuối cùng thì…”, “trong bài viết này tôimuốn chỉ ra…”, “bài viết nói về…”, “nội dung gồm…”, v v

Ngữ dư thừa (Stigma phrases): Một số ngữ dư thừa : “hiếm khi mà…”, "bài nàykhông nói đến…”, "Không thể nào…”, v v

Phương pháp thống kê tần suất từ (Word frequency-Based): Độ quan trọng của

từ phụ thuộc vào số lần xuất hiện của từ đó trong các văn bản liên quan Các kỹthuật như TFxIPF hay Tập thuật ngữ thường xuyên (Frequent Item Set) dùng chocông việc xác định tần suất của từ

2.2 Các phương pháp dựa trên cấu trúc ngữ nghĩa

Trang 12

Là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xácđịnh các đơn vị văn bản quan trọng Tư tưởng chính của các phương pháp này lànhững đơn vị văn bản nào có chứa các thành phần liên kết nhiều với các thành phầnkhác sẽ có độ quan trọng lớn Việc đánh giá các mối quan hệ sẽ dựa trên các mạngngữ nghĩa, các quan hệ cú pháp hoặc thông qua các phương pháp xác định độ liênquan truyền thống.

Phương pháp quan hệ lẫn nhau: Phương pháp này xác định mối quan hệ giữa cácđoạn trong văn bản hay các câu trong đoạn với nhau thông qua các kỹ thuật thu thậpthông tin ở mức văn bản Các đoạn (câu) trong văn bản nguồn được tính toán độliên quan lẫn nhau giữa chúng Có thể dùng các kỹ thuật xác định độ liên quan lẫnnhau như Cô-sin, TFxIPF hay N-gram Overlap Sau đó chọn ra đoạn (câu) có độliên quan lớn nhất

Hình 1.2: Mô hình phương pháp quan hệ lẫn nhau

Phương pháp liên kết từ vựng (Lexical Chains): Phương pháp liên kết từ vựng sửdụng các từ điển quan hệ từ vựng đế xây dựng các chuỗi từ liên kết với nhau vể mặtngữ nghĩa Ví dụ "cây" là một loại "thực vật", có bộ phận là "lá", chất liệu là "gỗ".Các từ "cây", "thực vật", "lá", "gỗ" có quan hệ ngữ nghĩa nào đó với nhau Sau khixây dựng được các chuỗi từ này, đánh giá độ mạnh của chúng và có những tríchchọn phù hợp Các ứng dụng tóm tắt sử dụng phương pháp này đã được cài đặt bởiRegina Barzilay hay Cláudia Santos Tuy nhiên, có thể coi Morris và Hirst là nhữngngười đầu tiên đưa ra ý tưởng này vào năm 1991 Lexical Chains không những chỉdùng trong Tóm tắt văn bản mà còn được coi là lý thuyết tổng quát của vấn đề ngữnghĩa trong Xử lý ngôn ngữ tự nhiên Sau này Chin-Yew Lin and Eduard Hovy đãphát triển thành một lý thuyết mới, rộng hơn, được gọi là Nhận dạng chủ đề (TopicIdentification)

Trang 13

Hình 1.3: Liên kết từ vựng

Phương pháp dựa trên diễn ngôn (Discourse-Based): Dựa trên các từ thể hiện mốiquan hệ giữa các câu chúng ta cấu trúc hóa đoạn văn bản từ các đơn vị thành phầnnhư ngữ, mệnh đề, câu Sau đó đơn vị trung tâm (nucleus) sẽ được trích chọn.Phương pháp này dựa trên nghiên cứu và đề xuất nổi tiếng của Mann và Thompson

về Lý thuyết cấu trúc diễn ngôn (Rhetorical Structure Theory) Đoạn văn đang xét

sẽ được cấu trúc hóa thành dạng cây từ các nút lá, gọi là Cây diễn ngôn (RhetoricalTree) Bằng cách biểu diễn các mối quan hệ giữa các câu về mặt ngữ nghĩa nhưquan hệ nền (Background), quan hệ dẫn chứng (Evidence), quan hệ bổ nghĩa(Elaboration), chúng ta có thể xác định các nút hạt nhân và các nút vệ tinh Từ đóchọn các nút hạt nhân để xây dựng nên cấp thấp hơn của Cây diễn ngôn Gốc củaCây diễn ngôn sẽ là đơn vị quan trọng nhất

Đây là những ý tưởng cơ bản của Daniel Marcu trong việc sử dụng Lý thuyếtcấu trúc diễn ngôn vào các ứng dụng Tóm tắt và Sinh ngôn ngữ tự nhiên (NaturalLanguage Generating) và là hướng tiếp cận mà em sẽ sử dụng trong đồ án này

2.3 Kết hợp các phương pháp khác

 Phương pháp dựa trên Title

Title là câu tiêu đề của văn bản, phân biệt với các Heading - câu phụ đề cho mỗiđoạn, câu chú thích cho ảnh, bảng, hình vẽ Một văn bản chỉ có thể có một Title và

có thể không có Title Việc xác định Title hiện tại dựa vào nhận xét : Title là câuduy nhất của đoạn đầu tiên Nghĩa là ta xét đoạn đầu tiên của văn bản, nếu đây chỉ

có một câu thì câu này là Title, ngược lại, ta coi văn bản không có Title Cách xácđịnh này phụ thuộc định dạng của văn bản đầu vào

Trang 14

Nếu một văn bản có Title, Title của văn bản sẽ được lấy làm Title hoặc câu đầu tiêncủa văn bản kết quả.

Nếu một văn bản có Title, các term có trong Title sẽ được dùng để véc-tơ hóa cáccâu khác trong văn bản Sau đó, điểm TitleScore của một câu được tính theo côngthức cô-sin :

Trong đó X là véc-tơ đặc trưng của câu, Y là véc-tơ đặc trưng của văn bản với cơ

sở là tập các term của câu tiêu đề

 Phương pháp dựa trên Position

Đây là phương pháp tóm tắt theo từng đoạn (Paragraph) của văn bản

Thông thường, trong mỗi đoạn, câu đầu tiên là câu quan trọng nhất Do đó ta sẽ sửdụng các term của câu đầu đoạn làm cơ sở để véc-tơ hóa các câu còn lại trong đoạn.Điểm PositionScore của một câu sẽ được tính theo công thức cô-sin trong đó Y làvéc-tơ đặc trưng của đoạn

 Phương pháp TFxIPF

TFxIPF là từ viết tắt của Term Frequency times Inverse Paragraph Frequency.Theo cách đánh giá này một thuật ngữ là quan trọng và đặc trưng khi nó xuất hiệnnhiều trong văn bản này và ít xuất hiện trong các văn bản khác

Ở đây, một thuật ngữ được xét ở trong một đoạn và nó được tính điểm TFxIPF theocông thức :

Trong đó tf là số lần xuất hiện term i trong đoạn, N là tổng số đoạn trong văn bản,

ni là số đoạn chứa term i

Sau đó tất cả các thuật ngữ đều được tính điểm TFxIPF, sắp xếp giảm dần theođiểm này Một phần trăm nào đó của các thuật ngữ có số điểm TFxIPF cao nhất sẽđược dùng để đánh giá các câu trong văn bản giống như cách của các phương phápTitle, Position: gán điểm TFxIPF cho mỗi câu dựa trên sự có mặt của các thuật ngữTFxIPF trong câu

 Loại bỏ chú thích

Chú thích thực ra phần lớn là một loại ngữ đồng vị, nhưng được phát hiện dễ dànghơn và thuật toán loại bỏ chúng cũng đơn giản hơn nhiều Điều này kéo theo độ

Trang 15

chính xác của phương pháp là rất cao so với các phương pháp rút gọn khác Hiệntại, hệ thống chỉ coi những phần nào nằm trong dấu ngoặc đơn, nằm giữa hai dấungạch ngang (- như thế này -) là chú thích Sau khi nhận biết, chúng ta lập tức xóacác chú thích đi Thuật toán chỉ đơn giản kiểm tra một câu có cặp “()” hay “- -” thìxóa phần nằm giữa.

Xét một ứng dụng tóm tắt đang cần đánh giá (C) và một phương pháp tóm tắt khác

Phương pháp này được gọi là Gold Standard (GS) Độ chính xác là số câu chọn ra

chính xác của văn bản kết quả (C) chia cho tổng số câu của văn bản kết quả

Độ hồi tưởng là số câu chọn ra chính xác của văn bản kết quả chia cho tổng số câucủa văn bản có được do tóm tắt bằng GS

Để minh họa rõ hơn cách xác định độ chính xác và độ hồi tưởng, giả sử ta có bảng kết quả kiểm thử như sau:

Số câu được C chọn Số câu không được C

Trang 16

Độ chính xác P = A A B



Độ hồi tưởng R =

C A

1 ) 1 ( 1

P: độ chính xác theo công thức trên.

R: độ hồi tưởng theo công thức trên.

 : số thực bất kỳ thỏa điều kiện 0< <1

3.2 Các phép đánh giá

 Đánh giá trong : so sánh với bản tóm tắt lý tưởng

 Đánh giá ngoài : để người đọc nhận xét xem bản tóm tắt có thể thay thế được vănbản gốc hay không

 Trong phạm vi đồ án, do chưa có tập dữ liệu mẫu, nên em chưa thể thực hiện tínhtoán độ chính xác của hệ thống so với bản tóm tắt lý tưởng Vì vậy, em thực hiệnphương pháp thủ công, để người dùng nhận xét và đánh giá kết quả tóm tắt,thông qua phiếu thăm dò Việc xây dựng tập dữ liệu mẫu sẽ được thực hiện ngaysau khi hoàn thành báo cáo này

Trang 17

Chương II Lý thuyết cấu trúc diễn ngôn

1 Các nghiên cứu trước đây về Lý thuyết cấu trúc diễn ngôn

1.1 Grosz và Sidner

Một trong những lý thuyết diễn ngôn chính đã được Grosz và Sidner đề xuấtvào năm 1986 Grosz và Sidner cho rằng chủ ý của tác giả khi tạo ra văn bản có vaitrò quyết định trong việc hình thành cấu trúc diễn ngôn (CTDN) của văn bản đó.Một CTDN được tạo nên bởi 3 thành phần: cấu trúc ngôn ngữ học, cấu trúc chủ ý

và trạng thái chú ý

Cấu trúc ngôn ngữ học gồm các PĐDN và quan hệ giữa chúng

Cấu trúc chủ ý có được bằng cách nhận diện mục đích cụ thể của tác giả khi tạo ravăn bản (được gọi là mục đích diễn ngôn - MĐDN), và cách mà mỗi PĐDN đónggóp vào MĐDN chung (được gọi là mục đích phân đoạn diễn ngôn– MĐPĐDN).Các quan hệ giữa các chủ ý góp phần thể hiện một chủ ý khác (quan hệ trội), hoặcmột chủ ý phải xuất hiện trước một chủ ý khác (quan hệ tiền định)

Tuy nhiên, lý thuyết của Grosz và Sidner để lại nhiều vấn đề chưa được giải quyết,cần có thêm rất nhiều nỗ lực nữa để chuyển từ lý thuyết thành hệ thống thực tế - hệthống sinh tự động cấu trúc diễn ngôn

1.2 Mann và Thompson

Một lý thuyết diễn ngôn khác tồn tại song song với lý thuyết của Grosz vàSidner là Lý thuyết cấu trúc diễn ngôn (Rhetorical Structure Theory – RST) được đềxuất bởi Mann và Thompson vào năm 1988 Mann và Thompson đã đề xuất và địnhnghĩa một tập gồm 23 quan hệ diễn ngôn từ đó suy ra các cấu trúc diễn ngôn Theo

họ, tập quan hệ này không phải là tập đóng, nó có thể được mở rộng và chỉnh sửacho phù hợp với các mục đích, thể loại cụ thể và các kiểu văn hóa khác nhau Đểsuy ra cấu trúc diễn ngôn của văn bản, đầu tiên phải chia văn bản thành các vế câu

và các đơn vị tương đương, sau đó nhận biết các quan hệ giữa các đơn vị này sửdụng 23 quan hệ kể trên Mann và Thompson cũng thừa nhận sự tồn tại nhiều kếtquả phân tích trong RST, điều này gây khó khăn trong việc xây dựng và đánh giácác hệ thống diễn ngôn

1.3 Daniel Marcu (1997)

Marcu đã kế thừa và phát triển các ý tưởng của Mann và Thompson trong luận ántiến sỹ 1997 của mình Trong đó, Marcu giới thiệu mô hình phân tích diễn ngôn sửdụng các luật được xây dựng một cách thủ công để tạo ra các cấu trúc diễn ngôn

Trang 18

Tiếp cận này sử dụng các từ hiệu để tách văn bản thành các đơn vị diễn ngôn Đểxác định các quan hệ diễn ngôn giữa các đơn vị này, Marcu sử dụng giải thuật dựatrên các từ đánh dấu diễn ngôn và giải thuật dựa trên từ đồng hiện Giải thuật dựatrên từ đồng hiện được sử dụng để nhận biết 2 câu hoặc 2 đoạn có nói về cùng mộtvấn đề hay không Do giải thuật này dựa trên sự đồng hiện của các từ, nó không thểdùng được trong trường hợp 2 câu hoặc đoạn sử dụng các từ đồng nghĩa hoặc cácngữ cùng tham chiếu tới một nghĩa Marcu cũng đề xuất một nguyên lý, cho rằng :

“một quan hệ diễn ngôn R giữa 2 phần văn bản cũng là quan hệ diễn ngôn giữa 2đơn vị quan trọng nhất của 2 phần văn bản đó” Từ quan điểm này, Marcu đã phântích các quan hệ giữa các phần văn bản bằng cách chỉ đánh giá các nhân tố nhận biếtcủa các nhân

Mặc dù giải thuật của Marcu để xây dựng các biểu diễn RST khá tiến bộ sovới các phương pháp khác, vẫn còn nhiều vấn đề được đặt ra Do hệ thống củaMarcu phụ thuộc nặng nề vào các từ hiệu, sẽ có vấn đề nếu các từ hiệu không xuấthiện trong văn bản Thêm vào đó, hệ thống này sinh ra mọi cây RST có thể được từcác quan hệ giữa các cặp đơn vị văn bản và nảy sinh sự bùng nổ tổ hợp khi số quan

hệ tăng theo hàm mũ

1.4 Các nghiên cứu khác

Trên đây là các nghiên cứu có ảnh hưởng lớn tới các nghiên cứu khác về bàitoán phân tích cấu trúc diễn ngôn, bao gồm đề xuất các khái niệm và cài đặt thửnghiệm Ngoài ra còn một số các nghiên cứu khác của Poesio và Di Eugenio (2001),kết hợp lý thuyết của Grosz và Sidner với RST); Kurohashi và Nagao (1994), lấycâu làm đơn vị diễn ngôn cơ bản; Corston (1998), sử dụng cấu trúc ngữ nghĩa củacâu thay cho từ hiệu trong việc nhận biết các quan hệ diễn ngôn Dưới đây, em sẽ đisâu trình bày nội dung lý thuyết cấu trúc diễn ngôn do Mann và Thompson đề xuấtcùng một số cải tiến của Marcu

2 Lý thuyết cấu trúc diễn ngôn

2.1 Giới thiệu

Các nghiên cứu ngôn ngữ học và ngôn ngữ học tính toán từ lâu đã chỉ ra rằngvăn bản không chỉ là một chuỗi đơn giản gồm các vế và câu mà còn là một cấu trúcphức tạp, tinh vi Đến nay, các lý thuyết hình thức về văn bản vẫn còn được pháttriển và có thể dễ dàng cài đặt trên các hệ thống tính toán Thực tế thì rất ít lý thuyếtphản ánh đúng các hệ thống ngôn ngữ tự nhiên: hầu hết chúng xử lý văn bản dựatrên cơ sở từng câu một Để minh họa, ta xét 2 văn bản dưới đây :

(1.1)

Trang 19

Ðiểm nổi bật trong quan điểm giáo dục lý tưởng cho thanh niên của Bác Hồ là đưathanh niên vào các tổ chức chính trị, xã hội do Ðảng lãnh đạo để vừa giác ngộ lý tưởngcách mạng cho họ, vừa đưa họ hoạt động thực tiễn đấu tranh cách mạng của toàn dân tộc.

Ðể chuẩn bị cho việc thành lập Ðảng, năm 1925, lãnh tụ Nguyễn Ái Quốc sáng lập HộiViệt Nam Cách mạng Thanh niên là tiền thân của Ðảng ta sau này Người trực tiếp lựachọn và bồi dưỡng, đào tạo những thanh niên yêu nước, có chí khí đấu tranh chống thựcdân, phong kiến Cuốn sách “Ðường kách mệnh” là tập hợp các bài giảng của Nguyễn ÁiQuốc từ năm 1925 đến 1927 cho các lớp thanh niên ưu tú về lý tưởng, đạo đức cách mạng.Những thanh niên yêu nước qua huấn luyện, giáo dục, đào tạo được Bác Hồ đưa về nướchoạt động để thâm nhập vào phong trào yêu nước, phong trào công nhân trở thành nhữngcán bộ cách mạng tiên phong trong cuộc đấu tranh giải phóng dân tộc Trong đó có nhiềungười cộng sản trẻ tuổi xuất sắc như Trần Phú, Nguyễn Lương Bằng, Phạm Văn Ðồng, LêHồng Phong, Hồ Tùng Mậu,

(1.2)

Những thanh niên yêu nước qua huấn luyện, giáo dục, đào tạo được Bác Hồ đưa vềnước hoạt động để thâm nhập vào phong trào yêu nước, phong trào công nhân trở thànhnhững cán bộ cách mạng tiên phong trong cuộc đấu tranh giải phóng dân tộc Cuốn sáchÐường kách mệnh là tập hợp các bài giảng của Nguyễn Ái Quốc từ năm 1925 đến 1927cho các lớp thanh niên ưu tú về lý tưởng, đạo đức cách mạng Ðiểm nổi bật trong quanđiểm giáo dục lý tưởng cho thanh niên của Bác Hồ là đưa thanh niên vào các tổ chức chínhtrị, xã hội do Ðảng lãnh đạo để vừa giác ngộ lý tưởng cách mạng cho họ, vừa đưa họ hoạtđộng thực tiễn đấu tranh cách mạng của toàn dân tộc Người trực tiếp lựa chọn và bồidưỡng, đào tạo những thanh niên yêu nước, có chí khí đấu tranh chống thực dân, phongkiến Ðể chuẩn bị cho việc thành lập Ðảng, năm 1925, lãnh tụ Nguyễn Ái Quốc sáng lậpHội Việt Nam Cách mạng Thanh niên là tiền thân của Ðảng ta sau này Trong đó có nhiềungười cộng sản trẻ tuổi xuất sắc như Trần Phú, Nguyễn Lương Bằng, Phạm Văn Ðồng, LêHồng Phong, Hồ Tùng Mậu,

Sự khác biệt giữa 2 văn bản này chỉ là ở thứ tự các câu, còn các cây cú pháp

và biểu diễn ngữ nghĩa của mỗi câu là như nhau Nhưng văn bản (1.1) chặt chẽ hơn(có thể hiểu được), còn văn bản (1.2) thì không có mấy ý nghĩa (đơn thuần là mộttập các câu) Do đó khi xây dựng một hệ thống thuần thục ngôn ngữ tự nhiên, rõràng hệ thống này phải không chỉ đưa ra được các suy diễn bên trong câu mà cònphải đưa ra được các suy diễn giữa các câu Bản chất diễn ngôn và có chủ ý củamỗi văn bản cho phép một hệ thống hiểu được thông tin giữa các câu và vế câu liên

hệ với nhau như thế nào : đâu là vế câu, câu quan trọng trong văn bản,…

Có một cách để diễn tả tường mình các suy diễn này là sử dụng cấu trúc câynhư hình 2.1

Trang 20

Hình 2.1 – Cây mô tả cấu trúc diễn ngôn của văn bản

Trong đó mỗi lá của cây được liên kết với một phần văn bản (textual span) liên tiếp,các nút trong được gán nhãn bởi tên của các quan hệ diễn ngôn giữa các phần vănbản là các nút con của nó; các hộp và đường thẳng đậm thể hiện các phần văn bảnquan trọng đối với mục đích người viết

2.2 Một số tính chất cơ bản của cấu trúc văn bản

 Các đơn vị cơ bản của cấu trúc là các đoạn văn bản không gối lên nhau

 Có các quan hệ diễn ngôn, sự thống nhất, sự cố kết giữa các đơn vị văn bản

 Một số đơn vị văn bản đóng vai trò quan trọng hơn trong văn bản so với cácđơn vị khác

 Cấu trúc trừu tượng của hầu hết văn bản là cấu trúc dạng cây

2.3 Lý thuyết cấu trúc diễn ngôn

Lý thuyết cấu trúc diễn ngôn (Rhetorical Structure Theory) [5] là mộtphương pháp dùng để biểu diễn sự mạch lạc, chặt chẽ của văn bản,do Mann vàThomson đề xuất,được phát triển bởi các nhà nghiên cứu như Hovy,Marcu vàForbes Nó mô tả cấu trúc diễn ngôn của một văn bản bằng 1 cây phân cấp Biểu đồcuả cây phân cấp này gọi là cây diễn ngôn hay cây RST Lá của một cây RST tươngứng với một đơn vị diễn ngôn (Elemetary discourse unit EDU)

Trang 21

Trung tâm của RST là các quan hệ diễn ngôn giữa các đoạn văn bản khônggối lên nhau gọi là nhân (nuclei - N) và vệ tinh (satellite – S) Có một số ngoại lệ :như quan hệ CONTRAST (tương phản) là quan hệ giữa các N.

Điểm khác biệt cơ bản giữa N và S là: N diễn tả nhiều điều cơ bản đối với mục đíchcủa người viết hơn là S; trong một quan hệ diễn ngôn, N có tính độc lập cao hơn S

Ví dụ : Dưới đây là định nghĩa quan hệ EVIDENCE (Dẫn chứng) :

[Sự thật là áp lực dẫn đến việc hút thuốc trong trường PTTH cao hơn trong các giai đoạnkhác của cuộc đời B1] [Chúng ta thấy rằng mỗi ngày có thêm 3000 trẻ vị thành niên bắtđầu hút thuốc C1]

Sự gắn kết trong RST được giả định phát sinh do một tập các ràng buộc vàảnh hưởng tổng thể có liên quan tới mỗi quan hệ Các ràng buộc về hạt nhân, vệtinh và sự kết hợp giữa hạt nhân và vệ tinh Ví dụ, mối quan hệ EDVINCE phát sinhgiữa hạt nhân b1 và vệ tinh c1; bởi vì b1 trình bày một số thông tin mà người viếttin rằng hỗ trợ không đầy đủ để được chấp nhận bởi người đọc, vệ tinh c1 trình bàymột vài thông tin được cho là được tin tưởng bởi người đọc hoặc đáng tin, làm tăngniềm tin của người đọc trong hạt nhân Hiệu quả của mối quan hệ là làm tăng thêmniềm tin của người đọc đối với nội dung mà hạt nhân trình bày

Các quan hệ cấu trúc diễn ngôn có thể được biểu diễn dưới dạng các cây cấu trúcdiễn ngôn (cây RS) :

Hình 2.2 – Một số quan hệ diễn ngôn được biểu diễn dưới dạng cây

2.4 Một số hạn chế của lý thuyết cấu trúc diễn ngôn

Ta có thể chỉ ra 2 thiếu sót của RST :

Không có đặc tả hình thức cho phép phân biệt cây cấu trúc tốt và cây cấu trúc tồi

Trang 22

Không có thuận toán cho phép xác định mọi cách phân tích diễn ngôn có thể củamột văn bản cho trước.

[No matter how much one wants to stay a nonsmoker,A1][the truth is that the pressure to smoke in junior high is greater than it will be any other time of one’s life.B1][We know that 3000 teens start smoking each day,C1][although it is a fact that 90% of them once thought that smoking was something that they’d never do.D1]

Quy ước :

Các QHDN được biểu diễn dưới dạng các vị từ quan hệ rhet_rel(name, satellite,nucleus) và rhet_rel(name, nucleus1, nucleus2) Trong đó name là tên quan hệ.Trước tiên ta liệt kê các quan hệ diễn ngôn có thể có giữa các cặp đơn vị văn bản :

Trang 23

Hình 2.3 – Một văn bản có nhiều cách phân tích khác nhau

Trong đó cây d) là cây không tuân thủ các yêu cầu trong tài liệu của Mann vàThompson [1988] vì C1 thuộc về 2 phần văn bản [A1, C1] và [C1, D1]

Có 3 sự lựa chọn trong trường hợp này :

Hình 2.4 : Lựa chọn cây cấu trúc diễn ngôn

Theo Marcu [1997], khuyết điểm của các giải thuật xây dựng tự động các cây RSTkhông chỉ xuất phát từ sự định nghĩa nhập nhằng các quan hệ diễn ngôn mà cònxuất phát từ sự mô tả thiếu đầy đủ của các cây RS trong lý thuyết nguyên thủy (doMann và Thompson đề xuất)

Trang 24

Từ đó Marcu đã đưa thêm thông tin vào cây RS, bằng cách đưa ra định nghĩa hìnhthức mới của cây RS :

• Một cây văn bản là một cây nhị phân mà các lá của nó là các đơn vị văn bản

• Mỗi nút được gắn một nhãn status (trạng thái : N hoặc S), một nhãn type(kiểu quan hệ diễn ngôn giữa các phần văn bản nằm dưới nút đó), và một tậpsalience hoặc promotion (tập các đơn vị văn bản quan trọng nhất nằm dưới nút đó).Quy ước nhãn type của nút lá nhận giá trị LEAF và tập promotion chỉ gồm mộtphần tử là đơn vị văn bản tương ứng với nút lá đó

Hình 2.5 – Cây RS theo đề xuất của Marcu

PHẦN 2 CÁC KẾT QUẢ ĐẠT ĐƯỢC

Chương I Phân tích cấu trúc diễn ngôn

1 Phân tích cấu trúc diễn ngôn

Khi phân tích cấu trúc diễn ngôn của một văn bản, ta có 2 sự lựa chọn: một

là xem văn bản như một chuỗi “phẳng” gồm các đơn vị văn bản (câu/vế câu) nốitiếp nhau; hai là xem văn bản như một cấu trúc phân cấp với các thành phần vế câu,câu, đoạn văn, mục, chương,… Ta sẽ xem xét ưu và nhược điểm của từng hướng đi

để có sự lựa chọn phù hợp

Nếu xem văn bản là một chuỗi liên tiếp các vế câu, sẽ không có ràng buộcnào được xét tới khi xuất hiện biên của câu hay đoạn Nếu có thể xác định quan hệdiễn ngôn cho các cặp vế câu này một cách chính xác thì ta có thể xây dựng đượcchính xác cây mô tả quan hệ giữa chúng Nhược điểm của hướng tiếp cận này là độ

Trang 25

phức tạp tính toán lớn Sẽ tốn rất nhiều thời gian để xây dựng cây CTDN khi sốlượng các vế câu có thể lên đến hàng trăm trong văn bản thực tế.

Nếu xem văn bản là một hệ thống phân cấp, ta có thể giảm đáng kể được độphức tạp tính toán Để minh họa, ta xét ví dụ dưới đây :

Đây là một văn bản có 11 câu, 3 đoạn : đoạn thứ nhất và thứ hai gồm 4 câu, đoạnthứ ba gồm 3 câu

(2.3)

[……… 1 ][……… 2 ][……… 3 ][……… 4 ][……… 5 ] [……… 6 ][……… 7 ][……… 8 ][……… 9 ] [……… 10 ][……… 11 ]

Nếu ta coi văn bản (2.3) là một chuỗi “phẳng” với các đơn vị cơ bản là câu, việcphân tích diễn ngôn của văn bản (2.3) khi đó sẽ là xây dựng cây CTDN cho mộtchuỗi 11 đơn vị Tuy nhiên, nếu coi các đoạn văn là các thành phần cấp cao của cấu

trúc diễn ngôn, việc phân tích diễn ngôn của văn bản (2.3) có thể được chia thành 3

bước :

1 Xác định các cây CTDN của mỗi đoạn văn

2 Xác định cây CTDN của một chuỗi gồm 3 đơn vị, tương ứng với 3 đoạnvăn

3 Thay thế các lá của cây CTDN xây dựng được ở bước 2 bằng các cây đãđược xây dựng ở bước 1 cho mỗi đoạn Ta thu được một cây CTDN hoànchỉnh cho văn bản

Nhờ đó, thay vì phải tiến hành phân tích CTDN cho một chuỗi 11 đơn vị, ta chỉ cầnphân tích CTDN cho 4 chuỗi : 2 chuỗi 4 đơn vị, và 2 chuỗi 3 đơn vị (tính cả chuỗigồm 3 đoạn) Về mặt tính toán, quá trình phân tích sẽ nhanh hơn rất nhiều

Hướng tiếp cận sau có ưu điểm về mặt tốc độ tính toán, nhưng sẽ xuất hiện một sốvấn đề trong trường hợp các vị trí ngắt đoạn không khớp với vị trí ngắt ý Ví dụ, vănbản (2.3) viết về 2 chủ đề, một chủ đề kéo dài từ câu 1 tới câu 5, chủ đề còn lại từcâu 6 tới câu 11 Nếu 2 chủ đề này có quan hệ tương phản với nhau, một cây CTDNđầy đủ sẽ có 2 đoạn con chính: một đoạn từ câu 1 tới câu 5, và một đoạn từ câu 6 tớicâu 11 Trong khi đó, rõ ràng một thuật giải coi cấu trúc đoạn văn tương đương với

Trang 26

cấu trúc diễn ngôn sẽ xây dựng được một cây CTDN không chính xác gồm 3 đoạncon : 1-4, 5-8, và 9-11.

Có một cách để giải quyết vấn đề này : vẫn coi văn bản là một cấu trúc phâncấp, nhưng đơn vị văn bản cấp cao sẽ là các “khối thông tin” thay cho các đoạn văn.Một khối thông tin là tập hợp các câu và các đoạn có quan hệ ngữ nghĩa với nhau vàđều nói về một chủ đề, giới hạn của một khối tin không phụ thuộc vào các ký hiệungữ pháp khi biểu diễn văn bản Các nghiên cứu trong các lĩnh vực Ngôn ngữ họctính toán và Trích rút thông tin cho thấy các khối tin này có thể được xác định quamột quá trình xử lý dựa trên ngữ nghĩa, chỉ ra các khối “nói về” cùng một vấn đề.Một số các phương pháp dựa trên ngữ nghĩa là sử dụng từ đồng hiện, từ đồng nghĩa,chuỗi từ vựng,…

1.1 Tổng quan quá trình phân tích cấu trúc diễn ngôn

Bài toán phân tích cấu trúc diễn ngôn

Đầu vào : văn bản T.

Đầu ra : cây cấu trúc diễn ngôn của T.

Để giải quyết bài toán này, ta sẽ thực hiện quá trình gồm 3 bước :

Phân đoạn diễn ngôn : tách văn bản thành tập các đơn vị diễn ngôn.

Xác định quan hệ diễn ngôn : xác định mọi quan hệ có thể có giữa các đơn vị

diễn ngôn cơ bản và giữa các đơn vị văn bản cấp cao hơn

Sinh cấu trúc diễn ngôn phù hợp nhất cho văn bản: sử dụng các quan hệ diễn

ngôn giả định thu được ở bước 2 để xây dựng các cây cấu trúc diễn ngôn của vănbản Chọn một cây « tốt nhất » theo tiêu chí nào đó

Hình 2.6 : Tổng quan quá trình phân tích diễn ngôn

1.2 Phân đoạn diễn ngôn (Discourse segmentation)

Theo lý thuyết của Mann và Thompson, cấu trúc diễn ngôn được tạo nên từcác phân đoạn diễn ngôn nhỏ hơn Mọi phân đoạn diễn ngôn đều có tính toàn vẹnchức năng , ví dụ như các vế (clause) trong câu Đơn vị diễn ngôn nhỏ nhất đượcgọi là đơn vị diễn ngôn cơ bản (Elementary Discourse Unit – EDU)

Trang 27

Phân đoạn diễn ngôn là quá trình phân tách văn bản thành các đơn vị diễn

ngôn cơ bản Tính chính xác ở bước này có ảnh hưởng đến chất lượng của bước xác

định quan hệ diễn ngôn sau này.Ngoài ra, mức độ gọn nhẹ của bản tóm tắt sau nàycũng phụ thuộc vào độ chi tiết (kích thước) của các đơn vị diễn ngôn cơ bản

Quá trình phân đoạn diễn ngôn bao gồm các bước:

Hình 2.7: Các bước phân đoạn diễn ngôn

- Tách các đoạn văn, câu (bước này được thực hiện khá đơn giản dựa trêncác dấu xuống dòng và dấu chấm câu)

- Tách các câu thành các đơn vị diễn ngôn cơ bản

a Một số phương pháp phân đoạn trước đây

Marcu (1997) : Sử dụng các cụm từ hiệu (cue phrases) và các dấu câu.

Đây là phương pháp cơ bản và phổ biến nhất bởi các cụm từ hiệu như : mặcdù; nhưng; nếu … thì …; vì … nên …; … là những dấu hiệu rõ ràng nhất giúpchúng ta xác định ranh giới giữa các đơn vị diễn ngôn trong câu và là phương tiệnhữu ích nhất để chỉ ra quan hệ diễn ngôn giữa các đơn vị đó Trong các nghiên cứu

của mình, Marcu coi các dấu câu cũng là một loại từ hiệu đặc biệt với trọng số1

thấp

Không phải từ hiệu nào cũng đóng vai trò là cột mốc cho việc phân đoạn và

xác định quan hệ diễn ngôn Các từ có ích như vậy được gọi là có chức năng diễn

ngôn.

Hương.L.T (2004) : Trong một số trường hợp, đơn vị diễn ngôn cơ bản

không nhất thiết phải là một kết cấu Chủ - Vị hoàn chỉnh mà có thể chỉ là một ngữdanh từ hoặc ngữ động từ Việc tách các ngữ danh từ và ngữ động từ này dựa vào

một số từ hiệu mạnh (strong cue phrases).

Ví dụ :

1 Trọng số chỉ độ chắc chắn của quan hệ diễn ngôn xác định được nhờ từ hiệu

Trang 28

[According to a Kidder World story about Mr Megarge,][ all the firm has to do is

“position ourselves more in the deal flow”.]

[In 1988, Kidder eked out a $46 million profit,][ mainly because of severe cost

cutting.]

Trong 2 ví dụ trên, việc xác định phân đoạn diễn ngôn được thực hiện dựa vào các

từ hiệu mạnh như “according to” và “because of”.

Polanyi (2004) : đề xuất một tiếp cận mới dựa trên ngữ nghĩa diễn ngôn

(discourse semantics) Thay vì mô tả những đối tượng cú pháp thực hiện chức năngcủa các đoạn diễn ngôn, Polanyi đưa ra cơ sở ngữ nghĩa (semantic basis) thực hiệnchức năng của một đoạn và sau đó mới nhận dạng các cấu trúc ngữ pháp mangthông tin ngữ nghĩa đó

b Phương pháp phân đoạn diễn ngôn được sử dụng trong đồ án

i Các điểm khác biệt giữa phân đoạn diễn ngôn trong tiếng Việt và trong tiếng Anh [4]

So với trong tiếng Anh, quá trình phân đoạn diễn ngôn tiếng Việt có một sốđặc điểm riêng, đòi hỏi các thao tác xử lý phức tạp hơn ở một số khâu :

- Tách + gán nhãn từ loại để xác định các từ hiệu : do việc cấu tạo một từ trongtrong tiếng Việt có thể gồm nhiều tiếng nên có hiện tượng một số từ hiệu trùng hoặc

là một phần của một từ không phải là từ hiệu

Ví dụ 1 :

Dù trời mưa to nhưng chúng tôi vẫn đá bóng.

Trong câu này, “dù” là từ hiệu

Trên các máy bay, các phi công và hành khách luôn được trang bị dù

Trong câu này, “dù” là danh từ

Ví dụ 2 :

Chúng tôi càng chờ, mưa càng nặng hạt.

Trong câu này, “càng” là từ hiệu trong cấu trúc “… càng … càng …”

Cậu ăn chiếc càng cua này đi !

Ở đây, “càng” là một phần của danh từ “càng cua”

Trang 29

- Trong tiếng Việt, ngay cả khi đã xác định được đâu là từ hiệu, nhiều khi chúng tavẫn cần phải căn cứ thêm vào cấu trúc ngữ pháp của các thành phần bên cạnh từhiệu đó thì mới có thể biết được từ hiệu đó có chức năng diễn ngôn không và chỉ ra

vị trí tách phân đoạn

Ví dụ 3 :

Vì trời mưa nên đường trơn.

Trong câu này, “vì” có chức năng diễn ngôn, thỏa mãn cấu trúc [vì <câu> nên

<câu>]

Bác làm mọi việc đều vì nước vì dân

Trong câu này, “vì” đóng vai trò tạo nên cụm từ bổ nghĩa cho động từ “làm”, không

có chức năng diễn ngôn

- Do các từ trong tiếng Việt ít có sự biến đổi về hình thái và độ dài các cụm từ hiệukhá ngắn nên có các từ hiệu khi thì nằm ở phân đoạn ngữ danh từ hoặc ngữ động từ(giống như một từ hiệu mạnh trong tiếng Anh), khi thì thậm chí không có chức năngdiễn ngôn

Ví dụ 4 :

[Khi được dự báo trước đợt rét lạnh,][ bà con nông dân sẽ chuẩn bị đối phó hiệu

quả, không bị mất mùa.]

Trong câu này, “khi” đóng vai trò như một từ hiệu mạnh.

Mặt trăng khi tỏ khi mờ

Trong câu này, “khi” không có chức năng diễn ngôn

ii Phương pháp phân đoạn diễn ngôn

Từ các đặc điểm như trên, có thể thấy kết quả phân đoạn diễn ngôn trongtiếng Việt sẽ rất thiếu chính xác nếu như chỉ dựa vào các từ hiệu mà không biết cấutrúc ngữ pháp của các thành phần văn bản xung quanh Do đó, ta có thể sử dụng kếthợp các dấu hiệu sau để thực hiện thao tác phân đoạn :

- Dấu câu, dấu chú thích :

”

Trang 30

vì tuy nếu để cho cũng như có nghĩa là

bởi nhưng thì cốt cho hệt như cùng với

nhờ có dẫu sao hễ cốt giống như sau đó

cho nên mặc dù nếu như mục

đích là

tức là

thành ra dầu cho mà nói đúng hơn là

Bảng 2.2: Một số từ hiệu được phân loại theo quan hệ diễn ngôn

- Cấu trúc ngữ pháp : Việc sử dụng kết quả phân tích cú pháp thực sự giúp cải thiệnhiệu năng của mô-đun Phân đoạn diễn ngôn và mô-đun Xác định quan hệ diễnngôn Song đây cũng chính là điểm yếu của chương trình này bởi hiện giờ, các bộphân tích cú pháp cho tiếng Việt chưa có được độ chính xác cao Trong một sốtrường hợp, kết quả phân tích cú pháp sai sẽ khiến kết quả phân đoạn diễn ngôn còntồi tệ hơn khi chỉ dựa trên 2 dấu hiệu trên

Một số ví dụ minh họa các trường hợp kết hợp khác nhau của 3 dấu hiệu trên :

- Dấu câu + Cấu trúc ngữ pháp:

[Trời mưa,][ sân trơn,][ bóng ướt.]

Luật tách được sử dụng trong trường hợp này là <câu>{,}<câu><T>

Trang 31

- Dấu câu :

[Ngày mai [(Trung thu)], mọi người đến nhà tớ chơi nhé !]

Luật tách được sử dụng trong trường hợp này là <T>!{(}<T>{)}!<T>

Chú ý trường hợp nhập nhằng :

[PC[ – máy tính cá nhân –] là một trong những phát minh quan trọng nhất của thế

kỷ XX.]

- Cấu trúc ngữ pháp :

[Ngôi nhà [tôi mới xây] rất đẹp.]

Luật tách được sử dụng trong trường hợp này là <SUB <NP>!<SBAR>!> <PRE>

- Từ hiệu :

[Vì trời mưa][ nên đường trơn.]

Luật : {Vì}<T>!{nên}<T>

- Từ hiệu + dấu câu + cấu trúc ngữ pháp :

[Khi được dự báo trước đợt rét lạnh,][ bà con nông dân sẽ chuẩn bị đối phó hiệu

quả, không bị mất mùa.]

Luật : {Khi}<VP>!{,}<S>

Qua các ví dụ trên, có thể thấy công việc có độ phức tạp cao nhất trong bướcphân đoạn diễn ngôn là tách câu thành các đơn vị diễn ngôn cơ bản Từ yêu cầu vềđầu vào, đầu ra, và các cơ sở để phân đoạn ta có sơ đồ tách câu khái quát như sau :

Trang 32

Hình 2.8 : Sơ đồ các thao tác cần thực hiện trong bước tách câu thành các

ĐVDNCB

Tương tự như tập luật ngữ pháp trong hệ thống phân tích cú pháp, ở đây Tậpluật tách là yếu tố có ảnh hưởng lớn nhất tới độ chính xác của kết quả và khả năngphân tích được nhiều trường hợp của hệ thống phân tích diễn ngôn Để mô tả cáctrường hợp xuất hiện của từ hiệu trong câu, ta sử dụng các khuôn dạng (pattern) códạng :

_{vì_}_<S_>_{nên_}_<S_>

_<T_>_{:_}_<T_[,_]_>

Mỗi khuôn dạng là một xâu mô tả đặc điểm của một lớp các câu (hoặc mộtphần của câu), thỏa mãn một số các điều kiện về mặt cấu trúc ngữ pháp và vị tríxuất hiện của từ

- Bộ ngoặc _{_} và _[_] dùng để chứa các quan hệ từ/dấu câu (trong một số trườnghợp có thể là các từ bất kỳ)

- Bộ ngoặc _<_> dùng để chứa ký hiệu viết tắt trong tiếng Anh của các thành phầnngữ pháp như:

Trang 33

Ký hiệu Thành phần ngữ pháp tương ứng

SUB Chủ ngữ PRE Vị ngữ

NP Cụm danh từ

VP Cụm động từ

PP Cụm giới từ SBAR Bổ ngữ

T Đại diện cho chức năng ngữ pháp bất kỳ

Bảng 2.3: Các thành phần ngữ pháp được sử dụng trong khuôn dạng

Số lượng và độ chi tiết của các thành phần ngữ pháp là không hạn chế và phụthuộc vào khả năng của mô-đun phân tích cú pháp Tuy nhiên, việc mô tả quá cụ thểcác chức năng ngữ pháp trong một khuôn dạng sẽ khiến luật chứa khuôn dạng đómất tính tổng quát và được sử dụng trong rất ít trường hợp

Việc đưa thêm ký tự “_” vào trước các dấu ngoặc là để tránh trường hợp dấuxuất hiện trong bộ ngoặc {} là dấu “{” hoặc dấu “}”

Điểm khác biệt giữa bộ ngoặc _{_} và bộ ngoặc _[_] là: các từ xuất hiện bêntrong bộ ngoặc _{_} phải có mặt trong văn bản tại đúng vị trí bắt đầu so khớp với

bộ ngoặc _{_} trong khuôn dạng, còn các từ xuất hiện bên trong bộ ngoặc _[_] chỉcần có mặt trong phần văn bản tương ứng với chức năng ngữ pháp chứa bộ ngoặc_[_] đó

Trang 34

Khuôn dạng này mô tả một xâu có 2 thành phần ngữ pháp bất kỳ, ở giữa 2 thànhphần ngữ pháp này là một dấu hai chấm “:”, thành phần ngữ pháp thứ hai có chứadấu phẩy.

Câu “Thanh niên phải thường xuyên rèn luyện, trau dồi đạo đức cách mạng: cần,kiệm, liêm, chính; chí công, vô tư.” thỏa mãn khuôn dạng này

1.3 Xác định quan hệ diễn ngôn

Tương tự quá trình phân đoạn diễn ngôn, quá trình xác định quan hệ diễnngôn cũng được thực hiện ở 3 mức văn bản : dưới câu, giữa các câu, và giữa cácđoạn văn

a Xác định quan hệ diễn ngôn mức dưới câu

Ở mức dưới câu, các phương tiện như từ hiệu và khuôn dạng đủ mạnh để cóthể xác định quan hệ diễn ngôn ngay khi tách câu thành các ĐVDNCB Do đó ta sẽđưa thêm một số thông tin vào luật tách nhằm gắn quan hệ diễn ngôn với khuôndạng tương ứng Một luật tách khi đó sẽ có dạng:

Marker | Pos1 | Pos2 | Pattern | Type | Rel | Score

Pos2 : vị trí xuất hiện của từ hiệu trong vế thứ hai, nhận 1 trong 3 giá trị:B(đầu), M(giữa) hoặc E(cuối) Khi xét các luật trong tập luật LN, ta sẽ khôngquan tâm tới giá trị của trường này

Pattern : khuôn dạng

Type : dùng để chỉ quan hệ diễn ngôn thuộc loại S-N, N-S hay N-N

Rel : tên quan hệ diễn ngôn

Score : điểm số phản ánh mức độ chắc chắn của việc xác định quan hệ diễnngôn, nhận giá trị thực từ 0 đến 1

Trang 35

Ví dụ:

vì | B | B | _{vì_}_<S_>_!_{nên_}_<S_> | S-N | 1 | 1

- Luật này được xét tới khi trong xâu xuất hiện từ hiệu “vì”

- Cả 2 quan hệ từ trong đều đứng ở đầu các vế sau khi tách

- Khuôn dạng để nhận biết xâu là _{vì_}_<S_>_{nên_}_<S_> Nếu xâu đang xétthỏa mãn khuôn dạng này thì tách thành 2 vế Ví trí tách là ngay trước khi xuất hiệnquan hệ từ “nên”

- Quan hệ diễn ngôn giữa 2 vế sau khi tách là CAUSE_EFFECT (nhân – quả), thuộcloại quan hệ S-N

Ngoài ra, đối với trường hợp câu có cấu trúc ngữ pháp dạng

_<SUB_<NP_>_<SBAR_>_>_<PRE_>, ta sẽ xây dựng cây CTDN cho câu này

ngay tại bước tách câu

Ví dụ:

Xét câu “Căn nhà tôi mới mua rất đẹp”

Cấu trúc ngữ pháp của câu này là:

Các ĐVDNCB của câu sau khi tách là [Căn nhà1][tôi mới mua2][rất đẹp3]

Quan hệ diễn ngôn giữa các ĐVDNCB:

Định dạng
Số trang	71
Dung lượng	3,31 MB

Tài liệu tham khảo	Loại	Chi tiết
1. Daniel Marcu, The Rhetorical Parsing, Summarization and Generation, of Natural Language Texts, Ph.D Thesis (1997) [page 19-219]	Khác
2. Lê Thanh Hương, An approach in automatically generating discourse structure of text . PGS.TS Faculty of Information Technology, Hanoi University of Technology, VietNam [page 1-12]	Khác
4. Hoàng Trọng Phiến, Ngữ pháp tiếng Việt – Câu, Nhà xuất bản Đại học và Trung học chuyên nghiệp 1980	Khác
5. William.C.Mann, Sandra.A.Thompson, Rhetorical structure theory: A theory of text organization. Reprinted from the Structure of Discourse, University of Southern California.[page 2-46]	Khác
6. M.Suneetha, S. Sameen Fatima , Corpus based Automatic Text Summarization System with HMM Tagger, International Journal of Soft Computing and Engineering (IJSCE) ISSN: 2231-2307, Volume-1, Issue-3, July 2011 [page 1-6]	Khác
7. YihongGong & XinLiu, Generic Text Summarization Using Relevance Measure and Latent Semanti Analysis. Proceedings of the 23 rd International Conference on Computational Linguistics (Coling2010), [page 869–876], Beijing, August 2010	Khác
8. Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A. Crockett (Sentence Similarity Based on Semantic Nets and Corpus Statistics. Volume 18 Issue 8, August 2006 [page 1138 – 1150] IEEE Trans	Khác
9. Hiroshi ISHII & Rihua LIN & Teiji FURUGORI, A System for Text Summarization Based on Word Importance Measures, Department of Computer Science The University of Electro-Communications 1-5-1 Chofugaoka, Chofu-shi, Tokyo 182-8585, Japan.[page 3-5]	Khác
10. Wauter Bosma, DiscourseOriented Summarization, 2008 , ISBN978-90-365- 2649-4 [page 84-99]	Khác
11. Martin Hassel, Resource Leanand Portable Automatic Text Summarization (2007), KTH School of Computer Science and Communication , Stockholm. [page 7- 12]	Khác
12. Simone Teufel, Argumentative Zoning: Information Extraction from Scientic Text , University of Edinburgh 1999 [page 129-141]	Khác