1. Trang chủ
  2. » Giáo án - Bài giảng

“Phát triển một số thuật toán tóm tắt văn bản tiếng Việt sử dụng phương pháp học bán giám sát”.

173 289 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 173
Dung lượng 12,18 MB

Nội dung

COLING Hội thảo quốc tế về ngôn ngữ tính toán International Conference on COmputational LINGuistics DLS Rút gọn câu tiếng Việt bằng cách xác định chuỗi từ phù hợp Determining the Likeli

Trang 1

Lời cảm ơn

Sự động viên của gia đình, bạn bè, đồng nghiệp, những người luôn bên tôi làđộng lực to lớn giúp tôi vượt qua bao khó khăn để có thể đặt bút viết lên luận ánnày

Từ khi tôi bắt đầu nghiên cứu cho đến khi hoàn thành luận án tiến sĩ, nhiềungười đã giúp đỡ và hỗ trợ tôi Nếu không có họ, luận án sẽ không hoàn thành đúnghạn Nhân cơ hội này, tôi muốn bày tỏ lời cảm ơn của tôi đến họ

Trước tiên, tôi muốn cảm ơn đến thầy giáo hướng dẫn của tôi, PGS.TSNguyễn Thiện Luận, vì sự hướng dẫn tận tình và khoa học Từ thầy, tôi đã học đượccách lựa chọn vấn đề, cách giải quyết vấn đề và cách trình bày các lời giải

Tôi trân trọng cảm ơn Khoa Công nghệ thông tin, Phòng Đào tạo Sau Đại học

- Nghiên cứu Khoa học, GS.TSKH Phạm Thế Long - Giám đốc Học viện Kỹ thuậtQuân sự đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án.Tôi xin cảm ơn GS.TS Vũ Đức Thi, GS.TS Nguyễn Thanh Thủy, PGS.TS ĐàoThanh Tĩnh, PGS.TS Ngô Quốc Tạo, PGS.TS Hà Quang Thụy, những người đãtruyền đạt cho tôi kinh nghiệm nghiên cứu, lời khuyên, góp ý và hiệu chỉnh để luận

án được hoàn chỉnh

Tôi cũng bày tỏ lời cảm ơn của tôi đến các chuyên gia về xử lý ngôn ngữ tựnhiên TS Nguyễn Lê Minh - Viện Khoa học và Công nghệ Tiên tiến Nhật bản

(JAIST), TS Nguyễn Phương Thái, TS Nguyễn Văn Vinh - Đại học Công nghệ, Đại

học Quốc gia Hà Nội đã hỗ trợ việc thu thập tài liệu, kho ngữ liệu tiếng Việt phục

vụ cho nghiên cứu của tôi và các góp ý hữu ích về ý tưởng và kỹ thuật cho nghiêncứu

Lời cảm ơn đặc biệt đến TS Nguyễn Hữu Quỳnh - Trưởng khoa Công nghệ

Trang 2

quốc tế, cách nghiên cứu độc lập và khơi dậy niềm đam mê nghiên cứu trong tôi.Tôi cũng cảm ơn đến các đồng nghiệp trong khoa Công nghệ Thông tin, trường Đạihọc Điện lực đã động viên, hỗ trợ tôi về mặt công việc để tôi tập trung vào nghiêncứu và tạo cho tôi một môi trường làm việc chuyên nghiệp và thú vị.

Tôi cảm ơn tất cả những người bạn của tôi, những người luôn chia sẻ và cổ

vũ tôi trong những lúc khó khăn và tôi luôn ghi nhớ điều đó

Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với cha mẹ và gia đình đãluôn ủng hộ, giúp đỡ tôi

Trang 3

MỤC LỤC

DANH MỤC CÁC HÌNH VẼ 9

DANH MỤC CÁC BẢNG 12

DANH MỤC CÁC CHỮ VIẾT TẮT 13

PHẦN MỞ ĐẦU 15

CHƯƠNG 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN VÀ TÓM TẮT VĂN BẢN TIẾNG VIỆT 20

1.1 Tóm tắt văn bản 20

1.1.1 Giới thiệu về tóm tắt văn bản 20

1.1.2 Phân loại tóm tắt 22

1.1.3 Tỉ lệ trong tóm tắt văn bản 23

1.1.4 Mô hình tóm tắt văn bản Cắt Dán (Cut and Paste) 24

1.2 Kỹ thuật máy học áp dụng trong tóm tắt văn bản 26

1.2.1 Máy học 26

1.2.2 Kỹ thuật máy học trong tóm tắt văn bản 28

1.2.2.1 Phương pháp tiếp cận tóm tắt dựa trên trích rút câu 28

1.2.2.2 Phương pháp tóm tắt văn bản dựa trên rút gọn câu 30

1.2.2.3 Một số đặc điểm chung của các phương pháp tóm tắt văn bản đã được công bố 31

1.3 Phương pháp đánh giá kết quả tóm tắt 32

1.3.1 Hai độ đo cơ bản 32

Trang 4

1.3.3 Đánh giá theo cách thủ công 33

1.3.4 Phương pháp đánh giá BLEU 34

1.3.5 Phương pháp đánh giá ROUGE 35

1.4 Hiện trạng tóm tắt văn bản tiếng Việt 35

1.4.1 Đặc điểm tiếng Việt 35

1.4.2 Hiện trạng nghiên cứu tiếng Việt 36

1.4.3 Phương pháp tóm tắt văn bản tiếng Việt 37

1.4.3.1 Phương pháp trích rút câu 38

1.4.3.2 Phương pháp rút gọn câu 38

1.4.3.3 Đặc điểm của các phương pháp tóm tắt tiếng Việt đã biết 40

1.4.4 Đánh giá kết quả tóm tắt tiếng Việt 41

1.4.5 Hiện trạng về kho ngữ liệu tiếng Việt phục vụ cho tóm tắt văn bản 41

1.5 Mô hình cải tiến tóm tắt văn bản tiếng Việt 42

1.6 Kết luận chương 1 44

CHƯƠNG 2 KỸ THUẬT TRÍCH RÚT CÂU TRONG VĂN BẢN TIẾNG VIỆT 46

2.1 Tiếp cận tóm tắt văn bản dựa trên trích rút câu và biểu diễn văn bản 46

2.1.1 Tóm tắt văn bản dựa trên trích rút câu 46

2.1.2 Biểu diễn văn bản 49

2.1.2.1 Phương pháp biểu diễn văn bản 49

2.1.2.2 Tính trọng số của từ 49

2.1.3 Mô hình N-gram 50

2.2 Kỹ thuật trích rút câu 51

2.2.1 Giới thiệu 51

2.2.2 Kỹ thuật trích rút câu Baseimp_textsum 54

2.2.2.1 Tính trọng số của câu 54

Trang 5

2.2.2.2 Kỹ thuật Baseimp_textsum 58

2.2.3 Kỹ thuật trích rút câu Infor_textsum 72

2.2.3.1 Lý do đề xuất 72

2.2.3.2 Kỹ thuật Infor_textsum 73

2.3 Các kết quả thực nghiệm 77

2.3.1 Kho ngữ liệu phục vụ phương pháp học bán giám sát. 77

2.3.2 Phương pháp đánh giá tóm tắt 79

2.3.3 Các kết quả thực nghiệm 80

2.3.3.1 Kết quả thực nghiệm của kỹ thuật Baseimp_textsum 80

2.3.3.2 Kết quả thực nghiệm của kỹ thuật trích rút câu Infor-textsum 81

2.4 Kết luận chương 2 82

CHƯƠNG 3 KỸ THUẬT RÚT GỌN CÂU TRONG VĂN BẢN TIẾNG VIỆT 84

3.1 Giới thiệu 84

3.2 Mô hình Markov ẩn 87

3.2.1 Khái niệm 87

3.2.2 Thuật toán Forward 88

3.2.3 Thuật toán Viterbi 89

3.3 Đề xuất một số kỹ thuật rút gọn câu 90

3.3.1 Mô hình chung của kỹ thuật rút gọn câu 91

3.3.2 Kỹ thuật rút gọn câu dựa trên xác định chuỗi từ phù hợp (DLS) 93

3.3.3 Kỹ thuật rút gọn câu dựa trên kết nối các chuỗi con phù hợp nhất - CMLS 101

3.4 Các kết quả thực nghiệm 109

Trang 6

3.4.2 Các kết quả thực nghiệm với hai kỹ thuật DLS và CMLS 112

3.4.2.1 Kết quả thực nghiệm với kỹ thuật DLS 112

3.4.2.2 Kết quả thực nghiệm với kỹ thuật CMLS 113

3.5 Kết luận chương 3 114

CHƯƠNG 4 XÂY DỰNG ỨNG DỤNG TÓM TẮT VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT 115

4.1 Thiết kế hệ thống tổng quát tóm tắt văn bản tiếng Việt VTS 115

4.2 Nhóm module trích rút câu 116

4.2.1 Module trích rút câu Baseimp_textsum 117

4.2.1.1 Kiến trúc của module Baseimp_textsum 117

4.2.1.2 Một số giao diện chính của module Baseimp_textsum 117

4.2.2 Module trích rút câu Infor_textsum 119

4.2.2.1 Kiến trúc của module trích rút câu Infor_textsum 119

4.2.2.2 Một số giao diện chính 119

4.3 Nhóm module rút gọn câu 121

4.3.1 Kiến trúc chung của module rút gọn câu 121

4.3.2 Module rút gọn câu DLS 122

4.3.3 Module rút gọn câu CMLS 123

4.4 Một số kết quả 125

4.4.1 So sánh kết quả trích rút câu 125

4.4.2 So sánh kết quả rút gọn câu 128

4.4.2.1 Kết quả rút gọn bởi module rút gọn câu dựa trên xác định chuỗi từ phù hợp 129

4.4.2.2 Kết quả rút gọn bởi module CMLS của hệ thống VTS 130

4.5 Kết luận chương 4 131

Trang 7

KẾT LUẬN 132 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 135 TÀI LIỆU THAM KHẢO 136 PHỤ LỤC 1 XÂY DỰNG KHO NGỮ LIỆU DÙNG CHO THỰC NGHIỆM141 PHỤ LỤC 2 DANH MỤC CÁC CÂU SỬ DỤNG TÁCH TỪ VÀ GÁN NHÃN

TỪ CHỦ ĐỀ 149

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Văn bản gốc 22

Hình 1.2 Văn bản tóm tắt 22

Hình 1.3 Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau 23

Hình 1.4 Mô hình tóm tắt văn bản Cắt Dán 25

Hình 1.5 Mô hình Markov trích rút hai câu chính và các câu hỗ trợ 29

Hình 1.6 Mô hình luật từ vựng 40

Hình 1.7 Mô hình cải tiến tóm tắt văn bản tiếng Việt hai pha 43

Hình 2.1 Mô hình cách tiếp cận dựa trên trích rút câu 47

Hình 2.2 Văn bản tiếng Việt gốc A 52

Hình 2.3 Văn bản tóm tắt được trích rút bởi hệ thống Vi_textsum từ văn bản gốc A .52

Hình 2.4 Văn bản tiếng Việt gốc A’ 53

Hình 2.5 Văn bản tóm tắt được trích rút bởi hệ thống Vi_textsum từ văn bản gốc A’ 53

Hình 2.6 Mô hình tóm tắt văn bản tiếng Việt dựa trên trích rút câu Baseimp_textsum 59

Hình 2.7 Thuật toán SIMBL 60

Hình 2.8 Thuật toán WS tính trọng số của các câu 62

Hình 2.9 Thuật toán TWF 64

Hình 2.10 Thuật toán LS tính mức độ ngôn ngữ của một từ 65

Hình 2.11 Thuật toán NDCTW 66

Hình 2.12 Thuật toán DF 67

Hình 2.13 Thuật toán trích rút câu trong văn bản tiếng Việt SEBIL 74

Hình 2.14 Hệ thống tóm tắt tiếng Việt trực tuyến Vi_textsum 80

Hình 2.15 Đồ thị so sánh kết quả của Baseimp_textsum với Vi_textsum 81

Hình 2.16 Đồ thị so sánh Infor_textsum và Vi_textsum 82

Hình 3.1 Văn bản tiếng Việt gốc B 85

Trang 9

Hình 3.2 Văn bản tóm tắt B’ 85

Hình 3.3 Câu gốc tiếng Việt C 86

Hình 3.4 Câu rút gọn C’ 86

Hình 3.5 Mô tả thuật toán Forward 88

Hình 3.6 Mô tả thuật toán Viterbi 89

Hình 3.7 Mô hình rút gọn câu tiếng Việt đề xuất 92

Hình 3.8 Xác định câu rút gọn 93

Hình 3.9 Thuật toán SRBLS 94

Hình 3.10 Thuật toán ITW 96

Hình 3.11 Thuật toán LLS 98

Hình 3.12 Sơ đồ biểu diễn tập từ phù hợp và các xác suất có điều kiện 103

Hình 3.13 Thuật toán rút gọn câu CLSS 105

Hình 3.14 Thuật toán xác định chuỗi con DS 106

Hình 3.15 Thuật toán xác định chuỗi con phù hợp nhất DMLS 107

Hình 3.16 Mẫu phiếu đánh giá kỹ thuật DLS 111

Hình 3.17 Mẫu phiếu đánh giá kỹ thuật CMLS 112

Hình 4.1 Giao diện quá trình huấn luyện của module trích rút câu Baseimp_textsum 118

Hình 4.2 Quá trình tóm tắt của module trích rút câu Baseimp_textsum 119

Hình 4.3 Quá trình huấn luyện của module Infor_textsum 120

Hình 4.4 Quá trình tóm tắt của module Infor_textsum 121

Hình 4.5 Quá trình huấn luyện của module rút gọn câu DLS 122

Hình 4.6 Quá trình rút gọn câu của module rút gọn câu DLS 123

Hình 4.7 Quá trình huấn luyện của module rút gọn câu CMLS 124

Hình 4.8 Quá trình rút gọn của module rút gọn câu CMLS 125

Hình 4.9 Văn bản gốc E 126

Hình 4.10 Kết quả sinh bởi hệ thống tóm tắt trực tuyến Vi_textsum 126

Hình 4.11 Kết quả trích rút câu Baseimp_textsum của hệ thống VTS 127

Trang 10

Hình 4.12 Kết quả trích rút theo module trích rút câu Infor_textsum của hệ thống

VTS 127

Hình 4.13 Văn bản gốc E’ 127

Hình 4.14 Kết quả trích rút bởi hệ thống Vi_textsum 128

Hình 4.15 Kết quả tóm tắt bởi module Baseimp_textsum 128

Hình 4.16 Kết quả trích rút câu bởi module trích rút câu Infor_textsum 128

Trang 11

DANH MỤC CÁC BẢNG

Bảng 1.1 Hiện trạng các kho ngữ liệu tiếng Việt 42

Bảng 2.2 Các từ và mức độ ngôn ngữ tương ứng 72

Bảng 2.3 Danh sách một số văn bản trong kho ngữ liệu 78

Bảng 2.4 Danh sách một số từ trong tập từ chủ đề của kho ngữ liệu và giá trị thông tin tương ứng sau quá trình học 79

Bảng 2.5 Phương pháp đánh giá triệu hồi với hai hệ thống Baseimp_textsum và Vi_textsum 80

Bảng 2.6 Phương pháp đánh giá triệu hồi với ba hệ thống Vi_textsum và Infor_Textsum 82

Bảng 3.1 Câu rút gọn tương ứng với các tỉ lệ thông tin 80%, 60% và 40% 99

Bảng 3.2 Số lượng mẫu thu thập đối với DLS 110

Bảng 3.3 Số lượng mẫu thu thập đối với CMLS 111

Bảng 3.3 Đánh giá kỹ thuật DLS 113

Bảng 3.4 Đánh giá kỹ thuật CMLS 113

Bảng 4.1 Kết quả với câu gốc thứ nhất cho bởi module rút gọn câu DLS 129

Bảng 4.2 Kết quả với câu gốc thứ hai cho bởi module rút gọn câu DLS 129

Bảng 4.3 Kết quả với câu gốc thứ ba cho bởi module rút gọn câu DLS 129

Bảng 4.4 Kết quả với câu gốc thứ nhất cho bởi module rút gọn câu CMLS 130

Bảng 4.5 Kết quả với câu gốc thứ hai cho bởi module rút gọn câu CMLS 130

Bảng 4.6 Kết quả với câu gốc thứ ba cho bởi module rút gọn câu CMLS 130

Trang 12

DANH MỤC CÁC CHỮ VIẾT TẮT

ACL Hiệp hội ngôn ngữ tính toán (Association for Computational

Linguistics)Baseimp_textsum Kỹ thuật trích rút câu dựa trên giá trị thông tin và mức độ ngôn ngữ

(A New method for Vietnamese Sentence Extraction based on

important information of topic word and linguistic score)

BLEU Phương pháp đánh giá dịch máy tự động (Bilingual Evaluation

Under Study)

CMLS Rút gọn câu tiếng Việt bằng cách kết nối các chuỗi con phù hợp

nhất (Concatenate the Most Likelihood Substrings for Vietnamese

sentence reduction).

COLING Hội thảo quốc tế về ngôn ngữ tính toán (International Conference

on COmputational LINGuistics)

DLS Rút gọn câu tiếng Việt bằng cách xác định chuỗi từ phù hợp

(Determining the Likelihood String for Vietnamese Sentence

Reduction)

DUC Hội thảo hiểu văn bản (Document Understanding Conferrence)

HMM Mô hình Markov ẩn (Hidden Markov Model)

Infor_textsum Kỹ thuật trích rút câu dựa trên lượng thông tin và mức độ ngôn ngữ

(A new method for calculating weight of sentence based on amount

of information and linguistic score)

LSI Đánh chỉ số ngữ nghĩa ngầm (Latent Semantic Indexing)

NIST Viện công nghệ tiêu chuẩn (National Institute of Standards and

Technology)NLP Xử lý ngôn ngữ tự nhiên (Natural Language Processing)

Rouge Phương pháp đánh giá kết quả tóm tắt ROUGE (Recall – Oriented

Understudy for Gisting Evaluation)

SEBIL Thuật toán trích rút câu dựa trên kỹ thuật Infor_textsum

SIGIR Nhóm quan tâm trích rút thông tin (Special Interest Group on

Trang 13

Information Retrieval )

SIMBL Thuật toán trích rút câu dựa trên kỹ thuật Baseim_textsum

SRLBS Thuật toán rút gọn câu tiếng Việt dựa trên kỹ thuật DLS

TASA Touchstone Applied Science Associates

tf_idf Tần suất từ- tần suất nghịch đảo văn bản (Term frequency – inverse

Trang 14

PHẦN MỞ ĐẦU

1 Tính cấp thiết của luận án

Những năm gần đây, chúng ta đã chứng kiến sự tăng nhanh lượng dữ liệu vănbản cùng với sự phát triển bùng nổ của các ứng dụng trên Internet Hàng ngày,nhiều cơ quan, tổ chức và cá nhân đã tạo ra nhiều Exa-bytes dữ liệu văn bản và đưachúng lên Internet Trong kho dữ liệu văn bản khổng lồ trên Internet, có một lượnglớn là văn bản tiếng Việt Tuy nhiên, không thể khai thác hiệu quả thông tin trongcác tập lớn các văn bản tiếng Việt này, nếu không có các phương pháp tóm tắt vănbản tiếng Việt hiệu quả

Tóm tắt văn bản là quá trình lọc thông tin quan trọng nhất từ một hoặc nhiềunguồn để sinh ra một phiên bản ngắn gọn cho nhiệm vụ hoặc người sử dụng cụ thể[12]

Với hơn nửa thế kỷ nghiên cứu về tóm tắt văn bản tiếng Anh, bắt đầu từ năm

1958 [15, 17], đã có nhiều phương pháp được đề xuất và được sử dụng để xây dựngthành các hệ thống Các hệ thống đã được đưa vào ứng dụng thực tế, mang lại hiệuquả như: Copy và Paste [41], SweSum (Viện nghiên cứu công nghệ Hoàng Gia)[36], FociSum (đại học Columbia - 1998) [39],…

Hầu hết các phương pháp tóm tắt văn bản tiếng Anh đã đề xuất sử dụngphương pháp học truyền thống như học giám sát và không giám sát Các phươngpháp này tập trung chủ yếu vào cách tiếp cận tóm tắt dựa trên trích rút câu hoặc tómtắt dựa trên rút gọn câu Có một số hạn chế: Khi sử dụng học giám sát, các phươngpháp này yêu cầu tới kho dữ liệu dùng cho huấn luyện phải lớn Để xây dựng đượckho dữ liệu này, cần nhiều thời gian và công sức theo cách thủ công Bên cạnh đó,các phương pháp tóm tắt văn bản sử dụng học giám sát đòi hỏi nhiều thời gian tínhtoán Chất lượng của văn bản tóm tắt đầu ra chưa tốt với các phương pháp sử dụnghọc không giám sát Hơn nữa, các phương pháp tóm tắt văn bản ở trên chưa đề cập

đến mức độ ngôn ngữ của câu (linguistic score) [8], dẫn đến văn bản tóm tắt thiếu

độ liền mạch (coherence) và súc tích (concise).

Trang 15

Cho đến thời điểm này, các nghiên cứu về tóm tắt văn bản tiếng Việt so vớitiếng Anh còn chưa nhiều Hầu hết các nghiên cứu này sử dụng cách tiếp cận tómtắt văn bản dựa trên trích rút câu và sử dụng các phương pháp đã được đề xuất chotiếng Anh Rất ít phương pháp tóm tắt văn bản tiếng Việt đề cập tới tóm tắt dựa trênrút gọn câu Các hạn chế của tóm tắt văn bản tiếng Việt như sau:

- Cần có kho ngữ liệu lớn dùng cho huấn luyện, trong khi đó hiện nay vẫnchưa có kho ngữ liệu tiếng Việt dùng cho huấn luyện

- Bản tóm tắt tiếng Việt thu được thường thiếu liền mạch và thiếu súc tích docác phương pháp tóm tắt văn bản tiếng Việt chưa đề cập đến mức độ ngôn ngữ củacâu

- Thời gian tính toán lớn do các phương pháp sử dụng học có giám sát và sửdụng ma trận biểu diễn văn bản có kích cỡ lớn

- Chất lượng của văn bản tóm tắt tiếng Việt (đối với các phương pháp tóm tắtvăn bản tiếng Việt sử dụng học không giám sát) chưa cao

Do đó, việc đề xuất các giải pháp tóm tắt văn bản tiếng Việt để khắc phục cáchạn chế ở trên là một nhu cầu cấp thiết Đó cũng là lý do mà luận án chọn đề tài

“Phát triển một số thuật toán tóm tắt văn bản tiếng Việt sử dụng phương pháp

học bán giám sát”.

2 Mục tiêu của luận án

Mục tiêu của luận án là nghiên cứu cải tiến một số kỹ thuật tóm tắt văn bảnthông qua phương pháp học bán giám sát, phục vụ xây dựng hệ thống tóm tắt vănbản tiếng Việt hiệu quả Các kỹ thuật này hướng tới giải quyết vấn đề tăng độ liềnmạch và súc tích của văn bản tóm tắt, không đòi hỏi kho ngữ liệu huấn luyện tiếngViệt lớn và cho phép giảm thời gian xử lý, cụ thể:

- Đề xuất mô hình cải tiến tóm tắt văn bản tiếng Việt hai pha: trích rút câu vàrút gọn câu

Trang 16

- Đề xuất áp dụng phương pháp học bán giám sát nhằm khắc phục khó khănliên quan đến kho ngữ liệu tiếng Việt chưa đầy đủ.

- Tăng mức độ liền mạch và súc tích của văn bản tóm tắt sử dụng mức độngôn ngữ của câu

- Giảm cỡ của ma trận biểu diễn văn bản

- Rút gọn các câu tiếng Việt theo các tỉ lệ thông tin khác nhau

3 Các đóng góp của luận án

Các đóng góp chính của luận án thể hiện ở ba phần chính:

Đề xuất kỹ thuật tóm tắt văn bản tiếng Việt

Đề xuất các kỹ thuật tóm tắt văn bản tiếng Việt bao gồm: hai kỹ thuật tóm tắtvăn bản tiếng Việt dựa trên trích rút câu và hai kỹ thuật tóm tắt văn bản tiếng Việtdựa trên rút gọn câu:

 Kỹ thuật trích rút câu dựa trên giá trị thông tin và mức độ ngôn ngữ, có tên làBaseimp_textsum [29] Ngoài việc cho kết quả là văn bản tóm tắt có chấtlượng tốt, kỹ thuật còn không tốn nhiều thời gian để tính toán

 Kỹ thuật trích rút câu dựa trên giá trị thông tin và mức độ ngôn ngữ với đặctrưng lượng thông tin của câu được bổ sung, có tên là Infor_textsum [27] Kỹthuật này là một cải tiến của kỹ thuật Baseimp_textsum, ngoài việc sử dụnghai đặc trưng giá trị thông tin và mức độ ngôn ngữ, kỹ thuật còn sử dụngthêm đặc trưng lượng thông tin

 Kỹ thuật rút gọn câu tiếng Việt dựa trên việc xác định chuỗi từ phù hợp, cótên là DLS [28] Trong kỹ thuật này, ngoài việc cho kết quả là câu tiếng Việtrút gọn có chất lượng tốt, kỹ thuật còn sử dụng ít thời gian tính toán

 Kỹ thuật rút gọn câu dựa trên kết nối các chuỗi con khả năng nhất, có tên làCMLS [26] Kỹ thuật này là một cải tiến của kỹ thuật DLS, ngoài việc không

Trang 17

loại bỏ các từ chủ đề quan trọng trong quá trình sinh chuỗi từ phù hợp, kỹthuật còn tối ưu về mặt chiều dài của câu.

Xây dựng hệ thống

Áp dụng mô hình tóm tắt văn bản tiếng Việt hai pha cải tiến và sử dụng các kỹthuật đã được đề xuất ở trên, tác giả xây dựng hệ thống tóm tắt văn bản tiếng Việtbao gồm hai pha: trích rút câu và rút gọn câu Có bốn module được xây dựng phục

vụ cho quá trình thử nghiệm của luận án tương ứng với bốn kỹ thuật đã sử dụng làmkết quả luận án

Xây dựng kho ngữ liệu

Các văn bản tiếng Việt được tổng hợp từ các trang tin Việt nam

đã xây dựng được kho ngữ liệu bao gồm 16,117 câu tiếng Việt Kho ngữ liệu nàyđược sử dụng cho các kỹ thuật tóm tắt văn bản tiếng Việt sử dụng phương pháp họcbán giám sát đã được đề xuất

4 Bố cục của luận án

Luận án này được bố cục thành bốn chương, gồm 140 trang

Chương 1 giới thiệu tổng quan về tóm tắt văn bản và tóm tắt văn bản tiếngViệt, trình bày mô hình cải tiến tóm tắt văn bản tiếng Việt hai pha và đưa ra một sốkết luận và định hướng cho nghiên cứu

Chương 2 trình bày kỹ thuật tóm tắt văn bản tiếng Việt dựa trên trích rút câu

và các thử nghiệm

Chương 3 trình bày kỹ thuật tóm tắt văn bản dựa trên rút gọn câu và các thửnghiệm

Chương 4 trình bày thiết kế và thực hiện hệ thống tóm tắt văn bản tiếng Việt

sử dụng bốn kỹ thuật được đề xuất cùng với một số kết quả

Trang 18

Cuối cùng, luận án đưa ra một số kết luận và đề xuất các hướng nghiên cứutrong tương lai.

Trang 19

Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN VÀ TÓM TẮT VĂN BẢN TIẾNG VIỆT

Trong chương này, luận án giới thiệu tổng quan về tóm tắt văn bản và tóm tắtvăn bản tiếng Việt bao gồm các khái niệm cơ bản, một số nghiên cứu liên quan vềtóm tắt văn bản sử dụng máy học Bên cạnh đó, luận án cũng trình bày đặc điểm củatiếng Việt, các khó khăn về kho ngữ liệu của tiếng Việt, các công cụ hỗ trợ và hệthống đánh giá Ngoài ra, luận án cũng trình bày mô hình cải tiến tóm tắt văn bảntiếng Việt hai pha Cuối chương là kết luận và định hướng nghiên cứu

1.1 Tóm tắt văn bản

1.1.1 Giới thiệu về tóm tắt văn bản

Tóm tắt văn bản là kỹ thuật cho phép máy tính tự động tạo ra văn bản tóm tắt từmột hoặc nhiều văn bản gốc khác nhau Vào những năm 60, tóm tắt văn bản tự độngđược nghiên cứu nhiều tại các phòng thí nghiệm của Mỹ, từ thời điểm đó cho đếnnay đã có nhiều phương pháp được đề xuất và nhiều hệ thống đã được xây dựng.Hầu hết các phương pháp và hệ thống đều dựa trên những phương pháp cơ bảnđược đề xuất bởi Luhn và Edmundson [17,49] Ý tưởng cơ bản trong các phương

pháp của Luhn và Edmundson là trích rút các câu quan trọng (key sentences) từ

trong văn bản gốc và kết hợp lại thành văn bản tóm tắt

Với sự phát triển của thông tin văn bản trên Internet, chủ đề tóm tắt văn bản đãthu hút sự quan tâm của nhiều nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự

nhiên và tra cứu thông tin Nhiều hội nghị về tóm tắt văn bản tự động (WAS 2000,

2001, 2002), nhiều chủ đề đặc biệt trong các hội thảo ACL, COLING, SIGIR đã

được tổ chức Chính phủ của nhiều nước trên thế giới như Nhật, Mỹ, Anh, TrungQuốc, đã đầu tư rất nhiều kinh phí cho việc phát triển các hệ thống tóm tắt văn

Trang 20

Tóm tắt văn bản được định nghĩa như sau:

Định nghĩa 1.1 [Tóm tắt văn bản (Text summarization)]: Tóm tắt văn bản là quá

trình rút ra những thông tin quan trọng từ một văn bản để tạo thành một văn bảnngắn gọn hơn theo nhiệm vụ cụ thể và yêu cầu của người sử dụng [12]

Dưới đây là ví dụ minh hoạ về tóm tắt văn bản

Ví dụ 1.1: Văn bản gốc được cho như trong Hình 1.1, văn bản này được lấy từ

trang tin http://vnexpress.net Sau khi sử dụng công cụ tóm tắt Baseimp_textsum(mục 4.2.1) với tỉ lệ 40% của văn bản gốc, chúng ta sẽ thu được văn bản tóm tắtnhư trong Hình 1.2

Lần đầu tiên, Bộ GD&ĐT chủ trì tổ chức một hội nghị về việc dạy học các môn Âm nhạc, Mỹ thuật ở trường phổ thông (diễn ra tại Hà Nội từ 10 – 11/6).Tuy nhiên, mục đích của hội nghị không phải để ôn lại “chặng đường phát triển và trưởng thành” mà là để những người trong cuộc cất lên tiếng nói phản biện khi Bộ GD&ĐT có chủ trương điều chỉnh (thu hẹp) việc dạy hai môn học này.Nửa thế kỷ long đong, những họa sĩ tên tuổi của nền Mỹ thuật đương đại Việt Nam như Tô Ngọc Vân, Nguyễn Tường Lân, Lê Thị Lựu vốn dĩ là GV của trường Bưởi – Chu Văn An trước năm 1945.Như vậy, sự hiện diện của các môn Mỹ thuật, Âm nhạc trong nhà trường phổ thông là vấn đề không mới.Tuy nhiên, sau ngày giải phóng Thủ đô cho đến trước năm 2000, các môn học này gần như xa lạ với phần lớn

HS miền Bắc cũng như HS cả nước (sau 1975) Nhạc sĩ Hoàng Lân cho biết: “Bộ GD&ĐT đã ghi 2 môn Nhạc - Họa vào chương trình cấp 1 và cấp 2 từ năm 1956 – 1957 Nhưng do nhiều nguyên nhân, bộ môn này không phát triển được Ngay cả khi cải cách giáo dục năm 1980, các môn này cũng chưa được quan tâm đúng mức.Mãi đến năm

1990, các môn Nhạc - Họa mới dần dần có vị thế như nó cần phải có ở trường phổ thông như hiện nay Năm 2002, các bộ SGK Âm nhạc, Mỹ thuật mới chính thức được ra đời” Theo nhạc sĩ Hoàng Lân, việc dạy các môn này trong nhà trường được xem là hiển nhiên ở những nước văn minh.TS Nguyễn Anh Dũng, Phó Viện trưởng Viện Khoa học giáo dục (Bộ GD&ĐT) cho biết, sở dĩ các môn nghệ thuật được “sánh vai cùng các môn học khác” trong nhà trường

là nhờ phần lớn ở sự nỗ lực của chính các nghệ sĩ TS Nguyễn Anh Dũng kể: “Đợt cải cách GD năm 1980 có các môn này trong kế hoạch dạy học nhưng trên thực tế không triển khai được.Sau đó, các nhạc sĩ Hoàng Lân, Lê Minh Châu, Hàn Ngọc Bích đã tự tìm đến một số UBND tỉnh, Sở GD&ĐT để thuyết phục họ về ý nghĩa của việc dạy học các môn nghệ thuật trong nhà trường Thậm chí các nhạc sĩ đã phải vừa tự biên soạn sách rồi bỏ tiền túi ra in sách vừa đi bán sách dạy Âm nhạc cho thầy trò các nhà trường”.Không hiệu quả nên “buông”?Hiện nay, Mỹ thuật và Âm nhạc là hai trong số 9 môn học chính thức được dạy cho HS từ lớp 1 đến lớp 9 Nhưng trong một hội nghị đánh giá chương trình – SGK gần đây, lãnh đạo Bộ GD&ĐT gợi ý các nhà chuyên môn, với cấp tiểu học, nên chăng có sự điều chỉnh số lượng, thời lượng (theo hướng thu hẹp) một số môn học không cần thiết ở những nơi điều kiện dạy học khó khăn “Đích ngắm” được chĩa thẳng vào các môn Âm nhạc, Mỹ thuật, Thủ công.Theo các lãnh đạo Bộ GD&ĐT, những môn này ở nhiều nơi tồn tại có tính hình thức, không hiệu quả Do đó, trường học ở một số nơi cần tập trung thời gian để nâng cao chất lượng dạy học cho những môn như Toán, Tiếng Việt.Tại hội thảo Nâng cao chất lượng đội ngũ GV Mỹ thuật, Âm nhạc trong nhà trường phổ thông (Cục Nhà giáo và cán bộ quản lý giáo dục và Dự án phát triển THCS II phối hợp tổ chức), các đại biểu đều thẳng thắn thừa nhận, chất lượng dạy học các môn này trong các nhà trường hiện nay đang ở mức độ kém.Có nhiều nguyên nhân dẫn đến tình trạng này, nhưng một số đại biểu tham dự hội thảo cho rằng, vấn đề cơ bản là ở chất lượng đội ngũ GV.Lực lượng GV dạy Âm nhạc, Mỹ thuật trong

Trang 21

một con số “khổng lồ” so với cách đây khoảng 40 năm khi mà số GV dạy các môn nghệ thuật chỉ “lèo tèo” mấy chục người - theo nhạc sĩ Hoàng Lân.Nhưng về chất lượng, hầu hết các đại biểu có bài tham luận hoặc phát biểu tại hội nghị đều cho rằng, đại đa số GV đều yếu về chuyên môn cũng như nghiệp vụ sư phạm Việc các GV Âm nhạc không biết chơi đàn phím điện tử hoặc GV Mỹ thuật không biết nhận xét tranh là “chuyện thường tình”.Ngay cả những GV có năng lực về chuyên môn thì “bệnh” phổ biến và là “bệnh nặng” của họ là không phân biệt được dạy nghệ thuật cho HS phổ thông khác với đào tạo nghệ sĩ chuyên nghiệp như thế nào! Sự yếu kém đó là hệ quả trực tiếp từ khâu đào tạo và tuyển dụng Nhưng theo các đại biểu, dù hiệu quả dạy học các môn nghệ thuật trong nhà trường yếu kém như thế nào đi chăng nữa thì điều quan trọng là tìm giải pháp cho vấn đề chứ không phải “buông” là xong chuyện.Ông Phạm Ngọc Định, Phó Vụ trưởng Vụ GD Tiểu học cũng trăn trở: “Chúng ta đang hướng tới một nền GD toàn diện, trong đó, GD nghệ thuật là một phần không thể thiếu trong GD tinh thần (bên cạnh GD khoa học, GD đạo đức).Cá nhân tôi thấy nếu trong trường học chỉ có Toán, Tiếng Việt mà không có Âm nhạc, Mỹ thuật thì đời sống nhà trường và tâm hồn các em HS rất tẻ nhạt và nặng nề”.

Hình 1.1 Văn bản gốc.

Lần đầu tiên, Bộ GD&ĐT chủ trì tổ chức một hội nghị về việc dạy học các môn Âm nhạc, Mỹ thuật ở trường phổ thông (diễn ra tại Hà Nội từ 10 – 11/6) Ngay cả khi cải cách giáo dục năm 1980, các môn này cũng chưa được quan tâm đúng mức Mãi đến năm 1990, các môn Nhạc Họa mới dần dần có vị thế như nó cần phải có ở trường phổ thông như hiện nay TS Nguyễn Anh Dũng, Phó Viện trưởng Viện Khoa học giáo dục (Bộ GD&ĐT) cho biết, sở dĩ các môn nghệ thuật được “sánh vai cùng các môn học khác” trong nhà trường là nhờ phần lớn ở sự nỗ lực của chính các nghệ sĩ.Hiện nay, Mỹ thuật và Âm nhạc là hai trong số 9 môn học chính thức được dạy cho HS từ lớp 1 đến lớp Nhưng trong một hội nghị đánh giá chương trình – SGK gần đây, lãnh đạo Bộ GD&ĐT gợi ý các nhà chuyên môn, với cấp tiểu học, nên chăng có sự điều chỉnh số lượng, thời lượng (theo hướng thu hẹp) một số môn học không cần thiết ở những nơi điều kiện dạy học khó khăn.Tại hội thảo Nâng cao chất lượng đội ngũ GV Mỹ thuật, Âm nhạc trong nhà trường phổ thông (Cục Nhà giáo và cán bộ quản lý giáo dục và Dự án phát triển THCS II phối hợp tổ chức), các đại biểu đều thẳng thắn thừa nhận, chất lượng dạy học các môn này trong các nhà trường hiện nay đang

ở mức độ kém.

Hình 1.2 Văn bản tóm tắt.

1.1.2 Phân loại tóm tắt

Tuỳ theo yêu cầu và mục đích sử dụng, tóm tắt văn bản được phân thành các

kiểu khác nhau: Tóm tắt trình bày (indicative summary), tóm tắt thông tin (informative summary), tóm tắt hướng truy vấn (queries –oriented summary), tóm tắt khái lược (generic summary), tóm tắt dựa trên trích rút câu (extraction summary)

và tóm tắt dựa trên trừu tượng (abstraction summary) Trong các kiểu tóm tắt văn

bản này, tóm tắt trình bày quan tâm tới diễn giải văn bản mà bỏ qua ngữ cảnh, tómtắt thông tin đưa ra tóm tắt nội dung ở dạng ngắn nhất Tóm tắt hướng truy vấn chỉđưa ra nội dung mà người đọc quan tâm Tóm tắt khái lược đưa ra tổng quan vănbản, tóm tắt dựa trên trích rút trích chọn ra những phần quan trọng trong văn bản

Trang 22

văn bản tóm tắt đảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh

vi Văn bản tóm tắt dựa trên rút gọn câu mang lại hiệu quả cao về mặt ngôn ngữ[30, 32, 56]

Các phương pháp tóm tắt văn bản được đề xuất thường sử dụng tiếp cận tóm tắttheo dựa trên trích rút câu Lý do là cách tiếp cận tóm tắt dựa trên trích rút câu dễdàng thực hiện hơn so với cách tiếp cận tóm tắt dựa trên rút gọn câu Tuy nhiên, sửdụng cách tiếp cận tóm tắt văn bản dựa trên trích rút câu thường cho kết quả lànhững văn bản tóm tắt với thông tin ít liền mạch hơn theo cách tiếp cận tóm tắt dựatrên rút gọn câu Chính vì điều này, hướng nghiên cứu tóm tắt dựa trên rút gọn câungày càng thu hút nhiều sự quan tâm của giới chuyên môn [12]

Hình 1.3 mô tả một hệ thống tóm tắt với nhiều kiểu tóm tắt và nhiều tỉ lệ tóm tắtkhác nhau Đầu vào của hệ thống có thể là một văn bản, nhiều văn bản, hoặc câutruy vấn Kiểu tóm tắt có thể là trích rút, rút gọn câu, tóm tắt truy vấn, tóm tắt kháilược, với các tỉ lệ khác nhau để cho ra được kết quả tóm tắt theo yêu cầu củangười dùng hoặc ứng dụng cụ thể

Hình 1.3 Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau.

1.1.3 Tỉ lệ trong tóm tắt văn bản

Thông thường, khi tóm tắt văn bản người ta đề cập tới hai yêu cầu chính sau:

- Văn bản tóm tắt phải ngắn hơn văn bản gốc

- Văn bản tóm tắt phải giữ được thông tin quan trọng của văn bản gốc [33]

Trang 23

Do đó, trong quá trình tóm tắt văn bản người ta thường quan tâm tới hai tỉ lệ

tóm tắt: tỉ lệ nén và tỉ lệ thông tin Tỉ lệ nén (compression ratio) biểu thị chiều dài của văn bản tóm tắt được rút ngắn so với văn bản gốc Tỉ lệ thông tin (retention

ratio) biểu thị lượng thông tin giữ lại được từ văn bản gốc [11, 33] Dưới đây là

định nghĩa về hai tỉ lệ tóm tắt này

Định nghĩa 1.2 [Tỉ lệ nén (compression ratio)]: Tỉ lệ nén là sự mô tả độ nén

về mặt chiều dài của văn bản tóm tắt so với văn bản gốc [11, 33]

Tỉ lệ nén r l được xác định theo công thức (1-1) dưới đây

Định nghĩa 1.3 [Tỉ lệ thông tin (retention ratio)]: Tỉ lệ thông tin là sự mô tả

lượng thông tin được lấy ra so với văn bản gốc [11, 33]

Tỉ lệ thông tin được xác định theo công thức (1-2) ở dưới

1.1.4 Mô hình tóm tắt văn bản Cắt Dán (Cut and Paste)

Mô hình Cắt Dán được đề xuất bởi Jing [41] vào năm 2000 Mô hình này, kếthợp cả hai cách tiếp cận tóm tắt dựa trên trích rút câu và tóm tắt dựa trên rút gọncâu, trong mô hình này, sử dụng các công cụ hỗ trợ như công cụ tách từ, bộ kết hợp

từ vựng và từ điển wordnet Ngoài ra, trong mô hình Cắt Dán, cần thiết phải xâydựng kho dữ liệu tóm tắt trừu tượng (ở đây là các câu gốc, câu rút gọn) Quá trìnhtóm tắt văn bản theo mô hình Cắt Dán được minh họa như Hình 1.4 ở dưới

Trang 24

Văn bản đầu vào

Phân rã

Văn bản tóm tắt

Công cụ phân tích từ

Từ điển wordnet

- Bước 1: Tách văn bản gốc thành tập các câu.

- Bước 2: Với các câu nhận được ở Bước 1, tính toán trọng số của câu và lựa

chọn ra các câu quan trọng (có trọng số cao nhất) thông qua tỉ lệ nén

- Bước 3: Từ tập các câu quan trọng được trích chọn ở Bước 2, mô hình sử

dụng thuật toán tìm kiếm từ trong kho dữ liệu được xây dựng theo cách thủcông của các chuyên gia để rút gọn câu

- Bước 4: Kết hợp các câu rút gọn ở Bước 3 để tạo ra văn bản tóm tắt.

Với mô hình Cắt Dán, văn bản tóm tắt sẽ được nén hai lần qua hai quá trình,trích rút và rút gọn Do đó, văn bản tóm tắt được sinh ra bởi hệ thống sử dụng môhình này có tỉ lệ nén tốt hơn hệ thống chỉ sử dụng cách tiếp cận tóm tắt dựa trêntrích rút câu Bên cạnh đó, do sử dụng kết hợp giữa hai cách tiếp cận tóm tắt dựatrên trích rút câu và dựa trên rút gọn câu, văn bản tóm tắt được sinh ra bởi hệ thống

Trang 25

sử dụng mô hình Cắt Dán dễ đọc và dễ hiểu hơn văn bản tóm tắt được tạo ra bởi hệthống tóm tắt chỉ sử dụng cách tiếp cận dựa trên trích rút câu [22,41]

Tuy có một số ưu điểm như trên, mô hình Cắt Dán cũng có một số hạn chếnhư sau:

- Kho dữ liệu sử dụng cho huấn luyện trong mô hình Cắt Dán bao gồm nhiềucặp câu (câu gốc, câu rút gọn) phải lớn Để xây dựng được kho dữ liệu huấn luyệnlớn như thế, chúng ta phải tiến hành theo cách thủ công do đó cần rất nhiều thờigian và công sức của các chuyên gia Lý do của yêu cầu về kho dữ liệu huấn luyệnlớn như trên là do mô hình Cắt Dán sử dụng phương pháp học giám sát

- Mô hình cũng yêu cầu nhiều các công cụ hỗ trợ tóm tắt như: phân tích cú

pháp (parsing), từ điển ngữ nghĩa (wordnet), bộ kết hợp từ vựng (lexicon

combining),…

1.2 Kỹ thuật máy học áp dụng trong tóm tắt văn bản

1.2.1 Máy học

Định nghĩa 1.4 [Học (Learn)]

Học là việc làm cho hệ thống thích ứng với trường hợp cụ thể, làm cho hệ thống

có thể thực hiện các nhiệm vụ giống nhau hoặc tương tự nhau và hiệu quả hơn trongcác lần tiếp theo [58, 62]

Định nghĩa 1.5 [Máy học (Machine Learning)]

Máy học là một chương trình máy tính có sử dụng các dữ liệu ví dụ hoặc kinhnghiệm từ quá khứ thông qua việc huấn luyện để tăng hiệu năng của chương trình[58, 62]

Học được sử dụng khi thiếu chuyên gia con người, hay con người gặp khó khănkhi giải thích một vấn đề nào đó, hoặc để giải quyết các vấn đề thay đổi theo thờigian hay cần thiết phải giải quyết được thích ứng với những trường hợp đặc biệt

Trang 26

lĩnh vực cần phân tích dữ liệu lớn như xử lý ngôn ngữ tự nhiên (Natural Language

Processing), Nhận dạng mặt người (Face Recognition), chẩn đoán bệnh, công

nghiệp người máy,

Học có thể coi như là quá trình tìm một hàm ánh xạ từ X sang Y, trong đó X làđầu vào và Y là đầu ra mong muốn Học được chia thành ba kỹ thuật chính: Học có

giám sát (supervised learning), không giám sát (unsupervised learning) và học tăng cường (reinforcement learning) [58, 62]:

Học có giám sát: Giả sử có một tập mẫu huấn luyện dưới dạng các cặp

(đặc trưng, nhãn) {(x1, y1), , (xn, yn)} Vấn đề của học giám sát là xácđịnh nhãn y của một đầu vào đặc trưng x bất kỳ [7, 67] Các mô hình họcgiám sát điển hình: cây quyết định, mạng noron, mô hình Markov ẩn, mạng

Bayes, SVM (Support Vector Machines),…Học giám sát được ứng dụng

nhiều trong các bài toán phân loại, nhận dạng mẫu,…

Học không giám sát: Trong học không giám sát, chỉ có một tập các đặc

trưng đầu vào {x1, x2 , xn} nhưng không có nhãn đầu ra tương ứng Vấn

đề đặt ra là đưa ra một cách thức, cơ chế tổ chức các đặc trưng đầu vào.Điển hình của học không giám sát là phân cụm Ưu điểm của học khônggiám sát là kho dữ liệu không cần gán nhãn đầu ra Học không giám sátđược ứng dụng trong các bài toán phân cụm, dự báo,…[7, 67]

Học tăng cường: Hệ thống học quan sát môi trường x, thực hiện hành động

a và nhận được giá trị r Mục đích là chọn hành động để nhận được giá trị r

tốt nhất trong tương lai [7, 67]

Ngoài các kỹ thuật học trên, học bán giám sát (semi – supervised) kết hợp giữa

“học giám sát” và “học không giám sát” Trong kiểu học này, chỉ có một phần nhỏ

dữ liệu huấn luyện được gán nhãn, phần lớn là không gán nhãn Giải thuật “học bángiám sát” tốn ít thời gian, không cần nhiều nỗ lực của con người và đạt hiệu quảtương đối cao [7, 67]

Trang 27

Nếu chúng ta sử dụng kỹ thuật học có giám sát, sẽ đòi hỏi kho ngữ liệu sử dụngcho huấn luyện phải lớn Điều này không thể thực hiện được trong thời điểm hiệnnay Nếu chúng ta sử dụng hoàn toàn kỹ thuật học không giám sát, kết quả tóm tắt

sẽ không cao Luận án này sẽ lựa chọn phương pháp học bán giám sát trong việcnghiên cứu cải tiến các phương pháp tóm tắt văn bản tiếng Việt nhằm khắc phụcnhững hạn chế của các phương pháp tóm tắt văn bản tiếng Việt sử dụng phươngpháp học giám sát đòi hỏi tập ngữ liệu dùng cho huấn luyện lớn và phải xây dựngtheo cách thủ công của con người

1.2.2 Kỹ thuật máy học trong tóm tắt văn bản

1.2.2.1 Phương pháp tiếp cận tóm tắt dựa trên trích rút câu

Từ những năm 90, với sự phát triển của kỹ thuật máy học trong xử lý ngôn ngữ

tự nhiên, tới nay đã có nhiều công bố dựa trên các kỹ thuật máy học giám sát hoặckhông giám sát để sinh ra văn bản tóm tắt dựa trên trích rút: Bayes, cây quyết định,

mô hình Markov ẩn, mạng noron, [13, 22, 33, 34, 43, 44, 48, 52]…

Phương pháp dựa trên phân loại Bayes

Kupiec [44] đã mô tả một phương pháp khác dựa trên phương pháp củaEdmundson đã đề xuất [17], đó là sử dụng dữ liệu để huấn luyện Trong phươngpháp này, Kupiec đã sử dụng hàm phân loại để các câu về các lớp khác nhau Giả sử

s là một câu, S là tập các câu s tạo nên văn bản tóm tắt, và F1,…,Fk là các đặc trưng.Giả thiết về sự độc lập các đặc trưng cho phép có công thức (1-3) sau đây:

i i

toán, mỗi câu sẽ có một trọng số nhất định và được sắp xếp theo thứ tự giảm dần n

câu đứng đầu có trọng số cao nhất được trích rút Để đánh giá hệ thống, Kupiec [44]

Trang 28

đã sử dụng một kho dữ liệu văn bản tài liệu kỹ thuật, cùng với các văn bản tóm tắt

do con người thực hiện thủ công

Phương pháp dựa vào cây quyết địnhng ph p d a v o c y quy t áp dựa vào cây quyết định ựa vào cây quyết định ào cây quyết định ây quyết định ết định địnhnh

Lin và Hovy [33] đã nghiên cứu một đặc trưng rất quan trọng đó là vị trí củacâu Trọng số của câu bằng chính vị trí của nó trong văn bản, gọi là phương pháp vị

trí (position method) Nghiên cứu này đã có một đóng góp quan trọng là kỹ thuật

xác định vị trí tối ưu và cách đánh giá hiệu quả Kho dữ liệu tin tức lớn (kho

Zif-Davis) bao gồm văn bản về phần cứng máy tính (computer hardware) i k m c cđi kèm các èm các ác

t kh a ch óa chủ đề và tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo ủ đề và tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo đi kèm cácề và tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo à tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo óa chủ đề và tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo v t m t t kho ng 6 c u Lin v Hovy d ng hai ắt khoảng 6 câu Lin và Hovy dùng hai độ đo ảng 6 câu Lin và Hovy dùng hai độ đo âu Lin và Hovy dùng hai độ đo à tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo ùng hai độ đo đi kèm cácộ đo đi kèm các o

đi kèm cácộ đo ới nhau và đã đưa ra mô hình trích rút câu sử dụng cây quyết à tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo đi kèm cácã đưa ra mô hình trích rút câu sử dụng cây quyết đi kèm cácưng không ông ình trích rút câu sử dụng cây quyết ính xác ( út câu sử dụng cây quyết âu Lin và Hovy dùng hai độ đo ử dụng cây quyết ụng cây quyết âu Lin và Hovy dùng hai độ đo ết quả tóm tắt: Độ đo chính xác (

nh thay th cho k thu t ph n lo i Bayes D li u c s d ng l t p

đi kèm các! ết quả tóm tắt: Độ đo chính xác ( ỹ thuật phân loại Bayes Dữ liệu được sử dụng là tập âu Lin và Hovy dùng hai độ đo ại Bayes Dữ liệu được sử dụng là tập ữ liệu được sử dụng là tập ệu đi kèm cácưng khôngợc sử dụng là tập ử dụng cây quyết ụng cây quyết à tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo

d li u v n b n chu n, ữ liệu được sử dụng là tập ệu ăn bản chuẩn, đã được phân loại theo các chủ đề khác nhau do ảng 6 câu Lin và Hovy dùng hai độ đo ẩn, đã được phân loại theo các chủ đề khác nhau do đi kèm cácã đưa ra mô hình trích rút câu sử dụng cây quyết đi kèm cácưng khôngợc sử dụng là tậpc ph n lo i theo c c ch âu Lin và Hovy dùng hai độ đo ại Bayes Dữ liệu được sử dụng là tập ác ủ đề và tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo đi kèm cácề và tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo kh c nhau doác

h th ng ệu ống đánh giá TIPSTER- SUMMAC cung cấp Các thực nghiệm đi kèm cácácnh gi TIPSTER- SUMMAC cung c p C c th c nghi mác ấp Các thực nghiệm ác ực nghiệm ệu

đi kèm cácưng khôngợc sử dụng là tập ông ảng 6 câu Lin và Hovy dùng hai độ đo ệu ống đánh giá TIPSTER- SUMMAC cung cấp Các thực nghiệm óa chủ đề và tóm tắt khoảng 6 câu Lin và Hovy dùng hai độ đo ắt khoảng 6 câu Lin và Hovy dùng hai độ đo ực nghiệm đi kèm cácộ đo đi kèm cácưng khôngợc sử dụng là tập áctri n b i c c chuy n gia thu c trể đánh giá kết quả tóm tắt: Độ đo chính xác ( ởi các chuyên gia thuộc trường đại học Southern California ác ộ đo ưng khôngờng đại học Southern California.ng đi kèm cácại Bayes Dữ liệu được sử dụng là tậpi h c Southern California.ọc Southern California

Phương pháp dựa trên mô hình Markov ẩn (HMM - Hidden Markov Model)

Khác với các kỹ thuật được đề cập ở trên, dựa trên ý tưởng về các đặc trưngkhông liên tục Conroy và O’leary [43] đưa ra một phương pháp tóm tắt văn bản dựatrên mô hình Markov ẩn Các tác giả sử dụng mô hình chuỗi để tính toán phụ thuộccục bộ giữa các câu Ba đặc trưng được sử dụng là: Vị trí câu trong văn bản được

xây dựng bởi cấu trúc trạng thái của HMM, Số các ký hiệu (non-stop words) và số

thuật ngữ trong câu

Hình 1.5 Mô hình Markov trích rút hai câu chính và các câu hỗ trợ

Trang 29

Trong mô hình này, tác giả sử dụng tập dữ liệu huấn luyện TREC và xác địnhgiá trị lớn nhất đối với mỗi xác suất dịch chuyển Để đánh giá kết quả tóm tắt, cáctác giả so sánh với tóm tắt trích rút bởi con người.

Hình 1.5 trên mô tả một mô hình chuỗi Markov do Conroy và O’leary xây dựnggồm có 2s+1 trạng thái, trong đó có s trạng thái tóm tắt và s+1 trạng thái không tóm

tắt Mô hình này sẽ trích rút ra s-1 câu chính (lead sentence) và các câu hỗ trợ (supporting sentences) khác đồng thời sẽ “nhảy” qua các trạng thái không tóm tắt

[43]

1.2.2.2 Phương pháp tóm tắt văn bản dựa trên rút gọn câu

Trong vài năm gần đây, các ứng dụng của xử lý ngôn ngữ tự nhiên thu hút sựquan tâm nghiên cứu Các nghiên cứu tóm tắt văn bản cũng có ảnh hưởng từ cácphương pháp sinh ngôn ngữ tự nhiên Các hệ thống tóm tắt cũ dựa chủ yếu vào tríchrút câu, trong khi đó tóm tắt dựa trên rút gọn câu chỉ mới được nghiên cứu từ nhữngnăm 2000 [22] Rút gọn câu được ứng dụng trong nhiều lĩnh vực khác nhau như:phục vụ hiển thị văn bản trên nền màn hình PDA , sinh tiêu đề tự động, [19, 21, 47]

Nghiên cứu về rút gọn câu của Knight và Marcu

Trong nghiên cứu của Knight và Marcu [45], họ đã xây dựng một kho dữ liệutiêu chuẩn và đề xuất phương pháp đánh giá cho rút gọn câu Họ sử dụng kho dữliệu của Ziff – Davis với hơn 4000 tài liệu kỹ thuật và trích rút được 1,067 cặp câu

gốc- rút gọn Nhiệm vụ được xác định là cho một câu dài l, nén theo phiên bản c và

giữ lại nghĩa của câu, ngữ pháp tốt Họ cũng đề xuất hai kỹ thuật học khác nhau để

sinh ra câu rút gọn, một phương pháp sử dụng kênh nhiễu (noisy chanel), phương

pháp còn lại sử dụng cây quyết định

Nghiên cứu rút gọn câu, sử dụng mô hình Markov ẩn

Trong công bố của Le Nguyen và Ho năm 2004 [53], có hai thuật toán rút gọn

Trang 30

dịch máy, phương pháp còn lại học các luật biến đổi từ vựng bằng cách xây dựngtập gồm 1,500 cặp (câu, câu rút gọn) Họ sử dụng mô hình Markov ẩn để tìm ra cácluật phù hợp nhất ứng với từng trường hợp Ngoài ra, còn có nghiên cứu liên quantới mô hình Markov ẩn của Jing trong rút gọn câu [23].

Phương pháp rút gọn câu dựa trên cây cú pháp

Phương pháp rút gọn câu dựa trên cây cú pháp được đề xuất bởi Knight vàMarcu [45], Unno và cộng sự [65] Trevor Cohn và Mirella Lapata [63] đã sử dụngphương pháp đồng bộ phi ngữ cảnh để đánh giá tốt hơn các qui tắc xác suất để ápdụng tốt trong rút gọn câu dựa vào phân tích cây cú pháp

Phương pháp rút gọn câu dựa trên học không giám sát

Một số các công bố về rút gọn câu dựa trên học không giám sát [42, 64] Trongcông bố của Turner và Charniak [64] đã sử dụng mô hình học không giám sát, trong

đó dữ liệu huấn luyện được trích rút tự động từ kho ngữ liệu PennTreebank

Phương pháp rút gọn câu dựa trên học bán giám sát

Theo hiểu biết của chúng tôi, cho đến nay, chưa có phương pháp tóm tắt vănbản dựa trên rút gọn câu sử dụng kỹ thuật học bán giám sát Tuy nhiên, trong nhậndạng tiếng nói, có phương pháp rút gọn câu nói sử dụng phương pháp học khônggiám sát [8] Phương pháp này sử dụng kỹ thuật quy hoạch động và mô hình n-grams cùng với việc học thống kê từ kho dữ liệu để tóm tắt theo nhiều tỉ lệ thông tinkhác nhau

1.2.2.3 Một số đặc điểm chung của các phương pháp tóm tắt văn bản đã được công bố.

Các phương pháp tóm tắt văn bản sử dụng phương pháp học có giám sát vàkhông giám sát, dựa trên trích rút câu và rút gọn câu

Trong các phương pháp tóm tắt văn bản sử dụng cách tiếp cận tóm tắt dựa trêntrích rút câu, hầu hết sử dụng các mô hình học giám sát, đồng thời áp dụng phươngpháp học thống kê các đặc trưng được coi là quan trọng trong việc xác định giá trị

Trang 31

của câu, từ đó để lựa chọn ra các câu trích rút Tuy nhiên, các phương pháp tóm tắtvăn bản dựa trên trích rút trên chưa đề cập tới mức độ ngữ nghĩa của câu được tríchrút, hay là câu được trích rút có thực sự tốt về mặt ngữ pháp hay không Ngoài ra,các phương pháp này sử dụng phương pháp học giám sát, yêu cầu tới kho dữ liệuphục vụ tóm tắt phải lớn

Trong các phương pháp tóm tắt văn bản sử dụng cách tiếp cận tóm tắt dựa trênrút gọn câu, sử dụng cả hai kỹ thuật học giám sát và không giám sát Trong cáchhọc giám sát, các tác giả thường đề cập tới mô hình học thống kê và yêu cầu xâydựng kho dữ liệu dùng cho huấn luyện tương đối tỉ mỉ theo cách thủ công Để xâydựng được kho dữ liệu này, cần nhiều thời gian và công sức theo cách thủ công.Bên cạnh đó, các thuật toán trong các phương pháp rút gọn câu chủ yếu là tìm kiếmnhững câu rút gọn tương đương trong kho dữ liệu có sẵn, dẫn tới độ phức tạp thuậttoán cao

1.3 Phương pháp đánh giá kết quả tóm tắt

Một bước quan trọng trong quá trình tóm tắt văn bản là đánh giá Đây là nhiệm

vụ khó khăn bởi vì không dễ đưa ra tiêu chuẩn duy nhất về đánh giá tóm tắt đối vớimột văn bản hoặc một tập văn bản đã cho Hệ thống tóm tắt tự động thường cho kếtquả không sát văn bản gốc Khi đánh giá chất lượng tóm tắt phải dựa trên các độ đokhác nhau Sự thiếu các tiêu chuẩn đánh giá hoặc độ đo đánh giá tự động dẫn tớikhó khăn khi so sánh các hệ thống khác nhau theo một số tiêu chuẩn đánh giá đượcchấp nhận chung Bên cạnh đó, đánh giá thủ công có chi phí cao Năm 2004, Lin đã

sử dụng phương pháp đánh giá thủ công cần tới hơn 3,000 giờ của chuyên gia conngười để có được kết quả báo cáo trong hội thảo DUC Độ đo đánh giá muốn cóchất lượng phải tương hợp với cách đánh giá thủ công con người

1.3.1 Hai độ đo cơ bản

Như trên đã nêu, hai thuộc tính trong văn bản tóm tắt được dùng để xây dựng độ

Trang 32

1.3.2 Độ đo Chính xác – Độ đo Triệu hồi (Precision and Recall)

Phần lớn các hệ thống tóm tắt sử dụng cách tiếp cận tóm tắt dựa trên trích rútcâu Các câu được trích chọn kết nối với nhau, tạo nên văn bản tóm tắt, không cầnhiệu chỉnh thêm Trong trường hợp này, người ta sử dụng độ đo triệu hồi và độ đochính xác để đánh giá chất lượng bản tóm tắt [18]

Định nghĩa 1.6 [Độ đo Triệu hồi (recall)]

Độ đo triệu hồi là tỉ số giữa số lượng các câu được trích rút bởi hệ thống trùngvới số các câu mà con người trích rút trên số các câu chỉ được lựa chọn bởi conngười

SCHO Recall =

trong đó:

SCHO: số lượng những câu được cả hệ thống và con người trích rút.

SCH: số lượng những câu được con người trích rút

Định nghĩa 1.7 [Độ đo Chính xác (precison)]

Độ đo chính xác là tỉ số giữa số lượng các câu được cả hệ thống và con ngườitrích rút trên số các câu được hệ thống trích rút

SCHO Precision =

trong đó:

SCHO: số lượng những câu được cả hệ thống và con người trích rút.

SCS: số lượng những câu được hệ thống trích rút

1.3.3 Đánh giá theo cách thủ công

Hội thảo DUC (Document Understanding Conferrence) [16] đã đưa ra đánh giá

về các hệ thống tóm tắt trên tập dữ liệu dùng chung kể từ năm 2001 Nhiều chuyêngia phát triển những phương pháp đánh giá khác nhau [11, 33, 46] Đánh giá của

Trang 33

hội thảo DUC dựa trên chuyên gia con người Do đó, chỉ dùng chú thích của mộtngười tạo các mô hình với tập dữ liệu kiểm tra khác nhau.

1.3.4 Phương pháp đánh giá BLEU

Độ đo BLEU (Bilingual Evaluation UnderStudy) do Papineni và cộng sự đề

xuất năm 2001 [59] Ý tưởng chính của BLEU là đánh giá độ tương tự giữa một văn

bản ứng cử (candidate) và tập các bản tham khảo dưới dạng trung bình có trọng số

của các n-gram trong văn bản cho bởi hệ thống và trong tập các văn bản tham khảođược cho bởi con người theo công thức (1-6) như sau:

gram n

Count

gram n

Count p

) (

) (

(1-6)

Trong đó Count clip (n-gram) là số n-gram xuất hiện lớn nhất trong văn bản cho bởi

hệ thống và văn bản tham khảo và Count(ngram) là số n-gram trong văn bản cho bởi

hệ thống Khi sử dụng phương pháp đánh giá BLEU để đánh giá chất lượng tóm tắt,

ta coi văn bản tóm tắt là văn bản ứng viên, văn bản gốc là văn bản nguồn Trongmột số trường hợp người ta sử dụng phương pháp BLEU trong đánh giá chất lượngtóm tắt thủ công

Sau này, người ta sử dụng một phương pháp khác phát triển từ ý tưởng củaphương pháp BLEU được gọi là NIST (National Institute of Standards and

tại hội thảo DUC 2001) với ý tưởng là so sánh văn bản tóm tắt được tạo ra bởi conngười và hệ thống tự động Mỗi văn bản tóm tắt được tách ra thành các câu và hiểnthị trên giao diện của hệ thống tự động [18] Chuyên gia sẽ đánh giá nội dung trùngkhớp giữa bản tóm tắt bởi hệ thống tóm tắt tự động với bản tóm tắt tiêu chuẩn theo

thang điểm từ 1 đến 4 gọi là ngưỡng t NIST là phương pháp dựa trên BLEU

[16,18]

Trang 34

1.3.5 Phương pháp đánh giá ROUGE

Các phương pháp đánh giá tóm tắt truyền thống thường gắn với đánh giá thủcông do chuyên gia con người thực hiện thông qua một số độ đo khác nhau, chẳnghạn: mức độ súc tích, mức độ liền mạch, ngữ pháp, mức độ dễ đọc và nội dung [18].Tuy nhiên, phương pháp đánh giá kết quả tóm tắt thủ công được báo cáo tại hộithảo DUC 2003 đòi hỏi hơn 3000 giờ Chi phí này quá cao Vì thế, đánh giá tóm tắt

tự động là một yêu cầu cấp thiết Lin và Hovy đề xuất một phương pháp đánh giá

mới gọi là ROUGE (Recall-Oriented Understudy for Gisting Evaluation) Hiện nay

phương pháp đo này được sử dụng như một phương pháp chuẩn đánh giá kết quảtóm tắt tự động cho văn bản tiếng Anh

Một cách hình thức, ROUGE-N là một độ đo đối với các n-gram trong văn bảntóm tắt ứng viên và trong tập các văn bản tóm tắt tham khảo, được tính theo côngthức (1-7) ở dưới đây

S

n S

gram

maries ferenceSum Re

S

n S

gram

match gram Count

gram Count

N ROUGE

n

n

)(

)(

(1-7)

Trong công thức (1-7), n biểu thị cho chiều dài của n-gram, gramn vàCountmatch(gramn) là số chuỗi n-gram lớn nhất xuất hiện trong văn bản tóm tắt ứngviên và tập các văn bản tóm tắt tham khảo

1.4 Hiện trạng tóm tắt văn bản tiếng Việt

1.4.1 Đặc điểm tiếng Việt

Tiếng Việt là quốc ngữ của nước Việt Nam Do đặc điểm lịch sử, tiếng Việt sử

dụng hiện nay được “vay mượn” từ nhiều thứ tiếng khác nhau như tiếng Pháp, tiếng

Hán,… nhưng chủ yếu là từ âm tiếng Hán và nghĩa tiếng Hán (trên 70% âm tiếngViệt là âm Hán Việt [4]) Do đó, tiếng Việt có một số các đặc điểm sau:

- Tiếng Việt là ngôn ngữ đơn lập, không có ký tự phân tách từ giống như một

số ngôn ngữ Châu Á khác: tiếng Nhật, tiếng Trung, tiếng Hàn Từ trong

Trang 35

tiếng Việt không được xác định dựa trên dấu cách Vì thế, tiếng Việt tươngđối phức tạp hơn tiếng Anh trong việc tách từ [4, 31], chẳng hạn như câudưới đây, từ trong câu bao gồm cả từ đơn và từ ghép Để tách từ trong câu, takhông xác định được dựa trên dấu cách

Hai/ em bé/ đang/ chơi/ nhảy dây/ ngoài/sân.

- Trong tiếng Việt, có nhiều từ đồng âm khác nghĩa hoặc có những từ có nhiềunghĩa khác nhau Do vậy, khi xét một câu trong văn bản phải xét tới ngữcảnh của văn bản [4], chẳng hạn, ở câu sau:

Ông già đi nhanh quá

Nếu xem xét ở khía cạnh cục bộ một câu rất khó khăn cho việc hiểu và xử lý

- Ngoài ra, có những từ vẫn mang âm tiếng Hán, do đó phải giải nghĩa theotiếng Hán [4] Chẳng hạn:

Nguyên Tiêu Kim dạ nguyên tiêu nguyệt chính viên,Xuân giang xuân thủy tiếp xuân thiên

Yên ba thâm xứ đàm quân sự

Dạ bán quy lai nguyệt mãn thuyền

Hồ Chí Minh – 1948.

- Về mặt ngữ pháp, tiếng Việt không có các thì thời cho các động từ, một câumuốn thể hiện về mặt thời gian, phải dùng các trạng từ chỉ thời gian, chẳnghạn: đã, rồi, sẽ,… Ngoài ra, tiếng Việt còn bao gồm các từ láy, điệp từ, điệpngữ

1.4.2 Hiện trạng nghiên cứu tiếng Việt

Hiện nay, do sự phức tạp và khó khăn trong xử lý văn bản tiếng Việt, cácnghiên cứu về tiếng Việt hiện nay vẫn còn mới mẻ, vẫn mang tính chất tìm hiểu,chưa có hệ thống và có định hướng rõ ràng Các nghiên cứu là những đề tài tốt

Trang 36

mô hình, thử và kiểm tra trên những tập ngữ liệu nhỏ do các cá nhân và tập thể tựxây dựng, các tài nguyên và công cụ cần thiết cho xử lý tiếng Việt hiện nay chưađầy đủ [3, 6, 53]

Bắt đầu từ năm 2006, nhánh đề tài "Xử lí văn bản" là một phần của đề tàiKC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói

và văn bản tiếng Việt" đã được triển khai Cho đến nay, nhánh đề tài này đã thuđược một số kết quả bao gồm kho ngữ liệu và công cụ phục vụ cho xử lý văn bảnnhư sau:

Nhóm các sản phẩm về tài nguyên:

- Từ điển điện tử gồm 35000 mục từ cho người sử dụng máy tính

- Kho tài nguyên gồm 10000 câu có chú giải (Viet treebank).

- Kho ngữ liệu gồm 100000 cặp câu Anh - Việt

Nhóm các công cụ cho cộng đồng về xử lý ngôn ngữ tự nhiên:

- Công cụ gán nhãn từ Việt

- Công cụ phân loại từ Việt

- Công cụ phân cụm từ Việt

- Công cụ phân tích cú pháp tiếng Việt

1.4.3 Phương pháp tóm tắt văn bản tiếng Việt

Do tính phức tạp và đặc thù riêng của tiếng Việt, những nghiên cứu về tóm tắtvăn bản tiếng Việt (so với tiếng Anh) vẫn còn nhiều hạn chế Hiện nay, hầu hết cácnghiên cứu về tóm tắt tiếng Việt dựa trên các phương pháp đã được đề xuất chotiếng Anh Chưa có kho ngữ liệu chuẩn phục vụ cho tóm tắt, hiệu năng của cácphương pháp cũng cần được cải tiến [61]

Trang 37

1.4.3.1 Phương pháp trích rút câu

Đối với tiếp cận tóm tắt tiếng Việt dựa trên trích rút câu hiện nay, hai công bốcủa Thanh Le Ha [61] và Minh Le Nguyen [55] được xem là tiêu biểu nhất

- Trong công bố của Thanh Le Ha [61] đã nghiên cứu một số phương pháp đã

đề xuất cho tóm tắt văn bản tiếng Anh để đề xuất phương pháp cho bài toántóm tắt tiếng Việt dựa trên trích rút câu Phương pháp đưa ra một số các đặc

trưng để xác định trọng số của câu như đặc trưng về tần suất từ tf_idf, vị trí,

từ tiêu đề (từ ở vị trí tiêu đề của văn bản), từ liên quan Các đặc trưng đượckết hợp tuyến tính với nhau để tính trọng số của mỗi câu trong văn bản gốc.Ngoài ra, các kho ngữ liệu được sử dụng như wordnet tiếng Việt, kho ngữ

liệu từ dừng (stop word), kho ngữ liệu danh từ riêng (proper noun) Để đánh

giá kết quả tóm tắt, Thanh Le Ha đã sử dụng độ đo chính xác và độ đo triệuhồi để đánh giá kết quả tóm tắt với các tỉ lệ nén khác nhau bao gồm 10%,20%, 30%, 40%, 50%

- Trong công bố của Minh Le Nguyen [55], đã sử dụng mô hình SVM để họcgiám sát trong bài toán tóm tắt dựa trên trích rút câu Các đặc trưng được sửdụng trong việc học: vị trí câu, chiều dài câu, độ liên quan chủ đề, tần suất

từ, cụm từ chính, khoảng cách từ Kho ngữ liệu được xây dựng với 500 vănbản khác nhau được lấy từ trang tin http://www.vnagency.net Để đánh giákết quả tóm tắt, Minh Le Nguyen đã đánh giá dựa trên độ đo: chính xác,triệu hồi và F-measure

1.4.3.2 Phương pháp rút gọn câu

Đối với phương pháp tóm tắt văn bản dựa trên cách tiếp cận rút gọn câu trongtiếng Việt hiện nay mới chỉ có hai đề xuất của Minh Le Nguyen: phương pháp dựatrên mô hình HMM [53] và một phương pháp khác dựa trên điều khiển cú pháp

(Syntax Control) [51] Trong cách tiếp cận tóm tắt dựa trên rút gọn câu, câu rút gọn

phải đảm bảo đúng về mặt ngữ pháp và thông tin quan trọng phải được giữ lại từ

Trang 38

câu gốc Rút gọn câu là kỹ thuật tương đối khó, đòi hỏi máy tính phải hiểu đượcngôn ngữ tự nhiên.

- Trong công bố về rút gọn câu dựa trên điều khiển cú pháp [51], Minh LeNguyen trình bày một phương pháp rút gọn câu tiếng Việt dựa trên điềukhiển cú pháp Phương pháp này phân tích một câu thành cây cú pháp rồitiến hành rút gọn các nút trên cây Để đánh giá phương pháp này, tác giả đã

dùng ba độ đo: độ nén (compression ratio), ngữ pháp (grammartically) và độ quan trọng (importance) Do chưa có phương pháp để so sánh, Minh Le

Nguyen chỉ so sánh được với rút gọn được thực hiện bởi con người

- Trong phương pháp rút gọn câu dựa trên mô hình HMM [53], Minh LeNguyen đã sử dụng các luật từ vựng và rút gọn thủ công để đưa vào tập huấnluyện Tác giả cho rằng, trong tiếng Việt độ nhập nhằng cao, do đó, sử dụng

mô hình cây cú pháp để rút gọn là không phù hợp Phương pháp này có độphức tạp tính toán tương đối cao và đòi hỏi kho ngữ liệu phải đủ lớn, đặcbiệt kho ngữ liệu sử dụng hiệu chỉnh thủ công rất nhiều trong việc tạo ra cácluật từ vựng khác nhau Điều này dẫn tới việc độ phức tạp tính toán cao khitìm kiếm những chuỗi từ vựng phù hợp, khả năng Trong đề xuất của mình,Minh Le Nguyen cũng đã đưa ra một phương pháp để giảm độ phức tạp tínhtoán bằng cách sử dụng thuật toán quy hoạch động Viterbi để đạt được câurút gọn tốt nhất

Trang 39

Hình 1.6 Mô hình luật từ vựng.

1.4.3.3 Đặc điểm của các phương pháp tóm tắt tiếng Việt đã biết

Hiện trạng các phương pháp tóm tắt văn bản tiếng Việt có đặc điểm như sau:

- Do sử dụng cách tiếp cận dựa trên trích rút câu, văn bản tóm tắt thường đượctổng hợp từ những câu, những đoạn văn bản thô cho nên khi tóm tắt với tỉ lệnén nhỏ thì văn bản tóm tắt thường thiếu sự liền mạch [1, 5, 61]

- Độ phức tạp tính toán khá cao (hàm mũ) do sử dụng thuật toán đối sánh vớicác luật từ vựng để sinh câu rút gọn [53]

- Yêu cầu kho ngữ liệu tiếng Việt phục vụ tóm tắt lớn phục vụ cho phươngpháp học giám sát [51, 53, 61] Để xây dựng được kho ngữ liệu này đòi hỏinhiều thời gian và công sức thủ công [53]

- Hầu hết các phương pháp tóm tắt văn bản mới dừng lại ở mức thử nghiệm,chưa được xây dựng thành các hệ thống ứng dụng trong thực tế

Trang 40

Từ các đặc điểm của các phương pháp tóm tắt văn bản tiếng Việt đã đề cập ởtrên, cần thiết phải xây dựng các giải pháp cải tiến hiệu năng của hệ thống tóm tắtvăn bản tiếng Việt.

1.4.4 Đánh giá kết quả tóm tắt tiếng Việt

Hầu hết các hệ thống tóm tắt văn bản tiếng Việt đều sử dụng đánh giá kết quảtóm tắt theo cách thủ công Các hệ thống đánh giá tự động hiện tại được xây dựngphục vụ cho đánh giá kết quả tóm tắt văn bản tiếng Anh (phổ biến dùng phươngpháp ROUGE), hệ thống đánh giá này các tập dữ liệu ứng cử được tạo thủ côngtrước và đối sánh với dữ liệu được tạo ra bởi một hệ thống tóm tắt Về mặt kỹ thuậtphương pháp này có thể sử dụng cho tiếng Việt, tuy nhiên, do các tập dữ liệu ứng

cử tiếng Việt hiện nay vẫn chưa được xây dựng, do đó chưa thể áp dụng trực tiếpngay cho tiếng Việt Các phương pháp tóm tắt tiếng Việt hiện nay thường dựa trêntrích rút câu vẫn sử dụng hai độ đo triệu hồi và chính xác để đánh giá [55, 61], cácphương pháp tóm tắt văn bản dựa trên rút gọn câu sử dụng ba độ đo cơ bản: độ nén,mức độ ngữ pháp và độ quan trọng để đánh giá [53]

1.4.5 Hiện trạng về kho ngữ liệu tiếng Việt phục vụ cho tóm tắt văn bản

Trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt, với mục đích khác nhau, cầnphải có kho ngữ liệu tương ứng Chẳng hạn, với mục đích rút gọn câu, người ta phảixây dựng kho ngữ liệu tiếng Việt phục vụ việc rút gọn câu Bên cạnh đó, phải lựachọn nguồn tài liệu phù hợp với lĩnh vực xác định trước hoặc bao phủ nhiều lĩnhvực khác nhau Các tài liệu có thể được nhập thủ công vào máy tính hoặc được quét

(scan) và nhận dạng để chuyển thành tập tin văn bản Hoặc có thể sử dụng các

nguồn tài nguyên trên Internet để xây dựng nguồn dữ liệu kết hợp với sự đánh giácủa con người để đánh giá lại các dữ liệu được khai thác từ Internet [3]

Để tóm tắt văn bản tiếng Việt, cần thiết phải có các kho ngữ liệu tiếng Việt vàcác công cụ phục vụ cho tóm tắt văn bản tiếng Việt Dưới đây là bảng danh mục vàhiện trạng các kho ngữ liệu và các công cụ xử lý tiếng Việt cần thiết

Ngày đăng: 05/04/2019, 10:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w