1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị (LV thạc sĩ)

80 225 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 2,78 MB

Nội dung

Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thịTìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS Nguyễn Ngọc Cương

THÁI NGUYÊN, 2018

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan tất cả các kết quả được trình bày trong luận văn: “Tìm

hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị” là công

trình nghiên cứu của riêng em, không sao chép nguyên bản từ bất kỳ một công trình nào khác Các số liệu, kết quả nghiên cứu trong luận văn được sử dụng là trung thực, đã được kiểm chứng và chưa được công bố trong bất kỳ công trình của tác giả nào khác

Nếu sai em xin hoàn toàn chịu trách nhiệm

Thái Nguyên, ngày tháng năm 2018

Học viên

Đào Thành Chuyên

Trang 4

em trong suốt thời gian làm luận văn này

Xin trân trọng cảm ơn tới Ban giám hiệu, các thầy cô giáo trường Đại học Công nghệ thông tin và truyền thông Thái Nguyên đã chia sẻ và động viên giúp đỡ em vượt qua mọi khó khăn để hoàn thành tốt công việc nghiên cứu của mình

Xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp và những người đã luôn ủng hộ, quan tâm, giúp đỡ, động viên, tạo điều kiện tốt nhất và là chỗ dựa vững chắc giúp em có thể hoàn thành luận văn

Cuối cùng em xin gửi lời chúc sức khỏe và thành công tới tất cả quý thầy

cô và gia đình cùng toàn thể các bạn

Thái Nguyên, ngày tháng năm 2018

Học viên

Đào Thành Chuyên

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC TỪ VIẾT TẮT v

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vi

DANH MỤC CÁC BẢNG BIỂU vii

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN CÁC KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT 6

1.1 Bài toán tóm tắt đa văn bản 6

1.1.1 Các khái niệm cơ bản 6

1.1.2 Phân loại bài toán tóm tắt 6

1.2 Kỹ thuật tóm tắt đa văn bản tiếng Anh 9

1.2.1 Tóm tắt đơn văn bản tiếng Anh 9

1.2.2 Tóm tắt đa văn bản tiếng Anh 10

1.3 Kỹ thuật tóm tắt đa văn bản tiếng Việt 10

1.3.1 Tóm tắt đơn văn bản tiếng Việt 10

1.3.2 Tóm tắt đa văn bản tiếng Việt 15

1.4 Kết luận chương I 16

CHƯƠNG 2: PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN MÔ HÌNH ĐỒ THỊ 17

2.1 Hướng tiếp cận của bài toán tóm tắt đa văn bản 17

2.2 Các thách thức của quá trình tóm tắt đa văn bản 18

2.3 Phân cụm các văn bản 22

2.4 Xây dựng mô hình chủ đề 27

2.5 Tóm tắt văn bản tiếng Việt dựa trên mô hình đồ thị 31

Trang 6

2.5.1 Trọng số câu 31

2.5.2 Độ tương đồng câu 32

2.6 Xây dựng đồ thị tóm tắt văn bản 34

2.7 Phân tích thuật toán 38

2.8 Kết luận chương 2 43

CHƯƠNG III: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM 44 3.1 Xây dựng chương trình 44

3.1.1 Xây dựng chương trình tóm tắt văn bản tiếng Việt sử dụng mô hình đồ thị 44

3.1.2 Xây dựng chương trình bằng ngôn ngữ C# 47

3.2 Thực nghiệm và đánh giá kết quả 53

3.2.1 Kịch bản và dữ liệu thực nghiệm 53

3.2.2 Kết quả thử nghiệm 56

3.3 Kết luận chương 3 58

KẾT LUẬN 59

1 Kết luận 59

2 Khuyến nghị 60

TÀI LIỆU THAM KHẢO 61

PHỤ LỤC 64

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

MMR Maximal Maginal Relevance Tối đa

Q&A Question and Answering Hệ thống hỏi đáp tự động

DUC Document Understanding

PMI Pointwise Mutual Information Độ đo tương hỗ giữa các từ

LSI Latent Semantic Indexing Chỉ số ngữ nghĩa ẩn

Trang 8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Các cách tiếp cận trong tóm tắt văn bản 11

Hình 1.2 Mô hình đồ thị vô hướng 13

Hình 2.1 Tập văn bản chưa xử lý bị nhiễu 23

Hình 2.2 Các tập chủ đề được đặt tên và tính được xác suất 24

Hình 2.3 Văn bản sau khi sử dụng công cụ tách từ 25

Hình 2.4 Quy trình xử lý phân cụm văn bản 26

Hình 2.5 Mô hình chủ đề dựa trên xác xuất 29

Hình 2.6 Quy trình tóm tắt văn bản tiếng Việt 34

Hình 2.7 Mô hình đồ thị trong tóm tắt văn bản tiếng Việt 37

Hình 3.1 Cơ sở dữ liệu hệ thống 45

Hình 3.2 Chương trình tách từ Vntagger 46

Hình 3.3 Bảng gồm các thuật ngữ được tách ra từ tập dữ liệu văn bản 47

Hình 3.4 Công cụ tách từ Vntagger 48

Hình 3.5 Các file định dạng xml được tạo ra khi thực hiện tách từ 48

Hình 3.6 Kết quả của một file định dạng xml cụ thể 49

Hình 3.7 Giao diện chính của hệ thống tóm tắt văn bản tiếng Việt 49

Hình 3.8 Giao diện tạo tập từ chủ đề (Tập từ lõi) 50

Hình 3.9 Giao diện module từ điển 50

Hình 3.10 Giao diện module huấn luyện 51

Hình 3.11 Giao diện module tóm tắt văn bản 52

Hình 3.12 Giao diện thông tin của câu 52

Hình 3.13 Giao diện thông tin độ tương đồng của câu 53

Hình 3.14 Những văn bản không cho ra kết quả tóm tắt 54

Hình 3.15 Độ tương đồng không thể hiện khi không có kết quả tóm tắt 55

Hình 3.16 Thông tin câu thể hiện rõ các thông số khi có kết quả tóm tắt 55

Trang 9

Hình 3.17 Giao diện phần tách từ và gán nhãn 56

Hình 3.18 Tập văn bản huấn luyện 57

Hình 3.19 Thông tin của câu 57

Hình 3.20 Kết quả độ tương đồng của câu 58

DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Bảng so sánh các phương pháp tiếp cận tóm tắt đa văn bản 18

Bảng 2.2 Taxonomy mối quan hệ xuyên văn bản 21

Bảng 2.3 Các từ chủ đề trong tập mô tả của Andrews năm 2009 27

Bảng 2.4 Mô hình chủ đề của nhóm tác giả Nguyễn Thị Thu Hà 31

Bảng 2.5 Mô hình chủ đề học viên xây dựng 31

Bảng 2.6 Đánh giá hiệu quả của thuật toán 39

Trang 10

Giải pháp cho vấn đề này là tóm tắt văn bản tự động Tóm tắt văn bản tự động được xác định là một bài toán thuộc lĩnh vực khái phá dữ liệu văn bản; việc áp dụng tóm tắt văn bản sẽ giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm cũng như tăng hiệu quả đánh chỉ mục cho máy tìm kiếm Từ nhu cầu thực tế như thế, bài toán tóm tắt văn bản tự động nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng như các công ty lớn trên thế giới Các bài báo liên quan đến tóm tắt văn bản xuất hiện nhiều trong các hội nghị nổi tiếng như : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh đó cũng là sự phát triển của các hệ thống tóm tắt văn bản như: MEAD, LexRank, Microsoft Word (Chức năng AutoSummarize)…

Một trong những vấn đề thách thức và được sự quan tâm trong những năm gần đây đối với bài toán tóm tắt văn bản tự động đó là đưa ra kết quả tóm tắt cho một tập văn bản liên quan với nhau về mặt nội dung hay còn gọi là tóm tắt đa văn bản

Tóm tắt văn bản là một trong những hướng nghiên cứu được các nhà nghiên cứu quan tâm trong thời gian gần đây, bởi vì nó làm rút gọn đi những

nội dung thông tin dư thừa trong văn bản (chỉ để lại văn bản tóm tắt ở trạng

thái cô đọng nhất) điều này rất có ý nghĩa trong kỷ nguyên công nghệ thông tin

hiện nay

Trang 11

Hiện nay, có hai cách tiếp cận để tóm tắt văn bản (để xây dựng các hệ

thống tóm tắt văn bản tự động thỏa mãn yêu cầu của người dùng ) là: cách tiếp

cận dựa trên trích xuất (extraction) và tóm lược (abstractions) Trong đó, cách

tiếp cận dựa trên trích xuất là phổ biến hơn cả, bởi độ phức tạp không quá lớn

và vẫn đảm bảo được yêu cầu của một văn bản tóm tắt cần đạt được Mặt khác, đối với ngôn ngữ tiếng Việt, một số công cụ hỗ trợ trong việc xây dựng cách biểu diễn ngôn ngữ chưa được xây dựng hoàn chỉnh, rất khó khăn trong việc xây dựng cách biểu diễn tương đương hoặc đồng nghĩa

Đối với tóm tắt văn bản tiếng Việt, một số tác giả, đã đề xuất một phương pháp tương tự trong đó có sử dụng 3 thuật toán thống kê dựa trên từ vựng để tính toán độ tương tự giữa các câu là Jaro, Contrast Model và Jaccard

Để tính độ quan trọng câu được tính theo thuật toán PageRank[3] Trong các phương pháp sử dụng mô hình đồ thị để tạo ra các bản tóm tắt tự động thường chỉ đề cập đến độ tương đồng ngữ nghĩa của câu, nhưng đối với xử lý ngôn ngữ tự nhiên có rất nhiều các đặc trưng vì vậy việc lựa chọn các đặc trưng

để tính toán có ảnh hưởng rất lớn đến chất lượng của tóm tắt

Sử dụng mô hình đồ thị có trọng số nhưng thêm vào đó là trọng số của câu tại mỗi nút Ngoài ra còn giảm chiều đặc trưng bằng mô hình chủ đề theo phương pháp tiếp cận dựa trên mô hình xác suất có điều kiện

Đối với tiếng Việt, hiện nay cũng có nhiều phương pháp được đề xuất[1][3], tuy nhiên các đề xuất này thường sử dụng lại các phương pháp đã

áp dụng cho tiếng Anh Một số các khác biệt về ngôn ngữ đều được xử lý thông qua các công cụ xử lý tách từ, nhận dạng từ,… qua nghiên cứu đặc điểm của ngôn ngữ tiếng Việt và nhận thấy rằng, tiếng Việt là ngôn ngữ đơn âm tiết, khó khăn khi tách từ, bởi các từ trong tiếng Việt không dựa trên khoảng trắng Ví

dụ các từ: chuẩn_bị, xử_lý,… là những từ ghép, cần phải nhận dạng và dùng

Trang 12

các công cụ tách từ phù hợp khi xử lý Chính vì điều này, xử lý ngôn ngữ tự nhiên tiếng Việt là một thách thức cần được giải quyết

Trong đề tài luận văn, học viên sẽ sử dụng một phương pháp cải tiến bài toán tóm tắt văn bản tiếng Việt so với phương pháp thông thường bằng cách sử dụng tập từ chủ đề tiếng Việt do các tác giả Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cương [4] xây dựng Tại pha tóm tắt, không cần sử dụng công cụ tách và gán nhãn từ để xử lý văn bản đầu vào, nhờ vậy pha tóm tắt sẽ giảm bớt độ phức tạp tính toán về mặt thời gian

Với việc lựa chọn đề tài “Tìm hiểu kỹ thuật Tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị”, học viên tập trung vào việc tìm hiểu, khảo sát,

đánh giá và đưa vào ứng dụng một phương pháp tóm tắt đa văn bản phù hợp với ngôn ngữ tiếng Việt trong đơn vị mà học viên đang công tác

Ngoài phần Mở đầu giới thiệu ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu, bài toán cần giải quyết Phần Kết luận trình bày các kết quả thu được của luận văn và hướng phát triển tiếp theo, nội dung chính của luận văn

gồm ba chương như mô tả dưới đây

Chương 1: Tổng quan các kỹ thuật tóm tắt đa văn bản tiếng Việt

1 Bài toán tóm tắt đa văn bản

1.1 Các khái niệm cơ bản

1.2 Phân loại bài toán tóm tắt

2 Kỹ thuật tóm tắt đa văn bản tiếng Anh

2.1 Tóm tắt đơn văn bản tiếng Anh

2.2 Tóm tắt đa văn bản tiếng Anh

3 Kỹ thuật tóm tắt đa văn bản tiếng Việt

3.1 Tóm tắt đơn văn bản

3.2 Tóm tắt theo trích xuất

Trang 13

2.4 Phân tích thuật toán

Chương 3: Xây dựng chương trình và thực nghiệm

1 Xây dựng chương trình

- Xây dựng chương trình về tóm tắt văn bản tiếng việt sử dụng mô hình

đồ thị

- Xây dựng chương trình bằng ngôn ngữ C#

2 Thực nghiệm và đánh giá kết quả

- Kịch bản và dữ liệu thực nghiệm

- Kết quả thử nghiệm

Một số nghiên cứu có liên quan:

Mô hình đồ thị phân lớp câu trong truy vấn tóm tắt đa văn bản cũng đã được Furu Wei và các cộng sự đề xuất trong báo cáo của mình năm 2008 Một

đồ thị có trọng số được đề xuất để xác định những ảnh hưởng của các câu trong nội văn bản và liên văn bản, từ đó tạo ra một phân lớp các câu trong tóm tắt đa văn bản

Một sự kết hợp giữa mô hình chủ đề và học bán giám sát dựa trên đồ thị cho các truy vấn trong tóm tắt đa văn bản được nhóm tác giả Yanran Li và Sujian Li đề xuất năm 2014[16] Một mô hình đồ thị hai lớp (lớp câu và lớp chủ đề) được đưa ra với cách tiếp cận là mô hình quan hệ giữa các chủ đề và

Trang 14

câu Đối với các nghiên cứu về tóm tắt tự động văn bản tiếng Việt gần đây cũng

đã có một số công trình công bố: Nguyễn Lê Minh tóm tắt văn bản tiếng Việt bằng vector hỗ trợ SVM (Support Vector Machine) Đỗ Phúc và các cộng sự rút trích nội dung chính của khối thông điệp bằng phương pháp gom cụm đồ thị [1] Nguyễn Hoàng Anh Tú với phương pháp sử dụng mô hình đồ thị trong tóm tắt văn bản tiếng Việt Ngoài ra còn có sự góp mặt của nhóm tác giả Lê Thanh Hương sử dụng cấu trúc ngôn ngữ tiếng Việt đối với hệ thống tóm tắt tự động [2] Gần đây trong một báo cáo về “ giải pháp tóm tắt văn bản tiếng Việt

tự động” nhóm tác giả Trương Quốc Định và Nguyễn Quang Dũng cũng đã đề cập đến phương pháp dựa trên mô hình đồ thị có trọng số Mỗi đỉnh của đồ thị biểu diễn một câu, cạnh nối hai câu có gán trọng số thể hiện độ tương đồng ngữ nghĩa của chúng và cuối cùng một giải thuật PageRank dựa trên đồ thị được tùy biến để tích hợp độ tương tự câu Sau cùng các câu quan trọng nhất sẽ được trích rút trong văn bản tóm tắt[3]

Trang 15

CHƯƠNG 1: TỔNG QUAN CÁC KỸ THUẬT TÓM TẮT ĐA VĂN

BẢN TIẾNG VIỆT

1.1 Bài toán tóm tắt đa văn bản

1.1.1 Các khái niệm cơ bản

Tỷ lệ nén (Compression Rate): là độ đo thể hiện bao nhiêu thông tin

được cô đọng trong văn bản tóm tắt được tính bằng công thức:

𝐶𝑜𝑚𝑝𝑟𝑒𝑠𝑠𝑖𝑜𝑛𝑅𝑎𝑡𝑒 = 𝑆𝑢𝑚𝑚𝑎𝑟𝑦𝐿𝑒𝑛𝑔𝑡ℎ

𝑆𝑜𝑢𝑟𝑐𝑒𝐿𝑒𝑛𝑔𝑡ℎSummaryLength: Độ dài văn bản tóm tắt

SourceLength: Độ dài văn bản nguồn

- Độ nổi bật hay liên quan (Salience or Relevance): là trọng số được gán

cho thông tin trong văn bản thể hiện độ quan trọng của thông tin đó đối với toàn văn bản hay để chỉ sự liên quan của thông tin đó đối với chương trình của người sử dụng

- Sự mạch lạc (Coherence): Một văn bản tóm tắt gọi là mạch lạc nếu tất

cả các thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội dung

và không có sự trùng lặp giữa các thành phần

1.1.2 Phân loại bài toán tóm tắt

Có nhiều cách phân loại tóm tắt văn bản khác nhau tuy nhiên sự phân loại chỉ mang tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào Ở đây, luận văn đề cập đến phân loại tóm tắt dựa trên 3 cơ sở là: dựa vào định dạng, nội dung đầu vào, dựa vào định dạng, nội dung đầu ra, dựa vào mục đích tóm tắt

* Tóm tắt dựa trên cơ sở định dạng, nội dung đầu vào sẽ trả lời cho câu hỏi “Cái gì sẽ được tóm tắt” Cách chia này sẽ cho ta nhiều cách phân loại con khác nhau Cụ thể như:

Trang 16

- Kiểu văn bản (bài báo, bản tin, thư, báo cáo …) Với cách phân loại

này, tóm tắt văn bản là bài báo sẽ khác với tóm tắt thư, tóm tắt báo cáo khoa học do những đặc trưng văn bản quy định

- Định dạng văn bản: dựa vào từng định dạng văn bản khác nhau, tóm

tắt cũng chia ra thành các loại khác nhau như: tóm tắt văn bản không theo khuôn mẫu (free-form) hay tóm tắt văn bản có cấu trúc Với văn bản có cấu trúc, tóm tắt văn bản thường sử dụng một mô hình hoặc dựa vào mẫu cấu trúc đã xây dựng từ trước để tiến hành tóm tắt

- Số lượng dữ liệu đầu vào: tùy vào số lượng đầu vào của bài toán tóm

tắt, người ta cũng có thể chia tóm tắt ra thành tóm tắt đa văn bản, tóm tắt đơn văn bản Tóm tắt đơn văn bản khi đầu vào chỉ là một văn bản đơn, trong khi đó đầu vào của tóm tắt đa văn bản là một tập các tài liệu có liên quan đến nhau như: các tin tức có liên quan đến cùng một sự kiện, các trang web cùng chủ đề hoặc là cụm dữ liệu được trả về từ quá trình phân cụm

- Miền dữ liệu: dựa vào miền của dữ liệu như cụ thể về một lĩnh vực nào

đó, ví dụ như: y tế, giáo dục… hay là miền dữ liệu tổng quát, có thể chia tóm tắt ra thành từng loại tương ứng

* Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích tóm tắt là gì, tóm tắt phục vụ đối tượng nào

- Nếu phụ thuộc vào đối tượng đọc tóm tắt thì tóm tắt cho chuyên gia khác cách tóm tắt cho các đối tượng đọc thông thường

- Tóm tắt sử dụng trong tìm kiếm thông tin (IR) sẽ khác với tóm tắt phục

Trang 17

- Tóm tắt trên cơ sở truy vấn (Query-based) hay tóm tắt chung (General) Tóm tắt general mục đích chính là tìm ra một đoạn tóm tắt cho toàn bộ văn bản

mà nội dung của đoạn văn bản sẽ bao quát toàn bộ nội dung của văn bản đó Tóm tắt trên cơ sở truy vấn thì nội dung của văn bản tóm tắt sẽ dựa trên truy vấn của người dùng hay chương trình đưa vào, loại tóm tắt này thường được sử dụng trong quá trình tóm tắt các kết quả trả về từ máy tìm kiếm

* Tóm tắt trên cơ sở đầu ra cũng có nhiều cách phân loại

- Dựa vào ngôn ngữ: Tóm tắt cũng có thể phân loại dựa vào khả năng

+ Tóm tắt xuyên ngôn ngữ (Crosslingual): hệ thống có khả năng đưa ra các văn bản đầu ra có ngôn ngữ khác với ngôn ngữ của văn bản đầu vào

- Dựa vào định dạng đầu ra của kết quả tóm tắt: như bảng, đoạn, từ khóa

* Ngoài hai cách phân loại trên, phân loại tóm tắt trên cở sở đầu ra còn

có một cách phân loại được sử dụng phổ biến là: tóm tắt theo trích xuất (Extract)

và tóm tắt theo tóm lược (Abstract)

+ Tóm tắt theo trích xuất: là tóm tắt có kết quả đầu ra là một tóm tắt bao gồm toàn bộ các phần quan trọng được trích ra từ văn bản đầu vào

+ Tóm tắt theo tóm lược: là tóm tắt có kết quả đầu ra là một tóm tắt không

giữ nguyên lại các thành phần của văn bản đầu vào mà dựa vào thông tin quan trọng để viết lại một văn bản tóm tắt mới

Hiện nay, các hệ thống sử dụng tóm tắt theo trích xuất được sử dụng phổ biến và cho kết quả tốt hơn tóm tắt theo tóm lược Nguyên nhân tạo ra sự khác

Trang 18

biệt này là do các vấn đề trong bài toán tóm tắt theo tóm lược như: biểu diễn ngữ nghĩa, suy luận và sinh ra ngôn ngữ tự nhiên được đánh giá là khó và chưa

có nhiều kết quả nghiên cứu khả quan hơn so với hướng trích xuất câu của bài toán tóm tắt theo trích xuất Trong thực tế, theo đánh giá của Dragomir R Radev (Đại học Michigan, Mỹ) chưa có một hệ thống tóm tắt theo tóm lược đạt đến sự hoàn thiện, các hệ thống tóm tắt theo tóm lược hiện nay thường dựa vào thành phần trích xuất có sẵn Các hệ thống này thường được biết đến với tên gọi tóm tắt theo nén văn bản

Tóm tắt theo nén văn bản (Text Compaction): là loại tóm tắt sử dụng các

phương pháp cắt xén (truncates) hay viết gọn (abbreviates) đối với các thông tin quan trọng sau khi đã được trích xuất

Mặc dù dựa vào nhiều cơ sở có nhiều loại tóm tắt khác nhau tuy nhiên

hai loại tóm tắt là tóm tắt đơn văn bản và tóm tắt đa văn bản vẫn được sự quan

tâm lớn của các nhà nghiên cứu về tóm tắt tự động

1.2 Kỹ thuật tóm tắt đa văn bản tiếng Anh

1.2.1 Tóm tắt đơn văn bản tiếng Anh

Trong những năm qua đã có nhiều công trình nghiên cứu về tạo tóm tắt

tự động các văn bản tiếng Anh Một số công trình tiêu biểu như: William B.Cavnar (1994) đã biểu diễn văn bản dựa trên n-gram thay cho cách biểu diễn truyền thống bằng từ khóa Chinatsu Aone (1997) đã phát triển hệ DimSum để tóm tắt văn bản sử dụng xử lý ngôn ngữ tự nhiên và kỹ thuật thống kê dựa trên

hệ số TF-IDF Tác giả cũng đã sử dụng WordNet để xem xét ngữ nghĩa của từ

và đề xuất một số kỹ thuật lượng giá Jaine Carbonell (1998) đã tóm tắt văn bản bằng cách xếp hạng các câu trội (câu chứa các ý chính của văn bản) và rút ra các câu trội Jade Goldstein (1999) đã phân loại tóm tắt dựa trên độ đo liên quan Phương pháp sử dụng kết hợp giữa ngữ học, thống kê Mỗi câu được đặc trưng bằng các đặc tính ngữ học và độ đo thống kê J Larocca Neto (2000) đã

Trang 19

tạo tóm tắt văn bản dựa trên các dãy từ trong câu được chọn theo hệ số tf (term frequency), sau đó dùng kỹ thuật gom cụm (clustering) để tạo tóm tắt D Radev (2000) đã tạo tóm tắt văn bản dựa trên trọng tâm sau đó rút trích câu quan trọng Yihong Gong (2001) đã đề xuất hai phương pháp tạo tóm tắt văn bản đơn giản: tiếp cận độ đo dựa trên thống kê, tần suất và tiếp cận phân tích latent semantic.J.Kathleen R (2001) sử dụng tiếp cận kiến trúc đẳng cấp cụm và chọn câu trội trong mỗi cụm Có hai phương pháp là rút câu dựa trên từ khóa và rút câu dựa trên kiến trúc ngữ nghĩa trong đó có xây dựng độ đo mối liên kết giữa hai từ M Mitra (2002) đã đề xuất phương pháp tạo tóm tắt dựa trên việc trích rút các đoạn văn quan trọng bao gồm việc tạo bản đồ quan hệ văn bản dùng các đoạn văn, phân tích bản đồ quan hệ của các văn bản để ấn định đoạn văn nào

là quan trọng nhất

1.2.2 Tóm tắt đa văn bản tiếng Anh

Phương pháp tóm tắt văn bản sử dụng mô hình đồ thị vô hướng có trọng

số đã được R.Mihalcea sử dụng trong tóm tắt văn bản tiếng Anh từ năm 2004 Văn bản được biểu diễn dưới dạng đồ thị, mỗi đỉnh trong đồ thị biểu diễn một câu trong văn bản, các cạnh nối giữa hai đỉnh biểu diễn độ tương đồng ngữ nghĩa giữa hai câu tương ứng với hai đỉnh đó Để tính độ quan trọng câu được tính theo thuật toán PageRank Trong các phương pháp sử dụng mô hình đồ thị

để tạo ra các bản tóm tắt tự động thường chỉ đề cập đến độ tương đồng ngữ nghĩa của câu, nhưng đối với xử lý ngôn ngữ tự nhiên có rất nhiều các đặc trưng

vì vậy việc lựa chọn các đặc trưng để tính toán có ảnh hưởng rất lớn đến chất lượng của tóm tắt

1.3 Kỹ thuật tóm tắt đa văn bản tiếng Việt

1.3.1 Tóm tắt đơn văn bản tiếng Việt

Bài toán tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác,

là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn

Trang 20

mô tả ngắn gọn nội dung chính của văn bản đầu vào đó Văn bản đơn có thể là một trang Web, một bài báo, hoặc một tài liệu với định dạng xác định (.txt)… Tóm tắt văn bản đơn là bước đệm cho việc xử lý tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn Chính vì thế những phương pháp tóm tắt văn bản ra đời đầu tiên đều là các phương pháp tóm tắt cho văn bản đơn

Có khá nhiều các cách tiếp cận trong tóm tắt văn bản, một số các nghiên cứu điển hình trong tóm tắt văn bản tập trung vào nhiều khía cạnh như: mức ngôn ngữ, xác suất thống kê, mạng nơ ron

Hình 1.1 Các cách tiếp cận trong tóm tắt văn bản

* Bổ sung đặc trưng và cây quyết định: Đặc trưng vị trí câu được sử dụng như một đặc trưng quan trọng trong câu, và ý tưởng của văn bản được mô tả chung như là một cấu trúc diễn ngôn trên cây và theo xu hướng lựa chọn những câu có trọng số về vị trí cao

Mô hình tóm tắt đơn văn bản

Bổ sung đặc trưng

phân tích ngôn ngữ tự nhiên sâu

Các phương pháp

3 lớp

Các phương pháp Log tuyến tính

Trang 21

* Mô hình Markov ẩn: Trong một số các đề cập trước, các đặc trưng phần lớn là không tuần tự, do vậy Conroy và các cộng sự đã mô hình hóa vấn đề trích rút câu từ văn bản bằng cách sử dụng mô hình Markov ẩn (HMM)

* Mô hình Log tuyến tính: Osborne đã đưa ra một cách tiếp cận mới để tóm tắt văn bản sử dụng các đặc trưng là không độc lập nhau Ông đã sử dụng

mô hình Log tuyến tính như một giả thiết để đưa ra sản phẩm các văn bản tóm tắt kiểu trích rút tốt hơn mô hình Naive Bayes

* Phương pháp tần suất từ - tần suất nghịch đảo văn bản: Mô hình túi từ (Bag of words) được xây dựng dựa trên mức câu, với tần suất từ và nghịch đảo của tần suất câu, trong đó tần câu là số các câu trong văn bản chứa từ đó Những véc tơ câu này được tính trọng số bằng độ tương tự giữa truy vấn và trọng số câu cao nhất được lấy ra từ một phần của tóm tắt Đây là một mô hình ứng dụng trực tiếp của tra cứu văn bản thực hiện với tóm tắt hay còn gọi là tóm tắt theo hướng truy vấn

* Phương pháp dựa trên các cụm: Các văn bản được viết thành các cụm chủ đề khác nhau sau đó cấu thành nên bản tóm tắt Các câu được lựa chọn dựa trên độ tương tự của câu với chủ đề của cụm Ci Một đặc trưng tiếp theo được xem xét để trích rút câu là vị trí của câu trong văn bản (Li) Ngoài ra, trong ngữ cảnh của một văn bản, câu đầu tiên của văn bản được coi như là câu có nội dung liên quan tới văn bản nhất, do vậy độ tương tự giữa một câu bất kỳ trong văn bản với câu này được coi là độ đặc trưng ngữ cảnh Fi Tất cả các đặc trưng trên được tổng hợp thành trọng số của câu:

Si = W1 * Ci + W2 * Fi + W3 * Li ………

Trong đó:

Si: là trọng số của câu thứ i

Ci: là độ tương tự của câu i với cụm thứ C

Li: là đặc trưng vị trí câu trong văn bản

Trang 22

Fi: là độ tương tự của câu i với câu mở đầu văn bản

* Cách tiếp cận dựa trên lý thuyết đồ thị: Lý thuyết đồ thị đưa ra một biểu diễn nhận ra các câu chủ đề dùng cho trích rút, sau khi loại bỏ các từ dừng,

từ tầm thường trong câu, các câu trong văn bản được biểu diễn như là các nút trên đồ thị không có hướng Trong đó cứ hai câu được kết nối với nhau tạo thành một cạnh nếu như hai câu đó có cùng một số từ chung (còn gọi là góc cosine) biểu diễn sự tương tự giữa chúng

Hình 1.2 Mô hình đồ thị vô hướng

* Phương pháp dựa trên học máy: Có khá nhiều các mô hình học máy được sử dụng trong tóm tắt văn bản: HMM, Bayes, SVM, Neural Network, Đặc điểm của những phương pháp dựa trên học máy là cho tập tập văn bản huấn luyện và bản tóm tắt trích rút tương đương của nó, quá trình tóm tắt là một bài toán phân loại: các câu được phân loại thành hai lớp: lớp tóm tắt

và lớp không tóm tắt dựa trên những đặc trưng đã được lựa chọn và tính toán Giả sử đối với luật phân loại Bayes:

P(s∈<S|F1,F2, ,FN)=P(F1,F2, ,FN|s∈S)*P(s∈S)/P(F1,F2, ,FN)

Trang 23

Trong đó s là một câu trong tập hợp văn bản, các Fi là các đặc trưng sử dụng phân loại S là tóm tắt được sinh ra và P (s∈< S | F1, F2, , FN) là xác suất của câu s có được chọn hay không dựa trên các đặc trưng từ F1,F2…FN

* Tóm tắt văn bản với mạng nơ ron: Phương pháp này sử dụng mạng nơ ron để huấn luyện các câu được sử dụng để tạo ra tóm tắt Kỹ thuật được thực hiện với mạng nơ ron 3 lớp, các câu được trích rút sử dụng con người để đọc

và tạo ra một tập mẫu, mạng nơ ron học tập mẫu đó để điều chỉnh trọng số trên mạng nơ ron để quyết định giá trị cho các đầu vào tiếp theo của mạng

Tuy nhiên các phương pháp nhằm giải quyết bài toán tóm tắt văn bản đơn cũng tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất và tóm tắt theo tóm lược

Tóm tắt theo trích xuất

Đa số các phương tóm tắt theo loại này đều tập trung vào việc trích xuất

ra các câu hay các ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn bản tóm tắt Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vị trí của câu trong văn bản, tần số xuất hiện của từ, ngữ hay sử dụng các cụm từ khóa để tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt [8],[9] Các kỹ thuật tóm tắt gần đây sử dụng các phương pháp học máy và xử lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản Sử dụng các phương pháp học máy có thể kể đến phương pháp của Kupiec, Penderson and Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [13] hay nghiên cứu của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị trí của các câu quan trọng trong văn bản [6] Bên cạnh đó việc áp dụng các phương pháp phân tích ngôn ngữ tự nhiên như sử dụng mạng từ Wordnet của Barzilay và Elhadad vào năm 1997 [15]

Tóm tắt theo tóm lược

Trang 24

Các phương pháp tóm tắt không sử dụng trích xuất để tạo ra tóm tắt có thể xem như là một phương pháp tiếp cận tóm tắt theo tóm lược Các hướng tiếp cận có thể kể đến như dựa vào trích xuất thông tin (information extraction), ontology, hợp nhất và nén thông tin… Một trong những phương pháp tóm tắt theo tóm lược cho kết quả tốt là các phương pháp dựa vào trích xuất thông tin, phương pháp dạng này sử dụng các mẫu đã được định nghĩa trước về một sự kiện hay là cốt truyện và hệ thống sẽ tự động điền các thông tin vào trong mẫu

có sẵn rồi sinh ra kết quả tóm tắt Mặc dù cho ra kết quả tốt tuy nhiên các phương pháp dạng này thường chỉ áp dụng trong một miền nhất định [12]

1.3.2 Tóm tắt đa văn bản tiếng Việt

Tóm tắt đa văn bản được mở rộng từ tóm tắt đơn văn bản với mục đích tổng hợp thông tin cô đọng nhất từ nhiều nguồn văn bản khác nhau Là quá trình trích xuất nội dung từ một tập các văn bản có liên quan đến nhau, trong quá trình đó các thông tin dư thừa sẽ được loại bỏ và những thông tin quan trọng sẽ được biểu diễn dưới hình thức cô đọng, xúc tích và giàu cảm xúc đến người sử dụng hoặc chương trình cần dùng [ 11]

Tóm tắt đa văn bản được xác định là một bài toán có độ phức tạp cao, ngoài những thách thức đã được biết đến đối với tóm tắt đơn văn bản như sự

cô đọng của thông tin và mạch lạc về nội dung, tóm tắt đa văn bản còn có những thách thức như cần phải xác định những thông tin trùng lặp giữa các văn bản, xác định thông tin quan trọng trong nhiều văn bản hay việc sắp xếp các thông tin trong văn bản tóm tắt

Do vậy thường các phương pháp tóm tắt đa văn bản được xây dựng từ các phương pháp tóm tắt đơn văn bản Trong số các phương pháp hiện có thì các thuật toán dựa trên đồ thị đã có hiệu quả tốt trong các truy vấn câu Cụ thể một đồ thị có trọng số được xây dựng, mỗi câu được mô phỏng là một nút, mối quan hệ giữa các câu được mô hình hóa như một cạnh có hướng hoặc vô hướng

Trang 25

Mô hình đồ thị phân lớp câu trong truy vấn tóm tắt đa văn bản cũng đã được Furu Wei và các cộng sự đề xuất trong báo cáo của mình năm 2008 Trong luận văn này một đồ thị có trọng số được đề xuất[4] để xác định những ảnh hưởng của các câu trong nội văn bản và liên văn bản, từ đó tạo ra một phân lớp các câu trong tóm tắt đa văn bản

1.4 Kết luận chương I

Chương 1 đã trình bày tổng quan các khái niệm cơ bản của tóm tắt văn bản tiếng Anh, tóm tắt văn bản tiếng Việt và các cách tiếp cận trong tóm tắt trong đó định hướng nghiên cứu về tóm tắt theo cách tiếp cận trích xuất câu và theo tóm lược

Trang 26

CHƯƠNG 2: PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN MÔ

HÌNH ĐỒ THỊ 2.1 Hướng tiếp cận của bài toán tóm tắt đa văn bản

Như chúng ta đã biết ở trên tóm tắt văn bản nói chung và tóm tắt đa văn bản nói riêng là bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Trong phân tích xử lý ngôn ngữ tự nhiên có các mức độ sâu xử lý khác nhau được sắp xếp theo thứ tự như sau: đầu tiên là mức hình thái (Morphological), tiếp theo là mức

cú pháp (Syntactic), tiếp đến là mức ngữ nghĩa (Semantic) và cuối cùng là mức ngữ dụng (Pragmatic) Tương tự như các độ sâu xử lý của xử lý ngôn ngữ tự nhiên, phương pháp tiếp cận để giải quyết bài toán tóm tắt đa văn bản cũng có thể được phân loại dựa vào độ sâu xử lý được thực hiện trong quá trình tóm tắt Tuy nhiên phương pháp tiếp cận để giải quyết bài toán tóm tắt đa văn bản chỉ

có ba mức, là các mức: hình thái, cú pháp và ngữ nghĩa

Mức hình thái: tại mức xử lý này, trong các văn bản, đơn vị được sử

dụng để so sánh là các ngữ, câu hay đoạn văn (paragraph) Các phương pháp tại mức này thường sử dụng độ đo tương đồng dựa trên mô hình không gian vector (Vector space model) áp dụng trọng số TF-IDF cho các từ và các câu Phương pháp tóm tắt MMR [12] là phương pháp nổi bật tại mức xử lý này

Mức cú pháp: đơn vị được sử dụng để so sánh tại mức xử lý này là sử

dụng việc phân tích những cấu trúc ngữ pháp tương ứng giữa các văn bản với nhau Các phương pháp tại mức này tập trung vào việc phân tích cấu trúc ngữ pháp giữa các câu hay các ngữ trong từng đoạn văn thuộc các văn bản Phương pháp do Barzilay và các đồng tác giả khác đề xuất năm 1999 [5] thuộc mức xử

lý này

Mức ngữ nghĩa: tại mức xử lý này tập trung nhiều vào việc phân tích

các tên thực thể, mối quan hệ giữa các thực thể cũng như các sự kiện nảy sinh thực thể để xác định được độ quan trọng của thông tin Phương pháp của

Trang 27

McKeown và Radev đề xuất năm 1995[14] là một dạng của tóm tắt tại mức xử

lý này

Dựa vào các đặc trưng của từng phương pháp tiếp cận, Inderjeet Mani

đã đưa ra bảng so sánh, đánh giá ba mức tiếp cận để giải quyết bài toán tóm tắt

đa văn bản [10]

Bảng 2.1 Bảng so sánh các phương pháp tiếp cận tóm tắt đa văn bản

Mức hình thái Sử dụng nhiều

các độ đo tương đồng giữa các từ vựng

Sử dụng rất phổ biến, xử lý dư thừa tốt

Không thể mô tả các đặc trưng khác, khả năng tổng hợp thông tin kém

Mức cú pháp So sánh giữa các

ây cú pháp của câu hay ngữ trong văn bản

Có khả năng phát hiện các khái niệm tượng đồng trong các ngữ, cho phép tổng hợp thông tin

Không thể mô tả

ác đặc trưng khác, đòi hỏi phải

mở rộng các luật

so sánh giữa các cây

Các mẫu phải được tạo trước đối với từng miền

2.2 Các thách thức của quá trình tóm tắt đa văn bản

Một trong những thách thức lớn nhất của tóm tắt đa văn bản chính là sự nhập nhằng nội dung giữa các văn bản Có ba nguyên nhân gây ra nhập nhằng nội dung trong tóm tắt đa văn bản đó là: đồng tham chiếu xuyên văn bản, nhập nhằng về thời gian xuyên văn bản, sự trùng lặp nội dung giữa các văn bản

Trùng lặp đại từ và đồng tham chiếu

Trang 28

Thông thường, chúng ta đề cập đến một tên thực thể chính là nói đến tên ban đầu của thực thể đấy và sau đó thường hay sử dụng một đại từ thay thế nói

về thực thể trên Xác định chính xác được thực thể mà đại từ chỉ đến được gọi

là việc xác định trùng lặp đại từ (Pronominal Anaphora resolution)

Việc xác định đúng hai hay nhiều hơn các thực thể của nhiều văn bản khác nhau cùng chỉ đến một thực thể được gọi là vấn đề xác định đồng tham

chiếu xuyên văn bản (Cross Document Co-Reference) Vấn đề này cần phải

được giải quyết tốt thì kết quả đầu ra của tóm tắt đa văn bản mới cho ra kết quả tốt và dễ hiểu

Nhập nhằng mặt thời gian

Các văn bản trong cụm tài liệu có thể được chỉ đến bởi nhiều từ hay cụm

từ chỉ thời gian ví dụ: hôm qua, hôm nay… Việc xác định rõ ràng các mốc thời gian tương ứng là một điều kiện cần để sắp xếp các câu hay các văn bản theo đúng trình tự hợp lý Một số hệ thống có khả năng xác định được mốc thời gian

và thay thế các mốc thời gian tương đối thành các mốc thời gian tuyệt đối bằng việc phân tích nội dung của văn bản

Để đảm bảo tính có thể đọc được đối với văn bản tóm tắt của hệ thống tóm tắt đa văn bản thì ba yếu tố: Xác định trùng lặp đại từ, xác định đồng tham chiếu xuyên văn bản và nhập nhằng về mặt thời gian cần phải được giải quyết tốt Mặc dù, trong tóm tắt đơn văn bản hai yếu tố đầu tiên vẫn xuất hiện tuy nhiên giải quyết hai vấn đề này không phức tạp như giải quyết trong tóm tắt đa văn bản Bên cạnh đó, vấn đề nhập nhằng thời gian không xuất hiện trong tóm tắt văn bản đơn, do các văn bản đơn đầu vào coi như đã đảm bảo về mặt trật tự, yếu tố này do chính người tạo ra văn bản tạo nên Mặc dù vậy đối với tóm tắt

đa văn bản, vấn đề này trở nên cực kỳ khó khăn, các nghiên cứu xoay quanh vấn đề này chỉ tập trung vào các loại dữ liệu có đi kèm với thời gian như tin tức hay chuỗi các sự kiện Một trong các phương pháp giải quyết tốt vấn đề này

Trang 29

được Barzilay, Elhadad và McKeown đưa ra vào năm 2002 Còn đối với các tập dữ liệu không rõ ràng về mặt thời gian, các nhà nghiên cứu mặc định như các văn bản tương đồng về mặt thời gian

Sự chồng chéo nội dung giữa các tài liệu

Một câu hỏi mà nhiều người đặt ra đối với tóm tắt đa văn bản đó là:

- Liệu có thể ghép các văn bản lại với nhau rồi sử dụng tóm tắt đơn văn bản?

- Câu trả lời ở đây là không!

Bằng cách đó chúng ta sẽ không tạo ra được một văn bản tóm tắt tốt do không loại bỏ được sự chống chéo về mặt nội dung cũng như xác định được mối quan hệ giữa các văn bản

Mối quan hệ giữa các văn bản có rất nhiều loại khác nhau Dragomir Radev đã liệt kê ra 24 loại quan hệ giữa các văn bản [7] như trong bảng 2.2 Các mối quan hệ tồn tại ở nhiều mức khác nhau: mức từ (W), mức ngữ (P), mức đoạn hoặc mức câu (S), mức toàn tài liệu (D)

Đây là một taxonomy của các mối quan hệ xuyên tài liệu được gọi là Crossdocument Structure Theory (CST) Việc sử dụng tốt CST sẽ tạo hiệu quả cực kỳ hữu ích cho việc xác định sự trùng lặp giữa các văn bản trong bài toán tóm tắt đa văn bản

Trang 30

Bảng 2.2 Taxonomy mối quan hệ xuyên văn bản

Tỷ lệ nén

Bên cạnh các vấn đề nhập nhằng về mặt nội dung thì tỷ lệ nén cũng là một vấn đề được đặt ra khi nói đến tóm tắt đa văn bản Trong tóm tắt đơn văn bản, tỷ lệ 10% so với chiều dài của văn bản gốc có thể đủ đối với một văn bản tóm tắt Tuy nhiên đối với một cụm tài liệu n tài liệu với tỷ lệ 10% ta có một văn bản có độ dài 0.1n độ dài trung bình văn bản Với n là biến, văn bản tóm tắt có thể sẽ trở nên lớn hơn nhiều so với nhu cầu của người sử dụng muốn đọc

Trang 31

Chính vì vậy đối với tóm tắt đa văn bản, tỷ lệ nén cần có sự liên quan đến kích thước của cụm tài liệu đó Đối với tóm tắt đa văn bản dựa vào trích xuất câu để đưa ra một văn bản tóm tắt có độ dài phù hợp với yêu cầu của người sử dụng,

tỷ lệ nén thường được thay thế bằng số lượng câu của văn bản tóm tắt

- Đặt tên chủ đề cho từng nhóm bài viết ấy

Việc nhóm các văn bản thành các chủ đề khác nhau có thể sử dụng các thuật toán phân cụm như K-means, khai phá chủ đề LDA (Latent Dirichlet Allocation), Nhưng với LDA và cả K-means đều yêu cầu phải biết trước giá trị k - số cụm để phân chia Đấy là đặc trưng của nhóm các văn bản chung chưa

có chủ đề nào Việc thực hiện này chủ yếu dùng cho khối lượng văn bản lớn

Trong luận văn này học viên thực hiện sưu tầm khoảng 100 bài viết và

đã phân vào thành 2 chủ đề để phục vụ cho việc tóm tắt

Phân tích dữ liệu thô

Dữ liệu thu được ở dạng txt, mỗi file là một bài viết Mỗi bài viết đều có thể bị nhiễu

Trang 32

Hình 2.1 Tập văn bản chưa xử lý bị nhiễu

Với hình ảnh trên các dữ liệu này khá nhiễu, khó rút trích đặc trưng, cần phải trải qua trá trình tiền xử lý để xử lý các tập huấn luyện này như loại bỏ động từ, tính từ, danh từ riêng, dấu chấm thập phân… Do sự khó khăn trong

dữ liệu, và không xác định được số chủ đề của bài viết, cách đặt tên chủ đề,

có nhiều phương pháp khác nhau để tiến hành nhóm các bài viết

Tổng quát lại chúng ta sẽ có các cách sau để tiến hành nhóm các bài viết cùng chủ đề lại với nhau:

- Sử dụng thuật toán DBSCAN (Density-based spatial clustering of applications with noise): đây là thuật toán được đề xuất để phát hiện các cụm trong tập dữ liệu (chấp nhận dữ liệu nhiễu), với DBSCAN ta không cần biết trước số cụm Nhược điểm của DBSCAN là độ phức tạp cao, chạy chậm

- Sử dụng thuật toán K-means: K-means sẽ phân cụm dữ liệu bài viết vào

số cụm k xác định, số cụm có thể ước lượng từ các phân tích tên chủ đề ở trên

Số cụm ước lượng sẽ từ 13 ~ 15 cụm Nếu các bài viết ở mục "Khác" chênh lệch lớn thì tiến hành điều chỉnh tham số k cho phù hợp

- Sử dụng tập từ lõi và xác xuất điều kiện: kỹ thuật này có thể tốn thời

gian nhưng hiệu quả và giải quyết được cả vấn đề gom nhóm và đặt tên chủ đề Tiến hành thu thập rút trích lại một số bài viết từ tất cả các chủ đề mà học viên

Trang 33

đưa ra, dữ liệu này thu thập sẽ bao gồm bài viết và nhãn (chủ đề) của bài viết

đó Sử dụng các phương pháp/công cụ thống kê hoặc máy học (Machine Learning) để tiến hành tạo ra mô hình, sử dụng mô hình để phân lớp cho 100 văn bản huấn luyện

Đặt tên chủ đề: Với phương pháp 1 và 2, việc làm sau khi phân

cụm được các bài viết là tìm cách đặt trên cho các chủ đề này Từ mỗi nhóm bài viết, ta có thể tiến hành rút trích từ khóa đặc trưng sử dụng mô hình túi từ, tính tần số, chọn ra các từ khóa đặc trưng Từ các từ khóa đặc trưng này có ta thể suy luận ra được chủ đề, bằng phương pháp thủ công hoặc tự động Để có các kết quả chính xác thì trong tập bài viết các từ stopwords, các ký hiệu đặc biệt, phải được lọc bỏ

Hình 2.2 Các tập chủ đề được đặt tên và tính được xác suất

Trang 34

Tiền xử lý dữ liệu

Tập văn bản (bao gồm thu thập được và dữ liệu thô có sẵn) sẽ được xử

lý tách câu, tách từ, loại bỏ các dấu câu và các stopword Sau bước này, mỗi văn bản sẽ là tập hợp của các từ đã được sàng lọc trong văn bản đó

Quá trình tách câu tách từ trong tiếng Việt được sử dụng công cụ vnTokenizer với độ chính xác được tác giả công bố 96% - 98% Stopwords sẽ được xóa bỏ khỏi kết quả bằng cách sử dụng bộ từ điển stopwords tiếng Việt

Hình 2.3 Văn bản sau khi sử dụng công cụ tách từ

Vector hóa văn bản

Tập từ thu được từ bước tiền xử lý đang ở dạng không cấu trúc, do đó để

xử lý phân lớp bằng các phương pháp máy học cần vector hóa chúng Mô hình túi từ được áp dụng, theo mô hình này, dữ liệu văn bản không có cấu trúc (độ dài khác nhau) được biểu diễn thành dạng vector tần số xuất hiện của từ trong văn bản

Trang 35

Từ tần số của từ, vector của từng văn bản sẽ được tính bằng công thức TF-IDF Đây là công thức giúp đánh giá mức độ quan trọng của một từ đối với văn bản trong bối cảnh của tập dữ liệu

* TF (term frequency) là tần số xuất hiện của một từ trong một văn bản

* IDF (inverse document frequency) là tần số nghịch của 1 từ trong tập ngữ liệu

Kết quả của bước này là vector phân bố xác suất của tập từ biểu diễn chủ

đề của từng văn bản Các từ có tần số TF-IDF dưới 1 ngưỡng quy định sẽ bị lọc

bỏ Việc lọc này nhằm lựa ra những từ đủ tính chất đặc trưng cho chủ đề, loại

bỏ những từ quá hiếm xuất hiện hoặc xuất hiện quá phổ biến

Phân lớp văn bản

Tiến hành phân lớp sử dụng phương pháp học máy SVM

Tập văn bản đầu vào sau khi trải qua các bước xử lý sẽ được đại diện bằng tập các vector Chúng sẽ là đầu vào của giải thuật SVM truyền thống SVM

là thuật toán phân lớp nhị phân, do đó ta phải tổ chức sử dụng các kết hợp các

mô hình One-vs-All hoặc All-vs-All Classification

Sau quá trình phân lớp sẽ cho ta kết quả gãn nhãn chủ đề cho từng văn bản dựa trên văn bản đã thu thập được

Có thể tổng quá quá trình thực hiện như sau

Hình 2.4 Quy trình xử lý phân cụm văn bản

Trang 36

2.4 Xây dựng mô hình chủ đề

Các tri thức hiện nay vẫn đang được số hóa và lưu trữ trong các trang tin tức, blog, bài báo khoa học, các trang web và các mạng xã hội, quá nhiều thông tin lưu trữ, do đó sẽ rất khó khăn để tìm kiếm và tổ chức dữ liệu, cũng như định nghĩa một dữ liệu cụ thể Do vậy, chúng ta cần những công cụ tính toán mới giúp tổ chức, tìm kiếm và hiểu những lượng lớn thông tin

Các mô hình chủ đề cung cấp một cách tiếp cận hiệu quả trong tóm tắt văn bản bằng cách cung cấp các chỉ dẫn xác suất rõ ràng và nghiêm ngặt hơn các phương pháp khác Đến nay, mô hình chủ đề đã được khai thác rộng rãi trong lĩnh vực tóm tắt bằng cách khai thác các chủ đề tiềm ẩn trong tập văn bản

Trong học máy và xử lý ngôn ngữ tự nhiên, mô hình chủ đề là một loại

mô hình thống kê để phát hiện ra các "chủ đề" trừu tượng xảy ra trong một bộ sưu tập các tài liệu Giả sử, cho rằng một tài liệu nói về một chủ đề cụ thể, người ta sẽ kỳ vọng từ đặc biệt để xuất hiện trong các tài liệu nhiều hơn hoặc ít hơn: "dog" và "bone" sẽ xuất hiện thường xuyên hơn trong các tài liệu về những con chó, "cat" và "meow" sẽ xuất hiện trong các tài liệu về những con mèo và

"the", "is" sẽ xuất hiện như nhau trong cả hai Một mô hình chủ đề sử dụng mô hình toán học, cho phép kiểm tra một tập tài liệu và phát hiện, dựa trên số liệu thống kê của các từ trong mỗi tài liệu, dựa vào đó có thể dự đoán được chủ đề của văn bản là gì

Bảng 2.3 Các từ chủ đề trong tập mô tả của Andrews năm 2009

e

Inflation Beer Exchang

e

Station Flying

Trang 37

Play Song Team Jail Recessio

n

Drink Demand Steam Flight

Dance Recor

d

Game Home Recovery Bar Share Rail Plane

Opera Pop Match Prisoner Economy Dringkin

g

Group Engine Airport

Cast Dance Divisio

n

Serving Cut Alcohol News Track Pilot

Với bảng trên, mỗi cột mô tả cho một chủ đề riêng biệt Các nghiên cứu trước xây dựng mô hình các từ chủ đề dựa trên Bayes hay mô hình Markov ẩn Trong luận văn này học viên lựa chọn cách thức xây dựng tập từ chủ đề dựa trên mô hình xác suất điều kiện dựa trên tập dữ liệu huấn luyện của nhóm tác giả Nguyễn Thị Thu Hà Tập dữ liệu huấn luyện này gồm các văn bản đã được phân loại trước bởi con người và được gán nhãn vào đúng chủ đề thích hợp

Hình 2.5 dưới đây minh họa một số chủ đề trong tập không gian gồm n chủ đề khác nhau Trong đó, các ký hiệu o là ký hiệu biểu diễn từ lõi (core term) và ký hiệu x là ký hiệu biểu diễn các từ chủ đề trong không gian n chủ đề

Trang 38

Hình 2.5 Mô hình chủ đề dựa trên xác xuất

Giả sử A={A 1 , ,A k } là một không gian k chiều các chủ đề Mỗi không

gian A i bao gồm tập các từ thuộc nó nếu như khả năng xuất hiện của nó trong

A i là khác 0 Các không gian A i và A j có thể giao nhau, do vậy, các từ thuộc A i

có thể cũng thuộc một không gian A j khác Giả sử ta lấy một từ gọi là từ lõi

(core term) của không gian A i (từ này được coi là từ có trọng số cao nhất),

khoảng cách của các từ còn lại trong không gian A i chỉ cần so với từ lõi Để tính được khoảng cách của các từ đó so với lõi, nhóm tác giả sử dụng cách tính xác suất có điều kiện Trên thực tế, ta xây dựng mô hình chủ đề theo phương pháp xác suất điều kiện theo những bước sau:

Tập văn bản huấn luyện gồm n văn bản D={d 1 , d 2 , , d n }

Đối với mỗi văn bản được phân vào từng chủ đề C={c 1 , c 2 , ,c m }

Sử dụng VnTagger để tách các từ trong D và trích rút ra tập các danh từ

N

Trang 39

Tính tần suất xuất hiện lớn nhất của 1 danh từ đối với mỗi 1 chủ đề, gọi

là từ lõi (core)

Tính xác suất có điều kiện các từ còn lại với các từ core, từ đó sẽ thuộc chủ đề nào mà có xác suất điều kiện với từ core là khác 0

Dưới đây là thuật toán mô tả phương pháp xây dựng mô hình chủ đề

THUẬT TOÁN XÂY DỰNG MÔ HÌNH CHỦ ĐỀ

Trang 40

Nhóm nghiên cứu của TS Nguyễn Thị Thu Hà, trường Đại học Điện lực

đã áp dụng thuật toán trên xây dựng mô hình chủ đề trong nghiên cứu phân loại văn bản với các chủ đề như bảng sau:

Bảng 2.4 Mô hình chủ đề của nhóm tác giả Nguyễn Thị Thu Hà

Từ nghiên cứu của Andrews năm 2009 và nghiên cứu của nhóm tác giả Nguyễn Thị Thu Hà Từ thuật toán xây dựng mô hình chủ đề ở trên, để ứng dụng trong cơ quan mà học viên đang công tác Học viên đã xây dựng được mô hình chủ đề với các lĩnh vực liên quan đến nông nghiệp như sau

Bảng 2.5 Mô hình chủ đề học viên xây dựng

TÊN CHỦ ĐỀ

Ngày đăng: 02/10/2018, 09:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “Gom cụm đồ thị và ứng dụng vào việc rút trích nội dung chính của khối thông điệp trên diễn đàn thảo luận”, Tạp chí Phát triển Khoa học Công nghệ, Tập 11, Số 05 - 2008, pp. 21-32, 2008 Sách, tạp chí
Tiêu đề: Gom cụm đồ thị và ứng dụng vào việc rút trích nội dung chính của khối thông điệp trên diễn đàn thảo luận”, "Tạp chí Phát triển Khoa học Công nghệ
[2] Nguyễn Trọng Phúc, Lê Thanh Hương, Tóm tắt văn bản sử dụng cấu trúc diễn ngôn, Proc of ICTrda08, 2008 Sách, tạp chí
Tiêu đề: Tóm tắt văn bản sử dụng cấu trúc diễn ngôn
[3] Trương Quốc Định, Nguyễn Quang Dũng, “Một giải pháp tóm tắt văn bản tiếng Việt tự động” Hội thảo quốc gia lần thứ XV: một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông Hà Nội 03- 04/12/2012 Sách, tạp chí
Tiêu đề: Một giải pháp tóm tắt văn bản tiếng Việt tự động
[4] Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cương, “Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản tiếng Việt” Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015.Tiếng Anh Sách, tạp chí
Tiêu đề: Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản tiếng Việt
[5] Barzilay R., McKeown K., and Elhadad M, Information fusion in the context of multidocument summarization, Proceedings of the 37th annual meeting of the Association for Computational Linguistics Sách, tạp chí
Tiêu đề: Information fusion in the context of multidocument summarization
[6] Chin-Yew Lin and Eduard Hovy (1997), Identifying topics by position, Fifth Conference on Applied Natural Language Processing:283–290, 1997 Sách, tạp chí
Tiêu đề: Identifying topics by position
Tác giả: Chin-Yew Lin and Eduard Hovy
Năm: 1997
[7] Dragomir Radev (2000), A common theory of information fusion from multiple text sources, step one: Cross-document structure, In 1st ACL SIGDIAL Workshop on Discourse and Dialogue, Hong Kong, October 2000 Sách, tạp chí
Tiêu đề: A common theory of information fusion from multiple text sources, step one: Cross-document structure
Tác giả: Dragomir Radev
Năm: 2000
[8] H. Edmundson (1969), New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 Sách, tạp chí
Tiêu đề: New methods in automatic abstracting
Tác giả: H. Edmundson
Năm: 1969
[9] H. Luhn (1958), The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2):159-165, 1958 Sách, tạp chí
Tiêu đề: The automatic creation of literature abstracts
Tác giả: H. Luhn
Năm: 1958
[10] Inderjeet Mani (2001), Automatic Summarization, John Benjamins Publishing Co., 2001 Sách, tạp chí
Tiêu đề: Automatic Summarization
Tác giả: Inderjeet Mani
Năm: 2001
[11] Inderjeet Mani and Mark T. Maybury (eds) (1999), Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359- 8 Sách, tạp chí
Tiêu đề: Advances in Automatic Text Summarization
Tác giả: Inderjeet Mani and Mark T. Maybury (eds)
Năm: 1999
[12] Jaime Carbonell, Jade Goldstein (1998). The Use of MMR, Diversity- Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug. 1998 Sách, tạp chí
Tiêu đề: The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries
Tác giả: Jaime Carbonell, Jade Goldstein
Năm: 1998
[13] Jan O. Pendersen, Kupiec Julian and Francine Chen (1995), A trainable document summarizer, Research and Development in Information Retrieval: 68– 73, 1995 Sách, tạp chí
Tiêu đề: A trainable document summarizer
Tác giả: Jan O. Pendersen, Kupiec Julian and Francine Chen
Năm: 1995
[14] Kathleen R. McKeown and Dragomir R. Radev (1995), Generating summaries of multiple news articles, ACM Conference on Research and Development in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July 1995 Sách, tạp chí
Tiêu đề: Generating summaries of multiple news articles
Tác giả: Kathleen R. McKeown and Dragomir R. Radev
Năm: 1995
[15] Regina Barzilay and Michael Elhadad, Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T. Maybury, editors): 111–121, The MIT Press, 1999 Sách, tạp chí
Tiêu đề: Using Lexical Chains for Text Summarization

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w