1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phương pháp tóm tắt văn bản tiếng việt bằng textrank

78 475 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 2,13 MB

Nội dung

Hệ thống đưa ra việc trích chọn văn bản dựa vào phương pháp textRank với mục tiêu tóm tắt một cách chủ động nhất với độ dài tóm tắt đi theo mong muốn của người sử dụng, giúp người sử dụn

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

PHƯƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

PHƯƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK

Trang 3

LỜI CAM ĐOAN

Tác giả xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và phát triển các nghiên cứu tóm tắt văn bản trong nước và trên thế giới do tác giả thực hiện

Luận văn này là mới, các nghiên cứu trong luận văn do chính tác giả thực hiện, qua quá trình nghiên cứu đưa ra và không sao chép nguyên bản từ bất kì một nguồn tài liệu nào khác

TÁC GIẢ LUẬN VĂN

Tạ Hồng Đông

Trang 4

LỜI CẢM ƠN

Em xin chân thành cảm ơn các thầy cô, cán bộ viên chức Khoa Sau đại học của Viện Đại học Mở Hà Nội đã nhiệt tình quan tâm và tạo nhiều điều kiện thuận lợi cho em trong quá trình thực hiện luận văn thạc sỹ này

Em xin chân thành cảm ơn thầy giáo TS Nguyễn Long Giang đã nhiệt tình hướng dẫn, động viên, hỗ trợ em trong suốt quá trình thực hiện luận văn, giúp em vượt qua những hạn chế của bản thân và những khó khăn trong quá trình nghiên cứu

để hoàn thành luận văn thành công, đúng thời hạn

Em xin gửi lời cảm ơn tới các thầy cô đã giảng dạy em trong 02 năm học tập tại trường, những người đã truyền đạt cho em không chỉ kiến thức, kinh nghiệm quý báu, mà cả những câu chuyện về cuộc sống, những bài học làm người ý nghĩa Những kiến thức, bài học đó đã, đang và sẽ tiếp tục là hành trang, động lực giúp em

tự hoàn thiện bản thân, vượt qua những khó khăn và vững bước trên con đường phía trước

Em cũng xin cảm ơn thầy cô Phòng tin học quản lý - Viện Công Nghệ Thông Tin, Viện Hàn Lâm Khoa Học và Công Nghệ Việt Nam đã giúp đỡ, hỗ trợ em rất nhiều để hoàn thành luận văn này

Tôi cũng xin chân thành cảm ơn sự giúp đỡ nhiệt tình của bạn bè đã động viên, giúp đỡ trong thời gian học tập và nghiên cứu

Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, người thân và đồng nghiệp đã động viên, giúp đỡ và khuyến khích tôi vượt qua những lúc khó khăn trong cuộc sống, học tập và công việc

Xin chân thành cảm ơn!

Hà Nội, tháng 12 năm 2017

Tác giả

Tạ Hồng Đông

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v

DANH MỤC CÁC HÌNH VẼ vi

CHƯƠNG 1 TỔNG QUAN TÓM TẮT VĂN BẢN.……… ….3

1.1 Giới thiệu chung về khai phá dữ liệu 3

1.1.1 Sự cần thiết của khai phá dữ liệu 3

1.1.2 Khai phá dữ liệu 3

1.2 Tóm tắt văn bản tự động 7

1.2.1 Tóm tắt văn bản 7

1.2.2 Ứng dụng của tóm tắt văn bản 10

1.2.3 Phân loại tóm tắt 10

1.2.4 Mô hình tóm tắt văn bản 14

1.2.5 Đánh giá văn bản tóm tắt 18

1.2.6 Một số đặc trưng và khó khăn trong tóm tắt văn bản tiếng việt 21

1.3 Phát biểu bài toán đơn văn bản tiếng Việt 23

1.4 Kết luận chương 1………24

CHƯƠNG 2.TÓM TẮT ĐƠN VĂN BẢN THEO TEXTRANK……….25

2.1 Thuật toán xếp hạng đồ thị 25

2.1.1 PageRank 25

2.1.2 HITS 28

2.1.3 Đánh giá và so sánh giữa PageRank và HITS 31

2.2 Mô hình TextRank 31

2.2.1 Đồ thị vô hướng……… ……….31

2.2.2 Đồ thị có trọng số……… ….…32

2.2.3 Đồ thị hoá văn bản……… …34

2.2.4 Sử dụng TextRank trích xuất từ khoá………34

2.2.5 Sử dụng TextRank trích rút câu……….…….39

2.3 Giải thuật TextRank 39

2.3.1 Giải thuật TextRank 39

Trang 6

2.3.2 Các phương thức tính độ tương đồng 41

2.3.3 Nhận xét giải thuật TextRank 43

2.4 Kết luận chương 2……… 45

CHƯƠNG 3 XÂY DỰNG ỨNG DỤNG VÀ KẾT QUẢ 45

3.1 Tổng quan ứng dụng tóm tắt văn bản 45

3.2 Cài đặt ứng dụng tóm tắt văn bản 46

3.2.1 Mô hình giải quyết bài toán 46

3.2.2 Tiền xử lý văn bản 47

3.2.3 Xây dựng đồ thị câu 49

3.2.4 Tính hạng câu trên đồ thị 50

3.2.5 Sinh văn bản tóm tắt 51

3.3 Thực nghiệm thuật toán 51

3.3.1 Cài đặt chương trình 51

3.3.2 Đánh giá ứng dụng 57

3.4 Kết luận chương 3……… ……….62 TÀI LIỆU THAM KHẢO

PHỤ LỤC

Trang 7

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

Gisting Evaluation

Phương pháp đánh giá độ tương tự văn bản

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Quy trình text mining……… 7

Hình 1.2 Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản 9

Hình 1.3 Mô hình tóm tắt văn bản tự động 15

Hình 2.1 Mô hình PageRank 26

Hình 2.2 Ý tưởng PageRank 26

Hình 2.3 Mô tả khái quát ý tưởng PageRank 27

Hình 2.4 Trang Authority 29

Hình 2.5 Trang Hub 29

Hình 2.6 Mô hình trang Authority và trang Hub 30

Hình 2.7 Mô hình trang Authority tốt và trang hub tốt 30

Hình 2.8 Hệ thống để thực hiện 1 thuật toán xếp hạng dựa trên đồ thị………… 32

Hình 2 9 Đường cong hội tụ của phương pháp xếp hạng dựa trên đồ thị với đồ thị vô hướng, có trọng số ……….33

Hình 2.10 Đồ thị TextRank 40

Hình 2.11 Đồ thị TextRank với các giá trị trọng số và độ tương đồng giữa các câu 43

Hình 3.1 Các bước thực hiện tóm tắt theo phương pháp TextRank 46

Hình 3.2 Các bước thực hiện 3 JVnTextpro ……….47

Hình 3.3 Bảng PreText đầy đủ 51

Hình 3.4 Cấu trúc chương trình 52

Hình 3.5 Giao diện chính của chương trình 53

Hình 3.6 Thanh chọn hiển thị yêu cầu 53

Hình 3.7 Nút chọn tệp 53

Hình 3.8 Lựa chọn phần trăm độ dài tóm tắt 54

Hình 3.9 Nút tóm tắt 54

Hình 3.10 Nút hiển thị đồ thị 54

Hình 3.11 Chọn số nút hiển thị 54

Hình 3.12 Nút hiển thị toàn bộ 54

Trang 9

Hình 3.13 Nút hiển thị TextRank 54

Hình 3.14 Giao diện văn bản chi tiết 55

Hình 3.15 Giao diện tóm tắt 55

Hình 3.16 Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút 56

Hình 3.17 Giao diện hiển thị 100% số nút 56

Hình 3.18 Giao diện hiển thị TextRank cho các câu 57

Hình 3.19 Biểu đồ phân bố điểm đánh giá văn bản tóm tắt 6 tập mẫu………59

Trang 10

MỞ ĐẦU

1 Tính cấp thiết đề tài

Công nghệ thông tin, các dịch vụ trực tuyến đang phát triển mạnh mẽ kèm theo với là sự bùng nổ của internet đã mang đến một lượng thông tin khổng lồ cho con người Rất nhiều người có nhu cầu tổng hợp và tóm tắt lại các thông tin để thuận lợi cho việc tổng hợp các thông tin đó Tóm tắt dữ liệu tự động là một lĩnh vực rất quan trọng, nó bao gồm trong đó là học máy và khai phá dữ liệu Bài toán tóm tắt dữ liệu tự động không chỉ dừng lại ở tóm tắt văn bản mà nó còn mở rộng ra các loại dữ liệu đa phương tiện như hình ảnh, âm thanh và video Xuất phát từ nhu cầu đó, các phương pháp tóm tắt tự động được nghiên cứu và phát triển

Hiện nay trên thế giới, nhiều nhà khoa học và các công ty tỏ ra rất quan tâm đến bài toán tóm tắt văn bản tự động Tại các hội nghị nổi tiếng như: DUC 2001-

2007, TAC 2008, ACL 2001-2007…, tóm tắt văn bản tự động đã được đề cập đến nhiều trong các bài báo Ngoài ra, có nhiều hệ thống tóm tắt văn bản độc lập hoặc tích hợp được phát triển như: MEAD, LexRank, chức năng tự động tóm tắt trong Microsoft Word Tuy nhiên, kết quả của các nghiên cứu này vẫn chưa được đánh giá cụ thể Đồng thời một số công cụ có sẵn thì không thích hợp cho tiếng Việt nên kết quả tóm tắt rất thấp, chưa đáp ứng được yêu cầu người dùng, ví dụ như công cụ AutoSummarizer của phần mềm Microsoft Word

Vì vậy tác giả lựa chọn nghiên cứu đề tài: “Phương pháp tóm tắt văn bản tiếng Việt bằng TextRank” là thực sự cần thiết

2 Mục tiêu nghiên cứu

Tìm hiểu tổng quan về bài toán tóm tắt văn bản, thuật toán xếp hạng trên đồ thị TextRank và ứng dụng thuật toán TextRank xây dựng đồ thị câu, xếp hạng câu trên đồ thị Trên cơ sở đó, xây dựng ứng dụng thử nghiệm tóm tắt đơn văn bản tiếng Việt bằng phương pháp TextRank

Hệ thống đưa ra việc trích chọn văn bản dựa vào phương pháp textRank với mục tiêu tóm tắt một cách chủ động nhất với độ dài tóm tắt đi theo mong muốn của người sử dụng, giúp người sử dụng nắm bắt các thông tin một cách dễ dàng, nhanh chóng và chính xác nhất

Trang 11

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Các văn bản tiếng Việt

- Thuật toán TextRank và ứng dụng xếp hạng câu trên đồ thị câu

3.2 Phạm vi nghiên cứu

Tóm tắt đơn văn bản tiếng Việt bằng phương pháp TextRank sử dụng đồ thị câu

4 Kết cấu của luận văn

Luận văn được bao gồm 3 chương như sau:

Chương 1: Tổng quan tóm tắt văn bản

Phương pháp này giới thiệu một cách khái quát về khai phá dữ liệu, khai phá văn bản và nền tảng chung nhất cho việc tóm tắt văn bản, cũng như việc đánh giá một văn bản tóm tắt nói riêng và đánh giá thuật toán khai phá nói chung

Chương 2: Tóm tắt đơn văn bản theo TextRank

Trình bày phương pháp thuật toán TextRank để giải quyết bài toán tóm tắt văn bản đơn cũng như một số ý tưởng để tạo nên thuật toán TextRank

Chương 3: Xây dựng ứng dụng và kết quả của thuật toán TextRank

Trình bày về việc xây dựng chương trình sử dụng phương pháp TextRank để tóm tắt đơn văn bản và kết quả cài đặt ứng dụng thử nghiệm của nó

Kết luận: Tóm lược kết quả đạt được của luận văn và định hướng phát triển tương lai

Trang 12

CHƯƠNG 1 TỔNG QUAN TÓM TẮT VĂN BẢN

1.1 Giới thiệu chung về khai phá dữ liệu

1.1.1 Sự cần thiết của khai phá dữ liệu

Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ…) không ngừng tăng lên Sự tích lũy

dữ liệu này xảy ra với một tốc độ bùng nổ Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích

cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng

Data Mining ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt

ra ở trên Có nhiều định nghĩa về Data Mining và sẽ được đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó [4]

1.1.2 Khai phá dữ liệu

Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê) [4]

Sau đây là một số định nghĩa mang tính mô tả của nhiều tác giả về khai phá

dữ liệu

Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp

được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ

và các mẫu chưa biết bên trong dữ liệu”

Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,

trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”

Trang 13

Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm

thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”

Thuật ngữ Data Mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Data Mining như Knowledge Mining (khai phá tri thức), Knowledge Extraction (chắt lọc tri thức), Data/patern Analysis (phân tích dữ liệu/mẫu), Data Archaeoloogy (khảo cổ dữ liệu), Data Dredging (nạo vét dữ liệu),

1.1.2.1 Data Mining

Quy trình Data Mining

1 Làm sạch dữ liệu (Data cleaning & Preprocessing): Loại bỏ nhiễu và các dữ

liệu không cần thiết

2 Tích hợp dữ liệu (Data Integration): quá trình hợp nhất dữ liệu thành những

kho dữ liệu (Data Warehouses & Data Marts) sau khi đã làm sạch và tiền xử lý (Data cleaning & Preprocessing)

3 Trích chọn dữ liệu (Data Selection): trích chọn dữ liệu từ những kho dữ liệu

và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (Noisy data), dữ liệu không đầy đủ (Incomplete data)…

Dữ liệu đích

Dữ liệu

đã tiền

xử lý

Dữ liệu chuyển dạng

Mẫu

Tri thức

Đánh giá

và trình diễn Khai phá

dữ liệu Đổi dạng

Tiền xử

lý Chọn lựa

Hình 1.1: Quy trình Data Mining

Trang 14

4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho

quá trình xử lý

5 Khai phá dữ liệu (Data Mining): Là một trong các bước quan trọng nhất,

trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

6 Ước lượng mẫu (Knowledge Evaluation): Quá trình đánh giá các kết quả tìm

được thông qua các độ đo nào đó

7 Biểu diễn tri thức (Knowledge Presentation): Quá trình này sử dụng các kỹ

thuật để biểu diễn và thể hiện trực quan cho người dùng

Mục đích của khai phá dữ liệu:

Khai phá dữ liệu cần sử dụng kiến thức từ nhiều ngành và nhiều lĩnh vực khác nhau như thống kê, trí tuệ nhân tạo, CSDL, tính toán song song,… Đặc biệt,

nó rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình hóa dữ liệu và phát hiện các mẫu

- Thống kê phân tích dữ liệu và hỗ trợ ra quyết định

- Y học: dựa vào mối quan hệ giữa các triệu chứng để chuẩn đoán bệnh và hướng điều trị

- Mạng viễn thông: phân tích các cuộc gọi điện thoại để dự đoán hướng người dùng và đưa ra dự đoán hướng dịch vụ

Trang 15

-Bán hàng: phân tích các mặt hàng để dự đoán nhu cầu người dùng để đưa ra hướng phát triển đúng cho nhà sản xuất…

Ngoài ra, khai thác dữ liệu còn ứng dụng vào trong rất nhiều lĩnh vực khác nhau của đời sống giúp đưa ra những giải pháp hiệu quả cho các vấn đề nan giải của đời sống

Dữ liệu lưu trữ trong CSDL văn bản là dữ liệu bán cấu trúc tức là chúng không hoàn toàn phi cấu trúc cũng không hoàn toàn cấu trúc Ví dụ: một tài liệu có thể chứa một vài trường cấu trúc như tiêu đề, tên tác giả, ngày xuất bản, phân loại Nhưng cũng có thể chứa một lượng lớn các trường phi cấu trúc như phần tóm tắt hay nội dung của tài liệu

Từ những vấn đề nêu trên, các kỹ thuật tìm kiếm tỏ ra không tương xứng vì người ta thậm chí không biết bên trong dữ liệu chứa gì nên thật khó để đưa ra câu truy vấn hiệu quả cho việc truy vấn và trích rút các thông tin từ dữ liệu cũng như sắp xếp các thông tin dữ liệu Do đó vấn đề đặt ra là làm sao có thể tìm kiếm và khai thác nguồn dữ liệu như vậy Các kỹ thuật để giải quyết vấn đề này được gọi là Text Mining hay khai phá dữ liệu văn bản…

Trang 16

Quy trình:

Hình 1.2: Quy trình Text Mining.

Các bài toán điển hình:

Theo Inderjeet Mani, tóm tắt văn bản tự động nhằm đến mục đích: “Trích

xuất nội dung từ một nguồn thông tin và trình bày nội dung quan trọng nhất cho

Nguồn dữ liệu

Thu thập văn bản

Tiền xử lý Làm sạch

Phân tích

Xử lý văn bản

Hiển thị văn bản

Trang 17

người sử dụng theo một khuôn dạng xúc tích và gây cảm xúc với người sử dụng hoặc chương trình cần nhắm đến”[14]

Kết quả đầu ra của một hệ thống tóm tắt văn bản phải đảm bảo các đặc điểm:

so với văn bản gốc, nhưng phải đảm bảo vẫn còn những thông tin quan trọng, nổi bật

- Độ rút gọn: Là tỉ số giữa đơn vị ngữ liệu của văn bản kết quả trên số lượng đơn vị ngữ liệu của tập văn bản nào

- Tỷ lệ này có thể là câu/câu, từ/từ, tiếng/tiếng, thường tính bằng (%)

- Độ rút gọn tỉ lệ thuận với độ khó của thuật toán

- Các văn bản tóm tắt thường có một chiều dài nhất định được mong muốn

- Phải liên quan,phù hợp với yêu cầu của người dùng

- Được đánh giá dựa trên hệ thống đánh giá SUMMAC, ROUGE … và tập các dữ liệu, kiểm thử mẫu (Corpus) Độ chính xác tỷ lệ thuận với độ khó của thuật toán

- Định dạng tốt về ngữ pháp và cấu trúc diễn ngôn (cấu trúc nội dung của từng loại văn bản) [6]

- Đọc và hiểu được đối với người dùng

- Một hệ thống được đánh giá cũng dựa trên độ dễ đọc, dễ hiểu để thay thế cho tiêu chí mức độ liên kết này

Điều cốt lõi của một hệ thống tóm tắt văn bản theo lĩnh vực khai phá văn bản đó là tìm ra những thành phần quan trọng trong văn bản tóm tắt Các thành phần này được gọi là các đơn vị ngữ liệu Đơn vị ngữ liệu ở đây có thể hiểu là đơn

vị nhỏ nhất có nghĩa mà ta chọn để trích rút, tóm lược ở câu hoặc đoạn Các đơn vị ngữ liệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng của cả đoạn văn hay văn bản Và sau khi chọn ngữ liệu quan trọng, hệ thống tóm tắt có thể tóm lược chúng, biến đổi chúng và sau cùng cho hiển thị ra màn hình, thống kê

Trang 18

Hình 1.3: Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản

Tuy nhiên, khi tóm tắt văn bản thì hai yêu cầu đƣợc quan tâm nhất đó là:

- Văn bản tóm tắt phải ngắn hơn văn bản gốc

- Văn bản tóm tắt phải giữ đƣợc thông tin quan trọng của văn bản gốc

o

C r C

(1.2)

Trang 19

o rs: Tỷ lệ thông tin

1.2.2 Ứng dụng của tóm tắt văn bản

Tóm tắt văn bản được ứng dụng vào rất nhiều hệ thống xử lý ngôn ngữ tự nhiên

Một số ứng dụng tiêu biểu:

- Tóm tắt tin tức: Ứng dụng cho các hệ thống đọc báo

- Tóm tắt kết quả tìm kiếm trong máy tìm kiếm từ các search engineer

- Thu thập dữ liệu thông minh (trợ giúp thông minh việc đọc và khai thác thông tin)

- Tóm tắt bài báo khoa học, giản lược trên các thiết bị cầm tay

- Tóm tắt nội dung hội nghị, cuộc họp, webside, chương trình phát thanh và truyền hình, sổ tay công việc

- Tóm tắt nội dung video, audio…

Ngoài ra, một số module và kết quả của bài toán cũng là đầu vào hay những bước tiền xử lý cho bài toàn khác của khai phá dữ liệu văn bản

1.2.3 Phân loại tóm tắt

Tùy thuộc vào nhân tố khác nhau của quá trình tóm tắt văn bản, các nhân tố khác nhau có thể phân loại thành những kiểu tóm tắt khác nhau Trong luận văn này xin đề cập đến 4 nhân tố cơ bản làm cơ sở cho việc phân loại tóm tắt văn bản đó là:

1.2.3.1 Nhân tố về đầu vào

Từ một văn bản nguồn cho ra bản tóm tắt ngắn gọn của văn bản đó Bài toán tóm tắt đơn văn bản cũng giống như các bài toán tóm tắt khác, là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn văn bản ngắn gọn mô tả nội dung chính của văn bản đầu Văn bản đơn có thể là một trang Web, một nội dung đăng trên mạng xã hội, một bài báo, một tài liệu dạng văn bản (ví dụ: doc,

Trang 20

.txt) Tóm tắt văn bản đơn là bước làm cơ sở cho việc xử lý tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn Các phương pháp nhằm giải quyết bài toán tóm tắt văn bản đơn cũng tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất và tóm tắt theo tóm lược

- Tóm tắt theo trích xuất

Đa số các phương tóm tắt loại này tập trung vào việc trích xuất ra các câu hay các ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn bản tóm tắt Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vị trí của câu trong văn bản, tần số xuất hiện của từ, ngữ hay sử dụng các cụm từ khóa để tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt [12], [13]

Các kỹ thuật tóm tắt gần đây sử dụng các phương pháp học máy và xử lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản

Sử dụng các phương pháp học máy có thể kể đến phương pháp của Kupiec, Pendersonand Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [15] hay nghiên cứu của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị trí của các câu quan trọng trong văn bản [14] Bên cạnh đó việc áp dụng các phương pháp phân tích ngôn ngữ tự nhiên như sử dụng mạng từ Wordnet của Barzilay và Elhadad vào năm 1997 [24]

- Tóm tắt theo tóm lược

Các phương pháp tóm tắt không sử dụng trích xuất để tạo ra tóm tắt có thể xem như là một phương pháp tiếp cận tóm tắt theo tóm lược Các hướng tiếp cận có thể kể đến như dựa vào trích xuất thông tin (Information Extraction), Ontology, hợp nhất và nén thông tin

Một trong những phương pháp tóm tắt theo tóm lược cho kết quả tốt là các phương pháp dựa vào trích xuất thông tin, phương pháp dạng này sử dụng các mẫu

đã được định nghĩa trước về một sự kiện hay là cốt truyện và hệ thống sẽ tự động điền các thông tin vào trong mẫu có sẵn rồi sinh ra kết quả tóm tắt Mặc dù cho ra kết quả tốt tuy nhiên các phương pháp dạng này thường chỉ áp dụng trong một miền nhất định [15]

Trang 21

 Tóm tắt đa văn bản: Từ một tập các văn bản nguồn cho ra được bản tóm tắt ngắn gọn của những văn bản đó

 Tất nhiên, tóm tắt đa văn bản khó hơn, vì ngoài những công việc của tóm tắt đơn văn bản còn phải xử lý thêm công việc như tiền xử lý trích rút, tích hợp khuân dạng, hiển thị theo cách riêng Ngoài ra nó cũng phải đối mặt với những khó khăn như: dư thừa dữ liệu, nội dung các văn bản nguồn phân tán,độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự phức tạp xử lý lớn

Tóm tắt đơn văn bản là bước đệm cho tóm tắt đa văn bản

Ngoài ra, đối với nhân tố đầu vào là mỗi kiểu văn bản khác nhau (bài báo, tin tức, bài báo khoa học, ) thì sẽ có những kiểu tóm tắt khác nhau

1.2.3.2 Nhân tố về chức năng

Tóm tắt theo chức năng: Tóm tắt chỉ định, tóm tắt thông tin, tóm tắt đánh giá

- Tóm tắt chỉ định: là kiểu đọc giúp người đọc phân biệt xem có nên tiếp tục hay không

Ví dụ: ứng dụng sinh tiêu đề, tóm tắt kết quả tìm kiếm

- Tóm tắt thông tin: là kiểu tóm tắt tất cả các nội dung quan trọng nhất của văn bản gốc, văn bản tạo ra để thay thế cho văn bản gốc

Ví dụ: tóm tắt cuốn tiểu thuyết thành đoạn văn năm bảy trang

- Tóm tắt đánh giá: là kiểu tóm tắt mà trong kết quả có cả đánh giá của người tóm tắt

Ví dụ như lời tựa của một cuốn sách hay một bản thảo Kiểu bài tóm tắt này không gặp trong một hệ văn bản tự động

1.2.3.3 Nhân tố về mục đích của văn bản tóm tắt

- Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích tóm tắt là gì, tóm tắt phục vụ đối tượng nào…

- Nếu phụ thuộc vào đối tượng đọc tóm tắt thì tóm tắt cho chuyên gia khác cách tóm tắt cho các đối tượng đọc thông thường

- Tóm tắt sử dụng trong tìm kiếm thông tin (IR) sẽ khác với tóm tắt phục vụ cho việc sắp xếp

Trang 22

- Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt chỉ thị và tóm tắt thông tin Tóm tắt chỉ thị chỉ ra loại của thông tin

Ví dụ như loại văn bản chỉ thị “tuyệt mật” Còn tóm tắt thông tin chỉ ra nội dung của thông tin

- Tóm tắt trên cơ sở truy vấn (Query - Based) hay tóm tắt chung Tóm tắt chung có mục đích chính là tìm ra đoạn tóm tắt cho toàn bộ văn bản mà nội dung của đoạn văn bản sẽ bao quát toàn bộ nội dung của văn bản đó

Tóm tắt trên cơ sở truy vấn thì nội dung của văn bản tóm tắt sẽ dựa trên truy vấn của người dùng hay chương trình đưa vào, loại tóm tắt này thường được sử dụng trong quá trình tóm tắt các kết quả trả về từ máy tìm kiếm

1.2.3.4 Nhân tố về đầu ra của văn bản tóm tắt

- Dựa vào ngôn ngữ tóm tắt cũng có thể phân loại dựa vào khả năng tóm tắt

là ngôn ngữ gì thì văn bản đầu ra cũng là ngôn ngữ tương ứng

• Tóm tắt xuyên ngôn ngữ (Crosslingual): Hệ thống có khả năng đưa ra các văn bản đầu ra có ngôn ngữ khác với ngôn ngữ của văn bản đầu vào

- Dựa vào định dạng đầu ra của kết quả tóm tắt: Như bảng, đoạn, từ khóa

Ngoài hai cách phân loại trên, phân loại tóm tắt trên cở sở đầu ra còn có một cách phân loại được sử dụng phổ biến là: Tóm tắt theo trích xuất (Extract) và tóm tắt theo tóm lược (Abstract)

- Tóm tắt trích rút (Extractive Summary): Văn bản tóm tắt chứa chính xác ngữ liệu của văn bản gốc mà được trích rút ra trong quá trình tóm tắt

- Tóm tắt tóm lược (Abstractive Summary): Văn bản tóm tắt có thể chứa những đơn vị ngữ liệu mới mà không có trong văn bản gốc

Ví dụ đoạn văn sau (được đánh số thứ tự câu):

Trang 23

“Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ 1 Ba anh em chúng em đã chờ những ngày này khá lâu rồi 2

Chả là anh cả em được về phép thăm gia đình nhân dịp Tết 3 Bố mẹ em rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn 4 Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình 5

Bữa

ăn đã làm lên một cuối tuần tuyệt vời 6 ”

Văn bản kết quả của quá trình trích rút:

“Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ Bữa ăn đã làm lên một cuối tuần tuyệt vời”

Văn bản kết quả của quá trình Tóm lược:

“Một buổi cuối tuần vui vẻ của gia đình em”

Rõ ràng qua ví dụ này, ta có thể thấy ưu điểm của tóm tắt tóm lược so với tóm tắt trích rút, đó là sự rõ ràng mạch lạc, logic, dễ hiểu, tuy nhiên, để xây dựng một hệ thống tóm lược sẽ khó hơn là xây dựng một hệ thống trích rút Khi xem mô hình chung của một hệ thống tóm tắt văn bản ta sẽ thấy rõ điều này hơn

Bài toán tóm tắt văn bản được chia thành nhiều loại Mỗi loại được sử dụng cho nhiều mục đích khác nhau Mỗi bài toán có thể áp dụng cho nhiều phương pháp

và kĩ thuật riêng Không có một tóm tắt văn bản nào cài đặt và đáp ứng được hết các yêu cầu đó

Sau một thời gian tìm hiểu, tác giả quyết định nghiên cứu theo hướng tóm tắt trích rút để giải quyết bài toán tóm tắt đơn văn bản tiếng Việt

- Tiền xử lý: Biểu diễn và hiểu văn bản nguồn

- Trích rút câu: Trích chọn những câu có nội dung quan trọng

- Sinh văn bản tóm tắt: Tạo văn bản mới chứa những điểm quan chính, quan trọng của văn bản gốc

Trang 24

dữ liệu dư thừa và giảm kích thước của dữ liệu đầu vào Sau khi tiền xử lý xong sẽ thu được dạng biểu diễn phù hợp của dữ liệu Nếu kết quả của bước tiền xử lý không chính xác, dẫn đến kết quả của những bước sau sẽ không đúng Đây là bước chung phải có của bất kỳ phương pháp nào

Như ở trong luận văn này, tác giả sử dụng tách theo hai thư viện Không sử dụng loại bỏ từ dừng vì đây là tóm tắt văn bản chung và không quá dài, không sử dụng tóm tắt có loại bỏ từ dừng

Pha xử lý này nhận đầu vào là tập các trang web thuộc tập dữ liệu Các quá trình thực hiện theo bước sau:

- Loại bỏ văn bản có nội dung trùng lặp

- Lọc nhiễu, loại bỏ các thẻ HTML, lấy nội dung chính của văn bản

Văn bản

Sinh văn bản tóm tắt

Tiền xử

Trích rút câu

Trang 25

- Tách từ, tách câu các văn bản có được bằng công cụ JvnTextPro của tác giả Nguyễn Cẩm Tú Tách từ đối với nhãn cụm

b Quá trình trích rút câu quan trọng

Sau bước tiền xử lý, ta sẽ thu được dữ liệu đã cấu trúc Tùy thuộc vào phương pháp tiếp cận mà dữ liệu được cấu trúc hợp lý

Pha này nhận đầu vào là các văn bản và nhãn cụm đã qua tiền xử lý, đầu ra là danh sách các câu, các văn bản đã được sắp xếp theo độ quan trọng về mặt ngữ nghĩa

Việc sắp xếp các văn bản và câu theo độ quan trọng bên cạnh việc loại bỏ sự chồng chéo giữa các văn bản là một bước quan trọng trong mô hình tóm tắt văn bản

Tóm tắt văn bản là bài toán xử lý ngôn ngữ tự nhiên Trong quá trình xử lý thì văn bản phải được biểu diễn, cấu trúc để máy tính có thể hiểu được Quá trình phân tích, xử lý ngôn ngữ tự nhiên có các mức độ sâu xử lý khác nhau như: mức hình thái, mức cú pháp, mức ngôn ngữ Tương tự, bài toán tóm tắt văn bản cũng xử

lý văn bản ở ba mức độ khác nhau như xử lý ngôn ngữ tự nhiên Với mỗi mức độ sẽ

có các đặc trưng khác nhau

Đối với mỗi mức độ, thì sẽ có các phương pháp tiếp cận khác nhau:

tương đồng trên mô hình không gian vecto, áp dụng tính toán trọng số TF*IDF cho các từ, các câu và phương pháp thống kê

Sơ lược về phương pháp thống kê:

- Các phương pháp thống kê đều tập chung vào những đặc trưng về hình thái của văn bản để tính điểm cho các câu và trích rút các câu quan trọng đưa vào tóm tắt

- Ý tưởng: Lặp đi lặp lại các thuật toán logic để tính điểm cho các câu, tương đương với việc các từ có tần suất xuất hiện nhiều nhất trong văn bản sẽ trở thành chủ đề của văn bản đó

Một số tư tưởng của phương pháp này:

- Dựa trên vị trí

- Dựa trên từ ngữ cố định

Trang 26

- Dựa trên tần suất từ

 Mức cú pháp: Sử dụng việc phân tích những cấu trúc ngữ pháp tương ứng giữa các câu trong văn bản

Sơ lược về cấu trúc ngữ pháp

- Tư tưởng chính cho phương pháp này là những đơn vị văn bản (thường là các câu hoặc từ trong văn bản) mà có nhiều liên kết với các đơn vị văn bản khác sẽ

có độ quan trọng lớn Một số phương pháp cấu trúc tiêu biểu như sau:

- Phương pháp sử dụng cấu trúc diễn ngôn: Phương pháp này cho phép biểu diễn mỗi quan hệ diễn ngôn giữa các đoạn văn bản (như quan hệ nhân quả, liệt kê, diễn giải…) Sau khi biểu diễn mối quan hệ diễn ngôn sẽ thu được cây cấu trúc diễn ngôn, dựa trên đó đánh giá được độ quan trọng của các câu, đoạn văn và tiến hành trích rút, tạo ra nội dung tóm tắt cho văn bản

- Phương pháp sử dụng đồ thị: Văn bản đầu vào được biểu diễn dưới dạng đồ thị, trong đó mỗi nút đại diện cho một từ hoặc câu trong văn bản, mỗi cạnh thể hiện

sự liên kết từ ngữ hoặc ngữ nghĩa hoặc sự tương đồng giữa 2 đỉnh của đồ thị Các đỉnh trên đồ thị được xếp hạng dựa trên một giải thuật xếp hạng nào đó Tùy thuộc vào tỷ lệ rút gọn mà các đoạn văn bản tương ứng với các đỉnh có điểm số cao nhất

sẽ được lựa chọn để đưa vào văn bản tóm tắt

- Ngoài ra còn có một số phương pháp khác như: Phương pháp liên kết từ vựng, phương pháp liên kết tham chiếu…

 Mức ngữ nghĩa: Phân tích tên thực thể, mối quan hệ giữa các thực thể, sự kiện nảy sinh thực thể để xác định độ quan trọng của thông tin (Phương pháp học máy)

Sơ lược về phương pháp học máy

 Cách tiếp cận này thực hiện việc tạo văn bản tóm tắt dựa trên các thuật toán học máy Các kỹ thuật học máy điển hình được áp dụng đó là Navie-Bayes, Decision Tree, Hidden Makov Model, Log-Linear, Neural Network, SVM Những nghiên cứu, kỹ thuật, giải thuật của phương pháp này được sử dụng rộng rãi trong tóm tắt văn bản Lợi thế của việc sử dụng học máy cho tóm tắt văn bản là nó cho phép dễ dàng thực hiện các kỹ thuật học máy khác nhau để xác định đâu là tốt nhất

Trang 27

Tuy nhiên, cách tiêp cận này cần có một tập dữ liệu huấn luyện lớn để thu được kết quả Điều này là một khó khăn khi sử dụng chúng cho việc tóm tắt văn bản tiếng Việt, khi chúng ta chưa có được một tập dữ liệu lớn

c Quá trình sinh văn bản tóm tắt

Quá trình thực hiện việc tổng hơp thông tin từ các câu rút gọn ở bước trước

để sinh ra văn bản tóm tắt Đối với tóm tắt văn bản trích rút thì ở quá trình này sẽ chọn ra những câu được coi là quan trọng theo một phương pháp nào đó và dựa vào

tỷ lệ nén để đưa ra văn bản tóm tắt

Trong pha sinh văn bản tóm tắt, các câu sắp xếp đã được sắp xếp ở pha trên

sẽ được sắp xếp lại Trọng số độ quan trọng của câu sẽ được bổ sung thêm trọng số của văn bản chứa câu đấy, việc này sẽ giúp văn bản tóm tắt không có sự chồng chéo

về mặt nội dung Độ quan trọng câu được tính theogiá trị TextRank Các câu sau khi được trích ra sẽ được sắp xếp vào một văn bản theo độ ưu tiên:

- Ưu tiên văn bản có độ đo TextRank cao hơn sẽ xếp lên đầu văn bản

- Ưu tiên theo thứ tự câu từ trên xuống dưới trong cùng một văn bản

1.2.5 Đánh giá văn bản tóm tắt

Trong quá trình tóm tắt văn bản, đánh giá chất lượng của văn bản tóm tắt là một bước quan trọng Đây là nhiệm vụ khó khăn bởi không dễ đưa ra tiêu chuẩn duy nhất về đánh giá đối với một văn bản hoặc một tập văn bản đã cho Hệ thống tóm tắt tự động thường cho kết quả không sát văn bản gốc Khi đánh giá chất lượng tóm tắt phải dựa trên độ đo khác nhau Thiếu các tiêu chuẩn đánh giá hoặc độ đo đánh giá tự động dẫn tới khó khăn khi so sánh các hệ thống khác

Bên cạnh đó, đánh giá thủ công có chi phí cao Năm 2014, Lin đã sử dụng phương pháp đánh giá thủ công cần tới hơn 3000 giờ của chuyên gia con người để

có được kết quả báo cáo trong hội thảo DUC (Document Understanding Conference) Độ đo đánh giá muốn có chất lượng phải tương hợp với cách đánh giá thủ công của con người

Như trên đã nêu, hai yếu tố chính trong văn bản tóm tắt là tỉ lệ nén và tỉ lệ thông tin (mục 1.2) Do vậy, việc xây dựng các độ đo để đánh giá kết quả tóm tắt cho một văn bản được dựa trên hai yếu tố này

Trang 28

a Độ đo Recall - độ đo precision

Phần lớn các hệ thống tóm tắt sử dụng cách tiếp cận tóm tắt dựa trên trích rút câu Các câu được trích rút kết nối với nhau, tạo nên văn bản tóm tắt, không cần hiệu chỉnh thêm Trong trường hợp này, người ta sử dụng độ đo triệu hồi và độ đo chính xác để đánh giá chất lượng bản tóm tắt

với số các câu mà con người trích rút trên số các câu chỉ được lựa chọn bởi con người:

Recal SCHO

SCH

 (1.3)

Trong đó:

- SCHO: Số lượng câu được cả hệ thống và con người trích rút

- SCH: Số lượng câu được con người trích rút

 Độ đo Precision: là tỷ số giữa số lượng các câu được cả hệ thống và con người trích rút trên số các câu được hệ thống trích rút

SCHO Precisi

Trang 29

Hiện tại, việc đánh giá kết quả văn bản tóm tắt tự động là việc làm

khó khăn Cách đánh giá tốt nhất là sử dụng ý kiến đánh giá của các chuyên gia

ngôn ngữ Nhưng đây là một phương pháp tốn kém

Vì vậy, ngoài các phương pháp đánh giá thủ công, vấn đề đánh giá tự

động kết quả tóm tắt cũng nhận được nhiều sự chú ý Từ năm 2000, NIST tổ

chức hội nghị DUC (Document Understanding Conference) hàng năm để thực

hiện việc đánh giá các hệ thống tóm tắt văn bản Việc đánh giá tự động nhằm mục

đích là tìm ra được một độ đo đánh giá văn bản tóm tắt giống với đánh giá của con

người nhất

c Phương pháp đánh giá ROUGE

Các phương pháp đánh giá tóm tắt truyền thống thường gắn liền với đánh giá

thủ công do chuyên gia con người thực hiện thông qua một số độ đo khác nhau,

chẳng hạn: mức độ súc tích, mực độ liền mạch, ngữ pháp, mức độ dễ đọc và nội

dung Tuy nhiên, phương pháp đánh giá kết quả tóm tắt thủ công được báo cáo tại

hội thảo DUC 2003 đòi hỏi hơn 3000 giờ, chi phí này quá cao Vì thế, đánh giá tóm

tắt tự động là một yêu cầu cấp thiết

Lin và Hovy đề xuất một phương pháp đánh giá mới gọi là ROUGE

(Recall-Oriented understudy for Gristing Evaluation) [9]

Hiện nay phương pháp đo này được sử dụng như một phương pháp chuẩn

đánh giá kết quả tóm tắt tự động cho văn bản tiếng Anh

ROUGE sử dụng n-gram để đánh giá sự tương quan giữa các kết quả của văn

bản tóm tắt và tập dữ liệu đánh giá Phương pháp này cho ra kết quả tốt và được

đánh giá cao trong cộng đồng các nhà khoa học trong cùng lĩnh vực

Công thức đánh giá ROUGE với n-gram được xác định như sau:

Trang 30

o n: Biểu thị cho chiều dài của n-gram đang xét

o gram ncount match(gram n) là chuỗi số n-gram lớn nhất xuất hiện trong văn bản tóm tắt ứng viên và tập các văn bản tóm tắt tham khảo

o Count(gram n ): Số gram n có trong văn bản tham chiếu

Như vậy, độ đo ROUGE-N thuộc dạng độ đo triệu hồi (Recall-related)

1.2.6 Một số đặc trưng và khó khăn trong tóm tắt văn bản tiếng việt

1.2.6.1 Một số đặc trưng của tiếng việt

Các đặc điểm của ngôn ngữ Tiếng Việt như sau:

- Về mặt ngữ âm, đơn vị trong Tiếng Việt là “tiếng” hoặc “chữ” tùy theo ngữ

âm hoặc văn tự “tiếng” ở đây khi được phát âm là một âm tiết

- Đơn vị để cấu tạo từ là “hình vị” Đối với Tiếng Việt, “hình vị” chính là

“tiếng” Về ngữ pháp, “tiếng” cũng được xem là đơn vị cơ sở của ngữ pháp học

- Từ trong Tiếng Việt không biết đổi hình thái trong khi sử dụng

Ví dụ: “Tôi yêu cô ấy” và “Cô ấy yêu tôi” là hai câu trong Tiếng Việt Các từ

“tôi” và “cô ấy” dù đứng ở vị trí chủ ngữ hay bổ ngữ đều không biến đổi hình thái Ngay cả động từ “yêu” cũng không biến đổi hình thái theo ngôi hoặc theo số ít hoặc

số nhiều của chủ ngữ

- Cách sắp xếp các từ theo trật tự nhất định dùng để biểu thị quan hệ cú pháp Khi trật tự từ thay đổi thì bản chất ngữ pháp cũng thay đổi

Nhà thơ Phan Thị Thanh Nhàn có viết:

“Người tôi yêu đã đi xa Người yêu tôi lại ở nhà chán không!”

Từ “tôi” và “yêu” đã đổi vị trí của nhau trong hai câu làm cho ý nghĩa hoàn toàn thay đổi

Từ trong Tiếng Việt về mặt cấu tạo bao gồm từ đơn âm tiết và từ đa âm tiết

Từ đa âm tiết được hình thành từ việc ghép các đơn âm tiết với nhau

Ví dụ: xe + máy xe máy, trường + học trường học, …

Trang 31

 Chữ viết của Tiếng Việt là chữ ghi âm vị: Chữ ghi âm vị là chữ gồm các con chữ ghi từng đơn vị ngữ âm nhỏ nhất, nghĩa là mỗi kí hiệu biểu thị một âm vị

Ví dụ: cùng âm tiết “gấu” nhưng trong từ “gấu áo” và “con gấu” lại biểu thị hai nghĩa hoàn toàn khác nhau

 Tiếng Việt không có dấu hiệu về hình thái để nhận biết từ loại

Ví dụ: “Tôi lấy cân để cân gạo” Từ “cân” trong hai vị trí là hai từ loại khác nhau Từ “cân” đầu tiên là danh từ, từ “cân” tiếp theo lại là động từ

Ví dụ: bàng quan và bàng quang; cao tần và cao tầng; bàn bạc và bàng bạc; …

 Hiện tượng gần nghĩa, đồng nghĩa giữa các từ nhưng lại không thể thay thếcho nhau trong từng hoàn cảnh sử dụng cũng xảy ra phổ biến

Ví dụ:

- Đề bạt, đề cử, đề đạt, đề xuất, đề nghị;

- Chủ tịch, chủ trì, chủ toạ, chủ nhiệm;

- Hội đàm, hội nghị, hội thảo, toạ đàm;

1.2.6.2 Một số khó khăn trong tóm tắt văn bản tiếng việt

Tiếng Việt là một ngôn ngữ có ngữ pháp đa dạng và uyển chuyển Trong sử dụng tiếng Việt có rất nhiều cách để diễn đạt thông tin mà để dự đoán được hết các trường hợp gần như là không thể, mặc dù với bản thân chúng ta thì hiểu một cách diễn đạt mới lại không phải là quá khó khăn Chính sự phong phú của cách diễn đạt, văn phong trong tiếng Việt tạo nên những khó khăn không nhỏ cho việc tóm tắt văn bản tự động Ngoài ra trong khi thực hiện tóm tắt tự động các tài liệu trực tuyến còn gặp một số vấn đề khó khăn phát sinh khác, điển hình như một số vấn đề dễ thấy sau đây:

- Viết sai chính tả: Lỗi này thường gặp khá nhiều và thường xuyên Gây khó

khăn rất lớn, vì thế có thể bị từ viết sai và bị hiểu thành từ khác, hoặc chưa từng được biết đến Điều này dẫn tới việc xử lý sai lệch, kém chính xác

- Viết không đúng ngữ pháp: Rất nhiều đoạn văn bản viết có dấu câu, dùng

sai dấu câu sai mục đích, hoặc viết hoa thường không đúng quy ước

Trang 32

- Sử dụng từ lóng, từ viết tắt, tiếng nước ngoài: Hiện nay này càng xuất hiện

nhiều đoạn văn bản thêm hoặc thay thế những từ thuần việt bằng từ nước ngoài gây không ít khó khăn trong việc phân tích những văn bản dạng này Gây nhầm lẫn lớn trong các hệ thống sự dụng luật, thậm chí là các hệ thống sử dụng học máy vì những

từ vựng trên chưa từng xuất hiện trong tập học trước đó

Văn bản không dấu: Với bài toán tóm tắt văn bản tự động, nhìn chung dạng văn bản này ít gặp nhưng không phải là không tồn tại

Tóm lại, đối với các phương pháp tóm tắt văn bản không chỉ của tiếng Việt mà hầu hết các ngôn ngữ khác đều yêu cầu văn bản đầu vào chính thống Tức là phải là ngôn ngữ chuẩn, với tiếng Việt thì văn bản đó phải là tiếng Việt có dấu, đúng chính tả và ngữ pháp Bằng cách này ta có thể loại bỏ các khó khăn gây ra bởi sự sai sót của dữ liệu đầu vào

Hiện trạng nghiên cứu: Đối với các nghiên cứu về tóm tắt tự động văn bản tiếng Việt có một số công trình nghiên cứu được công bố như: Nguyễn Lê Minh tóm tắt băn bản tiếng Việt bằng phương pháp phân cụm SVM (Support Vecto Machine); Đỗ Phúc và cộng sự nghiên cứu đề tài trích rút nội dung chính của khối thông điệp trên diễn đàn thảo luận bằng phương pháp gom cụm đồ thị; Nguyễn Trọng Phúc và công sự trình bày tóm tắt văn bản tiếng Việt dựa trên cấu trúc diễn ngôn; Lê Thanh Hương và cộng sự nghiên cứu một số phương pháp tóm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt dựa theo phương pháp đồ thị; Trần Mai Vũ nghiên cứu tóm tắt đa văn bản

1.3 Phát biểu bài toán đơn văn bản tiếng Việt

Trong luận văn này, đề xuất một phương pháp tóm tắt đối với văn bản Tiếng Việt Bài toán tác giả muốn nghiên cứu là tót tắt đơn văn bản bằng cách trích xuất câu theo giải thuật xếp hạng dựa trên đồ thị TextRank Là sự kết hợp giữa giải thuật PageRank của Google (Brin và Page, 1998) và đồ thị vô hướng có trọng số biểu diễn cho văn bản đầu vào Chúng ta xây dựng một đồ thị trọng số

vô hướng biểu diễn cho văn bản đầu vào tỷ lệ nén câu (độ dài của văn bản không quá một ngưỡng k từ cho trước), với mỗi đỉnh của đồ thị tương ứng với một câu của văn bản đầu vào, mỗi cạnh là liên kết giữa các cặp đỉnh trong đồ thị tương

Trang 33

ứng với các cặp câu trong văn bản Công việc ta cần thực hiện là tính toán được

số điểm hay xếp hạng của các đỉnh trong đồ thị tương ứng với các câu trong văn bản Từ đó sẽ chọn ra tốp các câu có điểm cao nhất là những câu quan trọng trong văn bản đầu vào để đưa vào tóm tắt, kết quả sẽ là nội dung tóm tắt của văn bản hoặc bài báo đó được hiển thị trực tiếp trên giao diện desktop

1.4 Kết luận chương 1

Chương này, luận văn trình bày một cách tổng quát nhất về bài toán tóm tắt văn bản Nhìn chung, thì tóm tắt văn bản là biểu diễn ngắn gọn nội dung của văn bản đó nhưng vẫn giữ được nội dung chính của văn bản gốc Có nhiều cách để phân loại bài toán tóm tắt văn bản, tuy nhiên có hướng tiếp cận chính là tóm tắt trích rút

và tóm tắt tóm lược

Trong chương tiếp theo, luận văn xin trình bày một hướng tiếp cận trong bài toán tóm tắt văn bản theo hướng trích rút đó là phương pháp TextRank Đây là một phương pháp dựa trên việc xây dựng mô hình đồ thị câu của văn bản

Trang 34

CHƯƠNG 2 TÓM TẮT ĐƠN VĂN BẢN THEO TEXTRANK

Các thuật toán xếp hạng dựa trên đồ thị đã được đưa ra và sử dụng rộng rãi trong những năm trong thế kỷ XX Trong số đó có thuật toán HITS của Kleinberg

và Page rank của Google do hai nhà đồng sáng lập phát triển (Brin và Page) Chúng được sử dụng trong việc phân tích mạng xã hội, cấu trúc liên kết của các trang web,

… Thực tế thì thuật toán xếp hạng dựa trên đồ thị xác định đỉnh nào là quan trọng trong đồ thị bằng cách tính toán đệ quy các thông tin trên toàn đồ thị thay vì chỉ

sử dụng thông tin trên từng đỉnh Quá trình này làm cho việc xác định mức độ quan trọng chính xác hơn

Từ cách tiếp cận trên, ta có thể áp dụng sang các đồ thị từ vựng và đồ thị ngữ nghĩa trích xuất được từ các tài liệu trong ngôn ngữ tự nhiên Kết quả của việc sử dụng mô hình xếp hạng dựa trên đồ thị có thể ứng dụng trong nhiều chương trình

xử lý ngôn ngữ tự nhiên Ví dụ như mô hình xếp hạng hướng văn bản được ứng dụng trong các vấn đề như tự động trích xuất từ khoá đến tóm tắt văn bản và xác định từ nhập nhằng ý nghĩa (Mihalcea et al., 2004)

Trong chương này ta sẽ tìm hiểu mô hình TextRank, các thuật toán và ứng dụng của nó trong việc trích xuất từ khoá và xếp hạng các câu trong một văn bản Đây là tiền đề cho tóm tắt văn bản tiếng Việt tự động sử dụng phương pháp TextRank

2.1 Thuật toán xếp hạng đồ thị

Trên thế giới có nhiều nghiên cứu về thuật toán xếp hạng dựa trên đồ thị, tiêu biểu phải kể đến như: Thuật toán PageRank nổi tiếng của Google dùng để xếp hạng các trang web Về cơ bản, thuật toán này sẽ quyết định tầm quan trọng của một đỉnh trong đồ thị dựa vào cạnh và trọng số của đỉnh có cạnh liên kết tới nó

2.1.1 PageRank

Ý tưởng cơ bản của thuật toán PageRank là phân tích liên kết (link) để xếp hạng trang web được Lary Page và cộng sự phát triển tại đại học Stanford-Mỹ và được sử dụng cho máy tính tìm kiếm Google

Trang 35

Hình 2.1: Mô hình PageRank

cũng ảnh hưởng đến độ quan trọng của trang B

Hình 2.2: Ý tưởng PageRank

Page rank Web graph

Trang 36

Xây dựng mô hình bài toán:

V= {V i: V i đại diện cho 1 trang web, i=1 n}

E={ (i,j): có liên kết từ i tới j; i,j=1 n }

Hình 2.3: Mô tả khái quát ý tưởng PageRank

 Thuật toán:

- Đầu vào: đồ thị web, các trang web đã có PageRank mặc định

- Đầu ra: các trang web đã được xếp hạng PageRank thực

Gọi G là đồ thị các trang web Đặt G = (V, E) với V = {1,2……n} là tập n đỉnh của đồ thị G (mỗi đỉnh là một trang web cần tính hạng trang) còn E là tập các cạnh, E = {(i,j)| Nếu có liên kết từ trang i tới trang j} Giả thiết rằng đồ thị trang web là liên thông, nghĩa là từ một trạng thái bất kì có thể có đường liên kết tới một trang web khác trong đồ thị đó

Cho một trang web G như trên, mỗi trang web , ký hiệu N(i) là số liên kết đi

ra từ trang web thứ i và B (i) là số các trang web có liên kết tới trang

Giá trị PageRank của trang PR(i) của trang web i được định nghĩa:

Trang 37

( )

( )( )

có liên kết ra Các trang web như vậy được gọi là trang web treo Vậy nên Page và cộng sự đề xuất xử lý vấn đề này bằng cách thêm một phần phân bố xác suất d (d thuộc khoảng [0,1] ) thể hiện khả năng khi một người truy cập vào trang web và tiếp tục kích chuột vào trang web bất kỳ nào mà trang này có liên kết Quan sát thực nghiệm cho thấy rằng giá trị d > = 0.85

Công thức tính giá trị PageRank của một đỉnh trong đồ thị liên kết các trang web như sau:

( )

1 ( ) (1 ) ( )

o PR V( )i : Giá trị PageRank của đỉnh V i

o Out V( j): Tập các đỉnh mà V i đi tới

o In(Vi): Tập các đỉnh mà liên kết tới V i

web và tiếp tục click chuột vào trang web bất kỳ nào mà trang này có liên kết Quan sát thực nghiệm cho thấy rằng d >= 0.85

2.1.2 HITS

HITS (Hyperlinked Induced Topic Search) không như phương pháp PageRank chỉ tính một giá trị xếp hạng đơn cho mỗi trang web, phương pháp này tính toán hai chỉ số khác nhau cho mỗi trang web, đó là chỉ số “authority” và chỉ số

“hub” ” Những trang “authority” là những câu dường như phù hợp nhất với mỗi câu truy vấn nào đó

Ví dụ trang chủ của google chính là trang authority của câu truy vấn Google Trang “hub” là những trang không cần có đặc tính “Authority” nhưng lại trỏ đến nhiều trang có đặc tính “Authority”

Trang 38

Trang “Hub” có ý nghĩa khá quan trọng vì nó có những thông tin có thể sử dụng trong việc tìm kiếm những thông tin hữu ích, thứ hai bởi vì nó đƣợc sử dụng thuật toán HIST để tính toán “authority”

Thật vậy trang “hub” mang ý nghĩa trỏ tới nhiều trang “Authority” nên nếu một trang “Authority” tốt có thể đƣợc coi là trang có nhiều “hub” chỉ tới

Không giống nhƣ PageRank- một thuật toán xếp hạng tĩnh, HITS phụ thuộc vào truy vấn tìm kiếm

Hình 2.4: Trang Authority

 Hub Page: là những trang không cần đặc tính “authority” nhƣng lại trỏ tới nhiều trang có đặc tính “Authority”

Hình 2.5: Trang Hub

Trang 39

Hình 2.6: Mô hình trang Authority và trang Hub

 Trang Hub tốt là trang có càng nhiều liên kết đƣợc tạo ra

 Trang Authority tốt là trang có nhiều liên kết tới

 Trang trỏ tới trang Authority cao thì trọng số hub càng cao, trang nào có nhiều trang có hub cao trỏ tới thì trọng số Authority càng cao

Hình 2.7: Mô hình trang Authority tốt và trang Hub tốt

Thuật toán này dựa trên việc lựa chọn một nhóm nhỏ các trang web và kết hợp chúng thành một đồ thị các trang web Sau đó phân tích các liên kết trong đồ thị con đó để xác định trang nào là trang “Authority” , trang nào là trang “Hub” đối với các truy vấn đƣa vào

Ngày đăng: 03/09/2018, 16:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Diệp Quang Ban (chủ biên), Hoàng Văn Thung (1996), “Ngữ pháp tiếng Việt T1 - T2”, NXB Giáo dục, Hà Nội Sách, tạp chí
Tiêu đề: “Ngữ pháp tiếng Việt T1 - T2”
Tác giả: Diệp Quang Ban (chủ biên), Hoàng Văn Thung
Nhà XB: NXB Giáo dục
Năm: 1996
[2] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến (1997), “Cơ sở ngôn ngữ học và tiếng Việt”, NXB Giáo dục Sách, tạp chí
Tiêu đề: “Cơ sở ngôn ngữ học và tiếng Việt”
Tác giả: Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến
Nhà XB: NXB Giáo dục
Năm: 1997
[10] Chin-Yew Lin and Eduard Hovy (1997), Identifying topics by position, Fifth Conference on Applied Natural Language Processing: 283–290, 1997 Sách, tạp chí
Tiêu đề: Identifying topics by position
Tác giả: Chin-Yew Lin and Eduard Hovy
Năm: 1997
[13] H. Edmundson (1969), New methods in automatic abstracting, Journal of ACM, 16 (2):264-285, 1969 Sách, tạp chí
Tiêu đề: New methods in automatic abstracting
Tác giả: H. Edmundson
Năm: 1969
[14] Inderjeet Mani and Mark T. Maybury (eds) (1999), Advances in AutomaticText Summarization, MIT Press, 1999, ISBN 0-262-13359-8 Sách, tạp chí
Tiêu đề: Advances in AutomaticText Summarization
Tác giả: Inderjeet Mani and Mark T. Maybury (eds)
Năm: 1999
[15] Jan O. Pendersen, Kupiec Julian and Francine Chen (1995),A trainable document summarizer, Research and Development in Information Retrieval: 68–73, 1995 Sách, tạp chí
Tiêu đề: A trainable document summarizer
Tác giả: Jan O. Pendersen, Kupiec Julian and Francine Chen
Năm: 1995
[16] J.Kleinberg (1999), “Authoritative sources in a hyperlinked environment” Sách, tạp chí
Tiêu đề: Authoritative sources in a hyperlinked environment
Tác giả: J.Kleinberg
Năm: 1999
[17] Kathleen R. McKeown and Dragomir R. Radev (1995),Generating summaries of multiple news articles, ACM Conference on Research andDevelopment in Information Retrieval (SIGIR’95): 74–82, Seattle, Washington, July Sách, tạp chí
Tiêu đề: Generating summaries of multiple news articles
Tác giả: Kathleen R. McKeown and Dragomir R. Radev
Năm: 1995
[18] Lin and Hony (2014), “Rouge: A Package for Automatic Evaluation of summaries” Sách, tạp chí
Tiêu đề: Rouge: A Package for Automatic Evaluation of summaries
Tác giả: Lin and Hony
Năm: 2014
[19] Luhn (1958), “The automatic creation of literature abstract” Sách, tạp chí
Tiêu đề: “The automatic creation of literature abstract
Tác giả: Luhn
Năm: 1958
[20] Lin and Hovy (1998), “Automated text summarization and the SUMMARIST” Sách, tạp chí
Tiêu đề: Automated text summarization and the SUMMARIST
Tác giả: Lin and Hovy
Năm: 1998
[22] R.Mihalcea and P.Tarau (2004), TextRank: Bringing order into Texts Sách, tạp chí
Tiêu đề: TextRank
Tác giả: R.Mihalcea and P.Tarau
Năm: 2004
[23] R.Mihalcea (2004), “Graph-based Ranking Algorithms for sentence Extraction Applied to Text Summarization” Sách, tạp chí
Tiêu đề: Graph-based Ranking Algorithms for sentence Extraction Applied to Text Summarization
Tác giả: R.Mihalcea
Năm: 2004
[24] Regina Barzilay and Michael Elhadad. Using Lexical Chains for Text Summarization, In Advances in Automatic Text Summarization (Inderjeet Mani and Mark T. Maybury, editors): 111–121, The MIT Press, 1999 Sách, tạp chí
Tiêu đề: Using Lexical Chains for Text Summarization
[24] S.Brin and L.Page (1998), “The Anatomy of a large-scale Hypertextual web search engine” Sách, tạp chí
Tiêu đề: The Anatomy of a large-scale Hypertextual web search engine
Tác giả: S.Brin and L.Page
Năm: 1998
[11] Chin-Yew Lin and Eduard Hovy (2003), Automatic evaluation of Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w