LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc

Vì vậy, chúng tôi chọn đề tài: “Nghiên cứu các phương pháp xử lý tiếng Việt ứng dụng cho tóm tắt văn bản” nhằm nghiên cứu những vấn đề tổng quan về xử lý ngôn ngữ tự nhiên và một số ph

Trang 1

LÊ QUÝ TÀI

NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT

ỨNG DỤNG CHO TÓM TẮT VĂN BẢN

LUẬN VĂN THẠC SĨ

Hà Nội - 2011

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ QUÝ TÀI

NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tôi Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất

cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp

Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình

Hà Nội, tháng 6 năm 2011

TÁC GIẢ LUẬN VĂN

Lê Quý Tài

Trang 4

LỜI CẢM ƠN

Trước hết tôi xin xin gửi lời cảm ơn đặc biệt tới TS Phạm Bảo Sơn, người đã định hướng đề tài và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện luận văn cao học này

Tôi xin chân thành cảm ơn các thầy cô trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, những kinh nghiệm quý báu trong suốt khóa học cao học

Cuối cùng, tôi xin dành một tình cảm biết ơn tới gia đình và những người thân

đã luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong suốt thời gian học cao học cũng như quá trình thực hiện luận văn cao học

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii

MỞ ĐẦU 1

Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 3

1.1 Tổng quan 3

1.1.1 Khái niệm 3

1.1.2 Lịch sử phát triển của tóm tắt văn bản 3

1.1.3 Phân loại các phương pháp tóm tắt văn bản 4

1.2 Mô hình tóm tắt văn bản 6

1.2.1 Các phương pháp áp dụng trong pha phân tích 7

1.2.2 Các phương pháp áp dụng trong pha biến đổi 8

1.2.3 Các phương pháp trong pha tổng hợp kết quả 9

1.3 Các phương pháp đánh giá 9

1.3.1 Các phương pháp đánh giá trong 10

1.3.2 Các phương pháp đánh giá ngoài 11

Chương 2 BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT 12

2.1 Một số hướng tiếp cận bài toán tóm tắt văn bản 12

2.2 Đặc điểm tiếng Việt 13

2.2.1 Đặc điểm chung 13

2.2.2 Yếu tố ngoại lai trong từ tiếng Việt 14

2.2.3 Từ đồng nghĩa 14

2.2.4 Đặc điểm chính tả 15

2.2.5 Bảng mã tiếng Việt trên máy tính 16

2.3 Phương pháp cho bài toán tóm tắt văn bản tiếng Việt 17

Trang 6

Chương 3 ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN

TIẾNG VIỆT 20

3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc 20

3.2 Tiền xử lý văn bản 21

3.3 Xử lý từ 22

3.4 Xây dựng đồ thị liên kết 24

3.5 Sinh văn bản tóm tắt 28

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 33

4.1 Môi trường thử nghiệm 33

4.2 Dữ liệu thử nghiệm 33

4.3 Phương pháp đánh giá 33

4.4 Kết quả thực nghiệm 36

4.4.1 Thử nghiệm xác định ngưỡng 36

4.4.2 Kết quả thử nghiệm đối với từng phiên bản 37

KẾT LUẬN 42

TÀI LIỆU THAM KHẢO 44

PHỤ LỤC 46

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Tần số tài liệu ngược

Tìm kiếm thông tin

Tần số từ

Trang 8

DANH MỤC CÁC BẢNG

Bảng 1 Bậc của các nút sắp theo thứ tự giảm dần của văn bản Text(1).txt 29

Bảng 2 Đánh giá sự liên quan của văn bản tóm tắt và văn bản GS 34

Bảng 3 Kết quả thử nghiệm với các ngưỡng khác nhau 36

Bảng 4 Chất lượng của văn bản tóm tắt bởi Microsoft Word 37

Bảng 5 Kết quả thử nghiệm với phiên bản 1 38

Bảng 8 So sánh kết quả các phiên bản và MS Word 39

Bảng 9 So sánh các văn bản tóm tắt được thực hiện bởi 2 người 40

Trang 9

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1 Kiến trúc của hệ thống tóm tắt văn bản tự động 6

Hình 2 Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2) 19

Hình 3 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc 20

Hình 4 Đồ thị liên kết của văn bản Text(1).txt 27

Hình 5 Bản tóm tắt của Text(1).txt thực hiện bởi con người, tỉ lệ nén 10% 35

Hình 6 Đồ thị kết quả tóm tắt với các ngưỡng 36

Hình 7 So sánh kết quả tóm tắt của các phiên bản và MS Word 40

Trang 10

MỞ ĐẦU

Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet cũng như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được tạo ra Ta có thể truy cập các thông tin đó qua sách, báo, Internet và các phương tiện truyền thông Hơn nữa, nhu cầu đọc, tìm kiếm và lưu trữ thông tin của con người cũng ngày càng tăng lên Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta không thể nào có

đủ thời gian và sức lực để đọc hết được chúng Giải pháp là tóm tắt lại các văn bản

đó, từ đó giúp tiết kiệm thời gian và công sức nhưng vẫn có thể đọc và xử lý được nhiều văn bản

Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm 50 của thế

kỉ trước Đã có nhiều công trình nghiên cứu về lĩnh vực này và có được những kết quả đáng kể Tóm tắt văn bản đã được sử dụng trong các phần mềm xử lý văn bản (Microsoft Office Word…), trong khai phá cơ sở dữ liệu văn bản (Oracle…), trong các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm Google, Yahoo…)

và đều thu được những kết quả rất đáng khích lệ

Tuy nhiên, đối với Tiếng Việt, do sự phức tạp của ngôn ngữ nên hiện chưa có nhiều công trình nghiên cứu về tóm tắt văn bản và kết quả của các công trình nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế so với các ngôn ngữ khác mà đặc biệt

là so với tiếng Anh

Vì vậy, chúng tôi chọn đề tài: “Nghiên cứu các phương pháp xử lý tiếng Việt

ứng dụng cho tóm tắt văn bản” nhằm nghiên cứu những vấn đề tổng quan về xử lý

ngôn ngữ tự nhiên và một số phương pháp tóm tắt văn bản tiên tiến đã được ứng dụng và thu được kết quả khả quan đối với tiếng Anh; đồng thời nghiên cứu những đặc điểm của tiếng Việt nhằm cải tiến và ứng dụng những phương pháp đó để có thể xây dựng ứng dụng tóm tắt văn bản tiếng Việt

Nội dung của luận văn được chia làm 4 chương:

Chương 1 Tổng quan về tóm tắt văn bản

Chương này trình bày những vấn đề tổng quan về bài toán tóm tắt văn bản, một số hướng tiếp cận hiện đại và các phương pháp đánh giá kết quả của văn bản tóm tắt

Chương 2 Bài toán tóm tắt văn bản tiếng Việt

Chương này trình bày về bài toán tóm tắt văn bản tiếng Việt và một số khó khăn gặp phải do các đặc điểm của tiếng Việt (ngữ âm, ngữ pháp, chính tả…), và một số vấn đề về tiếng Việt trên máy tính (bảng mã, font chữ…), từ đó lựa chọn phương pháp phù hợp cho bài toán tóm tắt văn bản

Trang 11

Chương 3 Ứng dụng phương pháp cấu trúc để tóm tắt văn bản tiếng Việt

Chương này trình bày về việc sử dụng phương pháp sử dụng cấu trúc văn bản kết hợp với từ điển từ dừng và từ điển đồng nghĩa để xây dựng chương trình tóm tắt văn bản tiếng Việt

Chương 4 Thực nghiệm và đánh giá

Chương này trình bày về phương pháp được sử dụng để đánh giá hệ thống tóm tắt và các kết quả thực nghiệm

Trang 12

Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN

1.1 Tổng quan

1.1.1 Khái niệm

Tóm tắt văn bản là một lĩnh vực của xử lý ngôn ngữ tự nhiên, đã được bắt đầu nghiên cứu từ những năm 50 của thế kỉ trước Có nhiều định nghĩa về tóm tắt văn bản:

[19] định nghĩa tóm tắt văn bản là quá trình rút trích ra các thông tin quan trọng từ một hoặc nhiều văn bản để tạo ra văn bản ngắn gọn cho mỗi hoặc nhóm người dùng, cho từng tác vụ hay nhiều tác vụ khác nhau

[21] định nghĩa hệ thống tóm tắt văn bản là hệ thống đưa ra dạng biểu diễn ngắn gọn của thông tin đầu vào căn cứ theo yêu cầu của người dùng

Radev (2002) [22] định nghĩa văn bản tóm tắt là văn bản được tạo từ một hoặc nhiều văn bản khác mà truyền tải được những thông tin quan trọng trong văn bản gốc nhưng có độ dài không quá ½ văn bản gốc (thường ngắn hơn đáng kể)

Theo Partha Lal (2002) [16] thì tóm tắt văn bản là việc thể hiện nội dung văn bản dưới dạng giản lược một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía người dùng

Đỗ Phúc, Hoàng Kiếm (2006) [5] định nghĩa tóm tắt văn bản tự động là việc tìm các ý chính của văn bản

Tựu chung lại, có ba đặc điểm quan trọng cần phải xem xét trong hệ thống tóm tắt văn bản:

1) Bản tóm tắt có thể được tạo ra từ một hoặc nhiều văn bản

2) Bản tóm tắt cần truyền tải các thông tin quan trọng

3) Bản tóm tắt cần phải ngắn

1.1.2 Lịch sử phát triển của tóm tắt văn bản

Tóm tắt văn bản bắt đầu từ những năm cuối thập kỉ 1950 với nghiên cứu của Luhn (1958) [17] dựa trên tần số từ Ý tưởng cơ bản của phương pháp tần số từ dựa trên kiến thức cho rằng tần số của từng từ trong văn bản là một độ đo hữu dụng để đánh giá tầm quan trọng của chúng

Tiếp theo đó là phương pháp tóm tắt dựa trên vị trí của các câu trong văn bản của Baxendale (1958), và những nghiên cứu của Edmundson (1969) [14] về vị trí của các câu trong văn bản và các từ/cụm từ mang ý nghĩa tổng quát (từ/cụm từ dấu hiệu) Theo đó, những câu bắt đầu và kết thúc của đoạn văn/bài viết hay những câu

Trang 13

chứa những từ như “important” (đặc biệt), “result are” (kết quả là), “paper introduce” (bài báo giới thiệu về)… là những câu có ý nghĩa quan trọng

Đầu những năm 1970, tiếp tục có những nghiên cứu với hướng tiếp cận ngoài (sử dụng các cụm từ dấu hiệu) và được ứng dụng trong các phần mềm thương mại (Pollock và Zamora)

Những năm 1980, phát triển nhiều nghiên cứu với nhiều hướng khác nhau, đặc biệt là hướng tiếp cận mức thực thể dựa trên trí tuệ nhân tạo như sử dụng script (Lehnert 1981), (DeJong 1982), các luật sản xuất và logic (Fum 1985), mạng ngữ nghĩa (Reimer và Hahn 1988), cũng như các hướng tiếp cận kết hợp (Rau 1989) hay (Aretoulaki 1994)

Willam B Cavnar (1994): biểu diễn văn bản dựa trên n-gram thay cho cách biểu diễn truyền thống bằng từ khoá

Chinatsu Anoe (1997) đã phát triển hệ DimSum để tóm tắt văn bản sử dụng xử

lý ngôn ngữ tự nhiên và kĩ thuật thống kê dựa trên hệ thống tf-idf, sử dụng WordNet

để xem xét ngữ nghĩa của từ và đề xuất một số kĩ thuật lượng giá

Jaine Carbonell (1998) đã tóm tắt văn bản bằng cách xếp hạng các câu trội (câu chứa các ý chính của văn bản) và rút ra các câu trội

Jade Goldstein (1999): phân loại tóm tắt dựa trên độ đo liên quan, phương pháp sử dụng kết hợp giữa ngữ học, thống kê Mỗi câu được đặc trưng bằng các đặc tính ngữ học và độ đo thống kê

J.Larocca Neto (2000) đã tạo tóm tắt văn bản dựa trên các dãy từ trong câu được chọn theo hệ số tf, sau đó dùng kỹ thuật gom cụm (clustering) để tạo tóm tắt Yoshio (2001) đã tạo tóm tắt văn bản tiếng Nhật Có 2 phương pháp là rút câu dựa trên từ khoá và rút câu dựa trên kiến trúc ngữ nghĩa trong đó có xây dựng độ đo mối liên kết giữa hai từ

Hiện nay, một số nghiên cứu về xử lý ngôn ngữ tự nhiên cũng bước đầu được

áp dụng trong tóm tắt văn bản Mặt khác, các nghiên cứu về tóm tắt đa văn bản, đa ngôn ngữ và tóm tắt đa phương tiện cũng bắt đầu phát triển

1.1.3 Phân loại các phương pháp tóm tắt văn bản

Có nhiều tiêu chí để phân loại các phương pháp tóm tắt văn bản, sau đây là một số cách phân loại tiêu biểu [15]:

Căn cứ vào dạng tóm tắt, ta có thể chia thành:

- Trích xuất (extract): bản tóm tắt hoàn toàn chứa các “dãy từ” được sao chép nguyên dạng từ văn bản nguồn “Dãy từ” ở đây có thể là cụm từ, câu hoặc đoạn văn Tuy nhiên, với dạng trích xuất thì văn bản tóm tắt thiếu cấu kết cần thiết, các câu

Trang 14

được trích ra có thể không phản ánh nội dung Nói chung văn bản tóm tắt không được “trơn” do được “lắp ghép” từ các câu, đoạn văn được trích ra

- Tóm tắt (abstracts): văn bản tóm tắt nói chung là không chứa các “dãy từ” trong văn bản nguồn mà là được “viết lại” một cách tự động Với dạng này, người ta cần nhiều kĩ thuật xử lý ngôn ngữ Hiện tại, đây vẫn là vấn đề khó, chưa thể giải quyết được một cách triệt để

Căn cứ vào mức độ xử lý, có thể chia thành 2 dạng:

- Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng khái niệm về các đặc trưng nông (shallow feature) Các đặc trưng nông bao gồm các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật ngữ trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong các cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng Kết quả là một bản tóm tắt dạng trích xuất (extract)

- Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp ngôn ngữ

tự nhiên Với dạng tiếp cận này, phải cần đến những phân tích về mặt ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu diễn của các thực thể văn bản (đơn vị văn bản) và mối quan hệ giữa các thực thể rồi từ đó tìm ra phần quan trọng Mối quan hệ giữa các thực thể gồm quan hệ ngữ nghĩa như: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú pháp: dựa trên cây phân tích cú pháp và các mối quan hệ khác

Căn cứ vào mục đích của bản tóm tắt, có thể chia làm 3 dạng:

- Trình bày sơ lược (indicative): Đưa ra những thông tin ngắn gọn về chủ đề chính của văn bản Dạng tóm tắt này thường được sử dụng trong các hệ thống tìm kiếm thông tin Thông thường, độ dài của văn bản tóm tắt loại này chỉ từ 5 đến 10%

độ dài của toàn bộ văn bản

- Tóm tắt cung cấp tin tức (Informative): Cung cấp các chủ đề con của toàn bộ văn bản, kiểu tóm tắt này có độ dài từ 20-30% văn bản gốc

- Phê bình và đánh giá: Văn bản tóm tắt đưa ra những quan điểm của người tóm tắt về chủ đề được đưa ra Tuy nhiên, kiểu tóm tắt này dường như vượt quá tầm của các hệ thống tóm tắt tự động hiện nay

Việc phân loại tóm tắt dựa theo mục đích như trên không loại trừ lẫn nhau, có thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu trình bày sơ lược

Căn cứ vào người sử dụng, có thể chia thành các dạng:

Trang 15

- Tóm tắt chung: với kiểu tóm tắt này thì mọi chủ đề chính trong văn bản đều

có tầm quan trọng như nhau, văn bản tóm tắt hướng đến một cộng đồng đông đảo người đọc

- Tóm tắt dựa trên câu truy vấn: kết quả trả về dựa trên câu truy vấn của người dùng

- Tóm tắt hướng đến người dùng hoặc chủ đề: văn bản tóm tắt đáp ứng nhu cầu của người dùng cụ thể hoặc chủ đề cụ thể nào đó

Căn cứ vào số lượng văn bản tóm tắt: Tóm tắt đơn văn bản: thực hiện tóm tắt

trên một văn bản hoặc tóm tắt đa văn bản: thực hiện tóm tắt trên nhiều văn bản khác nhau

Căn cứ vào ngôn ngữ tóm tắt: Tóm tắt trên một ngôn ngữ hoặc tóm tắt trên

nhiều ngôn ngữ khác nhau

1.2 Mô hình tóm tắt văn bản

Hình 1 Kiến trúc của hệ thống tóm tắt văn bản tự động

Đầu vào của hệ thống có thể là một hoặc nhiều tài liệu, văn bản hay các thông tin đa phương tiện như ảnh, âm thanh, video Hệ thống tóm tắt hiện nay thường tập trung vào việc xử lý đầu là văn bản (có thể mở rộng cho các thông tin dạng khác) Điều quan trọng trong việc tóm tắt văn bản là mức độ nén, tức là tỉ lệ giữa độ dài của văn bản tóm tắt so với văn bản gốc (đôi khi cũng được tính bằng phần bù của tỉ

số này) Thông thường, tỉ lệ nén được tính dựa trên độ dài của văn bản, hoặc có thể tính bằng nội dung thông tin Tỉ lệ nén dao động từ 1% đến 30%, nếu tỉ lệ nén giảm thì thông tin sẽ bị mất nhiều hơn Văn bản tóm tắt có thể là văn bản liền mạch hoặc văn bản rời rạc Quá trình tóm tắt có thể chia thành 3 pha: phân tích văn bản đầu vào, biến đổi, tổng hợp chỉnh sửa cho phù hợp với yêu cầu đầu ra

Trang 16

1.2.1 Các phương pháp áp dụng trong pha phân tích

Trong pha này, văn bản nguồn được phân tích để xác định các đơn vị ngữ liệu

và các đặc trưng của chúng, kết quả của pha này là đầu vào cho pha biến đổi Các phương pháp áp dụng trong pha này bao gồm:

+ Minh hoạ, chú thích: trong các câu chú thích, câu minh hoạ cho ảnh hay đồ thị thường chứa các thông tin quan trọng

- Dựa vào cụm từ dấu hiệu: Các cụm từ dấu hiệu có đặc điểm thống kê rất tốt

Sau các cụm từ này thường là các từ hay câu quan trọng Có hai loại cụm từ dấu hiệu : thứ nhất là các cụm từ mang ý nhấn mạnh, sau cụm từ này đoạn văn quan trọng; chẳng hạn “nói chung là”, “đặc biệt là”, “tóm lại”, “cuối cùng thì”, “trong bài viết này tôi muốn chỉ ra”, “bài viết nói về”, “nội dung gồm” Thứ hai là các cụm từ không quan trọng, sau cụm từ này là các thành phần không có nhiều giá trị trong việc tóm tắt, chẳng hạn: “hiếm khi mà”, “bài này không nói đến”, “không thể nào…”

- Dựa vào thống kê tần suất từ: Độ quan trọng của từ phụ thuộc vào số lần

xuất hiện của từ đó trong văn bản Có thể dùng các kĩ thuật như tf-idf, tập thuật ngữ

thường xuyên (frequent item set) để xác định tần suất từ

b) Phương pháp cấu trúc

Các phương pháp này sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa

để xác định các đơn vị ngữ liệu quan trọng Tư tưởng chính của các phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên quan nhiều với các thành phần khác sẽ có mức độ quan trọng cao Việc đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa hoặc các quan hệ cú pháp

- Phương pháp sử dụng quan hệ giữa câu, đoạn

Phương pháp này xác định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với nhau thông qua việc tính toán mức độ liên quan giữa chúng Các

Trang 17

độ Cosine, Jaccard… được chọn để xác định độ tương đồng giữa các câu hay đoạn

văn bản đó Sau đó, ta chọn ra đoạn hay câu có độ liên quan lớn nhất

+ Phương pháp chuỗi từ vựng (lexical chains)

Phương pháp liên kết từ vựng sử dụng các từ điển quan hệ từ vựng để xây dựng các chuỗi từ liên kết với nhau về mặt ngữ nghĩa Sau khi xây dựng được chuỗi các từ vựng này, ta đánh giá độ mạnh của chúng và chọn ra những câu phù hợp Morris và Hirst (1991) là những người đưa ra mô hình tính chuỗi từ vựng đầu tiên Chuỗi từ vựng không những chỉ dùng trong tóm tắt văn bản mà còn được coi là lý thuyết tổng quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên

+ Phương pháp liên kết tham chiếu (word coreferences)

Phương pháp này gọi là phương pháp trích chọn trùng lặp (anaphora-based

method) Theo phương pháp này, các cụm trùng lặp được chọn ra, phân rã xem đâu

là từ (cụm từ) tham chiếu và từ (cụm từ) được tham chiếu Sau khi phân tách các cụm trùng lặp, chúng ta tạo chuỗi các từ (cụm từ) tham chiếu đến cùng một từ được tham chiếu Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các từ trong chuỗi này có một độ ưu tiên nào đó thì sẽ được chọn

Kết thúc pha phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan trọng của các đơn vị ngữ liệu và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan trọng lớn làm đầu vào cho pha sau Có thể nhận thấy các phương pháp thống kê dễ cài đặt hơn các phương pháp cấu trúc Việc cài đặt các phương pháp thống kê đơn thuần chỉ là các công thức toán học, còn để cài đặt các phương pháp cấu trúc thì lại cần thực hiện rất nhiều kĩ thuật về cấu trúc dữ liệu và thậm chí là các kĩ thuật trong lĩnh vực trí tuệ nhân tạo

1.2.2 Các phương pháp áp dụng trong pha biến đổi

Pha biến đổi có nhiệm vụ biến đổi đơn vị ngữ liệu được trích xuất trong pha phân tích như cụm từ, câu, đoạn văn Thông thường pha biến đổi thực hiện rút gọn bản thân bên trong một câu, rồi có thể rút gọn đoạn mà không gây ảnh hưởng đến

độ chính xác Các phương pháp trong pha biến đổi gồm: [7]

a) Giản lược về cấu trúc câu

Lược bỏ các thành phần thừa, ít mang ý nghĩa trong câu, giúp cấu trúc câu được thu gọn lại Công việc này thường dựa trên phân tích cú pháp và phân tích ngữ nghĩa các thành phần trong câu Áp dụng phân tích cú pháp chúng ta được các cấu trúc của câu, qua đó ta có thể thay thế thành phần bằng những thành phần tương đương, ghép thành phần có nghĩa tương đương theo một luật nào đó Phương pháp này có thể làm câu ngắn gọn hơn, tuy nhiên khó bảo toàn được văn phong

b) Giản lược về mặt ngữ nghĩa

Trang 18

Thay thế hoặc loại bỏ các từ, cụm từ có ý nghĩa cụ thể bằng những từ, cụm từ

ý nghĩa lúc này sẽ tổng quát, điển hình là:

- Trừu trượng hoá khái niệm: thay thế các khái niệm cụ thể bằng khái niệm chung

- Thay thế ngữ tương đương: thay thế các ngữ đóng vai trò như nhau trong câu bằng một ngữ chung

1.2.3 Các phương pháp trong pha tổng hợp kết quả

a) Phương pháp hiển thị phân đoạn

Các đơn vị ngữ liệu được trích xuất hay giản lược từ các pha trước được liên kết lại thành đoạn theo đúng thứ tự trong văn bản gốc, không thêm bớt từ nối và cũng không sắp xếp lại Văn bản kết quả của phương pháp này có độ dễ đọc và dễ hiểu kém, thậm chí lủng củng vì các đơn vị ngữ liệu có thể bị mập mờ tham chiếu, không có từ nối hoặc thừa từ

b) Phương pháp hiển thị liên kết

Với phương pháp này, ta sẽ đưa thêm các thông tin bổ sung vào văn bản tóm tắt Hai phương pháp thường được áp dụng trong sử dụng mẫu (template) ngữ liệu huấn luyện (corpus)

1.3 Các phương pháp đánh giá

Đánh giá một bản tóm tắt là một công việc khó bởi không tồn tại một bản tóm tắt lý tưởng cho một (hoặc một tập) văn bản đưa ra [11] Hơn nữa, việc đánh giá nội dung tóm tắt cũng rất khó khăn Trường hợp kết quả là một câu trả lời cho một câu hỏi, ta có thể xác định được câu trả lời đó đúng hay sai, nhưng trong các trường hợp khác, thật khó trả lời liệu đầu ra là phải một kết quả đúng hay không? Thực tế luôn

có khả năng một hệ thống sinh ra một bản tóm tắt tốt nhưng lại sai khác với bản tóm tắt do người thực hiện Bên cạnh đó, khi việc đánh giá được thực hiện bởi con người thì chi phí đánh giá sẽ rất cao Mặt khác, tóm tắt văn bản còn liên quan đến tỉ lệ nén văn bản, do đó, việc đánh giá bản tóm tắt cần phải quan tâm đến vấn đề này, khi đó

độ phức tạp và chi phí đánh giá sẽ tăng cao [18] Có nhiều kiểu đánh giá khác nhau tuỳ thuộc vào kiểu tóm tắt của hệ thống Có thể là đánh giá trong (intrinsic) – tập trung vào chất lượng bản tóm tắt và đánh giá ngoài (extrinsic) – tập trung vào nhiệm

vụ (McKeown 1998)

Các tiêu chí đánh giá:

- Độ mạch lạc (Coherence): đánh giá mức độ rõ ràng của văn bản tóm tắt, tính súc tích, khả năng có thể đọc và hiểu được của bài viết…

Trang 19

- Độ hàm chứa thông tin (Informationess): tỉ lệ thông tin của văn bản gốc trong văn bản tóm tắt

- Độ liên quan (Relevance): xác định mức độ phù hợp của văn bản tóm tắt với chủ đề cho trước (chủ đề có thể là một câu truy vấn)

- Độ dễ đọc hiểu (Reading Comprehence): một người được giao việc đọc văn bản kết quả, sau đó trả lời các câu hỏi, hệ thống sẽ phải cho điểm và từ đó đưa ra phần trăm những câu trả lời đúng

1.3.1 Các phương pháp đánh giá trong

a) So sánh với văn bản tóm tắt khác

Ý tưởng cơ bản của phương pháp này là đem văn bản do hệ thống tóm tắt so sánh với các bản tóm tắt khác (có thể do hệ thống tóm tắt khác thực hiện hoặc do con người thực hiện) Thông thường là đem so sánh với văn bản tóm tắt do con người thực hiện Việc so sánh giữa các bản tóm tắt này có thể do con người thực hiện hoặc có thể thực hiện tự động Khi so sánh, có thể sử dụng một số độ đo sau [18]:

- Độ chính xác (Precision) và độ bao phủ (Recall) Tuy nhiên, 2 độ đo này chưa đủ để phân biệt các bản tóm tắt, các bản tóm tắt khác nội dung nhưng vẫn có cùng độ đo

- Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một bản tóm tắt được đặc trưng bởi hạng của các câu trong các bản tóm tắt thích hợp Hạng của các câu trong bản tóm tắt do hệ thống thực hiện và trong các bản tóm tắt dùng

để so sánh có thể tính bằng độ đo tương quan Độ do này áp dụng đối với hệ thống tóm tắt dạng trích xuất

- Độ đo dựa trên nội dung (Content-Based): dựa trên sự tương tự về mặt từ vựng, và có thể áp dụng đối với cả 2 dạng tóm tắt Tuy nhiên, độ đo này hữu dụng với các bản tóm tắt trích xuất, hoặc với các bản tóm tắt dạng abstract nhưng có mức

độ cắt-dán cao (tức là văn bản tóm tắt được tạo bởi nhiều từ, cụm từ, câu nguyên dạng trong văn bản nguồn)

b) So sánh với văn bản nguồn

Với phương pháp này, ta đem so sánh văn bản tóm tắt với văn bản nguồn để xác định mức độ hàm chứa thông tin của văn bản tóm tắt [18] Các độ đo dựa trên nội dung như trên có thể sử dụng để đánh giá Paice và Jones (1993) đã đưa ra phương pháp sử dụng thống kê để xác định mỗi thuật ngữ có phải là thuật ngữ trung tâm hay không phải thuật ngữ trung tâm Tiếp đó, phân loại vào các nhóm Chính xác (Correct), không chính xác (Incorrect) và thiếu (Missing)

Trang 20

Hệ thống tóm tắt TIPSTER SUMMAC đánh giá các bản tóm tắt dạng Q&A (Question and Answer – Hỏi và trả lời) (Mani, Firmin, House, Chrzanowski, Klein, Hirschman, Sundhem, Obrst (1998) Hệ thống này thay vì biểu diễn các khái niệm ở mức sâu thì chỉ xác định xem trong văn bản tóm tắt có hay không những khái niệm then chốt trong văn bản nguồn Theo phương pháp tóm tắt này thì ta đưa vào một văn bản nguồn và một chủ đề, rồi thực hiện tóm tắt dựa trên chủ đề đó để trả lời cho

câu hỏi Khi đó, ta có thể xác định xem câu trả lời có Chính xác (chứa câu trả lời đúng), hoặc Đúng một phần (chứa một phần câu trả lời) hay Thiếu (không chứa câu

trả lời)

1.3.2 Các phương pháp đánh giá ngoài

Ý tưởng cơ bản của các phương pháp đánh giá ngoài là đánh giá tác dụng của bản tóm tắt với các nhiệm vụ khác nhau [18]

- Đánh giá mức độ liên quan (relevance): ý tưởng của phương pháp này là đưa

ra một văn bản và một chủ đề, đánh giá xem mức độ liên quan của văn bản với chủ

đề đó

- Đánh giá mức độ đọc hiểu: trước tiên, một người được đọc các văn bản tóm tắt từ một hoặc nhiều văn bản, sau đó trả lời các câu hỏi kiểm tra Hệ thống tự động tính điểm các câu trả lời và đánh giá tỉ lệ trả lời đúng Nếu bản tóm tắt cho phép trả lời các câu hỏi giống như khi đọc toàn bộ văn bản nguồn thì bản tóm tắt đó có khả năng cung cấp thông tin cao

Hovey và Marcu (1998) thực hiện đo mức độ cung cấp thông tin dựa trên việc người ta có thể khôi phục lại các thông tin quan trọng trong văn bản khi đọc bản tóm tắt của văn bản đó Bằng thực nghiệm, tác giả tiến hành dựng lại văn bản gốc dựa trên việc đọc văn bản tóm tắt kết hợp phỏng đoán

Trang 21

Chương 2 BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT

Chương này trình bày về một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt Đồng thời cũng đưa ra những đặc trưng quan trọng cần chú ý của tiếng Việt dưới góc độ của lĩnh vực xử lý ngôn ngữ tự nhiên, từ đó lựa chọn phương pháp cho bài toán tóm tắt văn bản tiếng Việt

2.1 Một số hướng tiếp cận bài toán tóm tắt văn bản

Tại Việt Nam hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã có được thành tích trong các bài toán phân tách từ, phân lớp và phân nhóm văn bản Tuy nhiên bài toán tóm tắt văn bản chưa có nhiều nghiên cứu và đa phần các công trình nghiên cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống kê, cũng có một số nghiên cứu có dựa trên ngữ nghĩa để nâng cao độ chính xác

Có thể kể đến một số công trình nghiên cứu như:

Đỗ Phúc, Hoàng Kiếm (2006) [5] đã sử dụng cây hậu tố để phát hiện các dãy

từ phổ biến trong các câu của văn bản, dùng từ điển đồng nghĩa và WordNet tiếng Việt để giải quyết vấn đề nghĩa của từ, rồi dùng kĩ thuật gom cụm để gom các câu trong văn bản (vector đặc trưng cho câu) và hình thành các vector đặc trưng cụm, sau đó rút ra câu chứa nhiều thành phần của các vector đặc trưng cụm

Vương Toàn (2007) [8] đã đề xuất quy trình tóm tắt văn bản khoa học Theo

đó, đầu tiên cho máy đọc lướt văn bản và tìm xem có sẵn những đoạn văn mang tính chất “tóm tắt” hay không; tiếp theo là định chủ đề, xác định 4-5 tiêu đề đề mục hoặc từ khoá để máy tự động chọn lưu tất cả những câu có các từ khoá đó

Công trình nghiên cứu của Nguyễn Trọng Phúc, Lê Thanh Hương (2008) [6] lại sử dụng cấu trúc diễn ngôn để tóm tắt văn bản Theo đó, xây dựng cây cấu trúc diễn ngôn biểu diễn mỗi quan hệ diễn ngôn giữa các đoạn văn bản (như các quan hệ nhân-quả, liệt kê, diễn giải,…), rồi từ cây cấu trúc diễn ngôn này đánh giá được độ quan trọng của các đoạn văn bản và tiến hành trích xuất tạo ra tóm tắt nội dung cho văn bản

Với hướng tiếp cận tóm tắt đa văn bản dựa vào trích xuất câu, Trần Mai Vũ (2009) [9] đã xây dựng đồ thị quan hệ thực thể để tăng cường tính ngữ nghĩa cho độ tương đồng câu để áp dụng cho tóm tắt đa văn bản tiếng Việt

Nguyễn Việt Cường (2007) [2] đã sử dụng phương pháp phân đoạn văn bản dựa trên chuỗi từ vựng kết hợp với phương pháp sinh tiêu đề dựa trên chủ đề của câu chủ đề nhằm thực hiện sinh tự động mục lục cho văn bản

Trang 22

2.2 Đặc điểm tiếng Việt

2.2.1 Đặc điểm chung

Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết [1] Hai đặc trưng này chi phối toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và cần được chú ý khi xử lý tiếng Việt trên máy tính

Tiếng [1] là đơn vị cơ sở của cấu tạo ngữ pháp Việt Nam Tiếng có thể có nghĩa, phai nghĩa và không có nghĩa; hơn nữa giữa 3 hiện tượng này có thể xuất hiện sự chuyển hoá lẫn nhau Tiếng tham gia vào hệ thống ngôn ngữ với tư cách

một thành tố trong các cơ chế cấu tạo từ (từ đơn, từ láy, từ ghép…) Theo Từ điển

tiếng Việt – Hoàng Phê (1998) thì tiếng Việt hiện đại sử dụng 6718 âm tiết

Hiện nay, có nhiều tranh luận khi định nghĩa từ trong tiếng Việt Theo Ngữ pháp tiếng Việt [1] thì xét ở phương diện ngữ pháp có thể định nghĩa từ là đơn vị nhỏ nhất mà có nghĩa và có thể hoạt động tự do (trong câu), từ là đơn vị trung tâm của ngữ pháp Việt Nam, chi phối toàn bộ cú pháp tiếng Việt, đảm nhận và san sẻ các chức năng năng cú pháp trong câu và góp phần đưa câu vào các cấu tạo ngôn

ngữ lớn hơn câu Từ đây trở đi, khái niệm từ được dùng với nghĩa trên khi nói về tiếng Việt, còn đối với các ngôn ngữ châu Âu (ví dụ tiếng Anh), từ (word) vẫn được

hiểu theo nghĩa là “cụm kí tự được ngăn cách bởi một hoặc nhiều dấu cách”

Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp “tự do” với nhau theo những quan hệ ngữ pháp hiển hiện nhất định và không chứa kết từ ở đầu Cụm từ hoạt động trong câu mới mọi chức vụ ngữ pháp nhất định

Câu là sự tổng hợp của các từ biểu thị một tư tưởng trọn vẹn

Ví dụ:

Từ ‘học’ là một từ gồm một tiếng

Từ ‘đại học’ là một từ gồm hai tiếng

Cụm từ ‘khoa học máy tính’ gồm 2 từ hay 4 tiếng

Trong các hệ thống xử lý ngôn ngữ trên các tiếng châu Âu, để xác định các từ đặc trưng cho văn bản người ta có thể đơn giản lấy khoảng trắng làm ranh giới phân tách từ Đối với tiếng Việt thì ta lại không thể làm tương tự bởi nếu ta chỉ dựa vào khoảng trắng để phân tách thì kết quả ta chỉ có được các “tiếng” vô nghĩa và do đó

độ chính xác của hệ thống có thể sẽ rất thấp Theo Ngữ pháp tiếng Việt - Nguyễn

Hữu Quỳnh (2001) thì tiếng Việt có đến 80% là các từ 2 tiếng

Từ tiếng Việt không có hiện tượng biến hình (ngôn ngữ đơn lập) bằng những phụ tố mang ý nghĩa ngữ pháp bên trong từ như các ngôn ngữ Ấn – Âu Dĩ nhiên,

Trang 23

tiếng Việt cũng có một số hình thức biến hình như trường hợp thêm tiếng “sự trước một động từ để biến nó thành danh từ tương đương, ví dụ như động từ “lựa chọn” và danh từ “sự lựa chọn” hay thêm tiếng “hoá” sau một danh từ để biến nó thành động từ tương đương như danh từ “tin học” và động từ “tin học hoá” Phụ tố cấu tạo từ tồn tại hiển nhiên hơn ở cơ chế láy với những quy tắc ngữ âm khái quát chứ không hẳn là những dạng thức cụ thể đồng loạt (ở những từ láy có phần gốc là yếu tố còn rõ nghĩa, phần láy là yếu tố không rõ nghĩa)

2.2.2 Yếu tố ngoại lai trong từ tiếng Việt

Tiếng Việt có các yếu tố ngoại lai thuộc gốc Hán, gốc Pháp, Anh trong đó yếu

tố Hán vừa chiếm đa số vừa giữ vai trò khá quan trọng trong vốn từ và trong cấu tạo

từ Việt

Các yếu tố gốc Ấn – Âu đi vào tiếng Việt phải chịu áp lực rất mạnh của sự âm tiết hoá theo kiểu tiếng Việt Sự Việt hoá về mặt âm tiết:

− Cắt từ nhiều âm tiết thành những âm tiết rời;

− Âm tiết hoá các tổ hợp phụ âm;

− Mỗi âm tiết nhận một thanh điệu thích hợp;

− Cấu tạo lại âm tiết theo các âm của tiếng Việt (như không chấp nhận l, h, s… ở cuối âm tiết)

Ngoài ra, khi Việt hoá các từ ngoại lai Ấn – Âu có sự đơn tố hoá từ nhiều hình

vị (từ tố), tức là một số từ vốn là đa tố ở ngôn ngữ Ấn – Âu vào tiếng Việt được coi như từ đơn tố, ví dụ: sulơ, xuyết vôn tơ, mát xa…; và có sự giản hoá về phát âm như sứ (đại sứ quán), lốp (vỏ bánh xe) từ enveloppe…

2.2.3 Từ đồng nghĩa

Theo Cơ sở ngôn ngữ học và tiếng Việt - Mai Ngọc Chừ (1997) từ đồng nghĩa

là những từ tương đồng với nhau về nghĩa, khác nhau về âm thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách, nào đó, hoặc đồng thời cả hai Những từ đồng nghĩa với nhau tập hợp thành một nhóm gọi là nhóm đồng nghĩa

Ví dụ: dễ, dễ dàng, dễ dãi là những nhóm từ đồng nghĩa

Thực ra, từ đồng nghĩa không phải là những từ trùng nhau hoàn toàn về nghĩa Chúng nhất định có những dị biệt nào đó bên cạnh sự tương đồng (mặc dù phát hiện

sự dị biệt đó không phải lúc nào cũng dễ dàng)

Những từ đồng nghĩa với nhau không nhất thiết phải tương đương với nhau về

số lượng nghĩa, tức là các từ trong một nhóm đồng nghĩa không nhất thiết phải có dung lượng nghĩa bằng nhau: Từ này có thể có một hoặc hai nghĩa, nhưng từ kia có

Trang 24

thể có tới dăm bảy nghĩa Thông thường, các từ chỉ đồng nghĩa ở một nghĩa nào đó Chính vì thế nên một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau: Ở nhóm này nó tham gia với nghĩa này, ở nhóm khác nó tham gia với nghĩa khác

Ví dụ: Từ “coi” trong tiếng Việt là một từ đa nghĩa Tuỳ theo từng nghĩa được

nêu lên để tập hợp các từ, mà “coi” có thể tham gia vào các nhóm như:

+ coi – xem: coi hát – xem hát

+ coi – giữ: coi nhà – giữ nhà

Trong mỗi nhóm từ đồng nghĩa thường có một từ mang nghĩa chung, được dùng phổ biến và trung hoà về mặt phong cách, được lấy làm cơ sở để tập hợp và so sánh, phân tích các từ khác Từ đó gọi là từ trung tâm của nhóm

Ví dụ: Trong nhóm từ “yếu, yếu đuối, yếu ớt”, từ “yếu” được gọi là từ trung

tâm

Tuy nhiên, việc xác định từ trung tâm của nhóm không phải lúc nào cũng dễ

và đối với nhóm nào cũng làm được Nhiều khi ta không thể xác định một cách dứt khoát được theo những tiêu chí vừa nêu trên, mà phải dựa vào những tiêu chí phụ như: tần số xuất hiện cao (hay được sử dụng) hoặc khả năng kết hợp rộng

Chẳng hạn, trong các nhóm từ đồng nghĩa tiếng Việt như: hồi, thuở, thời; hoặc chờ, đợi; hoặc chỗ, nơi, chốn, rất khó xác định từ nào là trung tâm Với bài toán tóm tắt văn bản thì từ đồng nghĩa cũng có một ý nghĩa khá quan trọng bởi trong các câu, đoạn văn trong văn bản có các từ đồng nghĩa hoặc gần nghĩa nhau và việc sử dụng từ đồng nghĩa sẽ làm nâng cao tính chính xác khi so sánh về độ tương đồng ngữ nghĩa giữa các đơn vị văn bản

vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy…

Trang 25

− Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện

− Phiên âm tiếng nước ngoài: hiện nay, vẫn còn nhiều tranh cãi giữa việc phiên âm tiếng nước ngoài thành tiếng Việt (Việt hoá), nên tồn tại nhiều cách viết (giữ nguyên gốc tiếng nước ngoài, phiên âm ra tiếng Việt), ví dụ: Singapore/Xin−ga−po

− Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được giữa nối tên riêng hay chú thích

− Kí tự ngắt câu: các kí tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách giữa các câu hoặc các vế câu trong câu ghép

2.2.5 Bảng mã tiếng Việt trên máy tính

Hiện nay, việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn bản mà còn để xây dựng các phần mềm có giao diện tiếng Việt và cũng để xử lý tiếng Việt Tuy nhiên, hiện nay có nhiều cách mã hoá các kí tự tiếng Việt khác nhau, dẫn tới có nhiều bảng mã khác nhau được sử dụng Theo thống kê, có tới trên 40 bảng mã tiếng Việt khác nhau được sử dụng, do đó, việc khai thác tài liệu cũng như xử lý dữ liệu rất phức tạp

Có thể kể đến một số bảng mã dưới đây [4]

- Mã dựng sẵn

+ Mã dựng sẵn một bảng fonts: TCVN 5712-VN1, VISCII, BachKhoa 1, VietStar…: các bảng mã này mở rộng sang cả phần mã chuẩn, nên gây ảnh hưởng nghiêm trọng trong truyền thông

+ Mã dựng sẵn hai bảng fonts: TCVN 5712-VN3 (ABC), VietSea, VNU…: sử dụng 2 bảng mã cho một kiểu chữ nên gây dư thừa và không hiện thực việc phân biệt chữ hoa chữ thường trong các chương trình xử lý số liệu

- Mã tổ hợp

Các bảng mã VietWare-X, Vni for Windows, TCVN 5712-VN2, BachKhoa II, VS2, 3C25… và các trang mã 1258 (Microsoft), 1129 (IBM), ISO 10646 sử dụng phương pháp mã tổ hợp

Tuy nhiên, hiện nay việc sử dụng tiếng Việt trên máy tính vẫn chưa có sự thống nhất cao về chuẩn mã tiếng Việt, gây khó khăn lớn cho việc thu thập, khai thác và xử lý tiếng Việt Đòi hỏi các hệ thống xử lý văn bản tiếng Việt cần phải có bước tiền xử lý để nhận dạng và quy chuẩn các kí tự về một bảng mã chung

Tóm tại, tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, do đó, việc phân loại từ (danh từ, động từ, tính từ…) và ý nghĩa từ là vấn đề khó, cần có nhiều

Trang 26

nghiên cứu thêm Do vậy, tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) trở nên rất phức tạp với việc xử lý các hư từ, phụ từ, từ láy…; hơn nữa, phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện của

từ có thể không chính xác như mong đợi Mặt khác, ranh giới xác định từ không phải là khoảng trắng, khiến cho việc tách từ trở nên khó khăn, dẫn đến khó khăn cho các giai đoạn tiếp theo như kiểm lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ… Như thế, các phương pháp xử lý ngôn ngữ đang áp dụng cho tiếng Anh không thể áp dụng trực tiếp cho tiếng Việt mà cần có sự thay đổi cho phù hợp

2.3 Phương pháp cho bài toán tóm tắt văn bản tiếng Việt

Trong IR, mỗi văn bản được biểu diễn dưới dạng vector, chẳng hạn như

Di=(di1, di2, …, din) trong đó dik biểu diễn trọng số của từ Tk trong tài liệu Di Tính toán độ tương tự giữa hai văn bản Di và Dj là Sim(Di, Dj) – theo các công thức tính

độ tương tự Nếu độ tương tự này đạt đến một ngưỡng đủ lớn thì ta nói rằng chúng

có “liên quan về mặt ngữ nghĩa”, và ta có thể thiết lập một liên kết giữa hai văn bản này [23]

Áp dụng phương pháp này vào việc tóm tắt văn bản tự động, thay vì tìm liên kết giữa các văn bản, ta sẽ tìm liên kết trong nội bộ văn bản (liên kết giữa các câu trong văn bản) Sau khi xây dựng được đồ thị quan hệ, ta có được hình vẽ trực quan cấu trúc của văn bản Từ cấu trúc này, ta có thể xây dựng văn bản tóm tắt bằng cách trích xuất ra các câu phù hợp [24]

Trong việc xác định ngưỡng để quyết định hai câu trong văn bản có quan hệ với nhau về mặt ngữ nghĩa hay không có một ý nghĩa quan trọng, bởi lẽ ngưỡng này

có thể là tốt cho một dạng văn bản nào đó nhưng lại không tốt cho văn bản khác Như vậy, trong quá trình xây dựng và đánh giá kết quả của chương trình tóm tắt văn bản, cần phải thực nghiệm với nhiều ngưỡng khác nhau để chọn ra một ngưỡng thích hợp

Khi áp dụng phương pháp cấu trúc văn bản này đối với văn bản tiếng Việt do

có những khác biệt đối với văn bản tiếng Anh nên cần phải có một số cải tiến để nâng cao độ chính xác

Trước hết, đối với việc phân tách từ vựng tiếng Việt Có thể sử dụng các phương pháp như:

+ Phương pháp so khớp cực đại hay còn gọi là phương pháp Left Right Maximum Matching (LRMM) [25] Theo đó, ta thực hiện duyệt một ngữ hoặc một câu từ trái sang phải và chọn từ có nhiều âm tiết có mặt trong từ điển, rồi cứ thế tiếp tục cho đến khi hết câu

+ Phương pháp sử dụng bộ chuyển trạng thái hữu hạn có trọng số WFST (Weighted Finite State Transducer) kết hợp với mạng Neural do Đinh Điền (2001)

Trang 27

[13] đưa ra Với ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu Dùng WFST để duyệt qua câu cần xét Cách duyệt có trọng số lớn nhất sẽ là cách từ được chọn Ngoài ra sử dụng mạng Neural

để khử nhập nhằng nếu có

Do việc xây dựng bộ tách từ khá phức tạp và nằm ngoài phạm vi của luận văn này nên chúng tôi sử dụng bộ tách từ đã được viết sẵn và cung cấp miễn phí để thực hiện bước tiền xử lý các văn bản

Tiếp theo đó là cần loại bỏ các từ dừng Từ dừng (stop-words) là các từ xuất hiện nhiều trong các văn bản mà thường thì không giúp ích trong việc phân biệt nội dung của các tài liệu Do đó, khi xây dựng chương trình tóm tắt, cần tìm ra các từ dừng trong văn bản và loại bỏ chúng Việc xác định các từ dừng trong văn bản được thông qua một từ điển từ dừng

Khi đã loại bỏ các từ dừng, cần phải xác định tiếp các từ đồng nghĩa trong văn bản Đối với tiếng Việt, do có một số lượng lớn các từ đồng nghĩa nên khi thực hiện

đo độ tương tự giữa các câu trong văn bản, ta sử dụng thêm một từ điển đồng nghĩa

để xác định các từ có ý nghĩa tương đồng giữa các câu, để có thể nâng cao phần nào

độ chính xác Trong chương tiếp theo, chúng tôi sẽ trình bày chi tiết việc xây dựng ứng dụng tóm tắt văn bản và kĩ thuật sử dụng từ điển đồng nghĩa này

Ngoài ra, trong bước tiền xử lý, các vấn đề như bảng mã, chính tả, dấu câu… cũng cần được xử lý để đảm bảo tính khách quan và chính xác cho các bước tiếp theo

Hình vẽ dưới đây mô tả một đồ thị quan hệ của các câu trong văn bản “Hỗ trợ

400 USD cho sinh viên mua laptop” (Tên file: Text(16).txt trong tập các văn bản

thử nghiệm), bỏ qua các liên kết có độ tương tự dưới 0,2

Sau khi đã có được đồ thị quan hệ giữa các câu trong văn bản, tiến hành duyệt

đồ thị và chọn ra các câu quan trọng theo một số phương pháp sau:

Cách 1 Dựa vào bậc của các nút trên đồ thị

Bậc của một nút trên đồ thị là số lượng liên kết tới các nút khác Khi một nút

có bậc lớn thì câu tương ứng nút đó sẽ phủ một lượng lớn từ vựng và có thể chứa chủ đề của nhiều câu khác [24]

+ Chọn n nút có bậc cao nhất trong đồ thị (với n là số câu cần chọn trong văn bản tóm tắt)

+ Sắp xếp các câu được chọn ra theo thứ tự xuất hiện trong văn bản gốc

Trang 28

Hình 2 Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2)

Cách 2 Duyệt theo chiều sâu

+ Chọn một nút quan trọng (thường chọn nút đầu tiên hoặc nút có bậc cao)

+ Chọn nút tiếp theo tương tự nhất với nút trước đó, và cứ như thế

Khi đã duyệt hết mà vẫn chưa đủ số câu mong muốn, ta sử dụng tiếp cách 1 với các câu còn lại

Cách 3 Phân đoạn văn bản

+ Chia văn bản thành từng đoạn

+ Áp dụng cách 1 cho mỗi đoạn, số đoạn của văn bản được chia phải đảm bảo

để chọn được ít nhất một câu trong mỗi đoạn

Trong chương này, chúng tôi đã trình bày về những hướng tiếp cận với bài toán tóm tắt văn bản tiếng Việt, đồng thời cũng nêu ra những đặc trưng cần chú ý của tiếng Việt và cuối cùng đưa ra cách tiếp cận của chúng tôi về việc sử dụng phương pháp cấu trúc để tóm tắt văn bản

Trang 29

Chương 3 ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC

ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT

Trong chương này, chúng tôi trình bày chi tiết về việc sử dụng phương pháp cấu trúc đã trình bày trong chương 2 để xây dựng chương trình tóm tắt văn bản tiếng Việt

3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc

Hình 3 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc

Trong mô hình này, đầu vào là các văn bản tiếng Việt thuộc nhiều thể loại khác nhau, và để cho đơn giản thì chúng tôi chi sử dụng các văn bản thuần Các văn bản được xử lý qua 4 giai đoạn

- Tách câu

- Tách từ

Danh sách các câu

Danh sách các từ

3 Xây dựng

đồ thị liên kết

- Tính tf-idf

- Xác định độ tương tự giữa các câu

4 Sinh văn bản tóm tắt

Chọn ra các câu theo 3 phương pháp

Văn bản

tóm tắt