Luận văn xây dựng ứng dụng tóm lược tự động văn bản Tiếng Việt

Vì vậy các phương pháp của Trí tuệ nhân tạo thường được dùng tronglĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng của ngành ngôn ngữ họcnhư hình thái, ngữ pháp, ngữ nghĩa… Cá

Trang 1

XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ

ĐỘNG VĂN BẢN TIẾNG VIỆT

DANH MỤC TỪ VIẾT TẮT

Phát hiện tri thức trong cơ sở dữ liệu

2 TFxIDF Term Frequency times Inverse Document Frequency

Information Retrieval

Xử lý ngôn ngữ tự nhiên

Mô hình máy vector hỗ trợ

Trang 2

STT Từ viết tắt Giải nghĩa

Mô hình Markov ẩn

Trang 3

DANH MỤC HÌNH VẼ

Hình 1.1: Mô hình khai phá văn bản chung 12

Hình 1.2: Mô tả các bài toán phân lớp văn bản 18

Hình 1.3: Mô tả bài toán Phân nhóm văn bản 19

Hình 2.1: Phân tích cú pháp 25

Hình 2.2: Học luật chuyển đổi cú pháp Anh - Việt 29

Hình 3.1: Tóm tắt trang tin 33

Hình 3.2: Tóm tắt hoạt động để hiển thị trên thiết bị cầm tay 33

Hình 3.3: Tóm tắt danh sách tìm kiếm từ Google và gợi ý đọc tiếp 34

Hình 3.4: Tóm tắt tài liệu khoa học 34

Hình 3.5: Mô hình hệ Tóm tắt văn bản tổng quát 39

Hình 3.6: Mô hình một hệ Trích rút văn bản 40

Hình 3.7: Quan hệ lẫn nhau giữa các đoạn trong văn bản 42

Hình 3.8: Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ 56

Hình 3.9: Giao diện và kết quả trích rút văn bản của Microsoft Word 57

Hình 4.1: Mô hình ứng dụng Tóm lược văn bản tiếng Việt 61

Hình 4.2: Mô hình hóa văn bản 61

Hình 4.3: Giải thuật tách term từ trái qua 63

Hình 4.4: Giải thuật tách term từ phải qua 65

Hình 4.5: Phương pháp tiêu đề 67

Hình 4.6: Phương pháp tần suất xuất hiện 70

Hình 5.1: Giao diện chính 77

Hình 5.2: Giao diện kiểm thử 78

Hình 5.3: Giao diện phân tách đoạn và câu 79

Hình 5.4: Giao diện phân tách thuật ngữ của đoạn 80

Hình 5.5: Kết quả thực thi phương pháp TFxIDF 81

Trang 4

MỤC LỤC

DANH MỤC TỪ VIẾT TẮT 1

DANH MỤC HÌNH VẼ 2

MỤC LỤC 3

LỜI NÓI ĐẦU 7

Chương 1 KHAI PHÁ VĂN BẢN 10

1.1 Khai phá dữ liệu 10

1.2 Khai phá văn bản 11

1.3 Biểu diễn văn bản 12

1.3.1 Mô hình boolean 13

1.3.2 Mô hình không gian vector 13

a Mô hình không gian vector chuẩn 13

b Kỹ thuật TFxIDF 14

c Mô hình vector thưa và các mô hình không gian vector khác 15

1.3.3 Các mô hình biểu diễn văn bản khác 16

a Mô hình Xác suất 16

b Mô hình Mạng Bayes 16

c Mô hình tập thô dung sai 17

1.4 Các bài toán Khai phá văn bản điển hình 17

1.4.1 Bài toán Phân lớp văn bản 17

1.4.2 Bài toán Phân nhóm văn bản 18

1.4.3 Bài toán Đánh chỉ mục - Tìm kiếm 19

1.4.4 Bài toán Tóm tắt văn bản 19

1.5 Kết chương 20

Chương 2 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 21

2.1 Tổng quan về Xử lý ngôn ngữ tự nhiên 21

2.2 Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên 23

2.2.1 Phân tách thuật ngữ - Phân tách đoạn và câu 23

2.2.2 Gán nhãn từ loại 24

2.2.3 Phân tích cú pháp 25

2.2.4 Phân tích ngữ nghĩa 26

Trang 5

2.3 Các đặc trưng ngôn ngữ của tiếng Việt 26

2.3.1 Đặc trưng về ngữ âm và âm vị 26

2.3.2 Đặc trưng về từ pháp và hình thái 27

2.3.3 Đặc trưng về ngữ pháp 28

Chương 3 BÀI TOÁN TÓM TẮT VĂN BẢN 31

3.1 Giới thiệu chung 31

3.1.1 Tóm tắt văn bản là gì ? 32

3.1.2 Các tiêu chí đánh giá 34

3.1.3 Phân loại bài toán Tóm tắt văn bản 35

3.2 Mô hình Tóm tắt văn bản 38

3.2.1 Mô hình chung 38

3.2.2 Các phương pháp áp dụng trong pha Phân tích 40

3.2.2.1 Phương pháp thống kê (Statistical Methods) 41

3.2.2.2 Phương pháp cấu trúc 42

3.2.2.3 Kết luận về các phương pháp trong pha Phân tích 44

3.2.3 Các phương pháp áp dụng trong pha Biến đổi 45

3.2.3.1 Giản lược về cấu trúc câu ( Syntactic Condensation ) 45

3.2.3.2 Giản lược về mặt ngữ nghĩa ( Semantic Condensation) 46

3.2.3.3 Kết luận về các phương pháp trong pha Biến đổi 48

3.2.4 Các phương pháp áp dụng trong pha Generation 48

3.2.4.1 Phương pháp hiển thị phân đoạn ( Segmental Display ) 48

3.2.4.2 Phương pháp Hiển thị 50

3.2.4.3 Kết luận về các phương pháp trong pha Hiển thị 50

3.3 Đánh giá kết quả tóm tắt 51

3.3.1 Đánh giá bên trong (Intrinsic Evaluation) 52

3.3.1.1 Độ chặt chẽ mạch lạc ( Coherence ) 52

3.3.1.2 Độ hàm chứa thông tin ( Informationess ) 52

3.3.2 Đánh giá bên ngoài ( Extrinsic Evaluation ) 52

3.3.2.1 Độ phù hợp ( Relevance ) 52

3.3.2.2 Độ dễ đọc dễ hiểu ( Reading Comprehence ) 52

3.3.3 So sánh đánh giá bên trong - bên ngoài 52

Trang 6

3.3.4 Các phương pháp đánh giá 53

3.3.4.1 Độ chính xác (Precision ) và độ hồi tưởng (Recall) 53

3.3.4.2 Đánh giá độ tương tự về nội dung (Content-based Similarity) 54

3.3.4.2 Độ tương quan phù hợp (Relevance Correlation) 54

3.3.6 Các hệ đánh giá ứng dụng tóm tắt văn bản 55

3.4 Một số hệ thống tóm tắt văn bản trên thế giới 55

Chương 4 XÂY DỰNG ỨNG DỤNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT 59

4.1 Mô hình xây dựng ứng dụng 59

4.2 Cài đặt tiền xử lý văn bản tiếng Việt 61

4.2.1 Chuẩn hóa văn bản 61

4.2.2 Mô hình hóa văn bản 61

4.2.3 Tách thuật ngữ 62

4.3 Lựa chọn, cài đặt các kĩ thuật sử dụng trong bài toán Tóm tắt 65

4.3.1 Các phương pháp trong pha Phân tích 65

a Phương pháp Title 66

b Phương pháp Heading 67

c Phương pháp NamedEntity - NE 68

d Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) 69

e Phương pháp Tần suất xuất hiện của thuật ngữ 69

f Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency) .70

4.3.2 Các phương pháp trong pha Biến đổi 71

4.3.2.1 Biến đổi nhờ vào rút gọn câu 71

4.3.2.2 Giản lược câu về mặt ngữ nghĩa 74

4.3.3 Các phương pháp trong pha Hiển thị 74

Chương 5 KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG 76

5.1 Giao diện kết quả thực nghiệm 76

5.2 Tập kiểm thử 81

Trang 7

5.3 Kết quả kiểm thử và đánh giá 82

5.3.1 Kiểm thử thuật toán tách term tiếng Việt 82

5.3.2 Kiểm thử thuật toán tách named Entity 83

5.3.3 Kiểm thử, đánh giá module chọn câu quan trọng 83

5.3.3.1 Phương pháp truyền thống 84

5.3.3.2 Phương pháp đánh giá theo độ tương tự nội dung 85

5.3.4 Kiểm thử đánh giá rút gọn câu 86

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 89

TÀI LIỆU THAM KHẢO 90

Trang 8

LỜI NÓI ĐẦU

Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin Chính sự pháttriển nhanh chóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giớicủa chúng ta bộ mặt mới Các ứng dụng của Công nghệ thông tin - Truyền thông đãhiện diện trong hầu hết các ngành, các lĩnh vực của cuộc sống, kéo theo chúng lànhững thay đổi đáng kể Nền kinh tế tri thức, hợp tác toàn cầu, những công việc quản

lý, vận hành những hoạt động từ vi mô tới vĩ mô của doanh nghiệp, tin học hóa quytrình hành chính, điều khiển tác nghiệp, giải trí, liên lạc, trợ giúp là những ứng dụngtiêu biểu của Công nghệ Thông tin và Truyền thông Đặc biệt, sự ra đời của Internet -Mạng thông tin toàn cầu - được coi là nguyên nhân chính, thúc đẩy sự bùng nổ thôngtin trên toàn thế giới Những lợi ích mà Internet mang lại quá lớn khiến chúng ta phụthuộc nhiều vào nó Những người biết sử dụng linh hoạt và đúng đắn những lợi thế này

sẽ phần nào vượt lên trên những thách thức của nền kinh tế tri thức toàn cầu để thuđược những thành công trong công việc cũng như cuộc sống Thông qua Internet,những thông tin quý giá về mọi lĩnh vực đều sẵn sàng đợi chúng ta khám phá và lĩnhhội

Trong thế giới thông tin đa dạng phong phú như vậy, nhu cầu thu thập đượcnhững thông tin cần thiết, có giá trị đồng thời xử lý chúng thành dạng dữ liệu mongmuốn là nhu cầu chính đáng và cấp thiết của nhân loại Lĩnh vực của Công nghệ thôngtin có thể đáp ứng những nhu cầu to lớn này là Khai phá dữ liệu

Khai phá dữ liệu, vốn chỉ là một giai đoạn trong bảy giai đoạn của quá trìnhPhát hiện tri thức trong cơ sở dữ liệu, tuy nhiên, do là giai đoạn chính yếu, nên chúng

ta thường đồng nhất, hay nói chính xác hơn là lấy Khai phá dữ liệu làm đại diện cho cảquá trình Phát hiện tri thức trong cơ sở dữ liệu Và vì vậy, Khai phá dữ liệu được hiểunhư một quá trình lấy ra các thông tin quan trọng từ các dạng CSDL, biến đổi, xử lýchúng nhằm phục vụ những mục đích cụ thể của con người Các phương pháp thườngdùng trong Khai phá dữ liệu là các phương pháp Trích chọn, Thống kê hay Phân loại

Do phần lớn dữ liệu ở dạng văn bản nên một lĩnh vực nhỏ hơn là Khai phá văn bảnđược quan tâm chú ý hơn cả Và trong đồ án này, em xin đề cập tới Khai phá văn bảnnhư là tiền đề cho việc giải quyết bài toán Tóm tắt văn bản

Khai phá dữ liệu - Khai phá văn bản tuy ra đời muộn nhưng đã đạt được nhiềuthành tựu đáng kể và tất nhiên cũng đóng góp rất nhiều cho ngành Khoa học máy tính.Trên thế giới cũng như ở Việt Nam, các vấn đề của Khai phá văn bản đã và đang đượctìm hiểu nghiên cứu cũng như xây dựng các ứng dụng mang tính thực tiễn cao Tuynhiên, vẫn còn rất nhiều vấn đề cần phải giải quyết, đặc biệt là ở Việt Nam, khi Khaiphá văn bản mới được chúng ta quan tâm tới trong khoảng chục năm trở lại đây Cácbài toán điển hình của Khai phá văn bản như Phân lớp văn bản, Phân nhóm văn bảnhiện mới trong quá trình nghiên cứu, chưa có một sản phẩm nào mang tính thương mạitrên thị trường Một bài toán khác của Khai phá văn bản là Thu thập thông tin đã được

Trang 9

cài đặt thành các ứng dụng tìm kiếm trên mạng như các bộ máy tìm kiếm của Netnam(PanVietNam) hay Tinh Vân (Vinaseek) Nhưng những ứng dụng như vậy còn quá ít

và chưa đáp ứng đầy đủ cho các nhu cầu to lớn của nền Công nghệ thông tin Việt Nam

Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiếtgần đây do sự bùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có mộtlĩnh vực khác đã ra đời cách đây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá

trình phát triển của mình Đó là lĩnh vực Xử lý ngôn ngữ tự nhiên Mục đích của Xử

lý ngôn ngữ tự nhiên là giúp cho máy tính và con người hiểu nhau hơn, thuận tiện hơntrong quá trình làm việc và đem lại lợi ích tối đa cho con người Thông qua các giaotiếp thân thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vàođời sống nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới

Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu đượcmột thông tin giống như cách mà con người hiểu thông tin đó thông qua các khía cạnhngôn ngữ bao hàm trong nó Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là mộtphần của Trí tuệ nhân tạo - làm cho máy tính nắm bắt, thao tác, mô phỏng cách mà conngười thực hiện Vì vậy các phương pháp của Trí tuệ nhân tạo thường được dùng tronglĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng của ngành ngôn ngữ họcnhư hình thái, ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn ngữ tựnhiên là Trả lời tự động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả…

Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiềuđiểm khác biệt mặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo Nóiđến Khai phá dữ liệu là nói đến việc tìm ra thông tin quan trọng, thông tin mong muốn

từ một lượng lớn dữ liệu, còn nói đến Xử lý ngôn ngữ tự nhiên là nói đến việc máy tựphân tích và hiểu những khía cạnh ngôn ngữ trong thông tin cụ thể Tuy nhiên, có mộtbài toán điển hình của Khai phá dữ liệu có sử dụng rất nhiều những khái niệm, mô

hình, phương pháp của Xử lý ngôn ngữ tự nhiên, đó là bài toán Tóm tắt văn bản.

Bài toán tóm tắt văn bản thật ra đã được coi là một vấn đề của Xử lý ngôn ngữ

tự nhiên khi nó lần đầu tiên được đề cập và nghiên cứu một cách nghiêm túc trong bàibáo khoa học của Luhn vào năm 1958 [17] và tiếp đó là của Edminson vào năm 1969[21] Như vậy, Tóm tắt văn bản đã ra đời trước khi có sự ra đời của Khai phá văn bản !

Và khi Khai phá văn bản ra đời, dựa trên những đặc điểm của nó, người ta mới xếpTóm tắt văn bản vào lĩnh vực mới mẻ này

Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ mộtnguồn để tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụthể Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quantrọng nên về bản chất nó thuộc lĩnh vực của Khai phá văn bản Tuy nhiên trong quátrình chắt lọc, rút gọn thì cần có sự áp dụng của các phương pháp Xử lý ngôn ngữ tựnhiên nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang ý nghĩa ngôn ngữ tựnhiên như đầu vào của nó Tóm tắt văn bản có rất nhiều ứng dụng trong ngành Côngnghệ thông tin cũng như Ngôn ngữ học và một số ngành khác Trên thế giới đã có rấtnhiều các ứng dụng Tóm tắt văn bản, với những mục đích nghiên cứu cũng như thương

Trang 10

mại Mặc dù vậy, do những khó khăn và thách thức riêng, Tóm tắt văn bản hiện naychưa được nghiên cứu nhiều ở Việt Nam so với các bài toán điển hình khác trong lĩnhvực Khai phá văn bản Chính vì lý do này em đã chọn Tóm tắt văn bản tiếng Việt là đềtài đồ án tốt nghiệp, mong muốn góp một phần công sức cho sự phát triển của Khai phávăn bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung.

Trong đồ án này em muốn trình bày những kết quả tìm hiểu về bài toán Tóm tắtvăn bản và bước đầu xây dựng một Ứng dụng tóm tắt văn bản tiếng Việt, sử dụng kếthợp các phương pháp của Khai phá văn bản và Xử lý ngôn ngữ tự nhiên có xét tớinhững đặc trưng về ngôn ngữ của tiếng Việt

Đồ án gồm các phần sau :

Chương 1 Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá vănbản nói riêng, các vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toánKhai phá văn bản điển hình

Chương 2 Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của

Xử lý ngôn ngữ tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêngkhi xử lý tự động văn bản tiếng Việt

Chương 3 Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, baogồm mô tả khái niệm chung và phân loại một bài toán Tóm tắt văn bản, lịch sử pháttriển và những ứng dụng của Tóm tắt văn bản, mô hình chung và các phương pháp xâydựng một ứng dụng Tóm tắt văn bản…

Chương 4 Trình bày việc thiết kế và xây dựng ứng dụng tóm lược văn bản tiếngViệt VTAS dựa trên một số phương pháp trong các phương pháp đã nêu ở chương 3.Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được em đề cập đếnvới những nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứulĩnh vực Khai phá văn bản tiếng Việt

Chương 5 Trình bày việc kiểm thử và đánh giá ứng dụng VTAS, các kết quảthực nghiệm của chương trình

Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này

Cuối cùng là phần tài liệu tham khảo và các phụ lục của đồ án

Trang 11

Chương 1 KHAI PHÁ VĂN BẢN

Trong chương này em xin trình bày những vấn đề cơ bản của lĩnh vực Khaiphá dữ liệu và Khai phá văn bản :

 Khái niệm chung về Khai phá dữ liệu và Khai phá văn bản

 Các mô hình biểu diễn văn bản

 Một số bài toán điển hình của lĩnh vực Khai phá văn bản

1.1 Khai phá dữ liệu

Khai phá dữ liệu, thuật ngữ mới ra đời từ đầu những năm 90 của thế kỷ trước,ban đầu được dùng để nói đến quá trình phát hiện, trích rút ra những thông tin hữudụng từ một lượng lớn dữ liệu lưu trữ trong các loại cơ sở dữ liệu khác nhau [22]

Vào những năm trở lại đây, một khái niệm mới ra đời, đó là khái niệm Phát hiệntri thức trong cơ sở dữ liệu ( Knowledge Discovery in Databases) Quá trình Phát hiệntri thức trong cơ sở dữ liệu gồm bảy giai đoạn [22]:

 Làm sạch dữ liệu trước khi thu thập (Data cleaning)

 Tích hợp dữ liệu từ các nguồn khác nhau (Data Integration)

 Chọn lựa dữ liệu ứng viên (Data Selection)

 Biến đổi dữ liệu thành dạng chuẩn để xử lý (Data Transformation)

 Khai phá dữ liệu (Data Mining)

 Đánh giá kết quả (Evaluation)

 Biểu diễn tri thức (Knowledge Presentation)

Như vậy Khai phá dữ liệu chỉ là một trong bảy giai đoạn của quá trình Phát hiệntri thức trong cơ sở dữ liệu Tuy nhiên đây là giai đoạn chính nên sau này người tathường đồng nhất hai khái niệm Khai phá dữ liệu và Phát hiện tri thức trong cơ sở dữliệu Cả hai thuật ngữ này hiện nay dùng để chỉ quá trình phân tích một lượng lớn dữliệu để tìm ra tri thức tiềm ẩn trong đó

Định nghĩa này hàm chứa nhiều điều Tri thức, khái niệm ở mức cao nhất trongmục phân cấp Dữ liệu - Thông tin - Tri thức, dùng để chỉ những dữ liệu có quan hệ vớinhau, mang tính định hướng tập trung (thông tin), đồng thời qua đó chúng ta có thểthấy được tính chủ động và những vận động quá khứ cũng như xu hướng tương lai củathông tin đó Quá trình Khai phá dữ liệu không chỉ dừng ở mức độ phát hiện mà nóthực hiện việc phân tích dữ liệu, để tìm ra những tri thức chưa từng được biết đến trước

đó Người ta không xếp những câu truy vấn cơ sở dữ liệu vào các kỹ thuật Khai phá dữliệu bởi vì chúng chỉ giúp ta lấy ra những dữ liệu đã được xác định, tiền xử lý sắp xếp

Trang 12

từ trước trong một không gian lưu trữ rộng lớn như các cơ sở dữ liệu mà thôi Điều nàycũng có nghĩa là, một bộ máy tìm kiếm (Search Engine) nếu chỉ thực hiện chức năngtìm kiếm đơn thuần trên các cơ sở dữ liệu phẳng thì không thực sự là một ứng dụngKhai phá dữ liệu như chúng ta vẫn từng nghĩ từ trước đến nay.

Các ứng dụng Khai phá dữ liệu hiện tại đã tiến xa trong các môi trường thươngmại cũng là vì khả năng dự đoán được các xu hướng tương lai của một thông tin cầnquan tâm - khía cạnh nổi bật của tri thức Oracle, IBM, Yahoo, Microsoft đã tích hợpnhững nghiên cứu Khai phá dữ liệu hết sức nghiêm túc và thành công của mình vào các

họ sản phẩm, các nền tảng (Platform) dành cho các doanh nghiệp cỡ lớn cũng như cácứng dụng phổ biến cho cá nhân người dùng Các kỹ thuật của Khai phá dữ liệu cũngđược áp dụng rộng rãi trong Data warehousing - quá trình lưu trữ và quản lý tập trungcác cơ sở dữ liệu khác nhau bằng các công cụ quản lý tiên tiến trong việc lưu trữ,truyền tải, phân tích và khai thác dữ liệu với dung lượng lưu trữ cực lớn và tốc độ xử lýcực mạnh

1.2 Khai phá văn bản

Trong cơ sở dữ liệu, phần lớn dữ liệu ở dạng văn bản Lĩnh vực con của Khaiphá dữ liệu áp dụng với dữ liệu văn bản phi cấu trúc được gọi là Khai phá văn bản(Text Mining) Các kỹ thuật chính của Khai phá văn bản là Nhận dạng mẫu, Trích rútđặc trưng, Thống kê tần suất từ khóa, Phân loại…, các phương pháp Trí tuệ Nhân tạonhư Học máy, Mạng Nơ-ron, Giải thuật Di truyền…, các phương pháp Xử lý ngôn ngữ

tự nhiên…

Khai phá văn bản do làm việc với các dữ liệu phi cấu trúc nên cần phải cóphương tiện để mô hình hóa chúng, tiền xử lý cho các bước tiếp theo Nói chung Khaiphá văn bản gồm các bước: Thu thập dữ liệu ở dạng văn bản, làm sạch chúng, phântích biến đổi, lấy thông tin và hiển thị thông tin

Mô hình chung của Khai phá văn bản :

Trang 13

Nguồn dữ liệu

Thu thập văn bản

Tiền xử lý Làm sạch

Phân tích

Xử lý văn bản

Hiển thị văn bản

Hình 1.1: Mô hình khai phá văn bản chung

Công việc thu thập và công việc làm sạch dữ liệu văn bản có thể diễn ra theothứ tự thu thập trước, làm sạch sau và cũng có thể ngược lại tùy yêu cầu Thậm chí,việc thu thập và làm sạch còn được lặp đi lặp lại nhiều lần để có được một kết quả tối

ưu cho các bước tiếp Do vậy quá trình thu thập – làm sạch là quá trình chung và hếtsức quan trọng của các bài toán thuộc lĩnh vực Khai phá văn bản

Ngoài việc thu thập và làm sạch dữ liệu văn bản thì việc tìm kiếm đối sánh vănbản cũng là một công việc cốt lõi, không thể thiếu trong tất cả các bài toán Khai phávăn bản Trong đó các văn bản được thu thập thường có sự liên quan hay tương tự vớinhau Độ liên quan hay tương tự thường được định lượng thông qua sự giống nhau về

từ ngữ, về nghĩa hoặc theo một tiêu chí nào đó

Các bài toán điển hình của lĩnh vực Khai phá văn bản bao gồm : Phân lớp vănbản, Phân loại văn bản, Đánh chỉ mục - Tìm kiếm và Tóm tắt văn bản Các bài toán nàychúng ta sẽ đi sâu hơn ở phần sau

1.3 Biểu diễn văn bản

Như chúng ta đã nói ở phần trước, văn bản thông thường là dạng dữ liệu phi cấutrúc, do vậy muốn xử lý chúng, trước hết phải biểu diễn chúng thành những dạng cócấu trúc Bên cạnh đó, việc xác định mối liên quan và thực hiện các phép biến đổi, ánh

xạ văn bản cũng đòi hỏi những dạng này phải có khả năng thao tác bằng những phéptoán cơ bản như các phép cộng, nhân, đại số quan hệ…và các phép toán phức tạp khác.Trên thực tế, có ba mô hình thường được sử dụng để biểu diễn văn bản, tất nhiên các

Trang 14

mô hình này đều thỏa mãn những yêu cầu kể trên Đó là Mô hình boolean, Mô hìnhkhông gian vector và Mô hình tập thô dung sai.

1.3.1 Mô hình boolean

Trong mô hình boolean, văn bản, vốn là tập hợp của các term ( thuật ngữ ), đượcbiểu diễn bởi chỉ số từng term và trọng số của chúng Trọng số của từng term - dùng đểđánh giá độ quan trọng của chúng - trong mô hình này chỉ mang hai giá trị 0 và 1, tùytheo sự xuất hiện của term đó trong văn bản Trong khi đó, câu truy vấn bao gồm cácvăn bản tìm kiếm liên hệ với nhau thông qua các phép đại số quan hệ cơ bản như NOT(phủ định), AND (và) hay OR (hoặc) Thông qua mô hình Dạng chuẩn phân biệt(Disjunctive Normal Form), câu truy vấn có thể biểu diễn thành dạng vector với cácthành phần liên kết và các phép toán quan hệ cơ bản như trên [1,6]

Từ đây, độ liên quan giữa một văn bản và truy vấn được xác định thông qua cácthành phần liên kết Độ liên quan này chỉ có thể mang hai giá trị : 0 – văn bản khôngphù hợp với truy vấn và 1 – văn bản phù hợp

Do vậy có thể thấy rằng hạn chế lớn nhất của mô hình này đó là việc đánh giá

độ liên quan chỉ trả về hai kết quả, hoặc phù hợp hoặc không, như vậy yêu cầu của hệthống khi cần sắp xếp và chọn lựa các văn bản theo mức độ liên quan đến truy vấn sẽkhông đạt Độ liên quan của mô hình này không thể phân chia thành các mức khácnhau, do vậy không phản ánh được thực tế là việc liên quan giữa văn bản và truy vấn

có thể là mờ, không chắn chắn Hạn chế này được gỡ bỏ khi ta sử dụng một mô hình

tổng quát hơn – Mô hình không gian vector (Vector Space Model).

1.3.2 Mô hình không gian vector

a Mô hình không gian vector chuẩn

Như trên đã đề cập, mô hình không gian vector là mô hình tổng quát hơn môhình Boolean Các văn bản được biểu diễn thành các vector nhiều chiều, với trọng sốkhông chỉ mang hai giá trị là 0 hay 1 mà có thể mang các giá trị khác tùy theo cáchđánh giá, tính toán Một khác biệt nữa so với mô hình boolean là các phép toán cơ bảncủa mô hình không gian vector Các phép toán đại số quan hệ dĩ nhiên không phù hợpnữa, thay vào đó là các phép toán vector như cộng hai vector, nhân hai vector, tích vôhướng…

Khi biểu diễn văn bản thành các vector, vấn đề về truy vấn và xác định độ liênquan hoàn toàn được giải quyết Truy vấn là kết quả của các phép toán vector giữa cácvector biểu diễn cho những văn bản cấu thành nên truy vấn, như vậy, truy vấn trongtrường hợp này cũng là một văn bản đặc biệt Việc xác định độ liên quan giữa truy vấn

và văn bản được quy thành độ liên quan giữa văn bản và văn bản Hai văn bản là haivector, vậy khoảng cách hay góc giữa chúng đều có thể đại diện cho sự liên quan giữahai văn bản này Tất nhiên, để áp dụng được các phép toán vector cơ bản, hai vectorcần chuẩn hóa về số chiều (độ dài)

Biểu diễn hai văn bản lần lượt là hai vector :

Trang 15

x(w1,x,w2,x,….,wn,x) và y (w1,y,w 2,y,…,wn,y).

Góc giữa hai vector này có thể xác địng thông qua công thức Cosine như sau :

n i

n

w w

y i x

2 1

2

) (

)

Theo cách biểu diễn như trên người ta không quan tâm đến chỉ số của một term,

vì vốn nó đã được sắp thứ tự ngay trong vector biểu diễn văn bản Nghĩa là với vectorx(w1,x,w2,x,….,wn,x) kể trên, w1,x chính là trọng số của term có chỉ số là 1, w2.x là trọng sốcủa term có chỉ số là 2,…Việc đánh chỉ số cho term thường dựa vào một danh sáchthuật ngữ Do vậy ta sẽ quan tâm đến việc trọng số của term được xác định ra sao.Trọng số của term, ngoài cách gán giá trị là 0 hay 1 tùy vào sự xuất hiện của term như

mô hình boolean, người ta còn có thể gán các giá trị tần suất cho chúng Việc gán cácgiá trị tần suất cho trọng số của term cũng là một điều hợp lý vì người ta có thể đánhgiá độ quan trọng của một term thông qua tấn suất xuất hiện của term đó trong văn bản.Giá trị này có thể đơn giản chỉ là số lần xuất hiện cuả term đó, tần suất của term đó ( sốlần xuất hiện chia cho tổng số lần xuất hiện của tất cả các term ) hay một giá trị nàokhác tối ưu hơn Thông thường, số lần xuất hiện của một term thường được dùng nhưtrọng số của term trong vector văn bản chứa nó Số lần xuất hiện này thường được biểudiễn thông qua các hàm logarithm cơ số tự nhiên hoặc cơ số mười Đây chính là kỹthuật đánh trọng số TF (Term Frequency)

b Kỹ thuật TFxIDF

Khi nói đến sự liên quan, người ta thường dùng một kỹ thuật, được coi là tin cậy

và phản ánh chính xác độ liên quan Đó là kỹ thuật TFxIDF

TFxIDF, viết tắt của Term Frequency times Inverse Document Frequency, dựa

trên một nhận xét thực tế là : trong một tập các văn bản, khi xét riêng một văn bản thìmột term càng quan trọng nếu nó xuất hiện nhiều trong văn bản đó và xuất hiện ít trongcác văn bản còn lại Rõ ràng nếu có được những điều kiện kể trên, thì term đó sẽ là mộttrong những đặc trưng của văn bản, và độ quan trọng của nó càng lớn

Gọi ft,d là số lần xuất hiện của term t trong văn bản d Tần suất của term t trong văn bản d có thể được đánh giá qua các công thức sau

Gọi N là tổng số các văn bản đang xét, ni là số văn bản mà trong đó term t xuất

hiện ta có ni/N là tấn suất xuất hiện của t trong tất cả các văn bản Nghịch đảo của giátrị này, sau khi được chuẩn hóa, nhân với TF ta có :

i

j i

n

N tf

idf tf

Trang 16

Như vậy giá trị TFxIDF có thể đại diện cho sự quan trọng, mối liên quan củaterm t với một tập hợp các văn bản cho trước.

Quay lại với mô hình không gian vector, chúng ta hoàn toàn có thể dùng giá trịTFxIDF gán cho trọng số của term Tất nhiên khi làm như vậy thì vector biểu diễn củamột văn bản không những phụ thuộc vào từ điển và bản thân văn bản đó mà nó cònphụ thuộc vào những văn bản còn lại trong hệ thống đang xét Việc tính độ liên quanhoàn toàn có thể thực hiện theo các công thức tính khoảng cách Euclidean hay Cosinenhư đã nêu ở trên, tuy nhiên với một tập các văn bản ổn định, không đổi của hệ thốngthì chúng ta có thể tối ưu việc xác định độ liên quan của một văn bản và các văn bảnkhác

Một trong những kỹ thuật tối ưu như sau : giả sử ta muốn xác định độ liên quan

của một văn bản d và một văn bản Di trong tập các văn bản của hệ thống, ta sẽ tính

trước độ liên quan TFxIDF của tất cả các term có trong từ điển với Di, lưu trữ ở đâu đó

Sau này, ta xem các term nào có mặt trong d, tính độ liên quan của term đó với Di

bằng cách nhân số lần xuất hiện của nó trong d với các giá trị TFxIDF đã tính sẵn, sau

đó cộng tất cả kết quả này lại ta sẽ có được độ liên quan của văn bản d và Di Tất

nhiên, cách này sẽ làm giảm thời gian tính toán khi xử lý nhưng đổi lại, chúng ta sẽphải mất chi phí về tài nguyên và thời gian khi lưu trữ các giá trị TFxIDF của tất cả cácterm trong từ điển với tất cả các văn bản trong tập văn bản D Kỹ thuật này được gọi là

kỹ thuật ngoại tuyến - offline Khi thời gian xử lý cần phải nhanh, kỹ thuật ngoại tuyếnđược sử dụng Chúng ta sử dụng nhiều tài nguyên để lưu trữ trước một lượng lớn dữliệu đã tính toán trước, sau đó khi xử lý chỉ cần thực hiện một khối lượng nhỏ hơn rấtnhiều, để đảm bảo mặt hiệu suất thực thi của ứng dụng Kỹ thuật ngoại tuyến còn được

sử dụng rất rộng rãi trong các bài toán khác của lĩnh vực Khai phá văn bản nói chung

và Khai phá dữ liệu nói riêng

Kỹ thuật TFxIDF không những dùng để biểu diễn văn bản theo mô hình vector

mà còn ứng dụng vào rất nhiều các giai đoạn khác trong những bài toán Khai phá vănbản Kỹ thuật này ra đời đã lâu nhưng hiện vẫn đang được dùng phổ biến bởi sự phảnánh chính xác và tin cậy của độ đặc trưng, độ riêng biệt, độ quan trọng của các thànhphần dữ liệu Người ta cũng đã đưa ra một số các công thức khác thuộc dạng TFxIDF

và đều mang lại những kết quả tốt

c Mô hình vector thưa và các mô hình không gian vector khác

Khi đề cập đến chỉ số của một term trong vector biểu diễn văn bản, chúng ta đãnói rằng chúng đã được xác định đối với một từ điển cho trước Tuy nhiên, theo môhình không gian vector chuẩn thì việc lưu trữ một vector như vậy sẽ rất lãng phí tàinguyên Một vector chuẩn sẽ có số chiều là số term có trong từ điển Với một từ điểntrung bình thì số term là khoảng bảy mươi ngàn Trong khi đó một văn bản với độ dàitrung bình có số term ít hơn rất nhiều Các term không xuất hiện trong văn bản sẽ cótrọng số là 0 và như vậy vector biểu diễn văn bản sẽ gồm rất nhiều giá trị 0, gấp nhiềulần các giá trị khác 0 Điều này có thể khắc phục bằng mô hình vector thưa Một vectorbiểu diễn văn bản gồm các cặp chỉ số - trọng số của các term xuất hiện trong văn bản

Trang 17

đó (tất nhiên trọng số trong trường hợp này luôn khác 0) Như vậy tuy ta tốn thêm tàinguyên lưu trữ chỉ số của term nhưng chỉ phải lưu trữ số lượng term ít hơn rất nhiều.Biểu diễn là vậy, nhưng ta hoàn toàn có thể chuyển đổi giữa mô hình vector thưa và môhình không gian vector chuẩn một cách nhanh chóng Việc tính toán độ tương tự vẫn

không đổi Bản chất của mô hình này thật đơn giản : Mỗi cặp i - di đại diện cho một vector chuẩn có trọng số của term thứ i là di và tất cả các trọng số thành phần còn lại là

0 Vector biểu diễn văn bản là tổng của các vector trên

Như vậy, thay vì biểu diễn vector văn bản dạng chuẩn, chúng ta còn có thể biểudiễn chúng thành tuyến tính các vector thành phần Các vector này có thể là các vectorđơn vị, các vectơ trực giao, trực chuẩn Mỗi cách chọn các vector thành phần đưa lạicho chúng ta các mô hình không gian vector tiên tiến hơn nhằm phục vụ tốt hơn nhữngmục đích hay những kết quả cho các bước xử lý văn bản tiếp sau

Một trong những cách biểu diễn tuyến tính vector thành phần đó là kỹ thuậtĐánh chỉ mục khái niệm (Concept Indexing) Thay vì đơn vị văn bản là các term, đơn

vị theo kỹ thuật này là khái niệm Mỗi khái niệm cũng là một vector Vector biểu diễnvăn bản là tuyến tính của các vector này Kỹ thuật Đánh chỉ mục khái niệm khôngdừng lại ở việc mô tả văn bản mà thật sự nó là một kỹ thuật mới được nghiên cứu vàđưa vào áp dụng gần đây nhằm xây dựng các giải thuật tiên tiến cho các bài toán nhưPhân lớp văn bản, Phân loại văn bản v.v

1.3.3 Các mô hình biểu diễn văn bản khác

Mô hình mạng Bayes là sự kết hợp phần nào của mô hình xác suất và lý thuyết

đồ thị Mạng Bayes được mô tả bởi một đồ thị có hướng, trong đó các nút là các biếnngẫu nhiên, các cung là quan hệ nhân quả giữa các biến này Trên cung có ghi các xácsuất có điều kiện [3,6]

Mô hình mạng Bayes thường được dùng cho các phương pháp học Bayes dựatheo lý thuyết phân loại Bayes ( Naive Bayes Classify )

c Mô hình tập thô dung sai

Mô hình tập thô dung sai (Tolerance Rough Set Model) là một mô hình mới,tiên tiến dựa trên lý thuyết về logic mờ và tập mờ (Fuzzy Set) Điều cốt lõi của lýthuyết này là việc xác định chính xác một giả thiết nào đó (ví dụ như hai văn bản này

có phù hợp, có giống nhau không ) là một điều rất khó Tuy nhiên chúng ta có thể chỉ

ra một cặp xấp xỉ trên và xấp xỉ dưới để khẳng định được giả thiết đó là đúng Sử dụng

Trang 18

các suy diễn hợp lý để xác định và "làm đẹp" các ngưỡng này Lý thuyết Logic mờ đã

và đang được ứng dụng rất mạnh mẽ trong lĩnh vực Trí tuệ nhân tạo [3]

Mô hình tập thô gần đây được sử dụng nhiều cho các bài toán tìm kiếm cũngnhư phân nhóm văn bản Lý thuyết tập thô được các nhà nghiên cứu Trí tuệ nhân tạophát triển và ngày càng thể hiện được tính ưu việt không chỉ trong việc biểu diễn vàthao tác văn bản mà còn trong các vấn đề khác của lĩnh vực này

1.4 Các bài toán Khai phá văn bản điển hình

1.4.1 Bài toán Phân lớp văn bản

Bài toán phân lớp văn bản (Text Categorization) là một bài toán hay, có nhiềuứng dụng trong thực tế Đầu vào của bài toán là tập các văn bản đã được phân lớp sẵn,cho một văn bản mới, ứng dụng phải chỉ ra văn bản đó thuộc lớp nào trong các lớp cósẵn ban đầu Thuật toán thường được dùng là Cây quyết định (Decision Tree), K -Láng giềng gần nhất (K - Nearest Neighbor), các thuật toán hồi quy (Regression-basedAlgorithms) Văn bản đầu vào sau khi được biểu diễn theo một mô hình nào đó, đượctheo dõi đối sánh với các văn bản đã phân lớp : có liên quan tới văn bản hoặc các vănbản nào nhất thì sẽ thuộc lớp tương ứng Người ta gọi đây là phương pháp học có giámsát (Supervised Learning Approach) [5,14]

Hình 1.2: Mô tả các bài toán phân lớp văn bản

1.4.2 Bài toán Phân nhóm văn bản

Bài toán Phân nhóm văn bản (Text Clustering) có điểm khác so với bài toán

Phân lớp văn bản ở chỗ cho một tập văn bản chưa được phân loại gì cả, yêu cầu bài

Trang 19

toán này là phân tập văn bản này thành các nhóm dựa trên độ tương đồng giữa chúng.Đây là phương pháp học không có giám sát (Unsupervised Learning Approach) Cácthuật toán hay được dùng để giải quyết bài toán này là : Các thuật toán Phân chia, thuậttoán Phân cấp, Mô hình SVM (Support Vector Machine) và các thuật toán xây dựngtập thuật ngữ thường xuyên (Frequent Term Set).

Hình 1.3: Mô tả bài toán Phân nhóm văn bản

1.4.3 Bài toán Đánh chỉ mục - Tìm kiếm

Một tên gọi khác phổ biến hơn của bài toán này là Thu thập thông tin(Information Retrieval) Nói chính xác hơn bài toán Thu thập thông tin là bài toán cơbản của Khai phá dữ liệu, và là bài toán tổng quát hơn của bài toán Đánh chỉ mục - Tìmkiếm (Indexing - Searching) Yêu cầu bài toán là tìm kiếm trong kho dữ liệu những vănbản phù hợp với câu truy vấn đưa vào Bước đánh chỉ mục thường giúp tìm kiếmnhanh hơn Bài toán này là cơ sở cho các Search Engine - những bộ máy tìm kiếm vàtrả về thông tin - một trong những công cụ hũu ích nhất trên Internet giúp chúng ta cóthể tìm được thông tin cần thiết chỉ thông qua một câu truy vấn đơn giản Hiện nay cácứng dụng tìm kiếm kiểu này thường áp dụng các phương pháp truy hồi để tăng khảnăng chính xác cho dữ liệu tìm được Bài toán này còn là đầu vào cho một số các bàitoán khác [2,3,6]

Trang 20

1.4.4 Bài toán Tóm tắt văn bản

Quá trình tóm tắt là quá trình rút ra những thông tin quan trọng nhất từ một haynhiều nguồn văn bản để tạo ra một văn bản gọn hơn phục vụ cho một số nhiệm vụ hayngười dùng cụ thể Bài toán tóm tắt văn bản (Text Summarization) là một trong nhữngbài toán khó cài đặt nhất nhưng cũng hữu ích nhất của lĩnh vực Khai phá văn bản Một

số biến thể của bài toán này như sinh phụ đề tự động (Subtitling), sinh ý chính tài liệu(Document Gisting), sinh tiêu đề văn bản (Header Generating) Những thuật toán củabài toán này cũng được dùng trong các bài toán tương tự như tóm tắt hình ảnh, âmthanh - những dữ liệu đa phương tiện

1.5 Kết chương

Trong chương này em đã đề cập đến những khái niệm cơ bản về Khai phá dữliệu, Khai phá văn bản, các mô hình biểu diễn văn bản và các bài toán điển hình củaKhai phá văn bản Các chương sau em sẽ đi sâu vào việc trình bày những hiểu biết bàitoán Tóm tắt văn bản, đặc biệt là xem xét khả năng phát triển trong môi trường tiếngViệt và qua đó cài đặt một ứng dụng tóm tắt văn bản tiếng Việt dựa trên những tìmhiểu và nghiên cứu về Xử lý tiếng Việt

Trang 21

Chương 2 XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Trong chương này em xin trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên

 Tổng quan về Xử lý ngôn ngữ tự nhiên

 Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên

 Đặc trưng ngôn ngữ tiếng Việt và ảnh hưởng của nó tới quá trình xử lý văn bảntiếng Việt tự động

2.1 Tổng quan về Xử lý ngôn ngữ tự nhiên.

Xử lý ngôn ngữ tự nhiên như chúng ta đã đề cập, là lĩnh vực thuộc ngành Khoahọc máy tính, và đã xuất hiện từ rất lâu Với việc sử dụng các phương pháp Trí tuệnhân tạo, Xử lý ngôn ngữ tự nhiên cũng thường được coi là ngành nghiên cứu hẹp hơncủa lĩnh vực này

Ngôn ngữ tự nhiên (Natural Language) là thuật ngữ dùng để chỉ các ngôn ngữgiao tiếp giữa con người với nhau như tiếng Việt, tiếng Anh, tiếng Nhật…, để phân biệtvới ngôn ngữ nhân tạo (Artificial Language) hay còn gọi là ngôn ngữ lập trình(Programming Language) để cjỏ các ngôn ngữ con nguời giao tiếp với máy tính nhưPascal, C/C++, Java… Lĩnh vực Xử lý ngôn ngữ tự nhiên ra đời đã lâu, trải qua nhiềunghiên cứu và ứng dụng, ngày nay được hiểu như là lĩnh vực giúp máy tính xử lý cácvấn đề về ngôn ngữ tự nhiên, không ngoài mục đích là để giúp cho giao tiếp giữa người

và máy thuận tiện và thân thiện hơn

Xử lý ngôn ngữ tự nhiên có rất nhiều hướng ứng dụng và mỗi hướng ứng dụng

đó lại là một ngành nghiên cứu hết sức thú vị Khi nói đến Xử lý ngôn ngữ tự nhiên thìchúng ta phải nói đến cơ sở ngôn ngữ tự nhiên Đó là những vấn đề cơ bản của ngônngữ mà lĩnh vực Xử lý ngôn ngữ tự nhiên bám sát và nghiên cứu làm sao cho máy tínhphân tích và hiểu ngôn ngữ tự nhiên giống như con người hiểu hoặc chí ít cũng là gầnnhư cách con người hiểu Các vấn đề cơ bản của ngôn ngữ tự nhiên bao gồm :

 Phonology & Phonetics (Âm vị và Ngữ âm)

 Morphology (Hình thái học)

 Grammar (Ngữ pháp)

 Stôiantic (Ngữ nghĩa)

 Pragmatics (Ngữ dụng)

Âm vị và ngữ âm học là các ngành nghiên cứu của Ngôn ngữ học, chuyên

nghiên cứu về đơn vị phát âm, cách phát âm và các biến thái của chúng Hướng ứng

Trang 22

dụng tương ứng của chúng thuộc Xử lý ngôn ngữ tự nhiên là ngành Xử lý - Nhận dạngtiếng nói.

Hình thái học là ngành nghiên cứu về hình thái của từ, nghĩa là tùy thuộc vào

thời, thể, cách mà các từ có sự biến đổi hay kết hợp khác nhau Các thành tựu của hìnhthái học được các nhà khoa học về Máy tính sử dụng trong các nghiên cứu mà họ lấy từhay chữ là đơn vị để xử lý như Nhận dạng chữ viết, Kiểm tra và sửa chính tả…

Grammar là ngành nghiên cứu về ngữ pháp, bao gồm từ pháp và cú pháp Từ

pháp đề cập đến các đặc tính từ loại (Part Of Speech), giống, số của từ Một số nhàngôn ngữ cũng xếp Hình thái học vào vấn đề Từ pháp học Cú pháp (Syntactic) đề cậpđến sự liên kết giữa các từ, các ngữ trong câu Ngữ pháp và ngữ nghĩa là hai vấn đề mà

Xử lý ngôn ngữ tự nhiên quan tâm nhất và cũng đạt được nhiều kết quả nghiên cứunhất cho đến hiện tại

Syntactic đề cập đến vấn đề ngữ nghĩa : một từ, ngữ hay câu được “hiểu” như

thế nào, hàm chứa ý gì, quan hệ về nghĩa giữa các từ với nhau thế nào Đối với tiếngAnh đã có nhiều nghiên cứu về ngữ nghĩa và thậm chí nhiều mạng ngữ nghĩa - mô tảquan hệ về nghĩa giữa các từ theo nhiều khía cạnh - đã được xây dựng Nổi tiếng nhất

có lẽ là WordNet [9,18,24] Mạng ngữ nghĩa này là một kho tri thức khổng lồ đượccung cấp miễn phí cho việc nghiên cứu Hiện tại nhiều mạng Wordnet cho các thứtiếng khác ngoài tiếng Anh cũng đã được xây dựng, tuy nhiên mạng Wordnet Việt namhiện tại vẫn chưa được chính thức nghiên cứu và xây dựng

Pragmatic - Ngữ dụng học - là ngành nghiên cứu việc dùng các từ, các ngữ

trong các lĩnh vực khác nhau Các thống kê về việc tần suất sử dụng của các từ trongcác lĩnh vực khác nhau là những thông số quan trọng cần thiết cho những phương phápthống kê của Xử lý ngôn ngữ tự nhiên

Trên các mức này, máy tính cần phải hiểu được ngôn ngữ ở mức cao hơn Đó làmức ngữ đoạn (Discourse) và mức tri thức (World Knowledge)

Mức ngữ đoạn là các quan hệ về mặt ngữ pháp và ngữ nghĩa, thậm chí ngữ dụngcủa các đoạn văn bản Đã có nhiều nghiên cứu về vấn đề này, nổi tiếng nhất là Lýthuyết cấu trúc tu từ (Rhetorical Structure Theory - RST) RST biểu thị các quan hệngữ pháp và ngữ nghĩa giữa các câu với nhau, giữa các đoạn với nhau thông qua cácquan hệ được định nghĩa sẵn Lý thuyết này thường được áp dụng trong việc phân tíchngữ đoạn cũng như sinh văn bản tự động

Mức tri thức là mức rộng nhất, máy phải hiểu được tất cả các vấn đề của mộttiếng, một từ, một ngữ, một câu, một khái niệm, một thông tin, một tri thức Tất nhiênchưa có một nghiên cứu nào đạt được mức này tuy nhiên cũng đã có một số nghiên cứuđặt ra tham vọng sẽ mô hình hóa về tất cả mọi đặc tính của ngôn ngữ cho một đơn vịnào đó, có thể là từ, câu, đoạn

Ngôn ngữ tự nhiên là một vấn đề phức tạp ngay cả với con người, vì vậy, đốivới máy tính việc xử lý ngôn ngữ tự nhiên là một công việc hết sức khó khăn Chúng taphải đối mặt với các bài toán kinh điển của Khoa học máy tính và Trí tuệ nhân tạo - các

Trang 23

bài toán đòi hỏi chi phí tính toán cực lớn Chính vì điều này, Xử lý ngôn ngữ tự nhiêntrước đây phát triển chậm và có xu hướng áp dụng các thuật toán dựa luật và suy diễn.Tuy nhiên vào những thập kỷ gần đây, sự phát triển nhanh chóng của phần cứng máytính kéo theo sự ra đời của các máy tính nhỏ gọn, giá thành rẻ mà lại có hiệu suất tínhtoán cao đã mở ra những triển vọng sáng sủa cho lĩnh vực Trí tuệ nhân tạo nói chung

và Xử lý ngôn ngữ tự nhiên nói riêng Các thuật toán thống kê cũng đang từng ngàyđược áp dụng nhiều hơn và cho những kết quả khả quan Các thành tựu của Xử lý ngônngữ tự nhiên không chỉ áp dụng trong nghiên cứu mà đã được dùng để xây dựng cácứng dụng mang tính thương mại và đạt được nhiều thành công trên thị trường

2.2 Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên

Như chúng ta đã đề cập, ngữ pháp và ngữ nghĩa là các vấn đề được quan tâmnhất và có ứng dụng nhiều nhất trong các bài toán điển hình của lĩnh vực Xử lý ngônngữ tự nhiên như Tóm tắt, Dịch máy, Trả lời tự động… Sau đây là các bài toán cơ bảnthuộc về ngữ pháp và ngữ nghĩa mà các nhà Xử lý ngôn ngữ tự nhiên thường phải giảiquyết

2.2.1 Phân tách thuật ngữ - Phân tách đoạn và câu

Phân tách thuật ngữ (Word Segmentation) là công việc tách một chuỗi văn bản

ra thành các term (tạm dịch : thuật ngữ) xem các term nào có trong từ điển, term nàokhông có trong từ điển (các tên riêng, ký hiệu, chữ viết tắt…) Công việc này làm tiền

đề cho việc mô hình hóa văn bản Chúng ta phải thực hiện việc này trước thì mới có thểvector hóa một văn bản, đối sánh hay xác định độ liên quan…

Đối với các ngôn ngữ Latin giống như tiếng Anh và tiếng Pháp thì vấn đề nàykhông phức tạp bằng các ngôn ngữ khác như tiếng Việt, tiếng Trung Quốc hay tiếngNhật… do các từ của tiếng Anh hay tiếng Pháp được tách nhau bởi một hay nhiều dấucách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các dấu cách không phải là từ

mà là tiếng (chữ) - một đơn vị nhỏ hơn từ

Ví dụ: Xét câu tiếng Anh sau :

We announced that we have captured him

Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :

We | announced | that | we | have | captured | him

Tuy nhiên ta xem câu tiếng Việt tương ứng :

Chúng em xin thông báo rằng chúng em đã bắt được hắn ta

Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này Kết quảphân tách thuật ngữ đúng phải là như sau :

Để giải quyết vấn đề này các nhà Xử lý ngôn ngữ tự nhiên của Việt Nam, TrungQuốc, Nhật Bản… thường sử dụng một số phương pháp như : Đối sánh thuật ngữ dài

Trang 24

nhất (Maximum Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa

cú pháp (Syntax-based Approach)… Mỗi phương pháp có ưu và nhược điểm riêngnhưng phương pháp nào cũng sử dụng một từ điển hoặc danh sách từ vựng Do vậy sựchính xác của từ điển hay danh sách từ vựng là yếu tố quan trọng ảnh hưởng đến sựchính xác của bộ phân tách thuật ngữ Ngoài ra vì có những nhập nhằng trong ngônngữ nên bài toán này cũng như các bài toán khác của Xử lý ngôn ngữ tự nhiên chưađược giải quyết một cách trọn vẹn Hiện tại các bộ phân tách thuật ngữ thường đạtđược kết quả từ 85% đến 98% các từ phân tách chính xác [15]

Bộ đoán nhận danh từ riêng, chữ viết tắt cũng có thể coi là một phần của bộphân tách thuật ngữ và được áp dụng rộng rãi Nhiều bài toán coi đây là một công việc

cơ bản vì danh từ riêng, chữ viết tắt… có tần suất xuất hiện khá cao trong văn bản vàchúng cũng hàm chứa mức độ quan trọng lớn Ngoài ra việc đoán nhận danh từ riêng,chữ viết tắt còn là một phần của việc hợp giải tham chiếu (Coreference Resolution) -được dùng nhiều trong các ứng dụng tóm tắt và sinh ngôn ngữ tự nhiên (NaturalLanguage Generating)

Xét về phạm vi lớn hơn thì chúng ta phải đối mặt với một vấn đề khác, đó làPhân tách đoạn-câu (Sentence Segmentation) là công việc phân tách một văn bản thànhnhững đoạn và câu nhằm tạo tiền đề cho việc phân tích cú pháp sau này của văn bản

đó Bài toán này không phân biệt ngôn ngữ vì hầu hết các ngôn ngữ thường phân táchcâu dựa trên những dấu hiệu là các dấu ngắt câu như dấu chấm, chấm hỏi, chấm than Tuy vậy, nếu văn bản đưa vào không chuẩn thì kết quả cũng không thể đạt 100% Ví

dụ như lỗi sau các dấu chấm câu không viết hoa sẽ dẫn đến việc hiểu nhầm thành dấu

ba chấm Ngoài ra, một số phần trăm sai sót khác còn do hiện tượng những dấu chấmcâu được dùng như là ký hiệu thực hiện chức năng khác khác gây ra Ví dụ như dấuchấm được dùng để phân tách phần nguyên và phần thập phân của một con số Nóichung phân tách đoạn-câu có khả năng đạt được độ chính xác cao hơn và cũng dễ dàngcài đặt hơn phân tách từ nhưng phạm vi áp dụng của chúng thì không rộng bằng

[Học sinh]N[học]V [sinh học]NTuy nhiên làm sao để máy có thể hiểu và gán đúng nhãn từ loại là một vấn đề

Sự nhập nhằng trong ngôn ngữ cản trở việc máy đoán nhận đúng Ngoài ra việc phântách thuật ngữ cũng ảnh hưởng tới việc gán nhãn vì các danh sách thuật ngữ của mộtcâu là đầu vào cho một bộ gán nhãn từ loại Với ví dụ trên có khá nhiều bộ gán nhãn từloại gán sai dẫn tới kết luận sai về cú pháp

Trang 25

Các phương pháp thường dùng để cài đặt bộ gán nhãn từ loại bao gồm : Môhình Markov ẩn - Giải thuật Viterbi, Dựa luật cú pháp (rule-based), Dựa bộ nhớ(Memory-based), Độ hỗn loạn lớn nhất (Maximum Entropy)… Trong đó các phươngpháp áp dụng mô hình Markov ẩn (Hidden Markov Model - HMM) được sử dụngnhiều nhất Các phương pháp như Bigram, Trigram hay CFG (Context Free Grammar)đều thuộc loại này Hiện nay một bộ gán nhãn từ loại (POS Tagger) chính xác nhất đạtđược 98% từ gán nhãn đúng [15].

2.2.3 Phân tích cú pháp

Phân tích cú pháp là bài toán tổng quát của gán nhãn từ loại Ngoài việc gán từloại cho từng từ, bộ phân tích cú pháp (Syntax Analyzer, Parser) phải nhận biết đượccác ngữ và gán kiểu cho các ngữ làm sao để có được một câu hoàn chỉnh về mặt ngữpháp Nếu không câu đó là câu không hoàn chỉnh Xét về ngôn ngữ học, đó sẽ khôngphải là câu Kết quả việc gán từ, ngữ này thường được biểu diễn thành cây, gọi là cây

về mặt ngữ pháp [7]

Việc phân tích cú pháp là một công việc cơ bản của các bài toán Xử lý ngôn ngữ

tự nhiên, tuy vậy do tính chất phức tạp của ngôn ngữ và các đặc thù riêng của quá trìnhmáy học, các bộ phân tích cú pháp chưa đạt được độ chính xác cao như mong đợi

2.2.4 Phân tích ngữ nghĩa

Như chúng ta đã đề cập ở trên, phân tích ngữ nghĩa tức là giúp cho máy có thể

“hiểu” được một từ, một câu, một đoạn hàm chứa ý nghĩa gì hay mối quan hệ vềnghĩa giữa chúng Các phương pháp dùng để phân tích ngữ nghĩa hay được dùng đó làcác phương pháp dựa trên tri thức hay dựa trên ngữ liệu Dựa trên tri thức

Trang 26

(Knowledge-based) là phương pháp dựa trên các kho tri thức ngữ nghĩa có sẵn (nhưWordNet) để phân tích ngữ nghĩa Dựa trên ngữ liệu (Corpus-based) là phương phápdựa trên những thống kê các kho ngữ liệu để đưa ra được ngữ nghĩa của đối tượngđang xét Các phương pháp này nói chung đòi hỏi phải có kho tri thức hoặc kho ngữliệu lớn, càng lớn càng chính xác nhưng đối với tiếng Việt thì đây là hạn chế lớn dochúng ta không có được các nguồn tài nguyên này Một cách khắc phục là xây dựngcác kho ngữ liệu song ngữ (Parallel Corpora) và từ các nghiên cứu tương ứng của mộtngôn ngữ mà dẫn ra một số kết quả thích hợp cho ngôn ngữ còn lại.

2.3 Các đặc trưng ngôn ngữ của tiếng Việt

Do trong đồ án này, việc tìm hiểu các đặc trưng ngôn ngữ tiếng Việt có mụcđích là để áp dụng các phương pháp Xử lý ngôn ngữ tự nhiên vào quá trình Tóm tắtvăn bản tiếng Việt nên chỉ có các đặc trưng về từ pháp - hình thái từ và đặc trưng vềngữ pháp được đề cập đến Đặc trưng về ngữ âm và âm vị được đề cập đến một phầnvới vấn đề chuẩn hóa thanh điệu và i-y Các đặc điểm về ngữ nghĩa tiếng Việt không cónhiều khác biệt so với các ngôn ngữ khác cũng sẽ không được đề cập

2.3.1 Đặc trưng về ngữ âm và âm vị

Mỗi âm tiết tiếng Việt gồm ba phần : phần đầu, phần sau và thanh điệu Phầnđầu của âm tiết được xác định là Âm đầu, vì ở vị trí này chỉ có một âm vị tham gia cấutạo Phần sau của âm tiết được gọi là phần Vần Phần Vần gồm các loại âm vị đượcgọi là Âm đệm, Âm chính và Âm cuối Thanh điệu có sáu loại ngang, hỏi, huyền, sắc,ngã, nặng Thanh điệu được đặt ở trên nguyên âm trong âm tiết Tuy nhiên phần Vần

có thể có nhiều nguyên âm do vậy việc bỏ dấu ở nguyên âm nào là vấn đề đã được đặt

ra từ lâu trong các hội thảo về chuẩn hóa ngôn ngữ và công nghệ thông tin-truyềnthông Ngoài ra, do sự có mặt của dấu phụ - các dấu không phải là thanh điệu, đi kèmvới một số nguyên âm để tạo ra các nguyên âm mới ( Ví dụ: “^” với â, ê, ô hay “’” với

ơ, ư…) - nên vị trí đặt thanh điệu cũng phải hòa hợp với các dấu phụ này

Như vậy tại sao cần phải chuẩn hóa ? Rõ ràng khi viết chữ, chỉ cần viết đúng cácdấu thanh điệu, vị trí đâu cần quan tâm, ai cũng hiểu được kia mà ! Thật ra không phảivậy, khi nền Công nghệ thông tin phát triển, việc bỏ dấu chính xác chính là một phầntrong quá trình lưu trữ các âm tiết, chữ viết trong các tài liệu điện tử và tất nhiên đòihỏi một sự chính xác tuyệt đối Nói riêng trong các vấn đề của đồ án này, khi phân táchthuật ngữ, máy tính phải dựa vào từ điển Nếu các thuật ngữ trong từ điển và thuật ngữtrong văn bản đầu vào không được lưu trữ theo cùng quy tắc thì việc đối sánh sẽ trả vềkết quả không mong muốn Ví dụ như khi máy tính tìm kiếm từ “hóa trị” trong từ điểntiếng Việt sẽ báo không có vì trong từ điển chỉ lưu trữ từ “hoá trị” Vấn đề tương tựcũng xảy ra nếu không có sự chuẩn hóa i-y Ví dụ như vật lý một từ dễ thấy trong cácbáo điện tử sẽ không có mặt trong từ điển tiếng Việt vì trong từ điển chỉ có từ “vật lí”.Các quy tắc chuẩn hóa về vị trí thanh điệu cũng như vấn đề i-y đã được một số nhàngôn ngữ học đưa ra và nói chung đã được ngành ngôn ngữ học thống nhất Nhưngtrong các văn bản điện tử thì hiện tại chưa có được các chuẩn hóa này Bản thân các bộ

Trang 27

gõ tiếng Việt thường được dùng hiện nay như Vietkey hay Unikey cũng có các tùychọn bỏ dấu

Xét về mặt hình thái, khác với phần lớn các ngôn ngữ hệ Latin, tiếng Việtthường không có hiện tượng biến cách hay dẫn xuất khi câu thay đổi về thời, thể, cách.Thay vào đó là việc sử dụng kết hợp với hư từ (từ công cụ) để phản ánh sự thay đổinày

Hư từ là các từ cấu tạo bởi các tiếng được dùng độc lập, chỉ có ý nghĩa về mặtngữ pháp Ví dụ như : đã, sẽ, bị, chưa… Các hư từ này kết hợp với các thực từ - là các

từ mang ý nghĩa thật sự về nghĩa - sẽ thực hiện nhiệm vụ phản ánh việc thay đổi vềthời, thể, cách [7,8]

Ví Dụ:

Một con vịt cái - các con vịt đực - loài vịt (Giống)

Một con vịt - Những con vịt - Mười con vịt - lũ vịt (Số).

Điều này ảnh hưởng trực tiếp đến quá trình tiền xử lý văn bản cũng như đoánnhận ngữ nghĩa Việc chuẩn hóa hình thái từ của các hệ tiếng Latin là cả một vấn đềtrong khi đó tiếng Việt chúng ta không cần quan tâm đến Ngược lại, khi xét đến ngữnghĩa chúng ta phải thông qua các hư từ hay danh từ số lượng đi kèm để hiểu đượcnghĩa đầy đủ của một từ hay cụm từ

Trang 28

Ví dụ, Xét câu tiếng Anh sau :

This flower is beautiful

Câu tiếng Việt tương ứng :

Bông hoa này đẹp

Hai câu này đều là các câu hoàn chỉnh về mặt ngữ pháp Trong câu tiếng Anhchúng ta nhận ra động từ to be được chia với ngôi thứ ba số ít Còn trong tiếng Việtphần thuyết chỉ là tính từ “đẹp” mà thôi

Một điều cần nói ở đây là chúng ta không nên so sánh và ép buộc các quy tắcngữ pháp của một ngôn ngữ cho một ngôn ngữ khác do sự ra đời, lịch sử phát triển,hoàn cảnh xã hội và đặc trưng văn hóa của mỗi ngôn ngữ là khác nhau, đặc biệt khichúng thuộc các hệ ngôn ngữ khác nhau Đã có nhiều cá nhân cho rằng ngữ pháp tiếngAnh chặt chẽ hơn ngữ pháp tiếng Việt, cụ thể trong ví dụ trên thực ra câu tiếng Việtphải là Bông hoa này thì đẹp, và thì là một động từ tương ứng với to be Như vậy tiếngViệt cũng có cấu trúc chính như tiếng Anh ! Kết luận này là gượng ép và vô căn cứ

Trên đây chúng ta đã đề cập đến vấn đề nòng cốt câu ảnh hưởng thế nào đếnviệc tạo câu, sau đây phần trật tự từ Trật tự là một trong ba phương tiện được sử dụngtrong tiếng Việt để cấu thành câu [7,8] Do tiếng Việt có tính tịnh tiến, tính cảm đề vàtính đề diễnnên khác biệt giữa tiếng Việt và các ngôn ngữ khác hệ về mặt trật tự là rấtlớn Điều này ảnh hưởng đến việc ánh xạ một-một các quy tắc ngữ pháp đã có củangôn ngữ khác (phổ biến hơn, có nhiều thành tựu nghiên cứu hơn) với các quy tắc củatiếng Việt Chỉ trong một phạm vi nào đó thì phép ánh xạ này mới tương ứng cả về trật

tự cũng như chức năng của từ, ngữ Trong trường hợp tiếng Anh - tiếng Việt, phạm vinày không lớn Nói chung các ánh xạ này thường là nhiều nhiều và chúng ta cần cónhững phương tiện hay thông tin khác để xác định sự tương ứng duy nhất Đây là tưtưởng chính của các phương pháp Xử lý ngôn ngữ tự nhiên dựa vào ngữ liệu song ngữhoặc đa ngữ (parallel corpora) vốn đang được nghiên cứu và áp dụng cho các ngôn ngữ

ít phổ biến hơn bằng cách sử dụng các thành quả nghiên cứu đối với tiếng Anh - ngônngữ phổ biến nhất Việc xác định ánh xạ giữa các đơn vị ngôn ngữ (từ, ngữ, câu…)

Trang 29

được gọi là việc căn ke đơn vị ngôn ngữ (Alignment) Ví dụ, thông qua việc dịch vàgán nhãn bằng tay hai câu thuộc hai ngôn ngữ có ý nghĩa và cấu trúc tổng quan tươngđương người ta có thể rút ra các luật chuyển đổi từ ngôn ngữ này sang ngôn ngữ kia vàngược lại.

Minh họa cụ thể : Sau khi gán nhãn từ loại và phân tích cú pháp (do người thựchiện) tương ứng ngôn ngữ cho hai câu sau :

Tiếng Việt : Chiếc xe máy màu đỏ là xe của em

Tiếng Anh : The red bike is my bike

Hình 2.2: Học luật chuyển đổi cú pháp Anh - Việt

Từ đây ta rút ra các luật cú pháp chuyến đổi tương ứng của tiếng Việt và tiếngAnh để cho máy học Sau này giả sử cần máy tính phân tích cú pháp một câu tiếng Việttương tự câu trên (Chẳng hạn : Cái xe đạp màu xanh là cái xe của anh ấy), với câu tiếnganh tương ứng (The blue bicycle is his bicycle) kèm theo phân tích cú pháp của câutiếng Anh này, máy sẽ dựa trên các vào chuyển đổi này để có thể đưa ra kết quả phântích cú pháp của câu tiếng Việt

2.4 Kết chương

Xử lý ngôn ngữ tự nhiên là một lĩnh vực lý thú và có khả năng ứng dụng rộngrãi trong các ngành khoa học khác Các vấn đề của Xử lý ngôn ngữ tự nhiên phụ thuộcvào các đặc trưng của từng ngôn ngữ Vì vậy mong muốn phát triển các nghiên cứu vàứng dụng riêng về Xử lý tiếng Việt đã trở thành mong muốn chung của các nhà nghiêncứu trong Công nghệ thông tin, Ngôn ngữ, Văn hóa Việt Nam…

Trong chương này em đã trình bày các tìm hiểu của mình về Lĩnh vực Xử lýngôn ngữ tự nhiên cũng như các đặc trưng ngôn ngữ tiếng Việt cần thiết cho bài toánTóm tắt văn bản tiếng Việt Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên trong tiếngViệt đã được nêu ra và sẽ được giải quyết phần nào trong các chương sắp tới Sau đây

là phần tìm hiểu sâu hơn về bài toán Tóm tắt văn bản : các khái niệm, tiêu chí phânloại, mô hình chung, các phương pháp xây dựng cũng như đánh giá kết quả một ứngdụng Tóm tắt văn bản

Trang 30

Chương 3 BÀI TOÁN TÓM TẮT VĂN BẢN

Trong chương ba em xin trình bày vấn đề trọng tâm của đồ án, đó là bài toán Tóm tắtvăn bản tự động Chương này bao gồm các mục sau :

 Giới thiệu tổng quan về bài toán Tóm tắt văn bản bao gồm các khái niệm, phânloại bài toán…

 Mô hình bài toán Tóm tắt văn bản, các phương pháp thường sử dụng trong bàitoàn này

 Đánh giá một ứng dụng tóm tắt văn bản

3.1 Giới thiệu chung

Ở Việt Nam hiện nay, hầu như tất cả các bài toán tiếng Việt điển hình của Khaiphá văn bản đều đã được nghiên cứu và cài đặt thành ứng dụng như Tìm kiếm văn bản,Phân lớp & Phân loại văn bản , đóng góp rất nhiều vào sự phát triển của lĩnh vực Xử

lý văn bản tự động tiếng Việt Tuy nhiên, bài toán Tóm tắt văn bản thì chưa có nhiềunghiên cứu tiến hành đề xuất và xây dựng thành công ứng dụng Có lẽ bởi vì bài toánnày không chỉ cần những công cụ và phương pháp của Khai phá văn bản mà còn phảilưu ý đến những vấn đề về Xử lý ngôn ngữ tự nhiên (Natural Language Processing).Điều này thật không tương xứng với nền thông tin tri thức hiện tại của Việt Nam, khi

mà đang có hàng ngàn nhu cầu khác nhau cần đến những ứng dụng trợ giúp tóm lượcvăn bản hay sinh tiêu đề và hiển thị chúng theo những dạng mong muốn

Chính sự dễ dàng khi truy cập vào kho dữ liệu Internet khổng lồ và phong phúlại là nhược điểm cho việc tìm kiếm những thông tin mà chúng ta cần đến bởi chúngquá nhiều và không thống nhất về định dạng lưu trữ và hiển thị Kể cả khi đã lấy đượcnhững thông tin đó thông qua các hệ thống phân loại, tìm kiếm thì cũng không thể nắmbắt toàn bộ vì thời gian thì có hạn mà số lượng thông tin trả về quá lớn Đấy là chúng tacòn chưa kể đến việc những thông tin này liệu đã chính xác như mong muốn hay chưa,liệu chúng ta có nên bỏ thời gian để đọc chúng ? Một hệ thống Tóm tắt văn bản sẽ giúpchúng ta giải quyết phần lớn các nhu cầu vừa nêu Hệ thống sẽ giúp chúng ta đọcnhanh hơn, nắm bắt những tri thức cần thiết trong một tài liệu khoa học hàng trămbằng cách tóm lược tài liệu đó lại thành một đoạn văn bản dài vài ba chục trang Mộtxếp các văn bản khác đưa vào chờ ta đọc và ta sẽ nắm bắt được những ý chính, cốt yếucủa chúng Những văn bản tìm thấy từ Internet, ta nhờ hệ thống quyết định liệu ta nênđọc văn bản nào để có thể tìm đúng thông tin ta cần Những tóm lược ngắn gọn cáccông việc mà cô thư ký đưa, những bản giới thiệu nội dung phim truyện tuần tới,những bức email thương mại chỉ vài dòng Đó là những khả năng mà một hệ thốngTóm tắt văn bản có thể mang lại

Trang 31

3.1.1 Tóm tắt văn bản là gì ?

Hệ thống Tóm tắt văn bản, như chúng ta đề cập tới trong đồ án này, có tên đầy

đủ là Hệ thống Tóm tắt văn bản tự động [10,12] Một hệ thống Tóm tắt văn bản tựđộng là một ứng dụng sinh tự động một mô tả ngắn gọn của một hay nhiều văn bản saocho vẫn giữ lại được các nội dung quan trọng và hiển thị ra theo dạng yêu cầu củangười sử dụng [10,11]

Điều cốt lõi của một hệ thống Tóm tắt văn bản xét theo lĩnh vực Khai phá vănbản là việc tìm ra những thành phần quan trọng trong văn bản cần tóm tắt Các thànhphần này được gọi là các đơn vị ngữ liệu Đơn vị ngữ liệu ở đây có thể hiểu là đơn vịnhỏ nhất có nghĩa mà ta chọn để trích rút, tóm lược như câu hoặc đoạn Các đơn vị ngữliệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng của cả đoạnvăn hay văn bản Và sau khi chọn được các đơn vị ngữ liệu quan trọng, hệ thống Tómtắt có thể tóm lược chúng, biến đổi chúng và sau cùng hiển thị ra màn hình, thống kêkết quả hay sinh ra các dữ liệu mới cho các hệ thống nào khác

Một số ứng dụng của hệ thống Tóm tắt văn bản tiếng Việt tự động :

 Tóm tắt tự động các tin tức trên báo điện tử

 Trợ giúp thông minh việc đọc và khai thác thông tin

 Tóm lược danh sách tìm kiếm từ các Search Engine

 Giản lược nội dung trình bày cho các thiết bị cầm tay

 Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản

 Hỗ trợ tóm lược nội dung cuộc họp, website, chương trình phát thanh vàtruyền hình, sổ tay công việc

Ngoài ra, một số module và kết quả của hệ thống cũng là đầu vào hay nhữngbước tiền xử lý cho các bài toán khác của Khai phá văn bản

Hình 3.1: Tóm tắt trang tin

Trang 32

Hình 3.2: Tóm tắt hoạt động để hiển thị trên thiết bị cầm tay

Hình 3.3: Tóm tắt danh sách tìm kiếm từ Google và gợi ý đọc tiếp

Trang 33

Hình 3.4: Tóm tắt tài liệu khoa học

3.1.2 Các tiêu chí đánh giá

Các tiêu chí đánh giá kết quả của một hệ thống tóm tắt văn bản, còn là nhữngtham số mà người dùng có thể đưa vào hệ thống để phục vụ mục đích của mình,thường gồm các giá trị như sau [13,18]:

 Độ rút gọn ( độ nén )

• Là tỉ số giữa số lượng đơn vị ngữ liệu của văn bản kết quả trên số lượngđơn vị ngữ liệu của tập văn bản vào

• Tỉ lệ này có thể là là câu/câu, từ/từ, tiếng/tiếng, thường tính bằng %

• Độ rút gọn tỉ lệ thuận với độ khó thuật toán

• Thể hiện sự liên kết giữa các đơn vị ngữ liệu của văn bản kết quả với nhau

• Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và cú pháp

• Mức độ liên kết cũng tỉ lệ thuận với độ khó của thuật toán tóm tắt

Trang 34

• Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay thế chotiêu chí mức độ liên kết này.

3.1.3 Phân loại bài toán Tóm tắt văn bản

Bài toán Tóm tắt văn bản được chia thành nhiều loại Mỗi loại được sử dụng chocác mục đích khác nhau, các yêu cầu khác nhau Mỗi bài toán cũng phải áp dụng cácphương pháp và kỹ thuật riêng Không có một ứng dụng Tóm tắt văn bản nào có thể càiđặt và đáp ứng được hết các dạng yêu cầu đó

 Tóm tắt một văn bản và Tóm tắt nhiều văn bản

Khi xét đầu vào một hệ thống Tóm tắt văn bản, ta có thể chia thành hai dạng làtóm tắt đơn văn bản (Single-Document) hoặc tóm tắt nhiều văn bản (Multi-Document).Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của văn bản đó.Nguợc lại, tóm tắt nhiều văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra một đoạntóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bản đồng thời chonhiều văn bản khác nhau Tất nhiên, tóm tắt nhiều văn bản thì khó hơn, vì ngoài nhữngcông việc của tóm tắt đơn văn bản, tóm tắt nhiều văn bản còn phải thực hiện các côngviệc như tiền xử lý trích rút, tích hợp thống nhất khuôn dạng và hiển thị kết quả theocách riêng Ngoài ra, tóm tắt nhiều văn bản còn phải đối mặt với các vấn đề như dưthừa trùng lặp dữ liệu giữa các văn bản nguồn, nội dung các văn bản nguồn phân tán,

độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự phức tạp trong xử

lý lớn

 Trích rút và Tóm lược

Khi xét đến đầu ra một hệ thống Tóm tắt văn bản, chúng ta có thể có hai dạngtóm tắt Đó là Trích rút (Extraction) và Tóm lược (Abstraction) Việc phân biệt haidạng tóm tắt này là rất cơ bản và quan trọng

Trích rútlà quá trình thu gọn văn bản mà trong kết quả ra chứa các đơn vị ngữ

liệu văn bản nguồn Tóm lược là quá trình thu gọn văn bản mà trong kết quả ra có một

số các đơn vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn

Ví dụ, có đoạn văn sau ( được đánh số thứ tự câu ) :

"Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ 1 Ba anh em chúng

em đã chờ những ngày này khá lâu rồi 2 Chả là anh cả em được về phép thăm gia đình nhân dịp Tết 3 Bố mẹ em rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn 4 Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình 5 Bữa ăn đã làm nên một cuối tuần tuyệt vời 6"

Văn bản kết quả của quá trình Trích rút :

Trang 35

"Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ Bữa ăn đã làm

nên một cuối tuần tuyệt vời".

Văn bản kết quả của quá trình Tóm lược :

"Một buổi cuối tuần vui vẻ của gia đình em".

Chúng ta có thể thấy văn bản kết quả của quá trình Trích rút thực ra là câu 1 vàcâu 6 của đoạn văn bản nguồn, và có cảm giác như đoạn kết quả không được trôi chảylắm Còn câu duy nhất của văn bản kết quả sau quá trình Tóm lược không hề trùng vớibất cứ câu nào trong sáu câu của văn bản nguồn Tuy nhiên nó vẫn thu gọn và giữ được

ý chính của cả đoạn Đây chính là sự khác biệt lớn giữa Trích rút và Tóm lược

Qua ví dụ này chúng ta cũng nhận ra rằng, để xây dựng một hệ thống Tóm lượckhó hơn là xây dựng một hệ thống Trích rút Khi xem xét mô hình chung của một hệthống Tóm tắt văn bản ta sẽ thấy rõ hơn điều này

 Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá

Phân chia về chức năng, có ba loại ứng dụng tóm tắt sau :

• Tóm tắt chỉ định ( Indicative )

Là kiểu tóm tắt giúp người đọc quyết định xem có nên đọc tiếp, đọc sâu nữakhông Ví dụ như loại ứng dụng sinh tiêu đề, tóm lược kết quả tìm kiếm…

• Tóm tắt thông tin ( Informative )

Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọng nhất của văn bảngốc, văn bản tạo ra có thể thay thế được cho văn bản gốc Ví dụ như tóm tắtmột tiểu thuyết thành đoạn văn năm bảy trang

• Tóm tắt đánh giá ( Evaluative )

Là kiểu tóm tắt mà trong kết quả ra có cả đánh giá của người tóm tắt Ví dụnhư lời tựa một quyển sách hay bản thảo một bài báo Kiểu tóm tắt nàykhông gặp trong một hệ tóm tắt văn bản tự động

 Tóm tắt chung và Tóm tắt hướng truy vấn

Phân chia về mục đích, có hai loại là Tóm tắt chung và Tóm tắt hướng truy vấn

• Tóm tắt chung ( Generic )

Trang 36

Tóm tắt theo quan điểm ban đầu của tác giả văn bản gốc (khách quan).

• Tóm tắt hướng truy vấn ( Query-Oriented )

Tóm tắt theo quan điểm mong muốn của người dùng ứng dụng thông qua cáctham số truyền vào câu truy vấn.Tóm tắt hướng truy vấn được cài đặt và ápdụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành

cụ thể

 Tóm tắt cơ bản và Tóm tắt chuyên môn

Phân chia theo trình độ người dùng có Tóm tắt cơ bản và Tóm tắt chuyên môn

• Tóm tắt cơ bản

Tóm tắt này dành cho người thông thường

Ví dụ : Các ứng dụng tóm tắt thông thường, chung chung như tóm tắt trangtin, tóm tắt tiểu thuyết văn học…

• Tóm tắt đan xen ngôn ngữ

Trang 37

Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống cóthể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp Đây

là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ

 Ứng dụng trên Desktop và ứng dụng trên Web

Phân theo môi trường cài đặt ứng dụng, ta có hai loại sau :

Phân tích văn bản đầu vào để đưa ra những mô tả bao gồm các thông tin dùng

để tìm kiếm, đánh giá các đơn vị ngữ liệu quan trọng cũng như các tham số đầu vàocho việc tóm tắt

 Biến đổi ( Transformation )

Lựa chọn các thông tin trích chọn được, biến đổi để giản lược và thống nhất, kếtquả là các đơn vị ngữ liệu đã được tóm tắt

 Hiển thị ( Generation )

Từ các đơn vị ngữ liệu đã tóm tắt, liên kết chúng lại thành đoạn theo một thứ tựnào đó hoặc theo cấu kết ngữ pháp rồi hiển thị phù hợp với yêu cầu người dùng

Trang 38

Hình 3.5: Mô hình hệ Tóm tắt văn bản tổng quát

Một hệ Tóm lược (Abstraction) bao gồm tất cả các pha trên, tuy nhiên một hệTrích rút (Extraction) chỉ gồm pha Phân tích và Pha Hiển thị, không có pha biến đổi.Thậm chí trong các pha phân tích và hiển thị, chỉ có một số công đoạn được sử dụng

Hình 3.6: Mô hình một hệ Trích rút văn bản

Qua đây chúng ta thấy rằng một hệ Trích rút thì thường tiến hành ít bước hơn, tậptrung vào pha Phân tích là chính Các phương pháp thường dùng để cài đặt hệ Trích rútvăn bản thường là các phương pháp thống kê, học trên ngữ liệu Còn các hệ Tóm lượcthì phải cài đặt nhiều hơn, đầy đủ ba pha của mô hình chung, và có sự kết hợp chặt chẽgiữa các phương pháp thống kê, học dựa ngữ liệu và các phương pháp của Xử lý ngônngữ tự nhiên Vì vậy, kết quả của các Hệ Tóm lược thường thuyết phục hơn (về mặt dễđọc, dễ hiểu, liên kết ngôn ngữ tốt, gần gũi với con người) Sau đây chúng ta sẽ đi sâuvào giới thiệu một số phương pháp được áp dụng trong các pha của mô hình Tóm tắt

Rút trích Phân tích (Analysis)

Lựa chọn Biến đổi (Tranformation)

Liên kết Hiển thị (Generation)

HỆ TÓM TẮT VĂN BẢN

Phân tích thống kê (Statistical Analysis)

Hiển thị phân đoạn (Fragmentary Display)

MỘT HỆ TRÍCH RÚT VĂN BẢN

( EXTRACTOR )

Trang 39

văn bản tự động, thông qua đó chúng ta cũng hiểu rõ hơn về những công việc thật sự,đầu vào và đầu ra của từng pha trong mô hình này.

3.2.2 Các phương pháp áp dụng trong pha Phân tích

Như chúng ta đã đề cập, trong pha Phân tích (Analysis), văn bản nguồn (hay tậpcác văn bản nguồn) được phân tích để xác định các đơn vị ngữ liệu quan trọng đồngthời tiếp nhận các thông số đầu vào của hệ thống tóm tắt Các thông số đầu vào đượctiếp nhận ngay từ đây để hệ thống thông qua chúng sẽ áp dụng các phương pháp phùhợp, không chỉ trong pha Phân tích mà còn trong các pha Biến đổi (Tranformation) vàHiển thị (Generation) tiếp sau Còn việc phân tích xác định các đơn vị ngữ liệu quantrọng là công việc của các phương pháp trong pha Phân tích này Nói một cách gần gũi

dễ hiểu, qua pha này, văn bản cần tóm tắt sẽ được tách ra thành các đoạn, các câu, vànhững đoạn hay câu quan trọng nhất sẽ được chọn ra thông qua một số tiêu chí, làmđầu vào cho pha tiếp sau

Các phương pháp áp dụng trong pha Phân tích được chia thành hai loại :Phương pháp thống kê và Phương pháp cấu trúc

Phương pháp thống kê là các phương pháp sử dụng các số liệu thống kê về độ

quan trọng của các từ, ngữ, câu hay đoạn Qua đây, hệ thống có thể sẽ giảm được sốlượng các đối tượng phải xem xét và trích rút chính xác các đơn vị ngữ liệu cần tìm.Các thống kê có thể nhận được từ các nghiên cứu về ngôn ngữ học hay thông quaphương pháp học máy từ các tập mẫu có sẵn Từ đó, các thống kê này được dùng chocác tính toán hiện thời trên văn bản đầu vào

Phương pháp cấu trúc là các phương pháp sử dụng các mối liên hệ cấu trúc

-ngữ pháp - -ngữ nghĩa để xác định các đơn vị -ngữ liệu quan trọng Tư tưởng chính củacác phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên kếtnhiều với các thành phần khác sẽ có độ quan trọng lớn Việc đánh giá các mối quan hệ

sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp hoặc thông qua các phương phápxác định độ liên quan truyền thống

3.2.2.1 Phương pháp thống kê (Statistical Methods)

Các phương pháp thống kê là những phương pháp đầu tiên được sử dụng để càiđặt một hệ Tóm tắt văn bản Các số liệu thống kê thường được thu thập thông qua việchọc trên các tập mẫu khác nhau Năm 1958, Luhn đã chọn ra các câu quan trọng từ vănbản thông qua phương pháp thống kê tần suất của từ Năm 1969, Edminson đưa ra bốnphương pháp mới hơn, trong đó có một phương pháp khá giống với Luhn, để xây dựngnên một hệ tóm tắt văn bản Edminson cũng đã kiểm thử kết quả của từng phương phápcũng như các phương pháp áp dụng đồng thời với nhau Sau đây là một số tư tuởngchính của các phương pháp thống kê :

i Phương pháp vị trí (Position-Based)

Phương pháp vị trí bao gồm các phương pháp xác định độ quan trọng dựa trênthống kê về vị trí của từ, ngữ hay câu trong văn bản Các thống kê này tất nhiên phụthuộc vào thể loại văn bản…

Trang 40

 Chủ đề - Tiêu đề ( Title-based )

Chủ đề các đoạn văn bản hay tiêu đề các bảng thường chứa các từ và ngữ quantrọng, nên trích rút thông tin từ đây

 Đầu - cuối đoạn ( First - Last Sentence )

Xác suất câu đầu đoạn hay câu cuối đoạn chứa ý chính của cả đoạn là rất lớn,đặc biệt là câu đầu đoạn Ngoài ra, các đoạn đầu và cuối trong văn bản cũng quan trọnghơn các đoạn giữa

 Minh họa - Chú thích ( Comments )

Trong các câu chú thích, câu minh họa cho ảnh hay đồ thị thường chứa cácthông tin quan trọng Tuy nhiên, các câu này thường chỉ được dùng để đánh giá độquan trọng của các câu khác liên quan, chứ không được chọn làm đầu vào cho pha tiếp

ii Phương pháp ngữ cố định (Cue phrases-Based)

Các ngữ cố định có đặc điểm thống kê rất tốt Sau các ngữ này thường là cáccâu hay từ có độ quan trọng là xác định Người ta chia thành hai loại ngữ cố định, mộtloại mang lại độ quan trọng cho thành phần đi sau, được gọi là ngữ nhấn mạnh, mộtloại giúp ta loại bỏ, không xét đến những thành phần đi sau vì nó không có nhiều giá trịtrong việc trích rút, được gọi là ngữ dư thừa :

 Ngữ nhấn mạnh ( Bonus phrase - Emphasizer )

Ngữ nhấn mạnh gồm các ngữ như “nói chung là…”, “đặc biệt là…”, "cuối cùng

thì…”, “trong bài viết này em muốn chỉ ra…”, “bài viết nói về…”, “nội dung gồm…”, v v

 Ngữ dư thừa ( Stigma phrases )

Một số ngữ dư thừa : “hiếm khi mà…”, "bài này không nói đến…”, "Không thể

nào…”, v v

iii Phương pháp thống kê tần suất từ (Word frequency-Based)

Độ quan trọng của từ phụ thuộc vào số lần xuất hiện của từ đó trong các văn bảnliên quan Các kỹ thuật như TFxIDF hay Tập thuật ngữ thường xuyên (Frequent ItemSet) dùng cho công việc xác định tần suất của từ

3.2.2.2 Phương pháp cấu trúc

i Phương pháp quan hệ lẫn nhau

Định dạng
Số trang	88
Dung lượng	2,07 MB