XLNN trình Phát hiện tri thức trong cơ sở dữ liệu

Vì vậy các phương pháp của Trí tuệnhân tạo thường được dùng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng củangành Ngôn ngữ học như hình thái, ngữ pháp, ngữ nghĩa…

Trang 1

MỤC LỤC

MỞ ĐẨU 5

1 CƠ SỞ LÝ THUYẾT 8

1.1 Tổng quan về Xử lý ngôn ngữ tự nhiên 8

1.2 Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên 9

1.2.1 Phân tách thuật ngữ - Phân tách đoạn và câu 9

1.2.2 Gán nhãn từ loại 11

1.2.3 Phân tích cú pháp 11

1.2.4 Phân tích ngữ nghĩa 12

1.3 Các đặc trưng ngôn ngữ của tiếng Việt 12

1.3.1 Ngữ âm và âm vị 13

1.3.2 Từ pháp và hình thái 14

1.3.3 Ngữ pháp 15

2 KHAI PHÁ VĂN BẢN 16

2.1 Tổng quan khai phá dữ liệu 16

2.2 Khai phá văn bản 18

2.3 Biểu diễn văn bản 19

2.3.1 Mô hình boolean 19

2.3.2 Mô hình không gian vector 20

2.3.3 Mô hình tập thô dung sai 21

2.4 Các bài toán Khai phá văn bản điển hình 22

2.4.1 Bài toán Phân nhóm văn bản 22

2.4.2 Bài toán Đánh chỉ mục - Tìm kiếm 22

2.4.3 Bài toán Tóm tắt văn bản 22

3 BÀI TOÁN TÓM TẮT VĂN BẢN 24

3.1 Giới thiệu chung 24

3.1.1 Tóm tắt văn bản là gì ? 24

3.1.2 Các tiêu chí đánh giá 25

3.1.3 Phân loại bài toán Tóm tắt văn bản 26

3.2 Mô hình Tóm tắt văn bản 29

3.2.1 Mô hình chung 29

3.2.2 Các phương pháp áp dụng trong các pha 30

3.2.3 Đánh giá kết quả tóm tắt 40

3.3 Một số hệ thống tóm tắt văn bản phổ biến 44

4 XÂY DỰNG HỆ THỐNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT - SUMMARIZER 46

4.1 Mô hình xây dựng ứng dụng 46

4.2 Giai đoạn tiền xử lý văn bản tiếng Việt 47

Trang 2

4.2.1 Chuẩn hóa văn bản 47

4.2.2 Mô hình hóa văn bản 48

4.2.3 Tách thuật ngữ 49

4.3 Các phương pháp trong pha Phân tích 52

4.3.1 Phương pháp Title 53

4.3.2 Phương pháp Heading 54

4.3.3 Phương pháp NamedEntity - NE 55

4.3.4 Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) 56

4.3.5 Phương pháp Tần suất xuất hiện của thuật ngữ 56

4.3.6 Phương pháp TFxIPF 57

4.4 Các phương pháp trong pha Biến đổi 58

4.4.1 Biến đổi nhờ vào rút gọn câu 58

4.4.2 Giản lược câu về mặt ngữ nghĩa 60

4.5 Các phương pháp trong pha Hiển thị 61

4.6 Xây dựng chương trình Summarizer 62

5 CHƯƠNG TRÌNH ỨNG DỤNG 63

5.1 Một số giao diện chương trình 63

5.2 Kiểm thử 64

6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67

7 TÀI LIỆU THAM KHẢO 68

7.1 Links 68

7.2 Books 68

3

Trang 3

MỤC LỤC HÌNH VẼ

Hình 1: Phân tích cú pháp 12

Hình 2: Các bước của quá trình phát hiện tri thức 17

Hình 3: Mô hình khai phá văn bản chung 18

Hình 4: Mô tả bài toán Phân nhóm văn bản 22

Hình 5: Tóm tắt trang tin 25

Hình 6: Mô hình chung của tóm tắt văn bản 29

Hình 7: Mô hình trích rút văn bản 30

Hình 8: Mô hình phương pháp quan hệ lẫn nhau 32

Hình 9: Ví dụ về liên kết từ vựng 33

Hình 10: Mô hình liên kết tham chiếu 33

Hình 11: Mô hình hệ thống tóm tắt văn bản 47

Hình 12: Mô hình hoá văn bản 48

Hình 13: Cấu trúc chương trình Summarizer 62

Hình 14: Giao diện chính 63

Hình 15: Form cấu hình tóm tắt 63

Hình 16: Giao diện kiểm thử 64

Hình 17: Giao diện phân tách đoạn và câu 65

Hình 18: Giao diện phân tách thuật ngữ của đoạn 65

Hình 19: Kết quả thực thi phương pháp TFxIPF 66

Hình 20: Kết quả thực thi phương pháp Title 66

Trang 4

1 MỞ ĐẨU

Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin Chính sự phát triển nhanhchóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giới bộ mặt mới Các ứng dụngCông nghệ thông tin - Truyền thông đã hiện diện trong hầu hết các ngành, các lĩnh vực của cuộcsống: kinh tế tri thức, hợp tác toàn cầu, những công việc quản lý, vận hành những hoạt động từ vi môtới vĩ mô của doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc,

trợ giúp Đặc biệt, sự ra đời của Internet - Mạng thông tin toàn cầu - được coi là nguyên nhân chính, thúc đẩy sự bùng nổ thông tin trên toàn thế giới Thông qua Internet, những thông tin quý giá về mọi

lĩnh vực đều sẵn sàng đợi chúng ta khám phá và lĩnh hội

Trong thế giới thông tin đa dạng phong phú như vậy, nhu cầu thu thập được những thông tincần thiết, có giá trị đồng thời xử lý chúng thành dạng dữ liệu mong muốn là nhu cầu chính đáng vàcấp thiết của nhân loại Lĩnh vực của Công nghệ thông tin có thể đáp ứng những nhu cầu to lớn này

là Khai phá dữ liệu.

Khai phá dữ liệu, vốn chỉ là một giai đoạn trong bảy giai đoạn của quá trình Phát hiện tri thức trong cơ sở dữ liệu, tuy nhiên, do là giai đoạn chính yếu, nên chúng ta thường đồng nhất, hay

nói chính xác hơn là lấy Khai phá dữ liệu làm đại diện cho cả quá trình Phát hiện tri thức trong cơ sở

dữ liệu Và vì vậy, Khai phá dữ liệu được hiểu như một quá trình lấy ra các thông tin quan trọng từcác dạng CSDL, biến đổi, xử lý chúng nhằm phục vụ những mục đích cụ thể của con người Cácphương pháp thường dùng trong Khai phá dữ liệu là các phương pháp Trích chọn, Thống kê hay

Phân loại Do phần lớn dữ liệu ở dạng văn bản nên một lĩnh vực nhỏ hơn là Khai phá văn bản

được quan tâm chú ý hơn cả

Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiết gần đây do sựbùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có một lĩnh vực khác đã ra đời cáchđây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá trình phát triển của mình Đó là lĩnh vực

Xử lý ngôn ngữ tự nhiên Mục đích của Xử lý ngôn ngữ tự nhiên là giúp cho máy tính và con người

hiểu nhau hơn, thuận tiện hơn trong quá trình làm việc và đem lại lợi ích tối đa cho con người Thôngqua các giao tiếp thân thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vàođời sống nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới

Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu được một thông tingiống như cách mà con người hiểu thông tin đó thông qua các khía cạnh ngôn ngữ bao hàm trong

nó Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là một phần của Trí tuệ nhân tạo - làm cho máytính nắm bắt, thao tác, mô phỏng cách mà con người thực hiện Vì vậy các phương pháp của Trí tuệnhân tạo thường được dùng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng củangành Ngôn ngữ học như hình thái, ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn

ngữ tự nhiên là Trả lời tự động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả…

5

Trang 5

Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiều điểm khác biệtmặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo Nói đến Khai phá dữ liệu là nóiđến việc tìm ra thông tin quan trọng, thông tin mong muốn từ một lượng lớn dữ liệu, còn nói đến Xử

lý ngôn ngữ tự nhiên là nói đến việc máy tự phân tích và hiểu những khía cạnh ngôn ngữ trong thôngtin cụ thể Tuy nhiên, có một bài toán điển hình của Khai phá dữ liệu có sử dụng rất nhiều những khái

niệm, mô hình, phương pháp của Xử lý ngôn ngữ tự nhiên, đó là bài toán Tóm tắt văn bản.

Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ramột bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể Tóm tắt văn bản làmnhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vựccủa Khai phá văn bản Tuy nhiên trong quá trình chắt lọc, rút gọn thì cần có sự áp dụng của cácphương pháp Xử lý ngôn ngữ tự nhiên nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang

ý nghĩa ngôn ngữ tự nhiên như đầu vào của nó Trên thế giới đã có rất nhiều các ứng dụng Tóm tắtvăn bản, với những mục đích nghiên cứu cũng như thương mại Nhưng với những khó khăn và tháchthức riêng, Tóm tắt văn bản hiện chưa được nghiên cứu nhiều ở Việt Nam Chính vì lý do này chúngtôi đã chọn Tóm tắt văn bản tiếng Việt là đề tài tiểu luận, mong muốn góp một phần công sức cho sựphát triển của Khai phá văn bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung

Trong tiểu luận này chúng tôi muốn trình bày những kết quả tìm hiểu về bài toán Tóm tắt vănbản và bước đầu xây dựng một Ứng dụng tóm tắt văn bản tiếng Việt, sử dụng kết hợp các phươngpháp của Khai phá văn bản và Xử lý ngôn ngữ tự nhiên đồng thời xét tới những đặc trưng về ngônngữ của tiếng Việt

Tiểu luận gồm các phần sau :

 Chương 1 Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của Xử lý ngôn ngữ

tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêng khi xử lý tự động văn bảntiếng Việt

 Chương 2 Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá văn bản nói riêng, các

vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toán Khai phá văn bản điển hình

 Chương 3 Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, khái niệm và phân loại

một bài toán Tóm tắt văn bản, lịch sử phát triển và những ứng dụng của Tóm tắt văn bản, môhình chung và các phương pháp xây dựng một ứng dụng Tóm tắt văn bản…

 Chương 4 Trình bày việc thiết kế và xây dựng ứng dụng Tóm lược văn bản tiếng Việt

SUMMARIZER dựa trên một số phương pháp trong các phương pháp đã nêu ở chương ba.Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được chúng tôi đề cập đến vớinhững nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứu lĩnh vực Khaiphá văn bản tiếng Việt

 Chương 5 Trình bày việc kiểm thử và đánh giá ứng dụng SUMMARIZER, các kết quả thực

nghiệm của chương trình

 Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này

Trang 6

 Cuối cùng là phần tài liệu tham khảo.

7

Trang 7

2 CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên là lĩnh vực thuộc ngành Khoa học máy tính và đã xuất hiện từ rấtlâu Với việc sử dụng các phương pháp Trí tuệ nhân tạo, Xử lý ngôn ngữ tự nhiên cũng thường đượccoi là ngành nghiên cứu hẹp hơn của lĩnh vực này

Ngôn ngữ tự nhiên (Natural Language) là thuật ngữ dùng để chỉ các ngôn ngữ giao tiếp giữa

con người với nhau như tiếng Việt, tiếng Anh, tiếng Nhật…, để phân biệt với ngôn ngữ nhân tạo

(Artificial Language) hay còn gọi là ngôn ngữ lập trình (Programming Language) để chỉ các ngôn ngữ

con nguời giao tiếp với máy tính như Pascal, C/C++, Java… Lĩnh vực Xử lý ngôn ngữ tự nhiên ra đời

đã lâu, trải qua nhiều nghiên cứu và ứng dụng, ngày nay được hiểu như là lĩnh vực giúp máy tính xử

lý các vấn đề về ngôn ngữ tự nhiên, không ngoài mục đích giúp cho giao tiếp giữa người-máy thuậntiện và thân thiện hơn

Xử lý ngôn ngữ tự nhiên có rất nhiều hướng ứng dụng và mỗi hướng ứng dụng đó lại là mộtngành nghiên cứu hết sức thú vị Khi nói đến Xử lý ngôn ngữ tự nhiên thì chúng ta phải nói đến cơ sởngôn ngữ tự nhiên Đó là những vấn đề cơ bản của ngôn ngữ mà lĩnh vực Xử lý ngôn ngữ tự nhiênbám sát và nghiên cứu làm sao cho máy tính phân tích và hiểu ngôn ngữ tự nhiên giống như conngười hiểu hoặc chí ít cũng là gần như cách con người hiểu Các vấn đề cơ bản của ngôn ngữ tựnhiên bao gồm :

 Phonology & Phonetics (Âm vị và Ngữ âm): các ngành nghiên cứu của Ngôn ngữ học, chuyên

nghiên cứu về đơn vị phát âm, cách phát âm và các biến thái của chúng Hướng ứng dụng tươngứng của chúng thuộc Xử lý ngôn ngữ tự nhiên là ngành Xử lý - Nhận dạng tiếng nói

 Morphology (Hình thái học): ngành nghiên cứu về hình thái của từ, nghĩa là tùy thuộc vào thời,

thể, cách mà các từ có sự biến đổi hay kết hợp khác nhau Các thành tựu của hình thái học đượccác nhà khoa học về Máy tính sử dụng trong các nghiên cứu mà họ lấy từ hay chữ là đơn vị để xử

lý như Nhận dạng chữ viết, Kiểm tra và sửa chính tả…

 Grammar (Ngữ pháp): ngành nghiên cứu về từ pháp và cú pháp Từ pháp đề cập đến các đặc

tính từ loại (Part Of Speech), giống, số của từ Một số nhà ngôn ngữ cũng xếp Hình thái học vào vấn đề Từ pháp học Cú pháp (Syntactic) đề cập đến sự liên kết giữa các từ, các ngữ trong câu.

Ngữ pháp và ngữ nghĩa là hai vấn đề mà Xử lý ngôn ngữ tự nhiên quan tâm nhất và cũng đạtđược nhiều kết quả nghiên cứu nhất cho đến hiện tại

 Semantic (Ngữ nghĩa): đề cập đến vấn đề ngữ nghĩa: một từ, ngữ hay câu được “hiểu” như thế

nào, hàm chứa ý gì, quan hệ về nghĩa giữa các từ với nhau thế nào Đặc biệt tiếng Anh đã xâydựng được nhiều nghiên cứu về ngữ nghĩa và thậm chí nhiều mạng ngữ nghĩa - mô tả quan hệ về

nghĩa giữa các từ theo nhiều khía cạnh Nổi tiếng nhất có lẽ là WordNet Mạng ngữ nghĩa này là

một kho tri thức khổng lồ được cung cấp miễn phí cho việc nghiên cứu Hiện tại nhiều mạng

Trang 8

Wordnet cho các thứ tiếng khác ngoài tiếng Anh cũng đã được xây dựng, tuy nhiên Wordnet Việt

nam hiện tại vẫn chưa được chính thức nghiên cứu và xây dựng

 Pragmatics (Ngữ dụng): ngành nghiên cứu việc dùng các từ, các ngữ trong các lĩnh vực khác

nhau Các thống kê về việc tần suất sử dụng của các từ trong các lĩnh vực khác nhau là những

thông số quan trọng cần thiết cho những phương pháp thống kê của Xử lý ngôn ngữ tự nhiên

Trên các lĩnh vực này, máy tính cần phải hiểu được ngôn ngữ ở mức cao hơn Đó là mức

ngữ đoạn (Discourse) và mức tri thức (World Knowledge)

Mức ngữ đoạn là các quan hệ về mặt ngữ pháp và ngữ nghĩa, thậm chí ngữ dụng của cácđoạn văn bản Đã có nhiều nghiên cứu về vấn đề này, nổi tiếng nhất là Lý thuyết cấu trúc tu từ

(Rhetorical Structure Theory - RST) RST biểu thị các quan hệ ngữ pháp và ngữ nghĩa giữa các câu

với nhau, giữa các đoạn với nhau thông qua các quan hệ được định nghĩa sẵn Lý thuyết này thườngđược áp dụng trong việc phân tích ngữ đoạn cũng như sinh văn bản tự động

Mức tri thức là mức rộng nhất, máy phải hiểu được tất cả các vấn đề của một tiếng, một từ,một ngữ, một câu, một khái niệm, một thông tin, một tri thức Tất nhiên chưa có một nghiên cứu nàođạt được mức này tuy nhiên cũng đã có một số nghiên cứu đặt ra tham vọng sẽ mô hình hóa về tất

cả các đặc tính của ngôn ngữ cho một đơn vị nào đó như từ, câu hoặc đoạn

Ngôn ngữ tự nhiên là một vấn đề phức tạp ngay cả với con người, vì vậy, đối với máy tínhviệc xử lý ngôn ngữ tự nhiên là một công việc hết sức khó khăn, thuộc lớp các bài toán kinh điển củaKhoa học máy tính và Trí tuệ nhân tạo - các bài toán đòi hỏi chi phí tính toán rất lớn Vì vậy, Xử lýngôn ngữ tự nhiên trước đây phát triển chậm và có xu hướng áp dụng các thuật toán dựa luật và suydiễn Tuy nhiên vào những thập kỷ gần đây, sự phát triển nhanh chóng của phần cứng máy tính kéotheo sự ra đời của các máy tính nhỏ gọn, giá thành rẻ mà lại có hiệu suất tính toán cao đã mở ra triểnvọng mới cho lĩnh vực Trí tuệ nhân tạo nói chung và Xử lý ngôn ngữ tự nhiên nói riêng Các thuậttoán thống kê cũng đang từng ngày được áp dụng nhiều hơn và cho những kết quả khả quan Nhữngthành tựu của Xử lý ngôn ngữ tự nhiên không chỉ áp dụng trong nghiên cứu mà đã được dùng để xâydựng các ứng dụng mang tính thương mại và đạt được nhiều thành công trên thị trường

2.2 Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên

Như chúng ta đã đề cập, ngữ pháp và ngữ nghĩa là các vấn đề được quan tâm nhất và cóứng dụng nhiều nhất trong các bài toán điển hình của lĩnh vực Xử lý ngôn ngữ tự nhiên như Tóm tắt,Dịch máy, Trả lời tự động… Sau đây là các bài toán cơ bản thuộc về ngữ pháp và ngữ nghĩa mà cácnhà Xử lý ngôn ngữ tự nhiên thường phải giải quyết

2.2.1 Phân tách thuật ngữ - Phân tách đoạn và câu

Phân tách thuật ngữ (Word Segmentation) là công việc tách một chuỗi văn bản ra thành các term (thuật ngữ) xem các term nào có trong từ điển, term nào không có trong từ điển (các tên riêng,

ký hiệu, chữ viết tắt…) Công việc này làm tiền đề cho việc mô hình hóa văn bản Chúng ta phải thựchiện việc này trước thì mới có thể vector hóa một văn bản, đối sánh hay xác định độ liên quan…

9

Trang 9

Các ngôn ngữ Latin như tiếng Anh hay tiếng Pháp thì vấn đề này không phức tạp bằng các

ngôn ngữ khác như tiếng Việt, tiếng Hoa hay tiếng Nhật… do các từ của tiếng Anh hay tiếng Phápđược tách nhau bởi một hay nhiều dấu cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa cácdấu cách không phải là từ mà là tiếng (chữ) - một đơn vị nhỏ hơn từ

Ví dụ: Xét câu tiếng Anh sau :

We announced that we have captured him.

Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :

We | announced | that | we | have | captured | him.

Tuy nhiên ta xem câu tiếng Việt tương ứng :

Chúng tôi xin thông báo rằng chúng tôi đã bắt được hắn ta.

Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này Kết quả phân táchthuật ngữ đúng phải là như sau :

Để giải quyết vấn đề này các nhà Xử lý ngôn ngữ tự nhiên của Việt Nam, Trung

Quốc, Nhật Bản… thường sử dụng những phương pháp như: Đối sánh thuật ngữ dài nhất (Maximum

Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa cú pháp (Syntax-based Approach)… Mỗi phương pháp có ưu và nhược điểm riêng nhưng phương pháp nào cũng sử dụng

một từ điển hoặc danh sách từ vựng Do vậy sự chính xác của từ điển hay danh sách từ vựng là yếu

tố quan trọng ảnh hưởng đến sự chính xác của bộ phân tách thuật ngữ Ngoài ra vì có những nhậpnhằng trong ngôn ngữ nên bài toán này cũng như các bài toán khác của Xử lý ngôn ngữ tự nhiênchưa được giải quyết một cách trọn vẹn Hiện tại các bộ phân tách thuật ngữ thường đạt được kếtquả từ 85% đến 98% các từ phân tách chính xác

Bộ đoán nhận danh từ riêng, chữ viết tắt cũng có thể coi là một phần của bộ phân tách thuậtngữ và được áp dụng rộng rãi Nhiều bài toán coi đây là một công việc cơ bản vì danh từ riêng, chữviết tắt… có tần suất xuất hiện khá cao trong văn bản và chúng cũng hàm chứa mức độ quan trọnglớn Ngoài ra việc đoán nhận danh từ riêng, chữ viết tắt còn là một phần của việc hợp giải tham chiếu

(Coreference Resolution) - được dùng nhiều trong các ứng dụng tóm tắt và sinh ngôn ngữ tự nhiên (Natural Language Generating).

Xét về phạm vi lớn hơn thì ta phải đối mặt với một vấn đề khác, đó là Phân tách đoạn-câu

(Sentence Segmentation) là công việc phân tách một văn bản thành những đoạn và câu nhằm tạo

tiền đề cho việc phân tích cú pháp sau này của văn bản đó Bài toán này không phân biệt ngôn ngữ

vì hầu hết các ngôn ngữ thường phân tách câu dựa trên những dấu hiệu là các dấu ngắt câu nhưdấu chấm, chấm hỏi, chấm than Tuy vậy, nếu văn bản đưa vào không chuẩn thì kết quả cũngkhông thể đạt 100% Ví dụ, sau các dấu chấm câu không viết hoa sẽ dẫn đến việc hiểu nhầm thànhdấu ba chấm Ngoài ra, một số phần trăm sai sót khác còn do hiện tượng những dấu chấm câu đượcdùng như là ký hiệu thực hiện chức năng khác khác gây ra Ví dụ, dấu chấm dùng để phân tách phầnnguyên và phần thập phân của một con số Nói chung phân tách đoạn-câu có khả năng đạt được độ

Trang 10

chính xác cao hơn và cũng dễ dàng cài đặt hơn phân tách từ nhưng phạm vi áp dụng thì không rộngbằng.

Các phương pháp thường dùng để cài đặt bộ gán nhãn từ loại bao gồm : Mô hình Markov ẩn

- Giải thuật Viterbi, Dựa luật cú pháp (Rule-based), Dựa bộ nhớ (Memory-based), Độ hỗn loạn lớn nhất (Maximum Entropy)… Trong đó các phương pháp áp dụng mô hình Markov ẩn (Hidden Markov

Model - HMM) được sử dụng nhiều nhất Các phương pháp như Bigram, Trigram hay CFG (Context Free Grammar) đều thuộc loại này Hiện nay bộ gán nhãn từ loại (POS Tagger) chính xác nhất đạt tới

khả năng gán nhãn đúng 98% số từ

2.2.3 Phân tích cú pháp

Phân tích cú pháp là bài toán tổng quát của gán nhãn từ loại Ngoài việc gán từ loại cho từng

từ, bộ phân tích cú pháp (Syntax Analyzer hay Parser) phải nhận biết được các ngữ và gán kiểu cho

các ngữ làm sao để có được một câu hoàn chỉnh về mặt ngữ pháp Nếu không câu đó là câu khônghoàn chỉnh Xét về ngôn ngữ học, đó sẽ không phải là câu Kết quả việc gán từ, ngữ này thường

được biểu diễn thành cây, gọi là cây cú pháp (Syntax Tree).

Trang 11

Các bộ phân tích cú pháp thường được cài đặt bởi các thuật toán dựa trên luật hay ngữ liệu

(Corpus-based) Việc kiểm tra xem một câu có phải là câu hoàn chỉnh hay không thường dựa vào

việc duyệt cây và cấu trúc chính của một ngôn ngữ Ở tiếng Anh, cấu trúc chính tạo nên câu hoànchỉnh về mặt ngữ pháp là cấu trúc S + V + (O) : Chủ ngữ + Động từ + (Tân ngữ) Tuy nhiên trongtiếng Việt cấu trúc “nòng cốt” tạo bởi quan hệ “đề - thuyết” (hay quan hệ “chủ - vị”) là cấu trúc của mộtcâu hoàn chỉnh về mặt ngữ pháp

Việc phân tích cú pháp là một công việc cơ bản của các bài toán Xử lý ngôn ngữ tự nhiên,nhưng do tính chất phức tạp của ngôn ngữ và các đặc thù riêng của quá trình máy học, các bộ phântích cú pháp chưa đạt được độ chính xác cao như mong đợi

2.2.4 Phân tích ngữ nghĩa

Như chúng ta đã đề cập ở trên, phân tích ngữ nghĩa giúp cho máy có thể “hiểu” được một từ,một câu, một đoạn hàm chứa ý nghĩa gì hay mối quan hệ về nghĩa giữa chúng Các phương phápdùng để phân tích ngữ nghĩa hay được dùng đó là các phương pháp dựa trên tri thức hay dựa trên

ngữ liệu Dựa trên tri thức (Knowledge-based) là phương pháp dựa trên các kho tri thức ngữ nghĩa

có sẵn (như WordNet) để phân tích ngữ nghĩa Dựa trên ngữ liệu (Corpus-based) là phương pháp

dựa trên những thống kê các kho ngữ liệu để đưa ra được ngữ nghĩa của đối tượng đang xét Cácphương pháp này nói chung đòi hỏi phải có kho tri thức hoặc kho ngữ liệu lớn, càng lớn càng chínhxác nhưng đối với tiếng Việt thì đây là hạn chế lớn do chúng ta không có được các nguồn tài nguyên

này Một cách khắc phục là xây dựng các kho ngữ liệu song ngữ (Parallel Corpora) và từ các nghiên

cứu tương ứng của một ngôn ngữ mà dẫn ra một số kết quả thích hợp cho ngôn ngữ còn lại

2.3 Các đặc trưng ngôn ngữ của tiếng Việt

Ngôn ngữ là một hiện tượng xã hội: không phải hiện tượng tự nhiên, cá nhân mà là hiệntượng xã hội đặc biệt Ngôn ngữ là phương tiện giao tiếp quan trọng nhất của con người: cácphương tiện khác được diễn giải qua ngôn ngữ Ngôn ngữ là hiện tượng trực tiếp của tư tưởng: ngônngữ là phương tiện của tư duy Quan hệ “ngôn ngữ – tư duy (ý thức) – hiện thực”  “từ – khái niệm “từ – khái niệm– sự vật” Ngôn ngữ - lời nói - hoạt động lời nói: “ngôn ngữ” có tính xã hội, “lời nói” có tính cá nhân,

“lời nói” là ngôn ngữ đang hành chức Hay nói một cách đơn giản hơn: “Ngôn ngữ là hệ thống ký hiệuđặc biệt dùng để làm phương tiện giao tiếp quan trọng nhất của con người”

Theo quan điểm của F.de.Saussure (cha đẻ của ngôn ngữ học hiện đại): “Ngôn ngữ giốngnhư bàn cờ: giá trị của quân cờ không phải là do nó làm bằng gì, cấu tạo/hình dáng như thế nào, màgiá trị của nó là do hệ thống bàn cờ, do các quân cờ khác qui định/gán cho nó Nên nếu ta mất mộtcon xe/con pháo nào đó, thì ta vẫn có thể qui ước với nhau là thay thế nó bằng một cục phấn/hạt sỏi/

… mà giá trị của nó vẫn không đổi”

Theo bảng phân loại loại hình ngôn ngữ, Tiếng Việt được xếp vào loại hình đơn lập (isolate)hay còn gọi là loại hình phi hình thái, không biến hình, ngôn ngữ đơn âm tiết hay phân tiết,…vớinhững đặc điểm chính như sau:

Trang 12

 Trong hoạt động ngôn ngữ, từ không biến đổi hình thái Ý nghĩa ngữ pháp nằm ởngoài từ Ví dụ: Tôi nhìn anh ấy và Anh ấy nhìn tôi (I see him và He sees me)

 Phương thức ngữ pháp chủ yếu là : trật tự từ và từ hư Ví dụ : Gạo xay và Xay gạo ;đang học và học rồi (learning và learned)

Tồn tại một loại đơn vị đặc biệt, là “hình tiết” mà vỏ ngữ âm của chúng trùng khít với âm tiết,

và đơn vị vị đó cũng chính là “hình vị” (morpheme) hay còn gọi là “tiếng” (tiếng Việt sử dụng khoảng

8000 tiếng) Các hình vị kết hợp với nhau một cách lỏng lẻo, linh động Không có hiện tượng cấu tạo

từ bằng cách ghép thêm phụ tố (affix) vào gốc từ (trong khi đó ở tiếng Anh, hiện tượng này rất phổbiến, như: anticomputerizational = anti-compute-er-ize-ation-al)

Tiếng Việt thuộc loại ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rờinhau và được thể hiện bằng một chữ viết Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từvựng, ngữ pháp

2.3.1 Ngữ âm và âm vị

Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng" Về mặt ngữ âm, mỗi tiếng là một

âm tiết Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếngViệt trong việc thể hiện các đơn vị có nghĩa Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặcsắc Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hoà về ngữ âm, đến nhạc điệu của câu văn

Mỗi âm tiết tiếng Việt gồm ba phần : phần đầu, phần sau và thanh điệu Phần đầu của âm tiếtđược xác định là Âm đầu, vì ở vị trí này chỉ có một âm vị tham gia cấu tạo Phần sau của âm tiết được gọi là phần Vần Phần Vần gồm các loại âm vị được gọi là Âm đệm, Âm chính và Âm cuối.Thanh điệu có sáu loại ngang, hỏi, huyền, sắc, ngã, nặng Thanh điệu được đặt ở trên nguyên âmtrong âm tiết Tuy nhiên phần Vần có thể có nhiều nguyên âm do vậy việc bỏ dấu ở nguyên âm nào làvấn đề đã được đặt ra từ lâu trong các hội thảo về chuẩn hóa ngôn ngữ và công nghệ thông tin-truyền thông Ngoài ra, do sự có mặt của dấu phụ - các dấu không phải là thanh điệu, đi kèm với một

số nguyên âm để tạo ra các nguyên âm mới (ví dụ: “^” với â, ê, ô hay “’” với ơ, ư…) - nên vị trí đặtthanh điệu cũng phải hòa hợp với các dấu phụ này

Khi Công nghệ thông tin phát triển, việc bỏ dấu chính xác chính là một phần trong quá trìnhlưu trữ các âm tiết, chữ viết trong các tài liệu điện tử và tất nhiên đòi hỏi một sự chính xác tuyệt đối.Các quy tắc chuẩn hóa về vị trí thanh điệu cũng như vấn đề i-y đã được một số nhà ngôn ngữ họcđưa ra và nói chung đã được ngành ngôn ngữ học thống nhất Nhưng trong các văn bản điện tử thìhiện tại chưa có được các chuẩn hóa này Bản thân các bộ gõ tiếng Việt thường được dùng hiện nay

như Vietkey hay Unikey cũng có các tùy chọn bỏ dấu

2.3.2 Từ pháp và hình thái

Khi tìm hiểu các đặc trưng tiếng Việt ta cần chú ý tiếng Việt là một ngôn ngữ đơn lập - đơn

âm tiết (monosyllable) Mỗi tiếng, nói chung, là một yếu tố có nghĩa Tiếng là đơn vị cơ sở của hệ

13

Trang 13

thống các đơn vị có nghĩa của tiếng Việt Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để địnhdanh sự vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy.

Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật kếthợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiện nay, đây là phươngthức chủ yếu để sản sinh ra các đơn vị từ vựng Theo phương thức này, tiếng Việt triệt để sử dụngcác yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngôn ngữ khác để tạo ra các từ, ngữ mới, vídụ: tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thông tin,siêu liên kết văn bản, truy cập ngẫu nhiên, v.v

Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi phối chủyếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn,lúng lá lúng liếng, v.v Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết,một tiếng) Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiệnthuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động Cùngmột sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị.Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức năng ngônngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật Hiện nay, do sự phát triển vượt bậc của khoahọc - kĩ thuật, đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn

Dựa trên “tiếng” - đơn vị rất dễ nhận biết thông qua các dấu cách - chúng ta phân biệt đượcđâu là từ ghép, đâu là từ đơn Từ đơn là từ chỉ có một tiếng, từ ghép là từ có hai tiếng trở lên Đâychính là vấn đề của các ngôn ngữ như tiếng Việt : rất khó khăn khi thực hiện việc phân tách thuậtngữ Cách tốt nhất là dựa trên từ điển để đối sánh và rút ra kết luận (Bên ngành ngôn ngữ học có một

số phương pháp để xác định xem đó là một từ hay nhiều từ như khảo sát về hiện tượng tách, lặp,hay đối chiếu…, tuy nhiên các phương pháp này không thể áp dụng được đối với máy tính !)

Xét về mặt hình thái, khác với phần lớn các ngôn ngữ hệ Latin, tiếng Việt thường không cóhiện tượng biến cách hay dẫn xuất khi câu thay đổi về thời, thể, cách Thay vào đó là việc sử dụngkết hợp với hư từ (từ công cụ) để phản ánh sự thay đổi này

Điều này ảnh hưởng trực tiếp đến quá trình tiền xử lý văn bản cũng như đoán nhận ngữnghĩa Việc chuẩn hóa hình thái từ của các hệ tiếng Latin là cả một vấn đề trong khi đó tiếng Việtchúng ta không cần quan tâm đến Ngược lại, khi xét đến ngữ nghĩa chúng ta phải thông qua các hư

từ hay danh từ số lượng đi kèm để hiểu được nghĩa đầy đủ của một từ hay cụm từ

Trang 14

Cấu trúc nòng cốt, dựa trên quan hệ “đề thuyết” của tiếng Việt đề cập đến một quy tắc chungnhất của tiếng Việt khi tạo câu, đó là một câu hoàn chỉnh về mặt ngữ pháp phải có phần đề và phầnthuyết Phần đề cấu thành bởi danh ngữ Phần thuyết cấu thành bởi hoặc là động ngữ hoặc tính ngữhoặc một đoản ngữ khác Đây chính là sự khác biệt chính về ngữ pháp với một số ngôn ngữ khác,tiếng Anh chẳng hạn Trong tiếng Anh, cấu trúc chính là S-V-(O) Một câu hoàn chỉnh của tiếng Anhcần phải có một động ngữ trong đó động từ đóng vai trò chính Tiếng Việt thì không chắc vậy Mộtcâu hoàn chỉnh có thể không có động từ

Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cúpháp Trong tiếng Việt khi nói "Anh ta lại đến" là khác với "Lại đến anh ta" Khi các từ cùng loại kếthợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ.Nhờ trật tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình" Trật tự chủngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt

Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng Việt Nhờ hư từ mà tổhợp "anh của em" khác với ttổ hợp "anh và em", "anh vì em" Hư từ cùng với trật tự từ cho phép tiếngViệt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểucảm Ví dụ, so sánh các câu sau đây:

 Ông ấy không hút thuốc

 Thuốc, ông ấy không hút

 Thuốc, ông ấy cũng không hút

Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu Ngữ điệu giữ vai tròtrong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó nhằm đưa ra nội dung muốnthông báo Trên văn bản, ngữ điệu thường được biểu hiện bằng dấu câu Chúng ta thử so sánh 2câu sau để thấy sự khác nhau trong nội dung thông báo:

 Đêm hôm qua, cầu gãy

 Đêm hôm, qua cầu gãy

Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể hình dung được phần nàobản sắc và tiềm năng của tiếng Việt

3 KHAI PHÁ VĂN BẢN

3.1 Tổng quan khai phá dữ liệu

Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnhvực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã đượccác cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên Họ lưu trữ các dữ liệu này vì cho rằngtrong nó ẩn chứa những giá trị nhất định nào đó Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ

15

Trang 15

của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽphải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợrằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, trong môi trườngcạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định

và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữliệu khổng lồ đã có Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệutruyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuậtmới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and DataMining)

Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trongnhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻtuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng

Quá trình phát hiện tri thức gồm các bước sau:

Hình thành và định nghĩa bài toán

Thu thập và tiền xử

lý dữ liệu

Khai phá dữ liệu

Phân tích và kiểm định kết quả

Sử dụng các tri thức phát hiện được

Hình 2: Các bước của quá trình phát hiện tri thức

Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết địnhcho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thíchhợp với mục đích ứng dụng và bản chất của dữ liệu

Trang 16

Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu,

xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếmnhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức

Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình

ẩn dưới các dữ liệu

Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán Cácbước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả cáclần thực hiện

Với hai đích chính của khai phá dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người

ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:

 Phân loại (Classification)

 Hồi qui (Regression)

 Phân nhóm (Clustering)

 Tổng hợp (Summarization)

 Mô hình ràng buộc (Dependency modeling)

 Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)

 Biểu diễn mô hình (Model Representation)

 Kiểm định mô hình (Model Evaluation)

 Phương pháp tìm kiếm (Search Method)

Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trítuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ cao, thu thập tri thức chocác hệ chuyên gia, quan sát dữ liệu Đặc biệt Phát hiện tri thức và khai phá dữ liệu rất gần gũi vớilĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,luật Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP) cũng liênquan rất chặt chẽ với Phát hiện tri thức và khai phá dữ liệu Trong phạm vi tiểu luận này chúng tôi

3.2 Khai phá văn bản

Trong cơ sở dữ liệu, phần lớn dữ liệu ở dạng văn bản (text) Lĩnh vực con của Khai phá dữ

liệu áp dụng với dữ liệu văn bản phi cấu trúc được gọi là Khai phá văn bản ( Text Mining) Các kỹ

thuật chính của Khai phá văn bản là Nhận dạng mẫu, Trích rút đặc trưng, Thống kê tần suất từ khóa,Phân loại…, các phương pháp Trí tuệ Nhân tạo như Học máy, Mạng Nơ-ron, Giải thuật Di truyền…,các phương pháp Xử lý ngôn ngữ tự nhiên…

17

Trang 17

Khai phá văn bản do làm việc với các dữ liệu phi cấu trúc nên cần phải có phương tiện để môhình hóa chúng, tiền xử lý cho các bước tiếp theo Nói chung Khai phá văn bản gồm các bước: Thuthập dữ liệu ở dạng văn bản, làm sạch chúng, phân tích biến đổi, lấy thông tin và hiển thị thông tin.

Mô hình chung của Khai phá văn bản :

Thu thập

Hình 3: Mô hình khai phá văn bản chung

Công việc thu thập và công việc làm sạch dữ liệu văn bản có thể diễn ra theo thứ tự thu thậptrước, làm sạch sau và cũng có thể ngược lại tùy yêu cầu Thậm chí, việc thu thập và làm sạch cònđược lặp đi lặp lại nhiều lần để có được một kết quả tối ưu cho các bước tiếp Do vậy quá trình thuthập – làm sạch là quá trình chung và hết sức quan trọng của các bài toán thuộc lĩnh vực Khai phávăn bản

Ngoài việc thu thập và làm sạch dữ liệu văn bản thì việc tìm kiếm đối sánh văn bản cũng làmột công việc cốt lõi, không thể thiếu trong tất cả các bài toán Khai phá văn bản Trong đó các vănbản được thu thập thường có sự liên quan hay tương tự với nhau Độ liên quan hay tương tự thườngđược định lượng thông qua sự giống nhau về từ ngữ, về nghĩa hoặc theo một tiêu chí nào đó

Các bài toán điển hình của lĩnh vực Khai phá văn bản bao gồm:

 Phân lớp văn bản

 Phân nhóm văn bản

 Đánh chỉ mục - Tìm kiếm

 Tóm tắt văn bản

Các bài toán này chúng ta sẽ đi sâu hơn ở phần sau

3.3 Biểu diễn văn bản

Như chúng ta đã nói ở phần trước, văn bản thông thường là dạng dữ liệu phi cấu trúc, do vậymuốn xử lý chúng, trước hết phải biểu diễn chúng thành những dạng có cấu trúc Bên cạnh đó, việcxác định mối liên quan và thực hiện các phép biến đổi, ánh xạ văn bản cũng đòi hỏi những dạng này

Trang 18

phải có khả năng thao tác bằng những phép toán cơ bản như các phép cộng, nhân, đại số quan hệ…

và các phép toán phức tạp khác Trên thực tế, có ba mô hình thường được sử dụng để biểu diễn vănbản, tất nhiên các mô hình này đều thỏa mãn những yêu cầu kể trên Đó là Mô hình boolean, Mô hìnhkhông gian vector và Mô hình tập thô dung sai

3.3.1 Mô hình boolean

Trong mô hình boolean, văn bản, vốn là tập hợp của các term ( thuật ngữ ), được biểu diễnbởi chỉ số từng term và trọng số của chúng Trọng số của từng term - dùng để đánh giá độ quan trọngcủa chúng - trong mô hình này chỉ mang hai giá trị 0 và 1, tùy theo sự xuất hiện của term đó trong vănbản





 0 1

i w

D t

i





Trong đó w i là trọng số của term t i trong văn bản D

Đối với vấn đề truy vấn, trong mô hình này câu truy vấn bao gồm các văn bản tìm kiếm liên

hệ với nhau thông qua các phép đại số quan hệ cơ bản như NOT (phủ định), AND (và) hay OR(hoặc) Câu truy vấn có thể biểu diễn thành dạng vector với các thành phần liên kết và các phép toánquan hệ cơ bản Từ đây, độ liên quan giữa một văn bản và truy vấn được xác định thông qua cácthành phần liên kết Độ liên quan này chỉ có thể mang hai giá trị : 0 – văn bản không phù hợp với truyvấn và 1 – văn bản phù hợp

Do vậy có thể thấy rằng hạn chế lớn nhất của mô hình này đó là việc đánh giá độ liên quanchỉ trả về hai kết quả, hoặc phù hợp hoặc không, như vậy yêu cầu của hệ thống khi cần sắp xếp vàchọn lựa các văn bản theo mức độ liên quan đến truy vấn sẽ không đạt Độ liên quan của mô hìnhnày không thể phân chia thành các mức khác nhau, do vậy không phản ánh được thực tế là việc liênquan giữa văn bản và truy vấn có thể là mờ, không chắn chắn Hạn chế này được loại bỏ khi ta sử

dụng một mô hình tổng quát hơn – Mô hình không gian vector (Vector Space Model).

3.3.2 Mô hình không gian vector

Như trên đã đề cập, mô hình không gian vector là mô hình tổng quát hơn mô hình Boolean.Các văn bản được biểu diễn thành các vector nhiều chiều, với trọng số không chỉ mang hai giá trị là 0hay 1 mà có thể mang các giá trị khác tùy theo cách đánh giá, tính toán Một khác biệt nữa so với môhình boolean là các phép toán cơ bản của mô hình không gian vector Các phép toán đại số quan hệ

dĩ nhiên không phù hợp nữa, thay vào đó là các phép toán vector như cộng hai vector, nhân haivector, tích vô hướng…

Khi biểu diễn văn bản thành các vector, vấn đề về truy vấn và xác định độ liên quan hoàntoàn được giải quyết Truy vấn là kết quả của các phép toán vector giữa các vector biểu diễn cho

19

Trang 19

những văn bản cấu thành nên truy vấn, như vậy, truy vấn trong trường hợp này cũng là một văn bảnđặc biệt Việc xác định độ liên quan giữa truy vấn và văn bản được quy thành độ liên quan giữa vănbản và văn bản Hai văn bản là hai vector, vậy khoảng cách hay góc giữa chúng đều có thể đại diệncho sự liên quan giữa hai văn bản này Tất nhiên, để áp dụng được các phép toán vector cơ bản, haivector cần chuẩn hóa về số chiều (độ dài).

Biểu diễn hai văn bản lần lượt là hai vector :

x(w1,x,w2,x,….,wn,x) và y (w1,y,w 2,y,…,wn,y)

Góc giữa hai vector này có thể xác địng thông qua công thức Cosine như sau :

n i

n

i i z i y

w w

y i x

2 1

2

) (

)

Theo cách biểu diễn như trên người ta không quan tâm đến chỉ số của một term, vì vốn nó đãđược sắp thứ tự ngay trong vector biểu diễn văn bản Nghĩa là với vector x(w1,x,w2,x,….,wn,x) kể trên,

w1,x chính là trọng số của term có chỉ số là 1, w2.x là trọng số của term có chỉ số là 2,…Việc đánh chỉ

số cho term thường dựa vào một danh sách thuật ngữ Do vậy ta sẽ quan tâm đến việc trọng số củaterm được xác định ra sao Trọng số của term, ngoài cách gán giá trị là 0 hay 1 tùy vào sự xuất hiệncủa term như mô hình boolean, người ta còn có thể gán các giá trị tần suất cho chúng Việc gán cácgiá trị tần suất cho trọng số của term cũng là một điều hợp lý vì người ta có thể đánh giá độ quantrọng của một term thông qua tấn suất xuất hiện của term đó trong văn bản Giá trị này có thể đơngiản chỉ là số lần xuất hiện cuả term đó, tần suất của term đó ( số lần xuất hiện chia cho tổng số lầnxuất hiện của tất cả các term ) hay một giá trị nào khác tối ưu hơn Thông thường, số lần xuất hiệncủa một term thường được dùng như trọng số của term trong vector văn bản chứa nó Số lần xuấthiện này thường được biểu diễn thông qua các hàm logarithm cơ số tự nhiên hoặc cơ số mười Đây

chính là kỹ thuật đánh trọng số TF (Term Frequency) :

w i = 1 + log(f i )

Trong đó w i là trọng số của term t i trong văn bản D.

f i là số lần xuất hiện của term t i trong văn bản D.

3.3.3 Mô hình tập thô dung sai

Mô hình tập thô dung sai (Tolerance Rough Set Model) là một mô hình mới, tiên tiến dựa trên lý thuyết về logic mờ và tập mờ (Fuzzy Set) Điều cốt lõi của lý thuyết này là việc xác định

chính xác một giả thiết nào đó (ví dụ như hai văn bản này có phù hợp, có giống nhau không ) là một

Trang 20

điều rất khó Tuy nhiên chúng ta có thể chỉ ra một cặp xấp xỉ trên và xấp xỉ dưới để khẳng định đượcgiả thiết đó là đúng Sử dụng các suy diễn hợp lý để xác định và "làm đẹp" các ngưỡng này Cácphép toán cơ bản trong mô hình tập thô dựa trên các quan hệ tương đương các tính chất như đốixứng, phản xạ, bắc cầu Lý thuyết logic mờ đã và đang được ứng dụng rất mạnh mẽ trong lĩnh vựcTrí tuệ nhân tạo.

Mô hình tập thô gần đây được sử dụng nhiều cho các bài toán tìm kiếm cũng như phân nhómvăn bản Tuy nhiên khi áp dụng mô hình tập thô cho quá trình xử lý văn bản thì tính chất bắc cầukhông còn phù hợp Nhóm tác giả Hồ Tú Bảo, Saori Kawasaki, Nguyễn Ngọc Bình đã đề xuất ra môhình tập thô dung sai trong đó bỏ đi tính chất bắc cầu trong quá trình xử lý văn bản Lý thuyết tập thôđược các nhà nghiên cứu Trí tuệ nhân tạo phát triển và ngày càng thể hiện được tính ưu việt khôngchỉ trong việc biểu diễn và thao tác văn bản mà còn trong các vấn đề khác của lĩnh vực này

3.4 Các bài toán Khai phá văn bản điển hình

3.4.1 Bài toán Phân nhóm văn bản

Bài toán Phân nhóm văn bản (Text Clustering) có điểm khác so với bài toán Phân lớp văn

bản ở chỗ cho một tập văn bản chưa được phân loại gì cả, yêu cầu bài toán này là phân tập văn bảnnày thành các nhóm dựa trên độ tương đồng giữa chúng Đây là phương pháp học không có giám

sát (Unsupervised Learning Approach) Các thuật toán hay được dùng để giải quyết bài toán này là : Các thuật toán Phân chia, thuật toán Phân cấp, Mô hình SVM (Support Vector Machine) và các thuật toán xây dựng tập thuật ngữ thường xuyên (Frequent Term Set - Frequent Item Set ).

Hình 4: Mô tả bài toán Phân nhóm văn bản

21

Trang 21

3.4.2 Bài toán Đánh chỉ mục - Tìm kiếm

Một tên gọi khác phổ biến hơn của bài toán này là Thu thập thông tin (Information Retrieval).

Nói chính xác hơn bài toán Thu thập thông tin là bài toán cơ bản của Khai phá dữ liệu, và là bài toán

tổng quát hơn của bài toán Đánh chỉ mục - Tìm kiếm (Indexing - Searching) Yêu cầu bài toán là tìm

kiếm trong kho dữ liệu những văn bản phù hợp với câu truy vấn đưa vào Bước đánh chỉ mục thường

giúp tìm kiếm nhanh hơn Bài toán này là cơ sở cho các Search Engine - những bộ máy tìm kiếm và

trả về thông tin - một trong những công cụ hũu ích nhất trên Internet giúp chúng ta có thể tìm đượcthông tin cần thiết chỉ thông qua một câu truy vấn đơn giản Hiện nay các ứng dụng tìm kiếm kiểu nàythường áp dụng các phương pháp truy hồi để tăng khả năng chính xác cho dữ liệu tìm được Bàitoán này còn là đầu vào cho một số các bài toán khác

3.4.3 Bài toán Tóm tắt văn bản

Quá trình tóm tắt là quá trình rút ra những thông tin quan trọng nhất từ một hay nhiều nguồnvăn bản để tạo ra một văn bản gọn hơn phục vụ cho một số nhiệm vụ hay người dùng cụ thể Bài

toán tóm tắt văn bản (Text Summarization) là một trong những bài toán khó cài đặt nhất nhưng cũng

hữu ích nhất của lĩnh vực Khai phá văn bản Một số biến thể của bài toán này như sinh phụ đề tự

động (Subtitling), sinh ý chính tài liệu (Document Gisting), sinh tiêu đề văn bản (Header Generating)

Những thuật toán của bài toán này cũng được dùng trong các bài toán tương tự như tóm tắt hìnhảnh, âm thanh - những dữ liệu đa phương tiện

Trang 22

4 BÀI TOÁN TÓM TẮT VĂN BẢN

4.1 Giới thiệu chung

Ở Việt Nam hiện nay, hầu như tất cả các bài toán tiếng Việt điển hình của Khai phá văn bảnđều đã được nghiên cứu và cài đặt thành ứng dụng như Tìm kiếm văn bản, Phân lớp & Phân nhómvăn bản , đóng góp rất nhiều vào sự phát triển của lĩnh vực Xử lý văn bản tự động tiếng Việt Songbài toán Tóm tắt văn bản thì chưa có nhiều nghiên cứu tiến hành đề xuất và xây dựng thành côngứng dụng Có thể vì bài toán này không chỉ cần những công cụ và phương pháp của Khai phá văn

bản mà còn phải lưu ý đến những vấn đề về Xử lý ngôn ngữ tự nhiên (Natural Language

Processing) Điều này thật không tương xứng với nền thông tin tri thức hiện tại của Việt Nam, khi mà

đang có hàng ngàn nhu cầu khác nhau cần đến những ứng dụng trợ giúp tóm lược văn bản hay sinhtiêu đề và hiển thị chúng theo những dạng mong muốn

Chính sự dễ dàng khi truy cập vào kho dữ liệu Internet khổng lồ và phong phú lại là nhược

điểm cho việc tìm kiếm những thông tin mà chúng ta cần đến bởi chúng quá nhiều và không thốngnhất về định dạng lưu trữ và hiển thị Kể cả khi đã lấy được những thông tin đó thông qua các hệthống phân loại, tìm kiếm thì cũng không thể nắm bắt toàn bộ vì thời gian có hạn mà số lượng thôngtin trả về quá lớn Đấy là chưa kể đến việc những thông tin này liệu đã chính xác như mong muốnhay chưa, liệu có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúp chúng ta giảiquyết phần lớn các nhu cầu vừa nêu Hệ thống sẽ giúp chúng ta đọc nhanh hơn, nắm bắt những trithức cần thiết trong một tài liệu khoa học hàng trăm trang bằng cách tóm lược tài liệu đó lại thành một

đoạn văn bản vài ba chục trang Những văn bản tìm thấy từ Internet, ta nhờ hệ thống quyết định liệu

nên đọc văn bản nào để có đúng thông tin ta cần Những tóm lược ngắn gọn các công việc mà cô thư

ký đưa, những bản giới thiệu nội dung phim truyện tuần tới, những bức email thương mại chỉ vài

dòng Đó là những khả năng mà một hệ thống Tóm tắt văn bản có thể mang lại

4.1.1 Tóm tắt văn bản là gì ?

Hệ thống Tóm tắt văn bản, như chúng ta đề cập tới trong tiểu luận này, có tên đầy đủ là Hệthống Tóm tắt văn bản tự động Một hệ thống Tóm tắt văn bản tự động là một ứng dụng sinh tự độngmột mô tả ngắn gọn của một hay nhiều văn bản sao cho vẫn giữ lại được các nội dung quan trọng vàhiển thị ra theo dạng yêu cầu của người sử dụng

Điều cốt lõi của một hệ thống Tóm tắt văn bản xét theo lĩnh vực Khai phá văn bản là việc tìm

ra những thành phần quan trọng trong văn bản cần tóm tắt Các thành phần này được gọi là các đơn

vị ngữ liệu Đơn vị ngữ liệu ở đây có thể hiểu là đơn vị nhỏ nhất có nghĩa mà ta chọn để trích rút, tómlược như câu hoặc đoạn Các đơn vị ngữ liệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nộidung quan trọng của cả đoạn văn hay văn bản Và sau khi chọn được các đơn vị ngữ liệu quan trọng,

23

Trang 23

hệ thống Tóm tắt có thể tóm lược chúng, biến đổi chúng và sau cùng hiển thị ra màn hình, thống kêkết quả hay sinh ra các dữ liệu mới cho các hệ thống nào khác

Một số ứng dụng của hệ thống Tóm tắt văn bản tiếng Việt tự động :

 Tóm tắt tự động các tin tức trên báo điện tử

 Trợ giúp thông minh việc đọc và khai thác thông tin

 Tóm lược danh sách tìm kiếm từ các Search Engine.

 Giản lược nội dung trình bày cho các thiết bị cầm tay

 Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản

 Hỗ trợ tóm lược nội dung cuộc họp, website, chương trình phát thanh và truyền hình, sổ tay

công việc

Ngoài ra, một số module và kết quả của hệ thống cũng là đầu vào hay những bước tiền xử lý

cho các bài toán khác của Khai phá văn bản

Trang 24

 Là tỉ số giữa số lượng đơn vị ngữ liệu của văn bản kết quả trên số lượng đơn vị ngữliệu của tập văn bản vào.

 Tỉ lệ này có thể là là câu/câu, từ/từ, tiếng/tiếng, hoặc đơn giản hơn là ký tự/ký tự,thường tính bằng %

 Độ rút gọn tỉ lệ thuận với độ khó thuật toán

 Thể hiện sự liên kết giữa các đơn vị ngữ liệu của văn bản kết quả với nhau

 Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và cú pháp

 Mức độ liên kết cũng tỉ lệ thuận với độ khó của thuật toán tóm tắt

 Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay thế cho tiêu chímức độ liên kết này

4.1.3 Phân loại bài toán Tóm tắt văn bản

Bài toán Tóm tắt văn bản được chia thành nhiều loại Mỗi loại được sử dụng cho các mụcđích khác nhau, các yêu cầu khác nhau Mỗi bài toán cũng phải áp dụng các phương pháp và kỹthuật riêng Không có một ứng dụng Tóm tắt văn bản nào có thể cài đặt và đáp ứng được hết cácdạng yêu cầu đó

 Tóm tắt một văn bản và Tóm tắt nhiều văn bản: Khi xét đầu vào một hệ thống Tóm tắt văn bản,

ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt nhiều văn bản (Multi-Document) Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của

văn bản đó Nguợc lại, tóm tắt nhiều văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra một đoạntóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bản đồng thời cho nhiều vănbản khác nhau Rõ ràng, tóm tắt nhiều văn bản thì khó hơn, vì ngoài những công việc của tóm tắtđơn văn bản, tóm tắt nhiều văn bản còn phải thực hiện các công việc như tiền xử lý trích rút, tíchhợp thống nhất khuôn dạng và hiển thị kết quả theo cách riêng Ngoài ra, tóm tắt nhiều văn bảncòn phải đối mặt với các vấn đề như dư thừa trùng lặp dữ liệu giữa các văn bản nguồn, nội dungcác văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sựphức tạp trong xử lý lớn

25

Trang 25

 Trích rút và Tóm lược: Khi xét đến đầu ra một hệ thống Tóm tắt văn bản, chúng ta có thể có hai

dạng tóm tắt Đó là Trích rút (Extraction) và Tóm lược (Abstraction) Việc phân biệt hai dạng tóm

tắt này là rất cơ bản và quan trọng Trích rút là quá trình thu gọn văn bản mà trong kết quả ra

chứa các đơn vị ngữ liệu văn bản nguồn Tóm lược là quá trình thu gọn văn bản mà trong kết quả

ra có một số các đơn vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn

Ví dụ, có đoạn văn sau (được đánh số thứ tự câu) :

"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ 1 Ba anh chúng tôi chúng tôi đã chờ những ngày này khá lâu rồi 2 Chả là anh cả tôi được về phép thăm gia đình nhân dịp Tết 3 Bố mẹ tôi rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn 4 Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình 5 Bữa ăn đã làm nên một cuối tuần tuyệt vời 6"

Văn bản kết quả của quá trình Trích rút :

"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ Bữa ăn đã làm nên một cuối

tuần tuyệt vời".

Văn bản kết quả của quá trình Tóm lược :

"Một buổi cuối tuần vui vẻ của gia đình tôi".

Chúng ta có thể thấy văn bản kết quả của quá trình Trích rút thực ra là câu 1 và câu 6 củađoạn văn bản nguồn, và có cảm giác như đoạn kết quả không được trôi chảy lắm Còn câu duy nhấtcủa văn bản kết quả sau quá trình Tóm lược không hề trùng với bất cứ câu nào trong sáu câu củavăn bản nguồn Tuy nhiên nó vẫn thu gọn và giữ được ý chính của cả đoạn Đây chính là sự khácbiệt lớn giữa Trích rút và Tóm lược

Qua ví dụ này chúng ta cũng nhận ra rằng, để xây dựng một hệ thống Tóm lược khó hơn làxây dựng một hệ thống Trích rút Khi xem xét mô hình chung của một hệ thống Tóm tắt văn bản ta sẽthấy rõ hơn điều này

 Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá

Phân chia về chức năng, có ba loại ứng dụng tóm tắt sau :

 Tóm tắt chỉ định (Indicative): Là kiểu tóm tắt giúp người đọc quyết định xem có nênđọc tiếp, đọc sâu nữa không Ví dụ như loại ứng dụng sinh tiêu đề, tóm lược kết quảtìm kiếm…

 Tóm tắt thông tin (Informative): Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọngnhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc Ví dụ nhưtóm tắt một tiểu thuyết thành đoạn văn năm bảy trang

 Tóm tắt đánh giá (Evaluative): Là kiểu tóm tắt mà trong kết quả ra có cả đánh giá củangười tóm tắt Ví dụ như lời tựa một quyển sách hay bản thảo một bài báo Kiểu tómtắt này không gặp trong một hệ tóm tắt văn bản tự động

Trang 26

 Tóm tắt chung và Tóm tắt hướng truy vấn

Phân chia về mục đích, có hai loại là Tóm tắt chung và Tóm tắt hướng truy vấn

 Tóm tắt chung (Generic): Tóm tắt theo quan điểm ban đầu của tác giả văn bản gốc(khách quan)

 Tóm tắt hướng truy vấn (Query-Oriented): Tóm tắt theo quan điểm mong muốn củangười dùng ứng dụng thông qua các tham số truyền vào câu truy vấn.Tóm tắt hướngtruy vấn được cài đặt và áp dụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vàocác chuyên ngành cụ thể

 Tóm tắt cơ bản và Tóm tắt chuyên môn

Phân chia theo trình độ người dùng có Tóm tắt cơ bản và Tóm tắt chuyên môn

 Tóm tắt cơ bản: Tóm tắt này dành cho người thông thường Ví dụ : Các ứng dụng tómtắt thông thường, chung chung như tóm tắt trang tin, tóm tắt tiểu thuyết văn học…

 Tóm tắt chuyên môn: Tóm tắt dành cho người đã có nền tảng, chuyên môn Nhữngbản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, công việc chuyên môn Ví dụ :ứng dụng hỗ trợ thông minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị,ứng dụng tóm tắt các bài báo về toán học…

 Tóm tắt đơn ngôn ngữ, Tóm tắt đa ngôn ngữ và Tóm tắt đan xen nhiều ngôn ngữ

Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có ba loại ứngdụng tóm tắt :

 Tóm tắt đơn ngôn ngữ: Văn bản nguồn chỉ có một loại ngôn ngữ Kết quả ra là văn bảnngôn ngữ đó

 Tóm tắt đa ngôn ngữ: Mỗi văn bản nguồn chỉ có một loại ngôn ngữ Nhưng ứng dụng

có khả năng tóm tắt trên nhiều loại ngôn ngữ Tùy vào văn bản nguồn hoặc tham sốđưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn

 Tóm tắt đan xen ngôn ngữ: Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khácnhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phùhợp Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ

 Ứng dụng trên Desktop và ứng dụng trên Web

Phân theo môi trường cài đặt ứng dụng, ta có hai loại sau :

 Ứng dụng trên Desktop: Ứng dụng phát triển trên máy để bàn, đòi hỏi độ chính xác

cao, có khả năng Tóm lược (Abstract), độ nén không cao

 Ứng dụng trên Web: Ứng dụng phát triển trên môi trường Web, đòi hỏi thời gian thực

hiện nhanh, nên thường là Trích rút (Extract), độ nén lớn Ví dụ : Tóm tắt danh mục từ

Search Engine, trang tin…

27

Trang 27

4.2 Mô hình Tóm tắt văn bản

4.2.1 Mô hình chung

Phân tích (Analysis)

Biến đổi (Transform)

Hiển thị (Generation)

Hình 6: Mô hình chung của tóm tắt văn bản

Cũng giống mô hình khai phá văn bản, một hệ thống tóm tắt văn bản nói chung gồm nhữngpha sau :

 Phân tích (Analysis): Phân tích văn bản đầu vào để đưa ra những mô tả bao gồm các thông tindùng để tìm kiếm, đánh giá các đơn vị ngữ liệu quan trọng cũng như các tham số đầu vào choviệc tóm tắt

 Biến đổi (Transformation): Lựa chọn các thông tin trích chọn được, biến đổi để giản lược và thốngnhất, kết quả là các đơn vị ngữ liệu đã được tóm tắt

 Hiển thị (Generation): Từ các đơn vị ngữ liệu đã tóm tắt, liên kết chúng lại thành đoạn theo mộtthứ tự nào đó hoặc theo cấu kết ngữ pháp rồi hiển thị phù hợp với yêu cầu người dùng

Một hệ Tóm lược (Abstraction) bao gồm tất cả các pha trên, tuy nhiên một hệ Trích rút (Extraction) chỉ gồm pha Phân tích và Pha Hiển thị, không có pha biến đổi Thậm chí trong các pha

phân tích và hiển thị, chỉ có một số công đoạn được sử dụng

Phân tích thông

kê (Statistic Analysis)

Hiển thị phân đoạn (Fragmentary Generation)

Hình 7: Mô hình trích rút văn bản

Như vậy chúng ta thấy rằng một hệ Trích rút thì thường tiến hành ít bước hơn, tập trung vàopha Phân tích là chính Các phương pháp thường dùng để cài đặt hệ Trích rút văn bản thường là cácphương pháp thống kê, học trên ngữ liệu Còn các hệ Tóm lược thì phải cài đặt nhiều hơn, đầy đủ bapha của mô hình chung, và có sự kết hợp chặt chẽ giữa các phương pháp thống kê, học dựa ngữliệu và các phương pháp của Xử lý ngôn ngữ tự nhiên Vì vậy, kết quả của các hệ Tóm lược thường

Trang 28

thuyết phục hơn (về mặt dễ đọc, dễ hiểu, liên kết ngôn ngữ tốt, gần gũi với con người) Sau đâychúng ta sẽ đi sâu vào giới thiệu một số phương pháp được áp dụng trong các pha của mô hình Tómtắt văn bản tự động, thông qua đó chúng ta cũng hiểu rõ hơn về những công việc thật sự, đầu vào vàđầu ra của từng pha trong mô hình này.

4.2.2 Các phương pháp áp dụng trong các pha

4.2.2.1 Pha Phân tích

Như đã đề cập, trong pha Phân tích (Analysis), văn bản nguồn (hay tập các văn bản nguồn)

được phân tích để xác định các đơn vị ngữ liệu quan trọng đồng thời tiếp nhận các thông số đầu vàocủa hệ thống tóm tắt Các thông số đầu vào được tiếp nhận ngay từ đây để hệ thống thông quachúng sẽ áp dụng các phương pháp phù hợp, không chỉ trong pha Phân tích mà còn trong các pha

Biến đổi (Tranformation) và Hiển thị (Generation) tiếp sau Còn việc phân tích xác định các đơn vị

ngữ liệu quan trọng là công việc của các phương pháp trong pha Phân tích này Nói một cách gần gũi

dễ hiểu, qua pha này, văn bản cần tóm tắt sẽ được tách ra thành các đoạn, các câu, và những đoạnhay câu quan trọng nhất sẽ được chọn ra thông qua một số tiêu chí, làm đầu vào cho pha tiếp sau

Kết thúc pha Phân tích là tổng hợp các chỉ số đánh giá độ quan trọng của các đơn vị ngữ liệutheo các phương pháp trên đây và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan trọng lớnthành đầu vào cho pha sau Thường thường độ quan trọng (trọng số) của các đơn vị ngữ liệu sẽđược xác định bởi một phương trình tuyến tính của các hệ số đánh giá độ quan trọng theo mỗiphương pháp Trong đó các hệ số tuyến tính sẽ phụ thuộc vào tính chính xác của thuật toán khi ápdụng từng phương pháp và áp dụng đồng thời các phương pháp với nhau Sở dĩ chúng ta phải xét cảviệc áp dụng đồng thời các phương pháp với nhau vì thực tế cho thấy rằng khi sử dụng nhiềuphương pháp đồng thời thì độ chính xác không bằng tổng độ chính xác khi dùng riêng rẽ, độ chínhxác này luôn nhỏ hơn tổng độ chính xác, thậm chí còn nhỏ hơn các độ chính xác riêng rẽ !

Các phương pháp áp dụng trong pha Phân tích được chia thành hai loại: Phương pháp thống

kê và Phương pháp cấu trúc

4.2.2.1.1 Phương pháp thống kê

Là các phương pháp sử dụng các số liệu thống kê về độ quan trọng của các từ, ngữ, câuhay đoạn Qua đây, hệ thống có thể sẽ giảm được số lượng các đối tượng phải xem xét và trích rútchính xác các đơn vị ngữ liệu cần tìm Các thống kê có thể nhận được từ các nghiên cứu về ngônngữ học hay thông qua phương pháp học máy từ các tập mẫu có sẵn Từ đó, các thống kê này đ ượcdùng cho các tính toán hiện thời trên văn bản đầu vào

Các phương pháp thống kê là những phương pháp đầu tiên được sử dụng để cài đặt một hệTóm tắt văn bản Các số liệu thống kê thường được thu thập thông qua việc học trên các tập mẫu

khác nhau Năm 1958, Luhn đã chọn ra các câu quan trọng từ văn bản thông qua phương pháp thống kê tần suất của từ Năm 1969, Edminson đưa ra bốn phương pháp mới hơn, trong đó có một phương pháp khá giống với Luhn, để xây dựng nên một hệ tóm tắt văn bản Edminson cũng đã kiểm

29

Trang 29

thử kết quả của từng phương pháp cũng như các phương pháp áp dụng đồng thời với nhau Sau đây

là một số tư tuởng chính của các phương pháp thống kê :

 Phương pháp vị trí (Position-Based): Phương pháp vị trí bao gồm các phương pháp xác định

độ quan trọng dựa trên thống kê về vị trí của từ, ngữ hay câu trong văn bản Các thống kê này tấtnhiên phụ thuộc vào thể loại văn bản…

 Chủ đề - Tiêu đề (Title-based): Chủ đề các đoạn văn bản hay tiêu đề các bảng thườngchứa các từ và ngữ quan trọng, nên trích rút thông tin từ đây

 Đầu - cuối đoạn (First - Last Sentence): Xác suất câu đầu đoạn hay câu cuối đoạn chứa ýchính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn Ngoài ra, các đoạn đầu và cuốitrong văn bản cũng quan trọng hơn các đoạn giữa

 Minh họa - Chú thích (Comments): Trong các câu chú thích, câu minh họa cho ảnh hay đồthị thường chứa các thông tin quan trọng Tuy nhiên, các câu này thường chỉ được dùng

để đánh giá độ quan trọng của các câu khác liên quan, chứ không được chọn làm đầuvào cho pha tiếp

 Phương pháp ngữ cố định (Cue phrases-Based): Các ngữ cố định có đặc điểm thống kê rất

tốt Sau các ngữ này thường là các câu hay từ có độ quan trọng là xác định Người ta chia thànhhai loại ngữ cố định, một loại mang lại độ quan trọng cho thành phần đi sau, được gọi là ngữ nhấnmạnh, một loại giúp ta loại bỏ, không xét đến những thành phần đi sau vì nó không có nhiều giá trịtrong việc trích rút, được gọi là ngữ dư thừa :

 Ngữ nhấn mạnh (Bonus phrase - Emphasizer): Ngữ nhấn mạnh gồm các ngữ như “nóichung là…”, “đặc biệt là…”, "cuối cùng thì…”, “trong bài viết này tôi muốn chỉ ra…”, “bàiviết nói về…”, “nội dung gồm…”, v v

 Ngữ dư thừa (Stigma phrases): Một số ngữ dư thừa : “hiếm khi mà…”, "bài này không nóiđến…”, "Không thể nào…”, v v

 Phương pháp thống kê tần suất từ (Word frequency-Based): Độ quan trọng của từ phụ thuộc

vào số lần xuất hiện của từ đó trong các văn bản liên quan Các kỹ thuật như TFxIPF hay Tập thuật ngữ thường xuyên (Frequent Item Set) dùng cho công việc xác định tần suất của từ.

4.2.2.1.2 Phương pháp cấu trúc

Là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác địnhcác đơn vị ngữ liệu quan trọng Tư tưởng chính của các phương pháp này là những đơn vị ngữ liệunào có chứa các thành phần liên kết nhiều với các thành phần khác sẽ có độ quan trọng lớn Việcđánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp hoặc thông qua cácphương pháp xác định độ liên quan truyền thống

 Phương pháp quan hệ lẫn nhau: Phương pháp này xác định mối quan hệ giữa các đoạn trong

văn bản hay các câu trong đoạn với nhau thông qua các kỹ thuật thu thập thông tin ở mức vănbản Các đoạn (câu) trong văn bản nguồn được tính toán độ liên quan lẫn nhau giữa chúng Có

Trang 30

thể dùng các kỹ thuật xác định độ liên quan lẫn nhau như Cosine, TFxIPF hay N-gram Overlap.

Sau đó chọn ra đoạn (câu) có độ liên quan lớn nhất

Hình 8: Mô hình phương pháp quan hệ lẫn nhau

 Phương pháp liên kết từ vựng (Lexical Chains): Phương pháp liên kết từ vựng sử dụng các từ

điển quan hệ từ vựng đế xây dựng các chuỗi từ liên kết với nhau vể mặt ngữ nghĩa Ví dụ "cây" làmột loại "thực vật", có bộ phận là "lá", chất liệu là "gỗ" Các từ "cây", "thực vật", "lá", "gỗ" có quan

hệ ngữ nghĩa nào đó với nhau Sau khi xây dựng được các chuỗi từ này, đánh giá độ mạnh củachúng và có những trích chọn phù hợp Các ứng dụng tóm tắt sử dụng phương pháp này đã được

cài đặt bởi Regina Barzilay hay Cláudia Santos Tuy nhiên, có thể coi Morris và Hirst là những người đầu tiên đưa ra ý tưởng này vào năm 1991 Lexical Chains không những chỉ dùng trong

Tóm tắt văn bản mà còn được coi là lý thuyết tổng quát của vấn đề ngữ nghĩa trong Xử lý ngôn

ngữ tự nhiên Sau này Chin-Yew Lin and Eduard Hovy đã phát triển thành một lý thuyết mới, rộng hơn, được gọi là Nhận dạng chủ đề (Topic Identification).

Hình 9: Ví dụ về liên kết từ vựng

 Phương pháp Liên kết tham chiếu (Word Coreferences): Phương pháp liên kết tham chiếu còn

được gọi là phương pháp trích chọn trùng lặp (Anaphora-based Method) Theo phương pháp này,

31

Trang 31

các cụm trùng lặp được chọn ra, phân rã xem đâu là từ (ngữ) tham chiếu và từ (ngữ) được thamchiếu

Ví dụ : "Tuấn hay đến thăm ngoại cậu ấy Bà thường hay nấu cơm cho cậu ăn."

Trong ví dụ trên, các cặp trùng lặp là "Tuấn"-"cậu ấy"-"cậu" và "ngoại cậu ấy"-"bà" Trong đó

từ "cậu ấy" và "cậu" là từ tham chiếu, tham chiếu đến từ "Tuấn" là từ được tham chiếu Cặp "ngoạicậu ấy"-"bà" cũng tương tự

Sau khi phân tách các cụm trùng lặp, chúng ta tạo chuỗi các từ (ngữ) tham chiếu đến cùngmột từ được tham chiếu Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các từtrong chuỗi này có một độ ưu tiên nào đó khi xét trích chọn

Hình 10: Mô hình liên kết tham chiếu

 Phương pháp quan hệ câu (Discourse-Based): Dựa trên các từ thể hiện mối quan hệ giữa các

câu chúng ta cấu trúc hóa đoạn văn bản từ các đơn vị thành phần như ngữ, mệnh đề, câu Sau

đó đơn vị được coi như trung tâm sẽ được trích chọn

Phương pháp này dựa trên nghiên cứu và đề xuất nổi tiếng của Mann và Thompson về Lý

thuyết cấu trúc tu từ (Rhetorical Structure Theory) Đoạn văn đang xét sẽ được cấu trúc hóa thành

dạng cây từ các nút lá, gọi là Cây tu từ (Rhetorical Tree) Bằng cách biểu diễn các mối quan hệ giữa các câu về mặt ngữ nghĩa hay cú pháp như các mối quan hệ nền (Background), quan hệ dấu hiệu (Evidence), quan hệ phát sinh (Elaboration), chúng ta có thể xác định các nút hạt nhân và các nút vệ

tinh Từ đó chọn các nút hạt nhân để xây dựng nên cấp thấp hơn của Cây tu từ Gốc của Cây tu từ

sẽ là đơn vị quan trọng nhất

Ví dụ, một cặp câu có quan hệ nguyên nhân, kết quả thì thường câu kết quả có độ quantrọng cho tóm tắt hơn Một cặp câu khác có quan hệ minh họa thì câu minh họa rõ ràng không nênđưa vào tóm tắt so với câu nền tảng của nó Cứ thế, thông qua các mối quan hệ này, chúng ta sẽ sắpthứ tự được các câu, các đoạn trong văn bản theo độ quan trọng tóm tắt Sau đó ta trích ra những

câu ở đầu danh sách này theo số lượng mong muốn Đây là những ý tưởng cơ bản của Daniel

Marcu trong việc sử dụng RST vào các ứng dụng Tóm tắt và Sinh ngôn ngữ tự nhiên (Natural Language Generating).

4.2.2.1.3 Kết luận

Trang 32

Việc xác định các hệ số tuyến tính có thể thực hiện bằng nhiều cách Nhiều hệ thống khôngxác định được chính xác, đã để các hệ số này bằng nhau và bằng một ! Một số hệ thống khác thì cẩntrọng hơn, đưa ra những tỉ lệ tương đối sao cho đảm bảo được việc phối hợp các phương pháp là tốthơn việc dùng phương pháp chính xác nhất Ngoài ra một số hệ thống lại dựa vào các tham số đưavào để lựa chọn các phương pháp cần dùng Ví dụ như một hệ Trích rút mang chức năng chỉ định vàkhông cần độ chính xác cao chỉ cài đặt các phương pháp thống kê mà thôi Tuy nhiên, có mộtphương pháp mang lại tính chính xác khá cao khi xác định các hệ số đó là phương pháp học từ tập

mẫu (Corpus-based) Thông qua tập mẫu có thể xác định được các hệ số này khi cài đặt thuật toán

và kiểm thử trên tập mẫu Kết quả kiểm thử được đưa trở lại để cải tiến các hệ số tuyến tính cho đếnkhi đạt kết quả chấp nhận Nhìn chung, cách này chỉ áp dụng được khi có những tập mẫu chính xác

Trong các phương pháp được áp dụng ở pha Phân tích, ta dễ thấy các phương pháp thống

kê dễ cài đặt hơn các phương pháp cấu trúc Việc cài đặt các phương pháp thống kê đơn thuần chỉ

là các công thức toán học còn để cài đặt các phương pháp cấu trúc chúng ta cần thực hiện rất nhiều

kỹ thuật về Cấu trúc dữ liệu, Tính toán khoa học thậm chí là các kỹ thuật trong lĩnh vực Trí tuệ nhântạo Đó là chưa kể đến những kiến thức nhất định về ngôn ngữ và xử lý ngôn ngữ Tuy vậy, cácphương pháp thống kê cho kết quả kém hơn nhiều các phương pháp cấu trúc Đặc biệt hơn, qua một

số quá trình tìm hiểu và kiểm thử không chính thức thì kết quả cho thấy các phương pháp thống kêtiếng Việt thậm chí không đạt được độ chính xác như khi áp dụng đối với tiếng Anh

Một khó khăn chung to lớn của hai loại phương pháp áp dụng cho tiếng Việt là các tài nguyênphục vụ cho các phương pháp này chưa có nhiều Tài nguyên còn thiếu cho các phương pháp thống

kê là các số liệu thống kê tiếng Việt về vị trí và từ điển ngữ cố định Tài nguyên còn thiếu cho cácphương pháp cấu trúc là các tập mẫu, các mạng ngữ nghĩa Đã có một số nghiên cứu xây dựng tậpmẫu hay các mạng ngữ nghĩa dành cho tiếng Việt nhưng chưa thành công, chưa đầy đủ hoặc chưacông bố chính thức

4.2.2.2 Pha Biến đổi

Trong pha Biến đổi, các đoạn (câu) có độ quan trọng phù hợp đã được rút trích từ pha Phântích sẽ được tiếp tục biến đổi, làm gọn lại cho pha Hiển thị tiếp theo Như vậy trong pha này, hệ thống

sẽ thực hiện rút gọn bản thân bên trong một câu, thường sử dụng các phương pháp rút gọn câu

(Sentence Reduction hay Sentence Condensation) Ngoài ra, một số ứng dụng còn gộp hai, ba câu

lại để sinh ra một câu mới ngắn gọn hơn, tuy nhiên, thông qua pha Phân tích, các câu được rút tríchthường không có các quan hệ đặc trưng với nhau về nghĩa hay cú pháp để chúng ta có thể gộpchúng lại theo một tiêu chí nào đó Vì vậy các phương pháp rút gọn câu là các phương pháp chínhtrong pha này Và như đã đề cập, pha Biến đổi không có trong các hệ thống Trích rút văn bản

So với các phương pháp ở pha Phân tích, xét về mặt chính xác tóm tắt thì các phương pháppha Biến đổi không giúp tăng thêm độ chính xác tóm tắt, chỉ thực hiện chức năng rút gọn câu sao chovẫn sát ý, làm tăng độ rút gọn và tăng khả năng dễ đọc, mang tính ngôn ngữ tự nhiên trong các câu

33

Định dạng
Số trang	65
Dung lượng	1,35 MB