Vì vậy các phương pháp của Trí tuệnhân tạo thường được dùng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng củangành Ngôn ngữ học như hình thái, ngữ pháp, ngữ nghĩa…
Trang 1MỤC LỤC
MỞ ĐẨU 5
MỞ ĐẨU 5
1 CƠ SỞ LÝ THUYẾT 8
1.1 Tổng quan về Xử lý ngôn ngữ tự nhiên 8
1.2 Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên 9
1.2.1 Phân tách thuật ngữ - Phân tách đoạn và câu 9
1.2.2 Gán nhãn từ loại 11
1.2.3 Phân tích cú pháp 11
1.2.4 Phân tích ngữ nghĩa 12
1.3 Các đặc trưng ngôn ngữ của tiếng Việt 12
1.3.1 Ngữ âm và âm vị 13
1.3.2 Từ pháp và hình thái 14
1.3.3 Ngữ pháp 15
2 KHAI PHÁ VĂN BẢN 16
2.1 Tổng quan khai phá dữ liệu 16
2.2 Khai phá văn bản 18
2.3 Biểu diễn văn bản 19
2.3.1 Mô hình boolean 19
2.3.2 Mô hình không gian vector 20
2.3.3 Mô hình tập thô dung sai 21
2.4 Các bài toán Khai phá văn bản điển hình 22
2.4.1 Bài toán Phân nhóm văn bản 22
2.4.2 Bài toán Đánh chỉ mục - Tìm kiếm 22
2.4.3 Bài toán Tóm tắt văn bản 22
3 BÀI TOÁN TÓM TẮT VĂN BẢN 24
3.1 Giới thiệu chung 24
3.1.1 Tóm tắt văn bản là gì ? 24
3.1.2 Các tiêu chí đánh giá 25
3.1.3 Phân loại bài toán Tóm tắt văn bản 26
3.2 Mô hình Tóm tắt văn bản 29
3.2.1 Mô hình chung 29
3.2.2 Các phương pháp áp dụng trong các pha 30
3.2.3 Đánh giá kết quả tóm tắt 40
3.3 Một số hệ thống tóm tắt văn bản phổ biến 44
4 XÂY DỰNG HỆ THỐNG TÓM LƯỢC VĂN BẢN TIẾNG VIỆT - SUMMARIZER 46
4.1 Mô hình xây dựng ứng dụng 46
4.2 Giai đoạn tiền xử lý văn bản tiếng Việt 47
Trang 24.2.1 Chuẩn hóa văn bản 47
4.2.2 Mô hình hóa văn bản 48
4.2.3 Tách thuật ngữ 49
4.3 Các phương pháp trong pha Phân tích 52
4.3.1 Phương pháp Title 53
4.3.2 Phương pháp Heading 54
4.3.3 Phương pháp NamedEntity - NE 55
4.3.4 Phương pháp Quan hệ liên đoạn (Paragraph Cooccurence) 56
4.3.5 Phương pháp Tần suất xuất hiện của thuật ngữ 56
4.3.6 Phương pháp TFxIPF 57
4.4 Các phương pháp trong pha Biến đổi 58
4.4.1 Biến đổi nhờ vào rút gọn câu 58
4.4.2 Giản lược câu về mặt ngữ nghĩa 60
4.5 Các phương pháp trong pha Hiển thị 61
4.6 Xây dựng chương trình Summarizer 62
5 CHƯƠNG TRÌNH ỨNG DỤNG 63
5.1 Một số giao diện chương trình 63
5.2 Kiểm thử 64
6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67
7 TÀI LIỆU THAM KHẢO 68
7.1 Links 68
7.2 Books 68
3
Trang 3MỤC LỤC HÌNH VẼ
Hình 1: Phân tích cú pháp 12
Hình 2: Các bước của quá trình phát hiện tri thức 17
Hình 3: Mô hình khai phá văn bản chung 18
Hình 4: Mô tả bài toán Phân nhóm văn bản 22
Hình 5: Tóm tắt trang tin 25
Hình 6: Mô hình chung của tóm tắt văn bản 29
Hình 7: Mô hình trích rút văn bản 30
Hình 8: Mô hình phương pháp quan hệ lẫn nhau 32
Hình 9: Ví dụ về liên kết từ vựng 33
Hình 10: Mô hình liên kết tham chiếu 33
Hình 11: Mô hình hệ thống tóm tắt văn bản 47
Hình 12: Mô hình hoá văn bản 48
Hình 13: Cấu trúc chương trình Summarizer 62
Hình 14: Giao diện chính 63
Hình 15: Form cấu hình tóm tắt 63
Hình 16: Giao diện kiểm thử 64
Hình 17: Giao diện phân tách đoạn và câu 65
Hình 18: Giao diện phân tách thuật ngữ của đoạn 65
Hình 19: Kết quả thực thi phương pháp TFxIPF 66
Hình 20: Kết quả thực thi phương pháp Title 66
Trang 41 MỞ ĐẨU
Hai thập kỷ gần đây, khắp nơi trên thế giới tràn ngập thông tin Chính sự phát triển nhanhchóng của Công nghệ thông tin và Truyền thông đã đem lại cho thế giới bộ mặt mới Các ứng dụngCông nghệ thông tin - Truyền thông đã hiện diện trong hầu hết các ngành, các lĩnh vực của cuộcsống: kinh tế tri thức, hợp tác toàn cầu, những công việc quản lý, vận hành những hoạt động từ vi môtới vĩ mô của doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc,
trợ giúp Đặc biệt, sự ra đời của Internet - Mạng thông tin toàn cầu - được coi là nguyên nhân chính, thúc đẩy sự bùng nổ thông tin trên toàn thế giới Thông qua Internet, những thông tin quý giá về mọi
lĩnh vực đều sẵn sàng đợi chúng ta khám phá và lĩnh hội
Trong thế giới thông tin đa dạng phong phú như vậy, nhu cầu thu thập được những thông tincần thiết, có giá trị đồng thời xử lý chúng thành dạng dữ liệu mong muốn là nhu cầu chính đáng vàcấp thiết của nhân loại Lĩnh vực của Công nghệ thông tin có thể đáp ứng những nhu cầu to lớn này
là Khai phá dữ liệu.
Khai phá dữ liệu, vốn chỉ là một giai đoạn trong bảy giai đoạn của quá trình Phát hiện tri thức trong cơ sở dữ liệu, tuy nhiên, do là giai đoạn chính yếu, nên chúng ta thường đồng nhất, hay
nói chính xác hơn là lấy Khai phá dữ liệu làm đại diện cho cả quá trình Phát hiện tri thức trong cơ sở
dữ liệu Và vì vậy, Khai phá dữ liệu được hiểu như một quá trình lấy ra các thông tin quan trọng từcác dạng CSDL, biến đổi, xử lý chúng nhằm phục vụ những mục đích cụ thể của con người Cácphương pháp thường dùng trong Khai phá dữ liệu là các phương pháp Trích chọn, Thống kê hay
Phân loại Do phần lớn dữ liệu ở dạng văn bản nên một lĩnh vực nhỏ hơn là Khai phá văn bản
được quan tâm chú ý hơn cả
Trong khi lĩnh vực Khai phá dữ liệu mới trở thành đề tài nóng bỏng, cấp thiết gần đây do sựbùng nổ thông tin toàn cầu thì trong ngành Khoa học máy tính, có một lĩnh vực khác đã ra đời cáchđây khá lâu, và cũng đã có nhiều thành tựu trong suốt quá trình phát triển của mình Đó là lĩnh vực
Xử lý ngôn ngữ tự nhiên Mục đích của Xử lý ngôn ngữ tự nhiên là giúp cho máy tính và con người
hiểu nhau hơn, thuận tiện hơn trong quá trình làm việc và đem lại lợi ích tối đa cho con người Thôngqua các giao tiếp thân thiện, dễ hiểu giữa người và máy, việc đưa Công nghệ thông tin thật sự đi vàođời sống nhân loại là mục tiêu lớn nhất mà Xử lý ngôn ngữ tự nhiên hướng tới
Xử lý ngôn ngữ tự nhiên là quá trình xử lý sao cho máy tính có thể hiểu được một thông tingiống như cách mà con người hiểu thông tin đó thông qua các khía cạnh ngôn ngữ bao hàm trong
nó Theo định nghĩa này thì Xử lý ngôn ngữ tự nhiên là một phần của Trí tuệ nhân tạo - làm cho máytính nắm bắt, thao tác, mô phỏng cách mà con người thực hiện Vì vậy các phương pháp của Trí tuệnhân tạo thường được dùng trong lĩnh vực Xử lý ngôn ngữ tự nhiên, kết hợp với các đặc trưng củangành Ngôn ngữ học như hình thái, ngữ pháp, ngữ nghĩa… Các bài toán điển hình của Xử lý ngôn
ngữ tự nhiên là Trả lời tự động, Dịch máy, Sinh văn bản tự động, Kiểm tra chính tả…
5
Trang 5Như vậy, hai lĩnh vực Khai phá dữ liệu và Xử lý ngôn ngữ tự nhiên có nhiều điểm khác biệtmặc dù cùng sử dụng một số các phương pháp của Trí tuệ nhân tạo Nói đến Khai phá dữ liệu là nóiđến việc tìm ra thông tin quan trọng, thông tin mong muốn từ một lượng lớn dữ liệu, còn nói đến Xử
lý ngôn ngữ tự nhiên là nói đến việc máy tự phân tích và hiểu những khía cạnh ngôn ngữ trong thôngtin cụ thể Tuy nhiên, có một bài toán điển hình của Khai phá dữ liệu có sử dụng rất nhiều những khái
niệm, mô hình, phương pháp của Xử lý ngôn ngữ tự nhiên, đó là bài toán Tóm tắt văn bản.
Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ramột bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể Tóm tắt văn bản làmnhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vựccủa Khai phá văn bản Tuy nhiên trong quá trình chắt lọc, rút gọn thì cần có sự áp dụng của cácphương pháp Xử lý ngôn ngữ tự nhiên nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang
ý nghĩa ngôn ngữ tự nhiên như đầu vào của nó Trên thế giới đã có rất nhiều các ứng dụng Tóm tắtvăn bản, với những mục đích nghiên cứu cũng như thương mại Nhưng với những khó khăn và tháchthức riêng, Tóm tắt văn bản hiện chưa được nghiên cứu nhiều ở Việt Nam Chính vì lý do này chúngtôi đã chọn Tóm tắt văn bản tiếng Việt là đề tài tiểu luận, mong muốn góp một phần công sức cho sựphát triển của Khai phá văn bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung
Trong tiểu luận này chúng tôi muốn trình bày những kết quả tìm hiểu về bài toán Tóm tắt vănbản và bước đầu xây dựng một Ứng dụng tóm tắt văn bản tiếng Việt, sử dụng kết hợp các phươngpháp của Khai phá văn bản và Xử lý ngôn ngữ tự nhiên đồng thời xét tới những đặc trưng về ngônngữ của tiếng Việt
Tiểu luận gồm các phần sau :
Chương 1 Trình bày về lĩnh vực Xử lý ngôn ngữ tự nhiên, các vấn đề chung của Xử lý ngôn ngữ
tự nhiên, các đặc trưng ngôn ngữ tiếng Việt cũng như các vấn đề riêng khi xử lý tự động văn bảntiếng Việt
Chương 2 Trình bày về lĩnh vực Khai phá dữ liệu nói chung và Khai phá văn bản nói riêng, các
vấn đề mô hình hóa văn bản cũng như đề cập sơ qua một số bài toán Khai phá văn bản điển hình
Chương 3 Trình bày những vấn đề cơ bản về bài toán Tóm tắt văn bản, khái niệm và phân loại
một bài toán Tóm tắt văn bản, lịch sử phát triển và những ứng dụng của Tóm tắt văn bản, môhình chung và các phương pháp xây dựng một ứng dụng Tóm tắt văn bản…
Chương 4 Trình bày việc thiết kế và xây dựng ứng dụng Tóm lược văn bản tiếng Việt
SUMMARIZER dựa trên một số phương pháp trong các phương pháp đã nêu ở chương ba.Ngoài ra trong chương này, những cài đặt tiền xử lý văn bản cũng được chúng tôi đề cập đến vớinhững nét mới so với các công việc tương tự trước đây của một số nhà nghiên cứu lĩnh vực Khaiphá văn bản tiếng Việt
Chương 5 Trình bày việc kiểm thử và đánh giá ứng dụng SUMMARIZER, các kết quả thực
nghiệm của chương trình
Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này
Trang 6 Cuối cùng là phần tài liệu tham khảo.
7
Trang 72 CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về Xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên là lĩnh vực thuộc ngành Khoa học máy tính và đã xuất hiện từ rấtlâu Với việc sử dụng các phương pháp Trí tuệ nhân tạo, Xử lý ngôn ngữ tự nhiên cũng thường đượccoi là ngành nghiên cứu hẹp hơn của lĩnh vực này
Ngôn ngữ tự nhiên (Natural Language) là thuật ngữ dùng để chỉ các ngôn ngữ giao tiếp giữa
con người với nhau như tiếng Việt, tiếng Anh, tiếng Nhật…, để phân biệt với ngôn ngữ nhân tạo
(Artificial Language) hay còn gọi là ngôn ngữ lập trình (Programming Language) để chỉ các ngôn ngữ
con nguời giao tiếp với máy tính như Pascal, C/C++, Java… Lĩnh vực Xử lý ngôn ngữ tự nhiên ra đời
đã lâu, trải qua nhiều nghiên cứu và ứng dụng, ngày nay được hiểu như là lĩnh vực giúp máy tính xử
lý các vấn đề về ngôn ngữ tự nhiên, không ngoài mục đích giúp cho giao tiếp giữa người-máy thuậntiện và thân thiện hơn
Xử lý ngôn ngữ tự nhiên có rất nhiều hướng ứng dụng và mỗi hướng ứng dụng đó lại là mộtngành nghiên cứu hết sức thú vị Khi nói đến Xử lý ngôn ngữ tự nhiên thì chúng ta phải nói đến cơ sởngôn ngữ tự nhiên Đó là những vấn đề cơ bản của ngôn ngữ mà lĩnh vực Xử lý ngôn ngữ tự nhiênbám sát và nghiên cứu làm sao cho máy tính phân tích và hiểu ngôn ngữ tự nhiên giống như conngười hiểu hoặc chí ít cũng là gần như cách con người hiểu Các vấn đề cơ bản của ngôn ngữ tựnhiên bao gồm :
Phonology & Phonetics (Âm vị và Ngữ âm): các ngành nghiên cứu của Ngôn ngữ học, chuyên
nghiên cứu về đơn vị phát âm, cách phát âm và các biến thái của chúng Hướng ứng dụng tươngứng của chúng thuộc Xử lý ngôn ngữ tự nhiên là ngành Xử lý - Nhận dạng tiếng nói
Morphology (Hình thái học): ngành nghiên cứu về hình thái của từ, nghĩa là tùy thuộc vào thời,
thể, cách mà các từ có sự biến đổi hay kết hợp khác nhau Các thành tựu của hình thái học đượccác nhà khoa học về Máy tính sử dụng trong các nghiên cứu mà họ lấy từ hay chữ là đơn vị để xử
lý như Nhận dạng chữ viết, Kiểm tra và sửa chính tả…
Grammar (Ngữ pháp): ngành nghiên cứu về từ pháp và cú pháp Từ pháp đề cập đến các đặc
tính từ loại (Part Of Speech), giống, số của từ Một số nhà ngôn ngữ cũng xếp Hình thái học vào vấn đề Từ pháp học Cú pháp (Syntactic) đề cập đến sự liên kết giữa các từ, các ngữ trong câu.
Ngữ pháp và ngữ nghĩa là hai vấn đề mà Xử lý ngôn ngữ tự nhiên quan tâm nhất và cũng đạtđược nhiều kết quả nghiên cứu nhất cho đến hiện tại
Semantic (Ngữ nghĩa): đề cập đến vấn đề ngữ nghĩa: một từ, ngữ hay câu được “hiểu” như thế
nào, hàm chứa ý gì, quan hệ về nghĩa giữa các từ với nhau thế nào Đặc biệt tiếng Anh đã xâydựng được nhiều nghiên cứu về ngữ nghĩa và thậm chí nhiều mạng ngữ nghĩa - mô tả quan hệ về
nghĩa giữa các từ theo nhiều khía cạnh Nổi tiếng nhất có lẽ là WordNet Mạng ngữ nghĩa này là
một kho tri thức khổng lồ được cung cấp miễn phí cho việc nghiên cứu Hiện tại nhiều mạng
Trang 8Wordnet cho các thứ tiếng khác ngoài tiếng Anh cũng đã được xây dựng, tuy nhiên Wordnet Việt
nam hiện tại vẫn chưa được chính thức nghiên cứu và xây dựng
Pragmatics (Ngữ dụng): ngành nghiên cứu việc dùng các từ, các ngữ trong các lĩnh vực khác
nhau Các thống kê về việc tần suất sử dụng của các từ trong các lĩnh vực khác nhau là những
thông số quan trọng cần thiết cho những phương pháp thống kê của Xử lý ngôn ngữ tự nhiên
Trên các lĩnh vực này, máy tính cần phải hiểu được ngôn ngữ ở mức cao hơn Đó là mức
ngữ đoạn (Discourse) và mức tri thức (World Knowledge)
Mức ngữ đoạn là các quan hệ về mặt ngữ pháp và ngữ nghĩa, thậm chí ngữ dụng của cácđoạn văn bản Đã có nhiều nghiên cứu về vấn đề này, nổi tiếng nhất là Lý thuyết cấu trúc tu từ
(Rhetorical Structure Theory - RST) RST biểu thị các quan hệ ngữ pháp và ngữ nghĩa giữa các câu
với nhau, giữa các đoạn với nhau thông qua các quan hệ được định nghĩa sẵn Lý thuyết này thườngđược áp dụng trong việc phân tích ngữ đoạn cũng như sinh văn bản tự động
Mức tri thức là mức rộng nhất, máy phải hiểu được tất cả các vấn đề của một tiếng, một từ,một ngữ, một câu, một khái niệm, một thông tin, một tri thức Tất nhiên chưa có một nghiên cứu nàođạt được mức này tuy nhiên cũng đã có một số nghiên cứu đặt ra tham vọng sẽ mô hình hóa về tất
cả các đặc tính của ngôn ngữ cho một đơn vị nào đó như từ, câu hoặc đoạn
Ngôn ngữ tự nhiên là một vấn đề phức tạp ngay cả với con người, vì vậy, đối với máy tínhviệc xử lý ngôn ngữ tự nhiên là một công việc hết sức khó khăn, thuộc lớp các bài toán kinh điển củaKhoa học máy tính và Trí tuệ nhân tạo - các bài toán đòi hỏi chi phí tính toán rất lớn Vì vậy, Xử lýngôn ngữ tự nhiên trước đây phát triển chậm và có xu hướng áp dụng các thuật toán dựa luật và suydiễn Tuy nhiên vào những thập kỷ gần đây, sự phát triển nhanh chóng của phần cứng máy tính kéotheo sự ra đời của các máy tính nhỏ gọn, giá thành rẻ mà lại có hiệu suất tính toán cao đã mở ra triểnvọng mới cho lĩnh vực Trí tuệ nhân tạo nói chung và Xử lý ngôn ngữ tự nhiên nói riêng Các thuậttoán thống kê cũng đang từng ngày được áp dụng nhiều hơn và cho những kết quả khả quan Nhữngthành tựu của Xử lý ngôn ngữ tự nhiên không chỉ áp dụng trong nghiên cứu mà đã được dùng để xâydựng các ứng dụng mang tính thương mại và đạt được nhiều thành công trên thị trường
2.2 Các vấn đề cơ bản của Xử lý ngôn ngữ tự nhiên
Như chúng ta đã đề cập, ngữ pháp và ngữ nghĩa là các vấn đề được quan tâm nhất và cóứng dụng nhiều nhất trong các bài toán điển hình của lĩnh vực Xử lý ngôn ngữ tự nhiên như Tóm tắt,Dịch máy, Trả lời tự động… Sau đây là các bài toán cơ bản thuộc về ngữ pháp và ngữ nghĩa mà cácnhà Xử lý ngôn ngữ tự nhiên thường phải giải quyết
2.2.1 Phân tách thuật ngữ - Phân tách đoạn và câu
Phân tách thuật ngữ (Word Segmentation) là công việc tách một chuỗi văn bản ra thành các term (thuật ngữ) xem các term nào có trong từ điển, term nào không có trong từ điển (các tên riêng,
ký hiệu, chữ viết tắt…) Công việc này làm tiền đề cho việc mô hình hóa văn bản Chúng ta phải thựchiện việc này trước thì mới có thể vector hóa một văn bản, đối sánh hay xác định độ liên quan…
9
Trang 9Các ngôn ngữ Latin như tiếng Anh hay tiếng Pháp thì vấn đề này không phức tạp bằng các
ngôn ngữ khác như tiếng Việt, tiếng Hoa hay tiếng Nhật… do các từ của tiếng Anh hay tiếng Phápđược tách nhau bởi một hay nhiều dấu cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa cácdấu cách không phải là từ mà là tiếng (chữ) - một đơn vị nhỏ hơn từ
Ví dụ: Xét câu tiếng Anh sau :
We announced that we have captured him.
Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :
We | announced | that | we | have | captured | him.
Tuy nhiên ta xem câu tiếng Việt tương ứng :
Chúng tôi xin thông báo rằng chúng tôi đã bắt được hắn ta.
Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này Kết quả phân táchthuật ngữ đúng phải là như sau :
Chúng tôi | xin | thông báo | rằng | chúng tôi | đã | bắt được | hắn ta.
Để giải quyết vấn đề này các nhà Xử lý ngôn ngữ tự nhiên của Việt Nam, Trung
Quốc, Nhật Bản… thường sử dụng những phương pháp như: Đối sánh thuật ngữ dài nhất (Maximum
Length Matching), Đồ thị chuyển trạng thái (Transducing Graph), dựa cú pháp (Syntax-based Approach)… Mỗi phương pháp có ưu và nhược điểm riêng nhưng phương pháp nào cũng sử dụng
một từ điển hoặc danh sách từ vựng Do vậy sự chính xác của từ điển hay danh sách từ vựng là yếu
tố quan trọng ảnh hưởng đến sự chính xác của bộ phân tách thuật ngữ Ngoài ra vì có những nhậpnhằng trong ngôn ngữ nên bài toán này cũng như các bài toán khác của Xử lý ngôn ngữ tự nhiênchưa được giải quyết một cách trọn vẹn Hiện tại các bộ phân tách thuật ngữ thường đạt được kếtquả từ 85% đến 98% các từ phân tách chính xác
Bộ đoán nhận danh từ riêng, chữ viết tắt cũng có thể coi là một phần của bộ phân tách thuậtngữ và được áp dụng rộng rãi Nhiều bài toán coi đây là một công việc cơ bản vì danh từ riêng, chữviết tắt… có tần suất xuất hiện khá cao trong văn bản và chúng cũng hàm chứa mức độ quan trọnglớn Ngoài ra việc đoán nhận danh từ riêng, chữ viết tắt còn là một phần của việc hợp giải tham chiếu
(Coreference Resolution) - được dùng nhiều trong các ứng dụng tóm tắt và sinh ngôn ngữ tự nhiên (Natural Language Generating).
Xét về phạm vi lớn hơn thì ta phải đối mặt với một vấn đề khác, đó là Phân tách đoạn-câu
(Sentence Segmentation) là công việc phân tách một văn bản thành những đoạn và câu nhằm tạo
tiền đề cho việc phân tích cú pháp sau này của văn bản đó Bài toán này không phân biệt ngôn ngữ
vì hầu hết các ngôn ngữ thường phân tách câu dựa trên những dấu hiệu là các dấu ngắt câu nhưdấu chấm, chấm hỏi, chấm than Tuy vậy, nếu văn bản đưa vào không chuẩn thì kết quả cũngkhông thể đạt 100% Ví dụ, sau các dấu chấm câu không viết hoa sẽ dẫn đến việc hiểu nhầm thànhdấu ba chấm Ngoài ra, một số phần trăm sai sót khác còn do hiện tượng những dấu chấm câu đượcdùng như là ký hiệu thực hiện chức năng khác khác gây ra Ví dụ, dấu chấm dùng để phân tách phầnnguyên và phần thập phân của một con số Nói chung phân tách đoạn-câu có khả năng đạt được độ
Trang 10chính xác cao hơn và cũng dễ dàng cài đặt hơn phân tách từ nhưng phạm vi áp dụng thì không rộngbằng.
Các phương pháp thường dùng để cài đặt bộ gán nhãn từ loại bao gồm : Mô hình Markov ẩn
- Giải thuật Viterbi, Dựa luật cú pháp (Rule-based), Dựa bộ nhớ (Memory-based), Độ hỗn loạn lớn nhất (Maximum Entropy)… Trong đó các phương pháp áp dụng mô hình Markov ẩn (Hidden Markov
Model - HMM) được sử dụng nhiều nhất Các phương pháp như Bigram, Trigram hay CFG (Context Free Grammar) đều thuộc loại này Hiện nay bộ gán nhãn từ loại (POS Tagger) chính xác nhất đạt tới
khả năng gán nhãn đúng 98% số từ
2.2.3 Phân tích cú pháp
Phân tích cú pháp là bài toán tổng quát của gán nhãn từ loại Ngoài việc gán từ loại cho từng
từ, bộ phân tích cú pháp (Syntax Analyzer hay Parser) phải nhận biết được các ngữ và gán kiểu cho
các ngữ làm sao để có được một câu hoàn chỉnh về mặt ngữ pháp Nếu không câu đó là câu khônghoàn chỉnh Xét về ngôn ngữ học, đó sẽ không phải là câu Kết quả việc gán từ, ngữ này thường
được biểu diễn thành cây, gọi là cây cú pháp (Syntax Tree).
Trang 11Các bộ phân tích cú pháp thường được cài đặt bởi các thuật toán dựa trên luật hay ngữ liệu
(Corpus-based) Việc kiểm tra xem một câu có phải là câu hoàn chỉnh hay không thường dựa vào
việc duyệt cây và cấu trúc chính của một ngôn ngữ Ở tiếng Anh, cấu trúc chính tạo nên câu hoànchỉnh về mặt ngữ pháp là cấu trúc S + V + (O) : Chủ ngữ + Động từ + (Tân ngữ) Tuy nhiên trongtiếng Việt cấu trúc “nòng cốt” tạo bởi quan hệ “đề - thuyết” (hay quan hệ “chủ - vị”) là cấu trúc của mộtcâu hoàn chỉnh về mặt ngữ pháp
Việc phân tích cú pháp là một công việc cơ bản của các bài toán Xử lý ngôn ngữ tự nhiên,nhưng do tính chất phức tạp của ngôn ngữ và các đặc thù riêng của quá trình máy học, các bộ phântích cú pháp chưa đạt được độ chính xác cao như mong đợi
2.2.4 Phân tích ngữ nghĩa
Như chúng ta đã đề cập ở trên, phân tích ngữ nghĩa giúp cho máy có thể “hiểu” được một từ,một câu, một đoạn hàm chứa ý nghĩa gì hay mối quan hệ về nghĩa giữa chúng Các phương phápdùng để phân tích ngữ nghĩa hay được dùng đó là các phương pháp dựa trên tri thức hay dựa trên
ngữ liệu Dựa trên tri thức (Knowledge-based) là phương pháp dựa trên các kho tri thức ngữ nghĩa
có sẵn (như WordNet) để phân tích ngữ nghĩa Dựa trên ngữ liệu (Corpus-based) là phương pháp
dựa trên những thống kê các kho ngữ liệu để đưa ra được ngữ nghĩa của đối tượng đang xét Cácphương pháp này nói chung đòi hỏi phải có kho tri thức hoặc kho ngữ liệu lớn, càng lớn càng chínhxác nhưng đối với tiếng Việt thì đây là hạn chế lớn do chúng ta không có được các nguồn tài nguyên
này Một cách khắc phục là xây dựng các kho ngữ liệu song ngữ (Parallel Corpora) và từ các nghiên
cứu tương ứng của một ngôn ngữ mà dẫn ra một số kết quả thích hợp cho ngôn ngữ còn lại
2.3 Các đặc trưng ngôn ngữ của tiếng Việt
Ngôn ngữ là một hiện tượng xã hội: không phải hiện tượng tự nhiên, cá nhân mà là hiệntượng xã hội đặc biệt Ngôn ngữ là phương tiện giao tiếp quan trọng nhất của con người: cácphương tiện khác được diễn giải qua ngôn ngữ Ngôn ngữ là hiện tượng trực tiếp của tư tưởng: ngônngữ là phương tiện của tư duy Quan hệ “ngôn ngữ – tư duy (ý thức) – hiện thực” “từ – khái niệm “từ – khái niệm– sự vật” Ngôn ngữ - lời nói - hoạt động lời nói: “ngôn ngữ” có tính xã hội, “lời nói” có tính cá nhân,
“lời nói” là ngôn ngữ đang hành chức Hay nói một cách đơn giản hơn: “Ngôn ngữ là hệ thống ký hiệuđặc biệt dùng để làm phương tiện giao tiếp quan trọng nhất của con người”
Theo quan điểm của F.de.Saussure (cha đẻ của ngôn ngữ học hiện đại): “Ngôn ngữ giốngnhư bàn cờ: giá trị của quân cờ không phải là do nó làm bằng gì, cấu tạo/hình dáng như thế nào, màgiá trị của nó là do hệ thống bàn cờ, do các quân cờ khác qui định/gán cho nó Nên nếu ta mất mộtcon xe/con pháo nào đó, thì ta vẫn có thể qui ước với nhau là thay thế nó bằng một cục phấn/hạt sỏi/
… mà giá trị của nó vẫn không đổi”
Theo bảng phân loại loại hình ngôn ngữ, Tiếng Việt được xếp vào loại hình đơn lập (isolate)hay còn gọi là loại hình phi hình thái, không biến hình, ngôn ngữ đơn âm tiết hay phân tiết,…vớinhững đặc điểm chính như sau:
Trang 12 Trong hoạt động ngôn ngữ, từ không biến đổi hình thái Ý nghĩa ngữ pháp nằm ởngoài từ Ví dụ: Tôi nhìn anh ấy và Anh ấy nhìn tôi (I see him và He sees me)
Phương thức ngữ pháp chủ yếu là : trật tự từ và từ hư Ví dụ : Gạo xay và Xay gạo ;đang học và học rồi (learning và learned)
Tồn tại một loại đơn vị đặc biệt, là “hình tiết” mà vỏ ngữ âm của chúng trùng khít với âm tiết,
và đơn vị vị đó cũng chính là “hình vị” (morpheme) hay còn gọi là “tiếng” (tiếng Việt sử dụng khoảng
8000 tiếng) Các hình vị kết hợp với nhau một cách lỏng lẻo, linh động Không có hiện tượng cấu tạo
từ bằng cách ghép thêm phụ tố (affix) vào gốc từ (trong khi đó ở tiếng Anh, hiện tượng này rất phổbiến, như: anticomputerizational = anti-compute-er-ize-ation-al)
Tiếng Việt thuộc loại ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rờinhau và được thể hiện bằng một chữ viết Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từvựng, ngữ pháp
2.3.1 Ngữ âm và âm vị
Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng" Về mặt ngữ âm, mỗi tiếng là một
âm tiết Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếngViệt trong việc thể hiện các đơn vị có nghĩa Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặcsắc Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hoà về ngữ âm, đến nhạc điệu của câu văn
Mỗi âm tiết tiếng Việt gồm ba phần : phần đầu, phần sau và thanh điệu Phần đầu của âm tiếtđược xác định là Âm đầu, vì ở vị trí này chỉ có một âm vị tham gia cấu tạo Phần sau của âm tiết được gọi là phần Vần Phần Vần gồm các loại âm vị được gọi là Âm đệm, Âm chính và Âm cuối.Thanh điệu có sáu loại ngang, hỏi, huyền, sắc, ngã, nặng Thanh điệu được đặt ở trên nguyên âmtrong âm tiết Tuy nhiên phần Vần có thể có nhiều nguyên âm do vậy việc bỏ dấu ở nguyên âm nào làvấn đề đã được đặt ra từ lâu trong các hội thảo về chuẩn hóa ngôn ngữ và công nghệ thông tin-truyền thông Ngoài ra, do sự có mặt của dấu phụ - các dấu không phải là thanh điệu, đi kèm với một
số nguyên âm để tạo ra các nguyên âm mới (ví dụ: “^” với â, ê, ô hay “’” với ơ, ư…) - nên vị trí đặtthanh điệu cũng phải hòa hợp với các dấu phụ này
Khi Công nghệ thông tin phát triển, việc bỏ dấu chính xác chính là một phần trong quá trìnhlưu trữ các âm tiết, chữ viết trong các tài liệu điện tử và tất nhiên đòi hỏi một sự chính xác tuyệt đối.Các quy tắc chuẩn hóa về vị trí thanh điệu cũng như vấn đề i-y đã được một số nhà ngôn ngữ họcđưa ra và nói chung đã được ngành ngôn ngữ học thống nhất Nhưng trong các văn bản điện tử thìhiện tại chưa có được các chuẩn hóa này Bản thân các bộ gõ tiếng Việt thường được dùng hiện nay
như Vietkey hay Unikey cũng có các tùy chọn bỏ dấu
2.3.2 Từ pháp và hình thái
Khi tìm hiểu các đặc trưng tiếng Việt ta cần chú ý tiếng Việt là một ngôn ngữ đơn lập - đơn
âm tiết (monosyllable) Mỗi tiếng, nói chung, là một yếu tố có nghĩa Tiếng là đơn vị cơ sở của hệ
13
Trang 13thống các đơn vị có nghĩa của tiếng Việt Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để địnhdanh sự vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy.
Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật kếthợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiện nay, đây là phươngthức chủ yếu để sản sinh ra các đơn vị từ vựng Theo phương thức này, tiếng Việt triệt để sử dụngcác yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngôn ngữ khác để tạo ra các từ, ngữ mới, vídụ: tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thông tin,siêu liên kết văn bản, truy cập ngẫu nhiên, v.v
Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi phối chủyếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn,lúng lá lúng liếng, v.v Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết,một tiếng) Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiệnthuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động Cùngmột sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị.Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức năng ngônngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật Hiện nay, do sự phát triển vượt bậc của khoahọc - kĩ thuật, đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn
Dựa trên “tiếng” - đơn vị rất dễ nhận biết thông qua các dấu cách - chúng ta phân biệt đượcđâu là từ ghép, đâu là từ đơn Từ đơn là từ chỉ có một tiếng, từ ghép là từ có hai tiếng trở lên Đâychính là vấn đề của các ngôn ngữ như tiếng Việt : rất khó khăn khi thực hiện việc phân tách thuậtngữ Cách tốt nhất là dựa trên từ điển để đối sánh và rút ra kết luận (Bên ngành ngôn ngữ học có một
số phương pháp để xác định xem đó là một từ hay nhiều từ như khảo sát về hiện tượng tách, lặp,hay đối chiếu…, tuy nhiên các phương pháp này không thể áp dụng được đối với máy tính !)
Xét về mặt hình thái, khác với phần lớn các ngôn ngữ hệ Latin, tiếng Việt thường không cóhiện tượng biến cách hay dẫn xuất khi câu thay đổi về thời, thể, cách Thay vào đó là việc sử dụngkết hợp với hư từ (từ công cụ) để phản ánh sự thay đổi này
Điều này ảnh hưởng trực tiếp đến quá trình tiền xử lý văn bản cũng như đoán nhận ngữnghĩa Việc chuẩn hóa hình thái từ của các hệ tiếng Latin là cả một vấn đề trong khi đó tiếng Việtchúng ta không cần quan tâm đến Ngược lại, khi xét đến ngữ nghĩa chúng ta phải thông qua các hư
từ hay danh từ số lượng đi kèm để hiểu được nghĩa đầy đủ của một từ hay cụm từ
Trang 14Cấu trúc nòng cốt, dựa trên quan hệ “đề thuyết” của tiếng Việt đề cập đến một quy tắc chungnhất của tiếng Việt khi tạo câu, đó là một câu hoàn chỉnh về mặt ngữ pháp phải có phần đề và phầnthuyết Phần đề cấu thành bởi danh ngữ Phần thuyết cấu thành bởi hoặc là động ngữ hoặc tính ngữhoặc một đoản ngữ khác Đây chính là sự khác biệt chính về ngữ pháp với một số ngôn ngữ khác,tiếng Anh chẳng hạn Trong tiếng Anh, cấu trúc chính là S-V-(O) Một câu hoàn chỉnh của tiếng Anhcần phải có một động ngữ trong đó động từ đóng vai trò chính Tiếng Việt thì không chắc vậy Mộtcâu hoàn chỉnh có thể không có động từ
Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cúpháp Trong tiếng Việt khi nói "Anh ta lại đến" là khác với "Lại đến anh ta" Khi các từ cùng loại kếthợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ.Nhờ trật tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình" Trật tự chủngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt
Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng Việt Nhờ hư từ mà tổhợp "anh của em" khác với ttổ hợp "anh và em", "anh vì em" Hư từ cùng với trật tự từ cho phép tiếngViệt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểucảm Ví dụ, so sánh các câu sau đây:
Ông ấy không hút thuốc
Thuốc, ông ấy không hút
Thuốc, ông ấy cũng không hút
Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu Ngữ điệu giữ vai tròtrong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó nhằm đưa ra nội dung muốnthông báo Trên văn bản, ngữ điệu thường được biểu hiện bằng dấu câu Chúng ta thử so sánh 2câu sau để thấy sự khác nhau trong nội dung thông báo:
Đêm hôm qua, cầu gãy
Đêm hôm, qua cầu gãy
Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể hình dung được phần nàobản sắc và tiềm năng của tiếng Việt
3 KHAI PHÁ VĂN BẢN
3.1 Tổng quan khai phá dữ liệu
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnhvực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã đượccác cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên Họ lưu trữ các dữ liệu này vì cho rằngtrong nó ẩn chứa những giá trị nhất định nào đó Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ
15
Trang 15của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽphải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợrằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, trong môi trườngcạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định
và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữliệu khổng lồ đã có Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệutruyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuậtmới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and DataMining)
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trongnhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻtuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng
Quá trình phát hiện tri thức gồm các bước sau:
Hình thành và định nghĩa bài toán
Thu thập và tiền xử
lý dữ liệu
Khai phá dữ liệu
Phân tích và kiểm định kết quả
Sử dụng các tri thức phát hiện được
Hình 2: Các bước của quá trình phát hiện tri thức
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết địnhcho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thíchhợp với mục đích ứng dụng và bản chất của dữ liệu
Trang 16Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu,
xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếmnhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức
Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình
ẩn dưới các dữ liệu
Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán Cácbước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả cáclần thực hiện
Với hai đích chính của khai phá dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người
ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:
Phân loại (Classification)
Hồi qui (Regression)
Phân nhóm (Clustering)
Tổng hợp (Summarization)
Mô hình ràng buộc (Dependency modeling)
Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
Biểu diễn mô hình (Model Representation)
Kiểm định mô hình (Model Evaluation)
Phương pháp tìm kiếm (Search Method)
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trítuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ cao, thu thập tri thức chocác hệ chuyên gia, quan sát dữ liệu Đặc biệt Phát hiện tri thức và khai phá dữ liệu rất gần gũi vớilĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,luật Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP) cũng liênquan rất chặt chẽ với Phát hiện tri thức và khai phá dữ liệu Trong phạm vi tiểu luận này chúng tôi
3.2 Khai phá văn bản
Trong cơ sở dữ liệu, phần lớn dữ liệu ở dạng văn bản (text) Lĩnh vực con của Khai phá dữ
liệu áp dụng với dữ liệu văn bản phi cấu trúc được gọi là Khai phá văn bản ( Text Mining) Các kỹ
thuật chính của Khai phá văn bản là Nhận dạng mẫu, Trích rút đặc trưng, Thống kê tần suất từ khóa,Phân loại…, các phương pháp Trí tuệ Nhân tạo như Học máy, Mạng Nơ-ron, Giải thuật Di truyền…,các phương pháp Xử lý ngôn ngữ tự nhiên…
17
Trang 17Khai phá văn bản do làm việc với các dữ liệu phi cấu trúc nên cần phải có phương tiện để môhình hóa chúng, tiền xử lý cho các bước tiếp theo Nói chung Khai phá văn bản gồm các bước: Thuthập dữ liệu ở dạng văn bản, làm sạch chúng, phân tích biến đổi, lấy thông tin và hiển thị thông tin.
Mô hình chung của Khai phá văn bản :
Thu thập
Hình 3: Mô hình khai phá văn bản chung
Công việc thu thập và công việc làm sạch dữ liệu văn bản có thể diễn ra theo thứ tự thu thậptrước, làm sạch sau và cũng có thể ngược lại tùy yêu cầu Thậm chí, việc thu thập và làm sạch cònđược lặp đi lặp lại nhiều lần để có được một kết quả tối ưu cho các bước tiếp Do vậy quá trình thuthập – làm sạch là quá trình chung và hết sức quan trọng của các bài toán thuộc lĩnh vực Khai phávăn bản
Ngoài việc thu thập và làm sạch dữ liệu văn bản thì việc tìm kiếm đối sánh văn bản cũng làmột công việc cốt lõi, không thể thiếu trong tất cả các bài toán Khai phá văn bản Trong đó các vănbản được thu thập thường có sự liên quan hay tương tự với nhau Độ liên quan hay tương tự thườngđược định lượng thông qua sự giống nhau về từ ngữ, về nghĩa hoặc theo một tiêu chí nào đó
Các bài toán điển hình của lĩnh vực Khai phá văn bản bao gồm:
Phân lớp văn bản
Phân nhóm văn bản
Đánh chỉ mục - Tìm kiếm
Tóm tắt văn bản
Các bài toán này chúng ta sẽ đi sâu hơn ở phần sau
3.3 Biểu diễn văn bản
Như chúng ta đã nói ở phần trước, văn bản thông thường là dạng dữ liệu phi cấu trúc, do vậymuốn xử lý chúng, trước hết phải biểu diễn chúng thành những dạng có cấu trúc Bên cạnh đó, việcxác định mối liên quan và thực hiện các phép biến đổi, ánh xạ văn bản cũng đòi hỏi những dạng này
Trang 18phải có khả năng thao tác bằng những phép toán cơ bản như các phép cộng, nhân, đại số quan hệ…
và các phép toán phức tạp khác Trên thực tế, có ba mô hình thường được sử dụng để biểu diễn vănbản, tất nhiên các mô hình này đều thỏa mãn những yêu cầu kể trên Đó là Mô hình boolean, Mô hìnhkhông gian vector và Mô hình tập thô dung sai
3.3.1 Mô hình boolean
Trong mô hình boolean, văn bản, vốn là tập hợp của các term ( thuật ngữ ), được biểu diễnbởi chỉ số từng term và trọng số của chúng Trọng số của từng term - dùng để đánh giá độ quan trọngcủa chúng - trong mô hình này chỉ mang hai giá trị 0 và 1, tùy theo sự xuất hiện của term đó trong vănbản
0 1
i w
D t
D t
i
i
Trong đó w i là trọng số của term t i trong văn bản D
Đối với vấn đề truy vấn, trong mô hình này câu truy vấn bao gồm các văn bản tìm kiếm liên
hệ với nhau thông qua các phép đại số quan hệ cơ bản như NOT (phủ định), AND (và) hay OR(hoặc) Câu truy vấn có thể biểu diễn thành dạng vector với các thành phần liên kết và các phép toánquan hệ cơ bản Từ đây, độ liên quan giữa một văn bản và truy vấn được xác định thông qua cácthành phần liên kết Độ liên quan này chỉ có thể mang hai giá trị : 0 – văn bản không phù hợp với truyvấn và 1 – văn bản phù hợp
Do vậy có thể thấy rằng hạn chế lớn nhất của mô hình này đó là việc đánh giá độ liên quanchỉ trả về hai kết quả, hoặc phù hợp hoặc không, như vậy yêu cầu của hệ thống khi cần sắp xếp vàchọn lựa các văn bản theo mức độ liên quan đến truy vấn sẽ không đạt Độ liên quan của mô hìnhnày không thể phân chia thành các mức khác nhau, do vậy không phản ánh được thực tế là việc liênquan giữa văn bản và truy vấn có thể là mờ, không chắn chắn Hạn chế này được loại bỏ khi ta sử
dụng một mô hình tổng quát hơn – Mô hình không gian vector (Vector Space Model).
3.3.2 Mô hình không gian vector
Như trên đã đề cập, mô hình không gian vector là mô hình tổng quát hơn mô hình Boolean.Các văn bản được biểu diễn thành các vector nhiều chiều, với trọng số không chỉ mang hai giá trị là 0hay 1 mà có thể mang các giá trị khác tùy theo cách đánh giá, tính toán Một khác biệt nữa so với môhình boolean là các phép toán cơ bản của mô hình không gian vector Các phép toán đại số quan hệ
dĩ nhiên không phù hợp nữa, thay vào đó là các phép toán vector như cộng hai vector, nhân haivector, tích vô hướng…
Khi biểu diễn văn bản thành các vector, vấn đề về truy vấn và xác định độ liên quan hoàntoàn được giải quyết Truy vấn là kết quả của các phép toán vector giữa các vector biểu diễn cho
19
Trang 19những văn bản cấu thành nên truy vấn, như vậy, truy vấn trong trường hợp này cũng là một văn bảnđặc biệt Việc xác định độ liên quan giữa truy vấn và văn bản được quy thành độ liên quan giữa vănbản và văn bản Hai văn bản là hai vector, vậy khoảng cách hay góc giữa chúng đều có thể đại diệncho sự liên quan giữa hai văn bản này Tất nhiên, để áp dụng được các phép toán vector cơ bản, haivector cần chuẩn hóa về số chiều (độ dài).
Biểu diễn hai văn bản lần lượt là hai vector :
x(w1,x,w2,x,….,wn,x) và y (w1,y,w 2,y,…,wn,y)
Góc giữa hai vector này có thể xác địng thông qua công thức Cosine như sau :
n i
n
i i z i y
w w
w w
y i x
2 1
2
) (
)
Theo cách biểu diễn như trên người ta không quan tâm đến chỉ số của một term, vì vốn nó đãđược sắp thứ tự ngay trong vector biểu diễn văn bản Nghĩa là với vector x(w1,x,w2,x,….,wn,x) kể trên,
w1,x chính là trọng số của term có chỉ số là 1, w2.x là trọng số của term có chỉ số là 2,…Việc đánh chỉ
số cho term thường dựa vào một danh sách thuật ngữ Do vậy ta sẽ quan tâm đến việc trọng số củaterm được xác định ra sao Trọng số của term, ngoài cách gán giá trị là 0 hay 1 tùy vào sự xuất hiệncủa term như mô hình boolean, người ta còn có thể gán các giá trị tần suất cho chúng Việc gán cácgiá trị tần suất cho trọng số của term cũng là một điều hợp lý vì người ta có thể đánh giá độ quantrọng của một term thông qua tấn suất xuất hiện của term đó trong văn bản Giá trị này có thể đơngiản chỉ là số lần xuất hiện cuả term đó, tần suất của term đó ( số lần xuất hiện chia cho tổng số lầnxuất hiện của tất cả các term ) hay một giá trị nào khác tối ưu hơn Thông thường, số lần xuất hiệncủa một term thường được dùng như trọng số của term trong vector văn bản chứa nó Số lần xuấthiện này thường được biểu diễn thông qua các hàm logarithm cơ số tự nhiên hoặc cơ số mười Đây
chính là kỹ thuật đánh trọng số TF (Term Frequency) :
w i = 1 + log(f i )
Trong đó w i là trọng số của term t i trong văn bản D.
f i là số lần xuất hiện của term t i trong văn bản D.
3.3.3 Mô hình tập thô dung sai
Mô hình tập thô dung sai (Tolerance Rough Set Model) là một mô hình mới, tiên tiến dựa trên lý thuyết về logic mờ và tập mờ (Fuzzy Set) Điều cốt lõi của lý thuyết này là việc xác định
chính xác một giả thiết nào đó (ví dụ như hai văn bản này có phù hợp, có giống nhau không ) là một
Trang 20điều rất khó Tuy nhiên chúng ta có thể chỉ ra một cặp xấp xỉ trên và xấp xỉ dưới để khẳng định đượcgiả thiết đó là đúng Sử dụng các suy diễn hợp lý để xác định và "làm đẹp" các ngưỡng này Cácphép toán cơ bản trong mô hình tập thô dựa trên các quan hệ tương đương các tính chất như đốixứng, phản xạ, bắc cầu Lý thuyết logic mờ đã và đang được ứng dụng rất mạnh mẽ trong lĩnh vựcTrí tuệ nhân tạo.
Mô hình tập thô gần đây được sử dụng nhiều cho các bài toán tìm kiếm cũng như phân nhómvăn bản Tuy nhiên khi áp dụng mô hình tập thô cho quá trình xử lý văn bản thì tính chất bắc cầukhông còn phù hợp Nhóm tác giả Hồ Tú Bảo, Saori Kawasaki, Nguyễn Ngọc Bình đã đề xuất ra môhình tập thô dung sai trong đó bỏ đi tính chất bắc cầu trong quá trình xử lý văn bản Lý thuyết tập thôđược các nhà nghiên cứu Trí tuệ nhân tạo phát triển và ngày càng thể hiện được tính ưu việt khôngchỉ trong việc biểu diễn và thao tác văn bản mà còn trong các vấn đề khác của lĩnh vực này
3.4 Các bài toán Khai phá văn bản điển hình
3.4.1 Bài toán Phân nhóm văn bản
Bài toán Phân nhóm văn bản (Text Clustering) có điểm khác so với bài toán Phân lớp văn
bản ở chỗ cho một tập văn bản chưa được phân loại gì cả, yêu cầu bài toán này là phân tập văn bảnnày thành các nhóm dựa trên độ tương đồng giữa chúng Đây là phương pháp học không có giám
sát (Unsupervised Learning Approach) Các thuật toán hay được dùng để giải quyết bài toán này là : Các thuật toán Phân chia, thuật toán Phân cấp, Mô hình SVM (Support Vector Machine) và các thuật toán xây dựng tập thuật ngữ thường xuyên (Frequent Term Set - Frequent Item Set ).
Hình 4: Mô tả bài toán Phân nhóm văn bản
21
Trang 213.4.2 Bài toán Đánh chỉ mục - Tìm kiếm
Một tên gọi khác phổ biến hơn của bài toán này là Thu thập thông tin (Information Retrieval).
Nói chính xác hơn bài toán Thu thập thông tin là bài toán cơ bản của Khai phá dữ liệu, và là bài toán
tổng quát hơn của bài toán Đánh chỉ mục - Tìm kiếm (Indexing - Searching) Yêu cầu bài toán là tìm
kiếm trong kho dữ liệu những văn bản phù hợp với câu truy vấn đưa vào Bước đánh chỉ mục thường
giúp tìm kiếm nhanh hơn Bài toán này là cơ sở cho các Search Engine - những bộ máy tìm kiếm và
trả về thông tin - một trong những công cụ hũu ích nhất trên Internet giúp chúng ta có thể tìm đượcthông tin cần thiết chỉ thông qua một câu truy vấn đơn giản Hiện nay các ứng dụng tìm kiếm kiểu nàythường áp dụng các phương pháp truy hồi để tăng khả năng chính xác cho dữ liệu tìm được Bàitoán này còn là đầu vào cho một số các bài toán khác
3.4.3 Bài toán Tóm tắt văn bản
Quá trình tóm tắt là quá trình rút ra những thông tin quan trọng nhất từ một hay nhiều nguồnvăn bản để tạo ra một văn bản gọn hơn phục vụ cho một số nhiệm vụ hay người dùng cụ thể Bài
toán tóm tắt văn bản (Text Summarization) là một trong những bài toán khó cài đặt nhất nhưng cũng
hữu ích nhất của lĩnh vực Khai phá văn bản Một số biến thể của bài toán này như sinh phụ đề tự
động (Subtitling), sinh ý chính tài liệu (Document Gisting), sinh tiêu đề văn bản (Header Generating)
Những thuật toán của bài toán này cũng được dùng trong các bài toán tương tự như tóm tắt hìnhảnh, âm thanh - những dữ liệu đa phương tiện
Trang 224 BÀI TOÁN TÓM TẮT VĂN BẢN
4.1 Giới thiệu chung
Ở Việt Nam hiện nay, hầu như tất cả các bài toán tiếng Việt điển hình của Khai phá văn bảnđều đã được nghiên cứu và cài đặt thành ứng dụng như Tìm kiếm văn bản, Phân lớp & Phân nhómvăn bản , đóng góp rất nhiều vào sự phát triển của lĩnh vực Xử lý văn bản tự động tiếng Việt Songbài toán Tóm tắt văn bản thì chưa có nhiều nghiên cứu tiến hành đề xuất và xây dựng thành côngứng dụng Có thể vì bài toán này không chỉ cần những công cụ và phương pháp của Khai phá văn
bản mà còn phải lưu ý đến những vấn đề về Xử lý ngôn ngữ tự nhiên (Natural Language
Processing) Điều này thật không tương xứng với nền thông tin tri thức hiện tại của Việt Nam, khi mà
đang có hàng ngàn nhu cầu khác nhau cần đến những ứng dụng trợ giúp tóm lược văn bản hay sinhtiêu đề và hiển thị chúng theo những dạng mong muốn
Chính sự dễ dàng khi truy cập vào kho dữ liệu Internet khổng lồ và phong phú lại là nhược
điểm cho việc tìm kiếm những thông tin mà chúng ta cần đến bởi chúng quá nhiều và không thốngnhất về định dạng lưu trữ và hiển thị Kể cả khi đã lấy được những thông tin đó thông qua các hệthống phân loại, tìm kiếm thì cũng không thể nắm bắt toàn bộ vì thời gian có hạn mà số lượng thôngtin trả về quá lớn Đấy là chưa kể đến việc những thông tin này liệu đã chính xác như mong muốnhay chưa, liệu có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúp chúng ta giảiquyết phần lớn các nhu cầu vừa nêu Hệ thống sẽ giúp chúng ta đọc nhanh hơn, nắm bắt những trithức cần thiết trong một tài liệu khoa học hàng trăm trang bằng cách tóm lược tài liệu đó lại thành một
đoạn văn bản vài ba chục trang Những văn bản tìm thấy từ Internet, ta nhờ hệ thống quyết định liệu
nên đọc văn bản nào để có đúng thông tin ta cần Những tóm lược ngắn gọn các công việc mà cô thư
ký đưa, những bản giới thiệu nội dung phim truyện tuần tới, những bức email thương mại chỉ vài
dòng Đó là những khả năng mà một hệ thống Tóm tắt văn bản có thể mang lại
4.1.1 Tóm tắt văn bản là gì ?
Hệ thống Tóm tắt văn bản, như chúng ta đề cập tới trong tiểu luận này, có tên đầy đủ là Hệthống Tóm tắt văn bản tự động Một hệ thống Tóm tắt văn bản tự động là một ứng dụng sinh tự độngmột mô tả ngắn gọn của một hay nhiều văn bản sao cho vẫn giữ lại được các nội dung quan trọng vàhiển thị ra theo dạng yêu cầu của người sử dụng
Điều cốt lõi của một hệ thống Tóm tắt văn bản xét theo lĩnh vực Khai phá văn bản là việc tìm
ra những thành phần quan trọng trong văn bản cần tóm tắt Các thành phần này được gọi là các đơn
vị ngữ liệu Đơn vị ngữ liệu ở đây có thể hiểu là đơn vị nhỏ nhất có nghĩa mà ta chọn để trích rút, tómlược như câu hoặc đoạn Các đơn vị ngữ liệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nộidung quan trọng của cả đoạn văn hay văn bản Và sau khi chọn được các đơn vị ngữ liệu quan trọng,
23
Trang 23hệ thống Tóm tắt có thể tóm lược chúng, biến đổi chúng và sau cùng hiển thị ra màn hình, thống kêkết quả hay sinh ra các dữ liệu mới cho các hệ thống nào khác
Một số ứng dụng của hệ thống Tóm tắt văn bản tiếng Việt tự động :
Tóm tắt tự động các tin tức trên báo điện tử
Trợ giúp thông minh việc đọc và khai thác thông tin
Tóm lược danh sách tìm kiếm từ các Search Engine.
Giản lược nội dung trình bày cho các thiết bị cầm tay
Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản
Hỗ trợ tóm lược nội dung cuộc họp, website, chương trình phát thanh và truyền hình, sổ tay
công việc
Ngoài ra, một số module và kết quả của hệ thống cũng là đầu vào hay những bước tiền xử lý
cho các bài toán khác của Khai phá văn bản
Trang 24 Là tỉ số giữa số lượng đơn vị ngữ liệu của văn bản kết quả trên số lượng đơn vị ngữliệu của tập văn bản vào.
Tỉ lệ này có thể là là câu/câu, từ/từ, tiếng/tiếng, hoặc đơn giản hơn là ký tự/ký tự,thường tính bằng %
Độ rút gọn tỉ lệ thuận với độ khó thuật toán
Thể hiện sự liên kết giữa các đơn vị ngữ liệu của văn bản kết quả với nhau
Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và cú pháp
Mức độ liên kết cũng tỉ lệ thuận với độ khó của thuật toán tóm tắt
Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay thế cho tiêu chímức độ liên kết này
4.1.3 Phân loại bài toán Tóm tắt văn bản
Bài toán Tóm tắt văn bản được chia thành nhiều loại Mỗi loại được sử dụng cho các mụcđích khác nhau, các yêu cầu khác nhau Mỗi bài toán cũng phải áp dụng các phương pháp và kỹthuật riêng Không có một ứng dụng Tóm tắt văn bản nào có thể cài đặt và đáp ứng được hết cácdạng yêu cầu đó
Tóm tắt một văn bản và Tóm tắt nhiều văn bản: Khi xét đầu vào một hệ thống Tóm tắt văn bản,
ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt nhiều văn bản (Multi-Document) Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của
văn bản đó Nguợc lại, tóm tắt nhiều văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra một đoạntóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bản đồng thời cho nhiều vănbản khác nhau Rõ ràng, tóm tắt nhiều văn bản thì khó hơn, vì ngoài những công việc của tóm tắtđơn văn bản, tóm tắt nhiều văn bản còn phải thực hiện các công việc như tiền xử lý trích rút, tíchhợp thống nhất khuôn dạng và hiển thị kết quả theo cách riêng Ngoài ra, tóm tắt nhiều văn bảncòn phải đối mặt với các vấn đề như dư thừa trùng lặp dữ liệu giữa các văn bản nguồn, nội dungcác văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sựphức tạp trong xử lý lớn
25
Trang 25 Trích rút và Tóm lược: Khi xét đến đầu ra một hệ thống Tóm tắt văn bản, chúng ta có thể có hai
dạng tóm tắt Đó là Trích rút (Extraction) và Tóm lược (Abstraction) Việc phân biệt hai dạng tóm
tắt này là rất cơ bản và quan trọng Trích rút là quá trình thu gọn văn bản mà trong kết quả ra
chứa các đơn vị ngữ liệu văn bản nguồn Tóm lược là quá trình thu gọn văn bản mà trong kết quả
ra có một số các đơn vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn
Ví dụ, có đoạn văn sau (được đánh số thứ tự câu) :
"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ 1 Ba anh chúng tôi chúng tôi đã chờ những ngày này khá lâu rồi 2 Chả là anh cả tôi được về phép thăm gia đình nhân dịp Tết 3 Bố mẹ tôi rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn 4 Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình 5 Bữa ăn đã làm nên một cuối tuần tuyệt vời 6"
Văn bản kết quả của quá trình Trích rút :
"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ Bữa ăn đã làm nên một cuối
tuần tuyệt vời".
Văn bản kết quả của quá trình Tóm lược :
"Một buổi cuối tuần vui vẻ của gia đình tôi".
Chúng ta có thể thấy văn bản kết quả của quá trình Trích rút thực ra là câu 1 và câu 6 củađoạn văn bản nguồn, và có cảm giác như đoạn kết quả không được trôi chảy lắm Còn câu duy nhấtcủa văn bản kết quả sau quá trình Tóm lược không hề trùng với bất cứ câu nào trong sáu câu củavăn bản nguồn Tuy nhiên nó vẫn thu gọn và giữ được ý chính của cả đoạn Đây chính là sự khácbiệt lớn giữa Trích rút và Tóm lược
Qua ví dụ này chúng ta cũng nhận ra rằng, để xây dựng một hệ thống Tóm lược khó hơn làxây dựng một hệ thống Trích rút Khi xem xét mô hình chung của một hệ thống Tóm tắt văn bản ta sẽthấy rõ hơn điều này
Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá
Phân chia về chức năng, có ba loại ứng dụng tóm tắt sau :
Tóm tắt chỉ định (Indicative): Là kiểu tóm tắt giúp người đọc quyết định xem có nênđọc tiếp, đọc sâu nữa không Ví dụ như loại ứng dụng sinh tiêu đề, tóm lược kết quảtìm kiếm…
Tóm tắt thông tin (Informative): Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọngnhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc Ví dụ nhưtóm tắt một tiểu thuyết thành đoạn văn năm bảy trang
Tóm tắt đánh giá (Evaluative): Là kiểu tóm tắt mà trong kết quả ra có cả đánh giá củangười tóm tắt Ví dụ như lời tựa một quyển sách hay bản thảo một bài báo Kiểu tómtắt này không gặp trong một hệ tóm tắt văn bản tự động
Trang 26 Tóm tắt chung và Tóm tắt hướng truy vấn
Phân chia về mục đích, có hai loại là Tóm tắt chung và Tóm tắt hướng truy vấn
Tóm tắt chung (Generic): Tóm tắt theo quan điểm ban đầu của tác giả văn bản gốc(khách quan)
Tóm tắt hướng truy vấn (Query-Oriented): Tóm tắt theo quan điểm mong muốn củangười dùng ứng dụng thông qua các tham số truyền vào câu truy vấn.Tóm tắt hướngtruy vấn được cài đặt và áp dụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vàocác chuyên ngành cụ thể
Tóm tắt cơ bản và Tóm tắt chuyên môn
Phân chia theo trình độ người dùng có Tóm tắt cơ bản và Tóm tắt chuyên môn
Tóm tắt cơ bản: Tóm tắt này dành cho người thông thường Ví dụ : Các ứng dụng tómtắt thông thường, chung chung như tóm tắt trang tin, tóm tắt tiểu thuyết văn học…
Tóm tắt chuyên môn: Tóm tắt dành cho người đã có nền tảng, chuyên môn Nhữngbản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, công việc chuyên môn Ví dụ :ứng dụng hỗ trợ thông minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị,ứng dụng tóm tắt các bài báo về toán học…
Tóm tắt đơn ngôn ngữ, Tóm tắt đa ngôn ngữ và Tóm tắt đan xen nhiều ngôn ngữ
Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có ba loại ứngdụng tóm tắt :
Tóm tắt đơn ngôn ngữ: Văn bản nguồn chỉ có một loại ngôn ngữ Kết quả ra là văn bảnngôn ngữ đó
Tóm tắt đa ngôn ngữ: Mỗi văn bản nguồn chỉ có một loại ngôn ngữ Nhưng ứng dụng
có khả năng tóm tắt trên nhiều loại ngôn ngữ Tùy vào văn bản nguồn hoặc tham sốđưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn
Tóm tắt đan xen ngôn ngữ: Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khácnhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phùhợp Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ
Ứng dụng trên Desktop và ứng dụng trên Web
Phân theo môi trường cài đặt ứng dụng, ta có hai loại sau :
Ứng dụng trên Desktop: Ứng dụng phát triển trên máy để bàn, đòi hỏi độ chính xác
cao, có khả năng Tóm lược (Abstract), độ nén không cao
Ứng dụng trên Web: Ứng dụng phát triển trên môi trường Web, đòi hỏi thời gian thực
hiện nhanh, nên thường là Trích rút (Extract), độ nén lớn Ví dụ : Tóm tắt danh mục từ
Search Engine, trang tin…
27
Trang 274.2 Mô hình Tóm tắt văn bản
4.2.1 Mô hình chung
Phân tích (Analysis)
Biến đổi (Transform)
Hiển thị (Generation)
Hình 6: Mô hình chung của tóm tắt văn bản
Cũng giống mô hình khai phá văn bản, một hệ thống tóm tắt văn bản nói chung gồm nhữngpha sau :
Phân tích (Analysis): Phân tích văn bản đầu vào để đưa ra những mô tả bao gồm các thông tindùng để tìm kiếm, đánh giá các đơn vị ngữ liệu quan trọng cũng như các tham số đầu vào choviệc tóm tắt
Biến đổi (Transformation): Lựa chọn các thông tin trích chọn được, biến đổi để giản lược và thốngnhất, kết quả là các đơn vị ngữ liệu đã được tóm tắt
Hiển thị (Generation): Từ các đơn vị ngữ liệu đã tóm tắt, liên kết chúng lại thành đoạn theo mộtthứ tự nào đó hoặc theo cấu kết ngữ pháp rồi hiển thị phù hợp với yêu cầu người dùng
Một hệ Tóm lược (Abstraction) bao gồm tất cả các pha trên, tuy nhiên một hệ Trích rút (Extraction) chỉ gồm pha Phân tích và Pha Hiển thị, không có pha biến đổi Thậm chí trong các pha
phân tích và hiển thị, chỉ có một số công đoạn được sử dụng
Phân tích thông
kê (Statistic Analysis)
Hiển thị phân đoạn (Fragmentary Generation)
Hình 7: Mô hình trích rút văn bản
Như vậy chúng ta thấy rằng một hệ Trích rút thì thường tiến hành ít bước hơn, tập trung vàopha Phân tích là chính Các phương pháp thường dùng để cài đặt hệ Trích rút văn bản thường là cácphương pháp thống kê, học trên ngữ liệu Còn các hệ Tóm lược thì phải cài đặt nhiều hơn, đầy đủ bapha của mô hình chung, và có sự kết hợp chặt chẽ giữa các phương pháp thống kê, học dựa ngữliệu và các phương pháp của Xử lý ngôn ngữ tự nhiên Vì vậy, kết quả của các hệ Tóm lược thường
Trang 28thuyết phục hơn (về mặt dễ đọc, dễ hiểu, liên kết ngôn ngữ tốt, gần gũi với con người) Sau đâychúng ta sẽ đi sâu vào giới thiệu một số phương pháp được áp dụng trong các pha của mô hình Tómtắt văn bản tự động, thông qua đó chúng ta cũng hiểu rõ hơn về những công việc thật sự, đầu vào vàđầu ra của từng pha trong mô hình này.
4.2.2 Các phương pháp áp dụng trong các pha
4.2.2.1 Pha Phân tích
Như đã đề cập, trong pha Phân tích (Analysis), văn bản nguồn (hay tập các văn bản nguồn)
được phân tích để xác định các đơn vị ngữ liệu quan trọng đồng thời tiếp nhận các thông số đầu vàocủa hệ thống tóm tắt Các thông số đầu vào được tiếp nhận ngay từ đây để hệ thống thông quachúng sẽ áp dụng các phương pháp phù hợp, không chỉ trong pha Phân tích mà còn trong các pha
Biến đổi (Tranformation) và Hiển thị (Generation) tiếp sau Còn việc phân tích xác định các đơn vị
ngữ liệu quan trọng là công việc của các phương pháp trong pha Phân tích này Nói một cách gần gũi
dễ hiểu, qua pha này, văn bản cần tóm tắt sẽ được tách ra thành các đoạn, các câu, và những đoạnhay câu quan trọng nhất sẽ được chọn ra thông qua một số tiêu chí, làm đầu vào cho pha tiếp sau
Kết thúc pha Phân tích là tổng hợp các chỉ số đánh giá độ quan trọng của các đơn vị ngữ liệutheo các phương pháp trên đây và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan trọng lớnthành đầu vào cho pha sau Thường thường độ quan trọng (trọng số) của các đơn vị ngữ liệu sẽđược xác định bởi một phương trình tuyến tính của các hệ số đánh giá độ quan trọng theo mỗiphương pháp Trong đó các hệ số tuyến tính sẽ phụ thuộc vào tính chính xác của thuật toán khi ápdụng từng phương pháp và áp dụng đồng thời các phương pháp với nhau Sở dĩ chúng ta phải xét cảviệc áp dụng đồng thời các phương pháp với nhau vì thực tế cho thấy rằng khi sử dụng nhiềuphương pháp đồng thời thì độ chính xác không bằng tổng độ chính xác khi dùng riêng rẽ, độ chínhxác này luôn nhỏ hơn tổng độ chính xác, thậm chí còn nhỏ hơn các độ chính xác riêng rẽ !
Các phương pháp áp dụng trong pha Phân tích được chia thành hai loại: Phương pháp thống
kê và Phương pháp cấu trúc
4.2.2.1.1 Phương pháp thống kê
Là các phương pháp sử dụng các số liệu thống kê về độ quan trọng của các từ, ngữ, câuhay đoạn Qua đây, hệ thống có thể sẽ giảm được số lượng các đối tượng phải xem xét và trích rútchính xác các đơn vị ngữ liệu cần tìm Các thống kê có thể nhận được từ các nghiên cứu về ngônngữ học hay thông qua phương pháp học máy từ các tập mẫu có sẵn Từ đó, các thống kê này đ ượcdùng cho các tính toán hiện thời trên văn bản đầu vào
Các phương pháp thống kê là những phương pháp đầu tiên được sử dụng để cài đặt một hệTóm tắt văn bản Các số liệu thống kê thường được thu thập thông qua việc học trên các tập mẫu
khác nhau Năm 1958, Luhn đã chọn ra các câu quan trọng từ văn bản thông qua phương pháp thống kê tần suất của từ Năm 1969, Edminson đưa ra bốn phương pháp mới hơn, trong đó có một phương pháp khá giống với Luhn, để xây dựng nên một hệ tóm tắt văn bản Edminson cũng đã kiểm
29
Trang 29thử kết quả của từng phương pháp cũng như các phương pháp áp dụng đồng thời với nhau Sau đây
là một số tư tuởng chính của các phương pháp thống kê :
Phương pháp vị trí (Position-Based): Phương pháp vị trí bao gồm các phương pháp xác định
độ quan trọng dựa trên thống kê về vị trí của từ, ngữ hay câu trong văn bản Các thống kê này tấtnhiên phụ thuộc vào thể loại văn bản…
Chủ đề - Tiêu đề (Title-based): Chủ đề các đoạn văn bản hay tiêu đề các bảng thườngchứa các từ và ngữ quan trọng, nên trích rút thông tin từ đây
Đầu - cuối đoạn (First - Last Sentence): Xác suất câu đầu đoạn hay câu cuối đoạn chứa ýchính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn Ngoài ra, các đoạn đầu và cuốitrong văn bản cũng quan trọng hơn các đoạn giữa
Minh họa - Chú thích (Comments): Trong các câu chú thích, câu minh họa cho ảnh hay đồthị thường chứa các thông tin quan trọng Tuy nhiên, các câu này thường chỉ được dùng
để đánh giá độ quan trọng của các câu khác liên quan, chứ không được chọn làm đầuvào cho pha tiếp
Phương pháp ngữ cố định (Cue phrases-Based): Các ngữ cố định có đặc điểm thống kê rất
tốt Sau các ngữ này thường là các câu hay từ có độ quan trọng là xác định Người ta chia thànhhai loại ngữ cố định, một loại mang lại độ quan trọng cho thành phần đi sau, được gọi là ngữ nhấnmạnh, một loại giúp ta loại bỏ, không xét đến những thành phần đi sau vì nó không có nhiều giá trịtrong việc trích rút, được gọi là ngữ dư thừa :
Ngữ nhấn mạnh (Bonus phrase - Emphasizer): Ngữ nhấn mạnh gồm các ngữ như “nóichung là…”, “đặc biệt là…”, "cuối cùng thì…”, “trong bài viết này tôi muốn chỉ ra…”, “bàiviết nói về…”, “nội dung gồm…”, v v
Ngữ dư thừa (Stigma phrases): Một số ngữ dư thừa : “hiếm khi mà…”, "bài này không nóiđến…”, "Không thể nào…”, v v
Phương pháp thống kê tần suất từ (Word frequency-Based): Độ quan trọng của từ phụ thuộc
vào số lần xuất hiện của từ đó trong các văn bản liên quan Các kỹ thuật như TFxIPF hay Tập thuật ngữ thường xuyên (Frequent Item Set) dùng cho công việc xác định tần suất của từ.
4.2.2.1.2 Phương pháp cấu trúc
Là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác địnhcác đơn vị ngữ liệu quan trọng Tư tưởng chính của các phương pháp này là những đơn vị ngữ liệunào có chứa các thành phần liên kết nhiều với các thành phần khác sẽ có độ quan trọng lớn Việcđánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp hoặc thông qua cácphương pháp xác định độ liên quan truyền thống
Phương pháp quan hệ lẫn nhau: Phương pháp này xác định mối quan hệ giữa các đoạn trong
văn bản hay các câu trong đoạn với nhau thông qua các kỹ thuật thu thập thông tin ở mức vănbản Các đoạn (câu) trong văn bản nguồn được tính toán độ liên quan lẫn nhau giữa chúng Có
Trang 30thể dùng các kỹ thuật xác định độ liên quan lẫn nhau như Cosine, TFxIPF hay N-gram Overlap.
Sau đó chọn ra đoạn (câu) có độ liên quan lớn nhất
Hình 8: Mô hình phương pháp quan hệ lẫn nhau
Phương pháp liên kết từ vựng (Lexical Chains): Phương pháp liên kết từ vựng sử dụng các từ
điển quan hệ từ vựng đế xây dựng các chuỗi từ liên kết với nhau vể mặt ngữ nghĩa Ví dụ "cây" làmột loại "thực vật", có bộ phận là "lá", chất liệu là "gỗ" Các từ "cây", "thực vật", "lá", "gỗ" có quan
hệ ngữ nghĩa nào đó với nhau Sau khi xây dựng được các chuỗi từ này, đánh giá độ mạnh củachúng và có những trích chọn phù hợp Các ứng dụng tóm tắt sử dụng phương pháp này đã được
cài đặt bởi Regina Barzilay hay Cláudia Santos Tuy nhiên, có thể coi Morris và Hirst là những người đầu tiên đưa ra ý tưởng này vào năm 1991 Lexical Chains không những chỉ dùng trong
Tóm tắt văn bản mà còn được coi là lý thuyết tổng quát của vấn đề ngữ nghĩa trong Xử lý ngôn
ngữ tự nhiên Sau này Chin-Yew Lin and Eduard Hovy đã phát triển thành một lý thuyết mới, rộng hơn, được gọi là Nhận dạng chủ đề (Topic Identification).
Hình 9: Ví dụ về liên kết từ vựng
Phương pháp Liên kết tham chiếu (Word Coreferences): Phương pháp liên kết tham chiếu còn
được gọi là phương pháp trích chọn trùng lặp (Anaphora-based Method) Theo phương pháp này,
31
Trang 31các cụm trùng lặp được chọn ra, phân rã xem đâu là từ (ngữ) tham chiếu và từ (ngữ) được thamchiếu
Ví dụ : "Tuấn hay đến thăm ngoại cậu ấy Bà thường hay nấu cơm cho cậu ăn."
Trong ví dụ trên, các cặp trùng lặp là "Tuấn"-"cậu ấy"-"cậu" và "ngoại cậu ấy"-"bà" Trong đó
từ "cậu ấy" và "cậu" là từ tham chiếu, tham chiếu đến từ "Tuấn" là từ được tham chiếu Cặp "ngoạicậu ấy"-"bà" cũng tương tự
Sau khi phân tách các cụm trùng lặp, chúng ta tạo chuỗi các từ (ngữ) tham chiếu đến cùngmột từ được tham chiếu Chuỗi dài nhất sẽ được coi là trọng tâm của đoạn, các câu chứa các từtrong chuỗi này có một độ ưu tiên nào đó khi xét trích chọn
Hình 10: Mô hình liên kết tham chiếu
Phương pháp quan hệ câu (Discourse-Based): Dựa trên các từ thể hiện mối quan hệ giữa các
câu chúng ta cấu trúc hóa đoạn văn bản từ các đơn vị thành phần như ngữ, mệnh đề, câu Sau
đó đơn vị được coi như trung tâm sẽ được trích chọn
Phương pháp này dựa trên nghiên cứu và đề xuất nổi tiếng của Mann và Thompson về Lý
thuyết cấu trúc tu từ (Rhetorical Structure Theory) Đoạn văn đang xét sẽ được cấu trúc hóa thành
dạng cây từ các nút lá, gọi là Cây tu từ (Rhetorical Tree) Bằng cách biểu diễn các mối quan hệ giữa các câu về mặt ngữ nghĩa hay cú pháp như các mối quan hệ nền (Background), quan hệ dấu hiệu (Evidence), quan hệ phát sinh (Elaboration), chúng ta có thể xác định các nút hạt nhân và các nút vệ
tinh Từ đó chọn các nút hạt nhân để xây dựng nên cấp thấp hơn của Cây tu từ Gốc của Cây tu từ
sẽ là đơn vị quan trọng nhất
Ví dụ, một cặp câu có quan hệ nguyên nhân, kết quả thì thường câu kết quả có độ quantrọng cho tóm tắt hơn Một cặp câu khác có quan hệ minh họa thì câu minh họa rõ ràng không nênđưa vào tóm tắt so với câu nền tảng của nó Cứ thế, thông qua các mối quan hệ này, chúng ta sẽ sắpthứ tự được các câu, các đoạn trong văn bản theo độ quan trọng tóm tắt Sau đó ta trích ra những
câu ở đầu danh sách này theo số lượng mong muốn Đây là những ý tưởng cơ bản của Daniel
Marcu trong việc sử dụng RST vào các ứng dụng Tóm tắt và Sinh ngôn ngữ tự nhiên (Natural Language Generating).
4.2.2.1.3 Kết luận
Trang 32Việc xác định các hệ số tuyến tính có thể thực hiện bằng nhiều cách Nhiều hệ thống khôngxác định được chính xác, đã để các hệ số này bằng nhau và bằng một ! Một số hệ thống khác thì cẩntrọng hơn, đưa ra những tỉ lệ tương đối sao cho đảm bảo được việc phối hợp các phương pháp là tốthơn việc dùng phương pháp chính xác nhất Ngoài ra một số hệ thống lại dựa vào các tham số đưavào để lựa chọn các phương pháp cần dùng Ví dụ như một hệ Trích rút mang chức năng chỉ định vàkhông cần độ chính xác cao chỉ cài đặt các phương pháp thống kê mà thôi Tuy nhiên, có mộtphương pháp mang lại tính chính xác khá cao khi xác định các hệ số đó là phương pháp học từ tập
mẫu (Corpus-based) Thông qua tập mẫu có thể xác định được các hệ số này khi cài đặt thuật toán
và kiểm thử trên tập mẫu Kết quả kiểm thử được đưa trở lại để cải tiến các hệ số tuyến tính cho đếnkhi đạt kết quả chấp nhận Nhìn chung, cách này chỉ áp dụng được khi có những tập mẫu chính xác
Trong các phương pháp được áp dụng ở pha Phân tích, ta dễ thấy các phương pháp thống
kê dễ cài đặt hơn các phương pháp cấu trúc Việc cài đặt các phương pháp thống kê đơn thuần chỉ
là các công thức toán học còn để cài đặt các phương pháp cấu trúc chúng ta cần thực hiện rất nhiều
kỹ thuật về Cấu trúc dữ liệu, Tính toán khoa học thậm chí là các kỹ thuật trong lĩnh vực Trí tuệ nhântạo Đó là chưa kể đến những kiến thức nhất định về ngôn ngữ và xử lý ngôn ngữ Tuy vậy, cácphương pháp thống kê cho kết quả kém hơn nhiều các phương pháp cấu trúc Đặc biệt hơn, qua một
số quá trình tìm hiểu và kiểm thử không chính thức thì kết quả cho thấy các phương pháp thống kêtiếng Việt thậm chí không đạt được độ chính xác như khi áp dụng đối với tiếng Anh
Một khó khăn chung to lớn của hai loại phương pháp áp dụng cho tiếng Việt là các tài nguyênphục vụ cho các phương pháp này chưa có nhiều Tài nguyên còn thiếu cho các phương pháp thống
kê là các số liệu thống kê tiếng Việt về vị trí và từ điển ngữ cố định Tài nguyên còn thiếu cho cácphương pháp cấu trúc là các tập mẫu, các mạng ngữ nghĩa Đã có một số nghiên cứu xây dựng tậpmẫu hay các mạng ngữ nghĩa dành cho tiếng Việt nhưng chưa thành công, chưa đầy đủ hoặc chưacông bố chính thức
4.2.2.2 Pha Biến đổi
Trong pha Biến đổi, các đoạn (câu) có độ quan trọng phù hợp đã được rút trích từ pha Phântích sẽ được tiếp tục biến đổi, làm gọn lại cho pha Hiển thị tiếp theo Như vậy trong pha này, hệ thống
sẽ thực hiện rút gọn bản thân bên trong một câu, thường sử dụng các phương pháp rút gọn câu
(Sentence Reduction hay Sentence Condensation) Ngoài ra, một số ứng dụng còn gộp hai, ba câu
lại để sinh ra một câu mới ngắn gọn hơn, tuy nhiên, thông qua pha Phân tích, các câu được rút tríchthường không có các quan hệ đặc trưng với nhau về nghĩa hay cú pháp để chúng ta có thể gộpchúng lại theo một tiêu chí nào đó Vì vậy các phương pháp rút gọn câu là các phương pháp chínhtrong pha này Và như đã đề cập, pha Biến đổi không có trong các hệ thống Trích rút văn bản
So với các phương pháp ở pha Phân tích, xét về mặt chính xác tóm tắt thì các phương pháppha Biến đổi không giúp tăng thêm độ chính xác tóm tắt, chỉ thực hiện chức năng rút gọn câu sao chovẫn sát ý, làm tăng độ rút gọn và tăng khả năng dễ đọc, mang tính ngôn ngữ tự nhiên trong các câu
33