Nội dung Nội dung của luận văn được trình bày theo 4 chương với các nội dung cụ thể như sau: Chương 1: Tổng quan về bài toán TTVB Trình bày về các khái niệm cơ bản của TTVB nói chung,
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Mọi kết quả nghiên cứu cũng như ý tưởng của các tác giả khác nếu có đều được trích dẫn nguồn gốc cụ thể Các kết quả nêu trong luận án là trung thực và chưa từng được ai công
bố trong các công trình nào khác
Tác giả
Mai Thị Thảo
Trang 2LỜI CẢM ƠN
Trong thời gian thực hiện luận văn này, tôi luôn được sự quan tâm, góp ý kiến của PGS.TS Lê Thanh Hương Nhân dịp này tôi xin bày tỏ lời cảm ơn chân thành tới PGS TS Lê Thanh Hương, người đã trực tiếp hướng dẫn và dành nhiều thời gian để sửa chữa, bổ sung vào từng trang bản thảo của luận văn
Xin chân thành bày tỏ lòng biết ơn đến toàn thể quý Thầy Cô Viện Công nghệ Thông tin và Truyền thông trường Đại học Bách khoa Hà Nội, các giảng viên
đã truyền đạt những kiến thức, kỹ năng, kinh nghiệm nghề nghiệp Tôi xin chân thành cảm ơn gia đình cùng các bạn trong lớp cao học Công nghệ Thông tin khoá 2012A đã tạo mọi điều kiện giúp đỡ, động viên, chia sẻ để tôi hoàn thành bản luận văn này
Luận văn còn nhiều thiếu sót, rất mong được các thầy cô giáo trong hội đồng chấm luận văn xem xét, góp ý kiến để luận văn được hoàn thiện hơn
Tôi xin chân thành cảm ơn!
Hà Nội, tháng 04 năm 2015
Trang 34 BLEU Phương pháp đánh giá dịch máy tự động (BiLingual
Evaluation Under Study)
5 ROUGE Phương pháp đánh giá dịch máy tự động
(Recall-Oriented Understudy for Gisting Evaluation)
6 TF Term Frequency
7 IDF Inverse Document Frequency
8 IFS Inverse Sentence Frequency
9 TF.IDF Term Frequency Inverse Document Frequency
10 TF.ISF Term Frequency Inverse Sentence Frequency
Trang 4DANH MỤC HÌNH VẼ
Hình 1 Các kiểu TTVB với các tỉ lệ tóm tắt khác nhau 4
Hình 2: Mô hình chung của tóm tắt văn bản 16
Hình 3: Mô hình trích rút văn bản 17
Hình 4: Mô hình hệ thống tóm tắt văn bản tiếng Việt 28
Hình 5 Giao diện chính của hệ thống 42
Hình 6 Giao diện trọng số câu 43
Trang 5MỤC LỤC LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC CÁC CHỮ VIẾT TẮT
DANH MỤC HÌNH VẼ
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN TÓM TẮT VĂN BẢN 3
1.1 Khái niệm Tóm tắt văn bản 3
1.2 Phân loại bài toán Tóm tắt văn bản 4
1.3 Ứng dụng của bài toán Tóm tắt văn bản 7
1.4 Đánh giá hệ thống Tóm tắt văn bản 8
1.4.1 Các tiêu chí đánh giá 8
1.4.2 Các yếu tố ảnh hưởng tới việc đánh giá hệ thống tóm tắt 9
1.4.3 Các phương pháp đánh giá hệ thống tóm tắt 9
1.4.3.1 Phương pháp thủ công 10
1.4.3.2 Phương pháp dựa trên độ chính xác và độ hồi tưởng 10
1.4.3.3 Phương pháp dựa trên độ đo ROUGE 11
1.4.3.4 Phương pháp BLEU 12
1.5 Một số hệ thống tóm tắt văn bản điển hình 13
1.6 Kết luận 15
CHƯƠNG 2: CÁC PHƯƠNG PHÁP TÓM TẮT VĂN BẢN 16
2.1 Quá trình tóm tắt văn bản 16
2.2 Các phương pháp áp dụng trong các pha 17
2.2.1 Pha Phân tích 17
2.2.1.1 Phương pháp thống kê 17
2.2.1.2 Phương pháp cấu trúc 18
2.2.2 Các phương pháp áp dụng trong pha Biến đổi 19
2.2.2.1 Giản lược về cấu trúc câu (Syntactic Condensation) 19
2.2.2.2 Giản lược về mặt ngữ nghĩa (Semantic Condensation) 20
Trang 62.2.3 Các phương pháp trong pha hiển thị 22
2.2.3.1 Phương pháp hiển thị phân đoạn 22
2.2.3.2 Phương pháp Hiển thị liên kết 23
2.3 Các phương pháp tĩm tắt văn bản 24
2.3.1 Phương pháp thống kê 24
2.3.2 Phương pháp thống kê trên TF.IDF 25
2.3.3 Phương pháp học máy 25
2.3.3.1 Phương pháp Nạve-Bayes 25
2.3.3.2 Phương pháp OPP (Optimal Position Policy) 26
2.3.3.3 Phương pháp Decision Tree 27
2.3.3.4 Phương pháp Log-Linear 27
2.4 Kết luận 27
CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TĨM TẮT VĂN BẢN TIẾNG VIỆT 28
3.1 Mơ hình hệ thống 28
3.2 Giai đoạn tiền xử lý 29
3.2.1 Tách câu 29
3.2.2 Tách từ 31
3.2.3 Loại bỏ từ dừng 33
3.2.4 Mơ hình hĩa văn bản 34
3.3 Giai đoạn xử lý 35
3.3.1 Tính độ tương đồng giữa 2 câu trong văn bản 35
3.3.1.1 Độ tương đồng câu 35
3.3.1.2 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 35
3.3.2 Tính trọng số câu 36
3.3.2.1 Trọng số từ 36
3.3.2.2 Tính trọng số câu 39
3.3.3 Sinh câu tĩm tắt 40
3.4 Giai đoạn hiển thị 40
Trang 7CHƯƠNG 4: CÀI ĐẶT ỨNG DỤNG 41
4.1 Mô tả sơ lược về hệ thống 41
4.1.1 Các bước triển khai chương trình 41
4.1.2 Một số giao diện chương trình 42
4.2 Kiểm thử, đánh giá 43
4.2.1 Bộ dữ liệu mẫu 43
4.2.2 Phương pháp sử dụng cho việc đánh giá 44
4.2.3 Các kết quả kiểm thử 46
4.2.4 Nhận xét, đánh giá 46
KẾT LUẬN VÀ KIẾN NGHỊ 47
TÀI LIỆU THAM KHẢO 48
Trang 8giúp Đặc biệt, sự ra đời của Internet - Mạng thông tin toàn cầu - được coi là
nguyên nhân chính, thúc đẩy sự bùng nổ thông tin trên toàn thế giới Thông qua
Internet, những thông tin quý giá về mọi lĩnh vực đều sẵn sàng đợi chúng ta khám
nghiên cứu nhiều ở Việt Nam Chính vì lý do này tôi đã chọn Tóm tắt văn bản tiếng Việt là đề tài luận văn, mong muốn góp một phần công sức cho sự phát triển
của Khai phá văn bản tiếng Việt nói riêng và Công nghệ thông tin Việt Nam nói chung
2 Mục đích nghiên cứu
- Tìm hiểu cơ sở lý thuyết của Tóm tắt văn bản nói chung và tóm tắt đơn văn bản tiếng Việt nói riêng
Trang 9- Nghiên cứu phương pháp tóm tắt văn bản tiếng Việt
- Xây dựng hệ thống tóm tắt văn bản tiếng việt
3 Đối tượng, phạm vi nghiên cứu
- Tin tức, cụ thể là các bài báo mạng được lấy từ một số trang Web lớn như: http://dantri.com.vn, http://vnexpress.com.vn, http://24h.com.vn,…
- Định dạng đầu vào được quy định là dạng file txt
- Nghiên cứu trong phạm vi đơn văn bản
4 Nội dung
Nội dung của luận văn được trình bày theo 4 chương với các nội dung cụ thể như sau:
Chương 1: Tổng quan về bài toán TTVB
Trình bày về các khái niệm cơ bản của TTVB nói chung, phân loại bài toán TTVB, các ứng dụng của TTVB và các phương pháp đánh giá một hệ thống TTVB
Chương 3: Xây dựng hệ thống tóm tắt trích rút đơn văn bản tiếng Việt
Trình bày chi tiết về hệ thống tóm tắt trích rút đơn văn bản tiếng Việt gồm:
mô hình hệ thống, các giai đoạn xử lý, cấu trúc chương trình
Chương 4: Cài đặt ứng dụng
Trình bày các giao diện của hệ thống, phương pháp kiểm thử, cách thức thu thập tài liệu mẫu, hiển thị kết quả của quá trình kiểm thử
Trang 10CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN TÓM TẮT VĂN
BẢN 1.1 Khái niệm Tóm tắt văn bản
Có rất nhiều định nghĩa khác nhau nói về TTVB Tùy thuộc vào mục đích yêu cầu của bài toán hay góc nhìn nhận của đối tượng sử dụng mà chúng ta có các định nghĩa khác nhau:
Là việc thể hiện nội dung văn bản đó dưới dạng giản lược một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía người dùng [10]
Là quá trình rút ra những thông tin quan trọng nhất từ một hay nhiều nguồn văn bản để tạo ra một văn bản gọn hơn phục vụ cho các công việc, nhiệm vụ hay người dùng cụ thể [10]
“Cho một văn bản, tìm tóm tắt chứa các ý chính của văn bản thỏa nhu cầu khai thác văn bản” của Hoàng Kiếm và Đỗ Phúc
Một số ứng dụng của hệ thống TTVB tiếng Việt tự động:
Tóm tắt tự động các tin tức trên báo điện tử
Trợ giúp thông minh việc đọc và khai thác thông tin
Tóm lược danh sách tìm kiếm từ các Search Engine
Giản lược nội dung trình bày cho các thiết bị cầm tay
Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản
Hỗ trợ tóm lược nội dung cuộc họp, website, chương trình phát thanh và truyền hình, sổ tay công việc
Ngoài ra, một số module và kết quả của hệ thống cũng là đầu vào hay những
bước tiền xử lý cho các bài toán khác của Khai phá văn bản
Vậy TTVB là gì?
TTVB là kỹ thuật mà máy tính tự động tạo ra bản tóm tắt của một hay nhiều
văn bản hoặc nói cách khác “TTVB là quá trình rút gọn hóa thông tin để đưa ra các thông tin quan trọng nhất trong văn bản”
Trang 11Hình 1 Các kiểu TTVB với các tỉ lệ tóm tắt khác nhau 1.2 Phân loại bài toán Tóm tắt văn bản
Bài toán TTVB được chia thành nhiều loại Mỗi loại được sử dụng cho các mục đích khác nhau, các yêu cầu khác nhau Mỗi bài toán cũng phải áp dụng các phương pháp và kỹ thuật riêng Không có một ứng dụng TTVB nào có thể cài đặt
và đáp ứng được hết các dạng yêu cầu đó
Tóm tắt đơn văn bản và Tóm tắt đa văn bản: Khi xét đầu vào một hệ
thống TTVB, ta có thể chia thành hai dạng là tóm tắt đơn văn bản
(Single-Document) hoặc tóm tắt đa văn bản (Multi-(Single-Document) Tóm tắt đơn văn bản là từ
một văn bản nguồn cho ra bản ngắn gọn của văn bản đó Nguợc lại, tóm tắt đa văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra một đoạn tóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bản đồng thời cho nhiều văn bản khác nhau Rõ ràng, tóm tắt đa văn bản thì khó hơn, vì ngoài những công việc của tóm tắt đơn văn bản, tóm tắt đa văn bản còn phải thực hiện các công việc như tiền xử lý trích rút, tích hợp thống nhất khuôn dạng và hiển thị kết quả theo cách riêng Ngoài
ra, tóm tắt đa văn bản còn phải đối mặt với các vấn đề như dư thừa, trùng lặp dữ liệu giữa các văn bản nguồn, nội dung các văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự phức tạp trong xử lý lớn
Trích rút và Tóm lược: Khi xét đến đầu ra một hệ thống TTVB, chúng ta
có thể có hai dạng tóm tắt Đó là Trích rút (Extraction) và Tóm lược (Abstraction)
Trang 12Việc phân biệt hai dạng tóm tắt này là rất cơ bản và quan trọng Trích rút là quá trình thu gọn văn bản mà trong kết quả ra chứa các đơn vị ngữ liệu văn bản nguồn
Tóm lược là quá trình thu gọn văn bản mà trong kết quả ra có một số các đơn vị
ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn
Ví dụ, có đoạn văn sau (được đánh số thứ tự câu):
“Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ 1 Ba anh chúng tôi chúng tôi đã chờ những ngày này khá lâu rồi 2 Chả là anh cả tôi được về phép thăm gia đình nhân dịp Tết 3 Bố mẹ tôi rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn 4 Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình 5 Bữa
ăn đã làm nên một cuối tuần tuyệt vời 6”
Văn bản kết quả của quá trình Trích rút:
"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ Bữa ăn đã làm
nên một cuối tuần tuyệt vời"
Văn bản kết quả của quá trình Tóm lược:
"Một buổi cuối tuần vui vẻ của gia đình tôi"
Chúng ta có thể thấy văn bản kết quả của quá trình Trích rút thực ra là câu 1
và câu 6 của đoạn văn bản nguồn, và có cảm giác như đoạn kết quả không được trôi chảy lắm Còn câu duy nhất của văn bản kết quả sau quá trình Tóm lược không hề trùng với bất cứ câu nào trong sáu câu của văn bản nguồn Tuy nhiên nó vẫn thu gọn và giữ được ý chính của cả đoạn Đây chính là sự khác biệt lớn giữa Trích rút
và Tóm lược
Qua ví dụ này chúng ta cũng nhận ra rằng, để xây dựng một hệ thống Tóm lược khó hơn là xây dựng một hệ thống Trích rút Khi xem xét mô hình chung của một hệ thống Tóm tắt văn bản ta sẽ thấy rõ hơn điều này
Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá
Phân chia về chức năng, có ba loại ứng dụng tóm tắt sau:
- Tóm tắt chỉ định (Indicative): Là kiểu tóm tắt giúp người đọc quyết định xem có nên đọc tiếp, đọc sâu nữa không Ví dụ như loại ứng dụng sinh tiêu đề, tóm lược kết quả tìm kiếm…
Trang 13- Tóm tắt thông tin (Informative): Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọng nhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc Ví dụ như tóm tắt một tiểu thuyết thành đoạn văn năm bảy trang
- Tóm tắt đánh giá (Evaluative): Là kiểu tóm tắt mà trong kết quả ra có cả đánh giá của người tóm tắt Ví dụ như lời tựa một quyển sách hay bản thảo một bài báo Kiểu tóm tắt này không gặp trong một hệ tóm tắt văn bản tự động
Tóm tắt chung và Tóm tắt hướng truy vấn
Phân chia về mục đích, có hai loại là Tóm tắt chung và Tóm tắt hướng truy vấn:
- Tóm tắt chung (Generic): Tóm tắt theo quan điểm ban đầu của tác giả văn bản gốc (khách quan)
- Tóm tắt hướng truy vấn (Query-Oriented): Tóm tắt theo quan điểm mong muốn của người dùng ứng dụng thông qua các tham số truyền vào câu truy vấn Tóm tắt hướng truy vấn được cài đặt và áp dụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành cụ thể
Tóm tắt cơ bản và Tóm tắt chuyên môn
Phân chia theo trình độ người dùng có Tóm tắt cơ bản và Tóm tắt chuyên môn:
- Tóm tắt cơ bản: Tóm tắt này dành cho người thông thường Ví dụ : Các ứng dụng tóm tắt thông thường, chung chung như tóm tắt trang tin, tóm tắt tiểu thuyết văn học…
- Tóm tắt chuyên môn: Tóm tắt dành cho người đã có nền tảng, chuyên môn Những bản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, công việc chuyên môn Ví dụ ứng dụng hỗ trợ thông minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị, ứng dụng tóm tắt các bài báo về toán học…
Tóm tắt đơn ngôn ngữ, Tóm tắt đa ngôn ngữ và Tóm tắt đan xen nhiều ngôn ngữ
Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có
ba loại ứng dụng tóm tắt:
Trang 14- Tóm tắt đơn ngôn ngữ: Văn bản nguồn chỉ có một loại ngôn ngữ Kết quả ra
là văn bản ngôn ngữ đó
- Tóm tắt đa ngôn ngữ: Mỗi văn bản nguồn chỉ có một loại ngôn ngữ Nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ Tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn
- Tóm tắt đan xen ngôn ngữ: Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ
1.3 Ứng dụng của bài toán Tóm tắt văn bản
TTVB có rất nhiều ứng dụng thực tế Có thể nêu ra một số ứng dụng điển hình như:
Tóm tắt phục vụ máy tìm kiếm (Search Engine): Tóm tắt các thư viện dữ
liệu khổng lồ để phục vụ cho mục đích tìm kiếm thông tin Với tài nguyên dữ liệu lớn, mỗi lần thực hiện tìm kiếm nếu chỉ rà soát thông tin trên danh mục các tóm tắt của dữ liệu sẽ tiết kiệm thời gian và giảm độ phức tạp của bài toán tìm kiếm Hiện nay, một số địa chỉ tìm kiếm nối tiếng như Google, Altavista,… đều đã ứng dụng rất tốt TTVB vào hệ thống của mình
Tóm tắt tin tức (Multimedia News Summries): Có ứng dụng rất lớn trong
thương mại Giá trị của thông tin trong thương mại là rất quan trọng Song với lượng thông tin lớn được xuất bản mỗi ngày, doanh nghiệp không thể tiếp nhận và
xử lý hết chúng Tóm tắt tin tức có thể giúp thu thập đủ thông tin cần thiết từ nguồn
dữ liệu này Đã có nhiều công ty khai thác giá trị thương mại này bằng cách cung cấp cho khách hàng những thông tin được xuất bản trong ngày có nội dung liên quan đến một lĩnh vực được “đặt hàng” trước
Hỗ trợ tìm kiếm đa ngôn ngữ: Giả sử người dùng cần tìm các tài liệu về
một vấn đề nào đó Nhưng các tài liệu này lại tồn tại dưới dạng các ngôn ngữ khác nhau Trước hết tóm tắt nội dung của tài nguyên, sau đó áp dụng hệ thống dịch tự
Trang 15động đưa chúng về ngôn ngữ của người đọc Nếu tài nguyên này thỏa mãn yêu cầu người dùng, nó sẽ được người dùng tìm cách dịch và sử dụng
Giản lược nội dung cho các thiết bị cầm tay: Với khả năng hiên thị hạn
chế của các thiết bị cầm tay thì việc cô đọng thông tin để phù hợp với kích thước sử dụng là rất cần thiết
1.4 Đánh giá hệ thống Tóm tắt văn bản
1.4.1 Các tiêu chí đánh giá
Các tiêu chí đánh giá kết quả của một hệ thống tóm tắt văn bản, còn là những tham số mà người dùng có thể đưa vào hệ thống để phục vụ mục đích của mình, thường gồm các giá trị như sau:
Độ rút gọn (độ nén)
Là tỉ số giữa số lượng đơn vị ngữ liệu của văn bản kết quả trên số lượng đơn
vị ngữ liệu của tập văn bản vào
- Tỉ lệ này có thể là câu/câu, từ/từ, tiếng/tiếng, hoặc đơn giản hơn là ký tự/ký
tự, thường tính bằng % Giá trị chuẩn của độ rút gọn thường là khoảng 10% đến 30% của văn bản gốc, nhưng hiển nhiên giá trị nó có thể là nằm từ khoảng 1% đến 99% được coi là đã tóm tắt theo định nghĩa Tóm tắt tại độ rút gọn 10% thường được coi là tốt hơn tóm tắt tại độ rút gọn 20%
- Độ rút gọn tỉ lệ thuận với độ khó thuật toán
Độ chính xác
- Thể hiện mối quan hệ giữa văn bản kết quả với tập văn bản tóm tắt mẫu
- Được đánh giá dựa trên các hệ thống đánh giá tóm tắt như DUC, SUMMAC, ROUGE… và các tập dữ liệu, kiểm thử mẫu (Corpus)
- Độ chính xác tỉ lệ thuận với độ khó thuật toán
Mức độ liên kết
- Thể hiện sự liên kết giữa các đơn vị ngữ liệu của văn bản kết quả với nhau
- Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và cú pháp
- Mức độ liên kết cũng tỉ lệ thuận với độ khó của thuật toán tóm tắt
Trang 16Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay thế cho tiêu chí mức độ liên kết này
1.4.2 Các yếu tố ảnh hưởng tới việc đánh giá hệ thống tóm tắt
Tóm tắt liên quan tới việc máy tính sinh ra kết quả ở dạng giao tiếp ngôn ngữ tự nhiên của con người Trong trường hợp kết quả là một câu trả lời cho một câu hỏi, chúng ta có thể xác định được câu trả lời đó đúng hoặc sai nhưng trong các trường hợp khác, thật khó để trả lời cho câu hỏi “liệu đầu ra là một kết quả đúng?” Thực tế luôn có khả năng hệ thống sinh ra một bản tóm tắt tốt nhưng lại khác nhiều với bản tóm tắt mà con người thực hiện Điều này cũng là vấn đề với các bài toán khác như: dịch máy, phân loại văn bản, tiếng nói,…
Khi các chuyên gia được yêu cầu đánh giá kết quả hệ thống, chi phí đánh giá sẽ tăng (về thời gian, tiền bạc, công sức,…) Một phương pháp đánh giá bằng cách cho điểm tự động thay vì thực hiện bởi người sẽ được quan tâm hơn bởi chúng
có thể lặp đi lặp lại nhiều lần bất cứ khi nào chúng ta muốn
Việc tóm tắt còn liên quan tới việc nén kích thước văn bản (giảm số câu, rút gọn từng câu) Vì vậy, đánh giá kết quả ở các độ nén khác nhau là một việc tối quan trọng không thể thiếu Tuy nhiên, điều này làm tăng độ phức tạp và chi phí của việc đánh giá
hệ thống Các phương pháp đánh giá bên ngoài, ngược lại, áp dụng vào hệ thống những nhiệm vụ cụ thể và thông qua các tiêu chí kết quả như độ phù hợp (relevance) hay độ dễ đọc dễ hiểu (reading comprehension) để đánh giá một hệ thống tóm tắt xem có tốt cho người dùng khi họ sử dụng hệ thống vào những mục
Trang 17tiêu khác nhau hay không
1.4.3.1 Phương pháp thủ công
a Độ rút gọn
- Là tỉ số giữa số lượng đơn vị ngữ liệu của văn bản kết quả trên số lượng đơn vị ngữ liệu của tập văn bản vào
- Tỉ lệ này có thể là là câu/câu, từ/từ, tiếng/tiếng, thường tính bằng %
b Độ hàm chứa thông tin
Độ hàm chứa thông tin phản ánh về lượng thông tin chứa trong nội dung của văn bản kết quả Khi một ứng dụng tóm tắt giản lược văn bản nguồn thì độ hàm chứa thông tin của văn bản kết quả cũng sẽ giảm đi Như vậy, sau khi tóm tắt thì còn bao nhiêu phần trăm thông tin còn được giữ lại trong văn bản kết quả ?
Việc xác định độ hàm chứa thông tin thường thông qua việc đối sánh cho điểm các thông tin trong nội dung Có hai phương pháp đối sánh và cho điểm: đối sánh giữa văn bản kết quả - văn bản nguồn và đối sánh giữa máy tóm tắt và chuyên gia tóm tắt Ngoài ra, người ta còn đánh giá thông qua việc cho điểm của các chuyên gia
c Độ dễ đọc, dễ hiểu
Một người được giao việc đọc văn bản kết quả, sau đó phải trả lời các câu hỏi Hệ thống sẽ phải cho điểm và từ đó đưa ra phần trăm những câu trả lời đúng
1.4.3.2 Phương pháp dựa trên độ chính xác và độ hồi tưởng
Xét một ứng dụng tóm tắt đang cần đánh giá (C) và một phương pháp tóm tắt Phương pháp này gọi là Gold Standard (GS) có thể là do người thực hiện, do máy thực hiện tự động theo cách khác hoặc bán tự động được sử dụng như là văn
bản mẫu
Độ chính xác (Precision) là số câu chọn ra chính xác của văn bản kết quả
(C) chia cho tổng số câu của văn bản kết quả
Độ hồi tưởng (Recall) là số câu chọn ra chính xác của văn bản kết quả (C)
chia cho tổng số câu của văn bản mẫu tóm tắt bằng GS
Trang 18Để minh họa rõ hơn cách xác định độ chính xác và độ hồi tưởng, giả sử ta có
bảng kết quả kiểm thử sau:
Số câu được C chọn Số câu không được C
1)1(1
Trong đó: P: độ chính xác theo công thức trên
R: độ hồi tưởng theo công thức trên
: số thực bất kỳ thỏa điều kiện 0<<1
1.4.3.3 Phương pháp dựa trên độ đo ROUGE
Phương pháp dựa trên độ đo ROUGE (Recall-Oriented Understudy for
Gisting Evaluation) này được đề xuất bởi Lin năm 2004 Nó là phương pháp đo
lường để tự động xác định chất lượng của một bản tóm tắt bằng cách so sánh nó với các bản tóm tắt do con người tạo ra Độ đo ROUGE là sự tính toán số trùng lặp của các đơn vị ngữ liệu của văn bản như n-gram, thứ tự từ và các cặp từ giữa văn bản do máy tính sinh ra với văn bản do con người tạo ra Trong các phương pháp đánh giá tóm tắt dựa trên độ đo ROUGE có:
ROUGE-N: Là một độ hồi tưởng n-gram giữa một văn bản cần đánh giá và một tập các văn bản mẫu
ROUGE-L: Là tính toán dựa trên dãy con chung dài nhất (LCS) giữa các câu trong văn bản đánh giá với văn bản mẫu (Cho hai dãy có thứ tự X và Y, một dãy con chung lớn nhất của X và Y là một dãy con chung có độ dài lớn nhất)
Trang 19 ROUGE-W: Là phương pháp tính toán dựa trên trọng số của dãy con chung dài nhất, có xét tới tính liên tiếp của từ trong dãy
ROUGE-S: Là phương pháp tính toán dựa trên việc thống kê các bigram đồng xuất hiện
Một cách hình thức, ROUGE-N là một độ đo đối với các n-gram trong văn bản tóm tắt ứng viên và trong tập các văn bản tóm tắt tham khảo, được tính theo công thức ở dưới đây:
n S
gram
maries ferenceSum S
n S
gram
match
gram Count
gram Count
N ROUGE
) (
(4)
Trong công thức trên, n biểu thị cho chiều dài của n-gram, Countmatch(gramn)
là số chuỗi n-gram lớn nhất xuất hiện trong văn bản tóm tắt ứng viên và tập các văn bản tóm tắt tham khảo
1.4.3.4 Phương pháp BLEU
Phương pháp đáng giá tự động BLEU (BiLingual Evaluation Understudy)
được đề xuất bởi IBM (2002) là một giải thuật sử dụng cho việc đánh giá chất lượng của văn bản được sinh ra bởi một hệ thống dịch máy đối với một văn bản mẫu đối sánh Chất lượng ở đây là độ trùng khớp giữa văn bản sinh ra bởi hệ thống dịch máy với văn bản do con người tạo ra
Nhiệm vụ chính của BLEU là tính toán độ đo BLEU của văn bản đánh giá dựa trên độ chính xác n-grams (số tiếng sử dụng cho việc so khớp) gồm: 1-gram, 2-gram, 3-gram, 4-gram
Độ chính xác n-gram: Là nền tảng của phương pháp BLEU Nó được tính bằng cách đếm số n-grams của văn bản đánh giá có trong văn bản mẫu rồi chia cho
số n-grams trong văn bản đánh giá
Để tính toán độ đo BLEU, đầu tiên chúng ta tính toán trung bình hình học của các độ chính xác n-grams là pn, sử dụng n-grams có độ dài N và một trọng số trung bình wn
Trang 20Tiếp theo, cho c là độ dài của văn bản đánh giá và r là độ dài văn bản mẫu
Ta thực hiện tính toán độ rút gọn quy ước Brevity Penalty (BP) theo công thức sau:
(5)
Sau đó tính toán độ đo BLEU theo công thức sau:
(6)
Trong đó:
Pn: Là trung bình hình học của các độ chính xác n-grams
N: là độ dài của n-grams (Có thể là 1, 2 ,3 ,4)
w n là trọng số trung bình nó được lấy giá trị là: 1/ N
Đánh giá phương pháp BLEU
Độ đo BLEU nằm trong khoảng (0,1) Giá trị này biểu hiện cho sự tương đồng giữa văn bản đánh giá và văn bản mẫu, giá trị càng gần tới một thì chứng tỏ các văn bản càng tương tự nhau Một số văn bản đánh giá đạt giá trị là 1 tức là nó đồng nhất với văn bản mẫu Thực tế, thì thậm chí một người dịch cũng sẽ không thể đạt được số điểm là 1 Theo Denkowski và Lavie trong AMTA Evaluation Tutorial nếu độ đo BLEU trên 0.3 chứng tỏ rằng văn bản đánh giá có thể hiểu được Nếu độ
đo BLEU là trên 0.5 thì văn bản đánh giá là tốt và đạt được sự trôi chảy
1.5 Một số hệ thống tóm tắt văn bản điển hình
- SUMMARIST: Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng Anh,
tiếng Nhật, tiếng Tây Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc) Hiện tại SUMMARIST đang nghiên cứu để cải tiến trở thành một hệ thống Tóm lược văn bản và hỗ trợ nhiều ngôn ngữ hơn như tiếng Pháp và Indonesia
- WEBSUMM: Hệ thống trích rút câu từ một đơn tài liệu hoặc đa tài liệu
liên quan với công cụ tìm kiếm Tóm tắt kết quả là trích rút của câu dựa trên sự truy
Trang 21vấn của người sử dụng Nó được tạo bởi sự miêu tả tài liệu nguồn như mạng lưới cầu Sử dụng thuận ngữ truy vấn để trích rút nút liên quan, câu được trích rút
- LETSUM: Là một hệ thống mới được xây dựng để tóm tắt tài liệu thuộc lĩnh vực luật pháp Hệ thống này được cài đặt trong môi trường CanLii, học viện
thông tin luật pháp của Canada
- SweSUM: Ứng dụng Tóm tắt văn bản đa ngôn ngữ của Học viện công nghệ
hoàng gia Thụy Điển SweSUM có thể tóm tắt các văn bản có ngôn ngữ vùng Scandinavi như Thụy Điển, Đan Mạch, Na Uy và các ngôn ngữ khác như tiếng Anh, Pháp, Đức, Tây Ban Nha và cả tiếng Iran
- SumUM: Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu xử lý
ngôn ngữ tự nhiên trường Đại học Montréal, Canada SumUM có thể thực hiện cả chức năng tóm tắt chỉ định và tóm tắt thông tin rất tốt
- FJCL: Hệ thống trích rút văn bản tiếng Nhật được phát triển trong phòng
nghiên cứu Ikeda của trường đại học Gifu Đây là một hệ thống sử dụng các phương
pháp áp dụng cho hệ ngôn ngữ đơn âm tiết (monosyllabic language system) như
tiếng Nhật, Hàn Quốc, Trung Quốc và Việt Nam
- Pertinence Summarizer: Hệ thống tóm tắt tin tức đa ngôn ngữ trực tuyến
nổi tiếng Hiện tại để thử nghiệm khả năng của mình, Pertinence đã được tích hợp
với Google và tóm tắt tự động danh sách tìm kiếm trả về từ Google thông qua câu
truy vấn đưa vào Chúng ta có thể thử nghiệm hệ thống này trên trang web: www.pertinence.net
- MEAD: Nền tảng cho các hệ thống Tóm tắt đa văn bản và đa ngôn ngữ
Đây là một bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng ngôn ngữ Perl - Một ngôn ngữ có khả năng xử lý văn bản rất linh hoạt và mạnh mẽ MEAD biểu diễn, lưu trữ dữ liệu ở dạng XML, cung cấp cho chúng ta khung ứng dụng để cài đặt các ứng dụng tóm tắt văn bản cho ngôn ngữ mà ta muốn Ngoài ra MEAD cũng cung cấp các công cụ để xây dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và các tập mẫu nổi tiếng MEAD được xây dựng bởi các chuyên gia nổi tiếng về xử lý ngôn ngữ ở khắp nơi trên thế giới dưới sự tài trợ của chương trình
Trang 22nghiên cứu công nghệ thông tin của tổ chức khoa học quốc gia Mỹ MEAD được cung cấp ở dạng mã nguồn mở để nghiên cứu và kế thừa
1.6 Kết luận
Trong chương này luận văn giới thiệu khái quát bài toán tóm tắt văn bản tự động và các vấn đề liên quan Trong chương tiếp theo luận văn sẽ trình bày các nghiên cứu liên quan đến tóm tắt văn bản nói chung và bài toán tóm tắt văn bản tiếng Việt nói riêng
Trang 23CHƯƠNG 2: CÁC PHƯƠNG PHÁP TÓM TẮT VĂN BẢN 2.1 Quá trình tóm tắt văn bản
Nhà nghiên cứu về tóm tắt văn bản tự động đã phân chia quá trình TTVB tự động thành 3 bước:
1 Bước Phân tích (Analysis)
2 Bước Biến đổi (Transformation)
3 Bước Hiển thị (Generation)
Phân tích (Analysis)
Biến đổi (Transform)
Hiển thị (Generation)
Hình 2: Mô hình chung của tóm tắt văn bản
Trong đó:
Phân tích (Analysis): Là nhiệm vụ phân tích văn bản đầu vào để đưa ra
những mô tả bao gồm các thông tin dùng để tìm kiếm, đánh giá các đơn vị ngữ liệu
quan trọng cũng như các tham số đầu vào cho việc tóm tắt
Biến đổi (Transformation): Biến đổi là công việc lựa chọn các thông tin
trích chọn được, biến đổi để giản lược và thống nhất, kết quả là các đơn vị ngữ liệu
đã được tóm tắt
Hiển thị (Generation): Là pha cuối cùng trong quy trình tóm tắt Từ các đơn
vị ngữ liệu đã tóm tắt, liên kết chúng lại thành đoạn theo một thứ tự nào đó hoặc theo cấu kết ngữ pháp rồi hiển thị phù hợp với yêu cầu người dùng
Một hệ Tóm lược (Abstraction) bao gồm tất cả các pha trên, tuy nhiên một hệ Trích rút (Extraction) chỉ gồm pha phân tích và pha hiển thị, không có pha biến đổi
Thậm chí trong các pha phân tích và hiển thị, chỉ có một số công đoạn được sử
Trang 24dụng
Phân tích thông
kê (Statistic Analysis)
Hiển thị phân đoạn (Fragmentary Generation)
Vì vậy, kết quả của các hệ Tóm lược thường thuyết phục hơn (về mặt dễ đọc, dễ hiểu, liên kết ngôn ngữ tốt, gần gũi với con người) Sau đây chúng ta sẽ đi sâu vào giới thiệu một số phương pháp được áp dụng trong các pha của mô hình Tóm tắt văn bản tự động, thông qua đó chúng ta cũng hiểu rõ hơn về những công việc thật
sự, đầu vào và đầu ra của từng pha trong mô hình này
2.2 Các phương pháp áp dụng trong các pha
2.2.1 Pha Phân tích
Trong pha phân tích, văn bản nguồn được phân tích để xác định các đơn vị ngữ liệu và các đặc trưng của chúng Pha phân tích là đầu vào cho pha biến đổi và sau này là pha hiển thị Như vậy pha phân tích đóng một vai trò rất quan trọng trong bài toán Tóm tắt văn bản Ngoài việc đưa ra đơn vị ngữ liệu, pha phân tích còn phải thực hiện một công việc hết sức quan trọng là đưa ra thông tin đặc trưng của các đơn vị ngữ liệu, thành phần ngữ liệu trong văn bản nguồn
Các phương pháp áp dụng trong pha phân tích được chia thành hai loại: phương pháp thống kê và phương pháp cấu trúc
2.2.1.1 Phương pháp thống kê
Các phương pháp thuộc loại này sử dụng các số liệu thống kê về độ quan trọng của các từ, cụm từ, câu hoặc đoạn văn Các phương pháp thống kê gồm:
Trang 25+ Minh hoạ, chú thích: trong các câu chú thích, câu minh hoạ cho ảnh hay đồ thị thường chứa các thông tin quan trọng
- Dựa vào cụm từ dấu hiệu: Các cụm từ dấu hiệu có đặc điểm thống kê rất tốt Sau các cụm từ này thường là các từ hay câu quan trọng Có hai loại cụm từ dấu hiệu: thứ nhất là các cụm từ mang ý nhấn mạnh, sau cụm từ này đoạn văn
quan trọng; chẳng hạn “nói chung là”, “đặc biệt là”, “tóm lại”, “cuối cùng thì”,
“trong bài viết này tôi muốn chỉ ra”, “bài viết nói về”, “nội dung gồm” Thứ hai là
các cụm từ không quan trọng, sau cụm từ này là các thành phần không có nhiều giá
trị trong việc tóm tắt, chẳng hạn: “hiếm khi mà”, “bài này không nói đến”, “không
thể nào…”
- Dựa vào thống kê tần suất từ: Độ quan trọng của từ phụ thuộc vào số lần
xuất hiện của từ đó trong văn bản Có thể dùng các kĩ thuật như TF.IDF, tập thuật ngữ thường xuyên (frequent item set) để xác định tần suất từ
2.2.1.2 Phương pháp cấu trúc
Là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa
để xác định các đơn vị ngữ liệu quan trọng Tư tưởng chính của các phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên kết nhiều với các thành phần khác sẽ có độ quan trọng lớn Việc đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp hoặc thông qua các phương pháp xác định
độ liên quan truyền thống Các phương pháp sử dụng này là:
- Phương pháp sử dụng quan hệ giữa câu, đoạn
- Phương pháp chuỗi từ vựng (lexical chains)
- Phương pháp liên kết tham chiếu (word coreferences)
Trang 262.2.2 Các phương pháp áp dụng trong pha Biến đổi
Trong pha phân tích đã trích rút ra những đơn vị ngữ liệu cùng với thông tin đặc trưng của chúng, chuyển chúng xuống pha biến đổi
Nhiệm vụ của pha biến đổi là làm gọn các câu trích rút trong pha phân tích rồi chuyển xuống pha hiển thị cho pha hiển thị tiếp theo Nói cách khác pha biến đổi
có nhiệm vụ biến đổi đơn vị ngữ liệu được trích rút trong pha phân tích như cụm từ, câu, đoạn,… Thông thường pha biến đổi thực hiện rút gọn bản thân bên trong một câu Tiếp đến có thể rút gọn đoạn,… Các phương pháp trong pha biến đổi được phân loại giản lược theo cấu trúc và ngữ nghĩa
2.2.2.1 Giản lược về cấu trúc câu (Syntactic Condensation)
Giản lược về cấu trúc câu là việc lược bỏ trong câu các phần thừa, ít mang giá trị, làm cho cấu trúc câu thu gọn lại Công việc này thường dựa trên phân tích cú pháp các thành phần trong câu
Đầu tiên câu được phân tích cú pháp bằng các phương pháp gán nhãn hay cấu trúc hóa thành cây cú pháp Sau đó dựa trên việc phân tích cú pháp này, các thành phần thừa, ít phản ánh nội dung cốt yếu sẽ bị loại bỏ Các thành phần bị loại bỏ có thể là các liên từ, các từ (ngữ) bổ nghĩa, các ngữ đồng vị hay các mệnh đề phụ ngầm định Các thành phần này cũng hay có dấu hiệu nhận biết như nằm giữa các dấu phẩy, nằm giữa các cặp ngoặc đơn
Ví dụ: “Bill Gate, người giàu nhất thế giới, là chủ nhân của hãng máy tính
Microsoft”
Câu văn này sau khi loại bỏ ngữ đồng vị "người giàu nhất thế giới" nằm giữa
hai dấu phẩy ta sẽ thu được một câu gọn hơn mà không vi phạm về cấu trúc ngữ
pháp và ngữ nghĩa: "Bill Gate là chủ nhân của hãng máy tính Microsoft."
Câu này đúng về mặt ngữ pháp nhưng không còn giữ được đúng ngữ nghĩa hoàn toàn Tuy nhiên, xét trong một hệ Tóm lược văn bản với một yêu cầu cụ thể về
độ rút gọn thì câu này có thể chấp nhận được vì nó vẫn giữ được ý chính của câu ban đầu
Trang 27Hai trong số các phương pháp giản lược về cấy trúc câu hay được dùng là hai
phương pháp do Kevin Knight and Daniel Marcu đề xuất năm 2000 dựa vào mô hình kênh nhiễu (Noisy-Channel Model) và cây quyết định (Decision Tree) Hai
phương pháp này đều học một tập mẫu gồm các cặp câu nguyên mẫu-tóm tắt và áp dụng vào việc rút gọn câu mới Một hướng đi khác là các phương pháp dựa trên lý
thuyết về cấu trúc F và văn phạm từ vựng-chức năng (Lexical-Functional Grammar
LFG) của Trung tâm nghiên cứu Palo Alto Ngoài ra việc rút gọn câu dựa vào các
tập ngữ liệu song ngữ cũng là một hướng đi được nhiều nhà xử lý ngôn ngữ tự
nhiên lựa chọn như Vandeghinste và Yi Pan … Nói chung các phương pháp này đều
đòi hỏi phải có tập mẫu để học gồm các cặp câu nguyên mẫu-tóm tắt, ngoài ra cần
có một bộ phân tích cú pháp khá chính xác Vì đây là các phương pháp thống kê nên chúng ta có thể áp dụng vào tiếng Việt với điều kiện phải có tập mẫu và bộ phân tích cú pháp dành cho tiếng Việt
2.2.2.2 Giản lược về mặt ngữ nghĩa (Semantic Condensation)
Đây là các phương pháp thay thế các từ, ngữ bằng các từ, ngữ khác có quan
hệ về nghĩa, về khái niệm Tất nhiên các từ ngữ thay thế ngắn hơn các từ ngữ ban đầu Nói chung các phương pháp này thường có các bước tiến hành như sau: Đầu tiên xây dựng các danh sách từ, ngữ có quan hệ về nghĩa (bằng các phương pháp thống kê hoặc xử lý ngôn ngữ tự nhiên) Sau đó, nhận dạng trong câu các từ ngữ kiểu này và thay thế tương ứng Có nhiều phương pháp giản lược nhờ sinh khái niệm nhưng sau đây là một số phương pháp tiêu biểu:
Phương pháp trừu tượng hóa khái niệm: Tư tưởng của phương pháp này
là từ các khái niệm cụ thể thay thế bằng khái niệm chung
Ví dụ : "Tôi ăn dâu, táo và đào." => "Tôi ăn trái cây."
Phương pháp này phải dựa trên các mạng ngữ nghĩa để xác định từ thay thế
Sau đây chúng ta đưa ra một mô tả cho một giải thuật đơn giản để biến đổi câu "Tôi
ăn dâu, táo và đào." thành "Tôi ăn trái cây."
Câu ban đầu được tách danh từ (thông qua việc gán nhãn từ loại) ra được
thành "Tôi", "dâu", "táo", "đào", dựa vào việc cùng từ loại là tân ngữ mà các danh
Trang 28từ "dâu", "táo", "đào" được xét riêng Các danh từ này được đối sánh với các danh
từ trong quan hệ nói trên, và được thay thế bởi danh từ có khái niệm chung là "trái
cây" Các mạng ngữ nghĩa tất nhiên có nhiều cấp và việc lựa chọn thay thế ở cấp
nào là các quy tắc riêng của giải thuật cài đặt Ví dụ như trong trường hợp trên, giả
sử "trái cây" là một loại của "thực vật", liệu chúng ta nên thay "dâu", "táo", "đào" bởi "trái cây" hay "thực vật" ? Rõ ràng về nghĩa chúng ta nên dùng "trái cây", điều
này có thể thực hiện trong giải thuật bằng cách lấy khái niệm ở mức liền trên của
"dâu", "táo", "đào"
Phương pháp thay thế bộ phận: Tư tưởng của phương pháp này là từ các
khái niệm bộ phận thay thế bằng khái niệm toàn bộ
Ví dụ: "Xích, líp, ghi đông, bàn đạp … " => "Cái xe đạp…"
Thuật toán khá giống với phương pháp sinh khái niệm và cũng dựa vào mạng ngữ nghĩa Tất nhiên ở đây chúng ta chú ý đến quan hệ bộ phận - toàn thể của các danh từ, ngữ danh từ trong câu
Phương pháp thay thế ngữ tương đương: Tư tưởng của phương pháp này
là các ngữ đóng vai trò như nhau trong câu được thay bằng một ngữ chung
Ví dụ: "Anh ấy bước vào, ngồi xuống ghế, xem thực đơn, gọi món, ăn, trả
tiền và ra về" => "Anh ấy đi ăn tiệm"
Đây chính là phương pháp sử dụng các ý tưởng về nhận dạng chủ đề của
Daniel Marcu đã được chúng ta đề cập đến trong pha phân tích Trước hết ta cần
xây dựng những chữ ký chủ đề (Topic Signature) Mỗi chữ ký này là danh sách các
từ, các ngữ cùng loại (về mặt từ loại, ngữ loại), có đại diện bởi tên chủ đề Các chữ
ký được xây dựng dựa trên các phương pháp khác nhau như thống kê tần suất, dịch mạng ngữ nghĩa Sau đó, tìm kiếm trong câu đầu vào các thành viên của chữ ký và thay thế bởi tên chủ đề
Phương pháp thay thế từ, ngữ đồng nghĩa ngắn hơn: Một phương pháp
khác khá dễ hiểu đấy là việc thay thế một từ, ngữ bằng một từ, ngữ khác đồng nghĩa hoặc gần nghĩa nhưng có độ dài ngắn hơn Điều này thường thông qua một từ điển
các từ đồng nghĩa (Thesaurus)