Kết quả thử nghiệm đối với từng phiên bản

Một phần của tài liệu LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc (Trang 46 - 59)

a) Đánh giá chất lượng tóm tắt của Microsoft Word

Bảng dưới đây là kết quả đối sánh của các bản tóm tắt do Microsoft Word thực hiện.

Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà

10% 34 28 30,71

20% 36 30 32,73

30% 44 41 42,45

Trung bình 38 33 35,32

Bảng 4 Chất lượng của văn bản tóm tắt bởi Microsoft Word

b) Phiên bản 1

Trong phiên bản này, chúng tôi không sử dụng bộ tách từ mà chỉ sử dụng dấu trắng làm dấu hiệu phân tách từ.

Ngưỡng threshold được chọn đối với cả 3 phiên bản để đưa 2 câu vào đồ thị liên kết được chọn là 0,2.

Dưới đây là kết quả đánh giá độ chính xác và độ bao phủ trung bình của phương pháp được sử dụng trong phiên bản này theo từng mức độ nén khi so sánh với văn bản tóm tắt “lý tưởng” do con người thực hiện. Chúng tôi cũng đưa ra độ chính xác trung bình chung cho cả 3 mức độ nén.

Đơn vị: %

Phương pháp 1 Phương pháp 2 Phương pháp 3

Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà 10% 51 42 46,06 46 44 44,98 32 28 29,87 20% 46 44 44,98 47 45 45,98 41 38 39,44 30% 40 40 40 41 40 40,49 46 45 45,49 Trung bình 45,67 42 43,76 44,67 43 43,82 39,67 37 38,29

Bảng 5 Kết quả thử nghiệm với phiên bản 1

Trong đó, phương pháp 1, phương pháp 2, phương pháp 3 lần lượt là các cách chọn câu như đã trình bày ở 3.5. Độ chính xác trung bình với cả 3 phương pháp chọn câu mà phiên bản này đạt được là 43,33%, còn độ bao phủ là 40,67%. Giá trị hàm điều hoà là 41,92%.

c) Phiên bản 2

Trong phiên bản này, bộ tách từ tiếng Việt được sử dụng để tách ra các từ. Kết quả thử nghiệm với phiên bản này được cho trong bảng dưới.

Đơn vị: %

Phương pháp 1 Phương pháp 2 Phương pháp 3

Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ chính xác Hàm điều hoà Độ bao phủ Độ chính xác Hàm điều hoà 10% 55 43 48,27 65 55 59,58 34 29 31,3 20% 45 43 43,98 51 49 49,98 43 40 41,45 30% 41 40 40,49 45 44 44,49 45 44 44,49 Trung bình 47 42 44,25 53,67 49,33 51,35 40,67 37,67 39,08

Bảng 6 Kết quả thử nghiệm với phiên bản 2

Độ chính xác trung bình mà phiên bản này đạt được là 47,22% và độ bao phủ trung bình là 43,22%, hàm điều hoà là 44,89%. Dễ nhận thấy là với việc sử dụng bộ tách từ, độ chính xác đã tăng lên đáng kể.

d) Phiên bản 3

Phiên bản này sử dụng đồng thời cả bộ tách từ tiếng Việt và các từ điển từ dừng, từ đồng nghĩa. Kết quả trung bình của phiên bản này như dưới đây.

Đơn vị: %

Phương pháp 1 Phương pháp 2 Phương pháp 3

Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ chính xác Hàm điều hoà Độ bao phủ Độ chính xác Hàm điều hoà 10% 53 43 47,48 65 56 60,17 36 31 33,31 20% 44 41 42,45 52 49 50,46 42 39 40,44 30% 42 41 41,49 47 46 46,49 44 43 43,49 Trung bình 46,33 41,67 43,88 54,67 50,33 52,41 40,67 37,67 39,11

Bảng 7 Kết quả thử nghiệm với phiên bản 3

Độ chính xác trung bình mà phiên bản này đạt được là 47,22% và độ bao phủ trung bình là 43,22%, độ đo F là 45,09%. Hàm điều hoà trung bình tương đương với phiên bản 1. Tuy nhiên, phương pháp 2 lại tỏ ra có hiệu quả cao với độ chính xác trung bình là 54,67% và đạt cao nhất là 65%, giá trị hàm điều hoà đạt cao nhất là 52,41%. Như vậy, phiên bản này tỏ ra có hiệu quả ưu thế hơn các phiên bản trước.

Dưới đây là kết quả tổng hợp so sánh các phiên bản với nhau và với phần mềm Microsoft Office Word 2003.

Đơn vị: %

MS Word Phiên bản 1 Phiên bản 2 Phiên bản 3

Tỉ lệ Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà Độ chính xác Độ bao phủ Hàm điều hoà 10% 34 28 30,71 43 38 40,35 51,33 42,33 46,4 51,33 43,33 46,99 20% 36 30 32,73 44,67 42,33 43,47 46 43,33 44,63 46 43 44,45 30% 44 41 42,45 42,33 41,67 42 44,33 43 43,65 44,33 43,33 43,82

Bảng 8 So sánh kết quả các phiên bản và MS Word

Đồ thị dưới đây minh hoạ kết quả tóm tắt (thể hiện bằng giá trị hàm điều hoà) trên cả 3 phiên bản.

30 32 34 36 38 40 42 44 46 48

MS Word Phiên bản 1 Phiên bản 2 Phiên bản 3

T ỉ lệ p h ầ n t ră m 10% 20% 30%

Hình 7 So sánh kết quả tóm tắt của các phiên bản và MS Word

Như vậy, phiên bản 3 với phương pháp chọn câu duyệt theo chiều sâu (phương pháp 2) cho kết quả tóm tắt tốt nhất với giá trị ngưỡng được chọn là 0,2.

Ngoài ra, chúng tôi thực hiện so sánh mức độ giống nhau giữa các bản tóm tắt được thực hiện bởi con người, chúng tôi so sánh các văn bản được tóm tắt bởi người thứ nhất với các văn bản tóm tắt bởi người thứ hai theo phương pháp so sánh ở trên, kết quả trong bảng dưới đây:

Đơn vị: %

Tỉ lệ nén Độ chính xác Độ bao phủ Hàm điều hoà

10% 75 77 75,99

20% 83 83 83

30% 81 81 81

Trung bình 79,67 80,33 80

Bảng 9 So sánh các văn bản tóm tắt được thực hiện bởi 2 người

Theo bảng kết quả này, trung bình các văn bản của hai người tóm tắt có mức độ giống nhau 80% (theo hàm điều hoà).

Trong chương này chúng tôi đã trình bày kết quả thử nghiệm của các phiên bản, đồng thời so sánh với chức năng AutoSummarize của Microsoft Office Word. Kết quả cho thấy, việc sử dụng bộ tách từ đã cho kết quả thấy rõ và việc sử dụng thêm từ điển đồng nghĩa cũng góp phần cải thiện độ chính xác của phương pháp tóm tắt. Đồng thời, qua kết quả này chúng tôi cũng nhận thấy, phương pháp 2 (phương pháp duyệt đồ thị theo chiều sâu) cho kết quả tốt nhất với giá trị hàm điều hoà đạt 52,41%. Tuy nhiên, kết quả tóm tắt còn phụ thuộc vào dạng của văn bản

tóm tắt, phương pháp này có thể là tốt với dạng văn bản này nhưng cũng có thể không tốt với dạng văn bản khác. Bảng phụ lục bên dưới cho thấy kết quả tóm tắt với từng văn bản trong tập văn bản thử nghiệm: Có văn bản được tóm tắt với độ đo F rất cao (76,63%) nhưng có văn bản thì độ đo F chỉ đạt xấp xỉ 22%. Do vậy cũng cần có những nghiên cứu tiếp theo để cải tiến và đưa ra được phương pháp cho kết quả tốt hơn với nhiều dạng văn bản.

KẾT LUẬN

Tóm tắt văn bản là một lĩnh vực khó của xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt có thể ứng dụng vào nhiều lĩnh vực: từ hỗ trợ việc đọc và khai thác thông tin cho đến hỗ trợ các hệ thống tìm kiếm. Có nhiều hướng tiếp cận để tóm tắt văn bản: từ các phương pháp thống kê, học máy đến ứng dụng các kĩ thuật xử lý ngôn ngữ phức tạp. Tóm tắt văn bản có thể có nhiều dạng, tuỳ theo từng tiêu chí phân loại và mục đích, yêu cầu của người sử dụng.

Luận văn đã trình bày những vấn đề tổng quan về tóm tắt văn bản, giới thiệu các hướng tiếp cận chính với các phương pháp tóm tắt văn bản tiêu biểu đã và đang được sử dụng trong các hệ thống tóm tắt văn bản tiếng Anh và đều đã thu được những kết quả rất khả quan. Chúng tôi đã trình bày về việc áp dụng, cải tiến phương pháp sử dụng cấu trúc văn bản để tóm tắt văn bản. Trong phương pháp này, chúng tôi đã sử dụng một số kĩ thuật để xử lý áp dụng cho tiếng Việt (bộ tách từ, từ điển từ dừng, từ điển đồng nghĩa…). Chúng tôi đã tiến hành cài đặt thử nghiệm và đánh giá các bản tóm tắt của hệ thống với các bản tóm tắt do con người thực hiện. Kết quả thử nghiệm cho thấy, hệ thống có khả năng nhận diện ra những câu quan trọng, tuy nhiên, tính mạch lạc và độ chính xác còn chưa cao.

Do hạn chế về mặt thời gian, kĩ thuật và đặc biệt chưa có dữ liệu về tiếng Việt đầy đủ: như từ điển từ đồng nghĩa, trái nghĩa, từ dừng… nên cần có nhiều thời gian và công sức để xây dựng và cải tiến phương pháp tóm tắt văn bản tiếng Việt để có được hệ thống tóm tắt văn bản hiệu quả. Phương pháp chúng tôi sử dụng thực nghiệm trong đề tài này mới chỉ thuộc dạng trích chọn các câu trong văn bản. Tương lai, chúng tôi sẽ tiếp tục nghiên cứu để cải tiến phương pháp này và các phương pháp khác để có thể xây dựng được chương trình tóm tắt với khả năng sinh tự động văn bản tóm tắt theo một số hướng:

- Thử nghiệm với nhiều dạng văn bản khác nhau: bài báo khoa học, báo điện tử… để có thể đưa ra được các tham số cho phù hợp (như ngưỡng khi đánh giá độ tương tự, độ dài của phân đoạn văn bản…) kết hợp với phương pháp tìm các cụm từ dấu hiệu để xác định những câu quan trọng.

- Sử dụng phương pháp phân tích cú pháp, biến đổi từ và một số kĩ thuật xử lý khác để tăng tính mạch lạc cho văn bản tóm tắt.

- Nghiên cứu các phương pháp sinh tóm tắt văn bản (tóm tắt dạng abstract) để xây dựng chương trình tóm tắt với khả năng “viết” ra bản tóm tắt chứ không đơn thuần là trích chọn các câu trong văn bản.

Vì thời gian và trình độ còn hạn chế nên chắc chắn đề tài không thể tránh khỏi những thiếu sót, rất mong nhận được ý kiến đóng góp của các thầy cô và các bạn để đề tài được hoàn thiện hơn.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Diệp Quang Ban (2008), Ngữ pháp tiếng Việt - tập 1, 2, NXB Giáo dục, Hà Nội.

[2] Nguyễn Việt Cường (2007), “Xây dựng mục lục cho văn bản”, Luận văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội, Hà Nội.

[3] Trần Trọng Dương, Nguyễn Quốc Khánh, Bùi Hồng Quế, Nguyễn Đình Phúc, Nguyễn Minh Châu (2008), Từ điển đồng nghĩa và trái nghĩa tiếng Việt dành cho học sinh, Nhà xuất bản từ điển bách khoa, Hà Nội, tr. 9-323.

[4] Vũ Xuân Lương (2002), “Tiếng Việt giàu nhưng có còn đẹp trên mạng thông tin toàn cầu”, Tạp chí ngôn ngữ & đời sống, Hà Nội.

[5] Đỗ Phúc, Hoàng Kiếm (2006), “Rút ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung”, Tạp chí công nghệ thông tin và truyền thông, Hà Nội.

[6] Nguyễn Trọng Phúc, Lê Thanh Hương (2008), “Tóm tắt văn bản sử dụng cấu trúc diễn ngôn”, Đại học Bách Khoa Hà Nội, Hà Nội.

[7] Nguyễn Hồng Thái (2008), “Tóm tắt văn bản tiếng Việt theo chủ đề”, Đồ án tốt nghiệp cao học, Đại học Bách khoa Hà Nội.

[8] Vương Toàn (2007), “Thử đề xuất quy trình tự động tóm tắt văn bản khoa học”, Bản tin thư viện – Công nghệ thông tin, tr.14-17.

[9] Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội.

[10] Website xulyngonngu.com

Tiếng Anh

[11] Dipanjan Das, Andre F.T. Martins (2007), “A Survey on Automatic Text Summarization”, Language Technologies Institute, Carnegie Mellon Univerisity.

[12] Dang Duc Pham, Giang Chan Binh, Son Bao Pham (2009), “ ”,

International Conference on Knowledge and Systems Engineering, pp.154-161. [13]Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), “Vietnamese Word Segmentation”, National University of HCM City

[14] Edmundson (1969), “New methods in automatic extracting”, Journal of the ACM, 16(2), pp.264-285.

[15] Jezek, K. and Steinberger, J. (2008) "Automatic Text Summarization (The state of the art 2007 and new challenges)", Znalosti, FIIT STU Bratislava, Slovakia, pp.1-12.

[16] Partha Lal (2002), Text Summarization, Doctor thesis, University of Sheffield.

[17] H.P. Luhn (1958), “The Automatic Creation of Literature Abstracts”,

IBM Journal of Research and Development, volume 2, pp. 159-165.

[18] Inderjeet Mani (2001), “Summarization Evaluation: An Overview”, In:

Proceedings of the North American chapter of the Association for Computational Linguistics (NAACL), Workshop on Automatic Summarization, USA.

[19] Inderjeet Mani and Mark T. Maybury, (1999), Advances in Automatic Text Summarization, The MIT Press Cambridge, Massachusetts London, England, pp. ix-x.

[20] Zdravko Markov and Daniel T.Larose (2007), Data mining the web – Uncovering patterns in Web content, structure, and usage, John Wiley & Sons Inc. Publication, New Jersey, USA.

[21] Joel Larocca Neto, Alex A. Freitas, Celso A.A. Kaestner (2002), “Automatic Text Summarization using a Machine Learning Approach”, Springer Verlag Berlin Heidelberg , pp. 205-215

[22] Dragomir R. Radev, Kathleen McKeown (2002), “Introduction to the Special Issue on Summarization”, Computational Linguistics, Volume 28 (4), pp. 399-408.

[23] Gerard Salton, Chris Buckley and Jame Allan (1992), “Automatic structuring of text files”, Electronic Publishing, Vol. 5(1), pp. 1-17.

[24] Gerard Salton, Am1t Singha, Mandar Mitra And Chris Buckley (1997), “Automatic Text Structuring and Summarization”, Advances in Automatic Text Summarization, The MIT Press Cambridge, Massachusetts London, England, pp. 341-355.

[25] Chih-Hao Tsai (2000), “A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”, Web publication at http://technology.chtsai.org/mmseg/

PHỤ LỤC

Văn bản Text(1) đã được tách thành các câu:

[1]Du lịch Việt Nam suy thoái theo kinh tế thế giới

[2]Tuần trước một đoàn khách Australia đã hủy hợp đồng với Trung tâm Du lịch Vietsky Travel vì tỷ giá ngoại tệ thay đổi làm giá tour tăng cao

[3] Lượng khách quốc tế của nhiều công ty giảm tới 50%

[4]Theo ông Đào Hồng Thương - Phó giám đốc Trung tâm Vietsky Travel suy thoái kinh tế thế giới khiến du khách giảm chi tiêu cộng với tỷ giá ngoại tệ trong nước thay đổi liên tục khiến giá tour tăng gây khó khăn cho nhiều đoàn khách châu Âu

[5] Một đoàn khách Czech khác cũng cho biết sẽ hủy hợp đồng vì không muốn mua vé máy bay giá cao không chấp nhận giá tour tăng

[6]Ông Phùng Quang Thắng - Giám đốc Công ty Du lịch Hanoitourist cũng cho hay khách nước ngoài vào du lịch tại VN qua đơn vị này đã giảm tới 50% so với năm trước đặc biệt là Thái Lan

[7] Mỗi năm công ty đón khoảng 7.000 du khách Thái thì nay chỉ được một nửa

[8]Nhiều đơn vị lữ hành tên tuổi khác cũng đều bị sút giảm khách quốc tế như Vietran tour giảm 30% Vietravel giảm 10%

[9] Theo đại diện của Vietran tour khách du lịch Malaysia, Trung Quốc mọi năm vào Việt Nam khá ồ ạt song nay thì cầm chừng

[10]Theo nhận định của một số đơn vị lữ hành ngoài nguyên nhân suy thoái kinh tế thế giới giá dịch vụ trong nước tăng cao cũng khiến khách quốc tế sút giảm

[11] Năm nay giá tour tăng 20% cao nhất trong nhiều năm

[12] Nguyên nhân là giá dịch vụ đầu vào tăng như hàng không khách sạn ăn uống

[13]Theo ông Đào Hồng Thương thông thường các hợp đồng đón khách đã được ký từ năm trước nên doanh nghiệp du lịch khá điêu đứng khi giá dịch vụ trong nước tăng ào ạt

[14] Một đoàn khách Pháp mới hủy hợp đồng vì đơn vị báo lại giá tour tăng thêm 100 USD một khách

[16] Có nơi thông cảm chấp nhận ký lại hợp đồng song họ đều không thoải mái một số khác thì không chấp nhận nên rất khó cộng tác tiếp với họ - ông Thương phàn nàn

[17]Hiện giá tour trong nước vẫn chưa có dấu hiệu giảm nên các hợp đồng ký cho năm tới khá nhỏ giọt

[18] Tuy nhiên ông Phùng Quang Thắng - Giám đốc Hanoitourist tin tưởng năm sau giá tour có thể giảm do giá xăng dầu giảm giá vé máy bay cũng sẽ xuống thấp hơn

[19]Ảnh hưởng của suy thoái kinh tế cũng khiến nhiều đoàn khách quốc tế cắt giảm chi tiêu ở Việt Nam

[20] Nhiều khách sạn 5 sao trở nên vắng vẻ hơn thay vào đó khách sạn 3 sao lại lên ngôi

[21] Theo chị Đào Việt Nga đại diện khách sạn Melia thời điểm này các năm trước công suất phòng tại khách sạn Melia thường đạt tới 90% song nay chỉ gần 80%

[22] Một số khách hàng truyền thống cho biết họ chuyển sang đặt phòng khách sạn ít sao hơn để giảm chi phí

[23]Suy thoái kinh tế thế giới khiến khách quốc tế cắt giảm chi tiêu tình hình khó khăn có thể kéo dài hết năm 2009, chị Nga nhận định

[24]Theo nghiên cứu của Công ty TNHH CB Richard Ellis Việt Nam các khách sạn 5 sao trong quý 3 có hiệu suất sử dụng chỉ đạt 59% giảm 19% so với thời gian cùng kỳ năm ngoái và giá thuê trung bình 148,5 USD một đêm

[25] Nhiều khách sạn cao cấp đã phải giảm giá để thích ứng với điều kiện của

Một phần của tài liệu LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc (Trang 46 - 59)

Tải bản đầy đủ (PDF)

(59 trang)