Kiểm thử đánh giá rút gọn câu

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 87 - 92)

f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency)

5.3.4.Kiểm thử đánh giá rút gọn câu

Đối với VTAS, các phương pháp rút gọn câu không làm ảnh hưởng tới độ chính xác của toàn bộ ứng dụng, do vậy mười câu bất kỳ lấy ra từ tập kiểm thử được rút gọn và tính toán độ nén theo độ dài câu.

Kết quả như sau

STT Câu Số kí tự

1 Giám đốc của WHO tại khu vực Tây Thái Binh Dương, ông Shigeru Omi, đang kêu gọi các nước xem xét lại tiêu chuẩn an toàn sinh học sau đợt phát dịch SARS mới đây tại Trung Quốc

174

Giám đốc của WHO tại khu vực Tây Thái Binh Dương kêu gọi các nước xem xét lại tiêu

chuẩn an toàn sinh học sau đợt phát dịch SARS mới đây tại Trung Quốc 151

2 Hấp dẫn bởi ánh sáng, mực tập trung dưới ánh đèn măng-sông 58 Mực tập trung dưới ánh đèn măng-sông 36

3 Hai phần mềm dự thi (Quản lý học sinh học nghề của Thận và Quản lý thư viện của Dương) đã đưa về hai giải khuyến khích cá nhân 126 Hai phần mềm dự thi đã đưa về hai giải khuyến khích cá nhân 59

4 Với mục đích nâng cao tinh thần trách nhiệm của giáo viên đối với học sinh, Bộ khuyến khích các thày cô giáo tự ra đề cho học sinh lớp mình dạy để có sự đánh giá chính xác nhất

176

Bộ khuyến khích các thày cô giáo tự ra đề cho học sinh lớp mình để có sự đánh giá

5

Tại quyết định ra ngày 5/7, Đoàn Luật sư kết luận đơn tố cáo của bị can Nguyễn Minh Phong về hành vi chạy án của ông Chiến (được thuê bảo vệ quyền lợi cho Phong trong

vụ án đánh bạc) không có căn cứ vững chắc 208 Đoàn Luật sư kết luận đơn tố cáo của bị can Nguyễn Minh Phong về hành vi chạy án của

ông Chiến không có căn cứ vững chắc 120

6 Cảnh sát hình sự Công an thành phố Đà Lạt vừa bắt quả tang Ngô Việt Trung (nguyên thủ môn đội bóng đá Lâm Đồng) đang ghi độ bóng đá cho hai người chơi tại nhà 158 Cảnh sát hình sự Công an thành phố Đà Lạt vừa bắt quả tang Ngô Việt Trung đang ghi

độ bóng đá cho hai người chơi tại nhà 120

7 Trưởng khoa Khám bệnh, bác sĩ Nguyễn Thanh Giảng, cho biết ca mổ này rất phức tạp vì bệnh nhân mới mười hai tuổi, nặng 19 kg do chậm phát triển 143 Trưởng khoa Khám bệnh cho biết ca mổ này rất phức tạp vì bệnh nhân mới mười hai

tuổi, nặng 19 kg do chậm phát triển 115

8 Ngoài ra, nguồn cho thận cũng rất khó khăn (thường người nhà bệnh nhân sẽ có độ tương thích lớn hơn) 100 Ngoài ra, nguồn cho thận cũng rất khó khăn 42

9 Eric Benhamou, Chủ tịch kiêm Giám đốc điều hành Palm, nhận định sự hợp nhất này góp phần thúc đẩy thị trường máy tính cầm tay tăng trưởng 137 Eric Benhamou nhận định sự hợp nhất này góp phần thúc đẩy thị trường máy tính cầm

tay tăng trưởng 97

10 Nằm giữa một bên là Thái Bình Dương và một bên là hồ Kitaura rộng lớn, Kashima có khí hậu ôn hòa và phong cảnh thiên nhiên tuyệt đẹp 132 Kashima có khí hậu ôn hòa và phong cảnh thiên nhiên tuyệt đẹp 61

Như vậy độ rút gọn câu trung bình là:

% 3 . 62 % 100 ) ( ) ( 1 ⋅ ≈ = ∑ = n S len T len SC n i i i

Trong đó :

len(Ti ) là chiều dài câu rút gọn thứ i

len(Si ) là chiều dài câu được rút gọn thứ i, i=1,10

Đánh giá :

Các phương pháp rút gọn câu ở trên có độ rút gọn khá nhỏ, độ chính xác hầu như không ảnh hưởng. Văn bản sau pha này giảm kích thước khoảng 40%, góp phần vào việc sinh một văn bản ngắn gọn nhưng vẫn hàm chứa những ý chính của câu quan trọng đã được chọn qua pha Phân tích. (adsbygoogle = window.adsbygoogle || []).push({});

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Các bài toán xử lý văn bản tiếng Việt luôn là các bài toán khó nhưng hay và hữu ích, đang được quan tâm và nghiên cứu nhiều ở nước ta hiện nay. Trong đồ án này, em đã trình bày về những vấn đề cơ bản, những khó khăn thách thức, triển vọng phát triển cũng như phạm vi ứng dụng rộng rãi của bài toán Tóm tắt văn bản tiếng Việt. Đây là một trong số ít những bài toán có sự kết hợp của hai lĩnh vực Khai phá văn bản và Xử lý ngôn ngữ tự nhiên.

Các kết quả đạt được của đồ án :

- Hiểu được những vấn đề tổng quan của Khai phá Văn bản và Xử lý ngôn ngữ tự nhiên, từ đó làm tiền đề cho những nghiên cứu định hướng về bài toán Tóm tắt văn bản.

- Nắm bắt và phân biệt được rõ những khái niệm, yêu cầu và mục đích chung của một bài toán tóm tắt văn bản. Tìm hiểu các phương pháp cũng như các hướng giải quyết của các nhà nghiên cứu đi trước về vấn đề này

- Tìm hiểu những đặc trưng ngôn ngữ cơ bản của tiếng Việt, từ đó đề xuất những phương pháp riêng, phù hợp hơn đối với một ứng dụng Tóm lược văn bản tiếng Việt, xây dựng mô hình và cài đặt thành công ứng dụng.

Hướng phát triển sắp tới của đề tài :

- Cải tiến và phát triển các phương pháp tóm tắt theo hướng Xử lý ngôn ngữ tự nhiên nhằm tăng tính chính xác cũng như sự thân thiện của kết quả trả về.

- Tích hợp ứng dụng với các ứng dụng khác để tạo ra các hệ thống thật sự hữu ích cho người dùng Việt Nam.

- Tham gia vào quá trình xây dựng các tài nguyên ngôn ngữ phục vụ cho ngành công nghệ thông tin và truyền thông cũng như các ngành khác liên quan.

Trong suốt quá trình làm đồ án, em đã được sự giúp đỡ, hỗ trợ và đông viên rất lớn từ các thầy cô và bạn bè. Tuy nhiên do những hạn chế về mặt kinh nghiệm và thời gian, đồ án chắc chắn còn tồn tại khiếm khuyết. Qua đây em cũng mong muốn nhận được những góp ý nhằm phát triển tốt hơn đề tài này trong tương lai.

Một lần nữa em xin gửi lời cám ơn chân thành và sâu sắc tới TS. Huỳnh Quyết Thắng. Thầy là người định hướng cho em, cũng là người tận tình hướng dẫn, chỉ bảo, động viên em giúp em hoàn thành tốt đồ án. Em cũng xin gửi lời cảm ơn tới các thầy cô trong Bộ môn và trong Khoa, tới gia đình và bạn bè, những người đã tạo điều kiện và giúp đỡ em rất nhiều trong quá trình học tập tại trường cũng như việc hoàn thành tốt nghiệp.

TÀI LIỆU THAM KHẢO

[1]. Chu Hồng Trang, Bài toán phân nhóm văn bản áp dụng cho Tiếng Việt, Đồ án tốt nghiệp ĐHBKHN, 5/2004.

[2]. Hoàng Minh Sơn, Xây dựng hệ thống tìm kiếm thông tin hỗ trợ tiếng Việt, Đồ án tốt nghiệp ĐHBKHN, 2004.

[3]. Lê Thị Tú Kiên, Nghiên cứu về xử lý tự động văn bản tiếng Việt, Luận văn thạc sỹ ĐHBKHN, 2003.

[4]. Huỳnh Quyết Thắng, Hoàng Minh Sơn, Thử nghiệm các giải thuật tách từ tiếng Việt và xây dựng cấu trúc dữ liệu trong bài toán tìm kiếm văn bản tiếng Việt, Tài liệu khoa học - ĐHBKHN.

[5]. Nguyễn Hoàng Anh, Hà Thành Lê, Hoàng Vĩnh Sơn, Phân lớp văn bản, Báo cáo đồ án thực tập chuyên ngành ĐHBKHN, 2004.

[6]. Phạm Thị Anh Lê, Tìm kiếm thông tin dựa vào mô hình thống kê các giải thuật và kiến trúc phần mềm, Luận văn thạc sỹ ĐHBKHN, 2002.

[7]. Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội, 1998.

[8]. Trung tâm Khoa học xã hội và Nhân văn Quốc gia, Ngữ pháp tiếng Việt, NXB Khoa học xã hội, 2000.

[9]. Eduard Hovy & Daniel Marcu, Automated Text Summarization Tutorial, COLING/ACL ’98.

[10]. Mani & Maybury, Automatic Summarization, ACL 2001.

[11].Partha Lal, Text Summarization, Doctor thesis, 07/2002.

[12]. Udo Hahn, Automated Text Summarization- Methods, Systems, Evaluatio..

[13]. Inderjeet MANI, Summarization Evaluation: An Overview.

[14]. Đinh Thị Phương Thu, Bài toán phân lớp văn bản tiếng Việt, Luận văn Thạc sĩ khoa CNTT,11/2004

[15]. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt - Kỉ yếu hội thảo khoa học quốc gia lần thứ nhất về nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông (ICT.rda 2003), Nhà xuất bản Khoa học và kĩ thuật, Hà nội, 2003.

[16]. Lê Thanh Hương: Phân tích cú pháp tiếng Việt, Luận văn tốt nghiệp cao học , 1999.

[17]. Luhn, H. P, The automatic creation of literature abstracts, IBM journal of Research and Development, 1958. (adsbygoogle = window.adsbygoogle || []).push({});

[18]. R. Radev Et All, Evaluation challenges in large-scale document summarization, ACL ’03.

[19]. Regina Barzilay, Lexical Chains for Summarization, M.Sc Thesis, 11/97. [20]. Jing, H., Sentence reduction for automatic text summarization, Proc. of the 6th Conference on Applied Natural Language Processing, 2000.

[21]. Knight, K. and Marcu, D., Statistics-Based Summarization. Step One: Sentence Compression, Proc. of AAAI2000, 2000.

[22]. Hồ Tú Bảo, Knowledge Discovery and Data Mining, Viện CNTT - Viện khoa học và công nghệ tiên tiến Nhật Bản JAIST, Bài giảng tại đại học Bách Khoa Hà Nội, 12/2003.

[23]. Đinh Điền, Ứng dụng Ngữ liệu song ngữ Anh - Việt điện tử trong ngành ngôn ngữ học so sánh, tạp chí Ngôn ngữ, Viện ngôn ngữ học, 2002.

[24]. Đinh Điền, Xây dựng và khai thác Kho ngữ liệu song ngữ Anh - Việt điện tử, Luận án tiến sĩ ngữ văn, 2004

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 87 - 92)