Tập kiểm thử

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 82 - 83)

f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency)

5.2.Tập kiểm thử

Việc kiểm thử hệ thống được tách thành việc kiểm thử các module thành phần, bao gồm các module sau : tách term tiếng việt, tách named entity, chọn câu quan trọng và sát với ý chính văn bản, rút gọn câu. Trong đó module chọn câu quan trọng (Kết quả của pha Phân tích) là quan trọng nhất vì nó quyết định độ chính xác của toàn ứng dụng.

Ứng dụng được kiểm thử dựa trên tập dữ liệu là các tin thuộc nhiều thể loại của báo điện tử VnExpress (http://www.vnexpress.net/).

Thông số của tập kiểm thử :

500 văn bản thuộc 8 thể loại :

Du lịch : 86 văn bản, kích thước trung bình 4 KB.

Giáo dục : 65 văn bản, kích thước trung bình 4 KB.

Kinh doanh : 65 văn bản, kích thước trung bình 4 KB.

Pháp luật : 70 văn bản, kích thước trung bình 3,5 KB.

Sức khoẻ : 76 văn bản, kích thước trung bình 5 KB.

Thể thao : 40 văn bản, kích thước trung bình 7.5 KB.

Vi tính : 50 văn bản, kích thước trung bình 4.3 KB.

Thông số danh sách thuật ngữ

Số thuật ngữ có trong danh sách : 70350 từ Độ dài của thuật ngữ dài nhất : 39 ký tự

Thông số danh sách từ dừng

Số từ dừng có trong danh sách : 1053 từ. Độ dài của từ dừng dài nhất : 24 kí tự.

Với tập kiểm thử như trên, em đã lấy ngẫu nhiên một số lượng văn bản nào đó phục vụ cho các lần kiểm thử khác nhau. Kết quả kiểm thử được trình bày trong phần sau. Các lý thuyết đánh giá kiểm thử một ứng dụng Tóm tắt đã được em nêu ở chương 3, phần Đánh giá tóm tắt.

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 82 - 83)