Tóm tắt chương 3

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 40 - 41)

Chương ba của khóa luận trình bày cơ sở lý thuyết để xây dựng mô hình giải quyết bài toán phát hiện quan hệ kế thừa trong văn bản tiếng Việt. Trong chương này, dựa trên phân tích các đặc trưng của miền dữ liệu tiếng Việt, cũng như khảo sát về mức độ hiệu quả trong việc áp dụng từ điển đồng nghĩa cho phát hiện kế thừa văn bản, khóa luận đã đề xuất một mô hình giải pháp ứng dụng cho bài toán phát hiện kế thừa văn bản trên miền dữ liệu Tiếng Việt, sử dụng giải thuật tính độ tương đồng từ vựng kết hợp với tri thức miền từ điển đồng nghĩa và tinh chỉnh ngưỡng. Kết quả thực nghiệm ở chương 4 cho thấy mô hình đã đề xuất là hoàn toàn khả thi.

29

Chương 4: Thực nghiệm

Do tiếng Việt có sự nhập nhằng về ngữ nghĩa, nhiều từ đồng âm, đồng nghĩa nên việc phát hiện quan hệ kế thừa trong văn bản tiếng Việt liên quan nhiều tới tri thức miền. Vì vậy em đề nghị mô hình giải quyết bài toán nhưở chương 3 và tiến hành thực nghiệm trên 1600 cặp câu văn bản – giả thuyết được dịch từ tập dữ liệu tiếng Anh trong hội nghị RTE3. Dựa trên kết quả thực nghiệm em tiến hành đánh giá hệ thống và đưa ra hướng giải quyết trong tương lai. Trong quá trình thực nghiệm, em sử dụng bộ công cụ mã nguồn mở tách câu tách từ dùng cho tiếng Việt vnTokenizer của Lê Hồng Phương. Qua khảo sát, em thấy vnTokenizer là bộ tách từ tách câu có độ chính xác cao và tốn ít thời gian chạy. Bên cạnh đó, em tiến hành thực nghiệm với 2 trường hợp liên quan tới việc sử dụng từđiển đồng nghĩa trước và sau tinh chỉnh ngưỡng.

4.1. Môi trường thực nghiệm 4.1.1. Cấu hình phần cứng

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 40 - 41)