.7 Mơ hình đánh giá câu

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 75 - 76)

4.1.8. Hiển thị kết quả xử lý

Chương trình hiển thị tất cả các câu đã được xử lý từ giai đoạn phân lớp đến

giai đoạn đánh giá, module hiển thị có ba tùy chọn hiển thị : - Hiển thị theo ngưỡng điểm ISS

- Hiển thị theo ngưỡng điểm Tf * Idf

- Hiển thị theo tỷ lệ phần trăm ( Số câu kết quả / Số câu toàn văn bản) Và chức năng xem các phần quan trọng được rút trích từ giai đoạn rút trích cơ sở, chức năng này chỉ khả dụng khi hiển thị bài báo khoa học. Các thành phần quan trọng được quy định sẽ là chủ đề (hay tên tài liệu), phần tóm tắt, phần kết luận và cấu

trúc tài liệu (mục lục tài liệu).

4.2. Thực nghiệm chương trình

Chương trình được xây dựng trên nền tảng ngơn ngữ VB.Net, lưu trữ dữ liệu bằng hệ quản trị cơ sở dữ liệu SQL. Một số thành phần dữ liệu :

- Số lượng tài liệu huấn luyện là 203 tài liệu.

- Kho ngữ liệu các cụm từ nhấn mạnh với hơn 130 cụm từ.

- Kho ngữ liệu từ ghép huấn luyện được hơn 5000 từ ghép 2 tiếng xuất hiện trong 203 tài liệu khoa học.

Tính điểm cho câu Tính điểm cho từ Tách từ Tập câu không chứa ngữ Xét ngưỡng Kho ngữ liệu Từ điển tiếng Việt Kết thúc

- Từ điển tiếng Việt dùng trong đề tài được tham khảo từ từ điển của chương trình VnToolKit với 40800 từ.

Để có một cái nhìn rõ hơn về chương trình đề tài trình bày các giao diện của

chương trình trong việc thực nghiệm xử lý một bài báo khoa học có chủ đề “Nghiên cứu phát triển công cụ nhập điểm thông qua nhận dạng giọng nói”. Các bước trong q trình xử lý sẽ được trình bày lần lượt từ trên xuống thông qua các giao diện sau.

4.2.1. Giao diện tiền xử lý, tách từ và huấn luyện văn bản

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 75 - 76)

Tải bản đầy đủ (PDF)

(99 trang)