Phân lớp câu

Từ tập các câu không rơi vào các thành phần quan trọng sẽ được đưa vào bộ

xử lý phân lớp câu. Bộ xử lý này dựa trên tập các cụm từ gợi ý nhấn mạnh sẽ phân lớp các câu thành hai tập câu. Một tập chứa các câu mà trong nó có tồn tại cụm từ gợi ý nhấn mạnh, tập còn lại không chứa ngữ nhấn mạnh đó. Tập các câu chứa ngữ nhấn mạnh sẽđược đưa vào tập câu kết quả.

Hình 4. 6Mô hình phân lớp câu

4.1.7. Đánh giá câu

Phần đánh giá câu dành cho các câu nằm trong tập không chứa ngữ nhấn mạnh. Ở giai đoạn này câu sẽđược đánh giá dựa trên hai công thức :

- Kết hợp của độđo cục bộ và độ đo toàn cục (Tf*Idf) - Tính điểm thông tin quan trọng (ISS)

- Tính điểm cho câu theo quan niệm thông thường và quan niệm của Makoto và R.C. Balabantara

Sau đó sẽ xét ngưỡng và đưa vào tập kết quả, ngưỡng này sẽ có gợi ý và người dùng có thể tùy chọn ngưỡng xét. Không Phân lớp câu Tập câu không chứa cụm từ nhấn mạnh Tập hợp câu đã lọc có Tập câu kết quả Tập các cụm từ nhấn mạnh

Trên

Dưới

Tập câu Kết quả

Hình 4. 7 Mô hình đánh giá câu

4.1.8. Hiển thị kết quả xử lý

Chương trình hiển thị tất cả các câu đã được xử lý từ giai đoạn phân lớp đến giai đoạn đánh giá, module hiển thị có ba tùy chọn hiển thị :

- Hiển thị theo ngưỡng điểm ISS - Hiển thị theo ngưỡng điểm Tf * Idf

- Hiển thị theo tỷ lệ phần trăm ( Số câu kết quả / Số câu toàn văn bản) Và chức năng xem các phần quan trọng được rút trích từ giai đoạn rút trích cơ

sở, chức năng này chỉ khả dụng khi hiển thị bài báo khoa học. Các thành phần quan trọng được quy định sẽ là chủ đề (hay tên tài liệu), phần tóm tắt, phần kết luận và cấu trúc tài liệu (mục lục tài liệu).

4.2. Thực nghiệm chương trình

Chương trình được xây dựng trên nền tảng ngôn ngữ VB.Net, lưu trữ dữ liệu bằng hệ quản trị cơ sở dữ liệu SQL. Một số thành phần dữ liệu :

- Số lượng tài liệu huấn luyện là 203 tài liệu.

- Kho ngữ liệu các cụm từ nhấn mạnh với hơn 130 cụm từ.

- Kho ngữ liệu từ ghép huấn luyện được hơn 5000 từ ghép 2 tiếng xuất hiện trong 203 tài liệu khoa học.

Tính điểm cho câu Tính điểm cho từ Tách từ Tập câu không chứa ngữ Xét ngưỡng Kho ngữ liệu Từđiển tiếng Việt Kết thúc

- Từđiển tiếng Việt dùng trong đề tài được tham khảo từ từđiển của chương trình VnToolKit với 40800 từ.

Để có một cái nhìn rõ hơn về chương trình đề tài trình bày các giao diện của chương trình trong việc thực nghiệm xử lý một bài báo khoa học có chủđề “Nghiên cứu phát triển công cụ nhập điểm thông qua nhận dạng giọng nói”. Các bước trong quá trình xử lý sẽđược trình bày lần lượt từ trên xuống thông qua các giao diện sau.

4.2.1. Giao diện tiền xử lý, tách từ và huấn luyện văn bản

Hình 4. 8 Giao diện tiền xử lý, tách từ và huấn luyện

Sau khi tiền xử lý văn bản, chương trình tiến hành tách từ tiếng Việt, kết quả số lượng từ tiếng Việt trong văn bản này là 143 từ có nghĩa, mỗi từ có tần suất xuất hiện trong văn bản khác nhau. Các tham số này là đầu vào cho việc tính toán sau

4.2.2. Giao diện tách câu

Hình 4. 9 Giao diện tách câu

Chương trình xử lý văn bản và tách thành 180 câu, hệ thống không tiến hành lọc câu để có thể xem xét việc xử lý đánh giá toàn bộ câu trong văn bản.

Dấu hiệu đặc trưng nhận dạng câu

Bài toán tách từ tiếng việt