Các phương pháp trong pha Hiển thị

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 76 - 77)

f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency)

4.3.3.Các phương pháp trong pha Hiển thị

Pha hiển thị của VTAS được cài đặt đơn giản : Sắp xếp lại các câu đã được chọn và được rút gọn theo thứ tự ban đầu trong văn bản đưa vào. Sau đó các câu này được đưa qua một module hợp giải tham chiếu đơn giản và hiển thị kết quả cuối cùng

Việc sắp xếp câu theo thứ tự ban đầu là việc đơn giản bởi các câu của văn bản đầu vào sau khi được VTAS mô hình hóa đã trở thành các đối tượng clsSentence tương ứng, trong đó có các thuộc tính như thứ tự câu trong đoạn (tương đối) và thứ tự câu trên toàn văn bản (tuyệt đối). Chính nhờ thuộc tính thứ tự câu tuyệt đối này, chúng ta có thể sắp xếp và nối chúng lại với nhau theo thứ tự ban đầu.

Minh rất thông minh. Cậu ấy thường đạt kết quả cao trong học tập. Ngoài ra cậu ấy còn có khả năng văn nghệ nữa

Module hợp giải tham chiếu của VTAS thực hiện hai công việc : loại bỏ tham chiếu tự do và loại bỏ tham chiếu thường.

Loại bỏ tham chiếu tự do được thực hiện đơn giản như sau : Các ngữ đầu tiên của câu được tách ra (dựa vào dấu phảy), nếu các ngữ này không là ngữ danh từ, ngữ động từ, ngữ tính từ hoặc không là một mệnh đề, đồng thời chứa các term có trong một danh sách các tham chiếu tự do như “đó”, “như vậy”, “như trên” …thì sẽ bị loại bỏ.

Loại bỏ tham chiếu thường là một phần quan trọng, cải thiện tính dễ đọc, dễ hiểu và tính tự nhiên của kết quả trả về. Thuật toán loại bỏ tham chiếu thường dựa trên việc phát hiện các NamedEntity và các tham chiếu ngay từ pha Phân tích. Ở pha phân tích, các chuỗi đồng tham chiếu sẽ được xây dựng với đầu mỗi chuỗi là một named entity, các phần tử đi sau là các đại từ trong câu, cuối cùng là đại từ trước một named entity khác. Các câu chứa các đồng tham chiếu này được thay các đại từ bởi named entity đầu chuỗi đồng tham chiếu. Các named entity ứng viên chọn làm đầu chuỗi đồng tham chiếu là các named entity ở đầu câu trong trường hợp có nhiều named entity trong cùng một câu.

4.4. Kết chương

Trong chương này em đã đề cập đến những giải thuật cài đặt phần lý thuyết được nói đến trong các chương đầu tiên. Trong số đó có một số giải thuật đơn giản nhưng cũng có nhiều giải thuật khó, đòi hỏi phải cải tiến thì mới đáp ứng được yêu cầu về tính chính xác, về thời gian thực thi và về hiệu quả ứng dụng. Chương kế tiếp em xin giới thiệu giao diện của chương trình và phần kết quả kiểm thử - phần không thể thiếu đối với bất kỳ ứng dụng nào cài đặt các phương pháp Khai phá văn bản và Xử lý ngôn ngữ tự nhiên.

Chương 5. KIỂM THỬ VÀ ĐÁNH GIÁ ỨNG DỤNG

Trong chương này em xin trình bày những phần sau :

 Kết quả thử nghiệm của VTAS

 Giao diện chính và giao diện kiểm thử của chương trình.

 Đánh giá truyền thống dựa trên độ chính xác và độ hồi tưởng

 Đánh giá dựa theo độ phù hợp về nội dung

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 76 - 77)