Phương pháp NamedEntit y NE

- Các named entity là các tên riêng như địa danh, tên người, tên tổ chức..., các chữ viết tắt, các ký hiệu... Các named entity là các “chứng cứ” rất quan trọng cho việc chọn ra các câu tóm tắt, có thể nói các named entity có độ quan trọng cao hơn các term xét trong một vị trí cụ thể như Title, Heading hay các câu bình thường trong văn bản.

- Việc xác định named entity trong văn bản dựa trên việc phân chia các named entity ra làm hai loại và áp dụng các thuật toán khác nhau cho hai loại này :

Thứ nhất là các named entity gồm hai tiếng (bigram) trở lên. Các named entity này thường là các tên riêng tiếng Việt như Mỹ Linh, Hồng Sơn (tên người), Hà Nội, Hoàn Kiếm (tên địa danh)... Việc xác định các NamedEntity này gần giống như thuật toán tách thuật ngữ với đối tượng xét là các chuỗi có các tiếng viết hoa liền nhau. Vấn đề chính là ở việc xác định chuỗi có các tiếng viết hoa liền nhau và phân biệt một named entity ở đầu câu với các term đầu câu bình thường khác.

Thứ hai là các named entity gồm một tiếng (unigram). Các named entity này thường là các tên riêng nước ngoài, các thuật ngữ nước ngoài, các chữ viết tắt, các ký hiệu hóa học... Chú ý rằng các named entity hai tiếng tên riêng nước ngoài kiểu này được hiểu như hai named entity một tiếng. Điều này không ảnh hưởng tới tính chính xác của thuật toán. Ví dụ Bill Gate sẽ được hiểu là hai named entity là Bill và Gate. Việc xác định các named entity này như sau : Đầu tiên các chuỗi sẽ được tách từng tiếng viết hoa , sau đó kiểm tra xem tiếng này có trong từ điển tiếng Việt hay không, nếu không thì có thể coi đây là một named entity.

Việc xác định đồng thời hai loại named entity này có thể dẫn tới sự trùng lặp giữa hai danh sách. VTAS có một module nhỏ để loại bỏ sự dư thừa đó.

Thuật toán xác định named entity này rất đơn giản nhưng thông qua kiểm thử em nhận thấy kết quả thu được có độ chính xác cao.

- Bằng phương pháp trêm, Title và các Heading được xác định named entity và dùng các named entity này để đánh giá các câu khác và gán điểm NEPoint cho từng câu đó. Tương tự như trường hợp các term, các named entity của Title có độ quan trọng cao hơn của các Heading. Ngoài ra các named entity còn dùng cho module Hợp giải tham chiếu (Coreference Resolution) và các thuật toán sinh văn bản trong pha Hiển thị.

Đặc trưng về từ pháp và hình thái

Phân loại bài toán Tóm tắt văn bản