Các phương pháp rút trích

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 39)

Như chúng ta đã đề cập ở mô hình rút trích ý chính trong chương 1 (Hình 1.2) , trong giai đoạn phân tích, văn bản đầu vào được phân tích để xác định các đơn vị ngữ

liệu quan trọng đồng thời tiếp nhận các thông số đầu vào của hệ thống tóm tắt. Các thông sốđầu vào được tiếp nhận ngay từđây để hệ thống thông qua chúng sẽ áp dụng các phương pháp phù hợp. Còn việc phân tích xác định các đơn vị ngữ liệu quan trọng là công việc của các phương pháp trong giai đoạn phân tích. Trong đó, văn bản cần tóm tắt sẽ được tách ra thành các đoạn, các câu, và những đoạn hay câu quan trọng nhất sẽđược chọn ra thông qua một số tiêu chí bài toán.

Các phương pháp áp dụng trong giai đoạn phân tích được chia thành hai loại : Phương pháp thống kê và Phương pháp mạng ngữ nghĩa.

- Phương pháp thống kê là các phương pháp sử dụng các số liệu thống kê về độ

quan trọng của các từ, ngữ, câu hay đoạn. Qua đây, hệ thống có thể sẽ giảm

được số lượng các đối tượng phải xem xét và trích rút chính xác các đơn vị ngữ

liệu cần lấy. Các thống kê có thể nhận được từ các nghiên cứu về ngôn ngữ học hay thông qua phương pháp học máy từ các tập mẫu có sẵn. Từ đó, các thống kê này được dùng cho các tính toán hiện thời trên văn bản đầu vào.

- Phương pháp mạng ngữ nghĩa là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tư

tưởng chính của các phương pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên kết nhiều với các thành phần khác sẽ có độ quan trọng lớn. Việc

đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa, các quan hệ cú pháp hoặc thông qua các phương pháp xác định độ liên quan truyền thống.

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 39)