Kết luận về các phương pháp trong giai đoạn phân tích

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 43 - 44)

Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt

3.1. Các phương pháp rút trích

3.1.3. Kết luận về các phương pháp trong giai đoạn phân tích

trọng của các đơn vị ngữ liệu theo các phương pháp trên đây và thực hiện việc trích

chọn các đơn vị ngữ liệu nào có độ quan trọng lớn thành đầu vào cho giai đoạn sau.

Thông thường độ quan trọng (trọng số) của các đơn vị ngữ liệu sẽ được xác định bởi

một phương trình tuyến tính của các hệ số đánh giá độ quan trọng theo mỗi phương

pháp. Trong đó các hệ số tuyến tính sẽ phụ thuộc vào tính chính xác của thuật tốn khi áp dụng từng phương pháp và áp dụng đồng thời các phương pháp với nhau.

Việc xác định các hệ số tuyến tính có thể thực hiện bằng nhiều cách. Nhiều hệ thống khơng xác định được chính xác, đã để các hệ số này bằng nhau hoặc bằng một

số nào đó. Một số hệ thống khác thì cẩn trọng hơn, đưa ra những tỉ lệ tương đối sao

cho đảm bảo được việc phối hợp các phương pháp là tốt hơn việc dùng phương pháp

chính xác nhất. Ngoài ra một số hệ thống lại dựa vào các tham số đưa vào để lựa chọn các phương pháp cần dùng. Ví dụ như một hệ rút trích mang chức năng chỉ định và

khơng cần độ chính xác cao chỉ cài đặt các phương pháp thống kê là đạt yêu cầu. Tuy nhiên, có một phương pháp mang lại tính chính xác khá cao khi xác định các hệ số đó là phương pháp học từ tập mẫu (Corpus-based)[14]. Thông qua tập mẫu có thể xác

định được các hệ số này khi cài đặt thuật toán và kiểm thử trên tập mẫu. Kết quả kiểm

thử được đưa trở lại để cải tiến các hệ số tuyến tính cho đến khi đạt kết quả chấp nhận, cách này chỉ áp dụng được khi có những tập mẫu chính xác.

Một khó khăn chung to lớn của hai loại phương pháp áp dụng cho tiếng Việt là các tài nguyên phục vụ cho các phương pháp này chưa có nhiều. Tài ngun cịn thiếu cho các phương pháp thống kê là các số liệu thống kê tiếng Việt về vị trí và từ điển các cụm từ gợi ý. Tài nguyên còn thiếu cho các phương pháp cấu trúc là các tập mẫu, các mạng ngữ nghĩa... Đã có một số nghiên cứu xây dựng tập mẫu hay các mạng ngữ

nghĩa dành cho tiếng Việt nhưng chưa thành công, chưa đầy đủ hoặc chưa cơng bố

chính thức.

Một phần của tài liệu Luận văn công nghệ thông tin xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 43 - 44)

Tải bản đầy đủ (PDF)

(99 trang)