Kết luận về các phương pháp trong giai đoạn phân tích

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 43 - 44)

trọng của các đơn vị ngữ liệu theo các phương pháp trên đây và thực hiện việc trích chọn các đơn vị ngữ liệu nào có độ quan trọng lớn thành đầu vào cho giai đoạn sau. Thông thường độ quan trọng (trọng số) của các đơn vị ngữ liệu sẽ được xác định bởi một phương trình tuyến tính của các hệ số đánh giá độ quan trọng theo mỗi phương pháp. Trong đó các hệ số tuyến tính sẽ phụ thuộc vào tính chính xác của thuật toán khi áp dụng từng phương pháp và áp dụng đồng thời các phương pháp với nhau.

Việc xác định các hệ số tuyến tính có thể thực hiện bằng nhiều cách. Nhiều hệ

thống không xác định được chính xác, đã để các hệ số này bằng nhau hoặc bằng một số nào đó. Một số hệ thống khác thì cẩn trọng hơn, đưa ra những tỉ lệ tương đối sao cho đảm bảo được việc phối hợp các phương pháp là tốt hơn việc dùng phương pháp chính xác nhất. Ngoài ra một số hệ thống lại dựa vào các tham sốđưa vào để lựa chọn các phương pháp cần dùng. Ví dụ như một hệ rút trích mang chức năng chỉ định và không cần độ chính xác cao chỉ cài đặt các phương pháp thống kê là đạt yêu cầu. Tuy nhiên, có một phương pháp mang lại tính chính xác khá cao khi xác định các hệ sốđó là phương pháp học từ tập mẫu (Corpus-based)[14]. Thông qua tập mẫu có thể xác

định được các hệ số này khi cài đặt thuật toán và kiểm thử trên tập mẫu. Kết quả kiểm thửđược đưa trở lại để cải tiến các hệ số tuyến tính cho đến khi đạt kết quả chấp nhận, cách này chỉ áp dụng được khi có những tập mẫu chính xác.

Một khó khăn chung to lớn của hai loại phương pháp áp dụng cho tiếng Việt là các tài nguyên phục vụ cho các phương pháp này chưa có nhiều. Tài nguyên còn thiếu cho các phương pháp thống kê là các số liệu thống kê tiếng Việt về vị trí và từđiển các cụm từ gợi ý. Tài nguyên còn thiếu cho các phương pháp cấu trúc là các tập mẫu, các mạng ngữ nghĩa... Đã có một số nghiên cứu xây dựng tập mẫu hay các mạng ngữ

nghĩa dành cho tiếng Việt nhưng chưa thành công, chưa đầy đủ hoặc chưa công bố

chính thức.

Một phần của tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc (Trang 43 - 44)