f) Trích danh từ, cụm danh từ làm đặc trưng (cĩ xem xét nghĩa của từ)
5.4.CÁC PHƯƠNG PHÁP TĨM TẮT VĂN BẢN TỰ ĐỘNG
Các phương pháp tĩm tắt văn bản cĩ thểđược phân loại như sau (theo [22]): -Tiếp cận thống kê: hướng này chủ yếu dựa trên sự phân bố của các từ trên văn bản. Các đặc trưng dùng cho tiếp cận thống kê bao gồm các đặc trưng chuẩn từ lĩnh vực truy vấn thơng tin nhưđộ tương tự cosin, trọng số TF-IDF, …
- Tiếp cận ngơn ngữ: các phương pháp tĩm tắt theo hướng này địi hỏi nhiều tri thức để xử lý và thường phụ thuộc vào ngữ cảnh văn bản, thường là phải phân tích ngữ nghĩa các từ, dựa trên cấu trúc văn bản, hoặc dựa trên những ngữ đặc biệt để trích ra những phần văn bản quan trọng.
-Kết hợp cả hai hướng trên.
Cĩ thể cĩ cách phân chia khác cho các phương pháp tĩm tắt văn bản như sau: -Dựa vào tần số (frequency based): tần suất xuất hiện của các từ, sựđứng gần nhau của từ, và vị trí của từ trong văn bản. Hướng tiếp cận này tạo ra những bản tĩm tắt cĩ tính khái quát tốt nhưng lại thiếu tính mạch lạc và chặt chẽ.
-Dựa vào tri thức (knowledge based): tri thức về cấu trúc của các loại văn bản thuộc về các lĩnh vực cụ thể. Hướng này cĩ khuynh hướng xử lý cho các văn bản chỉ thuộc về một lĩnh vực cụ thể.
-Dựa vào lời văn (discourse based): kiểm tra tính mạch lạc và chặt chẽ bằng cách xem xét các đặc tính về ngơn ngữ, cấu trúc lời văn, …. Trong hướng này, ta cĩ thể sử dụng kết hợp thêm cách tính điểm dựa trên tần số xuất hiện, cùng với tri thức về lĩnh vực của văn bản được thể hiện qua các từ đặc biệt, các ngữ cố định, và các từ liên quan (nhĩm các từ cĩ liên quan đến từng lĩnh vực) ([14]). Với một cách phân loại tổng quát hơn, bao quát các phương pháp trên, cĩ hai hướng nghiên cứu chính là: phân tích ngơn ngữ “nơng” và phân tích ngơn ngữ “sâu” (xem [15]):
5.4.1.Hướng phân tích ngơn ngữ “nơng”
Trong hướng này, cĩ các phương pháp sau, theo [15]:
-Những hệ thống tĩm tắt trong thời gian đầu đã sử dụng trực tiếp sự phân bố
từ trong văn bản để tạo tĩm tắt dựa trên trực giác rằng những từ xuất hiện thường xuyên nhất sẽ diễn đạt những khái niệm quan trọng nhất của văn bản. Cách này cho ra bản tĩm tắt của văn bản là một bảng từ với tần số xuất hiện.
-Một phương pháp khác cũng dựa trên thơng tin ngơn ngữ là phương pháp ngữ chỉ thị (cue phrase method), trong đĩ dùng các ngữ chỉ thị cho các thành
phần tĩm lược trong văn bản (ví dụ như “Cuối cùng”, “Kết luận”, “bài viết này mơ tả”) để chọn ra các ngữ quan trọng.
-Phương pháp vị trí dựa trên trực giác rằng các tiêu đề, các câu ở vị trí bắt đầu và kết thúc của văn bản, các đoạn được tơ đậm thì chứa thơng tin quan trọng để
tĩm tắt.
Theo các tác giả của cơng trình [15], báo cáo của tác giả Paice, 1990, cho thấy rằng phương pháp vị trí và ngữ chỉ thị cho kết quả tốt hơn phương pháp tần suất từ, và cĩ thể chính xác hơn. Cũng cĩ nghiên cứu kết hợp tất cả các phương pháp này và sử dụng thêm thơng số chiều dài câu và tựa đề (title). Tuy nhiên, hạn chế của việc tĩm tắt dựa vàothơng tin vị trí và ngữ chỉ thị là chúng phụ thuộc vào loại văn bản cần tĩm tắt.
5.4.2.Hướng phân tích ngơn ngữ “sâu”
Hướng này thường dựa trên các tính chất liên kết (cohesion) và mạch lạc
(coherence). “Tính mạch lạc tạo nên sự kết nối về cấu trúc ngữ nghĩa của lời văn, trong khi đĩ liên kết tạo nên sự kết nối trên khía cạnh ngữ nghĩa khơng cĩ cấu trúc.
Tính mạch lạc được biểu đạt trong mối quan hệ chặt chẽ giữa các phân đoạn văn bản như là quan hệ mơ tả chi tiết, quan hệ nguyên nhân kết quả, và quan hệ giải thích “.
-Tính liên kết là phương tiện để kết nối các phần trong văn bản với nhau.
Tính liên kết cĩ thể cĩ được qua việc sử dụng các từ cĩ quan hệ ngữ nghĩa với nhau, sự tham chiếu cùng nhau, sự tỉnh lược, và các liên từ .
-Giữa các phương tiện tạo nên sựliên kết cho văn bản thì sự liên kết về từ là loại dễ nhận biết và xuất hiện thường xuyên nhất. Sựliên kết về từ được tạo nên bởi việc dùng các từ cĩ quan hệ ngữ nghĩa với nhau. Các tác giả Halliday và Hasan phân loại sự liên kết về từ thành loại lặp lại và loại đồng xuất hiện. Loại lặp lại cĩ thểđạt được bằng sự lặp lại, sự đồng nghĩa, sự mang nghĩa con. Mối quan hệđồng hiện xác định mối quan hệ giữa các từ cĩ xu hướng xuất hiện cùng nhau trong cùng ngữ cảnh. Tuy nhiên, cả hai loại lặp lại và đồng xuất hiện đều cĩ thể phát hiện được trên bề mặt văn bản, loại cần phân tích sâu hơn là quan hệ
ngữ nghĩa.
Trong hướng phát hiện sự liên kết về ngữ nghĩa của từ các phương pháp khác nhau như i) phương pháp phát hiện các chuỗi từ vựng (lexical chain) [15] là nhĩm các từ cĩ quan hệ ngữ nghĩa với nhau, phương pháp này phát hiện các chuỗi từ vựng và cho điểm các chuỗi từ vựng, sau đĩ chọn các câu dựa trên các chuỗi từ vựng “mạnh” để tạo tĩm tắt; ii) phương pháp bổ sung tham số quan hệ ngữ nghĩa của từ vào vec-tơ tần suất từ; iii) phương pháp
phân tích ngữ nghĩa ngầm (LSA – Latent Semantic Analysis) cũng sử dụng mơ hình vec-tơ tần suất từ và áp dụng việc phân tích ngữ nghĩa của từ.
-Ngược lại với tính liên kết, tính mạch lạc rất khĩ xác định nếu khơng cĩ sự