0
Tải bản đầy đủ (.doc) (92 trang)

Giản lược về cấu trúc câu (Syntactic Condensation )

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 46 -47 )

c. Mô hình tập thô dung sai

3.2.3.1. Giản lược về cấu trúc câu (Syntactic Condensation )

Giản lược về cấu trúc câu là việc lược bỏ trong câu các phần thừa, ít mang giá trị, làm cho cấu trúc câu thu gọn lại. Công việc này thường dựa trên phân tích cú pháp các thành phần trong câu.

Đầu tiên câu được phân tích cú pháp bằng các phương pháp gán nhãn hay cấu trúc hóa thành cây cú pháp. Sau đó dựa trên việc phân tích cú pháp này, các thành phần thừa, ít phản ánh nội dung cốt yếu sẽ bị loại bỏ. Các thành phần bị loại bỏ có thể là các liên từ, các từ (ngữ) bổ nghĩa, các ngữ đồng vị hay các mệnh đề phụ ngầm định. Các thành phần này cũng hay có dấu hiệu nhận biết như nằm giữa các dấu phảy, nằm giữa các cặp ngoặc đơn...

Ví dụ :

Có câu văn sau : "Bill Gate, người giàu nhất thế giới, là chủ nhân của hãng máy tính Microsoft."

Câu văn này sau khi loại bỏ ngữ đồng vị "người giàu nhất thế giới" nằm giữa hai dấu phảy ta sẽ thu được một câu gọn hơn mà không vi phạm về cấu trúc ngữ pháp và ngữ nghĩa :

Ví dụ khác :

Có câu sau : "Anh ta chạy một cách hết sức nhanh.".

Ta có thể rút gọn lại thành : "Anh ta chạy nhanh.". Câu này đúng về mặt ngữ pháp nhưng không còn giữ được đúng ngữ nghĩa hoàn toàn. Tuy nhiên, xét trong một hệ Tóm lược văn bản với một yêu cầu cụ thể về độ rút gọn thì câu này có thể chấp nhận được vì nó vẫn giữ được ý chính của câu ban đầu.

Hai trong số các phương pháp giản lược về cấy trúc câu hay được dùng là hai phương pháp do Kevin Knight and Daniel Marcu đề xuất năm 2000 [21]: dựa vào mô hình kênh nhiễu ( Noisy-Channel Model) và cây quyết định (Decision Tree). Hai phương pháp này đều học một tập mẫu gồm các cặp câu nguyên mẫu-tóm tắt và áp dụng vào việc rút gọn câu mới. Một hướng đi khác là các phương pháp dựa trên lý thuyết về cấu trúc F và văn phạm từ vựng-chức năng (Lexical-Functional Grammar LFG) của Trung tâm nghiên cứu Palo Alto. Ngoài ra việc rút gọn câu dựa vào các tập ngữ liệu song ngữ cũng là một hướng đi được nhiều nhà xử lý ngôn ngữ tự nhiên lựa chọn như Vandeghinste và Yi Pan [23,24]… Nói chung các phương pháp này đều đòi hỏi phải có tập mẫu để học gồm các cặp câu nguyên mẫu-tóm tắt, ngoài ra cần có một bộ phân tích cú pháp khá chính xác. Vì đây là các phương pháp thống kê nên chúng ta có thể áp dụng vào tiếng Việt với điều kiện phải có tập mẫu và bộ phân tích cú pháp dành cho tiếng Việt.

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 46 -47 )

×