Giản lược về cấu trúc câu (Syntactic Condensation)

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 26 - 29)

Giản lược về cấu trúc câu là việc lược bỏ trong câu các phần thừa, ít mang giá trị, làm cho cấu trúc câu thu gọn lại. Cơng việc này thường dựa trên phân tích cú pháp các thành phần trong câu.

Đầu tiên câu được phân tích cú pháp bằng các phương pháp gán nhãn hay cấu trúc hĩa thành cây cú pháp. Sau đĩ dựa trên việc phân tích cú pháp này, các thành phần thừa, ít phản ánh nội dung cốt yếu sẽ bị loại bỏ. Các thành phần bị loại bỏ cĩ thể là các liên từ, các từ (ngữ) bổ nghĩa, các ngữ đồng vị hay các mệnh đề phụ ngầm định. Các thành phần này cũng hay cĩ dấu hiệu nhận biết như nằm giữa các dấu phẩy, nằm giữa các cặp ngoặc đơn...

Ví dụ: “Bill Gate, người giàu nhất thế giới, là chủ nhân của hãng máy tính Microsoft”.

Câu văn này sau khi loại bỏ ngữ đồng vị "người giàu nhất thế giới" nằm giữa hai dấu phẩy ta sẽ thu được một câu gọn hơn mà khơng vi phạm về cấu trúc ngữ pháp và ngữ nghĩa: "Bill Gate là chủ nhân của hãng máy tính Microsoft."

Câu này đúng về mặt ngữ pháp nhưng khơng cịn giữ được đúng ngữ nghĩa hồn tồn. Tuy nhiên, xét trong một hệ Tĩm lược văn bản với một yêu cầu cụ thể về độ rút gọn thì câu này cĩ thể chấp nhận được vì nĩ vẫn giữ được ý chính của câu ban đầu.

Hai trong số các phương pháp giản lược về cấy trúc câu hay được dùng là hai phương pháp do Kevin Knight and Daniel Marcu đề xuất năm 2000 dựa vào mơ hình kênh nhiễu (Noisy-Channel Model) và cây quyết định (Decision Tree). Hai phương pháp này đều học một tập mẫu gồm các cặp câu nguyên mẫu-tĩm tắt và áp dụng vào việc rút gọn câu mới. Một hướng đi khác là các phương pháp dựa trên lý thuyết về cấu trúc F và văn phạm từ vựng-chức năng (Lexical-Functional Grammar LFG) của Trung tâm nghiên cứu Palo Alto. Ngồi ra việc rút gọn câu dựa vào các tập ngữ liệu song ngữ cũng là một hướng đi được nhiều nhà xử lý ngơn ngữ tự nhiên lựa chọn như VandeghinsteYi Pan … Nĩi chung các phương pháp này đều địi hỏi phải cĩ tập mẫu để học gồm các cặp câu nguyên mẫu-tĩm tắt, ngồi ra cần cĩ một bộ phân tích cú pháp khá chính xác. Vì đây là các phương pháp thống kê nên chúng ta cĩ thể áp dụng vào tiếng Việt với điều kiện phải cĩ tập mẫu và bộ phân tích cú pháp dành cho tiếng Việt.

2.2.2.2. Giản lược về mặt ngữ nghĩa (Semantic Condensation)

Đây là các phương pháp thay thế các từ, ngữ bằng các từ, ngữ khác cĩ quan hệ về nghĩa, về khái niệm. Tất nhiên các từ ngữ thay thế ngắn hơn các từ ngữ ban đầu. Nĩi chung các phương pháp này thường cĩ các bước tiến hành như sau: Đầu tiên xây dựng các danh sách từ, ngữ cĩ quan hệ về nghĩa (bằng các phương pháp thống kê hoặc xử lý ngơn ngữ tự nhiên). Sau đĩ, nhận dạng trong câu các từ ngữ kiểu này và thay thế tương ứng. Cĩ nhiều phương pháp giản lược nhờ sinh khái niệm nhưng sau đây là một số phương pháp tiêu biểu:

Phương pháp trừu tượng hĩa khái niệm: Tư tưởng của phương pháp này

là từ các khái niệm cụ thể thay thế bằng khái niệm chung. Ví dụ : "Tơi ăn dâu, táođào." => "Tơi ăn trái cây."

Phương pháp này phải dựa trên các mạng ngữ nghĩa để xác định từ thay thế. Sau đây chúng ta đưa ra một mơ tả cho một giải thuật đơn giản để biến đổi câu "Tơi ăn dâu, táo đào." thành "Tơi ăn trái cây."

Câu ban đầu được tách danh từ (thơng qua việc gán nhãn từ loại) ra được

từ "dâu", "táo", "đào" được xét riêng. Các danh từ này được đối sánh với các danh từ trong quan hệ nĩi trên, và được thay thế bởi danh từ cĩ khái niệm chung là "trái cây". Các mạng ngữ nghĩa tất nhiên cĩ nhiều cấp và việc lựa chọn thay thế ở cấp nào là các quy tắc riêng của giải thuật cài đặt. Ví dụ như trong trường hợp trên, giả sử "trái cây" là một loại của "thực vật", liệu chúng ta nên thay "dâu", "táo", "đào" bởi "trái cây" hay "thực vật" ? Rõ ràng về nghĩa chúng ta nên dùng "trái cây", điều này cĩ thể thực hiện trong giải thuật bằng cách lấy khái niệm ở mức liền trên của "dâu", "táo", "đào"...

Phương pháp thay thế bộ phận: Tư tưởng của phương pháp này là từ các

khái niệm bộ phận thay thế bằng khái niệm tồn bộ.

Ví dụ: "Xích, líp, ghi đơng, bàn đạp … " => "Cái xe đạp…".

Thuật tốn khá giống với phương pháp sinh khái niệm và cũng dựa vào mạng ngữ nghĩa. Tất nhiên ở đây chúng ta chú ý đến quan hệ bộ phận - tồn thể của các danh từ, ngữ danh từ trong câu.

Phương pháp thay thế ngữ tương đương: Tư tưởng của phương pháp này

là các ngữ đĩng vai trị như nhau trong câu được thay bằng một ngữ chung.

Ví dụ: "Anh ấy bước vào, ngồi xuống ghế, xem thực đơn, gọi mĩn, ăn, trả tiền và ra về" => "Anh ấy đi ăn tiệm".

Đây chính là phương pháp sử dụng các ý tưởng về nhận dạng chủ đề của

Daniel Marcu đã được chúng ta đề cập đến trong pha phân tích. Trước hết ta cần xây dựng những chữ ký chủ đề (Topic Signature). Mỗi chữ ký này là danh sách các từ, các ngữ cùng loại (về mặt từ loại, ngữ loại), cĩ đại diện bởi tên chủ đề. Các chữ ký được xây dựng dựa trên các phương pháp khác nhau như thống kê tần suất, dịch mạng ngữ nghĩa... Sau đĩ, tìm kiếm trong câu đầu vào các thành viên của chữ ký và thay thế bởi tên chủ đề.

Phương pháp thay thế từ, ngữ đồng nghĩa ngắn hơn: Một phương pháp

khác khá dễ hiểu đấy là việc thay thế một từ, ngữ bằng một từ, ngữ khác đồng nghĩa hoặc gần nghĩa nhưng cĩ độ dài ngắn hơn. Điều này thường thơng qua một từ điển các từ đồng nghĩa (Thesaurus).

Phương pháp thay thế bởi đại diện: Tư tưởng của phương pháp này là thay thế một ngữ bằng một ngữ khác cĩ ý nghĩa đại diện cho ngữ ban đầu. Ví dụ : "Nguời phát ngơn viên của chính phủ Hoa Kỳ thơng báo…" => "Washington

thơng báo…".

Phương pháp này rất khĩ cài đặt vì quan hệ giữa ngữ đại diện với ngữ bị thay thế là quan hệ lỏng, thường là tự định nghĩa và quan hệ này phụ thuộc nhiều vào ngữ cảnh và lĩnh vực. Các phương pháp hợp giải tham chiếu thường được dùng để thực hiện.

Một phần của tài liệu Tóm tắt văn bản tiếng việt (Trang 26 - 29)

Tải bản đầy đủ (PDF)

(56 trang)