Giản lược về mặt ngữ nghĩa ( Semantic Condensation)

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 47 - 49)

c. Mô hình tập thô dung sai

3.2.3.2.Giản lược về mặt ngữ nghĩa ( Semantic Condensation)

Đây là các phương pháp thay thế các từ, ngữ bằng các từ, ngữ khác có quan hệ về nghĩa, về khái niệm. Tất nhiên các từ ngữ thay thế ngắn hơn các từ ngữ ban đầu. Nói chung các phương pháp này thường có các bước tiến hành như sau : Đầu tiên xây dựng các danh sách từ, ngữ có quan hệ về nghĩa (bằng các phương pháp thống kê hoặc xử lý ngôn ngữ tự nhiên). Sau đó, nhận dạng trong câu các từ ngữ kiểu này và thay thế tương ứng. Có nhiều phương pháp Giản lược nhờ sinh khái niệm nhưng sau đây là một số phương pháp tiêu biểu :

i. Phương pháp trừu tượng hóa khái niệm

Tư tưởng của phương pháp này là từ các khái niệm cụ thể thay thế bằng khái niệm chung.

Ví dụ : "Em ăn dâu, táođào." => "Em ăn trái cây."

Phương pháp này phải dựa trên các mạng ngữ nghĩa để xác định từ thay thế. Sau đây chúng ta đưa ra một mô tả cho một giải thuật đơn giản để biến đổi câu "Em ăn dâu, táo đào." thành "Em ăn trái cây."

Giả sử ta có một mạng ngữ nghĩa tiếng Việt. Xét một quan hệ nhỏ được biểu diễn trong mạng ngữ nghĩa theo dạng như sau :

( Lê, Đào, Dâu, Mận, Táo, Xoài,...) $===> ( Trái cây )

Dấu $ đi liền trước mũi tên chỉ đây là quan hệ ngữ nghĩa "...là một loại..."

Câu ban đầu được tách danh từ (thông qua việc gán nhãn từ loại) ra được thành "Em", "dâu", "táo", "đào", dựa vào việc cùng từ loại là tân ngữ mà các danh từ "dâu", "táo", "đào" được xét riêng.

Các danh từ này được đối sánh với các danh từ trong quan hệ nói trên, và được thay thế bởi danh từ có khái niệm chung là "trái cây".

Các mạng ngữ nghĩa tất nhiên có nhiều cấp và việc lựa chọn thay thế ở cấp nào là các quy tắc riêng của giải thuật cài đặt. Ví dụ như trong trường hợp trên, giả sử "trái cây" là một loại của "thực vật", liệu chúng ta nên thay "dâu", "táo", "đào" bởi "trái cây" hay "thực vật" ? Rõ ràng về nghĩa chúng ta nên dùng "trái cây", điều này có thể thực hiện trong giải thuật bằng cách lấy khái niệm ở mức liền trên của "dâu", "táo", "đào"...

ii. Phương pháp thay thế bộ phận

Tư tưởng của phương pháp này là từ các khái niệm bộ phận thay thế bằng khái niệm toàn bộ.

Ví dụ : "Xích, líp, ghi đông, bàn đạp … " => "Cái xe đạp…".

Thuật toán khá giống với phương pháp sinh khái niệm và cũng dựa vào mạng ngữ nghĩa. Tất nhiên ở đây chúng ta chú ý đến quan hệ bộ phận - toàn thể của các danh từ, ngữ danh từ trong câu.

iii. Phương pháp thay thế ngữ tương đương

Tư tưởng của phương pháp này là các ngữ đóng vai trò như nhau trong câu được thay bằng một ngữ chung.

Ví dụ : "Anh ấy bước vào, ngồi xuống ghế, xem thực đơn, gọi món, ăn, trả tiền và ra về" => "Anh ấy đi ăn tiệm".

Đây chính là phương pháp sử dụng các ý tưởng về Nhận dạng chủ đề của Daniel Marcu đã được chúng ta đề cập đến trong pha Phân tích. Trước hết ta cần xây dựng những chữ ký chủ đề (Topic Signature). Mỗi chữ ký này là danh sách các từ, các ngữ cùng loại (về mặt từ loại, ngữ loại), có đại diện bởi tên chủ đề. Các chữ ký được xây

dựng dựa trên các phương pháp khác nhau như thống kê tần suất, dịch mạng ngữ nghĩa... Sau đó, tìm kiếm trong câu đầu vào các thành viên của chữ ký và thay thế bởi tên chủ đề [21].

iv. Phương pháp thay thế từ, ngữ đồng nghĩa ngắn hơn

Một phương pháp khác khá dễ hiểu đấy là việc thay thế một từ, ngữ bằng một từ, ngữ khác đồng nghĩa hoặc gần nghĩa nhưng có độ dài ngắn hơn. Điều này thường thông qua một từ điển các từ đồng nghĩa (Thesaurus).

iv. Phương pháp thay thế bởi đại diện

Tư tưởng của phương pháp này là thay thế một ngữ bằng một ngữ khác có ý nghĩa đại diện cho ngữ ban đầu.

Ví dụ : "Nguời phát ngôn viên của chính phủ Hoa Kỳ thông báo…" => "Washington thông báo…".

Phương pháp này rất khó cài đặt vì quan hệ giữa ngữ đại diện với ngữ bị thay thế là quan hệ lỏng, thường là tự định nghĩa và quan hệ này phụ thuộc nhiều vào ngữ cảnh và lĩnh vực. Các phương pháp Hợp giải tham chiếu thường được dùng để thực hiện.

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 47 - 49)