tương tự văn bản-văn bản

Các độ đo độ tương tự văn bản đã được dùng từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan. Một trong những ứng dụng sớm nhất của độ tương tự văn bản có lẽ là mô hình vecto trong tìm kiếm thông tin, ở đó tài liệu có liên quan nhất tới câu truy vấn đầu vào được xác định bằng cách xếp hạng các tài liệu trong tập theo thứ tự ngược của độ tương tự (Salton  Lesk 1971). Độ tương tự văn bản cũng được dùng cho phản hồi liên quan (relevance feedback), phân lớp văn bản (Rochio 1971), và gần đây hơn là cho trích chọn văn bản (Salton et al. 1997), và phương pháp cho việc đánh giá dịch máy tự động (Papineni et al. 2002) hay tóm tắt văn bản (Lin  Hovy 2003). Độ đo độ tương tự văn bản cũng được sử dụng cho việc đánh giá tính chặt chẽ của văn bản (Lapata  Barzilay 2005).

Với một số trường hợp, phương pháp tự động tìm độ tương tự giữa hai đoạn văn bản là sử dụng việc so khớp từ đơn giản, và tạo ra một điểm tương tự dựa trên số đơn vị từ vựng xảy ra ở cả hai đoạn văn bản đầu vào. Sự cải tiến với phương pháp đơn giản này là xem xét đến gốc từ (stemming), việc loại bỏ các từ dừng, gán nhãn từ loại (part-of-speech tagging), so khớp tập con dài nhất, cũng như các trọng số và các nhân tố khác. Trong khi thành công với mức độ như vậy, phương pháp độ tương tự từ vựng không thể luôn luôn xác định độ tương tự ngữ nghĩa văn bản.

Có một số lượng lớn độ đo độ tương tự ngữ nghĩa giữa từ với từ, sử dụng phương pháp hoặc là dựa trên cơ sở tri thức (knowledge-based), hoặc là dựa trên kho ngữ liệu (corpus-based). Các độ đo này được áp dụng thành công trong công việc xử

lý ngôn ngữ như phát hiện từ dùng sai nghĩa (Buddanitsky  Hirst 2001), nhận dạng từ đồng nghĩa. Với độ tương tự ngữ nghĩa dựa trên văn bản, có lẽ hầu hết sử dụng phương pháp xấp xỉ thu được qua việc mở rộng truy vấn, cũng như đã thực hiện trong tìm kiếm thông tin (Voorhees 1993), hay phương pháp phân tích ngữ nghĩa ẩn (Landauer, Foltz  Laham 1998), các phương pháp này đo độ tương tự của các văn bản bằng cách khai thác mối quan hệ giữa các từ một cách tự động qua tập văn bản lớn.

Trong bài này, chúng ta xem xét một phương pháp đo độ tương tự ngữ nghĩa văn bản bằng cách khai thác thông tin có thể được tạo ra từ độ tương tự của các từ thành phần.

Cho trước 2 đoạn văn bản, chúng ta muốn tự động nhận được một độ đo (score) chỉ tới độ tương tự của chúng ở mức độ ngữ nghĩa, do đó phương pháp so khớp từ truyền thống đã được dùng cho công việc này. Mặc dù chúng ta nhận ra sự thật là một phương pháp toàn diện về độ tương tự ngữ nghĩa văn bản cũng nên tính đến cả cấu trúc văn bản nhưng đầu tiên chúng ta cũng gác lại vấn đề này và thử mô hình độ tương tự ngữ nghĩa văn bản như là hàm của độ tương tự ngữ nghĩa của các từ thành phần. Chúng ta làm bằng cách kết hợp độ tương tự giữa từ với từ và đặc trưng của từ thành một công thức, đây là công cụ tốt cho độ tương tự ngữ nghĩa của hai đoạn văn bản.

Trong phần này, ta cũng tính đến cả đặc trưng của từ (idf) để đưa ra trọng số cao hơn cho việc nhận dạng sự phù hợp ngữ nghĩa của 2 từ riêng lẻ và đưa ra trọng số kém hơn cho các khái niệm chung chung. Trong khi đặc trưng của từ cũng được đo cho một vài lĩnh vực bằng độ sâu của chúng trong phân cấp ngữ nghĩa, chúng ta cũng đang tăng cường nhân tố này với độ đo đặc trưng từ trên tập corpus, dựa trên phân phối thông tin đã nghiên cứu từ một tập văn bản lớn.

Đặc trưng của một từ được xác định dựa vào tần suất tài liệu đảo ngược (idf), được tính bằng tổng số tài liệu trong tập corpus chia cho tổng số tài liệu chứa từ đó.

Cho trước độ tương tự từ-từ và đặc trưng của từ, chúng ta xác định độ tương tự ngữ nghĩa của hai đoạn văn bản T1 và T2 bằng cách sử dụng phương pháp kết hợp độ tương tự ngữ nghĩa của mỗi đoạn văn này đối với đoạn văn kia. Đầu tiên, với mỗi từ w trong đoạn T1, chúng ta cố gắng xác định từ trong đoạn T2 mà có độ tương tự ngữ nghĩa cao nhất (maxSim(w, T2)), theo một trong các độ đo được mô tả dưới đây. Sau đó quá trình tương tự được áp dụng cho xác định từ tương tự nhất trong T1 bắt đầu với những từ trong T2. Độ tương tự từ sau đó được đánh trọng số với đặc trưng từ tương ứng, và được chuẩn hóa với độ dài của mỗi đoạn văn bản. Cuối cùng kết quả được tính bằng công thức trung bình đơn giản:

    1 2 1 2 2 1 w {T } w {T } 1 2 w {T } w {T } axSim(w,T ) (w) axSim(w,T ) (w) 1 ( , ) 2 idf(w) idf(w) m idf m idf sim T T                      

Độ tương tự là một giá trị giữa 0 và 1. Độ đo là 1 tức hai đoạn văn bản giống hệt nhau, độ đo là 0 tức hai đoạn văn khác nhau hoàn toàn.

Chú ý là độ tương tự lớn nhất sẽ được tìm với các lớp từ có cùng từ loại. Chẳng hạn như từ tương tự nhất giữa danh từ “bông hoa” với đoạn văn bản “Có rất nhiều loại hoa màu đỏ ở gần ngôi nhà” sẽ được tìm với “loại hoa” và “ngôi nhà”, và sẽ bị lờ đi với các thể loại từ khác (như “màu đỏ”, “ở gần”,…). Hơn nữa, với những thể loại này (tính từ, trạng từ) độ tương tự ngữ nghĩa không thể đo được, chúng ta sử dụng độ đo dựa vào so khớp từ, hai từ cùng xảy ra ở cả hai văn bản sẽ có maxSim bằng 1. Tuy nhiên, trong khuôn khổ luận văn này, chúng tôi chưa xét đến từ loại của từ.

CHƯƠNG IV. TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ

Tách từ trong văn bản tiếng Việt

Các hướng tiếp cận dựa trên “từ”