tƣơng tự văn bản-văn bản

Các độ đo độ tƣơng tự văn bản đã đƣợc dùng từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan. Một trong những ứng dụng sớm nhất của độ tƣơng tự văn bản có lẽ là mô hình vecto trong tìm kiếm thông tin, ở đó tài liệu có liên quan nhất tới câu truy vấn đầu vào đƣợc xác định bằng cách xếp hạng các tài liệu trong tập theo thứ tự ngƣợc của độ tƣơng tự (Salton  Lesk 1971). Độ tƣơng tự văn bản cũng đƣợc dùng cho phản hồi liên quan (relevance feedback), phân lớp văn bản (Rochio 1971), và gần đây hơn là cho trích chọn văn bản (Salton et al. 1997), và phƣơng pháp cho việc đánh giá dịch máy tự động (Papineni et al. 2002) hay tóm tắt văn bản (Lin  Hovy 2003). Độ đo độ tƣơng tự văn bản cũng đƣợc sử dụng cho việc đánh giá tính chặt chẽ của văn bản (Lapata  Barzilay 2005).

Với một số trƣờng hợp, phƣơng pháp tự động tìm độ tƣơng tự giữa hai đoạn văn bản là sử dụng việc so khớp từ đơn giản, và tạo ra một điểm tƣơng tự dựa trên số đơn vị từ vựng xảy ra ở cả hai đoạn văn bản đầu vào. Sự cải tiến với phƣơng pháp đơn giản này là xem xét đến gốc từ (stemming), việc loại bỏ các từ dừng, gán nhãn từ loại (part-of-speech tagging), so khớp tập con dài nhất, cũng nhƣ các trọng số và các nhân tố khác. Trong khi thành công với mức độ nhƣ vậy, phƣơng pháp độ tƣơng tự từ vựng không thể luôn luôn xác định độ tƣơng tự ngữ nghĩa văn bản.

Có một số lƣợng lớn độ đo độ tƣơng tự ngữ nghĩa giữa từ với từ, sử dụng phƣơng pháp hoặc là dựa trên cơ sở tri thức (knowledge-based), hoặc là dựa trên kho ngữ liệu (corpus-based). Các độ đo này đƣợc áp dụng thành công trong công việc xử

lý ngôn ngữ nhƣ phát hiện từ dùng sai nghĩa (Buddanitsky  Hirst 2001), nhận dạng từ đồng nghĩa. Với độ tƣơng tự ngữ nghĩa dựa trên văn bản, có lẽ hầu hết sử dụng phƣơng pháp xấp xỉ thu đƣợc qua việc mở rộng truy vấn, cũng nhƣ đã thực hiện trong tìm kiếm thông tin (Voorhees 1993), hay phƣơng pháp phân tích ngữ nghĩa ẩn (Landauer, Foltz  Laham 1998), các phƣơng pháp này đo độ tƣơng tự của các văn bản bằng cách khai thác mối quan hệ giữa các từ một cách tự động qua tập văn bản lớn.

Trong bài này, chúng ta xem xét một phƣơng pháp đo độ tƣơng tự ngữ nghĩa văn bản bằng cách khai thác thông tin có thể đƣợc tạo ra từ độ tƣơng tự của các từ thành phần.

Cho trƣớc 2 đoạn văn bản, chúng ta muốn tự động nhận đƣợc một độ đo (score) chỉ tới độ tƣơng tự của chúng ở mức độ ngữ nghĩa, do đó phƣơng pháp so khớp từ truyền thống đã đƣợc dùng cho công việc này. Mặc dù chúng ta nhận ra sự thật là một phƣơng pháp toàn diện về độ tƣơng tự ngữ nghĩa văn bản cũng nên tính đến cả cấu trúc văn bản nhƣng đầu tiên chúng ta cũng gác lại vấn đề này và thử mô hình độ tƣơng tự ngữ nghĩa văn bản nhƣ là hàm của độ tƣơng tự ngữ nghĩa của các từ thành phần. Chúng ta làm bằng cách kết hợp độ tƣơng tự giữa từ với từ và đặc trƣng của từ thành một công thức, đây là công cụ tốt cho độ tƣơng tự ngữ nghĩa của hai đoạn văn bản.

Trong phần này, ta cũng tính đến cả đặc trƣng của từ (idf) để đƣa ra trọng số cao hơn cho việc nhận dạng sự phù hợp ngữ nghĩa của 2 từ riêng lẻ và đƣa ra trọng số kém hơn cho các khái niệm chung chung. Trong khi đặc trƣng của từ cũng đƣợc đo cho một vài lĩnh vực bằng độ sâu của chúng trong phân cấp ngữ nghĩa, chúng ta cũng đang tăng cƣờng nhân tố này với độ đo đặc trƣng từ trên tập corpus, dựa trên phân phối thông tin đã nghiên cứu từ một tập văn bản lớn.

Đặc trƣng của một từ đƣợc xác định dựa vào tần suất tài liệu đảo ngƣợc (idf), đƣợc tính bằng tổng số tài liệu trong tập corpus chia cho tổng số tài liệu chứa từ đó.

Cho trƣớc độ tƣơng tự từ-từ và đặc trƣng của từ, chúng ta xác định độ tƣơng tự ngữ nghĩa của hai đoạn văn bản T1 và T2 bằng cách sử dụng phƣơng pháp kết hợp độ tƣơng tự ngữ nghĩa của mỗi đoạn văn này đối với đoạn văn kia. Đầu tiên, với mỗi từ w trong đoạn T1, chúng ta cố gắng xác định từ trong đoạn T2 mà có độ tƣơng tự ngữ nghĩa cao nhất (maxSim(w, T2)), theo một trong các độ đo đƣợc mô tả dƣới đây. Sau đó quá trình tƣơng tự đƣợc áp dụng cho xác định từ tƣơng tự nhất trong T1 bắt đầu với những từ trong T2. Độ tƣơng tự từ sau đó đƣợc đánh trọng số với đặc trƣng từ tƣơng ứng, và đƣợc chuẩn hóa với độ dài của mỗi đoạn văn bản. Cuối cùng kết quả đƣợc tính bằng công thức trung bình đơn giản:

    1 2 1 2 2 1 w {T } w {T } 1 2 w {T } w {T } axSim(w,T ) (w) axSim(w,T ) (w) 1 ( , ) 2 idf(w) idf(w) m idf m idf sim T T                      

Độ tƣơng tự là một giá trị giữa 0 và 1. Độ đo là 1 tức hai đoạn văn bản giống hệt nhau, độ đo là 0 tức hai đoạn văn khác nhau hoàn toàn.

Chú ý là độ tƣơng tự lớn nhất sẽ đƣợc tìm với các lớp từ có cùng từ loại. Chẳng hạn nhƣ từ tƣơng tự nhất giữa danh từ “bông hoa” với đoạn văn bản “Có rất nhiều loại hoa màu đỏ ở gần ngôi nhà” sẽ đƣợc tìm với “loại hoa” và “ngôi nhà”, và sẽ bị lờ đi với các thể loại từ khác (nhƣ “màu đỏ”, “ở gần”,…). Hơn nữa, với những thể loại này (tính từ, trạng từ) độ tƣơng tự ngữ nghĩa không thể đo đƣợc, chúng ta sử dụng độ đo dựa vào so khớp từ, hai từ cùng xảy ra ở cả hai văn bản sẽ có maxSim bằng 1. Tuy nhiên, trong khuôn khổ luận văn này, chúng tôi chƣa xét đến từ loại của từ.

CHƢƠNG IV. TÍNH ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ

Tách từ trong văn bản tiếng Việt

Các hƣớng tiếp cận dựa trên “từ”