CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.3. Các kỹ thuật tính tốn độ tương đồng văn bản
2.3.1. Độ tương đồng
Đa số các giải pháp đánh giá hiệu quả của một hệ thống tìm kiếm thơng tin là dựa vào khái niệm tương đồng (similarity). Về lý thuyết, một tài liệu được cho là tương đồng với một truy vấn nếu như nội dung tài liệu đĩ trả lời được cho nhu cầu thơng tin của người dùng chứ khơng phải là tài liệu đĩ cĩ chứa đầy đủ các từ khĩa của câu truy vấn mơ tả cho nhu cầu thơng tin của người dùng (Truong Quoc-Dinh et al., 2014). Việc đánh giá độ tương đồng sẽ thay đổi theo ngữ cảnh cũng như theo quan điểm, kiến thức, học vấn và kinh nghiệm của người dùng.
Trong lĩnh vực xử lý ngơn ngữ tự nhiên, cá thể được so sánh là từ, câu, đoạn văn và văn bản. Ví dụ: câu “A là sinh viên Trường Đại học Cần Thơ” và câu “B là sinh viên Trường Đại học Cần Thơ” là hai câu khá tương đồng. Về mặt kỹ thuật, độ tương đồng văn bản cĩ thể được tính tốn dựa trên nhiều cách tiếp cận khác nhau.
2.3.2. Một số phương pháp tính độ tương đồng văn bản 2.3.2.1. Độ tương đồng văn bản dựa trên tập từ chung 2.3.2.1. Độ tương đồng văn bản dựa trên tập từ chung
Ở cách tiếp cận này, văn bản được biểu diễn dưới dạng mơ hình đồ thị, mỗi đỉnh trong đồ thị là một câu trong văn bản, trong khi đĩ mỗi cạnh nối hai đỉnh trong đồ thị biểu diễn mối liên hệ giữa hai câu. Trọng số của một cạnh chính là giá trị độ tương đồng của hai câu. Thơng thường, độ tương đồng được tính dựa trên ba phương pháp.
Phương pháp thứ nhất là tính độ tương đồng giữa hai chuỗi bằng khoảng cách Jaro (Winkler, 1990). Với phương pháp Jaro, khoảng cách hai câu s1 và s2 được tính như sau: 𝑑𝑑=13(𝑚𝑚/|𝑠𝑠1| +𝑚𝑚/|𝑠𝑠2| + (𝑚𝑚 − 𝑡𝑡)/𝑚𝑚), trong đĩ m là số từ giống nhau, t là ½ số bước chuyển. Mỗi từ trong câu thứ nhất được so sánh với tất cả các từ trong câu thứ hai để tính độ tương đồng giữa hai câu.
Phương pháp thứ hai là mơ hình tương phản (Tversky, 1977). Độ tương đồng giữa hai câu A và B được tính như sau: 𝑆𝑆𝑖𝑖𝑚𝑚(𝐴𝐴,𝐵𝐵) =∝∗ 𝑔𝑔(𝐴𝐴 ∩ 𝐵𝐵)− 𝛽𝛽 ∗ 𝑔𝑔(𝐴𝐴 − 𝐵𝐵)− 𝛾𝛾 ∗ 𝑔𝑔(𝐵𝐵 − 𝐴𝐴), trong đĩ ∝,𝛽𝛽,𝛾𝛾 là trọng số xác định trong quá trình thực nghiệm tìm kiếm tham số.
Phương pháp thứ ba là hệ số Jaccard, gọi là hệ số tương tự (Jaccard, 1901), là một độ đo tương tự của các tập hợp dựa trên phương pháp thống kê. Theo đĩ, độ tương đồng giữa hai câu A và B được tính như sau: 𝑆𝑆𝑖𝑖𝑚𝑚(𝐴𝐴,𝐵𝐵) = |𝐴𝐴 ∩ 𝐵𝐵|/|𝐴𝐴 ∪ 𝐵𝐵|
2.3.2.2. Độ tương đồng văn bản dựa trên véc-tơ biểu diễn
Văn bản sau khi tiền xử lý được biểu diễn dưới dạng mơ hình khơng gian véc-tơ, mỗi thành phần trong véc-tơ là mỗi một từ tương ứng trong văn bản. Một số phương pháp tính độ tương đồng văn bản dựa trên véc-tơ biểu diễn như sau:
Độ tương đồng cosine: Số từ trong văn bản trước khi véc-tơ hĩa chính là số phần tử của véc-tơ sau khi véc-tơ hĩa, mỗi phần tử của véc-tơ thể hiện mức độ quan trọng của từ đĩ trong văn bản. Giả sử véc-tơ của hai văn bản cần so sánh lần lượt là:
Di = <𝑊𝑊1𝑖𝑖, …, 𝑊𝑊𝑡𝑡𝑖𝑖> với 𝑊𝑊𝑡𝑡𝑖𝑖 là trọng số của từ thứ t trong khơng gian véc-tơ i.
Dj = <𝑊𝑊1𝑗𝑗, …, 𝑊𝑊𝑡𝑡𝑗𝑗> với 𝑊𝑊𝑡𝑡𝑗𝑗 là trọng số của từ thứ t trong khơng gian véc-tơ j.
Khi đĩ, độ tương đồng cosine của hai văn bản Di và Dj được tính như biểu thức
2.3: 𝑆𝑆𝑖𝑖𝑚𝑚(𝐷𝐷𝑖𝑖𝑗𝑗) = � 𝑊𝑊𝑘𝑘 𝑖𝑖 𝑊𝑊𝑘𝑘𝑗𝑗 𝑡𝑡 𝑘𝑘=1 �� �𝑊𝑊𝑡𝑡 𝑘𝑘𝑖𝑖�2 𝑘𝑘=1 ∗ �𝑡𝑡 �𝑊𝑊𝑘𝑘𝑗𝑗�2 𝑘𝑘=1 2.3 Ngồi ra, cịn cĩ những phương pháp tính độ tương đồng văn bản dựa trên véc-tơ biểu diễn như độ tương đồng dựa vào khoảng cách Euclide, độ tương đồng dựa vào khoảng cách Manhattan.
2.3.2.3. Độ tương đồng ngữ nghĩa của văn bản
Các nghiên cứu đánh giá độ tương đồng ngữ nghĩa giữa hai văn bản đều sử dụng véc-tơ đặc trưng ngữ nghĩa của văn bản. Mỗi thành phần trong véc-tơ này được thiết lập từ việc tính độ tương đồng của một từ trong văn bản với các từ trong văn bản cịn lại, trọng số của thành phần là độ đo tương tự lớn nhất (Li et al., 2004).
Giả sử cĩ hai văn bản d1, d2 lần lượt cĩ m1, m2 từ vựng đã được tách trong văn bản; wij là từ thứ j thuộc văn bản thứ i. Tập từ của hai văn bản d1 và d2 được biểu diễn như sau: T1 = {w11, w12, …, w1m1}; T2 = {w21, w22, …, w2m2}
T là phép hợp của T1 và T2: T = T1 ∪ T2 = {w1, w2, …, wm}. Trong đĩ, m là số lượng từ. Véc-tơ đặc trưng ngữ nghĩa của văn bản T1 và T2 lần lượt biểu diễn là V1 = (v11, v12, …, v1m), V2 = (v21, v22, …, v2m). Độ tương đồng ngữ nghĩa (tương đồng cosine) của hai văn bản được tính dựa trên hai véc-tơ đặc trưng ngữ nghĩa V1 và V2 được tính như biểu thức 2.4: 𝑆𝑆𝑠𝑠(𝑇𝑇1 ,𝑇𝑇2 ) =|𝑉𝑉(𝑉𝑉1 .𝑉𝑉2 ) 1 | . |𝑉𝑉2| = ∑ 𝑣𝑣𝑚𝑚 1𝑖𝑖 .𝑣𝑣2𝑖𝑖 𝑖𝑖=1 �∑𝑚𝑚 𝑣𝑣1𝑖𝑖2 𝑖𝑖=1 �∑ 𝑣𝑣2𝑖𝑖𝑚𝑚 2 𝑖𝑖=1 2.4 Giá trị 𝑆𝑆𝑠𝑠(𝑇𝑇1 ,𝑇𝑇2 ) trong khoảng (0, 1), giá trị càng lớn thì độ tương đồng hai văn
2.3.2.4. Độ tương đồng văn bản dựa vào thứ tự của từ trong văn bản
Sau độ tương đồng ngữ nghĩa của văn bản, độ tương đồng về thứ tự từ là thành phần quan trọng của độ tương đồng văn bản. Cùng một tập từ giống nhau nhưng nếu trình bày trật tự khác nhau trong văn bản sẽ cĩ ý nghĩa khác, thậm chí hai ý nghĩa trái ngược nhau. Ví dụ: Cho trước hai tập văn bản như sau: T1 = {em, thương, cơ_giáo}; T2 = {cơ_giáo, thương, em}. Hai tập từ T1 và T2 chứa những từ hồn tồn giống nhau, chỉ sai khác về thứ tự của cặp từ “em”, “cơ_giáo”. Vì thế cĩ thể nĩi việc hai tập từ hồn tồn giống nhau chưa chắc mang ý nghĩa giống nhau.
Nghiên cứu về trật từ trong văn bản, nhĩm tác giả Li et al. (2004) đã nghiên cứu phương pháp tính độ tương đồng thứ tự từ như sau:
Từ hai văn bản T1 và T2, phép hợp của hai tập từ (những từ phân biệt) được xác định: T = T1 ∪ T2. Véc-tơ đặc trưng thứ tự từ của hai văn bản lần lượt là R1 = (r11, r12, …, r1m) và R2 = (r21, r22, …, r2m) được xác định như sau:
Véc-tơ thứ tự từ biểu diễn thứ tự của mỗi từ wi thuộc T ở vị trí nào trong mỗi văn bản T1 và T2. Với mỗi từ wi thuộc T, ta lần lượt xét: Nếu wi cĩ trong T1 thì r1i là số thứ tự wi trong T1; nếu khơng tồn tại wi trong T1 thì r1i là 0. Tương tự, ta xét đối với T2.
Véc-tơ đặc trưng của từ biểu diễn thơng tin về cấu trúc từ trong văn bản. Từ hai véc-tơ đặc trưng thứ tự từ, độ tương đồng về trật tự hai văn bản được xác định như biểu thức 2.5: 𝑆𝑆𝑟𝑟 = 1−|𝑅𝑅1 − 𝑅𝑅2 | |𝑅𝑅1 + 𝑅𝑅2 | = �∑𝑚𝑚 (𝑟𝑟1𝑖𝑖 − 𝑟𝑟2𝑖𝑖)2 𝑖𝑖=1 �∑𝑚𝑚 (𝑟𝑟1𝑖𝑖 + 𝑟𝑟2𝑖𝑖)2 𝑖𝑖=1 2.5