1. 3 Định nghĩa về bài toán đối sánh
3.4. Phương pháp hồi qui logistic
Phương pháp hồi qui Logistic [26] sử dụng cho mô hình phân lớp được xác định như sau:
1 ( / ) exp( ( , )) ( ) i i i P y x f x y Z x Z(x)= exp( i i( , )) y i f x y
Trong đó, x là cặp chuỗi đầu vào, y là dự đoán nhị phân (đồng nghĩa hay không đồng nghĩa), fi(x, y) là một nhị phân hoặc một hàm đặc trưng giá trị thực mà mô tả đặc trưng của cặp xâu, i là trọng số cho đặc trưng. Trọng số được xác định là log- likelihood của tập dữ liệu huấn luyện:
( ) ( ) 1log ( | )
n j j
j p y x
Mỗi mục của tập dữ liệu training bao gồm một cặp chuỗi và nhãn nhị phân nó cho biết cặp đó có đồng nghĩa hay không. Với một từ điển có thể tạo ra tập training theo cách:
Sinh ra tất cả các cặp chuỗi có thể.
Gán nhãn cho mỗi cặp là đồng nghĩa hay không.
Tuy nhiên, độ phức tạp của thuật toán này rất lớn O(n2) từ một từ điển có n mục từ. Tsuruoka và cộng sự đã giới thiệu một tiến trình lọc, một cặp xâu được tiến hành dự đoán là đồng nghĩa hay không chỉ khi thỏa mãn ít nhất một trong hai điều kiện sau:
Hai chuỗi có độ tương tự cao (> 0.5) về sự tương tự của các đặc trưng bigram được tính: (similarity) =
với g1, g2 là bigram trong chuỗi
Tất cả các ký tự trong xâu ngắn được bao gồm trong những xâu dài với cùng thứ tự.
Trong giai đoạn ước lượng, những cặp không qua được quá trình lọc thì giá trị tương tự sẽ được gán là 0. Mặc dù tiến trình lọc đã cắt giảm số lượng của các mẫu training tuy nhiên chi phí cho việc thực hiện training vẫn rất cao. Số lượng các mẫu huấn luyện đối với các cặp không đồng nghĩa thì cao hơn nhiều so với các cặp đồng nghĩa và chúng ta đã được thấy trong một vài nghiên cứu sơ bộ.