Trong bài toán kế thừa văn bản, Glickman và cộng sựđề cập đến một mô hình xác suất kế thừa từ vựng, tức là sẽ xác định khi nào thì các thành phần từ vựng của giả thuyết được suy ra (kế thừa) từ một văn bản [18].
Trước tiên, các tác giảđịnh nghĩa hai loại sự kiện thông qua không gian xác suất cho T W:
I) Đối với mỗi giả thuyết h, ký hiệu Trh là biến ngẫu nhiên mà giá trị của nó là giá trị chân lý được gán cho h. Trong đó, Trh =1 là sự kiện của h được gán giá trị chân lý là 1 (đúng).
II) Với mỗi văn bản t, sử dụng chính t để khai báo những sự kiện mà các văn bản được sinh ra là t (thông thường, đặt trong một bối cảnh, t có thể biểu diễn một văn bản hoặc sự kiện tương ứng)
Xác suất để một văn bản kế thừa giả thuyết h (kí hiệu là t h) sẽ lớn hơn xác suất của h nếu t làm tăng khả năng đúng sự thật của h, nói cách khác ta có P (Trh= 1| t) > P (Trh= 1).
Để xây dựng một mô hình học không giám sát trên từ vựng, các tác giả gán ý nghĩa về nội dụng của các từ trong giả thuyết h= {u1, u2,.. un} với một giá trị chân lý. Giá trị chân lý có thểđược hiểu là khái niệm của từ vựng được gán bằng chính nghĩa của từđó. Ví dụ, với câu văn bản t, = 1 nếu từ book có trong câu văn bản t và ngược lại = 0 nếu t không chứa nó. Một giả thuyết được giảđịnh là mang giá trị chân lý đúng khi và chỉ khi tất cả các thành phần từ vựng của nó là đúng. Trong quá trình ước lượng xác suất kế thừa, các tác giả coi như xác suất của mỗi từ u trong giả thuyết h là độc lập với các từ khác trong giả thuyết h. Vì vậy, xác suất kế thừa được ước lượng theo công thức sau:
15
P (Trh= 1| t) = ∏ .∈P (Tru =1 |t) (1) P (Trh= 1) = ∏ .∈P (Tru =1)
Đối với mỗi từ u, xác suất P(Tru = 1| t) có thểđược tính theo chuNn naive bayes . McCallum và cộng sự đã kết hợp việc sử dụng thuật toán trường ngẫu nghiên có điều kiện (CRF - Conditional Random Field) với khoảng cách chuyển đổi xâu để đưa ra phán quyết kế thừa [1]. Các tác giả sử dụng một mô hình đồ thị vô hướng cho khoảng cách chuyển đổi xâu và phương pháp ước lượng tham số xác suất điều kiện tận dụng cả cặp chuỗi phù hợp và không phù hợp. Căn cứ trên trường ngẫu nhiên có điều kiện (CRFs), phương pháp tiếp cận sử dụng việc học phân biệt của mô hình xác suất liên quan tới các biến số tiềm Nn về cấu trúc.
Dữ liệu đào tạo bao gồm các cặp xâu đầu vào, mỗi cặp kết hợp với một nhãn nhị phân cho thấy cặp đó được coi là “phù hợp” hoặc “không phù hợp”. Những tham số mô hình được ước tính từ cả những ví dụ tích cực và tiêu cực (tương ứng với cặp văn bản – giả thuyết kế thừa và không kế thừa). Mô hình được cấu trúc như một máy hữu hạn trạng thái (FSM) với một trạng thái khởi tạo duy nhất và có hai tập trạng thái không khởi tạo tách rời nhau và không có quá trình chuyển đổi giữa chúng. Quá trình chuyển đổi được gán nhãn bởi các toán tử chuyển đổi. Một trong hai tập không khởi tạo biểu diễn điều kiện phù hợp, tập còn lại biểu diễn điều khiện không phù hợp. Bất kỳđường dẫn trạng thái không rỗng bắt đầu tại trạng thái khởi tạo xác định một chuỗi chuyển đổi mà chứa toàn bộ trong một hoặc hai tập con. Bằng việc quan tâm tới tất cả các chuỗi chuyển đổi trong một tập con, chúng ta có được xác suất phù hợp hoặc không phù hợp. Chi phí chuyển đổi là hàm các toán tử chuyển đổi của nó, trạng thái trước đó, trạng thái mới, hai xâu đầu vào và vị trí bắt đầu, kết thúc (vị trí của sự phù hợp trước và sau khi thực hiện toán tử này) của mỗi xâu đầu vào. Ví dụ, hàm chi phí có thể xem xét tới cả các phần của chuỗi đầu vào cả trước và sau vị trí phù hợp hiện tại, nó cũng xem xét tới miền tri thức như từ vựng.
Phương pháp sử dụng giải thuật Tree Edit Distance được nhóm tác giả Al. I. Cuza sử dụng trong hệ thống phát hiện kế thừa văn bản tham gia ở RTE-3 [11].
Các tác giả thiết kế hệ thống dựa trên phát hiện thực tế: xác suất của một mối quan hệ kế thừa giữa T và H có liên quan tới khả năng ánh xạ toàn bộ nội dung của H vào nội dung của T. Càng nhiều phép ánh xạđơn giản có thểđược thiết lập thì khả năng tồn tại một mối quan hệ kế thừa càng cao. Việc ánh xạ giữa hai văn bản có thể
16
được diễn giải thông qua các phép toán chỉnh sửa để chuyển T thành H, mỗi phép chỉnh sửa được gán cho một giá cốđịnh. Dựa trên tổng số giá thu được, hệ thống gán một quan hệ kế thừa cho cặp (T,H) nếu như tổng giá này thấp hơn một ngưỡng.
Theo như hướng tiếp cận nêu trên, T kế thừa H nếu tồn tại một bộ tuần tự các phép chuyển đổi T và sau khi thực hiện thì thu được H với tổng số giá thu được nằm dưới ngưỡng. Giả thuyết là các cặp có tồn tại mối quan hệ kế thừa thì sẽ tốn một giá thấp của các phép chuyển đổi. Các phép biển đổi (xóa, chèn hoặc thay thế) được xác định bởi một bộ quy tắc kế thừa định trước, các chi phí tương ứng cũng được cân nhắc từ trước đối với mỗi phép chỉnh sửa này.