Vào năm 1998 [7][1], Brin đã giới thiệu một phương pháp học bán giám sát cho việc trích chọn mẫu quan hệ ngữ nghĩa DIRPE. Phương pháp được thử nghiệm với quan hệ “author –book” với tập dữ liệu ban đầu khoảng 5 ví dụ cho quan hệ này. DIRPE mở rộng tập ban đầu thành một danh sách khoảng 15.000 cuốn sách.
Phương pháp DIRPE được mô tả như sau:
Đầu vào: Tập các quan hệ mẫu S = {<Ai ,Bi>}. Ví dụ trong trườn hợp trên, tập
quan hệ mẫu là S = {<authori ,booki>}. Tập này được gọi là tập hạt giống.
Đầu ra: Tập các quan hệ R trich chọn được.
Xử lý:
Tập quan hệ đích R được khởi tạo từ tập hạt giống S.
Tìm tất cả các câu có chứa đủ các thành phần của tập hạt giống ban đầu. Dựa vào tập câu đã tìm được, tiến hành tìm các mẫu quan hệ giữa các thành
phần của hạt giống ban đầu. Brin định nghĩa mẫu ban đầu rất đơn giản, bằng việc giữ lại khoảng m kí tự trước thành phần mẫu đầu tiên, gọi là prefix; giữ
25
lại phía sau thành phần thứ hai n kí tự gọi là suffix; k kí tự nằm giữa hai thành phần này, gọi là middle. Mẫu quan hệ được biểu diễn dưới dạng sau: [order, author, book, prefix, suffix, middle] trong đó, order thể hiện thứ tự xuất hiện của author và book trong một câu. (order = 1 thì author đứng trước book và bằng 0 trong trường hợp còn lại)
Từ những mẫu mà chưa được gán nhãn ta thu được một tập hạt giống <A’, B’> mới; thêm hạt giống mới này vào tập hạt giống cho quan hệ đó.
Quay lại bước 2 để tìm ra những hạt giống và mẫu mới cho tới khi tập Ví dụ minh họa đối với quan hệ “tác giả - sách” ở trên :
Đầu vào:
Tập hạt giống ban đầu S= {<Arthur Conan Doyle, The Adventures of Sherlock Holmes>}.
Và một tập các tài liệu bao gồm các hạt giống ban đầu Xử lý:
Quan hệ đích R được gán bằng S Xác định mẫu quan hệ.
Mẫu quan hệ có dạng như sau: [order, author, book, prefix, suffix, middle] Dựa vào tập tài liệu, ta thu tập các câu có chứa tập hạt giống ban đầu. Từ tập câu này, tiến hành trích chọn các mẫu quan hệ. (như hình 8).
Từ đó trích chọn ra được một tập các mẫu:
[ 0, Arthur Conan Doyle, The Adventures of Sherlock Holmes, Read, online or, by]
[1, Arthur Conan Doyle, The Adventures of Sherlock Holmes, now that Sir, in 1892, wrote] …
26
Hình 8: Các quan hệ mẫu trích chọn được
Sau khi được tập mẫu trên, chúng ta tiến hành so khớp (matching) các thành phần giữa, trước và sau của mỗi mẫu để gom nhóm chúng lại thành từng nhóm và loại bỏ những mẫu trùng nhau. Từ đó, ta thu được những mẫu đại diện cho một nhóm các mẫu có dạng như sau:
[từ phổ biến nhất của prefix, author, middle, book, từ phổ biến nhất của suffix]
Mẫu trích chọn cho:
[sir, Arthur Conan Doyle, wrote, The Adventures of Sherlock Holmes, in
1892]
Việc sinh hạt giống mới.
Từ những mẫu hoàn chỉnh, ta xét tới những mẫu còn khuyết một vài thành phần, ví dụ như sau: [Sir, ???, wrote, ???in 1892].
Sử dụng những tập mẫu như trên để tìm kiếm những tài liệu khác “Sir Arthur Conan Doyle worte Speckled Band in 1892, that is aroud 662 years apart which
would make the stories”…
Từ tập câu tìm kiếm được, ta có thể trích xuất ra được những tập hạt giống mới mới: (Arthur Conan Doyle, Speckled Band)
Phương pháp đạt hiệu quả cao trên dữ liệu html cho việc xác định tập mẫu và sinh hạt giống mới. Vì thế, dựa trên ý tưởng của phương pháp DIPRE, vào năm 2000, Agichtein và Gravano đưa ra phương pháp Snowball [14] tiến hành thực hiện trên dữ liệu không cấu trúc, xây dựng độ đo để đánh giá độ tin cậy cho việc sinh tập
27
mẫu quan hệ và tập hạt giống mới được sinh ra và bổ sung thêm việc nhận dạng thực thể. Phương pháp này được trình bày chi tiết hơn ở phần tiếp theo.