Việc sử dụng biểu thức chính qui để trích rút quan hệ dựa trên các mẫu ngữ cảnh chỉ ra quan hệ ngữ nghĩa giữa các thực thể.
Ví dụ:
<per> sinh năm <time> ở <loc>
Tác giả sẽ đưa ra một số mẫu ngữ cảnh và biểu thức chính qui tương ứng để trích rút các quan hệ này.
Tại bước đầu tiên của quan hệ, tác giả sẽ đi xác định tên người cần quan tâm. Đối với các văn bản tiểu sử được lấy từ trang web tiếng Việt wikipedia thì tên người này nằm ở câu đầu tiên của văn bản. Tiếp đó tiến hành chỉnh sửa các nhãn, nhãn <per> d ng để chỉ thực thể người nói đến chính trong văn bản, còn nhãn <per_individual> d ng để chỉ thực thể người không nói đến chính trong văn bản (có thể có quan hệ với thực thể người nói đến chính trong văn bản).
Nguyễn Cao Cường 40 Luận văn Thạc sỹ
3.2.4.1 Trích rút ngày sinh
Thông tin về ngày sinh chính là thực thể thời gian (<time>) có quan hệ với thực thể tên người thỏa mãn mẫu ngữ cảnh sau:.
Các mẫu ngữ cảnh
<per> “sinh” <time>
Ví dụ: <per> [Lê Công Vinh] </per> ( [sinh] [ngày] <time> [10] [tháng] [12] [năm] [1985] </time> )…
<per> (<time> - <time>)
Ví dụ: <per>[Eusébio da Silva Ferreira] (<time>[25] [tháng] [1] [năm] [1942] </time>–<time> [5][ tháng] [1] [năm] [2014]<time>)
<per> (<time>)
Trong đó <time> có định dạng [năm sinh – năm mất] hoặc [năm sinh] – [năm mất]
Ví dụ:
<per> [Trương Văn Bền] </per> ( <time> [1883] - [1956] </time> ) , [quê] [ở] <loc> [Chợ Lớn] ( [Thành phố] [Hồ Chí Minh] ) </loc> , [xuất thân] [từ] [một] [gia đình] [thủ công] .
[Ông vua] [đường thủy] , <per> [Bạch Thái Bưởi] </per> ( <time> [1874- 1932] </time> ) [được] [coi là] [một] [doanh nhân] [kiệt xuất] [của] [đất] <loc> [Việt] </loc> , [biết] [khởi nghiệp] [từ] [hai bàn tay] [trắng] , [có] [ý thức] [dân tộc] .
Biểu thức chính qui:
<per>.*sinh.*<time>
<per>.* +[(]+ <time>
3.2.4.2 Trích rút nơi sinh
Thông tin về nơi sinh chính là thực thể địa điểm (<loc>) có quan hệ với thực thể tên người thỏa mãn mẫu ngữ cảnh sau:
Nguyễn Cao Cường 41 Luận văn Thạc sỹ
Mẫu ngữ cảnh
<per> “sinh”<time> “tại|ở”<loc>
Ví dụ:
<per> [Phạm Thành Lương] </per> ( [sinh] [ngày] [10] [tháng] [9] [năm 1988] [tại] <loc> [Thôn Phù Lưu Hạ] </loc> , [xã] [Phù Lưu] , <loc> [Ứng Hòa] </loc> , <loc> [Hà Tây] </loc> /[nay] [thuộc] <loc> [Hà Nội] </loc>
<per><time>-<time> “tại|ở”<loc>
Ví dụ:
<per>[Eusébio da Silva Ferreira] (<time>[25] [tháng] [1] [năm] [1942] </time>–<time> [5][ tháng] [1] [năm] [2014]<time>) [sinh] [ra] [và] [lớn] [lên] [tại] <loc>[Mozambique]</loc>
Biểu thức chính qui
<per>.*sinh.*<time>.*(tại|ở).*<loc>
<per>.*<time>.*(-).*<time>.*(tại|ở).*<loc>
3.2.4.3 Trích rút ngày mất
Thông tin về ngày mất chính là thực thể thời gian (<time>) có quan hệ với thực thể tên người thỏa mãn mẫu ngữ cảnh sau:.
Mẫu ngữ cảnh
<per> “mất|chết|từ trần|hi sinh”<time>
Ví dụ:
<per>[Eusébio da Silva Ferreira][mất][ngày]<time> [5][ tháng] [1] [năm] [2014]<time>
<per>(<time>-<time>)
Mẫu ngữ cảnh này thực hiện với giả định trong thông tin lược sử, ngày mất thường để cạnh ngày sinh.
Nguyễn Cao Cường 42 Luận văn Thạc sỹ <per>[Eusébio da Silva Ferreira]( <time> [5][ tháng] [1] [năm] [2014]<time>–<time> [5][ tháng] [1] [năm] [2014]<time>)
<per> (<time>)
Trong đó <time> có định dạng [năm sinh – năm mất] hoặc [năm sinh] – [năm mất]
Ví dụ:
<per> [Trương Văn Bền] </per> ( <time> [1883] - [1956] </time> ) , [quê] [ở] <loc> [Chợ Lớn] ( [Thành phố] [Hồ Chí Minh] ) </loc> , [xuất thân] [từ] [một] [gia đình] [thủ công] .
[Ông vua] [đường thủy] , <per> [Bạch Thái Bưởi] </per> ( <time> [1874- 1932] </time> ) [được] [coi là] [một] [doanh nhân] [kiệt xuất] [của] [đất] <loc> [Việt] </loc> , [biết] [khởi nghiệp] [từ] [hai bàn tay] [trắng] , [có] [ý thức] [dân tộc] .
Biểu thức chính qui
<per>.*(mất|chết|từ trần|hi sinh).*<time>
<per>.*[(] <time>.*(-).*<time>
<per>.*<time>,
Đối với biểu thức chính qui thứ 3, sau khi tìm được thời gian sẽ tiến hành kiểm tra thêm điều kiện định dạng thời gian theo dạng [time-time].
Ví dụ: [1933-2001]
3.2.4.4 Trích rút quan hệ gia đình
Thông tin về quan hệ gia đình được trích rút khi chúng ta nhân biết được tên người có quan hệ (bố, mẹ, anh, chị,….) với thực thể tên người cần quan tâm. Hệ thống sẽ trích rút tất cả các quan hệ gia đình được tìm thấy trong văn bản và lưu dưới dạng:
Nguyễn Cao Cường 43 Luận văn Thạc sỹ Ví dụ: Bố của Lê Công Vinh là Lê Công Duệ. Em gái Công Vinh là Lê Khánh Chi
Thì thông tin về quan hệ gia đình sẽ được lưu như sau: Bố là Lê Công Duệ, Em gái là Lê Khánh Chi.
Để trích rút được các thông tin này, tác giả sử dụng các mẫu ngữ cảnh và biểu thức chính qui như sau:
Mẫu ngữ cảnh
X <per> là <per_individual>
X thuộc từ điển về quan hệ gia đình như: bố, mẹ, anh trai, thân phụ, chị gái, con trai, con gái…
Ví dụ:
[Bố] [của] <per> [Vinh] [là] <per_individual> [Lê Công Duệ] </per_individual>.
<per> X là <per_individual> X thuộc từ điển về quan hệ gia đình.
Nhãn <per_individual> chỉ đây là tên thực thể người không tr ng với tên thực thể chính được đề cập trong văn bản.
Ví dụ:
<per>[Pele]</per> [là] [anh trai] [của] <per_individual> [Kwame Ayew] </per_individual> [và] [là] [cha] [của] <<per_individual>> [Andre Ayew] </per_individual>.
Biểu thức chính qui
<per>.* X .*là.*<per_individual>
X .*<per>.*là.*<per_individual>
X thuộc từ điển về quan hệ gia đình như: bố, mẹ, anh trai, thân phụ, chị gái, con trai, con gái.
Nguyễn Cao Cường 44 Luận văn Thạc sỹ
3.2.4.5 Trích rút thông tin về công việc
Thông tin về công việc chính là thực thể tổ chức (<org>) có quan hệ với thực thể tên người. Quan hệ ở đây được hiểu là các từ chỉ ra rằng một người làm cho một tổ chức. Trường công việc được định nghĩa như sau:
Công việc = từ chỉ chức vụ, công việc + tên tổ chức
Ví dụ: Công Vinh hiện đang thi đấu cho câu lạc bộ SLNA.
Khi đó hệ thống sẽ trích rút ra trường công việc là: thi đấu, câu lạc bộ SLNA. Mẫu ngữ cảnh và biểu thức chính qui để trích rút thông tin về công việc như sau:
Mẫu ngữ cảnh
<per> Y<org>
Y là từ nằm trong từ điển chức vụ hoặc các động từ chỉ làm việc như: huấn luyện viên, huấn luyện viên trưởng, đá cho, thi đấu, khoác áo, chuyển sang,…
Ví dụ:
<per> [Vinh] <per> [là] [cầu thủ] [đội trưởng] [của] <org> [câu lạc bộ] [bóng đá] [Hà Nội] </org>
Biểu thức chính qui
<per>.* Y.*<org>
Y là từ nằm trong từ điển chức vụ hoặc các động từ chỉ làm việc như: huấn luyện viên, huấn luyện viên trưởng, đá cho, thi đấu, khoác áo, chuyển sang,…
Nguyễn Cao Cường 45 Luận văn Thạc sỹ
CHƢƠNG 4: THIẾT KẾ VÀ XÂY DỰNG CHƢƠNG TRÌNH
Hệ thống trích rút thông tin cá nhân được xây dựng dựa trên kiến trúc của hệ thống trích rút thông tin đã trình bày ở mục 2.1.2, chương 2.