Thành phần so trùng mẫu vừa trình bày chưa giải quyết hai vấn đề khó sau, mà nếu thành công sẽ làm tăng hiệu quả rút trích thông tin ([66]):
1. Sự đồng tham chiếu tên thực thể:
Đây là trường hợp nhiều tên thực thể khác nhau tham chiếu đến cùng một thực thể. Ví dụ, các tên “Thứ trưởng Mai Liêm Trực”, “TS Trực” hoặc “ông Trực” trong cùng ngữ cảnh sẽ cùng chỉ đến một người là Mai Liêm Trực.
2. Sự mập mờ tên thực thể:
Đây là trường hợp một tên thực thể có thể chỉ đến nhiều thực thể khác nhau. Ví dụ, “đường Trần Hưng Đạo” cùng là tên của đường Trần Hưng Đạo ở Thành phố Hồ Chí Minh và đường Trần Hưng Đạo ở Thủ đô Hà Nội.
Thật sự hai vấn đề này có liên quan hỗ tương với nhau, tức là kết quả của phân giải đồng tham chiếu sẽ giúp cho việc phân giải mập mờ, và ngược lại. Chẳng hạn, trong ví dụ về “ông Trực” ở trên, tên này cũng có thể chỉ đến một người khác là Mai Ái Trực. Tuy nhiên nếu kết quả phân giải đồng tham chiếu cho biết tên này và “Thứ trưởng Mai Liêm Trực” là đồng tham chiếu, thì sự mập mờ về tên cũng được giải quyết. Tương tự, nếu kết quả phân giải mập mờ nói rằng “ông Trực” chỉ đến Mai Ái Trực, thì tên này và “Thứ trưởng Mai Liêm Trực” không đồng tham chiếu. Vì vậy, chúng tôi đề xuất giải quyết xen lẫn hai vấn đề này trong VN-KIM như minh họa ở Hình 4.4.1. Các giải thuật cụ thể phân giải đồng tham chiếu và mập mờ được trình bày sau đây.
Hình 4.4.1 Kết hợp phân giải đồng tham chiếu và mập mờ trong VN-KIM IE
Phân đoạn từ đơn giản
Tách câu
So trùng cụm từ
Loại bỏ mập mờ bước 2 Ontology
Cơ sở tri thức và Ngữ liệu
...…
…...
Phân đoạn từ
Gán nhãn từ loại
So trùng mẫu
Phân giải đồng tham chiếu
Loại bỏ mập mờ bước 1 Chú thích ngữ nghĩa Nội dung tài liệu
Phân giải đồng tham chiếu
Phân giải đồng tham chiếu là một vấn đề đã nảy sinh từ lâu và thu hút sự quan tâm nghiên cứu trong lĩnh vực ngôn ngữ học tính toán (Computational Linguistics). Nhiều công trình trước đây khai thác mạnh tri thức về ngôn ngữ và miền văn bản ([23], [25], [75]). Các hướng tiếp cận này thường dựa trên các yếu tố như sự hoà hợp về giống và số, sự song song về cú pháp, sự nhất quán về ngữ nghĩa, ... Các yếu tố này có thể dùng như những ràng buộc cứng để loại bỏ các lời giải không hợp lệ, hoặc như tiêu chí để xác định độ ưu tiên cho các lời giải ([141]). Tuy nhiên, các giải pháp đó đòi hỏi nhiều công sức và thời gian.
Điều này đã thúc đẩy việc chuyển sang các hướng tiếp cận dùng ít tri thức ngôn ngữ. Những năm gần đây, các hướng tiếp cận theo học máy cũng được áp dụng để giải quyết vấn đề này và đạt được các kết quả nhất định ([93], [123], [138]). Đồng thời, các hướng tiếp cận dựa trên luật cũng đạt được hiệu quả tốt ([5], [10], [37], [134]).
Trong đề tài này, chúng tôi áp dụng, điều chỉnh và bổ sung các luật trong [10] cho phân giải đồng tham chiếu tên thực thể tiếng Việt. Trong lối viết tiếng Việt, một tên riêng có thể được viết tắt theo nhiều cách khác nhau, làm cho các luật so trùng đơn giản mất tác dụng. Ví dụ, “Trường Đại học Công nghệ Thành phố Hồ Chí Minh” có thể viết tắt là
“Trường ĐH Công nghệ TP.HCM”, “Trường ĐHCN TP.HCM”, hoặc “Trường ĐHCN TPHCM”. Hơn nữa, các tổ chức ở Việt Nam thường có tên tiếng Anh tương ứng, và chuỗi viết tắt của các tên tiếng Anh cũng được sử dụng trong văn bản tiếng Việt. Ví dụ, “Ngân hàng Thương mại Việt Nam” thường được tham chiếu đến bằng các tên “VietComBank”
hoặc “VCB”. Điều này làm tăng tính phức tạp cho vấn đề phân giải đồng tham chiếu.
Các luật sau đây được đề xuất trong [10] với một vài điều chỉnh cho trường hợp tiếng Việt, xác định hai tên tham chiếu đến cùng một thực thể:
Luật 1: Hai tên riêng giống nhau.
Luật 2: Token cuối của một tên người so trùng với tên còn lại. Ví dụ, “Mai Liêm Trực”
và “Trực”. Trong [10] còn có luật so trùng Token đầu tiên. Tuy nhiên trong tiếng Việt Token đầu tiên là họ, ít khi dùng. Hơn nữa, luật so trùng Token đầu tiên được gộp trong Luật 5 dưới đây.
Luật 3: Một tên là bí danh của tên còn lại. Ví dụ, “Sài Gòn” và “TP. Hồ Chí Minh”.
Luật 4: Một tên và viết tắt của tên còn lại. Ví dụ, “Trường ĐHBK TP.HCM” và “Trường Đại Học Bách Khoa TP.HCM”.
Luật 5: n Token đầu của hai tên giống nhau, m Token cuối của hai tên giống nhau, và số lượng Token của tên ngắn hơn là n + m. Ví dụ, “Công ty Quốc doanh Đại An” và “Công ty Đại An”. Luật này mở rộng luật tương ứng trong [10] có điều kiện là Token đầu hoặc Token cuối của một tên so trùng với tên còn lại, như “John Smith” và “John”.
Luật 6: Tiền tố của một tên giống với, hoặc là viết tắt của, tên còn lại, và chuỗi các Token còn lại của một tên nằm trong tên còn lại. Ví dụ, “Cty Apave” và “Công ty TNHH Apave Việt Nam”. Luật này mở rộng luật tương ứng về tên gồm nhiều từ trong [10], kiểm tra xem một tên ngắn hơn có so trùng với chuỗi Token trong tên còn lại không.
Ngoài các luật trình bày ở trên, chúng tôi đề xuất bổ sung thêm các luật mới sau:
Luật 7: Tất cả Token của một tên là các Token cuối của tên còn lại. Ví dụ, “Thanh Hiên”
và “Nguyễn Thanh Hiên”. Luật này hữu ích vì ở Việt Nam tên lót cũng thường được sử dụng.
Luật 8: Token cuối của một tên là viết tắt của các Token cuối của tên còn lại. Ví dụ, “TP.
HCM” và “TP. Hồ Chí Minh”.
Luật 9: n Token cuối của cả hai tên giống nhau, Token đầu của tên ngắn hơn là viết tắt của các Token đầu của tên còn lại, và số lượng Token của tên ngắn hơn là n + 1. Ví dụ,
“TP. Đà Nẵng” và “Thành phố Đà Nẵng”.
Luật 10: Trong tên ngắn hơn, một số Token là viết tắt của các Token trong tên còn lại, và tất cả các Token khác trong tên ngắn hơn xuất hiện trong tên còn lại. Ví dụ, “Công ty HP Việt Nam” và “Công ty TNHH Hewlett Packard Việt Nam”.
Luật 11:Tên ngắn hơn được viết trong dấu ngoặc tròn theo sau tên còn lại. Ví dụ “Ngân hàng Thương mại Việt Nam (VCB)”.
Có thể thấy rằng, trong các luật nói trên, Luật 5 là tổng quát của Luật 1, Luật 7 là tổng quát của Luật 1 và Luật 2, Luật 6 là tổng quát của Luật 5 và Luật 7, Luật 10 là tổng quát của Luật 1, Luật 4, Luật 8 và Luật 9. Tuy nhiên, các luật càng cụ thể càng đáng tin cậy, nên chúng sẽ được áp dụng trước các luật tổng quát hơn.
Giải thuật phân giải đồng tham chiếu trong VN-KIM IE, sau giai đoạn so trùng mẫu, nhận đầu vào là danh sách các chú thích ngữ nghĩa có cấu trúc a = (pn, c, id, t), trong đó pn, c, id, t lần lược là tên riêng, lớp thực thể, định danh thực thể, và kiểu của chú thích.
Mỗi kiểu chú thích t chỉ nhận một trong bốn giá trị là Con_người, Tổ_chức, Nơi_chốn hoặc Thực_thể, là lớp cao nhất bao lấy c. Trường hợp thực thể được nhận diện nhưng không xác định được lớp tương ứng (c = null) thì t = Thực_thể. Hàm kiểm tra sự đồng tham chiếu của hai chú thích ngữ nghĩa được trình bày ở Hình 4.4.2, trong đó match(pn1, pn2) sử dụng các luật so trùng ở trên và c ⊂ c' là kí hiệu c lớp con của c'.
coref(a1 = (pn1, c1, id1, t1), a2 = (pn2, c2, id2, t2)) if (id1 = null) or (id2 = null)
if (c1=c2) or (c1⊂c2) or (c2⊂c1) or ((t1=UN) xor (t2=UN)) if match(pn1, pn2) return true
else if (id1 = id2) return true;
else return false;
Hình 4.4.2 Hàm kiểm tra sự đồng tham chiếu trong VN-KIM IE
Đồng tham chiếu là một quan hệ tương đương, nghĩa là nó có tính đối xứng, truyền và bắc cầu. Trong một số trường hợp, tính bắc cầu là nguyên nhân dẫn đến việc tạo ra các
chuỗi đồng tham chiếu không đúng. Ví dụ, “Mai Liêm Trực” và “Trực” là đồng tham chiếu, “Mai Ái Trực” và “Trực” là đồng tham chiếu, do đó chuỗi đồng tham chiếu {“Mai Liêm trực”, “Trực”, “Mai Ái Trực”} được tạo ra không chính xác. Vì vậy, để tránh những trường hợp này, trong hàm kiểm tra ở trên, định danh của các thực thể chứa trong các chú thích được so sánh, nếu chúng khác rỗng (null) và không bằng nhau thì không thể đồng tham chiếu. Trường hợp một trong hai định danh là rỗng, các luật so trùng được áp dụng cho cặp tên tương ứng.
Phân giải mập mờ
Gần đây, loại bỏ mập mờ tên riêng là vấn đề được quan tâm nhiều trong cộng đồng Web có ngữ nghĩa nói riêng, và xử lý ngôn ngữ tự nhiên nói chung. Đã có một số nghiên cứu trên các ngôn ngữ khác nhau, đặc biệt là tiếng Anh, nhưng hiếm thấy một nghiên cứu liên quan cho tiếng Việt. Một số giải pháp hiệu quả cho vấn đề loại bỏ mập mờ tên riêng thường dựa trên hai yếu tố là ngữ cảnh của văn bản và tri thức về thế giới đang xét. Tri thức về thế giới có thể là cơ sở dữ liệu các tên riêng rút trích từ các kho ngữ liệu ([133]) hoặc Ontoloty ([36]).
Một số giải pháp dựa trên kết quả phân giải đồng tham chiếu trong cùng một văn bản ([9], [83]) hoặc giữa các văn bản khác nhau ([117]). Bên cạnh đó, có một số giải pháp khai thác mối quan hệ giữa các thực thể được đề cập đến trong văn bản để loại bỏ mập mờ, như [65], dựa trên mối quan hệ giữa các thực thể thể hiện thông qua xác suất thống kê được trên các kho ngữ liệu. Cũng như đối với vấn đề đồng tham chiếu, các giải pháp sử dụng các luật Heuristic hoặc kết quả học máy. Đối với tiếng Việt, do thiếu các kho ngữ liệu chuẩn và từ điển như WordNet trong tiếng Anh, nên hiện tại chúng tôi theo hướng tiếp cận sử dụng luật.
Sự mập mờ có thể được chia làm hai dạng, hoặc hai cấp, là mập mờ lớp thực thể và mập mờ định danh thực thể. Mập mờ lớp thực thể xảy ra khi một tên xuất hiện trong văn bản có thể là tên của các thực thể thuộc các lớp khác nhau. Trong khi đó, mập mờ định danh thực thể là khi một tên có thể tham chiếu đến nhiều thực thể khác nhau. Tất nhiên, nếu phân giải được sự mập mờ ở cấp độ định danh thực thể, thì cũng giải quyết xong sự
mập mờ ở cấp độ lớp thực thể. Tuy nhiên, nhiều khi vấn đề chỉ giải được ở mức xác định lớp của thực thể mà một tên tham chiếu đến.
Trong một văn bản, chúng tôi gọi các thực thể tương ứng với các tên riêng không mập mờ là các thực thể xác định, còn các thực thể tương ứng với một tên riêng mập mờ là các thực thể dự tuyển. Chúng tôi dùng các thực thể xác định làm khung ngữ cảnh để tìm ra thực thể đúng cho một tên mập mờ. Tức là, thực thể dự tuyển có quan hệ với các thực thể xác định trong ngữ cảnh của một tên mập mờ sẽ được chọn là thực thể tương ứng với tên đó. Sự tồn tại các quan hệ giữa một thực thể dự tuyển với các thực thể xác định được kiểm tra đối với cơ sở tri thức hiện có.
Mối quan hệ giữa các thực thể dự tuyển và các thực thể xác định được xét trước tiên trong phạm vi một câu. Ứng với mỗi thực thể dự tuyển, lần lượt các mối quan hệ của nó với các thực thể xác định được xem xét. Cuối cùng, thực thể dự tuyển nào có số điểm cao nhất sẽ được chọn. Nếu trong phạm vi một câu mà không loại bỏ được mập mờ, thì ngữ cảnh sẽ được mở rộng thành một đoạn, và có thể tiếp tục ra toàn văn bản để xét. Chính các tên riêng sau khi được loại bỏ mập mờ sẽ được sử dụng để loại bỏ mập mờ cho các tên riêng còn lại.
Giải thuật ở Hình 4.4.3 thực hiện phương pháp trên. Gọi AN là tập các tên riêng có nhập nhằng trong văn bản, C = {Câu, Đoạn, Văn bản} là tập các phạm vi xét mối quan hệ giữa các thực thể, Ec là tập các thực thể xác định trong phạm vi c∈C, CEc,n là tập các thực thể dự tuyển có tên là n ∈AN trong phạm vi c∈C, và R ⊆CEc,n×Ec xác định mối quan hệ giữa hai thực thể. Chúng tôi sử dụng kí hiệu r(ce, e) để biểu thị hàm Boole r(ce, e)∈R, và định nghĩa f: CEc,n×Ec → {0, 1} sao cho f(ce, e) = 1 khi và chỉ khi r(ce, e) = true.
disambiguate(n) M = CEc,n
for each c ∈C ME = {
ce∈M
max
arg ( , )
∑1
= Ec
j
ej
ce
f }
if M =1 break /* Nếu M =1 thì loại được mập mờ */
else M=ME return M
Hình 4.4.3 Giải thuật loại bỏ nhập nhằng dựa vào mối quan hệ giữa các thực thể
Ví dụ, xét đoạn văn bản “Viện kiểm sát đề nghị truy tố 7 đối tượng tham gia vụ gây rối trật tự công cộng xảy ra đêm 21/3 tại khu vực đường Trần Hưng Đạo, Quận 1, TP.
HCM”. Ở đây, tên “đường Trần Hưng Đạo” có mập mờ, vì tương ứng với hai thực thể trong cơ sở tri thức: một là đường Trần Hưng Đạo (ce1) ở TP. HCM và một là đường Trần Hưng Đạo (ce2) ở Hà Nội. Tên “TP HCM” chỉ có một chú thích tương ứng với thực thể xác định TP. HCM (e1). Thực thi giải thuật ở trên, đầu tiên xét trong phạm vi một câu, M
= {ce1} và M =1, nên mập mờ được loại bỏ và hệ thống kết luận “đường Trần Hưng Đạo” là tên của thực thể đường Trần Hưng Đạo ở TP HCM.
Như đã phân tích ở trên, vấn đề đồng tham chiếu và mập mờ có quan hệ tương hỗ với nhau, vì vậy chúng tôi chia việc loại bỏ mập mờ thành hai giai đoạn. Giai đoạn một là loại bỏ mập mờ dựa trên mối quan hệ giữa các thực thể. Sau đó phân giải đồng tham chiếu tên riêng được tiến hành. Từ kết quả phân giải đồng tham chiếu, giai đoạn hai của loại bỏ mập mờ được thực hiện. Ý tưởng cơ bản là trong các tên đồng tham chiếu với nhau, nếu có một tên không mập mờ, thì chú thích của tên này sẽ được gán cho các tên còn lại, như thực hiện bởi các bước ở Hình 4.4.4.
1. Xét từng chuỗi đồng tham chiếu.
2. Ứng với mỗi chuỗi đồng tham chiếu, chọn ra chú thích tương ứng với tên không có mập mờ và thực thể tương ứng có kiểu chi tiết nhất (tương ứng với lớp sâu nhất trong Ontology).
3. Cập nhật lại các chú thích khác theo chú thích đã chọn.
4. Loại các chú thích không phù hợp.
Hình 4.4.4 Các bước loại bỏ mập mờ dựa trên sự đồng tham chiếu
Ví dụ, trong đoạn văn bản “Ngày hội HP dành cho doanh nghiệp Đà Nẵng: Hôm qua, Công ty HP Việt Nam đã giới thiệu với hơn 200 doanh nghiệp miền Trung một loạt giải pháp toàn diện”, tên “HP” có mập mờ vì đó có thể là tên của công ty HP hoặc viết tắt của thành phố Hải Phòng. Tuy nhiên, tên này đồng tham chiếu với tên “HP Việt Nam”
của một thực thể xác định, nên cũng được gán chú thích của thực thể xác định này.
Đánh giá hiệu quả
Vấn đề đồng tham chiếu có thể được định nghĩa như là xác định xem các cặp nào trong một danh sách các cặp chú thích là đồng tham chiếu. Gọi R là số lượng các cặp chú thích đồng tham chiếu thật sự trong danh sách, và A là số lượng các cặp được xác định là đồng tham chiếu bởi một phương pháp. Khi đó, độ chính xác và độ đầy đủ của phương pháp được định nghĩa lần lượt như qui ước là |R∩A|/|A| và |R∩A|/|R|.
Để đánh giá hiệu quả của phương pháp đề ra, chúng tôi đã xây dựng một kho văn bản chú thích bằng tay gồm 200 tin lấy ngẫu nhiên từ báo điện tử Vnexpress, với tổng cộng 2383 cặp chú thích. Kết quả cho thấy độ chính xác và độ đầy đủ trên tập dữ liệu thử nghiệm này tương ứng là 97% và 95%. Tuy nhiên, phương pháp cần phải được thử nghiệm thêm trên các tập dữ liệu khác nhau. Ngoài ra, việc đưa vào thành phần phân giải đồng tham chiếu và loại bỏ mập mờ đã làm giảm đáng kể tốc độ chú thích của VN-KIM IE. Vì vậy, hiện tại thành phần này chưa được chính thức đưa vào VN-KIM IE.
Chương 5
Truy vấn cơ sở tri thức và kho các trang Web có ngữ nghĩa