III. Giới thiệu một ontology
2. SUMO ( Suggested Upper Merged Ontology)
a. Giới thiệu
SUMO là một ontology cao cấp nhất được sử dụng như một ontology cơ sở cho đa số các hệ thống xử lý thông tin máy tính. Nó được tạo ra bởi Teknowledge Corporation và hiện tại đang tiếp tục phát triển bởi Articulate Software. Nó là một ứng cử viên cho “ standard upper ontology” (Ontology cao cấp chuẩn) mà IEEE đang tiếp tục thực hiện. SUMO có thể được download và sử dụng miễn phí.
SUMO quan tâm đến những khái niệm “siêu cấp” (những thực thể chung không thuộc một lĩnh vực vấn đề cụ thể), theo cách này nó sẽ dẫn dắt một cách tự nhiên việc sắp xếp phân loại cho bộ bách khoa toàn thư. Hiện tại, nó đã được mở rộng đáng kể gồm một ontology trung cấp và hàng tá các ontology phạm vi.
Phiên bản SUMO đầu tiên được công bố vào tháng 12/2000. Nó định nghĩa một hệ thống phân cấp SUMO class, các luật có liên quan và các quan hệ. Những điều này được trình bày rõ ràng trong một phiên bản ngôn ngữ SUO-KIF có cú pháp giống như LISP. Đồng thời, nó cũng định nghĩa mối liên kết giữa WordNet và SUMO.
SUMO được xây dựng nhằm tạo ra một công cụ suy luận tự động. Để tăng cực đại khả năng tương thích, người thiết kế giản đồ phải đảm bảo rằng quy ước đặt tên sử dụng đồng nghĩa với SUMO cho các từ đồng nhất (như agent, process). SUMO có một mã nguồn mở liên hợp là Sigma knowledge engineering environment.
Hiện thời, SUMO được chia thành 11 phần tương tác với nhau. Phần đầu, Structural Ontology, chứa các khái niệm quan hệ có tác dụng như framework cho việc xác định các thuộc tính ontology. Phần thứ hai, Base Ontology bao gồm các khái niệm ontology cơ bản nhất như các thực thể trừu tượng và khoảng cách giữa các đối tượng và phương pháp xử lý. Phần Set/Class Theory của SUMO chứa nội dung tập cơ sở lý thuyết. Phần Temporal dựa trên các quan hệ thời gian của Allen (1985). Mereotopology ontology chứa quá trình rút gọn một phần các quan hệ. Phần Graph Theory cung cấp các biểu đồ khái niệm lý thuyết chung. Phần Unit of Measure cung cấp các định nghĩa SI và các hệ thống đơn vị khác (Pinto, 2000). Các phần ontology còn lại cung cấp các hệ thống phân cấp con và các định lý liên kết với các quá trình xử lý, các loại đối tượng và các loại thuộc tính. Đến tháng 5/2002 SUMO chứa khoảng 1000 term và 3700 statement liên kết các term đó. Bên cạnh SUMO có ưu điểm là có một ontology “cao cấp”, SUMO cũng đang mở rộng hơn bởi đang được kết nối với WordNet, một kho từng vựng tiếng Anh có cấu trúc khổng lồ. Mục đích chủ yếu của việc liên kết SUMO với WordNet là phát triển việc sử dụng SUMO trong các ứng dụng hiểu ngôn ngữ tự nhiên. Nhờ việc liên kết với WordNet tạo ra một hình thức ontology mới có khả năng mở rộng ngữ nghĩa của SUMO trong việc xác định ý nghĩa của một từ trong một câu cụ thể, xử lý trùng lặp, phát thảo sơ lược, và các quá trình xử lý ngôn ngữ tự nhiên khác. Ví dụ, phân tích câu văn : “The board approved
the pay increase.”, xác định nội dung câu này, ví dụ chỉ có một tác tử có thể tham giam vào một hành động “approval”. Bằng việc liên kết với WordNet ta có được 2 nghĩa của từ “board” là “tấm bảng” và “hội đồng” với hai khái niệm trong SUMO là “thiết bị” và “tổ chức”. Dựa vào các giới hạn của quan hệ SUMO lần lượt làm giảm không gian phân tích câu văn. Cụ thể trong câu văn trên, nghĩa “tấm bảng” của từ “board” có thể không cần phân tích.
b. Hợp nhất YAGO vào SUMO
Cả SUMO và YAGO đều nhằm cung cấp một sự định nghĩa những gì tồn tại trên thế giới trong các term của thực thể hoặc đối tượng và các statement (mệnh đề). YAGO dựa trên mô hình lý thuyết ngữ nghĩa, các thực thể không chỉ chứa các đối tượng cụ thể mà còn chứa các lớp và quan hệ. SUO-KIF phân biệt cá thể và lớp. Do đó, đa số các thực thể của YAGO có thể được hợp nhất vào SUMO.
Individual (Cá thể)
YAGO chứa số lượng lớn các thực thể như người, tổ chức, sản phẩm, thực thể địa lý, văn hoá, sự kiện trong lịch sử, và những thứ tương tự,… bao phủ tất cả các nhu cầu thông tin của con người. Chúng ta sử dụng 3 kĩ thuật để hợp nhất các thực thể YAGO vào SUMO:
o So khớp bán tự động: Mặc dù, SUMO chỉ nhận biết được một số lượng nhỏ cá thể có thể so sánh được, ở mức độ nào đó sự chống chéo giữa SUMO và YAGO vẫn tồn tại. Một thước đo độ giống nhau giữa các chuỗi được đưa ra để phát hiện các kết quả phù hợp. Để đảm bảo độ chính xác cao nhất, chúng ta xác định các kết quả phù hợp bằng tay. Kết quả chính xác được đặt trong một bảng tương đương. Bằng cách này, một phần các nhận dạng YAGO được liên kết rõ ràng với các nhận dạng SUMO tương ứng. Ví dụ, Paris trong YAGO được liên kết với ParisFrance trong SUMO. o Sự cắt tỉa: SUO-KIF không yêu cầu bất kỳ sự giả định tên riêng nào, nó có
thể có ý nghĩa trong việc ngăn chặn các trường hợp giống nhau trở thành một phần của ontology. Rõ ràng không có một phương thức an toàn cho việc phát hiện các bản sao một cách tự động. Các tên giống nhau không đưa đến ý nghĩa giống nhau, ví dụ Greek_Language trong YAGO thể hiện ngôn ngữ Greek trong tất cả các biến thể của nó, trong khi GreekLanguage trong SUMO thể hiện Morden Greek. Tương tự như vậy, hai thực thể mang tên khác nhau không nhất thiết phải khác nhau. Để tránh lặp lại các thực thể mặc dù là rất khó, chúng ta tạo ra một phiên bản tóm tắt có thể thay thế được các ontology thuộc một lĩnh vực của SUMO: các cá thể không có hàm, không thuộc tính, không quan hệ được giữ lại khi và chỉ khi thực thể YAGO tương đương được nhận dạng trong bảng tương đương. Tổng cộng, khoảng 11000 cá thể, và khoảng 33000 statement liên quan được loại bỏ. Đây là phần tương đối nhỏ của SUMO, phần chính của nó nằm trong quá trình lượt bỏ tiền đề của các lớp và các thuộc tính. Ngoài ra, số cá thể được
bỏ qua trong phiên bản SUMO rút gọn là rất nhỏ trong so sánh với 1.7 triệu cá thể từ YAGO được hợp nhất vào SUMO.
o Biến đổi tên: Chúng ta tạo một tên mới và duy nhất cho mỗi thực thể YAGO không có trong bảng tương đương và thêm chúng vào SUMO. Việc này đảm bảo những tên chưa được sử dụng trong SUMO.
Lớp
Khi hợp nhất các lớp YAGO vào SUMO, mục tiêu là chuyển nguyên tắc phân loại chính xác nhất có thể, trong khi tránh các lớp lặp lại dư thừa và đảm bảo các lớp mới được nhập vào được điều chỉnh phù hợp bên trong hệ thống phân cấp lớp của SUMO.
o Thủ tục hợp nhất để loại bỏ các lớp không tương thích: nhiều từ trong ngôn ngữ con người có thể ít được sử dụng trong một số ý nghĩa, ví dụ như từ “university” có thể được sử dụng để thể hiện ý nghĩa trụ sở, khoa và sinh viên, hoặc khu trường sở. Từ nhiều nghĩa này cũng được phản ánh trong Wikipedia và YAGO, chúng ta tìm BrownUniversity được phân loại như một trường hợp của College và một trường hợp của GroupOfPeople. Tuy nhiên, trong SUMO một thực thể không thể vừa là một bulding vừa là một group of people. Trong một số trường hợp, sự phân loại kép trong YAGO là sai. Ví dụ, Abraham Lincoln là một trường hợp của 12 lớp con của lớp person, như lawyer và president. Tuy nhiên, là sai lầm nếu đưa nó vào lớp cabinet. Ở cấp cao nhất, YAGO được chia thành nhiều nhánh khác nhau, bao gồm vị trí, đồ đạc, con người, các thực thể vật chất, và các thự thể trừu tượng khác. Giải thuật hợp nhất xác định các nhánh này. Nếu một các thể YAGO là một trường hợp của nhiều nhánh, một thủ tục bầu chọn được sử dụng để xác định nhánh phù hợp nhất với các sự kiện type. Mỗi cá thể thuộc chính xác một nhánh và các lỗi phân loại có thể xảy ra trong YAGO được loại bỏ.
o Quá trình mở rộng và liên kết: hầu hết các cá thể YAGO là các trường hợp trong các lớp được lấy từ Wikipedia và không có các từ tương tự trong SUMO, ví dụ như John_Lennon nằm trong lớp People_from_Liverpool. Chúng ta tạo nên những term mới trong SUMO cho các lớp này và các cá thể được đưa vào các lớp được tạo ra. Trong YAGO, các lớp là lớp con của các lớp khác được lấy từ tập các từ đồng nghĩa WordNet. Ví dụ, People_from_Liverpool là một lớp con của lớp people lấy từ WorkNet. Lớp
people trong WordNet được liên kết với lớp human trong SUMO. Trong một số trường hợp, việc liên kết WordNet chỉ tạo ra một lớp chung. Ví dụ lớp skyscaper không tương đương với lớp Building trong SUMO, nhưng nó là lớp con của nó. Điều này buộc chúng ta thêm lớp WordNet như một lớp mới trong SUMO và liên kết nó với lớp chung có sẵn. Một số trường hợp khác, việc liên kết không tạo ra lớp, mà tạo ra một thuộc tính hoặc quan hệ. Ví dụ, lớp Guitarist trong WordNet liên kết với thuộc tính Musician trong
SUMO. Chúng ta có thể di chuyển lên hệ thống cấp bậc YAGO một cách đệ quy cho đến khi một lớp hoặc lớp chung là có giá trị trong SUMO. Bằng cách này chúng ta có thể đảm bảo rằng mỗi cá thể trong YAGO được liên kết với ít nhất một lớp trong hệ thống phân cấp lớp SUMO.
Nguyên tắc phân loại hợp nhất
o Đánh giá chất lượng: Tri thức trong YAGO được đánh giá bởi một tập các thủ tục duy trì chất lượng chặt chẽ. Một nghiên cứu cho thấy hơn 95%
statement là chính xác. Điều này đảm bảo cho việc mang chúng nhập vào SUMO. Tuy nhiên, không thể loại bỏ mối liên hệ giữa YAGO và hệ thống phân cấp lớp SUMO: YAGO sử dụng heuristic để phân chia các cá thể cho các lớp Wikipedia và liên kết các lớp Wikipedia với các lớp WordNet, cuối cùng được liên kết với các lớp SUMO sử dụng liên kết WordNet-SUMO. Chúng ta quản lý một sự đánh giá thêm vào phần yếu nhất của sự biến đổi. Chúng ta đã xác định các cá thể trong các lớp SUMO cụ thể, với một cá thể cho trước, chúng ta duyệt lên hệ thống phân cấp lớp cho đến khi tìm thấy lớp chính xác nhất.
Ngữ nghĩa các Term (từ) trong ontology
Một ontology thường có sự biểu diễn đã được định sẵn, tức là dự định sự tương ứng giữa các term của nó và các đối tượng thế giới thực. Ví dụ trong YAGO, dấu hiệu định trước của term George_Washington là vị tổng thống đầu tiên của US. Tuy nhiên, ontology càng
ít sử dụng ràng buộc, càng có nhiều dấu hiệu. Hơn nữa, nếu một ontology không dựa vào các term gốc được định nghĩa từ bên ngoài, thì không thể định nghĩa tất cả các term một cách tường tận mà không có sự phụ thuộc lẫn nhau. Điều này giống như một từ điển đơn ngữ, định nghĩa các từ tiếng Hoa bằng cách sử dụng các từ tiếng Hoa khác. Một từ điển như vậy ít được sử dụng đối với những người chưa có được sự biết ít nhất một số từ trong ngôn ngữ đó. Tính bất định này được phát biểu tỉ mỉ cho nhiều tên khái niệm trong các ontology OWL phổ biến, nơi các khái niệm thường chỉ đặc trưng như là gộp của các khái niệm khác. Việc thay thế các tên Tiếng Anh thông thường bằng các dấu hiệu nhận dạng tuỳ ý, nó kết thúc với thông tin của hình thức: c87 là lớp con của c34 và c34 là một lớp con của c0, như vậy việc đơn mô hình hoá không phản ánh được thật tốt ngữ nghĩa định sẵn. Trong một ontology có tính tiền đề hoá cao như SUMO, vấn đề này ít được nói đến vì số lượng lớn các tiền đề được trưng cho quan hệ giữa các thực thể, do đó nhiều dấu hiệu không được định sẵn có thể được loại trừ. Số dấu hiệu có thể được rút gọn nếu dấu hiệu của một term nào đó được cho là cố định từ bên ngoài. Ví dụ, nghĩa của epresentsInLanguage và EnglishLanguage được lấy để được định nghĩa một cách chính xác, thì nó có thể trở thành nền tản cho nghĩa của các term cá thể đang sử dụng mệnh đề sau:
(representsInLanguage "Immanuel Kant" ImmanuelKant EnglishLanguage)
Việc dịch chuỗi "Immanuel Kant" được xác định trước chỉ đơn giản là chuỗi các ký tự tượng trưng tương ứng, thông tin này từ YAGO cho phép chúng ta định rõ đặc điểm của thực thể ImmanuelKant là một thực thể được biểu diễn như chuỗi ký tự `Immanuel Kant' được viết bằng tiếng Anh. Khi các tên là không rõ ràng, việc cung cấp các chuỗi tượng trưng như vậy cho các ngôn ngữ phức tạp có thể làm giảm phạm vi sự phiên dịch có khả năng. Số lượng lớn các thực thể mới đã mô tả bằng cách này sau đó cũng hỗ trợ trong việc sửa thêm ý nghĩa các lớp chứa các thực thể này bằng cách mô tả đặc điểm của chúng một cách mở rộng.
Các literal (kiểu dữ kiệu)
Trong YAGO, mỗi literal là một thể hiện của một trong các lớp literal được tổ chức phân cấp, ví dụ số 5 là một thể hiện của lớp PositiveInteger, một lớp con của lớp Integer. SUMO giả định một tập các biện luận chứa các con số thực và các chuỗi kí tự tượng trưng hữu hạn, vì vậy các con số và kiểu chuỗi (string) trong YAGO tương thích với các thực thể tương ứng trong SUMO.
YAGO cũng hiểu những kiểu dữ liệu (literal) để định kích thước, kết hợp giữa một con số và một đơn vị đo lường (ví dụ 3.0#m^2). Điều này không chỉ bao gồm các kích thước vật lí như độ dài và thời gian, mà còn cả những loại tiền tệ. Trong SUMO, số lượng định kích thước là các thể hiện của lớp PhysicalQuantity, nó chứa hệ thống đo lường các khía cạnh số lượng của thế giới. Một ConstantQuantity là một PhysicalQuantity mà giá trị của nó là
không đổi. Để biểu diễn các số lượng định kích thước, SUMO định nghĩa một hàm MeasureFn, nó gồm một hằng số, một đơn vị đo lường và tạo ra một thể hiện của ConstantQuantity. Ví dụ, 3.0#m^2 trong YAGO trở thành (MeasureFn 3.0 SquareMeter). Nhiều đơn vị đo lường tồn tại, cùng một đại lượng đo lường có thể được biểu diễn bằng nhiều cách khác nhau. Trong YAGO, đại lượng tồn tại đúng một lần và được biểu diễn thống nhất với một đơn vị định trước, thông thường là một đơn vị SI. Sử dụng “mô hình hoá khái niệm” (refication) có thể mô tả mối quan hệ giữa một đại lượng và giá trị của nó bằng các đơn vị khác nhau:
(1000#g hasValue 1000) inUnit gram (1000#g hasValue 1) inUnit kilogram
SUMO mô hình các thực thể như vậy bằng cách sử dụng các tiền đề để thu thập các sự phụ thuộc chung giữa các đơn vị khác nhau:
(=>(instance ?NUMBER RealNumber)(equal(MeasureFn ?NUMBER Kilogram) (MeasureFn(MultiplicationFn ?NUMBER 1000)Gram)))
Như cách biểu diễn của SUMO là có ý nghĩa hơn, vậy liệu có thể đưa các literal YAGO vào SUMO thật trôi chảy? YAGO sử dụng các literal đơn giản, trong khi SUMO sử dụng các hàm nó tạo ra các lớp biểu diễn các khoảng cách. Vì vậy 28/11/1961 trong YAGO được viết lại như sau:
(DayFn 28 (MonthFn 11 (YearFn 1961)))
YAGO cũng có thể hiểu được các literal với các thẻ lộn xộn biểu diễn các khoảng thời gian dài hơn, như 147# cho ‘1470’s’. Tuỳ thuộc vào bối cảnh, thẻ literal lộn xộn này có thể viết lại là
(DayFn ?DAYNO (MonthFn ?MONTHNO (YearFn ?YEARNO)))
?DAY, ?MONTH, và ?YEAR là các biến định lượng và ?YEAR có ràng buộc sau:
(greaterThanOrEqualTo ?YEARNO 1470) (lessThanOrEqualTo ?YEARNO 1479)
SUMO mô hình hoá các literal theo cách mô hình các quan hệ giữa các thực thể, còn YAGO có xu hướng nắm bắt những thông tin ngắn gọn hơn, nhưng không có sự mô tả hình thức.
Các luật biến đổi cơ bản
Trong một số trường hợp, sự tương thích trực tiếp giữa các quan hệ YAGO và SUMO có thể được tìm thấy, vì vậy các mệnh đề tuân theo các ánh xạ không quan trọng, ví dụ quan hệ bornIn trong YAGO tương thích trực tiếp với birthplace trong SUMO. Tương tự,