Dù đồ thị ý niệm là một ngơn ngữ vừa dễ hiểu với con người, vừa khả xử lý với máy tính, nhưng đồ thị ý niệm mới chỉ mang tính chất tham khảo, để kiểm tra sự chính xác của quá trình xử lý câu truy vấn. Bởi vì, đồ thị ý niệm chưa được sử dụng làm ngơn ngữ truy vấn trên bất cứ cơ sở dữ liệu ngữ nghĩa nào, nên máy tính khơng thể trực tiếp dùng đồ thị để tìm thực thể hay tài liệu. Vì vậy, trong chương này sẽ trình bày phương pháp dịch đồ thị sang ngơn ngữ SeRQL, là ngơn ngữ truy vấn sử dụng bởi cơ sở tri thức ngữ nghĩa.
Một phần trong quá trình sinh câu SeRQL của hệ thống sẽ sử dụng lại giải thuật trước đây của VN-KIM Search [tham khảo Dũng], chỉ thêm vào những đoạn cần thiết để những câu truy vấn cĩ tính từ.
Giải thuật đã cĩ của VN-KIM Search như sau:
Generalize the query CG
For each relation in the generalized query CG do {
Get all neighbour concepts of the current relation //process each concept sequentially
For each concept do {
if the concept is new //i.e. not processed before {
if the concept referent is “?” or “*” {
if the concept referent is “?” {
Assign to it a variable starting with “x” //e.g x1, x2, x3,... Assign to it a label variable starting with “z” //e.g z1, z2, z3,... Append these variables to the SELECT clause
Append the “rdfs:label” statement for this concept to the FROM clause }
if the concept referent is “*” {
Assign to it a variable starting with “y” //e.g y1, y2, y3,... }
Append the “rdf:type” statement for this concept to the FROM clause
Assign to the constrained properties variables starting with “p” //e.g p1, p2, p3,... Append the property constraints to the WHERE clause
} //end of “?” or “*”
if the concept referent is specific, assign to it its identifier as a dummy variable Remember this concept having been processed
}
}//end of if new
Assign to the current relation its URI
Append the statement for the current relation with its neighbour concepts to the FROM clause }
//process the disconnected concept nodes
For each concepts that has not been visited yet, process it as above
[hình tham khảo Dũng]
Giải thuật đề tài này thêm vào để xử lý tính từ sẽ nhận kết quả của giải thuật trên làm đầu vào, rồi thêm những bộ phận cần thiết:
Giải thuật cho tính từ bình thường (dạng nguyên mẫu): Truy vấn tất cả thực thể phù hợp và trả về theo một trật tự
//Function: append ORDER BY clause for normal adjective to the input SeRQL
Initialize new ORDER BY clause
For each semantic relation generated from normal adjective {
Append the its object’ variable to SELECT clause
Identify the way of ordering //i.e DESC or ASC. Use a dictionary (XML file)
Append to ORDER BY clause the variable of the relation’s object, and the way it is ordered }
//Function: append WHERE clause for superlative adjective to the input SeRQL
Initialize the WHERE, nested SELECT and nested FROM clause
//select the value of all other entities which are also qualified, then use “>= ALL” or “<= ALL” to //find the entity that has the maximum and minimum value
Identify whether “>= ALL” or “<=ALL” from the Top relation. Call this OP. Find the relation that is generated from superlative adjective
{
With its subject, create a new variable representing all others qualified entities. Call this the temporary subject. Then use the temporary subject to append all constraints on the subject to the nested FROM clause
With its object, create a new variable representing all others qualified entities’ values. Call this the temporary object. Append the temporary object to the nested SELECT clause.
Append the statement of this relation to the nested FROM clause. But use the temporary subject and temporary object as the 2 variables.
Append to WHERE clause the object’s variable and the OP identified before. }
Giải thuật cho tính từ so sánh hơn:
//Function: append WHERE clause for comparative adjective to the input SeRQL Initialize the WHERE clause
For every relation generated from comparative adjective {
Append its subject’s variable to the WHERE clause
Identify the comparative operator //i.e. “>” or “<”. Use a dictionary (XML file) Append comparative operator to the WHERE clause
else if its object is a constant, append its object’s quantifier to the WHERE clause }
CHƯƠNG 6 KẾT LUẬN
Đề tài đã kế thừa những ưu điểm của phương pháp dịch câu truy vấn bằng ngơn ngữ tự nhiên sang đồ thị ý niệm với hướng tiếp cận ít phụ thuộc cú pháp mà chỉ dựa vào thực thể cùng các quan hệ giữa các thực thể này trên Ontology của tác giả [18]:
• Khơng dựa vào văn phạm của câu truy vấn. Cĩ thể dịch sang đồ thị ý niệm cho một câu truy vấn đầy đủ, các câu truy vấn cĩ từ để hỏi, hoặc một đoạn câu. Thứ tự xuất hiện các thực thể và từ quan hệ trong câu là khơng quan trọng. Do đĩ phương pháp này cũng cĩ thể dịch sang đồ thị ý niệm cho các câu sai văn phạm.
• Dễ dàng thực hiện cho ngơn ngữ khác khi cĩ Ontology tương ứng. Phương pháp này khơng dựa trên phân tích cú pháp của câu truy vấn. Do đĩ, để dịch sang đồ thị ý niệm cho các câu truy vấn bằng các ngơn ngữ khác chỉ cần xây dựng một Ontology tương ứng và xây dựng danh sách các thực thể khơng tên và danh sách các từ quan hệ tương ứng trên ngơn ngữ đĩ.
• Phần tập luật và từ điển của hệ thống được hiện thực theo cấu trúc tổng quát định dạng XML, ta cĩ thể dễ dàng mở rộng thêm luật cho hệ thống khi cần thiết mà khơng cần phải thay đổi hệ thống.
• Đồ thị ý niệm được trình bày một cách trực quan dưới dạng đồ họa.
Bên cạnh đĩ, đề tài đã gĩp phần mở rộng giải quyết thêm những vấn đề cịn hạn chế trong kết quả nghiên cứu của tác giả Cao Duy Trường [18] cho việc dịch các câu truy vấn hỏi về số lượng, các câu truy vấn cĩ tính từ, tính từ so sánh nhất, liên từ luận lý.
Vấn đề chuyển đổi câu truy vấn sang đồ thị ý niệm là vấn đề phức tạp, do đĩ chắc chắn hệ thống cũng khơng tránh khỏi những khuyết điểm, vì vậy đề tài nêu ra những hạn chế đồng thời cũng là phương hướng phát triển tiếp theo:
• Cĩ một số quan hệ phức tạp, là các quan hệ cĩ ba ngơi, bằng đồ thị ý niệm đơn giản khơng thể thể hiện được đầy đủ ý nghĩa của các quan hệ đĩ, do đĩ cần nghiên cứu phương pháp biểu diễn các quan hệ này trên Ontology cũng như dùng đồ thị ý niệm lồng nhau để biểu diễn các quan hệ này.
• Đề tài cịn hạn chế chưa giải quyết được những truy vấn hỏi vào kiểu quan hệ, những truy vấn cĩ chứa trạng từ. Như đã được trình bày ở phần trên, mặc dù đề tài đã đề xuất hướng giải quyết cho những truy vấn loại này, tuy nhiên cần cĩ những nghiên cứu thêm để giải quyết triệt để hơn.
• Ngồi ra, đề tài mới chỉ dừng lại ở việc giải quyết liên từ luận lý NOT giữa các mệnh đề, nhưng chưa giải quyết triệt để khi liên từ luận lý NOT tác động vào tính từ, cần cĩ những nghiên cứu thêm về vấn đề này.
TÀI LIỆU THAM KHẢO
[1] Barriere, Caroline: From a children's first dictionary to a lexical knowledge base of conceptual graphs. Thesis (Ph.D.). Simon Fraser University (1997).
[2] Bernstein, A., Kaufmann, E.: How Useful are Natural Language Interfaces to the Semantic Web for Casual End-Users. In: Proceedings of the 6th International Symantic Web Conference (ISWC 2007). Busan, Korea (2007).
[3] Cimiano, P., Haase, P., Heizmann, J.: Porting Natural Language Interfaces between Domains -- An Experimental User Study with the ORAKEL System. In: Proceedings of the International Conference on Intelligent User Interfaces (2007) 180 – 189.
[4] Frithjof Dau, Joachim Hereth Correia, Technische Universität Darmstadt, Fachbereich Mathematik: Nested Concept Graphs with Cuts: Mathematical Foundations. In: Proceedings of the 3rd International Conference (2004).
[5] Hai H. Vo: Truy vấn tri thức bằng đồ thị khái niệm. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2006).
[6] Hensman, S.: Construction of Conceptual Graph representation of texts. In: Preceedings of Student Research Workshop. HLT-NAACL, Boston (2004) 49 – 54.
[7] Kaufmann, E., Bernstein, A., Fischer, L.: NLP-Reduce: A "Nạve” but Domain- Independent Natural Language Interface for Querying Ontologies. Demo-Paper at the 4th European Semantic Web Conference (2007) 1 – 2.
extract information from text. NAACL (2000).
[9] Sowa, J. F.: Conceptual graphs for a database interface. IBM Journal of Research and Development, Vol.20, No.4 (1976) 336 – 357.
[10] Steffen Staab, Udo Hahn: Conceptualizing adjectives. In: Proceedings of the 21st
Annual German Conference. (1997).
[11] Steffen Staab, Udo Hahn: “TALL”, “GOOD”, “HIGH”--- Compared to what? In: Proceedings of the 15th International Conference on Artificial Intelligence. Nagoya, Japan (1997).
[12] Tablan, V., Damljanovic, D., Bontcheva, K: A Natural Language Query Interface to Structured Information. In: Proceedings of the 5th European Semantic Web Conference. Lecture Notes in Artificial Intelligence, Vol. 5021. Springer -Verlag (2008) 361 – 375.
[13] Tim Berners-Lee: Conceptual Graphs and the Semantic Web. Available at:
http://www.w3.org/DesignIssues/CG.html (2001).
[14] Thang L. Tran: Dịch câu truy vấn bằng ngơn ngữ tự nhiên sang đồ thị khái niệm. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2007).
[15] The Text REtrieval Conference website. http://trec.nist.gov/overview.html.
[16] Tru H. Cao, Truong D. Cao, Thang L. Tran: A robust Ontology-Based Method for Translating Natural Language Queries to Conceptual Graphs. In: Proceedings of the 3rd Asian Semantic Web Conference (2008).
[17] Tru H. Cao.: VN-KIM for VietNamese semantic Web. Faculty of Computer Science and Engineering, University of Technology. VietNam (2006).
[18] Truong D. Cao: Dịch câu truy vấn tiếng Anh sang đồ thị khái niệm: cách tiếp cận ít phụ thuộc vào cú pháp. Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2008).
[19] Zelenko, D., Aone, C. and Richardella, A.: Kernel Methods for Relation Extraction, Journal of Machine Learning Research. (2003) 1083 – 1106.
[20] Zhang, L., Yu, Y.: Learning to generate CGs from domain specific. In: Proceedings of the 9th International Conference on Conceptual Structures, LNAI 2120. Stanford, CA, USA (2001).
[21] Zhou, G.D., Su, J., Zhang, J., Zhang M.: Exploring Various Knowledge in Relation Extraction. In: Proceedings of ACL (2005).
PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT
Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Viết tắt
Bộ ba Triple
Dàn phân cấp Hierarchy lattice
Định danh tài nguyên thống nhất Uniform resource identifier URI Đồ thị phân đơi Bipartile graph
Đồ thị ý niệm Conceptual graph CG Đồ thị ý niệm thực Real conceptual graph
Đồ thị ý niệm cú pháp Syntactic conceptual graph Đồng tham chiếu Co-reference
Độ mịn Granularity
Kiểu khái niệm Conceptual type Kiểu quan hệ Relation type
Khái niệm Concept
Quan hệ Relation
Tham chiếu Reference Thuộc tính Property Văn phạm liên kết Link grammar
PHỤ LỤC A: TẬP CÂU MẪU TREC 2002
1. What actor first portrayed James Bond?O 2. What actress starred in "The Lion in Winter"?
3. What American composer wrote the music for "West Side Story"?
4. What are Cushman and Wakefield known for?
5. What are John C. Calhoun and Henry Clay known as? 6. What are the names of Jacques Cousteau's two sons?O 7. What are the two houses of the Legislative branch?O 8. What body of water are the Canary Islands in? 9. What card company sells Christmas ornaments? 10. What caused the Lynmouth floods?
11. What city did the Flintstones live in? 12. What city in Florida is Sea World in? 13. What city is 94.5 KDGE Radio located in?
14. What city is Massachusetts General Hospital located in? 15. What city's newspaper is called "The Enquirer"? 16. What continent is Bolivia on?
17. What continent is Egypt on?
18. What country are Godiva chocolates from? 19. What country did Ponce de Leon come from? 20. What county is Modesto, California in? 21. What county is Phoenix, AZ in?
22. What Cruise Line does Kathie Lee Gifford advertise for? 23. What currency is used in Algeria?
24. What day and month did John Lennon die? 25. What day is known as the "national day of prayer"? 26. What did Delilah do to Samson's hair?O
27. What did Edward Binney and Howard Smith invent in 1903?O
28. What did Vasco da Gama discover? 29. What does "Sitting Shiva" mean? 30. What does caliente mean (in English)?O 31. What does CNN stand for?
32. What does CPR stand for? 33. What does EKG stand for?
34. What does Final Four refer to in the sports world? 35. What does Knight Ridder publish?
36. What does NAFTA stand for?.
37. What does NASA stand for?
38. What does Nicholas Cage do for a living? 39. What does SIDS stand for?
40. What famous model was married to Billy Joel? 41. What flower did Vincent Van Gogh paint? 42. What format was VHS's main competition? 43. What French province is cognac produced in?
44. What French ruler was defeated at the battle of Waterloo? 45. What hemisphere is the Philippines in?
46. What hockey team did Wayne Gretzky play for?
47. What imaginary line is halfway between the North and South Poles?
48. What instrument is Ray Charles best known for playing?O 49. What is Alice Cooper's real name?
50. What is another astronomic term for the Northern Lights? 51. What is another name for vitamin B1?
52. What is Australia's national flower? 53. What is Betsy Ross famous for?
54. What is Black Hills, South Dakota most famous for? 55. What is California's capital?
56. What is California's state tree? 57. What is “Chiricahua” the name of? 58. What is Dick Clark's birthday? 59. What is Dr. Ruth's last name? 60. What is Hawaii's state flower?
61. What is Martin Luther King Jr.'s real birthday?
62. What is one of the cities that the University of Minnesota is located in?
63. What is the abbreviation for Original Equipment Manufacturer?
64. What is the airport code for Los Angeles International? 65. What is the average speed of the horses at the Kentucky
Derby?
66. What is the average weight of a Yellow Labrador? 67. What is the birthstone for June?
68. What is the capital of Burkina Faso? 69. What is the capital of Haiti? 70. What is the capital of Mongolia? 71. What is the capital of Yugoslavia? 72. What is the depth of the Nile river?
73. What is the distance in miles from the earth to the sun? 74. What is the electrical output in Madrid, Spain?
75. What is the exchange rate between England and the U.S.? 76. What is the highest dam in the U.S.?
77. What is the Islamic counterpart to the Red Cross?O 78. What is the length of the coastline of the state of Alaska? 79. What is the location of the Sea of Tranquility?
80. What is the longest suspension bridge in the U.S.? 81. What is the longest word in the English language? 82. What is the major fault line near Kentucky? 83. What is the mascot for Notre Dame University?
84. What is the most common kind of skin cancer in the U.S.? 85. What is the most frequently spoken language in the
Netherlands?
86. What is the name of a Greek god?
87. What is the name of a Salt Lake City newspaper? 88. What is the name of Joan Jett's band?
89. What is the name of Neil Armstrong's wife? 90. What is the name of Roy Roger's dog?
91. What is the name of the chocolate company in San Francisco?
92. What is the name of the Jewish alphabet? 93. What is the name of the leader of Ireland?
94. What is the name of the Lion King's son in the movie, "The Lion King"?
95. What is the name of the longest ruling dynasty of Japan? 96. What is the name of the Michelangelo painting that shows
two hands with fingers touching?M
97. What is the name of the satellite that the Soviet Union sent into space in 1957?
98. What is the nickname of Pennsylvania?
99. What is the normal resting heart rate of a healthy adult? 100. What is the Ohio state bird?
102. What is the oldest university in the US? 103. What is the Pennsylvania state income tax rate? 104. What is the population of China?
105. What is the population of Japan? 106. What is the population of Kansas? 107. What is the population of Mexico? 108. What is the population of Mozambique? 109. What is the population of Nigeria? 110. What is the population of Ohio? 111. What is the population of Seattle? 112. What is the population of the Bahamas? 113. What is the population of the United States? 114. What is the primary language of the Philippines?