Quá trình xây dựng đồ thị ý niệm
Quá trình dịch câu truy vấn sang đồ thị ý niệm có thể phát sinh các lỗi sau:
R-Error: lỗi do không nhận diện được thực thể hoặc nhận diện không chính xác.
O-Error: lỗi do Ontology thiếu lớp, thiếu quan hệ. Các quan hệ nhiều hơn 2 ngôi,
Ontology không thể hiện được, cũng xếp vào dạng lỗi này.
Q-Error: lỗi do đồ thị ý niệm, với các mở rộng như đề xuất, vẫn chưa biểu diễn được đầy
đủ ngữ nghĩa của câu truy vấn.
M-Error: lỗi do phương pháp. Các câu không xây dựng được đồ thị ý niệm hoặc xây dựng sai, nếu không rơi vào các lỗi trên được xếp vào dạng lỗi này.
Kết quả thử nghiệm trên tập mẫu TREC 2002 trước khi làm giàu Ontology và chưa áp dụng
phương pháp xử lý các dạng câu mới được thống kê ở bảng sau:
Loại câu Số câu R-Error O-Error Q-Error M-Error Chính xác
WHAT 201 32 119 17 0 33 WHICH 3 0 1 2 0 0 WHERE 62 7 38 1 0 16 WHO 67 2 51 10 0 4 WHEN 45 5 27 12 0 1 HOW 38 1 29 5 0 3 Loại khác 24 0 23 0 0 1 Tổng cộng 440 47 288 47 0 58 (%) 100.00% 10.68% 65.45% 10.68% 0.00% 13.19%
Sau khi làm giàu Ontology bằng cách bổ sung 65 lớp thực thể, 87 quan hệ, 288 thực thể, kết quả thử nghiệm đạt được như sau:
Loại câu Số câu R-Error O-Error Q-Error M-Error Chính xác WHAT 201 0 22 1 2 176 WHICH 3 0 0 0 0 3 WHERE 62 0 1 0 0 61 WHO 67 0 12 0 0 55 WHEN 45 0 12 0 0 36 HOW 38 0 6 2 0 30 Loại khác 24 0 3 1 0 20 Tổng cộng 440 0 56 4 2 378 (%) 100.00% 0.00% 12.73% 0.91% 0.45% 85.91%
Bảng 6-2 Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology
Kết quả thực nghiệm sau khi làm giàu Ontology, phân loại theo dạng câu hỏi:
Dạng câu Số câu R-Error O-Error Q-Error M-Error Chính xác How many 16 0 4 1 0 11 Tính từ 6 0 0 0 0 6 Tính từ so sánh nhất 35 0 21 0 0 14 Liên từ luận lý 1 0 0 0 0 1 Dạng khác 382 0 31 3 2 346 Tổng cộng 440 0 56 4 2 378 (%) 100.00% 0.00% 12.73% 0.91% 0.45% 85.91%
Bảng 6-3 Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology phân loại theo dạng câu
64 câu truy vấn không xây dựng được đồ thị ý niệm là do các lỗi sau:
O-Error: 58 câu. Tất cả các câu truy vấn này đều có chứa quan hệ nhiều hơn 2 ngôi. Ví dụ
với câu “What is the exchange rate between England and the U.S.?”, quan hệ between… and… ở đây là quan hệ ba ngôi giữa exchange rate, England và U.S.. Như đã nói ở mục 1.2 (Mục tiêu phạm vi), đề tài này không giải quyết vấn đề quan hệ nhiều hơn 2 ngôi.
Q-Error: 4 câu. Trong đó, có 3 câu chứa trạng ngữ hoặc mệnh đề trạng ngữ, câu còn lại chứa truy vấn kiểu quan hệ. Các câu dạng này đồ thị ý niệm hiện giờchưa biểu diễn được.
Câu chứa trạng ngữ, ví dụ như “At Christmas time, what is the traditional thing to do
under the mistletoe?”, At Christmas time là trạng ngữ chỉ thời gian của câu.
Câu truy vấn kiểu quan hệ ”How was Teddy Roosevelt related to FDR?”, ởđây câu truy
vấn muốn biết quan hệ giữa hai thực thểxác định Teddy Roosevelt và FDR là gì. Phương pháp dùng trong đềtài chưa hỗ trợ kiểu truy vấn này.
M-Error: 2 câu. Cụ thể là:
“What is the name of the Michelangelo painting that shows two hands with fingers
touching?”: trong câu này, “two hands with fingers touching” chứa mô tả về bức tranh,
phương pháp hiện tại không thể nhận biết được trường hợp này.
“What was the name of the television show, staring Karl Malden, that had San Francisco
in the title?”: ở đây, “the title” và “the name” cùng chỉ về một thực thể, tuy nhiên giải thuật gom thực thểkhông xác định được trường hợp này.
Quá trình truy vấn thực thể và tìm tài liệu
Với các câu sinh ra được đồ thị ý niệm đúng, quá trình chuyển từđồ thị ý niệm sang câu truy vấn SeRQL cho kết quả chính xác 100%.
Quá trình tìm kiếm tài liệu sử dụng dịch vụ hiện có, do nhóm VN-KIM phát triển, do vậy ở đây không đánh giá vềđộ chính xác. Thử nghiệm chỉ nhằm mục đích kiểm tra sựtương thích của toàn bộ hệ thống sau khi tích hợp quá trình xử lý tiếng Anh.
CHƯƠNG 7
KẾT LUẬN
7.1 Kết quả đạt được
Đềtài đã xây dựng được một hệ thống tìm kiếm theo ngữ nghĩa cho tiếng Anh, dựa vào hệ
thống trong [1] và kết quả nghiên cứu trong [3]. Tổng kết là:
Về dạng câu truy vấn, có thể xử lý câu có: thực thể (có tên và không tên), từ quan hệ,
lượng từ, liên từ luận lý, tính từthường, tính từ so sánh nhất, tính từđịnh lượng so sánh
hơn với hằng số và thực thể có tên. Bảo toàn những ưu điểm của phương pháp dịch ít phụ thuộc cú pháp trong [2]:
- Không dựa vào văn phạm của câu truy vấn. Có thể dịch sang đồ thị ý niệm cho một câu truy vấn đầy đủ, các câu truy vấn có từđể hỏi, hoặc một đoạn câu. Thứ
tự xuất hiện các thực thể và từ quan hệ trong câu là không quan trọng. Do đó phương pháp này cũng có thể dịch sang đồ thị ý niệm cho các câu sai văn phạm. - Dễ dàng thực hiện cho ngôn ngữ khác khi có Ontology tương ứng. Phương pháp
này không dựa trên phân tích cú pháp của câu truy vấn. Do đó, để dịch sang đồ
thị ý niệm cho các câu truy vấn bằng các ngôn ngữ khác chỉ cần xây dựng một
Ontology tương ứng và xây dựng danh sách các thực thể không tên và danh sách các từ quan hệtương ứng trên ngôn ngữđó.
- Phần tập luật và từđiển của hệ thống được hiện thực theo cấu trúc tổng quát định dạng XML, ta có thể dễ dàng mở rộng thêm luật cho hệ thống khi cần thiết mà không cần phải thay đổi hệ thống.
- Đồ thị ý niệm được trình bày một cách trực quan dưới dạng đồ họa.
Về biểu diễn đồ thị, mở rộng thêm khảnăng đề xuất đồ thị ý niệm khả áp dụng khi quan hệ giữa tính từ và thực thểchưa có trong cơ sơ tri thức. Mở rộng biểu diễn đồ thị ý niệm của dạng so sánh hơn.
Về sinh câu truy vấn SeRQL từđồ thị ý niệm, mở rộng khảnăng sinh câu truy vấn cho tính từ, tính từ so sánh nhất, tính từđịnh lượng so sánh hơn và liên từ luận lý.
Hệ thống được kiểm tra đạt hiệu quả tốt trên tập TREC 2002 như đã trình bày ởchương
6.
Ngoài ra, đối với câu truy vấn có liên từ luận lý, đã hạn chếđược số lần phải chú giải các thành phần của câu xuống còn 1 lần, không phải chú giải lại sau khi phân tách câu nguyên tửnhư trước.
7.2 Các vấn đề còn tồn tại
Hệ thống chưa giải quyết được các khiếm khuyết:
Có một số câu truy vấn chứa quan hệ phức tạp, là các quan hệ có ba ngôi, bằng đồ thị ý niệm đơn giản không thể hiện được đầy đủ ý nghĩa của các quan hệ đó. Như đã chỉ ra trong [3], muốn giải quyết, phải nghiên cứu phương pháp biểu diễn các quan hệ này trên Ontology, là một bài toán khác mà luận văn không giải quyết.
Chưa giải quyết được những truy vấn hỏi vào kiểu quan hệ. Vì mục đích của luận văn là
xây dựng công cụ tìm kiếm thực thể, nên không xem xét giải quyết loại câu hỏi này.
7.3 Hướng phát triển
Làm giàu ontology và cơ sở tri thức, tăng số lượng lớp và thực thểđể tăng khả năng trả lời cho hệ thống. Số lượng thực thể hiện nay chỉ có thể dùng để kiếm thử, còn rất khiêm tốn nếu muốn đáp ứng được nhu cầu của người sử dụng.
Nghiên cứu giải quyết biểu diễn quan hệ 3 ngôi trên ontology, vì câu hỏi dạng này khá phổ
biến (chiếm xấp xỉ 10% số câu hỏi trong bộ TREC 2002). Làm giàu tập luật để nhận biết nhiều quan hệhơn.
TÀI LIỆU THAM KHẢO
[1] Dung H. M. Nguyen (2008). VN-KIM Search: Hệ thống tìm kiếm theo ngữ nghĩa
tiếng Việt. Luận văn đại học, Đại Học Bách Khoa Tp.HCM.
[2] Truong D. Cao (2008). Dịch câu truy vấn tiếng Anh sang đồ thị khái niệm: cách
tiếp cận ít phụ thuộc vào cú pháp. Luận văn thạc sĩ, Đại Học Bách Khoa Tp.HCM
[3] Anh H. Mai (2009). Dịch câu truy vấn tiếng Anh có lượng từ, tính từ và liên từ luận lý sang đồ thị ý niệm. Luận văn thạc sĩ, Đại Học Bách Khoa Tp.HCM.
[4] Grigoris, A. and Frank, v. H.: A Semantic Web Primer, The MIT Press, 2004.
[5] PROTON Home Page: http://proton.semanticweb.org/
[6] KIM Website: http://www.ontotext.com/kim/ontologies.html
[7] GATE Website: http://gate.ac.uk/
PHỤ LỤC A: TẬP CÂU MẪU TREC 2002
Các câu sinh ra đồ thị ý niệm đúng
1. What actress starred in "The Lion in Winter"?
2. What American composer wrote the music for "West Side Story"?
3. What are Cushman and Wakefield known for? 4. What are John C. Calhoun and Henry Clay known as? 5. What are the names of Jacques Cousteau's two sons? 6. What are the two houses of the Legislative branch? 7. What body of water are the Canary Islands in? 8. What card company sells Christmas ornaments? 9. What caused the Lynmouth floods?
10. What city did the Flintstones live in? 11. What city in Florida is Sea World in? 12. What city is 94.5 KDGE Radio located in?
13. What city is Massachusetts General Hospital located in? 14. What city's newspaper is called "The Enquirer"? 15. What continent is Bolivia on?
16. What continent is Egypt on?
17. What country are Godiva chocolates from? 18. What country did Ponce de Leon come from? 19. What county is Modesto, California in? 20. What county is Phoenix, AZ in?
21. What Cruise Line does Kathie Lee Gifford advertise for? 22. What currency is used in Algeria?
23. What day and month did John Lennon die? 24. What day is known as the "national day of prayer"? 25. What did Vasco da Gama discover?
26. What does "Sitting Shiva" mean? 27. What does CNN stand for? 28. What does CPR stand for? 29. What does EKG stand for?
30. What does Final Four refer to in the sports world? 31. What does Knight Ridder publish?
32. What does NAFTA stand for?. 33. What does NASA stand for?
34. What does Nicholas Cage do for a living? 35. What does SIDS stand for?
36. What famous model was married to Billy Joel? 37. What flower did Vincent Van Gogh paint? 38. What format was VHS's main competition? 39. What French province is cognac produced in?
40. What French ruler was defeated at the battle of Waterloo? 41. What hemisphere is the Philippines in?
42. What hockey team did Wayne Gretzky play for? 43. What is Alice Cooper's real name?
44. What is another astronomic term for the Northern Lights? 45. What is another name for vitamin B1?
46. What is Australia's national flower? 47. What is Betsy Ross famous for?
48. What is Black Hills, South Dakota most famous for? 49. What is California's capital?
50. What is California's state tree? 51. What is Chiricahua the name of? 52. What is Dick Clark's birthday? 53. What is Dr. Ruth's last name? 54. What is Hawaii's state flower?
55. What is Martin Luther King Jr.'s real birthday?
56. What is one of the cities that the University of Minnesota is located in?
57. What is the abbreviation for Original Equipment Manufacturer?
58. What is the airport code for Los Angeles International? 59. What is the average speed of the horses at the Kentucky Derby?
60. What is the average weight of a Yellow Labrador? 61. What is the birthstone for June?
62. What is the capital of Burkina Faso? 63. What is the capital of Haiti? 64. What is the capital of Mongolia? 65. What is the capital of Yugoslavia? 66. What is the depth of the Nile river?
67. What is the distance in miles from the earth to the sun? 68. What is the electrical output in Madrid, Spain? 69. What is the highest dam in the U.S.?
70. What is the length of the coastline of the state of Alaska? 71. What is the location of the Sea of Tranquility?
72. What is the longest suspension bridge in the U.S.? 73. What is the longest word in the English language? 74. What is the major fault line near Kentucky? 75. What is the mascot for Notre Dame University?
76. What is the most common kind of skin cancer in the U.S.? 77. What is the most frequently spoken language in the Netherlands?
78. What is the name of a Greek god?
79. What is the name of a Salt Lake City newspaper? 80. What is the name of Joan Jett's band?
81. What is the name of Neil Armstrong's wife? 82. What is the name of Roy Roger's dog?
83. What is the name of the chocolate company in San Francisco?
84. What is the name of the Jewish alphabet? 85. What is the name of the leader of Ireland?
86. What is the name of the Lion King's son in the movie, "The Lion King"?
87. What is the name of the longest ruling dynasty of Japan? 88. What is the name of the satellite that the Soviet Union sent into space in 1957?
89. What is the nickname of Pennsylvania?
90. What is the normal resting heart rate of a healthy adult? 91. What is the Ohio state bird?
92. What is the oldest city in the United States? 93. What is the oldest university in the US? 94. What is the Pennsylvania state income tax rate? 95. What is the population of China?
96. What is the population of Japan? 97. What is the population of Kansas? 98. What is the population of Mexico? 99. What is the population of Mozambique? 100.What is the population of Nigeria? 101.What is the population of Ohio? 102.What is the population of Seattle? 103.What is the population of the Bahamas? 104.What is the population of the United States? 105.What is the primary language of the Philippines? 106.What is the real name of the singer, Madonna? 107.What is the salary of a U.S. Representative? 108.What is the sales tax in Minnesota? 109.What is the size of Argentina?
110.What is the state nickname of Mississippi? 111.What is the telephone number for the University of Kentucky?
112.What is the zip code for Fremont, CA? 113.What is the zip code for Parsippany, NJ?
114.What kind of a sports team is the Wisconsin Badgers? 115.What kind of animal was Winnie the Pooh?
116.What kind of sports team is the Buffalo Sabres? 117.What king was forced to agree to the Magna Carta? 118.What language is mostly spoken in Brazil?
119.What movie did Madilyn Kahn star in with Gene Wilder? 120.What nationality was Jackson Pollock?
121.What New York City structure is also known as the Twin Towers?
122.What ocean did the Titanic sink in?
123.What party was Winston Churchill a member of? 124.What peninsula is Spain part of?
125.What position did Willie Davis play in baseball? 126.What province is Edmonton located in?
127.What province is Montreal in?
128.What radio station did Paul Harvey work for? 129.What river in the US is known as the Big Muddy? 130.What sport do the Cleaveland Cavaliers play? 131.What state did the Battle of Bighorn take place in? 132.What state does Martha Stewart live in?
133.What state does MO stand for?
134.What state in the United States covers the largest area? 135.What state is Niagra Falls located in?
136.What state is the Filenes store located in? 137.What store does Martha Stewart advertise for? 138.What task does the Bouvier breed of dog perform? 139.What tourist attractions are there in Reims? 140.What type of bridge is the Golden Gate Bridge? 141.What type of currency is used in Australia? 142.What type of horses appear on the Budweiser commercials?
143.What type of hunting are retrievers used for? 144.What U.S. Government agency registers trademarks? 145.What U.S. state's motto is "Live free or Die"? 146.What university was Woodrow Wilson President of? 147.What was the ball game of ancient Mayans called? 148.What was the death toll at the eruption of Mount Pinatubo?
149.What was the name of Jacques Cousteau's ship?
150.What was the name of the movie that starred Sharon Stone and Arnold Schwarzenegger?
151.What was the name of the sitcom that Alyssa Milano