Xây dựng từ điển luật

Một phần của tài liệu XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH (Trang 48)

Trong Ontology cĩ rất nhiều quan hệ tương tự nhau như HASFATHER, HASMOTHER, HASCHILD, HASSISTER… Nếu ta áp dụng cấu trúc tập luật như đã nêu để xây dựng cho từng quan hệ này thì tập luật sinh rất giống nhau và rất dài dịng, nhiều thuộc tính ta khơng dùng tới.

Nhằm giúp cho quá trình đặc tả luật đơn giản hơn và tăng tốc trong quá trình xử lý, ta sẽ lập từ điển cho những cấu trúc này. Chúng ta sẽ đi vào chi tiết cấu trúc của tập tin từ điển mà sẽ được trình bày ngay sau đây.

<!ELEMENT consequent(subject, relation, object) > <!ELEMENT subject EMPTY>

<!ATTLIST subject

var CDATA #REQUIRED value CDATA #IMPLIED className CDATA #IMPLIED classType CDATA #IMPLIED quantifier CDATA #IMPLIED delete CDATA #IMPLIED> <!ELEMENT relation EMPTY>

<!ATTLIST relation

var CDATA #REQUIRED value CDATA #IMPLIED delete CDATA #IMPLIED> <!ELEMENT object EMPTY>

<!ATTLIST object

var CDATA #REQUIRED value CDATA #IMPLIED className CDATA #IMPLIED classType CDATA #IMPLIED quantifier CDATA #IMPLIED delete CDATA #IMPLIED>

Hình 4.0.12: Cấu trúc của thành phần hành động.

Tập tin từ điển cũng được xây dựng theo định dạng XML. Hình 4.12 mơ tả một thể hiện của tập tin từ điển. Trong cách thể hiện này, thành phần cao nhất của tập tin từ điển là dictionary, thành phần

dictionary bản thân nĩ sẽ chứa tập các entry, trong đĩ mỗi entry với các thuộc tính subjvalue,

relvalue, relation, dir sẽ thể hiện một luật. Các thuộc tính vừa nêu của thành phần entry sẽ được mơ tả chi tiết trong Bảng 4.2.

<!ELEMENT dictionary (entry)* > <!ELEMENT entry EMPTY>

<!ATTLIST entry

subjvalue CDATA #IMPLIED relvalue CDATA #IMPLIED objvalue CDATA #IMPLIED relation CDATA #IMPLIED dir CDATA #IMPLIED>

<rule name="hasCurrency" priority="70"> <premiselist>

<premise>

<subject var="a" className="Currency"/> <relation var="b" value="of,used in" /> <object var="c" /> </premise> </premiselist> <consequentlist> <consequent> <subject var="c" />

<relation var="b" value="hasCurrency" /> <object var="a" /> </consequent> </consequentlist> </rule> Hình 4.0.14: Ví dụ một luật hồn chỉnh. Tên thuộc tính Đặc tả

subjvalue Giá trị chuỗi ban đầu của chủ thể relvalue Giá trị chuỗi ban đầu của quan hệ objvalue Giá trị chuỗi ban đầu của khách thể

relation Quan hệ sẽ áp dụng cho bộ ba nếu thỏa điều kiện

dir Xác định chiều quan hệ, “1” từ chủ thể đến khách thể, ngượclại cĩ giá trị là 2

Bảng 4.2: Mơ tả các thuộc tính của thành phần entry.

<dictionary>

<entry subjvalue="capital" relvalue="of" relation="hasCapital" dir="2" />

<entry subjvalue="leader" relvalue="of" relation="hasLeader" dir="2" />

</dictionay>

Hình 4.0.15: Ví dụ một số thành phần trong từ điển. 4.3 Kết quả thí nghiệm

Kết quả phương pháp đề nghị trong đề tài được tiến hành đánh giá trên các câu truy vấn của tập dữ liệu mẫu TREC 2002 (Text REtrieval Conference).

TREC được tổ chức lần đầu tiên vào năm 1992 bởi viện NIST (National Institute of Standards and Technology) và Bộ Quốc Phịng Mỹ. Mục tiêu của nĩ là hỗ trợ cho các nghiên cứu trong lĩnh vực rút (adsbygoogle = window.adsbygoogle || []).push({});

trích thơng tin bằng việc cung cấp một nền tảng cần thiết cho việc đánh giá các phương pháp rút trích thơng tin [15]. TREC bao gồm nhiều lĩnh vực nghiên cứu rút trích thơng tin khác nhau, gọi là các track. Mỗi track được cung cấp một tập các dữ liệu, các bài tốn mẫu để kiểm tra. Tùy vào từng track, tập dữ liệu kiểm tra cĩ thể là câu hỏi, đoạn văn, hoặc là các đặc điểm cĩ thể rút trích. Tập các câu hỏi mẫu được dùng trong đề tài lấy từ Question Answering Track của tập dữ liệu mẫu TREC 2002. Mục tiêu của Question Answering Track là đạt được việc rút trích thơng tin từ các văn bản mẫu bằng việc trả lời các câu hỏi bằng ngơn ngữ tự nhiên.

Đề tài sử dụng 440 câu truy vấn về thực thể cĩ têncủa TREC 2002, bao gồm: 201 câu hỏi What; 3 câu hỏi Which; 62 câu hỏi Where; 67 câu hỏi Who; 45 câu hỏi When; 38 câu hỏi How và 24 câu hỏi khơng bắt đầu bằng từ để hỏi.

Các lỗi khi dịch sang đồ thị ý niệm thuộc vào các trường hợp sau:

• Lỗi do quá trình nhận diện thực thể: GATE cĩ thể khơng nhận diện được chính xác thực thể cĩ trong câu truy vấn. Lỗi dạng này được ký hiệu là R-Error.

• Lỗi do thiếu thực thể, thiếu lớp thực thể, cũng như thiếu quan hệ trên Ontology. Lỗi này cũng bao gồm các câu truy vấn cĩ quan hệ nhiều hơn hai ngơi. Lỗi này được ký hiệu là O-Error. Ví dụ: “What year did Canada join the United Nations?”.

• Lỗi do đồ thị ý niệm thơng thường khơng biểu diễn đầy đủ ngữ nghĩa của câu truy vấn như là những câu truy vấn cĩ chứa trạng từ, những câu truy vấn hỏi về kiểu quan hệ. Lỗi này được ký hiệu là Q-Error. Ví dụ các câu: “At Christmas time, what is the traditional thing to do under the mistletoe?”, “How was Teddy Roosevelt related to FDR?”.

• Lỗi do phương pháp xây dựng đồ thị ý niệm. Đĩ là mặc dù GATE nhận diện chính xác thực thể, từ quan hệ và các quan hệ trong câu cũng tồn tại trên Ontology, nhưng đồ thị ý niệm khơng xây dựng được hoặc xây dựng khơng chính xác. Các lỗi này cĩ thể do xác định khơng đúng lớp của thực thể chưa xác định lớp, lỗi do gom sai thực thể, lỗi do thêm từ quan hệ khơng phù hợp hoặc lỗi do bước hiệu chỉnh quan hệ ngữ nghĩa. Các lỗi này được ký hiệu là M-Error.

Bảng 4.3 là thống kê kết quả thực nghiệm đã đạt được từ kết quả nghiên cứu của tác giả [18]. Số truy vấn cịn tồn đọng mà phương pháp của tác giả chưa giải quyết là 92 câu với các lỗi được phân bố như sau:

Loại câu R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

How many 1 12 3 16 Tính từ 6 6 Tính từ so sánh nhất 14 21 35 Liên từ luận lý 1 1 Loại khác 7 2 25 34 Tổng cộng 0 8 35 49 0 92 (%) 0.00% 1.82% 7.95% 11.14% 0.00% 20.91%

Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị.

Sau khi áp dụng phương pháp đề nghị, cùng với bổ sung thêm 11 thực thể cĩ tên, 20 thực thể khơng tên, 5 từ quan hệ vào cơ sở tri thức, ta cĩ kết quả như trình bày ở Bảng 4.4.

Loại câu R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

How many 1 1 7 7 16 Tính từ 4 2 6 Tính từ so sánh nhất 22 13 35 Liên từ luận lý 1 1 Loại khác 3 2 26 3 34 Tổng cộng 0 4 3 59 26 92 (%) 0.00% 0.91% 0.68% 13.41% 5.91% 20.91%

Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị.

Từ bảng kết quả thực nghiệm trên, ta cĩ nhận xét là sau khi áp dụng phương pháp đề nghị, số lượng lỗi Q-Error giảm, tuy nhiên cĩ bất thường là lỗi O-Error lại tăng lên. Điều này là do các truy vấn lỗi Q-Error thực chất cĩ bao hàm trong nĩ lỗi O-Error (do thiếu một số lớp và quan hệ trong Ontology) hoặc lỗi M-Error (do phương pháp cịn hạn chế chưa giải quyết được). Cho nên sau khi áp dụng phương pháp đề nghị, một số truy vấn mặc dù đã được giải quyết lỗi thuộc về Q-Error nhưng những lỗi thuộc về O-Error hoặc M-Error đã tồn tại từ trước nên vẫn cịn tồn đọng và do đĩ một số lượng lỗi Q-Error sẽ được phân loại lại thành lỗi O-Error hoặc lỗi M-Error. Đây là nguyên nhân làm cho số lượng lỗi O-ErrorM-Error sau khi áp dụng phương pháp đề nghị tăng lên.

Cuối cùng, sau khi bổ sung thêm 33 lớp thực thể, 23 quan hệ cịn thiếu vào Ontology, ta cĩ kết quả như trình bày tại Bảng 4.5.

Loại câu R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

How many 1 1 3 11 16 Tính từ 6 6 Tính từ so sánh nhất 21 14 35 Liên từ luận lý 1 1 Loại khác 3 2 20 9 34 Tổng cộng 0 4 3 44 41 92 (%) 0.00% 0.91% 0.68% 10.00% 9.32% 20.91%

Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology.

Trong 51 câu truy vấn khơng giải quyết được ta cĩ 44 câu thuộc về lỗi O-Error, 3 câu thuộc về lỗi

Q-Error và 4 câu thuộc về lỗi M-Error.

Đối với 44 trường hợp lỗi O-Error, tất cả các câu truy vấn này đều thuộc về truy vấn chứa quan hệ ba ngơi.

Trong 3 lỗi thuộc về Q-Error cĩ 1 truy vấn mà nội dung truy vấn liên quan tới kiểu quan hệ chứ khơng phải thực thể, chúng tơi tạm gọi đây là “Queried relation”, 1 câu truy vấn cĩ trạng từ hoặc nhân tố thời gian trong câu, chúng tơi tạm gọi những câu truy vấn loại này là “Adverb/Temporal query”, 1 truy vấn cĩ kiểu quan hệ ẩn trong danh từ chứ khơng phải động từ. Ta sẽ đi vào phân tích chi tiết các trường hợp lỗi nêu trên.

Đối với lỗi “Queried relation”, ta xét câu truy vấn sau: “How was Teddy Roosevelt related to FDR?”. Đối với câu truy vấn này, nội dung truy vấn sẽ chỉ vào quan hệ giữa thực thể Teddy Roosevelt và thực thể FDR. Tuy nhiên phương pháp đề nghị trong đề tài chỉ hỗ trợ truy vấn các thực thể khơng tên hoặc các thuộc tính của thực thể chứ chưa hỗ trợ truy vấn cho kiểu quan hệ. Điều này là nguyên nhân dẫn đến lỗi “Queried relation”.

Để giải quyết các truy vấn “Queried relation”, phương pháp đề xuất mở rộng phạm vi biểu diễn truy vấn mà cho phép truy vấn vào kiểu quan hệ. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị sẽ cĩ dạng như sau, trong đĩ tham chiếu nghi vấn (“?”) được đặt vào quan hệ Relation:

Hình 4.0.16: Ví dụ về biểu diễn câu truy vấn “Queried relation”.

Tiếp theo ta tiến hành phân tích lỗi “Adverb/Temporal query”, ta xét câu truy vấn sau: “At Christmas time, what is the traditional thing to do under the mistletoe?”. Đối với câu truy vấn này, ngữ cảnh của câu truy vấn sẽ bị giới hạn bởi nội dung của trạng từ “At Christmas time”. Để giải quyết được các lỗi “Adverb/Temporal query”, phương pháp đề nghị cần phải hỗ trợ được khả năng biểu diễn được trạng từ trong câu truy vấn, các ràng buộc về ngữ cảnh của câu truy vấn. Ví dụ, với câu truy vấn trên, một biểu diễn đề nghị sẽ cĩ dạng như sau:

Hình 4.0.17: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal”.

Ta xét câu truy vấn cĩ quan hệ là một danh từ, mà khơng phải động từ như sau: “How many highway miles to the gallon can you get with the Ford Fiesta?”. Ta thấy trong câu truy vấn này, danh từ “gallon” trong câu là nhân tố để xác định được thuộc tính số mile mà thực thể Ford Fiesta đi được trong một gallon nguyên liệu. Như ta đã phân tích, phương pháp đề nghị trong luận văn này chỉ dùng các từ quan hệ (động từ, giới từ) làm chiếc cầu nối để xác định kiểu quan hệ trong câu truy vấn. Do đĩ để cĩ thể giải quyết câu truy vấn lỗi thuộc loại này, phương pháp đề nghị cần phải mở rộng từ quan hệ bao hàm luơn cả các danh từ. (adsbygoogle = window.adsbygoogle || []).push({});

Đối với các lỗi về M-Error, nguyên nhân là do phương pháp khơng thể phân biệt được chính xác từ quan hệ và thực thể đối với một số từ vựng tiếng Anh. Thật vậy, ta xét câu truy vấn sau: “How many home runs did Babe Ruth hit in his lifetime?”. Trong câu truy vấn này, mơ đun chú giải khơng thể phân biệt được “hit” là một động từ hay một danh từ, do đĩ dẫn đến chú giải sai: từ quan hệ trở thành thực thể hoặc ngược lại. Một giải pháp cĩ thể để khắc phục lỗi này đĩ là ta cĩ thể dùng thêm

các mơ đun nhận dạng từ loại (động từ, danh từ, tính từ,…), ví dụ như Wordnet, SynTag, để hỗ trợ thêm thơng tin cho mơ đun chú giải đưa ra chú giải chính xác hơn. Đối với ví dụ như trên, mơ đun nhận dạng từ loại sẽ cho biết “hit” là một động từ, do đĩ mơ đun chú giải cĩ thể biết được trong trường hợp này “hit” cần được chú giải là từ quan hệ chứ khơng phải là một thực thể.

Theo kết quả trên, nếu khơng xét đến các lỗi O-ErrorQ-Error, độ chính xác của phương pháp đã được cải thiện thêm 9.32% so với kết quả nghiên cứu của tác giả [18].

Ngồi ra, phương pháp đề nghị trong luận văn này tương thích và khơng gây nhiễu các kết quả đã đạt được từ nghiên cứu [18]. Điều này cĩ nghĩa là cùng với 41 câu truy vấn đã được giải quyết như trong các bản báo cáo vừa nêu, tất cả 348 câu truy vấn đã được giải quyết bởi tác giả [18] vẫn giữ nguyên giá trị. Ta cĩ tổng kết kết quả đạt được của phương pháp đề nghị đối với tồn bộ tập câu hỏi mẫu TREC 2002 được trình bày tại Bảng 4.6.

Loại câu R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

How many 1 1 3 11 16 Tính từ 6 6 Tính từ so sánh nhất 21 14 35 Liên từ luận lý 1 1 Loại khác 3 2 20 357 382 Tổng cộng 0 4 3 44 389 440 (%) 0.00% 0.91% 0.68% 10.00% 88.41% 100.00%

Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002.

Bảng báo cáo 4.6 chỉ ra độ chính xác của phương pháp đối với tập câu hỏi mẫu TREC 2002 thu được là 88.41%.

Phương pháp đề nghị trong đề tài cũng được áp dụng cho một tập mẫu khác, là tập TREC 2007. Tập câu truy vấn TREC 2007, bao gồm 173 câu hỏi What; 15 câu hỏi Which; 13 câu hỏi Where; 57 câu hỏi Who; 13 câu hỏi When; 56 câu hỏi How và 118 câu hỏi khơng bắt đầu bằng từ để hỏi. Bảng 4.7 là kết quả thực nghiệm đã đạt được từ kết quả nghiên cứu của tác giả [18] trên tập TREC 2007.

Loại câu R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

How many 47 16 63

Tính từ so sánh nhất 6 16 22

Liên từ luận lý 7 1 8

Loại khác 2 3 70 75

Tổng cộng 0 2 68 103 0 173

(%) 0.00% 0.45% 15.28% 23.15% 0.00% 38.88%

Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị.

Sau khi áp dụng phương pháp đề nghị, cùng với bổ sung thêm 14 thực thể cĩ tên, 57 thực thể khơng tên, 17 từ quan hệ vào cơ sở tri thức, ta cĩ kết quả như trình bày ở Bảng 4.8.

Cuối cùng, sau khi bổ sung thêm 64 lớp thực thể, 36 quan hệ cịn thiếu vào Ontology, ta cĩ kết quả như trình bày tại Bảng 4.9.

Loại câu R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

How many 12 35 16 63 Tính từ 4 1 5 Tính từ so sánh nhất 19 3 22 Liên từ luận lý 3 2 3 8 Loại khác 3 67 5 75 Tổng cộng 0 3 15 127 28 173 (%) 0.00% 0.67% 3.37% 28.54% 6.29% 38.88%

Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị.

Trong 108 câu truy vấn khơng giải quyết được ta cĩ 89 câu thuộc về lỗi O-Error, 15 câu thuộc về lỗi Q-Error và 3 câu thuộc về lỗi M-Error.

Trong 15 lỗi thuộc về Q-Error cĩ 1 truy vấn “Queried relation”, 1 câu truy vấn “Adverb/Temporal query”, 2 truy vấn phụ thuộc vào ngữ cảnh, nghĩa là các đối tượng được truy vấn khơng xác định được tại câu truy vấn mà nĩ thuộc về một câu khác, chúng tơi tạm gọi là “Context query”, và 10 câu truy vấn phức tạp mà phương pháp khơng giải quyết được. Đối với các lỗi “Queried relation” và “Adverb/Temporal query”, ta đã phân tích ở kết quả thực nghiệm của TREC 2002, ta sẽ chỉ phân tích vào lỗi mới xuất hiện trên TREC 2007 đĩ là “Context query”.

Loại câu R-Error M-Error Q-Error O-Error Chính xác Tổng cộng

How many 12 16 35 63

Tính từ so sánh nhất 16 6 22

Liên từ luận lý 3 1 4 8

Loại khác 3 56 16 75

Tổng cộng 0 3 15 89 66 173 (adsbygoogle = window.adsbygoogle || []).push({});

(%) 0.00% 0.67% 3.37% 20.00% 14.83% 38.88%

Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology.

Ta xét một câu truy vấn “Context query” như sau: “What was the previous world record time?”. Ta thấy câu truy vấn chỉ chứa một thực thể duy nhất là “word record time” và ta thiếu thơng tin để biết thực thể “word record time” trong câu truy vấn đang nĩi về vấn đề gì. Để cĩ đầy đủ thơng tin cần

Một phần của tài liệu XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH (Trang 48)