Xử lý câu truy vấn có tính từ so sánh nhất

Một phần của tài liệu LUẬN văn VN KIM SEARCH TIẾNG ANH với TRUY vấn có LIÊN từ LUẬN lý, TÍNH từ và LƯỢNG từ (Trang 34)

Tương tự phần xử lý câu truy vấn có tính từ, cách biểu diễn tính từ so sánh nhất cũng phụ

thuộc vào cách ontology thể hiện thuộc tính của thực thể.

Với câu truy vấn có tính từ định tính so sánh nhất (Ví dụ: most famous, greatest…), nếu trong ontology có sẵn lớp con của thực thể phù hợp với tính từ so sánh nhất thì ta sẽ sử dụng lớp

con đó để xây dựng đồ thị ý niệm.

Ví dụ: “What the most famous model married to Samuel Johnsons?” có đồ thị ý niệm là:

Hình 3-7 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từ so sánh nhất

Trong đó MOST_FAMOUS_MODEL là con của lớp MODEL.

Nếu trong ontology không có sẵn lớp con của thực thểtương ứng với tính từ so sánh nhất, mà thuộc tính FAMOUS được biểu diễn bởi quan hệ HAS_FAME_PROPERTY với miền chủ

ngữ (domain) là lớp MODEL, còn tầm vực vị ngữ (range) là lớp STRING với các giá trị

“MOST”, “LEAST” để cho biết các thực thể người mẫu là nổi tiếng nhất hay ít nổi tiếng nhất. Trong trường hợp này, đồ thị ý niệm cho câu truy vấn ở ví dụ trên sẽ là:

Hình 3-8 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từđịnh tính so sánh nhất

Với câu truy vấn có tính từ định lượng so sánh nhất (Ví dụ: tallest, highest), hướng giải quyết tương tự như đã trình bày ở mục 3.3 (cho dạng truy vấn “How many”), điểm khác biệt là thay quan hệ “COUNT” thành quan hệ “MIN”, hoặc “MAX” tương ứng, và đường liên kết sẽ chỉ

Cụ thểnhư sau: xét dạng tổng quát cho câu truy vấn loại này như bên dưới, với “ADJ_EST”

đại diện cho cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):

ADJ_EST S RW O

Hoặc

S RW ADJ_EST O

Đầu tiên, ta sẽ tìm dạng nguyên mẫu “ADJ” của “ADJ_EST” và biểu diễn câu truy vấn theo

phương pháp cho tính từđịnh lượng đã trình bày ở mục 3.5. Lúc này ta đã có được một đỉnh truy vấn con.

Sau đó, ta xác định xem so sánh nhất của tính từ trong truy vấn là tương ứng với lấy “lượng” lớn nhất hay lấy “lượng” nhỏ nhất. Ví dụ: “highest” tương ứng với lấy lượng lớn nhất, còn “lowest” sẽ lấy lượng nhỏ nhất. Nếu là trường hợp đầu tiên thì quan hệ là “MAX”, ngược lại là “MIN”.

Nhiệm vụ còn lại là định nghĩa quan hệ “MAX”, “MIN” chỉ tới đỉnh truy vấn con và một

đường liên kết nét đôi sẽ được nối từ quan hệ này tới lớp “String” trong cách biểu diễn tính từ định lượng.

Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽđược biểu diễn như sau:

Hình 3-9 Đồ thị ý niệm ví dụ, cho câu truy vấn có tính từđịnh lượng so sánh nhất 3.7 X lý câu truy vn có tính t định lượng so sánh hơn

Đề tài này mở rộng biểu diễn thêm một dạng nữa của tính từđịnh lượng, đó là dạng so sánh

hơn. Trong phần này sẽđề xuất cách biểu diễn cho 2 dạng so sánh hơn: so sánh hơn với một hằng số, và so sánh hơn với một thực thể có tên.

Đối với dạng so sánh hơn với một hằng số, mẫu câu tổng quát như sau, với “ADJ_ER” đại diện cho cụm tính từso sánh hơn (more adj than, less adj than, adjER than,…):

S RW ADJ_ER CONSTANT

Đầu tiên, ta sẽ biểu diễn mối quan hệ giữa “S” và “ADJ_ER” như mục 3.5. Phần “CONSTANTS” sẽ được nhận biết như một giá trị thuộc lớp “String”. Sau đó, tùy theo tính từ

nguyên gốc là gì, ta sẽ xác định được quan hệ so sánh hơn là “isGreaterThan” hay

“isSmallerThan” . Ví dụ: “higher” sẽ tương ứng với “isGreaterThan”, còn “lower” sẽtướng ứng với “isSmallerThan”. Cuối cùng là thêm quan hệ này vào giữa lớp “String” (trong mối quan hệ

biểu diễn tính từ) và hằng số. Biểu diễn có dạng như sau:

S → (hasProperty) → [String: *] → (isGreaterThan) → [String: *] Đối với dạng so sánh hơn với thực thể có tên, mẫu câu tổng quát như sau:

S RW ADJ_ER O

Để biểu diễn dạng này, ta sẽ tìm lần lượt 2 mối quan hệ thực thể - tính từ, đó là S – ADJ và O – ADJ. Rồi biểu diễn 2 mối quan hệnày như ở mục 3.5. Sau đó, cũng xác định mối quan hệ so

sánh là “isGreaterThan” hay “isSmallerThan” tương tự như trên. Cuối cùng là liên kết 2 lớp “String” bằng quan hệ này. Biểu diễn có dạng tổng quát sau:

S → (hasProperty) → [String: *] → (isGreaterThan) ↓ S → (hasProperty) → [String: *]

CHƯƠNG 4

THIT K

4.1 Kiến trúc toàn b h thng

Hình bên dưới cho thấy kiến trúc tổng quan của hệ thống tìm kiếm:

Hình 4-1 Kiến trúc tổng quan

Trên cùng là giao diện web hiển thị bên phía người dùng. Câu truy vấn được tiếp nhận ở đây, sau khi qua bước tiền xử lý và phân loại sẽđược gửi đến VN-KIM Service. Đây cũng là nơi định dạng lại kết quả trả về từ VN-KIM Service và hiển thịra cho người dùng.

VN-KIM Service là nơi xử lý câu truy vấn. VN-KIM Service gồm nhiều khối xử lý nhỏ. Các khối này sử dụng các dịch vụởbên dưới để thực hiện chức năng của mình.

L-Server là nơi thực hiện việc thu thập tài liệu trên Internet, chú giải các tài liệu này và đánh

chỉ mục để hỗ trợ việc tìm kiếm tài liệu. Đề tài kế thừa L-Server hiện có của hệ thống tiếng Việt, chỉ bổ sung thêm khảnăng chú giải tài liệu tiếng Anh cho phù hợp với mục đích sử dụng.

Dịch vụ bên dưới được cung cấp bởi các hệ thống khác, bao gồm: Gom cụm tài liệu, chú giải, truy vấn thực thể. Các dịch vụ này trực tiếp truy cập vào Ontology, cơ sở tri thức và kho lưu

trữcác trang web để trả về các thực thể, số liệu hoặc tài liệu cần thiết.

Trong các thành phần trên, nhưđã nói, đề tài tập trung chủ yếu vào khối VN-KIM Service. Giải thuật xử lý câu truy vấn bên trong VN-KIM Service có thểchia ra làm 10 bước chính, sẽ lần

lượt được trình bày trong phần còn lại của chương này:

4.2 Chi tiết các bước ca gii thut

4.2.1 Nhn biết các thành phn ca câu truy vn

Các thành phần của câu truy vấn cần phải nhận diện gồm có: thực thể có tên, thực thể không tên, từ quan hệ, liên từ luận lý và tính từ.

Nhận diện thực thể có tên (ký hiệu là IE)

Thực thể có tên là các thực thểxác định, nó có một ID xác định và thuộc về một lớp xác định

trong Ontology. Cơ sở tri thức tổ chức thông tin về thuộc tính và quan hệ của các thực thể có tên này với nhau.

Đề tài sử dụng KIM platform để nhận diện thực thể có tên, dựa trên Ontology PROTON và

cơ sở tri thức KIM WKB. Sau khi đưa câu truy vấn vào để KIM chú thích ngữ nghĩa, ta sẽ nhận

được một tập các thực thể có tên nhận diện được, với thông tin về ID, lớp và vị trí xuất hiện của thực thểcó tên đó trong câu.

Ví dụ với câu truy vấn “capital of Vietnam”, KIM sẽ chú giải và trả về thực thể có tên là “Vietnam”, thuộc lớp http://proton.semanticweb.org/2006/05/protonu#Country và có ID xác định là http://www.ontotext.com/kim/2006/05/wkb#Country_T.VM.

Nhận diện thực thể không tên (ký hiệu là UE)

Thực thể không tên là các thực thể không xác định (không có ID) nhưng thuộc về một lớp

xác định trong Ontology. Các thực thể này cũng cần được nhận diện đầy đủ và chính xác để xây dựng đồ thị ý niệm.

Ví dụ với câu “capital of Vietnam” thì cần nhận diện được từ “capital” là thực thể không tên thuộc lớp http://proton.semanticweb.org/2006/05/protonu#Capital (trong PROTON).

Để nhận diện thực thể không tên, ta cần xây dựng danh sách các thực thể không tên tương ứng với các lớp trong Ontology. Sau đó nhờ vào công cụ ANNIE của GATE để thực hiện việc nhận dạng các thực thể không tên này có trong câu truy vấn.

Từ quan hệ cần phải được nhận diện để xác định mối quan hệ giữa các thực thể có trong câu truy vấn. Từ quan hệthường là các động từ, giới từ, như: in, from, is, are, has…

Liên từ luận lý gồm có: and, or, not, but…

Tính từ khi nhận biết cần phải phân biệt đó là tính từđịnh tính (good, famous…) hay tính từ định lượng (tall, long…) cũng như phân biệt tính từ thường với tính từ so sánh hơn (higher, taller…) tính từ so sánh nhất (best, tallest…).

Các thành phần này cũng được nhận diện tương tự thực thể không tên. Cụ thể là, cần phải xây dựng danh sách từ quan hệ, danh sách liên từ luận lý, và các danh sách tính từ. Sau đó thêm các danh sách này vào ANNIE để nhờ ANNIE nhận biết các thành phần tương ứng.

4.2.2 Phân tách câu truy vn

Bước này dùng để xử lý các câu truy vấn có chứa liên từ luận lý. Quá trình phân tách này dựa trên các liên từ luận lý đã được nhận biết ởbước 4.2.1, để phân tách câu truy vấn có cấu trúc song song thành các câu truy vấn nguyên tử(như đã nói ở mục 3.4).

Đồng thời, ta cũng phân tách tập các thành phần nhận biết được ởbước 4.2.1 thành các tập

con tương ứng với các câu truy vấn nguyên tử. Nhờ vậy, không cần phải nhận diện lại các thành phần của câu như cách làm trong đề tài của tác giả Mai Hoàng Anh [3]. Điều này giúp cải thiện tốc độ của quá trình xử lý.

Cần lưu ý, các liên từ “and”, “or”, “but”… trong một sốtrường hợp cụ thểkhông được dùng

để phân tách. Ví dụ: trong câu “What is the exchange rate between England and the U.S.?”, từ

“and” ởđây đi kèm với từ quan hệ“between” đằng trước. Do vậy, trước khi phân tách, cần phải có công đoạn nhận biết các trường hợp ngoại lệnày để xử lý riêng.

4.2.3 Xác định lp ca thc th

Ởbước 4.2.1 chúng ta nhận biết được các từđể hỏi “What”, “Who” là biểu diễn cho thực thể không tên nhưng không xác định được lớp chính xác của chúng. “Who” có thểđược hiểu là một thực thể thuộc lớp PERSON cũng có thể là một thực thể thuộc lớp ORGANIZATION, còn “What” thì có thể biểu diễn cho thực thể thuộc bất kỳ lớp nào. Do vậy, cần phải dựa vào phần còn lại của câu truy vấn đểxác định lớp của các thực thể không tên này. Tác giảCao Duy Trường [2]

 Nếu đứng sau “What” là một thực thể không tên, thì lớp của “What” được xác định là lớp của thực thểkhông tên đó.

 Nếu đứng sau “What” không phải là một thực thể không tên, thì lớp của “What” được

xác định dựa vào thực thểcó tên đầu tiên sau “What” và từ quan hệ cuối cùng trong câu.

 Lớp của “Who” thì được xác định dựa vào từ quan hệ và thực thểđứng sau nó.

4.2.4 Gom các thc th

Có một số thực thể được nhận biết là 2 thực thể khác nhau, tuy nhiên, về mặt ngữ nghĩa

chúng cùng nói về một thực thể trong câu truy vấn. Các thực thể này sẽđược gom lại thành một thực thể duy nhất.

Ví dụ với câu truy vấn “Who wrote the book, ‘Huckleberry Finn’?”, bước 4.2.1 sẽ nhận diện

được thực thể không tên “book” thuộc lớp BOOK và thực thể có tên “Huckleberry Finn” thuộc lớp BOOK, hai thực thể này cùng chỉ về một thực thể thuộc lớp BOOK. Do đó, chúng được gom lại thành một.

Trong nghiên cứu của mình, tác giả Cao Duy Trường [2] đã nêu ra ba điều kiện mà 2 thực thể cần phải thỏa mãn để có thểđược gom lại:

 Một trong hai thực thểđó phải có ít nhất một thực thể không tên.

 Trong Ontology, lớp của thực thể không tên phải là cha của lớp của thực thể còn lại.

 Giữa hai thực thể là dấu phẩy (,) hoặc các từ quan hệđặc biệt: is, are, was, were.

4.2.5 Xác định quan hn

Bước này sẽ xác định quan hệ ngữ nghĩa tồn tại giữa các thực thể, mà không được biểu hiện bằng bất cứ từ quan hệ nào. Cách làm dựa vào nghiên cứu [2].

Lấy ví dụ câu “What county is Modesto, California located in?”, giữa thực thể Modesto thuộc lớp CITY và thực thể California thuộc lớp PROVINCE tồn tại mối quan hệ

SUBREGIONOF, tuy nhiên mối quan hệ này không được biểu diễn bằng từ quan hệ nào, mà

Vì vậy, bước này sẽ thực hiện việc thêm quan hệ cho các thực thể đứng liền kề nhau hoặc cách nhau bởi dấu phẩy. Việc xác định quan hệ sẽ dựa vào lớp của 2 thực thể và loại quan hệ

giữa 2 lớp đó trên Ontology, là cơ sở tri thức của máy tính. Tuy nhiên, trên Ontology, giữa 2 lớp có thể tồn tại nhiều loại quan hệ. Việc chọn quan hệ nào sẽ dựa trên mức độ chi tiết về lớp của loại quan hệ. Quá trình xác định quan hệ ẩn giữa hai thực thể sẽ được tiến hành theo heuristic sau: liệt kê tất cả quan hệ có thể có giữa hai thực thểđó trong Ontology, sau đó, chọn ra quan hệ

chi tiết nhất.

Ví dụ trong câu truy vấn trên, giữa hai lớp CITY và lớp PROVINCE có thể tồn tại các loại quan hệ PARTOF, LOCATEDIN và SUBREGIONOF. Giả sử trong Ontology, các loại quan hệ này được định nghĩa như sau:

 Quan hệ PARTOF : (ENTITY, PARTOF, ENTITY).

 Quan hệ LOCATEDIN: (ENTITY, LOCATEDIN, LOCATION).

 Quan hệ SUBREGIONOF: (LOCATION, SUBREGIONOF, LOCATION).

Giả sử trên Ontology, lớp LOCATION là lớp con của lớp ENTITY, thì quan hệ

SUBREGIONOF là quan hệ giữa hai lớp chi tiết nhất nên sẽđược chọn.

4.2.6 Xác định loi quan h gia các thc th

Theo nghiên cứu [2], bước này xác định quan hệ ngữ nghĩa của các cặp thực thể dựa trên từ

quan hệ, ta gọi bộ ba này là bộ ba truy vấn <thực thể, từ quan hệ, thực thể>.

Trước hết, ta phải xác định được bộ ba, rồi mới tìm quan hệ ngữ nghĩa của bộba đó.

Xem xét vị trí của từ quan hệđối với cặp thực thể trong câu truy vấn: ví dụ với “Where is the

location of the Orange Bowl?”, từ quan hệ of nằm giữa hai thực thể là location và Orange Bowl.

Còn với câu truy vấn “What state is the Filenes store located in?”, từ quan hệ in biểu diễn mối quan hệ LOCATEDIN giữa thực thể state và thực thể Filenes store nằm ở sau thực thể Filenes store. Và trong câu “In what country is Angkor Wat?” từ quan hệ in nằm ởtrước thực thể country

dùng để biểu diễn mối quan hệ LOCATEDIN giữa thực thể country và thực thể Angkor Wat. Như

vậy, từ quan hệ dùng để biểu diễn mối quan hệ giữa 2 thực thể có thể nằm ở giữa, ở sau hoặc ở trước 2 thực thể. Nhận định từ tập mẫu, thì từ quan hệ xuất hiện nhiều nhất là ở giữa 2 thực thể.

Do đó, để hình thành nên các bộ ba truy vấn <thực thể, từ quan hệ, thực thể>, độưu tiên sẽ là vị

trí của từ quan hệđối với vị trí của 2 thực thể. Ưu tiên nhất là từ quan hệ nằm giữa 2 thực thể, kế

tiếp là từ quan hệ nằm sau 2 thực thể và cuối cùng là từ quan hệ sẽ nằm trước 2 thực thể.

Sau khi đã xác định được bộ ba, việc xác định quan hệ ngữ nghĩa được làm bằng cách ứng với mỗi bộ ba <thực thể, từ quan hệ, thực thể>, ta sẽ đối chiếu với Ontology để ánh xạ thành <thực thể, kiểu quan hệ, thực thể>. Việc ánh xạnày được hiện thực qua giải pháp dùng heuristic (tập luật) và lập từ điển quan hệ (rút trích từ Ontology). Quá trình ánh xạ được tác giả [3] khái quát bằng lược đồnhư sau:

Hình 4-3 Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn [3]

Chi tiết cho lược đồtrên được diễn dịch như sau:

 Xét mối quan hệ có dạng [C1, S1] – RW – [C2, S2] với: - RW là từ quan hệ,

- C1 và C2 lần lượt là lớp của thực thể thứ nhất và thứ hai,

- S1 và S2 lần lượt là giá trị chuỗi ban đầu của thực thể thứ nhất và thứ hai.

- Ánh xạ từ quan hệ RW thành tập quan hệ R1 – tập những quan hệ có thể tương

Một phần của tài liệu LUẬN văn VN KIM SEARCH TIẾNG ANH với TRUY vấn có LIÊN từ LUẬN lý, TÍNH từ và LƯỢNG từ (Trang 34)

Tải bản đầy đủ (PDF)

(74 trang)