Đề tài sử dụng đồng thời hai phương pháp để biểu diễn tính từ. Việc chọn cách biểu diễn nào trong từng trường hợp cụ thể tùy thuộc vào tính từ so sánh nhất cần được biểu diễn thuộc về tính từ định tính hay định lượng.
Đối với tính từ so sánh nhất thuộc loại định lượng (Ví dụ: tallest, highest), việc giải quyết cho câu truy vấn loại này cũng tương tự như hướng giải quyết cho loại truy vấn “How many” bằng việc thay quan hệ COUNT thành quan hệ MIN, MAX tương ứng và đường liên kết sẽ chỉ tới tính từ định lượng mà câu truy vấn cần đề cập.
Chúng tơi đề xuất giải pháp như sau: Mẫu câu truy vấn tổng quát cho dạng này sẽ cĩ các trường hợp như bên dưới, với ADJ_EST là cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):
ADJ_EST S RW O Hoặc
S RW ADJ_EST O
Đầu tiên, ta sẽ coi như khơng cĩ mặt của ADJ_EST và biểu diễn câu S RW O thành một đỉnh truy vấn con. Sau đĩ trong đỉnh truy vấn con vừa được tạo này, ta sẽ biểu diễn tính từ ở dạng nguyên mẫu của ADJ_EST bằng phương pháp đã nêu trong Mục 3.1.2 của Chương 3.
Nhiệm vụ cịn lại là định nghĩa quan hệ MIN, MAX chỉ tới đỉnh truy vấn con và một đường liên kết nét đơi sẽ được nối từ quan hệ MIN, MAX tới biểu diễn tính từ nằm trong đỉnh truy vấn con.
Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như Hình 3.6:
Hình 3.6: Ví dụ về biểu diễn câu truy vấn cĩ tính từ so sánh nhất định lượng.
Đối với tính từ so sánh nhất thuộc loại định tính, chúng tơi giải quyết tương tự như cho trường hợp biểu diễn tính từ định lượng đã trình bày ở Mục 3.2, Chương 3. Theo đĩ, với câu truy vấn “What the most famous model was married to Billy Joel?” sẽ được biểu diễn như Hình 3.7 với lớp MOST_FAMOUS_MODEL là lớp con của lớp MODEL.
Hình 3.7: Ví dụ về biểu diễn câu truy vấn cĩ tính từ so sánh nhất định tính. 3.4 Chuyển đổi câu truy vấn cĩ tính từ
Luận văn áp dụng phương pháp biểu diễn tính từ của thực thể được đề nghị trong [tham khảo HA], với một chút điều chỉnh để cĩ thể linh động sử dụng dạng biểu diễn mà Ontology đã hỗ trợ.
Cụ thể, với câu cĩ dạng (“ADJ”, “S”, “O”, ”RW” lần lượt là tính từ, chủ thể, khách thể và từ quan hệ):
ADJ S RW O Hoặc
Hai giải pháp được đề xuất trong trong [tham khảo HA] là:
- Cách 1: Định nghĩa lớp con. Ứng với mỗi tính từ ta sẽ định nghĩa lớp con của thực thể ngay sau ADJ mà cĩ tính chất thỏa ADJ theo một độ đo nào đĩ. Các mẫu truy vấn ở trên sẽ được biểu diễn thành:
S ← (SubclassOf) ←Sub_S → (RW) → O Hoặc
S → (RW) → Sub_O → (SubclassOf) → O
- Cách 2: Định nghĩa thêm quan hệ. Định nghĩa kiểu quan hệ HASPROPERTY gắn với thực thể ngay sau ADJ và range lớp là STRING. Các mẫu truy vấn ở trên sẽ được biểu diễn thành:
[String: *] ← (HASPROPERTY) ← S → (RW) → O Hoặc
S → (RW) → O → (HASPROPERTY) → [String: *]
Tuy nhiên, để truy vấn được tài liệu, hoặc tìm được số liệu trả lời, việc biểu diễn các câu truy vấn cĩ tính từ sang đồ thị ý niệm phải phụ thuộc vào cách ontology thể hiện thuộc tính của thực thể. Vì đồ thị ý niệm sẽ được ánh xạ trực tiếp sang ngơn ngữ SeRQL để truy xuất cơ sở tri thức được định nghĩa trên ontology. Do đĩ, khi chọn cách biểu diễn cho tính từ, đề tài này xem xét thuộc tính đĩ được ontology thể hiện dưới dạng nào để xây dựng đồ thị ý niệm tương ứng.
Lấy ví dụ với tính từ định tính: trong ontology đã cĩ lớp MODEL bao gồm các thực thể là người mẫu, để thể hiện thuộc tính nổi tiếng (FAMOUS) của người mẫu, Ontology cĩ thể định nghĩa thêm lớp FAMOUS_MODEL là lớp con của lớp MODEL, chứa các thực thể là người mẫu được xem là nổi tiếng. Trong trường hợp này, đề tài sẽ chọn Cách 1 để biểu diễn đồ thị ý niệm:
[MODEL: *] ← (SubclassOf) ← [FAMOUS_MODEL: ?] → (RW) → O
Cũng cĩ thể với lớp MODEL như trên, nhưng thuộc tính FAMOUS cĩ thể được định nghĩa là một quan hệ HAS_FAME_PROPERTY với miền chủ ngữ (domain) là lớp MODEL, cịn tầm vực vị ngữ (range) là lớp STRING với các giá trị “Yes” hoặc “No” để cho biết các thực thể người mẫu là nổi tiếng hay khơng. Trong trường hợp này, đề tài sẽ chọn Cách 2 để biểu diễn đồ thị ý niệm:
[String: Yes] ← (HAS_FAME_PROPERTY) ← [MODEL: ?] → (RW) → O
Khi Ontology chưa định nghĩa bất cứ cách nào trong 2 cách trên, thì đề tài sẽ dùng cách biểu diễn 1, sinh ra lớp con giả, cho tính từ định tính và cách biểu diễn 2, sinh ra quan hệ giả, cho tính từ định lượng như được đề nghị trong [tham khảo HA].
.
3.5 Chuyển đổi câu truy vấn cĩ tính từ so sánh nhất3.5.1 Trường hợp tính từ định tính 3.5.1 Trường hợp tính từ định tính
3.5.2 Trường hợp tính từ định lượng [tham khảo HA]
Với câu truy vấn cĩ tính từ định lượng so sánh nhất (Ví dụ: tallest, highest), hướng giải quyết tương tự như đã trình bày ở 3.3 (cho loại truy vấn “How many”), điểm khác biệt là thay quan hệ “COUNT” thành quan hệ “MIN”, hoặc“MAX” tương ứng, và đường liên kết sẽ chỉ tới lớp “String” trong quan hệ ứng với tính từ định lượng mà câu truy vấn cần đề cập.
Cụ thể như sau: xét dạng tổng quát cho câu truy vấn loại này như bên dưới, với “ADJ_EST” đại diện cho cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):
ADJ_EST S RW O Hoặc
S RW ADJ_EST O
Đầu tiên, ta sẽ tìm dạng nguyên mẫu “ADJ” của “ADJ_EST” và biểu diễn câu truy vấn theo phương pháp cho tính từ định lượng đã trình bày ở phần 3.4.2. Lúc này ta đã cĩ được một đỉnh truy vấn con.
Sau đĩ, ta xác định xem so sánh nhất của tính từ trong truy vấn là tương ứng với lấy “lượng” lớn nhất hay lấy “lượng” nhỏ nhất. Ví dụ: “highest” tương ứng với lấy lượng lớn nhất, cịn “lowest” sẽ lấy lượng nhỏ nhất. Nếu là trường hợp đầu tiên thì quan hệ là “MAX”, ngược lại là “MIN”.
Nhiệm vụ cịn lại là định nghĩa quan hệ “MAX”, “MIN” chỉ tới đỉnh truy vấn con và một đường liên kết nét đơi sẽ được nối từ quan hệ này tới lớp “String”trong cách biểu diễn tính từ định lượng.
Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như sau:
[hình tham khảo HA]
3.6 Chuyển đổi câu truy vấn cĩ tính từ định lượng so sánh hơn
Đề tài này mở rộng biểu diễn thêm một dạng nữa của tính từ định lượng, đĩ là dạng so sánh hơn. Trong phần này sẽ đề xuất cách biểu diễn cho 2 dạng so sánh hơn: so sánh hơn với một hằng số, và so sánh hơn với một thực thể cĩ tên.
Đối với dạng so sánh hơn với một hằng số, mẫu câu tổng quát như sau, với “ADJ_ER” đại diện cho cụm tính từ so sánh hơn (more adj than, less adj than, adjER than,…):
S RW ADJ_ER CONSTANT
Đầu tiên, ta sẽ biểu diễn mối quan hệ giữa “S” và “ADJ_ER” như 3.4.2. Phần “CONSTANTS” sẽ được nhận biết như một giá trị thuộc lớp “String”. Sau đĩ, tùy theo tính từ nguyên gốc là gì, ta sẽ xác định được quan hệ so sánh hơn là “isGreaterThan” hay “isSmallerThan” . Ví dụ: “higher” sẽ tương ứng với “isGreaterThan”, cịn “lower” sẽ tướng ứng với “isSmallerThan”. Cuối cùng là thêm quan hệ này vào giữa lớp “String” trong mối quan hệ biểu diễn tính từ và hằng số. Biểu diễn cĩ dạng như sau:
S → (hasProperty) → [String: *] → (isGreaterThan) → [String: *]
S RW ADJ_ER O
Để biểu diễn dạng này, ta sẽ tìm lần lượt 2 mối quan hệ thực thể - tính từ, đĩ là S – ADJ và O – ADJ. Rồi biểu diễn 2 mối quan hệ này như ở 3.4.2. Sau đĩ, cũng xác định mối quan hệ so sánh là “isGreaterThan” hay “isSmallerThan” tương tự như trên. Cuối cùng là liên kết 2 lớp “String” bằng quan hệ này. Biểu diễn cĩ dạng tổng quát sau:
S → (hasProperty) → [String: *] → (isGreaterThan)
↓
CHƯƠNG 4 THIẾT KẾ
4.1 Các bước của giải thuật
Kết quả nghiên cứu của tác giả [18] đã đưa ra một phương pháp dịch câu truy vấn sang đồ thị ý niệm khơng dựa vào phân tích cú pháp của câu truy vấn mà dựa trên thực thể cùng các mối liên hệ giữa chúng. Phương pháp này cĩ các ưu điểm sau:
• Cĩ thể xây dựng đồ thị ý niệm cho các câu truy vấn cĩ hình thức là một câu đầy đủ, hoặc một đoạn câu. Phương pháp này cũng cĩ thể xây dựng được đồ thị ý niệm cho các câu truy vấn khơng đúng cú pháp.
• Dễ dàng chuyển đổi để thực hiện cho các câu truy vấn bằng các ngơn ngữ khác nhau khi cĩ một Ontology tương ứng.
• Mặc khác phương pháp này cũng rút ngắn thời gian so với phương pháp phân tích cú pháp câu truy vấn.
Quá trình chuyển đổi câu truy vấn sang đồ thị ý niệm thực chất là quá trình tìm kiếm các thực thể trong câu truy vấn và xây dựng mối quan hệ giữa chúng dựa vào Ontology. Ta xét câu truy vấn: “Who is Peter’s son”, ta cĩ Peter là một thực thể cĩ tênthuộc lớp PERSON, son biểu diễn cho một thực thể thuộc lớp SON, chúng ta gọi là thực thể khơng tên, và trên Ontology tồn tại quan hệ giữa hai thực thể này là <PERSON, HASSON, SON>.
Trong đề tài này, phần hiện thực chương trình đã kế thừa lại hạt nhân xử lý từ kết quả nghiên cứu của tác giả [18], đồng thời hiệu chỉnh và giải quyết thêm cho những truy vấn hỏi về số lượng, những truy vấn cĩ chứa tính từ, tính từ so sánh nhất và liên từ luận lý. Một lược đồ tổng quát được trình bày tại Hình 4.1 với những bổ sung như sau:
Để giải quyết truy vấn hỏi về số lượng (“How many”), phương pháp tiếp cận đã hiệu chỉnh Bước 12 (Xây dựng đồ thị ý niệm).
Để giải quyết truy vấn cĩ chứa tính từ và tính từ so sánh nhất, phương pháp tiếp cận đã thêm Bước 4 (Nhận diện tính từ) và Bước 11 (Xác định quan hệ giữa tính từ và thực thể), đồng thời hiệu chỉnh Bước 12 (Xây dựng đồ thị ý niệm).
Để giải quyết truy vấn cĩ chứa liên từ luận lý, phương pháp tiếp cận đã thêm Bước 1 (Phân tách câu truy vấn) và đồng thời hiệu chỉnh Bước 12 (Xây dựng đồ thị ý niệm).
Tiếp theo đây, chúng ta sẽ đi vào chi tiết từng bước của giải thuật.
4.1.1 Phân tách câu truy vấn
Bước này được sử dụng nhằm phân tách câu truy vấn cĩ chứa liên từ luận lý AND, OR, NOT thành các câu truy vấn nguyên tử (là truy vấn mà khơng cĩ chứa liên từ luận lý trong câu). Như chúng tơi đã phân tích tại Mục 3.1.4, Chương 3, những câu truy vấn cĩ liên từ luận lý mà ta đang xem xét là những câu truy vấn cĩ dạng cấu trúc song song. Quá trình phân tách sẽ sử dụng liên từ luận lý AND, OR, NOT làm từ phân tách. Từ kết quả của bước phân tách này, ta sẽ được một tập các câu truy vấn nguyên tử.
4.1.2 Nhận biết thực thể cĩ tên
Đề tài sử dụng GATE để nhận diện thực thể cĩ tên dựa trên Ontology PROTON. Các thực thể cĩ tênlà các thực thể xác định. Trên Ontology, các thực thể cĩ tên sẽ cĩ một ID xác định, thuộc về một lớp xác định, cĩ thơng tin về thuộc tính và quan hệ của chúng với các thực thể khác. Ví dụ trên PROTON, http://www.ontotext.com/kim/2005/04/wkb#Country là lớp của thực thể “Viet Nam” và thực thể cĩ tênnày cĩ ID xác định là http://www.ontotext.com/kim/2005/04/wkb#Country_T.VM. Quá trình chú thích ngữ nghĩa bằng GATE cho ta kết quả là một tập các thực thể cĩ tên, với các thơng tin về lớp ID của thực thể, lớp của thực thể và các thuộc tính cũng như các mối quan hệ của thực thể. Các thực thể cĩ tên được ký hiệu là IE.
4.1.3 Nhận biết thực thể khơng tên
Để xây dựng được đồ thị ý niệm, ngồi việc nhận diện các thực thể cĩ tên, các thực thể khơng tên cũng phải được nhận diện một cách đầy đủ và chính xác. Các thực thể khơng tên là các thực thể khơng xác định và khơng tồn tại trên Ontology, tuy nhiên về mặt ngữ nghĩa, chúng cĩ thể thuộc về một lớp xác định nào đĩ trong Ontology, ví dụ các từ “person”, “son”, “father”, “mother”,… là các thực thể khơng tên, và trên PROTON, http://www.ontotext.com/kim/2005/04/wkb#Person là lớp biểu diễn cho các thực thể khơng tên này.
Cơng cụ ANNIE trong GATE cĩ thể thực hiện chính xác việc nhận dạng các thực thể khơng tên. ANNIE giúp ta tất cả các bước trong quá trình tìm kiếm, cơng việc của chúng ta là xây dựng một danh
sách tên các lớp trong Ontology và lưu vào một tập tin; sau đĩ, ta sẽ định nghĩa tên tập tin này vào tập tin chỉ mục cĩ tên là lists.def trong thư mục Gazetteer.
ANNIE cho ta tập các thực thể khơng tên, và thơng tin về lớp của các thực thể khơng tên đĩ. Các thực thể khơng tên được ký hiệu UE.
4.1.4 Nhận biết tính từ
Bước này nhận biết các tính từ trong câu truy vấn. Các tính từ được chia làm 3 loại:
• Tính từ định tính: famous, beautiful, …
• Tính từ định lượng: tall, hight, …
• Tính từ so sánh nhất: smallest, longest, …
Việc nhận diện tính từ cũng được thực hiện bằng cơng cụ ANNIE của GATE, điểm khác biệt là chúng ta cần xây dựng danh sách (lập từ điển) các tính từ định lượng, danh sách các tính từ định tính và danh sách các tính từ so sánh nhất và ánh xạ chúng vào Gazetteer.
4.1.5 Nhận biết từ quan hệ
Các từ quan hệ được xem là chìa khĩa để xác định mối quan hệ giữa các thực thể trong câu truy vấn. Các từ quan hệ là các giới từ, động từ như: in, on, of, live in, located in, has, is, are, …
Tương tự như nhận diện các thực thể khơng tên, việc nhận diện từ quan hệ cũng được thực hiện bằng cơng cụ ANNIE của GATE, điểm khác biệt là chúng ta cần xây dựng danh sách các từ quan hệ và ánh xạ chúng vào Gazetteer. Kết quả nhận biết từ quan hệ là tập các từ quan hệ cĩ trong câu truy vấn. Các từ quan hệ được ký hiệu là RW.
4.1.6 Xác định lớp của thực thể
Trong các câu hỏi bắt đầu bằng What, Who, Where, các từ để hỏi này được xem là một từ biểu diễn cho một thực thể khơng tên và chưa xác định được lớp. Nhiệm vụ của bước này là xác định chính xác lớp thực thể cho các từ để hỏi nêu trên.
Đề tài đề xuất phương pháp xác định lớp cho thực thể What như sau:
• Nếu đứng sau What là một thực thể khơng tên, thì lớp của What được xác định cũng chính là lớp của thực thể khơng tên đĩ. Ví dụ trong câu “What country are Godiva chocolates from?”, sau What là country, mà ta cĩ country là biểu diễn của thực thể khơng tên thuộc lớp COUNTRY, do đĩ lớp của What được xác định là COUNTRY.
• Ngược lại, nếu sau What khơng phải là thực thể khơng tên thì lớp của What được xác định bởi thực thể cĩ tênđầu tiên sau What và từ quan hệ cuối cùng trong câu. Ví dụ trong câu “What does CNN stand for?”, CNN là một thực thể cĩ tên thuộc lớp ORGANIZATION và stand for
biểu diễn cho quan hệ HASALIAS, do đĩ What được xác định là thuộc lớp ALIAS.
Đối với các câu hỏi bắt đầu bằng Who thì từ hỏi Who cĩ thể được hiểu là một thực thể thuộc lớp PERSON hoặc lớp ORGANIZATION. Bước này xác định lớp của Who dựa vào từ quan hệ và thực thể đứng sau Who. Ta xét một ví dụ như sau: “Who provides telephone service in Orange County, California?”, lớp của Who trong trường hợp này được xác định là ORGANIZATION.
4.1.7 Gom các thực thể
Ta xét câu truy vấn “Who are members of the board of the IMG?”, sau Bước 4.1.6 (Xác định lớp của thực thể), chúng ta được hai thực thể khơng tên: Who, member thuộc lớp PERSON và một thực thể cĩ tên IMG thuộc lớp COMPANY. Trong đĩ Who và member chỉ về cùng một PERSON, là
member của IMG. Do đĩ, Who và member được gom lại thành một thực thể duy nhất.