Các thành phần của câu truy vấn cần phải nhận diện gồm có: thực thể có tên, thực thể không tên, từ quan hệ, liên từ luận lý và tính từ.
Nhận diện thực thể có tên (ký hiệu là IE)
Thực thể có tên là các thực thểxác định, nó có một ID xác định và thuộc về một lớp xác định
trong Ontology. Cơ sở tri thức tổ chức thông tin về thuộc tính và quan hệ của các thực thể có tên này với nhau.
Đề tài sử dụng KIM platform để nhận diện thực thể có tên, dựa trên Ontology PROTON và
cơ sở tri thức KIM WKB. Sau khi đưa câu truy vấn vào để KIM chú thích ngữ nghĩa, ta sẽ nhận
được một tập các thực thể có tên nhận diện được, với thông tin về ID, lớp và vị trí xuất hiện của thực thểcó tên đó trong câu.
Ví dụ với câu truy vấn “capital of Vietnam”, KIM sẽ chú giải và trả về thực thể có tên là “Vietnam”, thuộc lớp http://proton.semanticweb.org/2006/05/protonu#Country và có ID xác định là http://www.ontotext.com/kim/2006/05/wkb#Country_T.VM.
Nhận diện thực thể không tên (ký hiệu là UE)
Thực thể không tên là các thực thể không xác định (không có ID) nhưng thuộc về một lớp
xác định trong Ontology. Các thực thể này cũng cần được nhận diện đầy đủ và chính xác để xây dựng đồ thị ý niệm.
Ví dụ với câu “capital of Vietnam” thì cần nhận diện được từ “capital” là thực thể không tên thuộc lớp http://proton.semanticweb.org/2006/05/protonu#Capital (trong PROTON).
Để nhận diện thực thể không tên, ta cần xây dựng danh sách các thực thể không tên tương ứng với các lớp trong Ontology. Sau đó nhờ vào công cụ ANNIE của GATE để thực hiện việc nhận dạng các thực thể không tên này có trong câu truy vấn.
Từ quan hệ cần phải được nhận diện để xác định mối quan hệ giữa các thực thể có trong câu truy vấn. Từ quan hệthường là các động từ, giới từ, như: in, from, is, are, has…
Liên từ luận lý gồm có: and, or, not, but…
Tính từ khi nhận biết cần phải phân biệt đó là tính từđịnh tính (good, famous…) hay tính từ định lượng (tall, long…) cũng như phân biệt tính từ thường với tính từ so sánh hơn (higher, taller…) tính từ so sánh nhất (best, tallest…).
Các thành phần này cũng được nhận diện tương tự thực thể không tên. Cụ thể là, cần phải xây dựng danh sách từ quan hệ, danh sách liên từ luận lý, và các danh sách tính từ. Sau đó thêm các danh sách này vào ANNIE để nhờ ANNIE nhận biết các thành phần tương ứng.