4.Đánh giá hệ thống

II. XÂY DỰNG ỨNG DỤNG

4.Đánh giá hệ thống

Để đánh giá hệ thống, ở đây ta thu thập dữ liệu về mỗi lớp là 10 thể hiện, gồm có quán ăn, nhà hàng, quán kem, café, khách sạn, nhà nghỉ. Với tập dữ liệu này, khi chưa qua rút trích chọn lọc thông tin, chúng được đánh chỉ mục để thử nghiệm theo phương pháp truy hồi truyền thống. Sau đó, dựa trên ontology, chúng được đánh chỉ mục lần nữa để kiểm nghiệm phương pháp truy hồi hướng ngữ

Các câu truy vấn được sử dụng để thử nghiệm (những từ in đậm là câu truy vấn):

1. Tìm tất cả quán ăn: quán ăn

2. Tìm tất cả quán ăn về hải sản: quán ăn hải sản

3. Tìm tất cả quán ăn về hải sản có máy lạnh: quán ăn hải sản máy lạnh

4. Tìm tất cả quán ăn để tiếp khách: quán ăn tiếp khách

5. Tìm tất cả quán khách sạn: khách sạn

6. Tìm tất cả quán khách sạn: khách sạn 4 sao

7. Tìm tất cả quán cafe: cafe

8. Tìm tất cả quản cafe thích hợp để học bài: cafe học bài

9. Tìm tất cả quản cafe thích hợp để hẹn hò: cafe hẹn hò

10. Tìm tất cả nhà hàng: nhà hàng

11. Tìm tất cả nhà hàng theo phong cách nhật bản: nhà hàng phong cách nhật bản

12. Tìm tất cả quán kem: quán kem

13. Tìm tất cả quán kem có phong cách nước ngoài: quán kem phong cách nước ngoài

Một ví dụ về tính toán độ chính xác trung bình

Ở đây, ta sử dụng độ chính xác trung bình để đánh giá tất cả các câu truy vấn. Vì vậy, ta cần hiểu rõ nó được tính toán như thế nào. Giả sử, ta có một ví dụ như sau: 1. d2 2. d4 3. d1 4. d6 5. d11 6. d20 …

Ta có một truy vấn mà nên có 3 tài liệu được trả về, là 3 tài liệu có liên quan với câu truy vấn. Kết quả trả về như hình trên, 3 tài liệu thích hợp cho truy vấn nằm ở vị trí 2, 4 và 5. Độ chính xác trung bình trong trường hợp này được tính như sau:

Trong biểu thức trên, 1/2 là độ chính xác tại độ bao phủ mức 2, 2/4 là độ chính xác tại độ bao phủ mức 4, tương tự với 3/5 là độ chính xác tại độ bao phủ mức 5. Độ chính xác trung bình 100% có nghĩa là tất cả tài liệu liên quan với câu truy vấn nằm hết ở vị trí đầu.

Phân tích kết quả

Trước khi xem bảng tổng hợp kết quả các câu truy vấn trên 2 cách đánh chỉ mục. Ta cùng phân tích cho thấy sự hiệu quả trong việc rút trích thông tin, suy diễn theo ontology.

Với truy vấn tìm tất cả các quán ăn thì cả 2 cách đánh chỉ mục đều cho kết quả như nhau với độ chính xác trung bình là 100%. Tương tự với các câu truy vấn cho các loại địa điểm khác (nhà hàng, cafe, khách sạn, …) với từ khóa tìm kiếm chính là loại địa điểm.

Với câu truy vấn thứ 8, tìm tất cả các quán cafe thích hợp để học bài. Bởi vì dữ liệu thu thập được từ các website chỉ chứa cụm từ “không gian yên tĩnh”, do đó

với cách đánh chỉ mục truyền thống không thể tìm kiếm được các quán café để học bài. Tuy nhiên, ta có thể rút trích thông tin đó cho thuộc tính “thích hợp” là học bài. Tương tự, với câu truy vấn số 9, các cụm từ như “không gian lãng mạn”, “quán café lãng mạn” ta có thể cho địa điểm đó thích hợp cho việc “hẹn hò”.

Ở câu truy vấn thứ 13, tìm các quán kem có phong cách nước ngoài. Ta suy diễn dựa trên một danh sách thuộc tính “phong cách” trong ontology. Với các quốc gia như “Nhật, Mỹ, Ý, …” ta có suy diễn thành một thuộc tính cha cho thuộc tính “phong cách” với nội dung là “nước ngoài”. Nhờ đó, bảo đảm các quán kem không phải là phong cách “Việt Nam” sẽ được tìm thấy.

Truy vấn Truyền thồng Ngữ nghĩa

1 10/10 = 100% 10/10 = 100% 2 3/3 = 100% 3/3 = 100% 3 1.74/2 = 87% 2/2 = 100% 4 2/2 = 100% 2/2 = 100% 5 10/10 = 100% 10/10 = 100% 6 2.73/6 = 45.5% 6/6 = 100% 7 10/10 = 100% 10/10 = 100% 8 0/4 = 0% 4/4 = 100% 9 0/9 = 0% 9/9 = 100% 10 10/10 = 100% 10/10 = 100% 11 1.43/2 = 71.5% 2/2 = 100% 12 10/10 = 100% 10/10 = 100% 13 0/2 = 0% 2/2 = 100% Độ chính xác trung bình của 2 cách đánh chỉ mục

Kết quả ở trên cho thấy ưu điểm trong việc xây dựng một ontology thay vì tìm kiếm theo cách truyền thống. Tuy nhiên, để có được các kết quả 100% như thế, ngoài việc xây dựng ontology, hệ thống còn sử dụng vnTonkenizer để thực hiện việc tách từ trong câu truy vấn để đảm bảo độ chính xác cao nhất. Nhưng đôi khi việc tách từ này sai, do truy vấn người dùng hay do hệ thống thì kết quả dẫn tới là 0% (tức là không có tài liệu thích hợp với truy vấn). Nhưng với cách tìm kiếm truyền thống thì lại có các tài liệu trả về.

III. TỔNG KẾT

Ontology ngày càng được sử dụng trong nhiều lĩnh vực. Chúng chia sẻ kiến thức chung giữa con người hoặc phần mềm với nhau. Nếu các hệ thống cùng chia sẻ chung một ontology bên dưới thì dữ liệu do con người nhập vào tại hệ thống này sau khi được xử lý thông qua ontology có thể được tổng hợp, phân tích tại hệ thống khác và cung cấp thông tin cho người sử dụng khác. Chúng cũng được tái sử dụng cùng kiến thức một lĩnh vực. Ngoài ra, thông qua chúng, ta có thể phân tích và suy luận các kiến thức chuyên ngành vì những thuật ngữ, khái niệm cũng như các mối quan hệ giữa chúng đều được khai báo, đặc tả trong ontology với cấu trúc có thể suy luận được theo ngữ nghĩa. Cụ thể là do các khái niệm được lưu dưới cấu trúc cây phân cấp, tên của khái niệm và quan hệ là những từ và cụm từ có nghĩa biểu diễn cho những phát biểu. Trong web ngữ nghĩa, ontology được xem như là xương sống cho nền tảng web trong tương lai. Đặc biệt trong lĩnh vực truy hồi thông tin, ngày càng nhiều bài báo, luận văn nghiên cứu nó trong lĩnh vực này.

Bài thu hoạch đã tìm hiểu một vài khía cạnh về ontology như các thành phần, phân loại, ontology-learning … cũng như hệ thống truy hồi thông tin với ontology. Kết quả đạt được đã phần nào chứng minh ưu điểm trong việc sử dụng ontology cho tìm kiếm hướng ngữ nghĩa. Vì thời gian hạn chế, nên chưa phát triển được một ontology giàu dữ liệu, giàu tính suy diễn để thể được sức mạnh của nó và còn rất nhiều vấn đề cần phải nghiên cứu về nó chẳng hạn như ontology-learning.

Đánh giá hệ thống truy hồ

Các thành phần của Ontology