nhưng nó cũng có thể được biểu diễn trong các hình thức khác, như trong trường hệ thống truy hồi đa phương tiện, input có thể là ảnh, âm thanh, …- Loại thông tin đáp ứng: là loại thông t
Trang 1BIỂU DIỄN CÔNG NGHỆ TRI
THỨC VÀ ỨNG DỤNG
Tìm Kiếm Ngữ Nghĩa dựa trên Ontology
Giảng viên hướng dẫn PGS.TS Đỗ Văn Nhơn
01 – 2013
Trang 2BIỂU DIỄN CÔNG NGHỆ TRI
THỨC VÀ ỨNG DỤNG
Tìm Kiếm Ngữ Nghĩa dựa trên Ontology
Giảng viên hướng dẫn PGS.TS Đỗ Văn Nhơn
Trang 3MỞ ĐẦU 3
I CƠ SỞ LÝ THUYẾT 4
1 Truy hồi thông tin 4
1.1 Quy trình truy hồi thông tin 5
1.2 Các mô hình truy hồi thông tin 8
1.2.1 Mô hình Boole 10
1.2.2 Mô hình không gian vector 12
1.2.3 Mô hình xác suất 15
1.2.4 Các mô hình khác 19
1.3 Truy hồi thông tin hướng ngữ nghĩa 19
1.3.1 Xử lý ngôn ngữ tự nhiên 19
1.3.2 Ontology 23
1.4 Đánh giá hệ thống truy hồi 24
2 Ontology 27
2.1 Định nghĩa 27
2.2 Các thành phần của Ontology 29
Trang 42.3 Phân loại ontology 30
2.4 Xây dựng một ontology 31
2.4.1 Về mặt ý niệm 31
2.4.2 Về phương pháp 37
2.4.3 Về ngôn ngữ 38
II XÂY DỰNG ỨNG DỤNG 46
1 Mục tiêu ứng dụng 46
2 Thiết kế hệ thống 46
2.1 Quy trình thực hiện 46
2.2 Thiết kế ontology 48
2.3 Bộ rút trích thông tin 49
2.4 Đánh chỉ mục, tìm kiếm và xếp hạng 49
3 Hiện thực hệ thống 50
4 Đánh giá hệ thống 52
III TỔNG KẾT 58
TÀI LIỆU THAM KHẢO 59
PHỤ LỤC HƯỚNG DẪN SỬ DỤNG 61
Trang 5MỞ ĐẦU
Lượng thông tin khổng lồ ngày càng gia tăng trên World Wide Web đã tạo nhu cầu cực kỳ lớn cho các công cụ và kỹ thuật để xử lý dữ liệu có ngữ nghĩa Hiện tại thực tế các hệ thống thông tin truy hồi phần lớn dựa trên tìm kiếm theo
từ khóa với dữ liệu full-text được mô hình hóa theo bag-of-word Đó là lý do tại sao khi sử dụng các công cụ tìm kiếm thông tin trên Internet, chúng ta thường xuyên phải đối mặt với một lượng lớn các thông tin không hợp lý, thậmchí không liên quan đến vấn đề mà chúng ta quan tâm Vậy đâu là lý do dẫn tớithông tin sai lệch trong kết quả tìm kiếm Đó là cách chúng ta biểu diễn nội dung trên website hiện nay dưới dạng dữ liệu thô Để giải quyết điều này, có nhiều cách tiếp cận khác nhau, một trong số đó là ontology
Bài thu hoạch này sẽ giới thiệu tổng quan về truy hồi thông tin, quy trình cũng như các mô hình của chúng Tiếp theo là giới thiệu về ontology như định nghĩa, các thành phần, phân loại và xây dựng chúng Với những lý thuyết đó,
ta xây dựng một ứng dụng tìm kiếm các địa điểm như quán ăn, nhà hàng, café,
… dựa trên ontology với các thông tin được rút trích từ các dữ liệu free-text ở các website như ‘quananngon.com.vn’, ‘gucafe.com’, ‘chudu24.com’, … Các đánh giá kết quả cho thấy, ứng dụng có khả năng xử lý với những truy vấn kháphức tạp nhưng vẫn dựa trên giao diện thân thiện với người dùng là các truy vấn dạng free-text
Lời cảm ơn, em chân thành xin dành cho thầy Nhơn vì những kiến thức củaThầy mang lại để giúp em có được cũng như hoàn thành tốt bài thu hoạch này
Trang 6I CƠ SỞ LÝ THUYẾT
Ngày nay, số lượng thông tin trong các kho tài liệu đã phát triển một cách chóng mặt, đa số được lưu trữ trong định dạng số World Wide Web (WWW)
là một ví dụ rõ ràng nhất, ước tính hơn 20 tỷ tài liệu theo thống kê của Yahoo vào 2005 Ngoài ra còn có các thư viện số, các mạng nội bộ trong công ty, … Tuy nhiên, nếu chỉ có nội dung không có nghĩa là nó hữu ích Ngược lại, ngườidùng không phải lúc nào cũng tìm thấy thông tin mình cần Vấn đề đã xuất hiện trong những ngày đầu công nghệ máy tính Vào 1930 Vannevar Bush đã
nghĩ về một cái máy gọi là Memex, “một thiết bị lưu trữ các cuốn sách, bài viết, hội nghị của ông ta để dùng trong việc tham khảo với tốc độ nhanh
chóng” Năm 1950 Calvin Mooers đưa ra thuật ngữ “Information Retrieval”
nhưng nó không được chấp nhận cho đến năm 1960, Maron & Kuhns định
nghĩa vấn đề của Information Retrieval “xác định đầy đủ nội dung thông tin tài liệu” Với ý tưởng này, rất nhiều nghiên cứu đã được thực hiện ngay sau đó với
mục đích làm cho các thông tin có sẵn trong các kho chứa (dữ liệu số) được truy cập một cách dễ dàng và hiệu quả hữu ích
Tóm lại, truy hồi thông tin là một trong những lĩnh vực nghiên cứu lâu đời nhất trong khoa học thông tin Mục tiêu của IR là tìm kiếm và đưa ra các tài liệu thích hợp nhất cho nhu cầu thông tin của người dùng Vì vậy một hệ thống
IR tốt nên chỉ trả về các tài liệu mà đáp ứng nhu cầu người dùng, không nên bao gồm các dữ liệu không cần thiết
Trang 71.1 Quy trình truy hồi thông tin
Các hệ thống truy hồi thông tin ngày nay đã phát triển và cải tiến nhiều hơn
so với sự xuất hiện lần đầu tiên của nó vào những năm 1950 Tuy nhiên, quá trình xử lý cơ bản hầu như không thay đổi
Input: Một hệ thống IR có hai input chính, yêu cầu của người dùng và loại
thông tin đáp ứng
- Yêu cầu người dùng: một quá trình truy hồi thông tin bắt đầu khi người dùng biểu diễn thông tin họ cần đến hệ thống Trong trường hợp thông thường, thông tin này được chuyển tải trong hình thức một chuỗi tìm kiếm,
Trang 8nhưng nó cũng có thể được biểu diễn trong các hình thức khác, như trong trường hệ thống truy hồi đa phương tiện, input có thể là ảnh, âm thanh, …
- Loại thông tin đáp ứng: là loại thông tin được truy hồi để đáp ứng – trả lời truy vấn của người dùng Nó được phân loại chủ yếu theo định dạng của nó (văn bản tài liệu, âm thanh, video, ảnh, …) và độ chi tiết của nó (trang web,đoạn văn, câu, …)
Output: Một hệ thống IR thông thường trả về một output chính, bao gồm một
danh sách các thông tin được xếp hạng Các thông tin này có thể là văn bản,
âm thanh, video, …
Quy trình: một hệ thống IR theo Croft & Harper - 1993 có ba quy trình chính:
- Trích các đặc trưng nội dung và biểu diễn chúng dưới một hình thức logic nào đó (đánh chỉ mục)
- Xử lý yêu cầu thông tin của người dùng thành một biểu diễn nào đó (xử lý truy vấn)
- So khớp các biểu diễn (tìm kiếm và xếp hạng)
Đánh chỉ mục: không phải tất cả các mẩu (phần) của một thông tin đều có ýnghĩa như nhau trong việc “nói” lên ý nghĩa thông tin đó Ví dụ như trong ngôn ngữ viết, vài từ mang nhiều nghĩa hơn các từ khác Do đó, thường có một quá trình tiền xử lý thông tin để chọn các phần tử đặc trưng cho việc đánh chỉ mục Các chỉ mục là các cấu trúc dữ liệu được xây dựng để tăng tốc quá trình tìm kiếm Cấu trúc đánh chỉ mục phổ biến nhất cho văn bản là tập tin đảo ngược Cấu trúc này bao gồm hai thành phần: tập từ vựng và số lần từ xuất hiện Tập từ vựng là tập tất cả các từ xuất hiện trong văn bản Với mỗi từ trong từ vựng, một danh sách tất cả các vị trí văn bản nơi từ
Trang 9 Xử lý truy vấn: những yêu cầu của người dùng (truy vấn) được phân tích vàchuyển thành một hình thức nào đó theo hệ thống IR Trong trường hợp truy hồi văn bản, các từ truy vấn thông thường được tiền xử lý cùng một thuật toán như việc chọn phần tử đặc trưng để đánh chỉ mục Các xử lý truyvấn phụ như mở rộng truy vấn (query expansion) cần có các nguồn tài nguyên như bộ từ điển (thesauri) hay cây phân cấp.
Tìm kiếm: các truy vấn được so khớp với mục thông tin Một tập các mục thông tin có tiềm năng được trả về cho người dùng Có nhiều cách khác nhau để thu được tập thông tin tiềm năng này, phụ thuộc vào định dạng của thông tin (văn bản, âm thanh, video, …) nhưng trong tất cả trường hợp, vài hình thức đơn giản hóa được thực hiện trong mô hình thông tin để dễ dàng
xử lý Ví dụ, trong truy hồi văn bản thường được xây dựng trên giả định rằng việc so khớp giữa các mục thông tin (các tài liệu) và yêu cầu thông tin của người dùng (chuỗi truy vấn) được dựa trên tập các từ được đánh chỉ mục Điều này rõ ràng (chấp nhận được bởi lý do hiệu quả) mất mát thông tin ngữ nghĩa khi văn bản được lập lại bằng một tập các từ Một tình huống tương tự xảy ra trong truy hồi multimedia khi so khớp được thực hiện dựa trên các đặc trưng tín hiệu số
Xếp hạng: bước xếp hạng nhằm mục đích dự đoán mức độ liên quan giữa các mục thông tin với truy vấn, sau đó trả về chúng theo thứ tự giảm dần đến người dùng Các thuật toán xếp hạng được xem như là lõi của hệ thống
IR, chúng là chìa khóa để quyết định hiệu năng của hệ thống
Các yếu tố khác: được sử dụng chủ yếu để giúp cho việc biểu diễn, trích chọn
hay xử lý yêu cầu người dùng và nghĩa nội dung Hiểu ngữ nghĩa đằng sau các mục thông tin và truy vấn của người dùng giúp nâng cao độ chính xác của quá trình truy hồi, và do đó gia tăng sự thỏa mãn của người dùng Ba yếu tố ngoài
Trang 10chủ yếu được sử dụng trong hệ thống IR là: giao diện người dùng, các thao tác
xử lý truy vấn, các nguồn tài nguyên sử dụng để hỗ trợ đánh chỉ mục
Giao diện người dùng: một giao diện người dùng “mềm dẻo” không chỉ cầnthiết cho người dùng biểu diễn các yêu cầu của họ mà còn biểu diễn các ràng buộc cho các thông tin mà họ tìm kiếm (ví dụ., nội dung chính xác, nội dung tương tự, nội dung không trùng nhau, nội dung theo ngày tháng, ngôn ngữ, định dạng, …)
Các thao tác xử lý truy vấn: phụ thuộc vào kiểu truy vấn, có các cơ chế khác nhau được sử dụng để tinh lọc truy vấn Phổ biến nhất là dựa vào các input hỗ trợ thêm người dùng và cách tiếp cận dựa trên phản hồi nhìn chung là hiệu quả nhất Tuy nhiên, chúng giảm đi tính hiệu dụng của hệ thống, và do đó các nguồn tài nguyên ngoài khác, chẳng hạn như bộ từ điển và cây phân cấp thường được sử dụng thay thế hay bổ sung để tự động phân loại, làm cho truy vấn thành nghĩa (hoàn chỉnh nghĩa câu truy vấn) hay mở rộng truy vấn
Các nguồn tài nguyên sử dụng để hỗ trợ đánh chỉ mục: các nguồn tài
nguyên xử lý tài liệu chẳng hạn như bộ từ điển và các từ vựng đã được điều chỉnh được sử dụng để hỗ trợ cho việc chọn các từ thích hợp cho việc đánh chỉ mục
Thuật toán xếp hạng là một trong những thành phần đặc trưng chính của một hệ thống IR Một thuật toán xếp hạng hoạt động dựa theo các tiền đề cơ bản về các khái niệm độ tương tự giữa các tài liệu Các tập hợp hay tiền đề khác nhau phát sinh ra các mô hình IR khác nhau Có ba mô hình IR văn bản
cơ bản nhất là: Boolean, Vector và Xác suất.
Trang 11Trong mô hình Boolean, các tài liệu và các truy vấn được biểu diễn bằng một tập các mục từ Trong mô hình không gian vector, các tài liệu và các truy
vấn được biểu diễn bằng các vector trong một không gian t chiều Trong mô
hình xác suất cơ bản, biểu diễn các tài liệu và truy vấn được dựa trên lý thuyết xác suất
Theo định nghĩa trong (Baeza Yaytes & Ribeiro Neto, 1999) một mô hình IR
sim: Q × D → U là một hàm xếp hạng, thể hiện sự liên kết giữa các tài liệu
và truy vấn, với U là một tập hợp có thứ tự (thông thường là [0, 1], hay P, hay
một tập con của chúng) Xếp hạng và thứ tự trong U xác định một thứ tự trong tập tài liệu đối với một truy vấn
Để xây dựng một mô hình, điều đầu tiên cần nghĩ là sẽ biểu diễn tài liệu và yêu cầu của người dùng như thế nào Hay nói cách khác, cần nghĩ tới một framework để mô hình hóa chúng Framework này cũng phải cung cấp việc xây dựng một hàm xếp hạng một cách trực quan Ví dụ, với mô hình Boolean
cổ điển, framework được tạo thành từ các tập hợp tài liệu và các thao tác trên tập hợp Với mô hình không gian vector cổ điển, framework được tạo thành từ
một không gian vector t chiều và các thao tác đại số tuyến tính trên vector Với
mô hình xác suất cổ điển, framework được hình thành từ tập hợp, các thao tác xác suất, và lý thuyết Bayes
Trang 12 Q: các truy vấn được biểu diễn bằng một biểu thức Boole được tạo thành bằng các mục từ và các phép toán logic (AND - ⋀, OR - ⋁, NOT
- ¬) có thể được đưa về dạng chuẩn tắc tuyển hay hội
F là một mô hình đại số Boole trên tập mục từ và tập tài liệu
sim được xác định bằng cách xem xét một tài liệu được dự đoán là có liên quan đến một truy vấn nếu các mục từ của nó thỏa biểu thức truy vấn
Ví dụ:
Ta có truy vấn q = vàng ⋀ (bạc ⋁ ¬ đồng)
Truy vấn này được tạo thành từ ba mục từ khác nhau: ‘vàng’, ‘bạc và
‘đồng’ và nó được viết trong dạng chuẩn tắc tuyển q dnf = ¿ , mỗi thành phần là một vector có trọng số nhị phân liên kết với bộ ba (vàng, bạc, đồng) Các
vector này được gọi là các thành phần tuyển của q dnf
Trang 13Ba thành phần tuyển của truy vấn q = vàng ⋀ (bạc ⋁ ¬ đồng)
Với hình trên là tập các tài liệu chứa từ ‘vàng, tập các tài liệu chứa từ ‘bạc’ và
tập các tài liệu chứa từ ‘đồng Với truy vấn q, các tập con đáp ứng câu truy vấn
là: tập chứa ba mục từ (1, 1, 1); tập chứa từ ‘vàng’, không chứa ‘bạc’ và ‘đồng’(1, 0, 0); và tập chứa từ ‘vàng’ và ‘bạc’, như không chứa ‘đồng’ (1, 1, 0)
Với tính đơn giản của nó, mô hình Boole sớm được dùng trong nhiều hệ thống thương mại Tuy nhiên, mô hình Boole có hai nhược điểm lớn Thứ nhất,chiến lược truy hồi của nó dựa theo tiêu chí nhị phân (tức là, một tài liệu chỉ được dự đoán là thích hợp hay không thích hợp) và do đó nó không có một cơ
sở hợp lý để xếp hạng kết quả truy hồi, dẫn tới độ chính xác thấp khi không gian truy hồi lớn Thứ hai, nó không dễ dàng để tất cả người dùng có thể chuyển một truy vấn thành một biểu thức Boole với các toán tử logic, điều này làm giảm tính sử dụng của hệ thống với người dùng
Trang 141.2.2 Mô hình không gian vector
Mô hình không gian vector (Vector space model – VSM) nhận ra rằng việc
sử dụng trọng số nhị phân có nhiều giới hạn và đề xuất một framework có thể thực hiện so khớp từng phần (trong mô hình Boole chỉ thực hiện so khớp nguyên phần câu truy vấn với các tài liệu, do đó một tài liệu chỉ có kết quả là thích hợp hay không thích hợp) Điều này được thực hiện bằng cách gán trọng
số từ 0.0 đến 1.0 thay vì chỉ 0 và 1 như mô hình Boole cho các mục từ trong các truy vấn và tài liệu Các trọng số mục từ này được sử dụng để tính độ tương tự giữa từng tài liệu trong hệ thống với truy vấn người dùng Theo ký hiệu mô hình IR thì ở đây:
D: là tập các tài liệu, với mỗi tài liệu được biểu diễn bằng một vector các mục từ xảy ra trong tài liệu Mỗi mục từ trong tài liệu được thể hiện bằng mỗi cặp (ti, dj) có trọng số wi,j
Q: là tập các truy vấn, với mỗi truy vấn được biểu diễn bằng một vector các mục từ xảy ra trong truy vấn Mỗi mục từ trong truy vấn được thể hiện bằng mỗi cặp (ti, q) có trọng số wi,q
F là một mô hình đại số trên các vector trong một không gian t chiều.
sim đánh giá độ tương tự của một tài liệu dj với một truy vấn q bằng sự tương quan giữa vector dj và q Thông thường sự tương quan này có thể được tính bằng cosin của góc hai vector:
Trang 15Cosin của góc α được dùng cho sim(q,d j )
Bởi vì wi,j > 0 và wi,q > 0, do đó sim(q,dj) có giá trị từ 0 đến 1 Thay vì dự đoán liệu một tài liệu liên quan hay không, VSM xếp hạng các tài liệu theo độ tương
tự của chúng với truy vấn Một tài liệu có thể được truy hồi thậm chí nếu nó chỉ khớp một phần với câu truy vấn Chẳng hạn, ta có thể thiết lập một ngưỡng nào đó với sim(q,dj) và truy hồi các tài liệu có độ tương tự trên ngưỡng này
Ví dụ
Giả sử ta có truy vấn q = ‘trò chơi’, ‘thể thao’ và tài liệu d như hình dưới, trong
đó wtrò chơi = 0.4 wthể thao = 0.7
Bóng đá là môn thể thao đồng đội được chơi giữa hai đội với
nhau, mỗi đội có 11 cầu thủ trên sân Trò chơi này dùng một
quả bóng và thường được chơi trên sân cỏ hình chữ nhật với
hai khung thành ở hai đầu sân Mục tiêu của trò chơi là ghi
Trang 16điểm bằng cách đưa bóng vào khung thành của đội đối địch.
Vector biểu diễn truy vấn và tài liệu:
cơ chế đã được đề xuất Mục tiêu cuối cùng của một hệ thống đánh trọng số mục từ là nâng cao hiệu quả chất lượng truy hồi tài liệu Một trong những phương pháp được sử dụng phổ biến nhất cho việc đánh trọng số mục từ là
Term Frequency, Inverse Document Frequency (TF-IDF)
Một nhược điểm của mô hình không gian vector, cũng có trong mô hình Boole và mô hình xác suất là các mục từ được giả định độc lập lẫn nhau và nó không có khả năng thể hiện các mục từ phụ thuộc lẫn nhau trong mô hình Nhưng mô hình không gian vector đã được chứng minh hiệu quả hơn mô hình Boole Việc so khớp từng phần cho phép truy hồi các tài liệu gần đúng truy
Trang 17vấn, và hàm truy hồi cosin cũng hỗ trợ tốt hơn trong việc xếp hạng tài liệu dựa trên độ tương tự với truy vấn.
Mô hình xác suất mục tiêu đưa các vấn đề IR vào trong một framework xácsuất Ý tưởng cơ bản của nó như sau Cho một truy vấn q và một tập tài liệu D, một tập con R của D được giả định chứa chính xác các tài liệu thích hợp cho q (tập trả lời lý tưởng) Sau đó, mô hình truy hồi xác suất xếp hạng các tài liệu theo xác suất giảm dần theo tập hợp này, ký hiệu P (R | q, dj), với dj là một tài liệu D
Theo ký hiệu mô hình IR thì ở đây:
D: tập tài liệu, với mỗi tài liệu được biểu diễn bằng một vector các mục
từ xảy ra trong tài liệu Mỗi mục từ trong tài liệu là mỗi cặp (ti, dj) có trọng số nhị phân 1 hay 0, thể hiện việc xuất hiện hay vắng mặt trong tàiliệu
Q: tập truy vấn, với mỗi truy vấn được biểu diễn bằng một vector các mục từ xảy ra trong tài liệu Mỗi mục từ trong truy vấn là mỗi cặp (ti, q)
có trọng số 1 hay 0, thể hiện việc xuất hiện hay vắng mặt trong truy vấn
F là một mô hình xác suất, xếp hạng các tài liệu theo xác suất liên quan tới truy vấn
sim đo độ tương tự của một tài liệu dj với truy vấn qi bằng xác suất của
dj với tập R (là tập các tài liệu thích hợp cho q), được tính như sau:
¿(d j , q)= P(R∨d j)
P (¬ R|d j¿¿
Trang 18với ¬ R ký hiệu tập các tài liệu không thích hợp, P(R∨d j)là xác suất của
dj thích hợp với truy vấn q, và P (¬ R|d j¿ là xác suất của dj không thích hợp với q
Việc tính toán các xác suất sau này yêu cầu chi tiết hơn Ở đây sẽ trình bày lại theo Baeza Yayes & Ribeiro Neto, 1999
Sử dụng luật Bayes, ta viết lại như sau:
Nếu ta có một hàm g(t, d) với g(t, d) = 1 nếu mục từ t xuất hiện trong tài liệu d,
và g(t, d) = 0 nếu mục từ t không xuất hiện trong tài liệu d, thì công thức trên
có thể viết lại như sau:
¿(d j , q) ¿ ¿
Trang 19Mục từ P(t i|R) là xác suất mà mục từ ti có mặt trong một tài liệu ngẫu nhiên được chọn từ tập R P(¬t i|R) là xác suất mà mục từ ti không có mặt trong một tài liệu ngẫu nhiên được chọn từ tập R Tương tự với các xác suất gắn với tập
¬ R Nhớ rằng P(t i|R)+P(¬ t i|R) = 1, lấy logari và bỏ đi các hằng số của tất cả các tài liệu, ta được:
¿(d j , q) ∑
i
t
w i , q × w i , j ׿ ¿
với w i ,q={0,1 } cho biết mục từ ti có mặt hay vắng mặt trong truy vấn q và
w i , j={0,1 } cho biết mục từ ti có mặt hay vắng mặt trong tài liệu dj
Bởi vì R chưa biết, có thể giả định một cách đơn giản như sau:
o P(t i|R)=0.5 cho tất cả các mục từ
o P(t i|¬ R)=n i
N, với ni là số tài liệu chứa ti và N là tổng số lượng tài liệu.
Mỗi khi một tập con tài liệu ban đầu V được truy hồi và xếp hạng bởi mô hình xác suất, các xác suất có thể được làm mịn lại:
Ví dụ
Trang 20|V|+1 =
1+142+1=0.42
P (Cold|¬ R)=
n i−|V i|+n i
N N−|V|+1 =
1−1+144−2+1=0.08
P ( Eat|R)=|V i|+n i
N
|V|+1 =
2+342+1=0.92
¿(d1, q) log(0.420.58)+log(0.920.08)+log(0.920.08)+log(0.420.58)=1.84
Nhược điểm của mô hình xác suất là cần đoán được tập tài liệu phân chia ban đầu (tập liên quan và tập không liên quan) Ngoài ra, các mô hình cổ điển không tính toán đến tần số của mục từ trong tài liệu (tức là tất cả trọng số đều
là nhị phân)
Mặc dù những hạn chế này, các biến thể của mô hình xác suất đã tới sự ra đời của một trong những mô hình thành công nhất là BM25 (Robertson & Sparck Jones, 1976) (Sparck Jones, Walker, & Robertson, 2000) Và trong những năm 80 và 90, Okapi đã xây dựng một hệ thống có tính đến sự có/vắng
Trang 21mặt của các thông tin liên quan và tích hợp một thành phần đo tần số mục từ và
độ dài tài liệu
Qua nhiều thập kỷ, có nhiều mô hình đã được đề xuất Nổi bật trong số chúng là: mô hình fuzzy và mô hình Boole mở rộng, mô hình vector tổng quát,
mô hình mạng nơron, … Gần đây, các mô hình Ngôn Ngữ đã trở nên phổ biến
và được áp dụng rộng rãi trong lĩnh vực IR bởi hiệu năng cao của chúng và việc hợp nhất trọng số mục từ và xếp hạng kết quả trong một mô hình duy nhấtvới nền tảng dựa trên xác suất
Các mô hình ở trên cơ bản dựa theo hướng thống kê, các tài liệu kết quả được truy tìm về hoặc được xếp hạng cao là những tài liệu được xem là thích hợp với câu truy vấn nhất theo một số tiêu chí đo lường thống kê Một phương pháp tiếp cận khác đang được các nhà nghiên cứu hết sức quan tâm là hướng ngữ nghĩa hay hướng khái niệm Hướng tiếp cận này cố gắng thực hiện việc phân tích cú pháp và ngữ nghĩa, nói cách khác là cố gắng mô phỏng lại các cấp
độ hiểu của máy tính về các văn bản theo ngôn ngữ tự nhiên của con người
Trong các phần trước, ta đã tìm hiểu về các phương pháp truy hồi thông tin theo hướng tiếp cận thống kê là Boole, VSM và xác suất Theo hướng tiếp cận này thì một tài liệu thường được biểu diễn dưới dạng một tập hợp các
từ khóa độc lập nhau Đây được xem là một phương pháp phổ biến dùng cho việc biểu diễn các tài liệu mà không xét đến hình thái của từ, thứ tự của
Trang 22các từ hay vị trí xuất hiện của từ trong tài liệu cũng như các mối quan hệ ngữ nghĩa giữa chúng, do đó cách biểu diễn này mang mức độ thông tin thấp và nếu nhìn dưới góc nhìn của ngôn ngữ học thì đã không xử lý các biến thể về mặt ngôn ngữ học của các từ như biến thể về hình thái học (morphological variation), biến thể về từ vựng học (lexical variation), biến thể về ngữ nghĩa học (semantical variation) và biến thể về cú pháp học (syntax variation) Biếnthể về hình thái học là các dạng khác nhau về mặt cấu trúc (hình dáng, thể
hiện bên ngoài) của một từ, ví dụ như các từ computer, computerize,
computers là các biến thể về hình thái học của từ computer Hệ thống sẽ cho
kết quả không chính xác nếu đối xử với các biến thể này như các từ độc lập nhau Biến thể về từ vựng học là các từ khác nhau mang cùng một nghĩa, ví dụ
car, auto Hệ thống sẽ không trả về các tài liệu có chứa từ auto mà không chứa
từ car khi câu hỏi chỉ chứa từ car Biến thể về ngữ nghĩa học là vấn đề một từ
đa nghĩa tùy vào ngữ cảnh, ví dụ từ bank có nhiều nghĩa như ngân hàng, bờ, bãi ngầm, …Biến thể về cú pháp học là các các kết hợp khác nhau về mặt cú
pháp của cùng một nhóm từ sẽ mang các ý nghĩa khác nhau, ví dụ một tài liệu chứa câu ‘near to the river, air pollution is a major problem’ thì không liên quan gì đến ‘river pollution’ cả mặc dù cả hai từ đều có xuất hiện trong tàiliệu Để nâng cao hiệu quả của các hệ tìm kiếm thông tin, người ta phải có các giải thuật để xử lý các biến thể ngôn ngữ học như đã nêu:
Đối với các biến thiên về hình thái học người ta có hai cách để xử lý: cách thứ nhất là mở rộng câu hỏi bằng cách thêm vào câu hỏi tất cả các biến thể hình thái học của tất cả các từ có trong câu hỏi, cách thứ hai là chuẩn hoá các biến thể hình thái học của một từ về một chuẩn chung (stemming), nghĩa là khử các tiền tố và hậu tố thông thường của từ, trả về dạng gốc của mỗi từ Ví
dụ như các từ computer, computed, computes, computerize sẽ được chuẩn hoáthành là compute Khi đó, người sử dụng không cần thiết phải đặc tả câu truy vấn của mình theo một hình thái đặc biệt nào của từ mà anh ta tin rằng chúng
Trang 23có thể xuất hiện bên trong tài liệu đang tìm kiếm.
Để xử lý các biến thể về từ vựng học người ta hoặc là mở rộng câu hỏi bằng cách thêm vào câu hỏi tất cả các từ đồng nghĩa có thể có của tất cả các từtrong câu hỏi hoặc là xử lý ở giai đoạn so khớp bằng cách đưa ra các độ đo khoảng cách của các khái niệm Đối với cách thứ nhất chúng ta cần có một từ điển đồng nghĩa, đối với cách thứ hai chúng ta phải xây dựng một tự điển từ vựng trong đó có định nghĩa khoảng cách giữa các từ
Biến thể về ngữ nghĩa thường kết hợp chặt chẽ với biến thể về từ vựng học Để xử lý các biến thể này chúng ta cần một công đoạn xử lý sự đa nghĩa của từ, hiệu năng của hệ thống tìm kiếm sẽ phụ thuộc vào kết quả của giai đoạn xử lý này
Các kỹ thuật xử lý các biến thể về cú pháp học hay nói cụ thể hơn là xử lý cấu trúc của một cụm từ có thể được chia làm hai loại: kỹ thuật lập chỉ mục dựa vào các cụm từ và kỹ thuật lập chỉ mục là các cấu trúc cây phân tíchđược từ các mệnh đề Các kỹ thuật lập chỉ mục dựa trên cụm từ nhằm tăng
độ chính xác của hệ thống Với giả định rằng khi dùng các cụm từ như các chỉ mục thay cho các từ đơn thì độ chính xác sẽ tăng do cụm từ biểu diễn chính xác hơn nội dung của tài liệu Các hệ thống tìm kiếm dựa trên chỉ mục là các cụm từ ngày càng thu hút nhiều nhóm nghiên cứu và vấn đề làm thế nào để rút trích được các cụm từ một cách tự động từ tài liệu trở thành vấn
đề chính trong các hệ này Các giải pháp rút trích cụm từ thường dựa vào hai cách tiếp cận: tiếp cận dùng thông tin thống kê tần suất đồng xuất hiện hay cách tiếp cận dựa vào tri thức về ngôn ngữ học Cách tiếp cận thứ hai đòi hỏi phải áp dụng nhiều kỹ thuật của lĩnh vực xử lý ngôn ngữ tự nhiên Kỹ thuật lập chỉ mục cấu trúc dựa vào các cấu trúc cây có được từ việc phân tích các mệnh đề trong câu của tài liệu và quá trình so khớp là so khớp các cấu trúc của câu hỏi với các cấu trúc của tài liệu Cách tiếp cận này không thu hút nhiều nhóm nghiên cứu do độ phức tạp của việc phân tích mệnh đề để xây
Trang 24dựng cách cấu trúc cao nhưng lại không tăng được hiệu năng của hệ thống tìmkiếm.
Ngoài ra, để khắc phục những hạn chế trong việc biểu diễn tài liệu từ những mô hình truyền thống, nhiều nghiên cứu khác nhau đã nỗ lực thay đổi cách biểu diễn cho tài liệu nhằm làm tăng hiệu quả trong biểu diễn và tìm kiếm Theo đó, một tài liệu vẫn được mô tả bởi các cặp <đặc trưng, trọng số>, tuy nhiên những thành phần đặc trưng cho tài liệu không đơn thuần chỉ lànhững từ hay cụm từ chính xác xuất hiện trong tài liệu mà đã được thiết kế lại,được chuẩn hóa theo một dạng thức biểu diễn phức tạp và hiệu quả hơn bằng cách sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên Những nghiên cứu này hướng tới mục tiêu là xây dựng một phép biểu diễn dựa trên các khái niệm hơn là các từ đơn lẻ cũng như cố gắng loại bỏ các vấn đề nhập nhằng trong ngôn ngữ Một số mô hình nổi tiếng có thể kể đến như:
Lemmas: các đặc trưng của tài liệu được chọn là các hình thái cơ bản
của từ như danh từ hay động từ Như vậy, hệ thống sẽ chuẩn hóa các biến thể
về hình thái học của từ về một chuẩn chung và thay thế những từ có trong tài liệu bởi hình thái cơ bản của chúng Điều này sẽ làm tăng khả năng so khớp giữa những từ có hình thái thể hiện khác nhau nhưng phản ánh cho cùng một khái niệm
Simple n-grams: một dãy các từ được lựa chọn bằng cách áp dụng kỹ
thuật thống kê Hệ thống tiến hành khảo sát và thống kê các dãy bao gồm n từ liên tiếp tùy ý (n - gram) có trong kho ngữ liệu Như vậy, mỗi tài liệu sẽ được chia thành những cấu trúc n – gram tương ứng Những bộ lọc thống kê dựa trên tần số xuất hiện của các n- gram trong kho ngữ liệu được áp dụng
để lựa chọn những ứng viên phù hợp nhất làm đặc trưng cho tài liệu
Nouns Phrases: Những biểu thức chính qui (ví dụ như N+ là một dãy các danh từ liên kết với nhau theo một qui tắc cú pháp nhất định) dựa trên các
Trang 25từ dùng làm đặc trưng cho tài liệu và loại bỏ những kết hợp không khả thi Cụm từ được chọn bao gồm một từ chính (head) và các phụ ngữ hay từ bổ nghĩa (modifier) đứng trước và sau nó.
Các bộ <head, modifier1, …, modifiern>: Những Bộ phân tích cú
pháp (parser) được sử dụng để phát hiện và rút trích ra các quan hệ cú pháp phức tạp như subject-verb-object từ trong văn bản Một đặc tính thú vị là những bộ này có thể bao gồm những từ không liền kề nhau, tức là các thành phần có thể là những từ vốn nằm cách nhau trong đoạn văn văn Việc xây dựng những cụm từ phức hợp này là nhằm cải thiện độ chính xác trong việc sokhớp giữa các khái niệm
Semantic concepts: mỗi từ được thay thế bằng một đại diện cho nghĩa
của từ đó Việc gán nghĩa cho một từ phụ thuộc vào định nghĩa của từ đó có trong từ điển Có hai cách xác định nghĩa của một từ Thứ nhất, nghĩa của
từ có thể được trình bày, giải thích như trong một mục từ của từ điển giải nghĩa thông thường Thứ hai, nghĩa của từ có thể được suy ra thông qua những
từ khác có cùng nghĩa trong từ điển đồng nghĩa
Tuy nhiên, cho đến nay thì những kết quả đạt được theo cách tiếp cận này vẫn chưa có sự cải thiện đáng kể so với các phương pháp thống kê kể trên Nguyên nhân chính là do những mô hình biểu diễn mới cũng chỉ nắm bắt được một phần nhỏ thông tin hơn so với mô hình truyền thống Hơn nữa, những lỗi xuất hiện trong quá trình rút trích tự động các khái niệm hay trong quá trình xây dựng các mô hình biểu diễn có thể gây nhiễu và làm ảnh hưởng đến tiến trình tìm kiếm
Ontology là bản mô tả tường minh các khái niệm trong một miền ứng dụng nào đó và quan hệ giữa những khái niệm này cùng một số luật logic và suy
Trang 26diễn, cho phép suy luận khái niệm mới từ các khái niệm đã có Ontology cung cấp từ vựng thống nhất cho việc trao đổi thông tin giữa các ứng dụng Chi tiết
về ontology được trình bày trong phần 2
Nhiều phương pháp đo đã được phát triển để đánh giá các mô hình truy hồi.Tuy nhiên, không có phương pháp nào hoàn toàn đạt yêu cầu, bởi vì việc đánh giá hiệu năng hệ thông truy hồi thì phụ thuộc vào người dùng và nhiều yếu tố khác, trong khi kết quả của các phương pháp đo này chỉ là một giá trị đơn lẻ.Hai độ đo cơ bản và phổ biến nhất là độ chính xác và độ bao phủ Cho một truy vấn q và tập các tài liệu thích hợp với nó là R Cho A (tập trả lời) là tập các tài liệu được trả về theo truy vấn q bởi hệ thống, và cho Ra là tập giao nhaugiữa R và A, tức là các tài liệu thích hợp có trong tập trả lời Độ chính xác và
độ bao phủ được xác định như sau:
Độ bao phủ - tỷ lệ số tài liệu thích hợp được truy hồi : |Ra|
|R|
Độ chính xác - tỷ lệ số tài liệu được truy hồi là thích hợp: |Ra|
|A|
Trang 27Giá trị của độ chính xác và bao phủ là giữa 0 và 1 Giá trị càng cao thì càng tốt Độ chính xác và bao phủ là các phép đo dựa trên tập hợp Chúng đánh giá chất lượng của tập tài liệu truy hồi không có thứ tự Để đánh giá một danh sáchđược xếp hạng, biểu đồ độ chính xác – bao phủ được sử dụng Và thông
thường, người ta tính độ chính xác tại 11 mức bao phủ Mỗi điểm trển biểu đồ (độ bao phủ - chính xác) được xác định bằng cách tính độ chính xác tại một giátrị độ bao phủ cắt ngang Với các giá trị độ bao phủ còn lại, độ chính xác bị nộisuy theo:
(*) là các tài liệu thích hợp với truy vấn q
Bởi vì có 10 tài liệu thích hợp, và tài liệu đầu tiên d123 được hệ thống đưa ra làtài liệu thích hợp, ta có 100% độ chính xác tại mức 10% độ bao phủ Độ bao phủ đạt được 20% tại tài liệu thứ ba d56 Do đó, ta có 66% độ chính xác tại mức 20% của độ bao phủ Trong ví dụ này, độ chính xác tại mức 50% độ bao phủ trở đi giảm xuống 0 bởi vì không còn tài liệu thích hợp nào được truy hồi
Trang 28hệ thống tìm kiếm trả về nhiều tài liệu thích hợp nhưng cũng bao gồm luôn nhiều tài liệu không thích hợp Ngược lại, khi độ chính xác tiến tới 1, độ bao phủ sẽ xấp xỉ tới 0, có nghĩa là hệ thống trả về các tài liệu thích hợp nhưng còn thiếu nhiều.
Đánh đổi giữa độ bao phủ và chính xác
Trang 292 Ontology
Công nghệ ontology là một công nghệ được nghiên cứu phát triển mạnh mẽ trong thời gian gần đây Ontology trở thành một lĩnh vực nghiên cứuphổ biến có mặt trong nhiều lĩnh vực từ xử lý ngôn ngữ tự nhiên, công nghệ trithức, các hệ thống trao đổi, tích hợp thông tin cho đến biểu diễn và quản lý tri thức Ontology giúp ta xây dựng mạng lưới ngữ nghĩa, bộ từ điển về các lĩnh vực chuyên môn hỗ trợ trong các ứng dụng, giúp ta mã hóa tri thức lĩnh vực thành một hệ tri thức dùng chung mà máy tính có thể hiểu được bằng cách phân tách khối tri thức này thành các đối tượng tri thức nhỏ hơn và tìm ra các mối liên hệ giữa chúng
Trong triết học
Ontology là một thuật ngữ có nguồn gốc từ Triết học diễn tả các thực thể tồn tại trong tự nhiên và các mối quan hệ giữa chúng Theo cách nhìn của triết học, ontology – bản thể học là “một môn khoa học về nhận thức, cụ thể hơn làmột nhánh của siêu hình học về tự nhiên và bản chất của thế giới, nhằm xem xét các vấn đề về sự tồn tại hay không tồn tại của các sự vật” Theo đó người
ta đưa ra khái niệm bộ ba ngữ nghĩa bao gồm biểu tượng – khái niệm – sự vật, đây là mô hình dùng để mô tả hay biểu diễn thế giới thực, biểu tượng sẽ gợi lên khái niệm và biểu diễn sự vật còn khái niệm sẽ đề cậptới sự vật.
Trong lĩnh vực Trí tuệ nhân tạo
Trong Trí tuệ nhân tạo đã có nhiều cách định nghĩa khác nhau về ontology, một số định nghĩa được xem là kinh điển và được thừa nhận rộng rãi như sau:
- Gruber (1993) định nghĩa ontology như “một đặc tả tường minh của sự
Trang 30khái niệm hóa trong một lĩnh vực”.
- Borst (1997) sửa đổi một chút định nghĩa của Gruber, rằng ontology là “
sự đặc tả hình thức của sự khái niệm hóa được chia sẻ” Studer (1998) giải thích hai định nghĩa của Gruber và Borst như sau “Sự khái niệm hóa
có nghĩa là mô hình trừu tượng của các sự vật, hiện tượng trên thế giới được xác định qua các khái niệm liên quan của sự vật, hiện tượng đó Tường mình có nghĩa là các kiểu khái niệm và các ràng buộc giữa chúng làđược xác định rõ ràng Hình thức có nghĩa là ontology phải được hiểu bởi máy tính Chia sẻ có nghĩa là tri thức trong ontology được kết hợp xây dựng và được chấp nhận bởi một nhóm hoặc một cộng đồng chứ không theo tri thức chủ quan của cá nhân”
- Motta (1999) định nghĩa “ontology là đặc tả một phần của tập hợp các khái niệm được sử dụng hình thức hóa các tri thức của một lĩnh vực cần quan tâm Vai trò cơ bản của một ontology là nhằm chia sẽ và sử dụng lại tri thức”
- Uschold và Jasper (1999) phát biểu rằng “ontology chứa các định nghĩa
và quan hệ giữa các khái niệm, hình thành một cấu trúc lĩnh vực và giới hạn ngữ nghĩa của thuật ngữ trong từ vựng”
- Weiss (1999) định nghĩa “ontology là một đặc tả của các khái niệm vàquan hệ trong lĩnh vực quan tâm Ontology không chỉ là phân cấp các lớp mà còn mô tả các quan hệ”
- Theo định nghĩa của Hendler năm 2001, “ontology là một tập hợp các thuật ngữ tri thức (knowledge term), bao gồm từ vựng, các quan hệ ngữ nghĩa, một số luật suy diễn và logic trong một lĩnh vực đặc thù”
Nhìn chung, có rất nhiều định nghĩa về ontology, mỗi định nghĩa thể hiện một cách nhìn khác nhau và đi kèm với nó là một phương pháp luận và kỹ
Trang 31định hướng xây dựng ontology của đề tài như sau: “Một ontology xác địnhmột bảng từ vựng chung cho những người cần chia sẽ thông tin trong một lĩnh vực, bao gồm định nghĩa của các khái niệm cơ bản mà máy tính có thể hiểu được trong một lĩnh vực nào đó và sự liên quan giữa chúng”.
Ontology được xây dựng thường có các thành phần cơ bản sau:
- Các lớp (class) (tương ứng với các concept – khái niệm): là trung tâm của hầu hết các ontology, mô tả các khái niệm trong miền lĩnh vực Các lớp thường được tổ chức phân cấp và áp dụng kỹ thuật thừa kế Một lớp có thể có các lớp con biểu diễn khái niệm cụ thể hơn so với lớp cha
- Thuộc tính (property hay role, slot): mô tả các đặc tính, đặc trưng, tính chất khác nhau của khái niệm và mỗi thuộc tính đều có giá trị Thuộc tính được phân biệt với quan hệ (relation) dựa trên giá trị là một kiểu dữ liệu (string, number, boolean, ) Một thuộc tính bản thân nó cũng có các thuộc tính con và cũng có các ràng buộc trên nó
- Quan hệ (relation): biểu diễn các kiểu quan hệ giữa các khái niệm Các quan hệ nhị phân được sử dụng để biểu diễn thuộc tính Tuy nhiên, giá trị của quan hệ khác với giá trị của thuộc tính ở chỗ giá trị của quan hệ là mộtkhái niệm
- Thực thể hay thể hiện (instance): biểu diễn các phần tử riêng biệt của kháiniệm, là các thể hiện của lớp Mỗi thể hiện của lớp biểu diễn một sự cụ thể hóa của khái niệm đó
- Hàm (function): là một loại thuộc tính hay quan hệ đặc biệt, trong đó, phần tử thứ n là duy nhất đối với n-1 phần tử còn lại
- Tiền đề (Axioms): biểu diễn các phát biểu luôn đúng mà không cần phải
Trang 32chứng minh hay giải thích Axioms được sử dụng để kiểm chứng sự nhất quán của ontology hoặc cơ sở tri thức Cả hai thành phần hàm và tiên đề góp phần tạo nên khả năng suy diễn trên ontology.
Về cơ bản có các loại ontology sau:
- Ontology biểu diễn tri thức (Knowledge representation Ontology) nắm giữ các biểu diễn nguyên thủy được dùng để chuẩn hóa tri thức trong một mô hình biểu diễn tri thức Một trong những ontology thuộc loại này là Frame Ontology của Gruber, ontology này định nghĩa những khái niệm như là frame, slot và các ràng buộc slot cho phép biểu diễn tri thức theo hướng đối tượng hoặc theo frame-based
- Ontology tổng quát (Generic Ontology) bao gồm từ vựng liên quan tới
sự vật, hiện tượng, thời gian, không gian, quan hệ nhân quả …có ý nghĩa chung chung không chỉ dùng riêng cho một lĩnh vực nào Ví dụ: WordNet, CYC, …
- Metadata ontology cung cấp từ vựng dùng để mô tả nội dung của các nguồn thông tin trực tuyến Ví dụ ontology Dublin Core
- Ontology lĩnh vực (Domain Ontology) là những ontology có thể tái sử dụng trong một lĩnh vực nào đó, nó cung cấp từ vựng về các khái niệm và các mối quan hệ trong một lĩnh vực Ví dụ: ontology về y khoa MeSH, GALEN hay ontology về sinh học Gene Ontology, OBO
- Ontology tác vụ (Tast Ontology) cung cấp một tập các thuật ngữ cụ thể cho những tác vụ cụ thể
- Ontology lĩnh vực - tác vụ (Domain – Tast Ontology) là các ontology về tác vụcó thể tái sử dụng trong một lĩnh vực nào đó
- Ontology ứng dụng (Application Ontology)
Trang 33- Ontology hỏi và trả lời (Tell and Ask Ontology) …
Các loại metadata ontology, ontology lĩnh vực, ontology ứng dụng nắm giữtri thức một cách tĩnh nghĩa là độc lập với cách giải quyết vấn đề, trong khi ontology tác vụ, ontology lĩnh vực– tác vụ liên quan đến tri thức giải quyết vấn đề Tất cả các ontology này có thể kết hợp với nhau để xây dựng lên một ontology mới
Ngoài ra, cộng đồng nghiên cứu phân biệt các ontology dựa trên độ phức tạp của mô hình biểu diễn ontology
- Lightweight ontology: chứa các khái niệm, phân cấp khái niệm, mối quan hệ giữa các khái niệm và các thuộc tính mô tả khái niệm
- Heavyweight ontology: bổ sung vào lighweight ontology các tiền đề, hàm và ràng buộc
Quá trình xây dựng một ontology là một quá t rình l ặp, thường bắt đầu bằng một phiê n bản t hô rồi sau đó xem xét, chỉ nh sửa, lọc lại ontology phiên bản trước và thêm vào c ác chi tiết Những khái niệm trong o ntology
là những đối tượng t hực tế hoặc logic phản ánh thế giới thực và những quan hệ trong ontology thường l à những động từ trong câu mô tả khái niệmtrong lĩnh vực Ta nên tuân thủ các bước sau đây để xây dựng một
ontology:
Bước 1 Xác định miền quan tâm và phạm vi của Ontology:
Giống như mọi công đoạn đặc tả khác, đặc tả Ontology bắt đầu bằng việc trả lời những câu hỏi mang tính phân tích để nhận diện chính xác các yêu cầu.Thông thường, các yêu cầu đối với một hệ thống Ontology là mô tả miền quan