KIẾN TRÚC VÀ GIẢI THUẬT MƠ TƠ TèM KIẾM BÁN NGỮ NGHĨA

Một phần của tài liệu Nghiên cứu xây dựng bản đồ số hóa công nghiệp Việt Nam (Trang 38 - 41)

4.1 KHÁI QUÁT

Tỡm kiếm luụn là một ứng dụng rất quan trọng, Thực tế cho thấy cú rất nhiều cụng cụ tỡm kiếm đó và đang được xõy dựng và chỳng đang đúng một vai trũ quan trọng như cỏc tỡm kiếm trong Internet của Google, AOL, Altavista, MSN và ở nhiều mạng Intranet của nhiều tổ chức và ứng dụng khỏc nhaụ Trong rất nhiều cỏc phần mềm quản lý đó tớch hợp cụng cụ tỡm kiếm, lý do cơ bản là:”Cơ sở dữ liệu thụng tin ngày càng lớn và nhu cầu khai thỏc thụng tin ngày càng đa dạng”.

Phần lớn cỏc cụng cụ tỡm kiếm hiện nay đều dựa theo cơ chế tỡm theo từ khoỏ (Keyword Search Engine), thụng tin lập từ khoỏ, sau đấy từ khoỏ được lập chỉ mục, người sử dụng cú thể tạo cỏc cõu truy vấn gồm cỏc từ khoỏ núi trờn và nhận về kết quả. Tuy nhiờn phương phỏp này gặp khú khăn sau:

ã Một từ khoỏ cú thể cú một hay nhiều ngữ cảnh tuỳ thuộc vào ngữ cảnh và mối liờn hệ giữa cỏc từ khoỏ với nhau (mỗi lần tỡm kiếm cựng một từ khoỏ cú thể cho kết quả khụng hoàn toàn giống nhau).

ã Cỏc thụng tin cú cựng ý nghĩa sẽ bị bỏ quạ

Như vậy nếu cụng cụ tỡm kiếm cú thể tớch hợp tri thức để hiểu được ý nghĩa của cỏc từ khoỏ thỡ kết quả tỡm kiếm sẽ chớnh xỏc hơn, lỳc đú việc tỡm kiếm sẽ dựa trờn ngữ nghĩa chứ khụng dựa trờn từ khoỏ nữạ Như vậy trong rất nhiều trường hợp tỡm kiếm sẽ dựa chủ yếu trờn cỏc thụng tin liờn quan hay cỏc phạm trự, lĩnh vực liờn quan.

So sỏnh giữa tỡm kiếm truyền thống và tỡm kiếm theo ngữ nghĩa

Nhược đim ca cụng c tỡm kiếm truyn thng:

Khụng thể tỡm ra cỏc tài liệu như mong muốn vỡ:

ã Rất nhiều tài liệu cựng nội dung nhưng sử dụng thuật ngữ khỏc nhau

ã Đụi khi cỏc lỗi trong tài liệu cú thể gõy hiểu nhầm thành cỏc ý nghĩa khỏc nhau

ã Trả về quỏ nhiều cỏc kết quả khụng liờn quan đến ý định mong muốn một cỏch cứng nhắc

ã Vỡ thế người sử dụng phải tự học cỏch sử dụng cỏc cụng cụ tỡm kiếm một cỏch hiệu quả nhất, như là làm thế nào để Google tỡm ra tài liệu khoa học thay vỡ quảng cỏo, hay tỡm loại gỡ thỡ sử dụng Yahoo, hay Google,…để cú được kết quả như mong muốn.

Dựng cụng c tỡm kiếm theo ng nghĩa s khc phc được cỏc nhược đim núi trờn và mang li:

ã Một cụng cụ tỡm kiếm thụng minh hơn dựa trờn tri thức tốt hơn.

ã Cho phộp tỡm kiếm thụng tin dựa trờn nội dung tài liệụ

ã Thụng tin tỡm kiếm được trả về dựa trờn nội dung tài liệu sẽ gần với mong muốn của người dựng hơn

Dựng cụng c tỡm kiếm theo ng nghĩa cú nhng khú khăn:

ã Tỡm kiếm theo ngữ nghĩa thực chất là tỡm văn bản sẽ cú những khú khăn như sự nhập nhằng về ngữ nghĩa, lý do là ngữ nghĩa của tài liệu phụ thuộc vào chuyờn gia chỳ giải ngữ nghĩa và nếu số lượng tài liệu lưu trữ là lớn thỡ việc tỡm kiếm theo ngữ nghĩa thụng qua chỳ giải ngữ nghĩa gặp rất nhiều khú khăn.

4.2 KIN TRÚC VÀ GII THUT TèM KIM

ã Cỏch tổ chức dữ liệu sẽ hướng đối tượng (dựa trờn cơ sở tri thức: cỏc Ontology, cỏc tập Instance tương ứng).

ã Được hỗ trợ to lớn từ cỏc Agent tự động, Cỏc Agent này hỗ trợ trong việc thi hành cỏc dịch vụ tự động như duyệt thụng tin, đỏnh giỏ thụng tin, tổng hợp thụng tin, lập bảng dữ liệu (thống kờ, đỏnh giỏ, bỏo cỏo).

ã Hiểu được ngữ nghĩa của những từ mà người dựng muốn tỡm.

Vậy cỏc Ontology là gỡ?

Ontology là một tập cỏc khỏi niệm và quan hệ giữa cỏc ngữ nghĩa được định nghĩa cho một lĩnh vực nào đú nhằm vào việc biểu diễn và trao đổi thụng tin. Một Ontology định nghĩa một bộ từ vực mang tớnh phổ biến và thụng thường, nú cho phộp cỏc chuyờn gia đưa thờm cỏc thụng tin về ngữ nghĩa cho một lĩnh vực và cỏc mối liờn hệ với cỏc ontology khỏc.

Tại sao cần cỏc Ontology:

ã Để chia sẻ những hiệu biết chung về cấu trỳc thụng tin giữa con người và cỏc agent.

ã Để cho phộp tỏi sử dụng lĩnh vực tri thức

ã Để làm cho cỏc giả thiết về lĩnh vực tường minh

ã Tớch luỹ được tri thức

Agent : Chớnh là thành phần cập nhật, thu thập thụng tin, xử lý, đỏnh giỏ, sắp xếp thụng tin. (adsbygoogle = window.adsbygoogle || []).push({});

Giải thuật dựng trong IMAP:

Hỡnh 14: Tiến trỡnh tỡm kiếm

Trong khuụn khổ của đề tài, nhúm thực hiện đó thực hiện tỡm kiếm bỏn ngữ nghĩa, vỡ rằng ngữ nghĩa ở đõy khụng tự cập nhật (thiếu cỏc Agent), mà được cập nhật bằng tay nhờ cỏc chuyờn gia và dựa trờn cơ sở tri thức chuyờn giạ

Gii thut dựng trong tỡm kiếm bỏn ng nghĩa dựng trong IMAP:

Cỏc bước :

1. Phõn tớch từ, cụm tự cần tỡm đầu vào, chuyển thành mó dữ liệụ 2. Loại bỏ cỏc từ vụ nghĩa, cấu trỳc lại cụm từ cần tỡm.

Xử lý đầu vào Xử lý cỏc query

Sắp xếp trỡnh bày Dữ liệu imap &

từ điển ng.nghĩa Chỉ mục ngữ nghĩa Semantic Search Engine Cỏc query

3. Tỡm trong cơ sở dữ liệu tri thức, cụ thể là từ điển ngữ nghĩa xem cú được giải nghĩa khụng?

4. Nếu tỡm thấy được giải nghĩa thỡ suy ra từ khoỏ gốc. 5. Chuyển từ khoỏ gốc vào tỡm kiếm trong cơ sở dữ liệụ

6. Khụng tỡm thấy thỡ chuyển từ cần tỡm vào tỡm kiếm trong cơ sở dữ liệụ 7. Tỡm trong bảng hồ sơ thụng tin liờn quan cú chứa với từ khoỏ cần tỡm. 8. Lấy nội dung cỏc trường trong cỏc bảng thụng tin.

9. Lặp lại bước 3 cho đến khi hết từ điển.

10. Trả lại kết quả dưới dạng cỏc loại hồ sơ khỏc nhau tuỳ thuộc đối tượng tỡm thấỵ

Một phần của tài liệu Nghiên cứu xây dựng bản đồ số hóa công nghiệp Việt Nam (Trang 38 - 41)