Cấu trúc hệ thống:

Một phần của tài liệu Nghiên cứu phương pháp đo lường mức độ tương đồng ngữ nghĩa cho bài toán tìm kiếm trong kho tài liệu học tập lĩnh vực công nghệ thông tin (Trang 55)

Kiến trúc của hệ thống đã được thiết kế để hỗ trợ phát triển, quản lý và khai thác tài nguyên giáo dục, gồm có các thành phần chính sau:

User Interface: dùng để giao tiếp giữa người sử dụng và hệ thống. Giao diện phải đẹp, tiện dụng, phù hợp với người dùng. Nhu cầu thông tin của người sử dụng được đưa vào hệ thống dưới dạng một câu truy vấn bằng ngôn ngữ tự nhiên hay một dạng thức qui ước nào đó. User Interface sẽ thực hiện vai trò tiếp nhận câu truy vấn, hiển thị câu truy vấn sau khi đã được chuẩn hóa và yêu cầu chọn lựa các chức năng tìm kiếm, hiển thị kết quả truy vấn trả về của hệ thống cùng với những đề xuất tinh chỉnh câu truy vấn nếu có.

Mô hình kiến trúc hệ thống quản lý kho tài nguyên theo ngữ nghĩa

Query Analysis: phân tích dữ liệu được nhập vào, phân tích yêu cầu truy vấn, thực hiện việc chuẩn hóa và yêu cầu sự tinh chỉnh câu truy vấn nếu có, phân tích ngữ nghĩa và biểu diễn câu truy vấn người dùng bởi một cấu trúc đơn giản như một danh sách các từ khóa hay một đồ thị keyphrase giàu ngữ nghĩa hơn tùy thuộc vào chức năng tìm kiếm được lựa chọn. Kết quả của giai đoạn này là một cấu trúc đặc tả cho câu truy vấn của người dùng được dùng làm input cho bộ Semantic Search Engine của hệ thống.

File system: Kho lưu trữ các tài liệu học tập được tổ chức theo hệ thống thư mục có qui chuẩn.

Database: Cơ sở dữ liệu cho kho tài liệu, lưu trữ các thông tin mô tả tài liệu cơ bản như nhan đề, tác giả, loại hình tài liệu , …

File Semantics: Các đồ thị biểu diễn ngữ nghĩa của tài liệu.

Ontology: Ontology cho miền tri thức về lĩnh vực CNTT.

Ontology Manager: Bộ quản lý Ontology cho phép tổ chức lưu trữ, cập nhật và tìm kiếm trên Ontology.

Search Engine: Xử lý tìm kiếm tài liệu theo yêu cầu của người dùng, truy vấn các siêu dữ liệu từ Semantic Doc Base để trả về cho User Interface các tài liệu thỏa yêu cầu tìm kiếm. Câu truy vấn và tập dữ liệu sẽ được phân tích và biểu diễn thành một dạng biểu diễn bên trong. Hệ thống sẽ sử dụng một hàm so khớp để so khớp biểu diễn của câu truy vấn với tập chỉ mục đã lập của các tài liệu để đánh giá độ liên quan của các tài liệu với câu truy vấn và trả về các tài liệu liên quan, được xếp hạng theo thứ tự về mức độ liên quan của các tài liệu với câu truy vấn. Động cơ tìm kiếm có thể tương tác với người dùng thông qua giao diện User Interface, để có thể hiệu chỉnh dần kết quả trả về cho phù hợp với nhu cầu thông tin tìm kiếm của người dùng.

Tùy thuộc vào chức năng tìm kiếm mà sẽ có những cách so trùng câu truy vấn với tập chỉ mục của tài liệu khác nhau. Đối với chức năng tìm kiếm cơ bản là tìm theo từ khóa, hệ thống sẽ tìm kiếm các tài liệu mà những từ trong câu truy vấn xuất hiện nhiều nhất, ngoại trừ stopword (các từ quá thông dụng như mạo từ a, an, the,…). Một từ càng xuất hiện nhiều trong một tài liệu thì tài liệu đó càng được chọn để trả về cho người dùng. Và một tài liệu chứa tất cả các từ trong câu truy vấn thì tốt hơn là một tài liệu không chứa hoặc chỉ chứa một (một số) từ. Đối với chức năng tìm kiếm theo ngữ nghĩa, hệ thống tiến hành so khớp giữa những đồ thị keyphrase biểu

dựa trên đồ thị keyphrase.

Semantic Collector: Xử lý, rút trích siêu dữ liệu mô tả tài nguyên, mô tả mối quan hệ giữa các tài nguyên với các đối tượng trong Ontology, thực hiện việc lập chỉ mục cho kho tài liệu. Lập chỉ mục là giai đoạn phân tích tài liệu để rút trích các đơn vị thông tin cần thiết mô tả tài liệu, biểu diễn lại tài liệu bởi các đơn vị thông tin đó và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả.

Semantic Doc Base Manager - Bộ quản lý Semantic Doc Base: Tổ chức lưu trữ, cập nhật, theo dõi các sự kiện liên quan đến hệ thống tập tin như thêm, xóa một tài liệu, sửa đổi nội dung hay thuộc tính tài liệu, sửa đổi thư mục lưu trữ tài liệu, …Trong trường hợp thêm một tài liệu mới, bộ quản lý này sẽ gọi lại Semantic Collector để rút trích các thông tin ngữ nghĩa và biểu diễn tài liệu dựa trên các thông tin này.

Một phần của tài liệu Nghiên cứu phương pháp đo lường mức độ tương đồng ngữ nghĩa cho bài toán tìm kiếm trong kho tài liệu học tập lĩnh vực công nghệ thông tin (Trang 55)

Tải bản đầy đủ (PDF)

(74 trang)