XÂY DỰNG ONTOLOGY CHUYÊN NGÀNH TINH ỌC

Một phần của tài liệu Đề tài: ”Phát triển một Hệ thống S.E Hỗ trợ Tìm kiếm Thông tin, thuộc lãnh vực CNTT trên Internet qua từ khóa bằng tiếng Việt” docx (Trang 52 - 56)

1 PHẦN I:

2.3.4 XÂY DỰNG ONTOLOGY CHUYÊN NGÀNH TINH ỌC

Trong phần này chúng tơi sẽ trình bày mơ hình và các bước để xây dựng ontology chuyên ngành tin học. Mơ hình xây dựng ontotogy cụ thể như sau:

Dữ liệu thơ dạng cây phân cấp Làm giàu cây phân cấp ngữ Cây phân cấp ngữ nghĩa các thuật ngữ tin Thu thập dữ liệu từ Internet dạng WordNet LLOCE Sử dụng cơng cụ dịch các thuật Cây phân cấp ngữ nghĩa các

thuật ngữ tin học (tiếng Việt) Chuhiệu chẩn hố, ỉnh

Ontology/ Từđiển thuật ngữ Internet Từđiển tin học

2.3.4.1 THU THẬP DỮ LIỆU

Hiện tại cĩ rất nhiều trang Web trên thế giới cung cấp sẵn các ontology chuyên ngành tin học. Một số trang Web cho phép chúng ta xem ontology trực tuyến (Online). Do đĩ, mục đích của bước này là thu thập các ontology từ

nhiều nguồn khác nhau. Các ontology được tổ chức dưới dạng cây phân cấp. Hình sau đây là cây phân cấp các thuật ngữ tin học được lấy từ trang web:

2.3.4.2 LÀM GIÀU DỮ LIỆU

Sau khi thu thập dữ liệu thơ nhiều nguồn khác nhau trên Internet, kết quả cĩ được là dữ liệu thơ. Ở bước này, chúng ta tích hợp cĩ chọn lọc các dữ

liệu thu được đĩ thành nguồn dữ liệu mới đầy đủ hơn. Ngồi ra, dựa vào WordNet, từ điển LLOCE, từ điển tin học,… để làm giàu nguồn dữ liệu cĩ

được. Trong quá trình tích hợp các nguồn dữ liệu, mỗi nút trong cây phân cấp sẽ được gán một tần số (tần số tương quan đến các nút khác trong cùng một nhánh và đến nút cha). Việc chọn mục từđể bổ sung vào cây phân cấp chủ yếu dựa vào tần số này để quyết định cĩ nên bổ sung vào hay khơng.

2.3.4.3 TẠO ONTOLOGY TIẾNG VIỆT

Để tạo được cây ontology tiếng Việt, ta sử dụng một số cơng cụ dịch tự động để dịch các thuật ngữ trong cây phân cấp đã được thu thập ở các bước trên. Sau khi dịch tựđộng xong, chúng ta hiệu chỉnh và dịch các thuật ngữ cịn sĩt lại mà các cơng cụ chưa thể dịch được.

2.3.4.4 CHUẨN HỐ ONTOLOGY

Sau khi cĩ được ontology các thuật ngữ tin học bằng tiếng Việt, việc chuẩn hố và hiệu chỉnh ontology đĩ là cần thiết. Việc chỉnh sửa được thực hiện dưới sự giám sát của con người và một số chuyên gia ngơn ngữ học và các chuyên gia tin học.

Hình trích ngang ontology các thuật ngữ tin học

Một phần của tài liệu Đề tài: ”Phát triển một Hệ thống S.E Hỗ trợ Tìm kiếm Thông tin, thuộc lãnh vực CNTT trên Internet qua từ khóa bằng tiếng Việt” docx (Trang 52 - 56)

Tải bản đầy đủ (PDF)

(120 trang)