1 PHẦN I:
2.3.4 XÂY DỰNG ONTOLOGY CHUYÊN NGÀNH TINH ỌC
Trong phần này chúng tơi sẽ trình bày mơ hình và các bước để xây dựng ontology chuyên ngành tin học. Mơ hình xây dựng ontotogy cụ thể như sau:
Dữ liệu thơ dạng cây phân cấp Làm giàu cây phân cấp ngữ Cây phân cấp ngữ nghĩa các thuật ngữ tin Thu thập dữ liệu từ Internet dạng WordNet LLOCE Sử dụng cơng cụ dịch các thuật Cây phân cấp ngữ nghĩa các
thuật ngữ tin học (tiếng Việt) Chuhiệu chẩn hố, ỉnh
Ontology/ Từđiển thuật ngữ Internet Từđiển tin học
2.3.4.1 THU THẬP DỮ LIỆU
Hiện tại cĩ rất nhiều trang Web trên thế giới cung cấp sẵn các ontology chuyên ngành tin học. Một số trang Web cho phép chúng ta xem ontology trực tuyến (Online). Do đĩ, mục đích của bước này là thu thập các ontology từ
nhiều nguồn khác nhau. Các ontology được tổ chức dưới dạng cây phân cấp. Hình sau đây là cây phân cấp các thuật ngữ tin học được lấy từ trang web:
2.3.4.2 LÀM GIÀU DỮ LIỆU
Sau khi thu thập dữ liệu thơ nhiều nguồn khác nhau trên Internet, kết quả cĩ được là dữ liệu thơ. Ở bước này, chúng ta tích hợp cĩ chọn lọc các dữ
liệu thu được đĩ thành nguồn dữ liệu mới đầy đủ hơn. Ngồi ra, dựa vào WordNet, từ điển LLOCE, từ điển tin học,… để làm giàu nguồn dữ liệu cĩ
được. Trong quá trình tích hợp các nguồn dữ liệu, mỗi nút trong cây phân cấp sẽ được gán một tần số (tần số tương quan đến các nút khác trong cùng một nhánh và đến nút cha). Việc chọn mục từđể bổ sung vào cây phân cấp chủ yếu dựa vào tần số này để quyết định cĩ nên bổ sung vào hay khơng.
2.3.4.3 TẠO ONTOLOGY TIẾNG VIỆT
Để tạo được cây ontology tiếng Việt, ta sử dụng một số cơng cụ dịch tự động để dịch các thuật ngữ trong cây phân cấp đã được thu thập ở các bước trên. Sau khi dịch tựđộng xong, chúng ta hiệu chỉnh và dịch các thuật ngữ cịn sĩt lại mà các cơng cụ chưa thể dịch được.
2.3.4.4 CHUẨN HỐ ONTOLOGY
Sau khi cĩ được ontology các thuật ngữ tin học bằng tiếng Việt, việc chuẩn hố và hiệu chỉnh ontology đĩ là cần thiết. Việc chỉnh sửa được thực hiện dưới sự giám sát của con người và một số chuyên gia ngơn ngữ học và các chuyên gia tin học.
Hình trích ngang ontology các thuật ngữ tin học