Xây dựng Ontology và cơ sở tri thức

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 191 - 194)

Ontology của VN-KIM (VN-KIMO) được thiết kế sao cho chứa đựng được các thực thể ở cả Việt Nam và trên thế giới, vì các tin tức dù là bằng tiếng Việt vẫn có thể đề cập đến các thực thể ở nước ngoài. Do đó, chúng tôi lấy Ontology của KIM làm cơ sở, rồi điều chỉnh và bổ sung thêm để tạo nên VN-KIMO ([4]). Đầu tiên, chúng tôi thực hiện việc ánh xạ hợp lý giữa các khái niệm trong tiếng Anh với các khái niệm trong tiếng Việt. Vấn đề ở đây là một khái niệm trong tiếng Việt có thể được phân chia thành nhiều khái niệm con cụ thể hơn trong tiếng Anh và ngược lại. Ví dụ, khái niệm Vịnh (ví dụ “Vịnh Bắc Bộ”, “Vịnh Hạ Long”) trong tiếng Việt tương ứng với ba khái niệm trong tiếng Anh, tùy theo đặc

điểm địa lý của vịnh, là Gulf (ví dụ “Gulf of Tonkin”, “Gulf of Persian”), Bay (ví dụ

“Halong Bay”), và Fjord (ví dụ “Norway Fjord”).

Kế đến, ở Việt Nam có một số khái niệm riêng, đặc thù về kinh tế, chính trị và xã hội, như Mặt trận Tổ quốc hay Thành phố cấp một, cần có những lớp thực thể thích hợp để xếp loại vào. Vì vậy, chúng tôi bổ sung thêm một số lớp thực thể cho VN-KIMO.

Ngoài ra, KIMO là một Ontology cấp trên đơn giản, chỉ tập trung vào sự phân cấp của các lớp thực thể để phục vụ quá trình rút trích thông tin. Do đó các thuộc tính và quan hệ trong KIMO còn sơ sài. Trong khi đó, chức năng của VN-KIM còn là cung cấp thông tin về các thực thể có tên phổ biến ở Việt Nam. Vì vậy, chúng tôi bổ sung thêm một số thuộc tính và quan hệ chi tiết hơn cho một số lớp thực thể trong VN-KIMO nhằm cung cấp thông tin về các thực thể chi tiết hơn. Ba lớp thực thể chính trong miền tri thức của đề tài là Con_người, Tổ_chức, và Nơi_chốn.

Việc xây dựng cơ sở tri thức VN-KIM gồm ba nhóm công việc chính sau:

1. Tạo các thực thể mới với mã thực thể, kiểu thực thể, tên thực thể, và những giá trị thuộc tính cơ bản.

2. Xây dựng liên kết giữa các thực thể.

3. Nhập thông tin mô tả chi tiết cho các thực thể.

Thông tin quan trọng nhất của một thực thể khi được tạo mới là mã thực thể, để phân biệt nó với các thực thể còn lại. Do việc xây dựng một cơ sở tri thức lớn được thực hiện bởi nhiều người tham gia, và cùng lúc trên nhiều miền thực thể khác nhau, nên cần có một cách nhất quán để mã sinh ra cho một thực thể là duy nhất. Để đảm bảo tính duy nhất này, mã của mỗi thực thể kết hợp ba thành phần là tên lớp thực thể, đặc tính của nhóm thực thể tương ứng, và một số nguyên dương đánh số thứ tự trong nhóm. Ví dụ mã của một ca sĩ có thể là Con_người_Ca_sĩ_159.

Sau khi đã tạo các thực thể, bước tiếp theo là tạo các quan hệ giữa chúng bằng tay hay tự động. Hai khó khăn chính của bước này là giải quyết vấn đề kích thước cơ sở tri thức quá lớn so với khả năng của công cụ nhập dữ liệu như Protégé ([9]) khi nhập bằng tay, và phân giải mập mờ về các thực thể trùng tên khi sinh các quan hệ một cách tự động.

Bước cuối cùng là bước nhập thông tin mô tả chi tiết bổ sung cho các thực thể, chỉ đòi hỏi thời gian, chứ đơn giản về kỹ thuật.

Riêng ngữ liệu thì được thu thập bằng tay hoặc bán tự động từ các nguồn dữ liệu về thực thể có tên nói trên. Ontology của VN-KIM có 370 lớp thực thể, 401 lớp ngữ liệu và

115 tính chất. Cơ sở tri thức của VN-KIM hiện gồm trên 120.000 thực thể có tên, 16.000 thực thể về ngữ liệu, và 180.000 tên khác nhau của các thực thể. Bảng 2.1 thống kê số lượng thực thể thuộc ba lớp con trực tiếp của lớp Thực_thể là các lớp Đối_tượng, Biến_cố và Trừu_tượng. Bảng 2.2 thống kê số lượng ngữ liệu tương ứng với ba lớp này. Bảng 2.3 thống kê số lượng đối tượng thuộc các lớp chính mà đề tài quan tâm, cho các thực thể cả trong và ngoài nước.

Bảng 2.1 Thống kê số lượng các thực thể thuộc ba lớp cấp trên Lớp Thực_thể Số lượng

Đối_tượng 86.392

Biến_cố 15.438

Trừu_tượng 27.182

Tổng cộng 129.012

Bảng 2.2 Thống kê số lượng ngữ liệu tương ứng với ba lớp cấp trên Lớp Ngữ_liệu Số lượng

Đối_tượng 14.515

Biến_cố 430

Trừu_tượng 1114

Tên 180.216

Tổng cộng 196.275

Bảng 2.3 Thống kê số lượng thực thể thuộc các lớp chính

Lớp Đối_tượng Việt Nam Quốc tế Số lượng

Con_người 15.492 2.610 18.102

Tổ_chức, Tổ_chức_thương_mại và Công_ty 17.255 6.785 24.040

Cơ_sở_hạ_tầng 3.479 3.479

Đơn_vị_hành_chính và Vùng_đông_dân_cư 9.340 23.147 32.487

Điểm_đặc_biệt 4.535 4.535

Sông 609 2.459 3.068

Núi 247 434 681

Tổng cộng 50.957 35.435 86.392 Tỉ lệ phần trăm 59% 41%

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 191 - 194)

Tải bản đầy đủ (PDF)

(208 trang)