Với vai trò là thành phần cung cấp tri thức cho việc rút trích thông tin trong miền tin tức tiếng Việt, cơ sở tri thức của VN-KIM phải đủ lớn để đem lại hiệu quả rút trích thông tin như mong muốn. Việc xây dựng một cơ sở tri thức thật lớn là một quá trình lâu dài, đòi hỏi nhiều công sức. Vì vậy, trong phạm vi đề tài như đã trình bày trong Chương 2, mười lớp thực thể phổ biến và quan trọng được tập trung xây dựng là các lớp nhân vật, tổ chức, công ty, thành phố, tỉnh, núi non, sông ngòi, con đường, địa điểm đặc biệt, và tên khác của các thực thể.
Đây cũng là những thực thể thường xuất hiện trên báo chí và người đọc tin tức có nhu cầu tham khảo thông tin về chúng. Mặt khác, cơ sở tri thức của VN-KIM cũng phải bao gồm một số thực thể phổ biến trên thế giới như các quốc gia và nhà lãnh đạo trên thế giới, các đơn vị hành chính lớn của các quốc gia này, các công ty, tập đoàn và giám đốc quốc tế. Trong miền tin tức tiếng Việt về thời sự quốc tế đây là những thực thể thường xuyên xuất hiện.
Một yêu cầu cụ thể mang tính định lượng của cơ sở tri thức là số lượng thực thể trong đó. Như dự kiến, số lượng thực thể trong cơ sở tri thức của VN-KIM sẽ phải đạt khoảng 60.000 thực thể. Bên cạnh đó, tỉ lệ về số lượng thực thể của các miền thực thể quan tâm, và của trong và ngoài nước, cũng phải phù hợp với sự phổ biến của chúng trong thực tế, nhằm đảm bảo hiệu quả trung bình của việc rút trích thông tin và đáp ứng nhu cầu tham khảo thông tin của người đọc.
Nguồn dữ liệu
Công việc quan trọng tiếp theo sau khi đã đề ra những mục tiêu cụ thể cho cơ sở tri thức là xác định những nguồn thông tin dùng để thu thập tri thức. Nguồn thông tin để tiến hành xây dựng cơ sở tri thức của VN-KIM được chia làm hai nguồn chính sau đây:
1. Nguồn tài liệu giấy bao gồm sách tham khảo, niên giám, các tập bản đồ, … 2. Nguồn tài liệu điện tử chủ yếu bao gồm các Website thông tin, đặc biệt là các
Website chỉ mục như những trang vàng, …
Các nguồn tài liệu giấy được chọn lựa là những nguồn được biên soạn công phu, chủ yếu tập trung vào một miền thực thể cụ thể, nội dung được trình bày rõ ràng nhất quán nhờ đó việc tiến hành nhập tri thức được tiến hành thuận tiện. Nguồn tài liệu điện tử chủ yếu là nguồn tài liệu mang tính tra cứu được các cơ quan và tổ chức có uy tín soạn thảo và công bố trên các Website. Những nguồn tài liệu này được quản lý bởi máy tính nên chúng được tổ chức và đưa lên Website dưới một dạng dữ liệu nhất quán, tạo điều kiện thuận lợi cho việc nhập tri thức bán tự động. Bảng 3.3.1 liệt kê những nguồn tài liệu đã được tham khảo để xây dựng cơ sở tri thức của VN-KIM.
Tuy có các nguồn dữ liệu nói trên, vẫn còn các khó khăn trong việc thu thập tri thức.
Một là, một số nhóm thực thể không có nguồn thông tin tập trung, ví dụ như các ca sĩ, nhạc sĩ, diễn viên, nhà thơ, nhà văn, … Hai là, thông tin trong các nguồn tài liệu đôi khi đã cũ, ví dụ như một số đơn vị hành chính được đề cập trong các sách không còn tồn tại trên thực tế, … Những khó khăn này đòi hỏi đầu tư nhiều thời gian hơn cho việc tìm kiếm thu gom thực thể, cũng như tìm kiếm thông tin để hiệu chỉnh và cập nhật so với trong tài liệu gốc.
Bảng 3.3.1 Nguồn tài liệu tham khảo cho từng miền thực thể trong cơ sở tri thức Lớp thực thể Tên sách/Địa chỉ Website Nhà xuất bản Giám đốc các công ty ở
Việt Nam http://www.vcci.com.vn/dbdn
Lãnh đạo quốc gia http://en.wikipedia.org/wiki/List_of_countr ies
Đại biểu quốc hội http://www.na.gov.vn/vietnam/index.html
Nhân vật lịch sử Đường phố Thành phố Hồ Chí Minh Nhà xuất bản Văn Hóa Thông Tin, 2001
Vận động viên Việt Nam http://www.voc.org.vn/voc/va.asp?lang=T V
Cầu thủ bóng đá Việt Nam http://www.vff.org.vn/
Diễn viên Tìm kiếm sử dụng Google Người mẫu thời trang http://netmode.vietnamnet.vn/
Ca sĩ Tìm kiếm sử dụng Google
Nhạc sĩ Tìm kiếm sử dụng Google Nhà văn Tìm kiếm sử dụng Google Nhà thơ Tìm kiếm sử dụng Google Giám đốc các cơ quan báo
chí http://danhba.vdc.com.vn/
Công ty ở Việt Nam http://www.vcci.com.vn/dbdn
Tổ chức giáo dục đào tạo http://danhba.vdc.com.vn/
Bệnh viện http://danhba.vdc.com.vn/
Khu công nghiệp http://danhba.vdc.com.vn/
Cơ quan báo chí http://danhba.vdc.com.vn/
Địa danh văn hóa Việt Nam Từ điển Địa danh Văn hóa và Thắng cảnh
Việt Nam Nhà xuất bản Khoa Học Xã Hội, 2004 Đơn vị hành chính Việt
Nam Tập bản đồ hành chính Việt Nam Nhà xuất bản Bản Đồ, 2003 Quốc gia trên thế giới http://en.wikipedia.org/wiki/List_of_countr
ies
Vùng địa lý thế giới www.citypopulation.de
Đường ở TP Hồ Chí Minh Đường phố Thành phố Hồ Chí Minh Nhà xuất bản Văn Hóa Thông Tin, 2001
Đường ở Hà Nội Phố và Đường Hà Nội Nhà xuất bản Giao Thông Vận Tải, 2004
Quốc lộ và Tỉnh lộ Tập bản đồ hành chính Việt Nam Nhà xuất bản Bản Đồ, 2003 Núi ở Việt Nam Tập bản đồ hành chính Việt Nam Nhà xuất bản Bản Đồ, 2003 Sông ở Việt Nam Tập bản đồ hành chính Việt Nam Nhà xuất bản Bản Đồ, 2003
Núi, Dãy Núi trên thế giới
http://en.wikipedia.org/wiki/List_of_mount ains
http://en.wikipedia.org/wiki/List_of_mount ain_ranges
Sông trên thế giới http://en.wikipedia.org/wiki/River
Phương pháp xây dựng
Việc xây dựng cơ sở tri thức VN-KIM gồm ba nhóm công việc chính sau:
1. Tạo các thực thể mới với mã thực thể, kiểu thực thể, tên thực thể, và những giá trị thuộc tính cơ bản.
2. Xây dựng liên kết giữa các thực thể.
3. Nhập thông tin mô tả chi tiết cho các thực thể.
Thông tin quan trọng nhất của một thực thể khi được tạo mới là mã thực thể, để phân biệt nó với các thực thể còn lại. Do việc xây dựng một cơ sở tri thức lớn được thực hiện bởi nhiều người tham gia, và cùng lúc trên nhiều miền thực thể khác nhau, nên cần có một cách nhất quán để mã sinh ra cho một thực thể là duy nhất. Để đảm bảo tính duy nhất này, mã của mỗi thực thể kết hợp ba thành phần là tên lớp thực thể, đặc tính của nhóm thực thể tương ứng, và một số nguyên dương đánh số thứ tự trong nhóm. Ví dụ mã của một ca sĩ có thể là Con_người_Ca_sĩ_159.
Sau khi đã tạo các thực thể, bước tiếp theo là tạo các quan hệ giữa chúng bằng tay hay tự động. Hai khó khăn chính của bước này là giải quyết vấn đề kích thước cơ sở tri thức quá lớn so với khả năng của công cụ nhập dữ liệu như Protégé ([107]) khi nhập bằng tay, và phân giải mập mờ về các thực thể trùng tên khi sinh các quan hệ một cách tự động.
Bước cuối cùng là bước nhập thông tin mô tả chi tiết bổ sung cho các thực thể, chỉ đòi hỏi thời gian, chứ đơn giản về kỹ thuật.
Riêng ngữ liệu thì được thu thập bằng tay hoặc bán tự động từ các nguồn dữ liệu về thực thể có tên nói trên. Ontology của VN-KIM có 370 lớp thực thể có tên, 401 lớp ngữ liệu và 115 tính chất. Cơ sở tri thức của VN-KIM hiện gồm trên 120.000 thực thể có tên, 16.000 thực thể về ngữ liệu, và 180.000 tên khác nhau của các thực thể. Bảng 3.3.2 thống kê số lượng thực thể thuộc ba lớp con trực tiếp của lớp Thực_thể là các lớp Đối_tượng, Biến_cố và Trừu_tượng. Bảng 3.3.3 thống kê số lượng ngữ liệu tương ứng với ba lớp này.
Bảng 3.3.4 thống kê số lượng đối tượng thuộc các lớp chính mà đề tài quan tâm, cho các thực thể cả trong và ngoài nước.
Bảng 3.3.2 Thống kê số lượng các thực thể thuộc ba lớp cấp trên
Lớp Thực_thể Số lượng
Đối_tượng 86.392
Biến_cố 15.438
Trừu_tượng 27.182
Tổng cộng 129.012
Bảng 3.3.3 Thống kê số lượng ngữ liệu tương ứng với ba lớp cấp trên
Lớp Ngữ_liệu Số lượng
Đối_tượng 14.515
Biến_cố 430
Trừu_tượng 1114
Tên 180.216
Tổng cộng 196.275
Bảng 3.3.4 Thống kê số lượng thực thể thuộc các lớp chính
Lớp Đối_tượng Việt Nam Quốc tế Số lượng
Con_người 15.492 2.610 18.102
Tổ_chức, Tổ_chức_thương_mại và Công_ty 17.255 6.785 24.040
Cơ_sở_hạ_tầng 3.479 3.479
Đơn_vị_hành_chính và Vùng_đông_dân_cư 9.340 23.147 32.487
Điểm_đặc_biệt 4.535 4.535
Sông 609 2.459 3.068
Núi 247 434 681
Tổng cộng 50.957 35.435 86.392 Tỉ lệ phần trăm 59% 41%