Xây dựng cơ sở tri thức

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 59 - 64)

Với vai trò là thành phần cung cấp tri thức cho việc rút trích thông tin trong miền tin tức tiếng Việt, cơ sở tri thức của VN-KIM phải đủ lớn để đem lại hiệu quả rút trích thông tin như mong muốn. Việc xây dựng một cơ sở tri thức thật lớn là một quá trình lâu dài, đòi hỏi nhiều công sức. Vì vậy, trong phạm vi đề tài như đã trình bày trong Chương 2, mười lớp thực thể phổ biến và quan trọng được tập trung xây dựng là các lớp nhân vật, tổ chức, công ty, thành phố, tỉnh, núi non, sông ngòi, con đường, địa điểm đặc biệt, và tên khác của các thực thể.

Đây cũng là những thực thể thường xuất hiện trên báo chí và người đọc tin tức có nhu cầu tham khảo thông tin về chúng. Mặt khác, cơ sở tri thức của VN-KIM cũng phải bao gồm một số thực thể phổ biến trên thế giới như các quốc gia và nhà lãnh đạo trên thế giới, các đơn vị hành chính lớn của các quốc gia này, các công ty, tập đoàn và giám đốc quốc tế. Trong miền tin tức tiếng Việt về thời sự quốc tế đây là những thực thể thường xuyên xuất hiện.

Một yêu cầu cụ thể mang tính định lượng của cơ sở tri thức là số lượng thực thể trong đó. Như dự kiến, số lượng thực thể trong cơ sở tri thức của VN-KIM sẽ phải đạt khoảng 60.000 thực thể. Bên cạnh đó, tỉ lệ về số lượng thực thể của các miền thực thể quan tâm, và của trong và ngoài nước, cũng phải phù hợp với sự phổ biến của chúng trong thực tế, nhằm đảm bảo hiệu quả trung bình của việc rút trích thông tin và đáp ứng nhu cầu tham khảo thông tin của người đọc.

Nguồn dữ liệu

Công việc quan trọng tiếp theo sau khi đã đề ra những mục tiêu cụ thể cho cơ sở tri thức là xác định những nguồn thông tin dùng để thu thập tri thức. Nguồn thông tin để tiến hành xây dựng cơ sở tri thức của VN-KIM được chia làm hai nguồn chính sau đây:

1. Nguồn tài liệu giấy bao gồm sách tham khảo, niên giám, các tập bản đồ, … 2. Nguồn tài liệu điện tử chủ yếu bao gồm các Website thông tin, đặc biệt là các

Website chỉ mục như những trang vàng, …

Các nguồn tài liệu giấy được chọn lựa là những nguồn được biên soạn công phu, chủ yếu tập trung vào một miền thực thể cụ thể, nội dung được trình bày rõ ràng nhất quán nhờ đó việc tiến hành nhập tri thức được tiến hành thuận tiện. Nguồn tài liệu điện tử chủ yếu là nguồn tài liệu mang tính tra cứu được các cơ quan và tổ chức có uy tín soạn thảo và công bố trên các Website. Những nguồn tài liệu này được quản lý bởi máy tính nên chúng được tổ chức và đưa lên Website dưới một dạng dữ liệu nhất quán, tạo điều kiện thuận lợi cho việc nhập tri thức bán tự động. Bảng 3.3.1 liệt kê những nguồn tài liệu đã được tham khảo để xây dựng cơ sở tri thức của VN-KIM.

Tuy có các nguồn dữ liệu nói trên, vẫn còn các khó khăn trong việc thu thập tri thức.

Một là, một số nhóm thực thể không có nguồn thông tin tập trung, ví dụ như các ca sĩ, nhạc sĩ, diễn viên, nhà thơ, nhà văn, … Hai là, thông tin trong các nguồn tài liệu đôi khi đã cũ, ví dụ như một số đơn vị hành chính được đề cập trong các sách không còn tồn tại trên thực tế, … Những khó khăn này đòi hỏi đầu tư nhiều thời gian hơn cho việc tìm kiếm thu gom thực thể, cũng như tìm kiếm thông tin để hiệu chỉnh và cập nhật so với trong tài liệu gốc.

Bảng 3.3.1 Nguồn tài liệu tham khảo cho từng miền thực thể trong cơ sở tri thức Lớp thực thể Tên sách/Địa chỉ Website Nhà xuất bản Giám đốc các công ty ở

Việt Nam http://www.vcci.com.vn/dbdn

Lãnh đạo quốc gia http://en.wikipedia.org/wiki/List_of_countr ies

Đại biểu quốc hội http://www.na.gov.vn/vietnam/index.html

Nhân vật lịch sử Đường phố Thành phố Hồ Chí Minh Nhà xuất bản Văn Hóa Thông Tin, 2001

Vận động viên Việt Nam http://www.voc.org.vn/voc/va.asp?lang=T V

Cầu thủ bóng đá Việt Nam http://www.vff.org.vn/

Diễn viên Tìm kiếm sử dụng Google Người mẫu thời trang http://netmode.vietnamnet.vn/

Ca sĩ Tìm kiếm sử dụng Google

Nhạc sĩ Tìm kiếm sử dụng Google Nhà văn Tìm kiếm sử dụng Google Nhà thơ Tìm kiếm sử dụng Google Giám đốc các cơ quan báo

chí http://danhba.vdc.com.vn/

Công ty ở Việt Nam http://www.vcci.com.vn/dbdn

Tổ chức giáo dục đào tạo http://danhba.vdc.com.vn/

Bệnh viện http://danhba.vdc.com.vn/

Khu công nghiệp http://danhba.vdc.com.vn/

Cơ quan báo chí http://danhba.vdc.com.vn/

Địa danh văn hóa Việt Nam Từ điển Địa danh Văn hóa và Thắng cảnh

Việt Nam Nhà xuất bản Khoa Học Xã Hội, 2004 Đơn vị hành chính Việt

Nam Tập bản đồ hành chính Việt Nam Nhà xuất bản Bản Đồ, 2003 Quốc gia trên thế giới http://en.wikipedia.org/wiki/List_of_countr

ies

Vùng địa lý thế giới www.citypopulation.de

Đường ở TP Hồ Chí Minh Đường phố Thành phố Hồ Chí Minh Nhà xuất bản Văn Hóa Thông Tin, 2001

Đường ở Hà Nội Phố và Đường Hà Nội Nhà xuất bản Giao Thông Vận Tải, 2004

Quốc lộ và Tỉnh lộ Tập bản đồ hành chính Việt Nam Nhà xuất bản Bản Đồ, 2003 Núi ở Việt Nam Tập bản đồ hành chính Việt Nam Nhà xuất bản Bản Đồ, 2003 Sông ở Việt Nam Tập bản đồ hành chính Việt Nam Nhà xuất bản Bản Đồ, 2003

Núi, Dãy Núi trên thế giới

http://en.wikipedia.org/wiki/List_of_mount ains

http://en.wikipedia.org/wiki/List_of_mount ain_ranges

Sông trên thế giới http://en.wikipedia.org/wiki/River

Phương pháp xây dựng

Việc xây dựng cơ sở tri thức VN-KIM gồm ba nhóm công việc chính sau:

1. Tạo các thực thể mới với mã thực thể, kiểu thực thể, tên thực thể, và những giá trị thuộc tính cơ bản.

2. Xây dựng liên kết giữa các thực thể.

3. Nhập thông tin mô tả chi tiết cho các thực thể.

Thông tin quan trọng nhất của một thực thể khi được tạo mới là mã thực thể, để phân biệt nó với các thực thể còn lại. Do việc xây dựng một cơ sở tri thức lớn được thực hiện bởi nhiều người tham gia, và cùng lúc trên nhiều miền thực thể khác nhau, nên cần có một cách nhất quán để mã sinh ra cho một thực thể là duy nhất. Để đảm bảo tính duy nhất này, mã của mỗi thực thể kết hợp ba thành phần là tên lớp thực thể, đặc tính của nhóm thực thể tương ứng, và một số nguyên dương đánh số thứ tự trong nhóm. Ví dụ mã của một ca sĩ có thể là Con_người_Ca_sĩ_159.

Sau khi đã tạo các thực thể, bước tiếp theo là tạo các quan hệ giữa chúng bằng tay hay tự động. Hai khó khăn chính của bước này là giải quyết vấn đề kích thước cơ sở tri thức quá lớn so với khả năng của công cụ nhập dữ liệu như Protégé ([107]) khi nhập bằng tay, và phân giải mập mờ về các thực thể trùng tên khi sinh các quan hệ một cách tự động.

Bước cuối cùng là bước nhập thông tin mô tả chi tiết bổ sung cho các thực thể, chỉ đòi hỏi thời gian, chứ đơn giản về kỹ thuật.

Riêng ngữ liệu thì được thu thập bằng tay hoặc bán tự động từ các nguồn dữ liệu về thực thể có tên nói trên. Ontology của VN-KIM có 370 lớp thực thể có tên, 401 lớp ngữ liệu và 115 tính chất. Cơ sở tri thức của VN-KIM hiện gồm trên 120.000 thực thể có tên, 16.000 thực thể về ngữ liệu, và 180.000 tên khác nhau của các thực thể. Bảng 3.3.2 thống kê số lượng thực thể thuộc ba lớp con trực tiếp của lớp Thực_thể là các lớp Đối_tượng, Biến_cố và Trừu_tượng. Bảng 3.3.3 thống kê số lượng ngữ liệu tương ứng với ba lớp này.

Bảng 3.3.4 thống kê số lượng đối tượng thuộc các lớp chính mà đề tài quan tâm, cho các thực thể cả trong và ngoài nước.

Bảng 3.3.2 Thống kê số lượng các thực thể thuộc ba lớp cấp trên

Lớp Thực_thể Số lượng

Đối_tượng 86.392

Biến_cố 15.438

Trừu_tượng 27.182

Tổng cộng 129.012

Bảng 3.3.3 Thống kê số lượng ngữ liệu tương ứng với ba lớp cấp trên

Lớp Ngữ_liệu Số lượng

Đối_tượng 14.515

Biến_cố 430

Trừu_tượng 1114

Tên 180.216

Tổng cộng 196.275

Bảng 3.3.4 Thống kê số lượng thực thể thuộc các lớp chính

Lớp Đối_tượng Việt Nam Quốc tế Số lượng

Con_người 15.492 2.610 18.102

Tổ_chức, Tổ_chức_thương_mại và Công_ty 17.255 6.785 24.040

Cơ_sở_hạ_tầng 3.479 3.479

Đơn_vị_hành_chính và Vùng_đông_dân_cư 9.340 23.147 32.487

Điểm_đặc_biệt 4.535 4.535

Sông 609 2.459 3.068

Núi 247 434 681

Tổng cộng 50.957 35.435 86.392 Tỉ lệ phần trăm 59% 41%

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 59 - 64)

Tải bản đầy đủ (PDF)

(208 trang)