Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 và cơ sở tri thức DBpedia2 . Bài toán xây dựng ontology là một trong những bước quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology.
Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH ng nghiệp Th c ph m T h inh -2017) XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA Ngu n Th B ch Ngân Trường Đại học ng nghiệp Th c ph m Thành phố h inh Email: nganntb@cntp.edu.vn Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017 TÓM TẮT Trong báo này, tập trung vào quy trình xây dựng ontology chứa thơng tin thuộc lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 sở tri thức DBpedia2 Bài toán xây dựng ontology bước quan trọng để tạo nguồn sở tri thức cho nghiên cứu rút trích thơng tin, thích ngữ nghĩa đặc biệt xử lý ngơn ngữ tự nhiên Hiện có nhiều phương pháp xây dựng ontology Tuy nhiên phần lớn gặp khó khăn việc xử lý liệu lớn từ Wikipedia dẫn đến thời gian thực thi kết lâu, ngược lại liệu khơng trích xuất từ Wikipedia mức độ bao phủ thông tin không đảm bảo Trong phương pháp chúng tôi, đề xuất cách thức lọc liệu theo đặc trưng thông tin ban đầu lĩnh vực KHMT để giảm bớt thời gian xử lý thông tin không liên quan, đảm bảo độ đầy đủ thơng tin đặc trưng ban đầu chọn từ danh sách phân loại Wikipedia Sau tiến hành xây dựng ontology chứa nội dung tối ưu có thể, đồng thời tiếp tục làm giàu thơng tin cho ontology có thêm liệu cập nhật Ngồi phương pháp chúng tơi đề xuất vận dụng để xây dựng ontology cho lĩnh vực mà có liệu Wikipedia Từ khóa: ontology, bách khoa tồn thư Wikipedia, sở tri thức DBpedia, Khoa học máy tính, tạo ontology GIỚI THIỆU Những năm gần đây, hướng nghiên cứu xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa mảng nghiên cứu có phát triển mạnh mẽ Trong đó, tốn xây dựng quy trình tạo sở tri thức ontology có đầy đủ thơng tin để tra cứu, truy xuất thông tin thực thể quan hệ thực thể toán quan trọng Hiện có nghiên cứu đề xuất số cách thức xây dựng ontology tùy theo mục tiêu, yêu cầu khác Trong nghiên cứu Nora I Al- Rajebah [1], hay Zareen S Syed công [2], nhóm tác giả tạo ontology có liệu truy xuất từ Wikipedia, trình thực tốn nhiều cơng sức phải xử lý liệu cực lớn từ Wikipedia Một nghiên cứu khác nhóm tác giả Daniil Mirylenka cộng [3], họ đề xuất phương pháp xây dựng ontology thuộc lĩnh vực (domain) cách đưa danh sách khái niệm quan tâm ban đầu lĩnh vực đó, truy xuất thuộc tính quan hệ khái niệm quan tâm Wikipedia để thu liệu cần thiết tiến hành xây dựng ontology Phương pháp giảm tải liệu thừa truy xuất liệu Wikipedia Tuy nhiên truy xuất trực tiếp liệu cực lớn Wikipedia nên tốn thời gian thực hiện, đồng thời tính đầy đủ liệu thu phụ thuộc hoàn toàn vào danh sách khái niệm quan tâm ban đầu Ngoài có cách thực thủ cơng, người dùng tự tạo ontology cách dùng phần mềm có sẵn, phổ biến https://www.wikipedia.org/ http://wiki.dbpedia.org/ 210 Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào sở tri thức wikipedia dbpedia Protégé [4] Trong báo này, chúng tơi đề xuất q trình xây dựng ontology thuộc lĩnh vực KHMT có liệu dựa vào Wikipedia thơng qua DBpedia Wikipedia nguồn sở tri thức bách khoa toàn thư chứa hầu hết khái niệm thực thể tất lĩnh vực nhân loại, bao gồm 299 ngôn ngữ3 với 171.010.892 báo4 (dữ liệu cập nhật vào ngày 05/08/2017) DBpedia sở liệu công cộng, đa ngôn ngữ đồ thị tri thức ngữ nghĩa Đây hệ thống nổ lực cộng đồng đóng góp tạo nên để lấy thơng tin có cấu trúc từ Wikipedia, tạo thành tập hợp liệu (data set) tập tin chứa liệu dạng ba (tripple) Ngoài ra, DBpedia cho phép người dùng truy vấn ngược lại thông tin Wikipedia, đồng thời liên kết liệu khác liệu Web với Wikipedia [5] Hiển nhiên, Wikipedia nguồn tri thức tin cậy cho toán nghiên cứu khoa học [8], nhiên việc xử lý liệu cực lớn từ phát sinh nhiều thử thách, dựa theo phân tích nghiên cứu nhóm tác giả Lu Xiao Nicole Askin [6] Vì vậy, đề xuất chúng tơi, chúng tơi không lấy liệu trực tiếp từ Wikipedia mà thông qua DBpedia, liệu từ Wikipedia tổ chức lại thành tập tin (file) dạng ba (tripble)5 thể thuộc tính, quan hệ thực thể Tiếp theo chúng tơi rút trích danh sách khái niệm quan tâm phân loại Wikipedia, làm điều kiện lọc cho liệu từ DBpedia Sau tiến hành xây dựng ontology hỗ trợ thư viện mã nguồn mở Jena [6] Ngoài ra, phương pháp xây dựng ontology mà đề xuất qui trình tổng qt Qui trình thực để xây dựng ontology cho lĩnh vực có thơng tin Wikipedia Mức độ đầy đủ ontology phụ thuộc vào lượng thông tin lĩnh vực chứa Wikipedia Về sau, ontology kết tạo dựng, tiếp tục phát triển bổ sung thêm liệu cho ontology từ file liệu cập nhật DBpedia Wikipedia Phần lại báo tổ chức sau: mục 2, chúng tơi trình bày cách rút trích danh sách khái niệm quan tâm từ Wikipedia, phân tích cấu trúc file liệu DBpedia cung cấp để khái thác thông tin cần thiết, nêu sơ đồ qui trình thực phương pháp đề xuất Kết thực trình bày mục Cuối cùng, mục kết luận vấn đề báo đề xuất hướng phát triển QUI TRÌNH XÂY DỰNG ONTOLOGY 2.1 Tr ch xuất danh sách khái niệm, phân loại đặc trưng KHMT từ Wikipedia Dựa vào danh sách phân loại thuộc lĩnh vực KHMT Wikipedia cung cấp [6] (hiện có 50 phân loại thuộc Computer_science, cập nhật đến ngày 05/08/2017), tiến hành truy xuất thông tin liên quan, phân loại Wikipedia cho người dùng mã nguồn chứa danh sách khái niệm liên quan Chẳng hạn, với thông tin “list of computer company”, mã nguồn thu Hình 16 : {{Expand list|date=August 2008}}