Dữ liệu đƣợc lấy từ các website nhƣ: https://vass.gov.vn/ (Viện hàn lâm khoa học xã hội Việt Nam), http://www.ciem.org.vn/ (Bộ kế hoạch và đầu tƣ viện nghiên cứu quản lý kinh tế Trung Ƣơng).
Tập dữ liệu thu thập đƣợc bằng phƣơng pháp thủ công ta đƣa tập dữ liệu này qua Bộ trích rút thông tin để trích rút ra các thực thể, các thực thể sau khi đƣợc gán nhãn sẽ đƣợc lƣu trữ trong hệ quản trị cơ sở dữ liêu PHP MyAdmin
46
Hình 4.1 Giao diện chính hệ thống GATE Giao diện GATE đƣợc chia làm hai phần chính:
47
Hình 4.2 Giao diện vế trái của hệ thống GATE
Applications: Dùng để thực thi chƣơng trình, trong chƣơng trình ứng dụng có ANNIE để nạp hệ thống
Language Resources: Tài nguyên ngôn ngữ, chứa một hoặc nhiều tài liệu (nhƣ trên ta có hai tài liệu là hoi thao 1, hoi thao 2 và hoi thao là một kho tài liệu chứa hoi thao1 và hoi thao 2).
Processing Resources: Tài nguyên xử lý là các ANNIE nhƣ: POS, Sentence Splitter, Gazetteer,... ta thêm các luật thoi_gian, ten_hoi_thao, dia_chi, nguồn.
48
- Bên phải là giao diện nạp và thực thi chƣơng trình . Khi click đúp chuột trái vào mục ANNIE trong mục Application ở bên trái thì bên phải xuất hiện giao diện nhƣ sau:
Hình 4.3 Giao diện vế phải hệ thống GATE
Tại mục Loaded Processing resources ta chọn tất cả các nội dung sau đó nhấn chuột vào nút để đƣa toàn bộ thông tin sang mục Selected Processing resources (lƣu ý khi chuyển sang cũng phải theo thứ tự nhƣ trong mục Loaded Processing resources) sau đó nhấn chuột vào Run this Application để thực thi chƣơng trình. Sau đó kích đúp vào Document để xem kết quả.
49
Hình 4.4 Kết quả trích rút từ văn bản định dạng tự do
50
Sau khi hệ thống trích rút đƣợc các kết quả thì kết quả này đƣợc lƣu trữ vào trong hệ quản trị cơ sở dữ liệu PHP MyAdmin. Để lƣu trữ các thực thể tên hội thảo, địa chỉ, thời gian, đƣờng link ta sử dụng các bảng tƣơng ứng nhƣ: tenhoithao, diachi, gio, ngaythang, url
Trong bảng tenhoithao gồm có các trƣờng:
- Source: lƣu đƣờng dẫn tới file dữ liệu trích rút - Tenhoithao: Tên hội thảo trích rút đƣợc
- Timestamp: Ghi lại thời gian trích rút
Trong bảng ngaythang gồm có các trƣờng:
- Source: lƣu đƣờng dẫn tới file dữ liệu trích rút - Ngaythang: Lƣu lại ngày tháng năm trích rút đƣợc - Timestamp: Ghi lại thời gian trích rút
Trong bảng diachi gồm các trƣờng:
- Source: lƣu đƣờng dẫn tới file dữ liệu trích rút - ngaythang: Lƣu lại địa chỉ trích rút đƣợc từ văn bản - Timestamp: Ghi lại thời gian trích rút
Trong bảng sourceurl gồm các trƣờng:
- url: Lƣu lại địa chỉ trang web
51
Hình 4.6 Thông tin về tên hội thảo đƣợc lƣu trong bảng tenhoithao
52