Xây dựng hệ thống và giao diện thực nghiệm

Một phần của tài liệu Trích rút sự kiện từ văn bản tiếng việt (Trang 45 - 52)

Dữ liệu đƣợc lấy từ các website nhƣ: https://vass.gov.vn/ (Viện hàn lâm khoa học xã hội Việt Nam), http://www.ciem.org.vn/ (Bộ kế hoạch và đầu tƣ viện nghiên cứu quản lý kinh tế Trung Ƣơng).

Tập dữ liệu thu thập đƣợc bằng phƣơng pháp thủ công ta đƣa tập dữ liệu này qua Bộ trích rút thông tin để trích rút ra các thực thể, các thực thể sau khi đƣợc gán nhãn sẽ đƣợc lƣu trữ trong hệ quản trị cơ sở dữ liêu PHP MyAdmin

46

Hình 4.1 Giao diện chính hệ thống GATE Giao diện GATE đƣợc chia làm hai phần chính:

47

Hình 4.2 Giao diện vế trái của hệ thống GATE

Applications: Dùng để thực thi chƣơng trình, trong chƣơng trình ứng dụng có ANNIE để nạp hệ thống

Language Resources: Tài nguyên ngôn ngữ, chứa một hoặc nhiều tài liệu (nhƣ trên ta có hai tài liệu là hoi thao 1, hoi thao 2 và hoi thao là một kho tài liệu chứa hoi thao1 và hoi thao 2).

Processing Resources: Tài nguyên xử lý là các ANNIE nhƣ: POS, Sentence Splitter, Gazetteer,... ta thêm các luật thoi_gian, ten_hoi_thao, dia_chi, nguồn.

48

- Bên phải là giao diện nạp và thực thi chƣơng trình . Khi click đúp chuột trái vào mục ANNIE trong mục Application ở bên trái thì bên phải xuất hiện giao diện nhƣ sau:

Hình 4.3 Giao diện vế phải hệ thống GATE

Tại mục Loaded Processing resources ta chọn tất cả các nội dung sau đó nhấn chuột vào nút để đƣa toàn bộ thông tin sang mục Selected Processing resources (lƣu ý khi chuyển sang cũng phải theo thứ tự nhƣ trong mục Loaded Processing resources) sau đó nhấn chuột vào Run this Application để thực thi chƣơng trình. Sau đó kích đúp vào Document để xem kết quả.

49

Hình 4.4 Kết quả trích rút từ văn bản định dạng tự do

50

Sau khi hệ thống trích rút đƣợc các kết quả thì kết quả này đƣợc lƣu trữ vào trong hệ quản trị cơ sở dữ liệu PHP MyAdmin. Để lƣu trữ các thực thể tên hội thảo, địa chỉ, thời gian, đƣờng link ta sử dụng các bảng tƣơng ứng nhƣ: tenhoithao, diachi, gio, ngaythang, url

Trong bảng tenhoithao gồm có các trƣờng:

- Source: lƣu đƣờng dẫn tới file dữ liệu trích rút - Tenhoithao: Tên hội thảo trích rút đƣợc

- Timestamp: Ghi lại thời gian trích rút

Trong bảng ngaythang gồm có các trƣờng:

- Source: lƣu đƣờng dẫn tới file dữ liệu trích rút - Ngaythang: Lƣu lại ngày tháng năm trích rút đƣợc - Timestamp: Ghi lại thời gian trích rút

Trong bảng diachi gồm các trƣờng:

- Source: lƣu đƣờng dẫn tới file dữ liệu trích rút - ngaythang: Lƣu lại địa chỉ trích rút đƣợc từ văn bản - Timestamp: Ghi lại thời gian trích rút

Trong bảng sourceurl gồm các trƣờng:

- url: Lƣu lại địa chỉ trang web

51

Hình 4.6 Thông tin về tên hội thảo đƣợc lƣu trong bảng tenhoithao

52

Một phần của tài liệu Trích rút sự kiện từ văn bản tiếng việt (Trang 45 - 52)

Tải bản đầy đủ (PDF)

(63 trang)