GATE [40][45] là một kiến trúc, môi trường phát triển và là framework cho việc xây
dựng các hệ thống xử lý ngôn ngữ con người. Nó đã được phát triển tại trường đại học
Sheffield từ năm 1995, và được sử dụng cho rất nhiều dự án nghiên cứu và phát triển,
bao gồm trích chọn thông tin (Information Extraction hay IE) cho nhiều ngôn ngữ, cho nhiều nhiệm vụ và nhiều khách hàng. Hình 3-1 dưới đây mô tả kiến trúc của GATE.
29
GATE có 3 kiểu thành phần chính:
Tài nguyên ngôn ngữ (Language Resources) chứa một số loại dữ liệu ngôn ngữ như: các tài liệu, các tập dữ liệu (corpus), các ontology và cung cấp những dịch vụ cho việc truy cập nó.
Tài nguyên xử lý (Processing Resources) là những nguồn mà đặc trưng của chúng chủ yếu là theo chưong trình hoặc thuật toán như gán nhãn từ loại hay tách từ. Tài nguyên trực quan (Visual Resources) là thành phần đồ hoạ hiển thị trên giao diện người dùng.
Mối quan hệ ngữ nghĩa được GATE xử lý thông qua chú giải. Các chú giải ngữ nghĩa (Annotation) được lưu trữ trong các cấu trúc được gọi là các tập chú giải. Các tập chú giải cấu thành các tầng độc lập của chú giải trên toàn bộ nội dung của văn bản. Một chú giải được định nghĩa bởi (hình 3-2):
Điểm bắt đầu (Start) là một ví trí trong nội dung tài liệu. Điểm kết thúc (End) là một vị trí trong nội dung tài liệu. Kiểu (Type) là một giá trị String.
Một tập các đặc trưng (Features) được biểu diễn giống như các cặp thuộc tính-giá trị. Mỗi một đặc trưng (kiểu String) sẽ có một giá trị (kiểu đối tượng trong Java)
tương ứng.
30
31