GATE cung cấp một tập các tài nguyên xử lý có thể được sử dụng lại cho các nhiệm vụ
xử lý ngôn ngữ tự nhiên(Natural Language Processing hay NLP), người sử dụng có thể mở rộng hoặc thay thế các tài nguyên đó nếu cảm thấy cần thiết. Các tài nguyên được ghép lại với nhau để tạo ra một hệ thống trích chọn thông tin có tên gọi là ANNIE (A Nearly-New Information Extraction), nhưng chúng có thể được dùng một cách riêng lẻ hoặc được kết hợp cùng nhau với các module mới để tạo ra những ứng dụng mới.
Ví dụ, rất nhiều nhiệm vụ NLP có thể yêu cầu một bộ tách câu và bộ gán nhãn từ loại mà không nhất thiết phải yêu cầu các tài nguyên đặc biệt cho nhiệm vụ IE như
một bộ chuyển đổi thực thể có tên (Named Entity Transducer). ANNIE được sử dụng cho một loạt những nhiệm vụ IE và các nhiệm vụ khác, đôi khi nó còn kết hợp với tập các module ứng dụng đặc biệt khác.
ANNIE bao gồm những tài nguyên xử lý chính sau đây: bộ tách từ, bộ tách câu,
bộ gán nhãn từ loại, từ điển địa lý (Gazetteer), bộ chuyển đổi hữu hạn trạng thái (dựa trên các biểu thức chính quy được xây dựng bên trong GATE thông qua các chú giải
ngôn ngữ).
Bộ tách từ phân chia văn bản ra thành các từ đơn như các số, dấu chấm, các kí hiệu và những từ thuộc những loại khác nhau (ví dụ như chữ cái đầu tiên viết hoa hoặc tất cả các chữ cái đều viết hoa). Bộ tách từ không cần thiết phải sửa đổi cho những ứng dụng khác nhau hoặc những loại văn bản khác nhau.
Bộ tách câu được sử dụng để chia văn bản thành những câu riêng biệt. Module này cần thiết cho cho bộ gán nhãn. Cả bộ tách câu và bộ gán nhãn là các miền và ứng dụng độc lập.
Bộ gán nhãn từ loại là tạo ra một nhãn từ loại như một chú giải cho mỗi từ hoặc ký tự. Bộ gán nhãn và bộ tách câu là những thành phần không thể thiếu trong hệ thống nhận dạng thực thể có tên (Named Entiy Recognition hay NER).
32
Gazetteer chứa đựng các danh sách, ví dụ như danh sách các thành phố, danh
sách các tổ chức, …. Những danh sách này được sử dụng đặc biệt để hỗ trợ nhiệm vụ
NER, mặc dù chúng có thể được sử dụng cho bất kì mục đích nào khác. Khi chạy
Gazetteer trên một văn bản, các chú giải có kiểu Lookup sẽ được tạo ra cho mỗi chuỗi
được khớp trong văn bản. Một chú giải Lookup sẽ chỉ được tạo ra nếu như khớp với
một mục từ trong từ điển. Bất cứ một chú giải Lookup nào có thể một hoặc hai đặc trưng: majorType (bắt buộc phải có) và minorType (tùy chọn, có thể có hoặc không).
Bộ đánh dấu ngữ nghĩa bao gồm những luật được viết thủ công thông qua văn phạm JAPE (Java Annotations Pattern Engine) [45]. Các luật miêu tả các mẫu để
khớp và kết quả được tạo ra là những chú giải. JAPE cung cấp bộ chuyển đổi hữu hạn trạng thái trên các chú giải dựa vào biểu thức chính quy.
33