Trích chọn thông tin trong GATE

Một phần của tài liệu phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt (Trang 42 - 44)

GATE cung cấp một tập các tài nguyên xử lý có thể được sử dụng lại cho các nhiệm vụ

xử lý ngôn ngữ tự nhiên(Natural Language Processing hay NLP), người sử dụng có thể mở rộng hoặc thay thế các tài nguyên đó nếu cảm thấy cần thiết. Các tài nguyên được ghép lại với nhau để tạo ra một hệ thống trích chọn thông tin có tên gọi là ANNIE (A Nearly-New Information Extraction), nhưng chúng có thể được dùng một cách riêng lẻ hoặc được kết hợp cùng nhau với các module mới để tạo ra những ứng dụng mới.

Ví dụ, rất nhiều nhiệm vụ NLP có thể yêu cầu một bộ tách câu và bộ gán nhãn từ loại mà không nhất thiết phải yêu cầu các tài nguyên đặc biệt cho nhiệm vụ IE như

một bộ chuyển đổi thực thể có tên (Named Entity Transducer). ANNIE được sử dụng cho một loạt những nhiệm vụ IE và các nhiệm vụ khác, đôi khi nó còn kết hợp với tập các module ứng dụng đặc biệt khác.

ANNIE bao gồm những tài nguyên xử lý chính sau đây: bộ tách từ, bộ tách câu,

bộ gán nhãn từ loại, từ điển địa lý (Gazetteer), bộ chuyển đổi hữu hạn trạng thái (dựa trên các biểu thức chính quy được xây dựng bên trong GATE thông qua các chú giải

ngôn ngữ).

Bộ tách từ phân chia văn bản ra thành các từ đơn như các số, dấu chấm, các kí hiệu và những từ thuộc những loại khác nhau (ví dụ như chữ cái đầu tiên viết hoa hoặc tất cả các chữ cái đều viết hoa). Bộ tách từ không cần thiết phải sửa đổi cho những ứng dụng khác nhau hoặc những loại văn bản khác nhau.

Bộ tách câu được sử dụng để chia văn bản thành những câu riêng biệt. Module này cần thiết cho cho bộ gán nhãn. Cả bộ tách câu và bộ gán nhãn là các miền và ứng dụng độc lập.

Bộ gán nhãn từ loại là tạo ra một nhãn từ loại như một chú giải cho mỗi từ hoặc ký tự. Bộ gán nhãn và bộ tách câu là những thành phần không thể thiếu trong hệ thống nhận dạng thực thể có tên (Named Entiy Recognition hay NER).

32

Gazetteer chứa đựng các danh sách, ví dụ như danh sách các thành phố, danh

sách các tổ chức, …. Những danh sách này được sử dụng đặc biệt để hỗ trợ nhiệm vụ

NER, mặc dù chúng có thể được sử dụng cho bất kì mục đích nào khác. Khi chạy

Gazetteer trên một văn bản, các chú giải có kiểu Lookup sẽ được tạo ra cho mỗi chuỗi

được khớp trong văn bản. Một chú giải Lookup sẽ chỉ được tạo ra nếu như khớp với

một mục từ trong từ điển. Bất cứ một chú giải Lookup nào có thể một hoặc hai đặc trưng: majorType (bắt buộc phải có) và minorType (tùy chọn, có thể có hoặc không).

Bộ đánh dấu ngữ nghĩa bao gồm những luật được viết thủ công thông qua văn phạm JAPE (Java Annotations Pattern Engine) [45]. Các luật miêu tả các mẫu để

khớp và kết quả được tạo ra là những chú giải. JAPE cung cấp bộ chuyển đổi hữu hạn trạng thái trên các chú giải dựa vào biểu thức chính quy.

33

Một phần của tài liệu phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt (Trang 42 - 44)

Tải bản đầy đủ (PDF)

(104 trang)