Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt

Một phần của tài liệu LUẬN VĂN: NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT doc (Trang 40 - 41)

32 Mang tính chủ quan, dễ mắc sai sót.

Nhiều trường hợp nhập nhằng rất khó để phân loại.

Chính vì những lý do trên, chúng tôi chia ra làm hai đội, gán nhãn lại độc lập với nhau. Sau đó sử dụng bộ công cụ Coltech.NE.tool do nhóm tự xây dựng dựa trên các bộ công cụ quản lý chất lượng của GATE (Annotation Diff, Corpus Benchmark tool) để so khớp và thống nhất. Quá trình chuẩn hóa và phân tích lỗi giúp chúng tôi tiếp tục hoàn thiện hệ thống nhận dạng thực thể. Các bước cứ được tiến hành như vậy cho đến khi hệ thống nhận dạng thực thể đạt hiệu quả như mong muốn.

4.3 Xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt Việt

Tính hiệu quả của khung làm việc GATE cho bài toán nhận dạng thực thể đã được chứng minh qua nhiều nghiên cứu (Maynard 2001, Cao 2007), bởi vậy chúng tôi quyết định xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt như một thành phần tích hợp (Plugin) trên GATE nhằm tận dụng những ưu điểm mà GATE mang lại. Tham khảo kiến trúc của bộ ANNIE (một thành phần tích hợp có sẵn trong GATE) chúng tôi đưa ra kiến trúc hệ thống như hình 4.2.

33 Hệ thống bao gồm 4 phần chính: Bộ tách từ Bộ gán nhãn từ loại Bộ từ điển Bộ luật

Ta có thể hình dung một cách tổng quan các bước hoạt động của hệ thống như sau: trước tiên, văn bản được tách từ và gán nhãn từ loại. Sau đó bộ từ điển hoạt động tìm ra một lớp các thực thể bằng phép so khớp (matching). Cuối cùng bộ luật nhận dạng lại các thực thể, gán nhãn cho từng thực thể trong văn bản, và trả ra kết quả.

Để hiểu chi tiết hơn về hệ thống nhận dạng thực thể trong văn bản tiếng Việt trên nền GATE, ta sẽ đi sâu tìm hiểu từng bộ phận của hệ thống.

Một phần của tài liệu LUẬN VĂN: NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT doc (Trang 40 - 41)

Tải bản đầy đủ (PDF)

(73 trang)