tool)
Đây là công cụ cho phép người sử dụng đánh giá độ tương đồng của các tập dữ liệu khác nhau như: tập dữ liệu được gán nhãn (annotated corpus) bằng tay, tập dữ liệu được xử lý bởi hệ thống hiện hành, hay tập dữ liệu được xử lý bởi một hệ thống được lưu trữ. Corpus Benchmark tool hoạt động cũng hoạt động tương tự như Annotation Diff, nhưng là trên một tập văn bản và tất cả các nhãn. Giao diện của Corpus Benchmark tool như hình 3.5.
27
Hình 3.4 - Giao diện của Annotation Diff
Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt
28
Chương 4
Nhận dạng thực thể trong văn bản tiếng Việt
Cùng với sự phát triển của lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt, bài toán nhận dạng thực thể trong văn bản tiếng Việt đã hình thành và bắt đầu thu được những kết quả khả quan. Một số hệ thống tiêu biểu như: hệ thống nhận dạng thực thể trong văn bản dựa trên mô hình Conditional Random Fields (CRF) (Nguyễn 2005), hệ thống nhận dạng thực thể sử dụng phương pháp máy vector hỗ trợ (SVM) (Phạm 2007), hệ thống VN-KIM NE, nhận biết và chú thích tự động cho các thực thể (Cao 2007).
Tuy nhiên cho đến thời điểm này vẫn chưa có những quy chuẩn cho bài toán nhận dạng thực thể trong văn bản tiếng Việt, ví dụ như:
Chưa có tập các loại nhãn chuẩn cho thực thể: Nguyễn đưa ra 8 loại nhãn cho thực thể (Nguyễn 2005), Phạm đưa ra 22 loại nhãn (Phạm 2007), trong khi Cao nhận diện 7 loại thực thể (Cao 2007).
Chưa có một khung làm việc chuẩn. Các hệ thống nhận dạng thực thể hiện nay ở Việt Nam xây dựng trên nền mã nguồn đóng, và rất khó để cộng đồng có thể tiếp cận sử dụng và phát triển.
Bởi vậy, chúng tôi quyết định xây dựng một hệ thống nhận dạng thực thể trong văn bản tiếng Việt bắt đầu từ việc định nghĩa các thực thể, các loại thực thể cho đến một khung làm việc và tập dữ liệu được gán nhãn chuẩn. Hệ thống sẽ được xây dựng trên khung làm việc GATE và được mở cho cộng đồng có thể sử dụng và phát triển.
29