Giới thiệu nhận dạng thực thể tiếng Việt có tên- 123docz.net

Trong việc xử lý tài liệu tiếng Việt bước tiếp theo của tách từ và gán nhãn từ loại là việc nhận dạng các thực thể có tên trong tài liệu. Các thực thể thường được nhận dạng bao gồm: tên người, địa phương, quốc gia, công trình, tôn giáo, tiền tệ, thời gian…

Việc nhận dạng thực thể gặp nhiều khó khăn. Đó là việc giải quyết các nhập nhằng giữa việc nhận ra các thực thể thuộc loại nào.

Ví dụ: “Cô Mỹ đang dạy học trong phòng 504 GD2.”

Trong trường hợp này Mỹ sẽ được nhận dạng là tên người hay tên quốc gia. “ Công an huyện Từ Liêm vừa bắt khẩn cấp đối tượng Nguyễn Bá Đạt.”

Trong câu trên thì sẽ nhận dạng “Công an huyện Từ Liêm” là một thực thể tổ chức hay sẽ nhận “Từ Liêm” là một thực thể địa phương.

Chúng tôi sẽ sử dụng công cụ nhận dạng thực thể tiếng Việt có tên [3] trên GATE và áp dụng công cụ vào trong UIMA.

3.3.3 Mối quan hệ giữa GATE và UIMA

GATE (General Architecture of Text and Engineering) [10] là một khung làm việc mã nguồn mở nó cũng được tạo ra nhằm phát triển các ứng dụng phân tích tài liệu để tìm ra các thông tin có ích cho người dùng. GATE và UIMA có nhiều điểm tương tự nhau: chúng đều đại diện các tài liệu đầu vào bằng các chú giải và cho phép người dùng thông qua các máy phân tích để xử lý các tài liệu này.

Do vậy việc có thể đưa các ứng dụng đã chạy được trong GATE vào trong UIMA hay ngược lại rất hữu ích cho người dùng. Người dùng UIMA có thể dùng các file JAPE và các plugins của GATE còn người dùng GATE có thể khai thác tính linh hoạt của UIMA.

Trong mục này chúng tôi sử dụng plugin công cụ nhận dạng thực thể tiếng Việt có tên [3], plugin tách từ tiếng việt [2] trên GATE và ứng dụng chúng vào trong UIMA.

Điểm giống nhau lớn nhất giữa UIMA và GATE là chúng đều sử dụng chú giải để đại diện cho tài liệu. Điểm khác biệt lớn nhất giữa UIMA và GATE là UIMA định nghĩa chú giải bởi các tài liệu miêu tả XML, còn GATE không cần định nghĩa các chú giải trước khi sử dụng. Ngoài ra, UIMA do IBM phát triển, còn GATE được phát triển bởi một nhóm phát triển mã nguồn mở của Đại học Sheffield nên nó không hiệu quả và ổn định bằng UIMA. Cả 2 loại chú giải đều sử dụng các vị trí ký tự bắt đầu và vị trí kết thúc (begin, end) để xác định vị trí chú giải trong tài liệu. Do vậy muốn sử dụng GATE trong UIMA thì có một phương pháp là sử dụng ngay các chú giải tạo ra bởi

GATE rồi dùng các ứng dụng của UIMA để xử lý các chú giải này. UIMA sẽ nhận các chú giải này và sử dụng chúng trong các máy phân tích của mình.

Giới thiệu nhận dạng thực thể tiếng Việt có tên

Giới thiệu máy xử lý tập tài liệu

Xử lý đa phương tiện