Giới thiệu máy xử lý tập tài liệu

Nhiều ứng dụng UIMA được áp dụng để phân tích tập tài liệu. Chúng kết nối với các nguồn tài liệu khác nhau và thực hiện những nhiệm vụ khác nhau với các kết quả thu được. Tuy nhiên, trong quá trình phân tích tập tài liệu các ứng dụng UIMA đều thực hiện theo các bước sau:

 Kết nối với nguồn tài liệu

 Thu được một tài liệu từ các nguồn

 Tạo ra một CAS với tài liệu chuẩn bị được phân tích

 Gửi CAS tới ứng dụng

 Xử lý kết quả CAS

 Quay lại bước thứ 2 cho tới khi xử lý hoàn toàn tập tài liệu

 Làm bất cứ yêu cầu xử lý cuối cùng nào sau khi tất cả tài liệu đã được phân tích.

UIMA hỗ trợ các ứng dụng này một kiến trúc xử lý tập tài liệu (Collection Processing Architecture - CPA). Kiến trúc này sẽ định nghĩa các thành phần được thêm vào để đọc qua dữ liệu từ bộ sưu tập dữ liệu, chuẩn bị dữ liệu cho các máy phân tích, xử lý phân tích, trích xuất kết quả và phát triển các luồng khác. Các chức năng được định nghĩa trong CPA thực hiện bởi máy xử lý tập tài liệu (Collection Processing Engine - CPE). CPE bao gồm một máy phân tích, bộ đọc tập dữ liệu (Collection Reader) , khởi tạo CAS (CAS Initializer), tổng hợp CAS (CAS Consumer).

 Collection Reader: thành phần giúp sưu tập tài liệu để phân tích. Nó trả về cho CAS tài liệu để phân tích, có thể là các siêu dữ liệu.

 Analysis Engine: chọn một CAS thực hiện phân tích nội dung của nó. Bước này có thể tích hợp nhiều engine phân tích một lúc. Sau bước này tạo ra các CAS giàu thông tin.

 CAS Consumer: tổng hợp lại các CAS ở trên đưa ra các cấu trúc dữ liệu cho các ứng dụng yêu cầu có thể là đánh chỉ mục cho các máy tìm kiếm hoặc đưa dữ liệu vào cơ sở dữ liệu có liên quan.

 Thành phần CAS Initializer: có thể được sử dụng cho Collection Reader.

Hình 2.7 - Luồng làm việc của CPE

Hai thành phần chính của máy xử lý tập tài liệu là Collection Reader và CAS Consumer. Công việc của Collection Reader là liên kết và tương tác với tập mã nguồn, thu tập tài liệu, khởi tạo các CAS việc cho phân tích. CAS Consumer là chức năng cuối cùng trong xử lý CAS. Công việc của nó có thể là đánh chỉ mục nội dung CAS cho một công cụ tìm kiếm, trích xuất các yếu tố được quan tâm, đưa kết quả vào một

cơ sở dữ liệu liên quan hoặc lưu trữ, sắp xếp lại các kết quả phân tích cho các công việc tiếp theo.

Hình 2.7 miêu tả luồng làm việc của CPE. Từ các tập dữ liệu hay siêu dữ liệu thông qua Collection Reader lấy ra được một tài liệu, khởi tạo CAS rồi đưa tài liệu qua máy phân tích trả về các kết quả phân tích được lưu trong CAS Consumer. Các CAS Consumer này sẽ đưa các kết quả thu được vào cơ sở dữ liệu liên quan hay đánh chỉ mục kết quả để đưa vào máy tìm kiếm [9].

Xử lý đa phương tiện

Tách từ tiếng Việt trên UIMA