Xử lý đa phương tiện

Trong mục 2.4.2 trình bày về cách CPE khởi tạo một CAS, phân tích dữ liệu bởi công cụ phân tích và tổng hợp kết quả trong CAS Consumer. Công cụ phân tích có thể tạo ra một số miêu tả về vật thể ví dụ dạng của chú giải. Những miêu tả này sẽ được thêm vào các khẳng định về vật thể trong kết quả phân tích trước đó. Cuối cùng một hoặc nhiều CAS Consumer sẽ trích xuất thông tin từ CAS cho việc lưu trữ thông tin đã có cấu trúc.

Hình 2.9 -Xử lý audio trong UIMA

Xem xét ví dụ trong hình 2.9, luồng làm việc bắt đầu với một âm thanh ghi âm một cuộc hội thoại, chuyển các audio về dạng văn bản, nhận dạng các thực thể trong văn bản và trích xuất thông tin từ các văn bản trên. Sự hỗ trợ cho các đa đối tượng trong phân tích của UIMA được gọi là hỗ trợ về chủ đề của chú giải(sofa). Một Sofa được liên kết với khung nhìn CAS. Một CAS cụ thể có thể có nhiều khung nhìn, mỗi khung nhìn sẽ tương ứng với một vấn đề cụ thể cần phân tích cùng với một tập hợp các chỉ số được xác định trong dữ liệu tạo ra trong khung nhìn.

Trong chương 2, chúng tôi đã trình bày những thông tin tổng quan về kiến trúc UIMA, các thành phần cơ bản, cách thức hoạt động. Nó cung cấp những công cụ để thực hiện xây dựng công cụ xử lý tiếng Việt được trình bày trong chương tiếp theo.

Chương 3

Xây dựng công cụ phân tích tiếng Việt trên UIMA

Trong chương này chúng tôi trình bày về cách xây dựng công cụ phân tích tiếng Việt trên UIMA. Muốn xây dựng được một công cụ phân tích tiếng Việt trên UIMA chúng tôi cần phải quan tâm đến vấn đề sau: một máy phân tích để phân tích tài liệu, các chú giải sẽ được sử dụng trong máy phân tích và công cụ xử lý văn bản được tích hợp trên UIMA.

Chương 3 trình bày về cách cài đặt công cụ có sẵn cho UIMA trên Eclipse, công cụ xử lý văn bản trên UIMA (Document Analyzer) và tích hợp công cụ xử lý tiếng Việt có sẵn như tách từ [1][2], nhận dạng thực thể tiếng Việt có tên [3] thành một công cụ xử lý tiếng Việt trên UIMA.

Giới thiệu máy xử lý tập tài liệu

Tách từ tiếng Việt trên UIMA