1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima

50 534 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,77 MB

Nội dung

ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Đức Nam Nghiên cứu phát triển các công cụ xử tiếng Việt trên UIMA KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2010 ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Đức Nam Nghiên cứu phát triển các công cụ xử tiếng Việt trên UIMA KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin GV hướng dẫn: TS. Phạm Bảo Sơn Hà Nội – 2010 Nghiên cứu, phát triển các công cụ xử tiếng Việt trên UIMA Nguyễn Đức Nam i Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Phạm Bảo Sơn, người đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa qua. Em cũng xin chân thành cảm ơn anh Nguyễn Quốc Đại đã luôn chỉ bảo giải đáp vướng mắc cho em trong quá trình làm khóa luận. Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua. Tôi xin cảm ơn tập thể phòng HMI những người luôn động viên cho tôi những lời khuyên có ích trong quá trình làm khóa luận. Xin cảm ơn những người bạn luôn ở bên cạnh quan tâm, ủng hộ động viên tôi. Con xin cảm ơn bố, mẹ gia đình đã luôn bên con, cho con động lực để làm việc tốt hơn. Hà Nội, ngày 20 tháng 5 năm 2010 Nguyễn Đức Nam Nghiên cứu, phát triển các công cụ xử tiếng Việt trên UIMA Nguyễn Đức Nam ii Lời mở đầu Kiến trúc xử thông tin phi cấu trúc (Unstructured Information Management Architecture - UIMA) giúp phân tích nguồn thông tin không có cấu trúc thành những thông tin có cấu trúc mang giá trị cao. Kiến trúc này linh hoạt hiệu quả trong việc ghép nối giải pháp nhỏ thành một công cụ lớn hơn, hoàn thiện hơn. Chúng tôi tận dụng những đặc điểm này để xây dựng công cụ phân tích tiếng Việt bằng cách tích hợp các công cụ xử tiếng Việt có sẵn lên UIMA đưa ra một số phương hướng để phát triển chúng. Nghiên cứu, phát triển các công cụ xử tiếng Việt trên UIMA Nguyễn Đức Nam iii Mục lục Lời cảm ơn i Lời mở đầu ii Mục lục iii Danh sách hình vẽ v Danh sách thuật ngữ vi Chương 1: Giới thiệu 1 Chương 2: Tổng quan kiến trúc xử thông tin phi cấu trúc 3 2.1 Giới thiệu UIMA 3 2.2 Nền tảng phân tích 6 2.2.1 Hệ thống kiểu chú giải 9 2.2.2 Máy phân tích 10 2.2.3 Bộ miêu tả XML 15 2.3 Mô tả đối tượng trong tài liệu 17 2.4 Xây dựng ứng dụng xử tập tài liệu 17 2.4.1 Tương tác giữa ứng dụng UIMA 18 2.4.2 Giới thiệu máy xử tập tài liệu 20 2.4.3 Quản xử tập tài liệu 21 2.5 Khai thác kết quả phân tích 21 2.5.1 Tìm kiếm ngữ nghĩa 22 2.5.2 Cơ sở dữ liệu 22 2.6 Xử đa phương tiện 24 Chương 3: Xây dựng công cụ phân tích tiếng Việt trên UIMA 24 3.1 Cài đặt Plugins cho UIMA 26 3.2 Document Analyzer 28 3.3 Các công cụ phân tích tiếng Việt 29 Nghiên cứu, phát triển các công cụ xử tiếng Việt trên UIMA Nguyễn Đức Nam iv 3.3.1 Giới thiệu tách từ tiếng Việt 29 3.3.2 Giới thiệu nhận dạng thực thể tiếng Việt có tên 30 3.4 Ứng dụng công cụ phân tích tiếng Việt trên UIMA 30 3.4.1 Tách từ tiếng Việt trên UIMA 30 3.4.2 Áp dụng nhận dạng thực thể có tên trên GATE vào UIMA 34 3.4.3 Kết hợp nhận dạng các chú giải 37 Chương 4: Tổng kết hướng phát triển 40 Tài liệu tham khảo A Nghiên cứu, phát triển các công cụ xử tiếng Việt trên UIMA Nguyễn Đức Nam v Danh sách hình vẽ Hình 2.1 – UIMA là cầu nối 2 “thế giới” thông tin có cấu trúc phi cấu trúc 4 Hình 2.2 – Các chú giải trong hệ thống kiểu 7 Hình 2.3 – Kết hợp các chú giải 8 Hình 2.4 – Máy phân tích tổng hợp 10 Hình 2.5 – Biểu diễn đối tượng trong tài liệu 16 Hình 2.6 – UIMA tương tác với các ứng dụng 17 Hình 2.7 – Luồng làm việc của CPE 19 Hình 2.8 – CPM tương tác với ứng dụng 20 Hình 2.9 – Xử audio 22 Hình 3.1 – Cài đặt Plugins cho UIMA 25 Hình 3.2 – Các công cụ trong SDK 26 Hình 3.3 – Document Analyzer 26 Hình 3.4 –Kết quả phân tích sử dụng Token_VN 27 Hình 3.5 – Style Map Editor 28 Hình 3.6 –Kết quả chạy tách từ tiếng Việt 33 Hình 3.7 –Gán nhãn từ loại 34 Hình 3.8 – Kết quả phân tích một số chú giải 36 Hình 3.9 – Kết quả phân tích tổng hợp 39 Nghiên cứu, phát triển các công cụ xử tiếng Việt trên UIMA Nguyễn Đức Nam vi Danh sách thuật ngữ AE (Analysis Engine): các máy phân tích dùng trong xử Annotator: các chú giải dùng để phân tích tài liệu Aggregate AE (Aggregate Analysis Engine): máy phân tích tổng hợp CAS (Common Analysis Structure): cấu trúc phân tích thường gặp, nó là một cấu trúc dữ liệu lưu lại các mô tả về đối tượng trong tài liệu CAS Consumer: tổng hợp các cấu trúc dữ liệu từ các CAS là thành phần kết nối dữ liệu tới máy tìm kiếm hay cơ sở dữ liệu CPE (Collection Processing Engine): máy phân tích dùng để xử các tập tài liệu bao gồm từ khâu lấy tài liệu tới trích xuất kết quả ra cơ sở dữ liệu hay máy tìm kiếm CPM (Collection Processing Management): bộ quản hoạt động của máy xử tập tài liệu Primitive AE (Primitive Analysis Engine): máy phân tích đơn nó dùng để phân tích tài liệu mà chỉ dùng một chú giải Type System: hệ thống kiểu lưu lại các kiểu của hệ thống các chú giải được đăng ký vào hệ thống UIMA (Unstructured Information Management Architecture): kiến trúc xử thông tin phi cấu trúc UIMA SDK (UIMA Software Development Kit): bộ phần mềm của UIMA bao gồm thành phần hỗ trợ việc phát triển kiến trúc Chương 1: Giới thiệu Nguyễn Đức Nam 1 Chương 1 Giới thiệu Với sự bùng nổ của thông tin trong thời đại ngày nay, kho dữ liệu ngày càng lớn việc tìm ra những thông tin có ích, mang giá trị cao là điều cấp thiết. Các thông tin trong các kho dữ liệu thường là những thông tin phi cấu trúc còn những thông tin có cấu trúc thường là những thông tin có ích, mang giá trị cao, do vậy việc đầu tiên cần quan tâm là phải có một hệ thống để chuyển những thông tin phi cấu trúc thành những thông tin có cấu trúc. Thông tin phi cấu trúc là nguồn thông tin lớn nhất, nhanh nhất ngày càng tăng trong nguồn thông tin có sẵn cho các doanh nghiệp chính phủ hiện nay. Xem xét các thông tin được lưu trữ trong các doanh nghiệp phương tiện truyền thông trên thế giới bao gồm văn bản, âm thanh, video v.v…Các nội dung có giá trị cao trong các nguồn thông tin phi cấu trúc thường nằm lẫn lộn trong kho nội dung lớn. Chúng được giấu trong các nguồn thông tin khác nhau. Tự động tìm ra những thông tin mang giá trị cao, chuyển chúng thành những thông tin có cấu trúc, lưu trữ vào cơ sở dữ liệu hay sử dụng những thông tin có cấu trúc này vào các ứng dụng khác là hướng phát triển của một kiến trúc quản thông tin hiện đại. Kiến trúc quản thông tin phi cấu trúc (Unstructure Information Management Architecture - UIMA) [10][11] được xây dựng để thực hiện nhiệm vụ trên. Trên thế giới đã có rất nhiều các ứng dụng kiến trúc UIMA để xử tiếng Anh, tiếng Đức v.v… Kho dữ liệu về tiếng Việt ngày càng phát triển các nhu cầu xử nguồn thông tin này ngày càng tăng. Xây dựng các hệ thống xử tiếng Việt trên UIMA trở nên cấp thiết. Điểm khó khăn trong xử trên ngôn ngữ tiếng Việt ở chỗ tiếng Việt đa dạng, phong phú có nhiều điểm còn nhập nhằng. Chương 1: Giới thiệu Nguyễn Đức Nam 2 Các công cụ xử tiếng Việt tại thời điểm hiện tại thường tách ra thành những phần riêng biệt như tách từ, gán nhãn từ loại, nhận dạng tên thực thể v.v…Các công cụ này cũng hoạt động trên các hệ thống khác nhau. Trong khóa luận chúng tôi nghiên cứu về UIMA, tích hợp các công cụ xử tiếng Việt như tách từ [1][2] nhận dạng thực thể tiếng Việt có tên [3] trên kiến trúc UIMA nhằm tạo ra một hệ thống phân tích tiếng Việt bao gồm nhiều công cụ nhỏ, tận dụng được các ưu điểm của kiến trúc UIMA tiết kiệm được thời gian để xây dựng một hệ thống hoàn toàn mới. Phần còn lại của khóa luận được chia thành 4 chương:  Chương 2: Giới thiệu một cách tổng quan nhất về UIMA cũng như các ứng dụng cơ bản của UIMA.  Chương 3: Xây dựng công cụ phân tích tiếng Việt từ các công cụ có sẵn như tách từ nhận dạng thực thể có tên.  Chương 4: Tổng kết lại kết quả đưa ra những hướng phát triển mới cho đề tài trong tương lai. [...]... bày về cách cài đặt công cụ có sẵn cho UIMA trên Eclipse, công cụ xử văn bản trên UIMA (Document Analyzer) tích hợp công cụ xử tiếng Việt có sẵn như tách từ [1][2], nhận dạng thực thể tiếng Việt có tên [3] thành một công cụ xử tiếng Việt trên UIMA 3.1 Cài đặt plugins cho UIMA trên Eclipse Chúng tôi sử dụng Eclipse Update Machine cho việc cài đặt các plugins cho UIMA trên Eclipse Khởi động... dựng công cụ phân tích tiếng Việt trên UIMA Trong chương này chúng tôi trình bày về cách xây dựng công cụ phân tích tiếng Việt trên UIMA Muốn xây dựng được một công cụ phân tích tiếng Việt trên UIMA chúng tôi cần phải quan tâm đến vấn đề sau: một máy phân tích để phân tích tài liệu, các chú giải sẽ được sử dụng trong máy phân tích công cụ xử văn bản được tích hợp trên UIMA Chương 3 trình bày về cách... dùng có thể thay đổi các màu nền hay các chú giải được phép hiện ra sau khi phân tích thông qua Style Map Editor 3.3 Các công cụ phân tích tiếng Việt Các công cụ phân tích tiếng Việt có sẵn như tách từ, nhận dạng thực thể tiếng Việt có tên ngày càng phát triển trong lĩnh vực xử ngôn ngữ tự nhiên thu được nhiều kết quả khả quan Chúng tôi tìm cách sử dụng các công cụ ấy trên UIMA nhằm tận dụng được... ghép nối các thành phần cũng như tính linh hoạt của từng thành phần của kiến trúc xử thông tin phi cấu trúc này 27 Chương 3: Xây dựng công cụ phân tích tiếng Việt trên UIMA Nguyễn Đức Nam 3.3.1 Giới thiệu tách từ tiếng Việt Các ứng dụng xử tiếng Việt mang một đặc thù rất riêng biệt so với các ứng dụng xử trên các thứ tiếng khác Muốn xử được một văn bản thì trước hết phải tách được các văn... http://www.apache.org/dist/incubator /uima/ eclipse-updatesite vào trong mục "add a new remote site” 23 Chương 3: Xây dựng công cụ phân tích tiếng Việt trên UIMA Nguyễn Đức Nam Hình 3.1- Cài đặt Plugins cho UIMA UIMA SDK là một bộ phần mềm được phát triển bởi IBM đi kèm với kiến trúc UIMA Nó xây dựng một bộ công cụ cung cấp cho việc phát triển các thành phần hay xây dựng các ứng dụng mới của kiến trúc xử thông tin phi cấu trúc Các. .. project uima- examples 24 Chương 3: Xây dựng công cụ phân tích tiếng Việt trên UIMA Nguyễn Đức Nam Hình 3.2- các công cụ có sẵn trong SDK Một số công cụ thường dùng như là Annotator Viewer kiểm tra các chú giải tạo ra, CPE GUI là công cụ xử tập tài liệu, Document Analyzer dùng để phân tích tài liêu bằng văn bản Trong mục tiếp theo chúng tôi sẽ trình bày về Document Analyzer Chúng tôi sẽ sử dụng công cụ. .. đề cụ thể cần phân tích cùng với một tập hợp các chỉ số được xác định trong dữ liệu tạo ra trong khung nhìn Trong chương 2, chúng tôi đã trình bày những thông tin tổng quan về kiến trúc UIMA, các thành phần cơ bản, cách thức hoạt động Nó cung cấp những công cụ để thực hiện xây dựng công cụ xử tiếng Việt được trình bày trong chương tiếp theo 22 Chương 3: Xây dựng công cụ phân tích tiếng Việt trên UIMA. .. bởi các phân tích từ máy xử tập tài liệu Chúng tôi đưa một thực thể có tên vào công cụ xử tập tài liệu ở trên Giả sử công cụ này có khả năng phát hiện trong các văn bản chú giải trong CAS về con người tổ chức Bổ sung các thực thể có tên được nhận ra, tạo ra một CAS Consumer để trích xuất thêm tới token câu chú giải Con người tổ chức được thêm vào CAS qua việc phát hiện thực thể tên... áp dụng cho việc tách từ gán nhãn từ loại trên UIMA Trong công cụ tách từ tiếng Việt có hai thành phần được nhận dạng đó là các từ vựng (token) các dấu ngắt (splits) trong văn bản 3.3.2 Giới thiệu nhận dạng thực thể tiếng Việt có tên Trong việc xử tài liệu tiếng Việt bước tiếp theo của tách từ gán nhãn từ loại là việc nhận dạng các thực thể có tên trong tài liệu Các thực thể thường được... tích này là các thuật toán làm tất cả mọi việc từ xử tài liệu đến lưu lại các kết quả tìm được 9 Chương 2: Tổng quan UIMA Nguyễn Đức Nam UIMA cung cấp một thành phần cơ bản hướng tới việc các thuật toán phân tích chạy bên trong máy phân tích Thành phần đó chính là các chú giải (2.2.1) Các thuật toán của nhóm phát triển chủ yếu quan tâm đến việc nghiên cứu phát triển các chú giải Trong UIMA, người . cụ xử lý tiếng Việt có sẵn lên UIMA và đưa ra một số phương hướng để phát triển chúng. Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn. công cụ phân tích tiếng Việt 29 Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức Nam iv 3.3.1 Giới thiệu tách từ tiếng

Ngày đăng: 18/02/2014, 00:42

HÌNH ẢNH LIÊN QUAN

Hình 2.1- UIMA là “cầu nối” giúp liên kết hai thế giới thơng tin có cấu trúc và phi cấu trúc [11] - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 2.1 UIMA là “cầu nối” giúp liên kết hai thế giới thơng tin có cấu trúc và phi cấu trúc [11] (Trang 12)
Hình 2.2 – Các chú giải trong hệ thống kiểu - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 2.2 – Các chú giải trong hệ thống kiểu (Trang 15)
Hình 2.3 - Kết hợp các chú giảiTokenizerVN  Vietnamese Tokenizer  - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 2.3 Kết hợp các chú giảiTokenizerVN Vietnamese Tokenizer (Trang 16)
Hình 2.4 - Máy phân tích tổng hợp - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 2.4 Máy phân tích tổng hợp (Trang 18)
Trong hình 2.5 là ví dụ biểu diễn đối tượng trong CAS về câu: “Nam là sinh viên trường  đại  học  Công  Nghệ - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
rong hình 2.5 là ví dụ biểu diễn đối tượng trong CAS về câu: “Nam là sinh viên trường đại học Công Nghệ (Trang 24)
Hình 2.6 -UIMA tương tác với các ứng dụng - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 2.6 UIMA tương tác với các ứng dụng (Trang 25)
Hình 2.7 - Luồng làm việc của CPE - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 2.7 Luồng làm việc của CPE (Trang 27)
Hình 2.7 miêu tả luồng làm việc của CPE. Từ các tập dữ liệu hay siêu dữ liệu thông qua Collection Reader lấy ra được một tài liệu, khởi tạo CAS rồi đưa tài liệu qua  máy phân tích trả về các kết quả phân tích được lưu trong CAS Consumer - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 2.7 miêu tả luồng làm việc của CPE. Từ các tập dữ liệu hay siêu dữ liệu thông qua Collection Reader lấy ra được một tài liệu, khởi tạo CAS rồi đưa tài liệu qua máy phân tích trả về các kết quả phân tích được lưu trong CAS Consumer (Trang 28)
Hình 2.9 -Xử lý audio trong UIMA - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 2.9 Xử lý audio trong UIMA (Trang 30)
Hình 3.1- Cài đặt Plugins cho UIMA - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.1 Cài đặt Plugins cho UIMA (Trang 32)
Hình 3.3 - Document Analyzer - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.3 Document Analyzer (Trang 33)
Hình 3.2- các cơng cụ có sẵn trong SDK - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.2 các cơng cụ có sẵn trong SDK (Trang 33)
Hình 3.4 - Kết quả phân tích sử dụng chú giải Token_VN Document Analyzer cũng cung cấp ứng dụng để thay đổi các bảng hiện ra. - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.4 Kết quả phân tích sử dụng chú giải Token_VN Document Analyzer cũng cung cấp ứng dụng để thay đổi các bảng hiện ra (Trang 35)
Hình 3.5 - Style Map Editor - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.5 Style Map Editor (Trang 35)
Hình 3.6 - Kết quả chạy tách từ tiếng Việt - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.6 Kết quả chạy tách từ tiếng Việt (Trang 41)
Hình 3.7 - Gán nhãn từ, dấu ngắt - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.7 Gán nhãn từ, dấu ngắt (Trang 42)
Hình 3.8 - Kết quả phân tích nhận dạng thực thể - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.8 Kết quả phân tích nhận dạng thực thể (Trang 44)
Hình 3.9 Kết quả phân tích cho máy phân tích tổng hợp - nghiên cứu và phát triển các công cụ xử lý tiếng việt trên uima
Hình 3.9 Kết quả phân tích cho máy phân tích tổng hợp (Trang 47)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w