Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,77 MB
Nội dung
ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
Nguyễn Đức Nam
Nghiên cứuvàpháttriểncáccôngcụxửlý
tiếng ViệttrênUIMA
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Hà Nội – 2010
ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
Nguyễn Đức Nam
Nghiên cứuvàpháttriểncáccôngcụxửlý
tiếng ViệttrênUIMA
KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
GV hướng dẫn: TS. Phạm Bảo Sơn
Hà Nội – 2010
Nghiên cứu, pháttriểncáccôngcụxửlýtiếngViệttrênUIMA Nguyễn Đức Nam
i
Lời cảm ơn
Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Phạm Bảo Sơn, người
đã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừa
qua. Em cũng xin chân thành cảm ơn anh Nguyễn Quốc Đại đã luôn chỉ bảo và giải
đáp vướng mắc cho em trong quá trình làm khóa luận.
Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại Học
Công Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua.
Tôi xin cảm ơn tập thể phòng HMI những người luôn động viên và cho tôi
những lời khuyên có ích trong quá trình làm khóa luận.
Xin cảm ơn những người bạn luôn ở bên cạnh quan tâm, ủng hộ và động viên
tôi.
Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làm
việc tốt hơn.
Hà Nội, ngày 20 tháng 5 năm 2010
Nguyễn Đức Nam
Nghiên cứu, pháttriểncáccôngcụxửlýtiếngViệttrênUIMA Nguyễn Đức Nam
ii
Lời mở đầu
Kiến trúc xửlý thông tin phi cấu trúc (Unstructured Information Management
Architecture - UIMA) giúp phân tích nguồn thông tin không có cấu trúc thành những
thông tin có cấu trúc mang giá trị cao. Kiến trúc này linh hoạt và hiệu quả trong việc
ghép nối giải pháp nhỏ thành một côngcụ lớn hơn, hoàn thiện hơn. Chúng tôi tận dụng
những đặc điểm này để xây dựng côngcụ phân tích tiếngViệt bằng cách tích hợp các
công cụxửlýtiếngViệt có sẵn lên UIMAvà đưa ra một số phương hướng để phát
triển chúng.
Nghiên cứu, pháttriểncáccôngcụxửlýtiếngViệttrênUIMA Nguyễn Đức Nam
iii
Mục lục
Lời cảm ơn i
Lời mở đầu ii
Mục lục iii
Danh sách hình vẽ v
Danh sách thuật ngữ vi
Chương 1: Giới thiệu 1
Chương 2: Tổng quan kiến trúc xửlý thông tin phi cấu trúc 3
2.1 Giới thiệu UIMA 3
2.2 Nền tảng phân tích 6
2.2.1 Hệ thống kiểu và chú giải 9
2.2.2 Máy phân tích 10
2.2.3 Bộ miêu tả XML 15
2.3 Mô tả đối tượng trong tài liệu 17
2.4 Xây dựng ứng dụng vàxửlý tập tài liệu 17
2.4.1 Tương tác giữa ứng dụng vàUIMA 18
2.4.2 Giới thiệu máy xửlý tập tài liệu 20
2.4.3 Quản lýxửlý tập tài liệu 21
2.5 Khai thác kết quả phân tích 21
2.5.1 Tìm kiếm ngữ nghĩa 22
2.5.2 Cơ sở dữ liệu 22
2.6 Xửlý đa phương tiện 24
Chương 3: Xây dựng côngcụ phân tích tiếngViệttrênUIMA 24
3.1 Cài đặt Plugins cho UIMA 26
3.2 Document Analyzer 28
3.3 Cáccôngcụ phân tích tiếngViệt 29
Nghiên cứu, pháttriểncáccôngcụxửlýtiếngViệttrênUIMA Nguyễn Đức Nam
iv
3.3.1 Giới thiệu tách từ tiếngViệt 29
3.3.2 Giới thiệu nhận dạng thực thể tiếngViệt có tên 30
3.4 Ứng dụng côngcụ phân tích tiếngViệttrênUIMA 30
3.4.1 Tách từ tiếngViệttrênUIMA 30
3.4.2 Áp dụng nhận dạng thực thể có tên trên GATE vào UIMA 34
3.4.3 Kết hợp nhận dạng các chú giải 37
Chương 4: Tổng kết và hướng pháttriển 40
Tài liệu tham khảo A
Nghiên cứu, pháttriểncáccôngcụxửlýtiếngViệttrênUIMA Nguyễn Đức Nam
v
Danh sách hình vẽ
Hình 2.1 – UIMA là cầu nối 2 “thế giới” thông tin có cấu trúc và phi cấu trúc 4
Hình 2.2 – Các chú giải trong hệ thống kiểu 7
Hình 2.3 – Kết hợp các chú giải 8
Hình 2.4 – Máy phân tích tổng hợp 10
Hình 2.5 – Biểu diễn đối tượng trong tài liệu 16
Hình 2.6 – UIMA tương tác với các ứng dụng 17
Hình 2.7 – Luồng làm việc của CPE 19
Hình 2.8 – CPM tương tác với ứng dụng 20
Hình 2.9 – Xửlý audio 22
Hình 3.1 – Cài đặt Plugins cho UIMA 25
Hình 3.2 – Cáccôngcụ trong SDK 26
Hình 3.3 – Document Analyzer 26
Hình 3.4 –Kết quả phân tích sử dụng Token_VN 27
Hình 3.5 – Style Map Editor 28
Hình 3.6 –Kết quả chạy tách từ tiếngViệt 33
Hình 3.7 –Gán nhãn từ loại 34
Hình 3.8 – Kết quả phân tích một số chú giải 36
Hình 3.9 – Kết quả phân tích tổng hợp 39
Nghiên cứu, pháttriểncáccôngcụxửlýtiếngViệttrênUIMA Nguyễn Đức Nam
vi
Danh sách thuật ngữ
AE (Analysis Engine): các máy phân tích dùng trong xửlý
Annotator: các chú giải dùng để phân tích tài liệu
Aggregate AE (Aggregate Analysis Engine): máy phân tích tổng hợp
CAS (Common Analysis Structure): cấu trúc phân tích thường gặp, nó là một cấu trúc
dữ liệu lưu lại các mô tả về đối tượng trong tài liệu
CAS Consumer: tổng hợp các cấu trúc dữ liệu từ các CAS và là thành phần kết nối dữ
liệu tới máy tìm kiếm hay cơ sở dữ liệu
CPE (Collection Processing Engine): máy phân tích dùng để xửlýcác tập tài liệu bao
gồm từ khâu lấy tài liệu tới trích xuất kết quả ra cơ sở dữ liệu hay máy tìm kiếm
CPM (Collection Processing Management): bộ quản lý hoạt động của máy xửlý tập tài
liệu
Primitive AE (Primitive Analysis Engine): máy phân tích đơn nó dùng để phân tích tài
liệu mà chỉ dùng một chú giải
Type System: hệ thống kiểu lưu lại các kiểu của hệ thống vàcác chú giải được đăng ký
vào hệ thống
UIMA (Unstructured Information Management Architecture): kiến trúc xửlý thông tin
phi cấu trúc
UIMA SDK (UIMA Software Development Kit): bộ phần mềm của UIMA bao gồm
thành phần hỗ trợ việc pháttriển kiến trúc
Chương 1: Giới thiệu Nguyễn Đức Nam
1
Chương 1
Giới thiệu
Với sự bùng nổ của thông tin trong thời đại ngày nay, kho dữ liệu ngày càng lớn
việc tìm ra những thông tin có ích, mang giá trị cao là điều cấp thiết. Các thông tin
trong các kho dữ liệu thường là những thông tin phi cấu trúc còn những thông tin có
cấu trúc thường là những thông tin có ích, mang giá trị cao, do vậy việc đầu tiên cần
quan tâm là phải có một hệ thống để chuyển những thông tin phi cấu trúc thành những
thông tin có cấu trúc.
Thông tin phi cấu trúc là nguồn thông tin lớn nhất, nhanh nhất và ngày càng tăng
trong nguồn thông tin có sẵn cho các doanh nghiệp và chính phủ hiện nay. Xem xét
các thông tin được lưu trữ trong các doanh nghiệp và phương tiện truyền thông trên
thế giới bao gồm văn bản, âm thanh, video v.v…Các nội dung có giá trị cao trong các
nguồn thông tin phi cấu trúc thường nằm lẫn lộn trong kho nội dung lớn. Chúng được
giấu trong các nguồn thông tin khác nhau. Tự động tìm ra những thông tin mang giá trị
cao, chuyển chúng thành những thông tin có cấu trúc, lưu trữ vào cơ sở dữ liệu hay sử
dụng những thông tin có cấu trúc này vào các ứng dụng khác là hướng pháttriển của
một kiến trúc quản lý thông tin hiện đại. Kiến trúc quản lý thông tin phi cấu trúc
(Unstructure Information Management Architecture - UIMA) [10][11] được xây dựng
để thực hiện nhiệm vụ trên.
Trên thế giới đã có rất nhiều các ứng dụng kiến trúc UIMA để xửlýtiếng Anh,
tiếng Đức v.v… Kho dữ liệu về tiếngViệt ngày càng pháttriểnvàcác nhu cầu xửlý
nguồn thông tin này ngày càng tăng. Xây dựng các hệ thống xửlýtiếngViệttrên
UIMA trở nên cấp thiết. Điểm khó khăn trong xửlýtrên ngôn ngữ tiếngViệt ở chỗ
tiếng Việt đa dạng, phong phú và có nhiều điểm còn nhập nhằng.
Chương 1: Giới thiệu Nguyễn Đức Nam
2
Các côngcụxửlýtiếngViệt tại thời điểm hiện tại thường tách ra thành những
phần riêng biệt như tách từ, gán nhãn từ loại, nhận dạng tên thực thể v.v…Các côngcụ
này cũng hoạt động trêncác hệ thống khác nhau.
Trong khóa luận chúng tôi nghiêncứu về UIMA, tích hợp cáccôngcụxửlý
tiếng Việt như tách từ [1][2] và nhận dạng thực thể tiếngViệt có tên [3] trên kiến trúc
UIMA nhằm tạo ra một hệ thống phân tích tiếngViệt bao gồm nhiều côngcụ nhỏ, tận
dụng được các ưu điểm của kiến trúc UIMAvà tiết kiệm được thời gian để xây dựng
một hệ thống hoàn toàn mới.
Phần còn lại của khóa luận được chia thành 4 chương:
Chương 2: Giới thiệu một cách tổng quan nhất về UIMA cũng như các ứng
dụng cơ bản của UIMA.
Chương 3: Xây dựng côngcụ phân tích tiếngViệt từ cáccôngcụ có sẵn như
tách từ và nhận dạng thực thể có tên.
Chương 4: Tổng kết lại kết quả và đưa ra những hướng pháttriển mới cho đề tài
trong tương lai.
[...]... bày về cách cài đặt côngcụ có sẵn cho UIMAtrên Eclipse, côngcụxửlý văn bản trênUIMA (Document Analyzer) và tích hợp công cụxửlýtiếngViệt có sẵn như tách từ [1][2], nhận dạng thực thể tiếngViệt có tên [3] thành một công cụxửlýtiếngViệt trên UIMA 3.1 Cài đặt plugins cho UIMAtrên Eclipse Chúng tôi sử dụng Eclipse Update Machine cho việc cài đặt các plugins cho UIMAtrên Eclipse Khởi động... dựng côngcụ phân tích tiếngViệttrênUIMA Trong chương này chúng tôi trình bày về cách xây dựng côngcụ phân tích tiếngViệttrênUIMA Muốn xây dựng được một côngcụ phân tích tiếngViệttrênUIMA chúng tôi cần phải quan tâm đến vấn đề sau: một máy phân tích để phân tích tài liệu, các chú giải sẽ được sử dụng trong máy phân tích vàcôngcụxửlý văn bản được tích hợp trênUIMA Chương 3 trình bày về cách... dùng có thể thay đổi các màu nền hay các chú giải được phép hiện ra sau khi phân tích thông qua Style Map Editor 3.3 Cáccôngcụ phân tích tiếngViệtCáccôngcụ phân tích tiếngViệt có sẵn như tách từ, nhận dạng thực thể tiếngViệt có tên ngày càng pháttriển trong lĩnh vực xửlý ngôn ngữ tự nhiên và thu được nhiều kết quả khả quan Chúng tôi tìm cách sử dụng cáccôngcụ ấy trênUIMA nhằm tận dụng được... ghép nối các thành phần cũng như tính linh hoạt của từng thành phần của kiến trúc xửlý thông tin phi cấu trúc này 27 Chương 3: Xây dựng côngcụ phân tích tiếngViệttrênUIMA Nguyễn Đức Nam 3.3.1 Giới thiệu tách từ tiếngViệtCác ứng dụng xửlýtiếngViệt mang một đặc thù rất riêng biệt so với các ứng dụng xửlýtrêncác thứ tiếng khác Muốn xửlý được một văn bản thì trước hết phải tách được các văn... http://www.apache.org/dist/incubator /uima/ eclipse-updatesite vào trong mục "add a new remote site” 23 Chương 3: Xây dựng côngcụ phân tích tiếngViệttrênUIMA Nguyễn Đức Nam Hình 3.1- Cài đặt Plugins cho UIMAUIMA SDK là một bộ phần mềm được pháttriển bởi IBM đi kèm với kiến trúc UIMA Nó xây dựng một bộ côngcụ cung cấp cho việc pháttriểncác thành phần hay xây dựng các ứng dụng mới của kiến trúc xửlý thông tin phi cấu trúc Các. .. project uima- examples 24 Chương 3: Xây dựng côngcụ phân tích tiếngViệttrênUIMA Nguyễn Đức Nam Hình 3.2- cáccôngcụ có sẵn trong SDK Một số côngcụ thường dùng như là Annotator Viewer kiểm tra các chú giải tạo ra, CPE GUI là côngcụxửlý tập tài liệu, Document Analyzer dùng để phân tích tài liêu bằng văn bản Trong mục tiếp theo chúng tôi sẽ trình bày về Document Analyzer Chúng tôi sẽ sử dụng công cụ. .. đề cụ thể cần phân tích cùng với một tập hợp các chỉ số được xác định trong dữ liệu tạo ra trong khung nhìn Trong chương 2, chúng tôi đã trình bày những thông tin tổng quan về kiến trúc UIMA, các thành phần cơ bản, cách thức hoạt động Nó cung cấp những côngcụ để thực hiện xây dựng công cụxửlýtiếngViệt được trình bày trong chương tiếp theo 22 Chương 3: Xây dựng côngcụ phân tích tiếngViệttrên UIMA. .. bởi các phân tích từ máy xửlý tập tài liệu Chúng tôi đưa một thực thể có tên vào công cụxửlý tập tài liệu ở trên Giả sử côngcụ này có khả năng phát hiện trong các văn bản và chú giải trong CAS về con người và tổ chức Bổ sung các thực thể có tên được nhận ra, tạo ra một CAS Consumer để trích xuất thêm tới token và câu chú giải Con người và tổ chức được thêm vào CAS qua việc phát hiện thực thể tên... áp dụng cho việc tách từ và gán nhãn từ loại trênUIMA Trong côngcụ tách từ tiếngViệt có hai thành phần được nhận dạng đó là các từ vựng (token) vàcác dấu ngắt (splits) trong văn bản 3.3.2 Giới thiệu nhận dạng thực thể tiếngViệt có tên Trong việc xửlý tài liệu tiếngViệt bước tiếp theo của tách từ và gán nhãn từ loại là việc nhận dạng các thực thể có tên trong tài liệu Các thực thể thường được... tích này là các thuật toán làm tất cả mọi việc từ xửlý tài liệu đến lưu lại các kết quả tìm được 9 Chương 2: Tổng quan UIMA Nguyễn Đức Nam UIMA cung cấp một thành phần cơ bản hướng tới việc các thuật toán phân tích chạy bên trong máy phân tích Thành phần đó chính là các chú giải (2.2.1) Các thuật toán của nhóm pháttriển chủ yếu quan tâm đến việc nghiên cứuvàpháttriển các chú giải Trong UIMA, người . cụ xử lý tiếng Việt có sẵn lên UIMA và đưa ra một số phương hướng để phát
triển chúng.
Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn. công cụ phân tích tiếng Việt 29
Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức Nam
iv
3.3.1 Giới thiệu tách từ tiếng