Nghiên cứu và phát triển các công cụ xử lý tiếng việt trên UIMA

ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Đức Nam Nghiên cứu phát triển công cụ xử lý tiếng Việt UIMA KHĨA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Đức Nam Nghiên cứu phát triển cơng cụ xử lý tiếng Việt UIMA KHĨA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: GV hướng dẫn: Cơng Nghệ Thông Tin TS Phạm Bảo Sơn Hà Nội – 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu, phát triển công cụ xử lý tiếng Việt UIMA Nguyễn Đức Nam Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc đến thầy Phạm Bảo Sơn, người không quản vất vả hướng dẫn em suốt thời gian làm khóa luận tốt nghiệp vừa qua Em xin chân thành cảm ơn anh Nguyễn Quốc Đại bảo giải đáp vướng mắc cho em trình làm khóa luận Em xin bày tỏ lời cảm ơn sâu sắc đến thầy cô giáo Trường Đại Học Cơng Nghệ tận tình dạy dỗ em suốt bốn năm học qua Tơi xin cảm ơn tập thể phịng HMI người động viên cho lời khun có ích q trình làm khóa luận Xin cảm ơn người bạn bên cạnh quan tâm, ủng hộ động viên Con xin cảm ơn bố, mẹ gia đình ln bên con, cho động lực để làm việc tốt Hà Nội, ngày 20 tháng năm 2010 Nguyễn Đức Nam i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu, phát triển công cụ xử lý tiếng Việt UIMA Nguyễn Đức Nam Lời mở đầu Kiến trúc xử lý thông tin phi cấu trúc (Unstructured Information Management Architecture - UIMA) giúp phân tích nguồn thơng tin khơng có cấu trúc thành thơng tin có cấu trúc mang giá trị cao Kiến trúc linh hoạt hiệu việc ghép nối giải pháp nhỏ thành cơng cụ lớn hơn, hồn thiện Chúng tận dụng đặc điểm để xây dựng cơng cụ phân tích tiếng Việt cách tích hợp cơng cụ xử lý tiếng Việt có sẵn lên UIMA đưa số phương hướng để phát triển chúng ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu, phát triển công cụ xử lý tiếng Việt UIMA Nguyễn Đức Nam Mục lục Lời cảm ơn i Lời mở đầu ii Mục lục iii Danh sách hình vẽ v Danh sách thuật ngữ vi Chương 1: Giới thiệu Chương 2: Tổng quan kiến trúc xử lý thông tin phi cấu trúc 2.1 Giới thiệu UIMA 2.2 Nền tảng phân tích 2.2.1 Hệ thống kiểu giải 2.2.2 Máy phân tích 10 2.2.3 Bộ miêu tả XML 15 2.3 Mô tả đối tượng tài liệu 17 2.4 Xây dựng ứng dụng xử lý tập tài liệu 17 2.4.1 Tương tác ứng dụng UIMA 18 2.4.2 Giới thiệu máy xử lý tập tài liệu 20 2.4.3 Quản lý xử lý tập tài liệu 21 2.5 Khai thác kết phân tích 21 2.5.1 Tìm kiếm ngữ nghĩa 22 2.5.2 Cơ sở liệu 22 2.6 Xử lý đa phương tiện 24 Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA 24 3.1 Cài đặt Plugins cho UIMA 26 3.2 Document Analyzer 28 3.3 Các cơng cụ phân tích tiếng Việt 29 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu, phát triển công cụ xử lý tiếng Việt UIMA Nguyễn Đức Nam 3.3.1 Giới thiệu tách từ tiếng Việt 29 3.3.2 Giới thiệu nhận dạng thực thể tiếng Việt có tên 30 3.4 Ứng dụng công cụ phân tích tiếng Việt UIMA 30 3.4.1 Tách từ tiếng Việt UIMA 30 3.4.2 Áp dụng nhận dạng thực thể có tên GATE vào UIMA 34 3.4.3 Kết hợp nhận dạng giải 37 Chương 4: Tổng kết hướng phát triển 40 Tài liệu tham khảo A iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu, phát triển công cụ xử lý tiếng Việt UIMA Nguyễn Đức Nam Danh sách hình vẽ Hình 2.1 – UIMA cầu nối “thế giới” thơng tin có cấu trúc phi cấu trúc Hình 2.2 – Các giải hệ thống kiểu Hình 2.3 – Kết hợp giải Hình 2.4 – Máy phân tích tổng hợp 10 Hình 2.5 – Biểu diễn đối tượng tài liệu 16 Hình 2.6 – UIMA tương tác với ứng dụng 17 Hình 2.7 – Luồng làm việc CPE 19 Hình 2.8 – CPM tương tác với ứng dụng 20 Hình 2.9 – Xử lý audio 22 Hình 3.1 – Cài đặt Plugins cho UIMA 25 Hình 3.2 – Các cơng cụ SDK 26 Hình 3.3 – Document Analyzer 26 Hình 3.4 –Kết phân tích sử dụng Token_VN 27 Hình 3.5 – Style Map Editor 28 Hình 3.6 –Kết chạy tách từ tiếng Việt 33 Hình 3.7 –Gán nhãn từ loại 34 Hình 3.8 – Kết phân tích số giải 36 Hình 3.9 – Kết phân tích tổng hợp 39 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu, phát triển công cụ xử lý tiếng Việt UIMA Nguyễn Đức Nam Danh sách thuật ngữ AE (Analysis Engine): máy phân tích dùng xử lý Annotator: giải dùng để phân tích tài liệu Aggregate AE (Aggregate Analysis Engine): máy phân tích tổng hợp CAS (Common Analysis Structure): cấu trúc phân tích thường gặp, cấu trúc liệu lưu lại mô tả đối tượng tài liệu CAS Consumer: tổng hợp cấu trúc liệu từ CAS thành phần kết nối liệu tới máy tìm kiếm hay sở liệu CPE (Collection Processing Engine): máy phân tích dùng để xử lý tập tài liệu bao gồm từ khâu lấy tài liệu tới trích xuất kết sở liệu hay máy tìm kiếm CPM (Collection Processing Management): quản lý hoạt động máy xử lý tập tài liệu Primitive AE (Primitive Analysis Engine): máy phân tích đơn dùng để phân tích tài liệu mà dùng giải Type System: hệ thống kiểu lưu lại kiểu hệ thống giải đăng ký vào hệ thống UIMA (Unstructured Information Management Architecture): kiến trúc xử lý thông tin phi cấu trúc UIMA SDK (UIMA Software Development Kit): phần mềm UIMA bao gồm thành phần hỗ trợ việc phát triển kiến trúc vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 1: Giới thiệu Nguyễn Đức Nam Chương Giới thiệu Với bùng nổ thông tin thời đại ngày nay, kho liệu ngày lớn việc tìm thơng tin có ích, mang giá trị cao điều cấp thiết Các thông tin kho liệu thường thơng tin phi cấu trúc cịn thơng tin có cấu trúc thường thơng tin có ích, mang giá trị cao, việc cần quan tâm phải có hệ thống để chuyển thông tin phi cấu trúc thành thơng tin có cấu trúc Thơng tin phi cấu trúc nguồn thông tin lớn nhất, nhanh ngày tăng nguồn thơng tin có sẵn cho doanh nghiệp phủ Xem xét thông tin lưu trữ doanh nghiệp phương tiện truyền thông giới bao gồm văn bản, âm thanh, video v.v…Các nội dung có giá trị cao nguồn thông tin phi cấu trúc thường nằm lẫn lộn kho nội dung lớn Chúng giấu nguồn thông tin khác Tự động tìm thơng tin mang giá trị cao, chuyển chúng thành thơng tin có cấu trúc, lưu trữ vào sở liệu hay sử dụng thông tin có cấu trúc vào ứng dụng khác hướng phát triển kiến trúc quản lý thông tin đại Kiến trúc quản lý thông tin phi cấu trúc (Unstructure Information Management Architecture - UIMA) [10][11] xây dựng để thực nhiệm vụ Trên giới có nhiều ứng dụng kiến trúc UIMA để xử lý tiếng Anh, tiếng Đức v.v… Kho liệu tiếng Việt ngày phát triển nhu cầu xử lý nguồn thông tin ngày tăng Xây dựng hệ thống xử lý tiếng Việt UIMA trở nên cấp thiết Điểm khó khăn xử lý ngôn ngữ tiếng Việt chỗ tiếng Việt đa dạng, phong phú có nhiều điểm nhập nhằng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 1: Giới thiệu Nguyễn Đức Nam Các công cụ xử lý tiếng Việt thời điểm thường tách thành phần riêng biệt tách từ, gán nhãn từ loại, nhận dạng tên thực thể v.v…Các công cụ hoạt động hệ thống khác Trong khóa luận chúng tơi nghiên cứu UIMA, tích hợp cơng cụ xử lý tiếng Việt tách từ [1][2] nhận dạng thực thể tiếng Việt có tên [3] kiến trúc UIMA nhằm tạo hệ thống phân tích tiếng Việt bao gồm nhiều công cụ nhỏ, tận dụng ưu điểm kiến trúc UIMA tiết kiệm thời gian để xây dựng hệ thống hoàn tồn Phần cịn lại khóa luận chia thành chương:  Chương 2: Giới thiệu cách tổng quan UIMA ứng dụng UIMA  Chương 3: Xây dựng công cụ phân tích tiếng Việt từ cơng cụ có sẵn tách từ nhận dạng thực thể có tên  Chương 4: Tổng kết lại kết đưa hướng phát triển cho đề tài tương lai LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam 3.3.1 Giới thiệu tách từ tiếng Việt Các ứng dụng xử lý tiếng Việt mang đặc thù riêng biệt so với ứng dụng xử lý thứ tiếng khác Muốn xử lý văn trước hết phải tách văn thành từ riêng biệt Các ngôn ngữ khác tiếng Anh hay tiếng Pháp từ phân biệt dấu trống trong tiếng Việt từ bao gồm đến ba tiếng tiếng cách dấu trống Ngoài nhập nhằng ngữ pháp tiếng Việt gây khó khăn cho việc tách xác từ câu Ví dụ: “Con bò đá bò đá.” “Con kiến bò miệng bị.” Các tiếng kết hợp với tiếng đứng đằng trước đằng sau để tạo từ mang ý nghĩa hoàn toàn khác Hơn nhập nhằng việc sử dụng đại từ nhân xưng Trong tiếng Anh đại từ nhân xưng để thay cho tên riêng tiếng Việt đại từ nhân xưng lại kèm theo tên riêng Do chúng tơi sử dụng công cụ tách từ tiếng Việt [1][2] với nhiệm vụ tách từ gán nhãn từ loại để áp dụng cho việc tách từ gán nhãn từ loại UIMA Trong cơng cụ tách từ tiếng Việt có hai thành phần nhận dạng từ vựng (token) dấu ngắt (splits) văn 3.3.2 Giới thiệu nhận dạng thực thể tiếng Việt có tên Trong việc xử lý tài liệu tiếng Việt bước tách từ gán nhãn từ loại việc nhận dạng thực thể có tên tài liệu Các thực thể thường nhận dạng bao gồm: tên người, địa phương, quốc gia, cơng trình, tơn giáo, tiền tệ, thời gian… Việc nhận dạng thực thể gặp nhiều khó khăn Đó việc giải nhập nhằng việc nhận thực thể thuộc loại 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Ví dụ: “Cơ Mỹ dạy học phòng 504 GD2.” Trong trường hợp Mỹ nhận dạng tên người hay tên quốc gia “ Công an huyện Từ Liêm vừa bắt khẩn cấp đối tượng Nguyễn Bá Đạt.” Trong câu nhận dạng “Cơng an huyện Từ Liêm” thực thể tổ chức hay nhận “Từ Liêm” thực thể địa phương Chúng sử dụng cơng cụ nhận dạng thực thể tiếng Việt có tên [3] GATE áp dụng công cụ vào UIMA 3.3.3 Mối quan hệ GATE UIMA GATE (General Architecture of Text and Engineering) [10] khung làm việc mã nguồn mở tạo nhằm phát triển ứng dụng phân tích tài liệu để tìm thơng tin có ích cho người dùng GATE UIMA có nhiều điểm tương tự nhau: chúng đại diện tài liệu đầu vào giải cho phép người dùng thông qua máy phân tích để xử lý tài liệu Do việc đưa ứng dụng chạy GATE vào UIMA hay ngược lại hữu ích cho người dùng Người dùng UIMA dùng file JAPE plugins GATE cịn người dùng GATE khai thác tính linh hoạt UIMA Trong mục chúng tơi sử dụng plugin công cụ nhận dạng thực thể tiếng Việt có tên [3], plugin tách từ tiếng việt [2] GATE ứng dụng chúng vào UIMA Điểm giống lớn UIMA GATE chúng sử dụng giải để đại diện cho tài liệu Điểm khác biệt lớn UIMA GATE UIMA định nghĩa giải tài liệu miêu tả XML, cịn GATE khơng cần định nghĩa giải trước sử dụng Ngoài ra, UIMA IBM phát triển, GATE phát triển nhóm phát triển mã nguồn mở Đại học Sheffield nên khơng hiệu ổn định UIMA Cả loại giải sử dụng vị trí ký tự bắt đầu vị trí kết thúc (begin, end) để xác định vị trí giải tài liệu Do muốn sử dụng GATE UIMA có phương pháp sử dụng giải tạo 29 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng công cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam GATE dùng ứng dụng UIMA để xử lý giải UIMA nhận giải sử dụng chúng máy phân tích 3.4 Ứng dụng cơng cụ phân tích tiếng Việt UIMA Trong mục này, chúng tơi trình bày việc tích hợp cơng cụ xử lý tiếng Việt tách từ tiếng Việt [2] nhận dạng thực thể tiếng Việt có tên [3] UIMA sau ghép chúng mày phân tích tổng hợp 3.4.1 Tách từ tiếng Việt UIMA Muốn thực tách từ tiếng Việt cần file: lớp thực thi giải, miêu tả XML, lớp định nghĩa đầu cho giải Chúng sử dụng cơng cụ tách từ tiếng Việt [2] tích hợp để chạy UIMA Trước hết chúng tơi xây dựng lớp thực thi giải Lớp có nhiệm vụ đọc kết lấy từ hàm tachtu() công cụ tách từ tiếng Việt tạo vector để lấy giá trị từ (Word) file kết đưa vào đặc trưng giải Token_VN Token_Splits Chúng tơi trích đoạn code lớp giải Tachtu tachtu = new Tachtu(); Vector v = tachtu.execute("C:/apache-uima/examples", docText); for (int i = 0; i < v.size(); i++){ Vector vector = (Vector) v.get(i); if (vector.get(0).toString().equalsIgnoreCase("Word")){ Token_VN token = new Token_VN(aJCas); token.setBegin(vector.get(1).hashCode()); token.setEnd(vector.get(2).hashCode()); token.setPosTag(vector.get(3).toString()); token.setComponentId("Vietname token"); } if (vector.get(0).toString().equalsIgnoreCase("Split")){ Token_Splits token = new Token_Splits(aJCas); token.setBegin(vector.get(1).hashCode()); token.setEnd(vector.get(2).hashCode()); 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam token.setPosTag(vector.get(3).toString()); token.setComponentId("Vietname split"); token.addToIndexes(); } Các đặc trưng giải Token_VN bao gồm begin, end thể vị trí ký tự xác định giải tài liệu, posTag nhãn từ loại ComponentId thể giải thuộc loại “VietNam token” Các đặc trưng Token_Splits bao gồm begin, end thể vị trí giải tài liệu, posTag componentId Sau chúng tơi xây dựng miêu tả cho máy phân tích Cấu trúc miêu tả máy phân tích chi tiết sau: org.apache.uima.java true Vietnamese.testToken Token, Splits Token lay tu lop tachtu() Types.Token_VN Types.Token_Splits 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng công cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Cấu trúc file XML bao gồm lớp giải lớp testToken gói Vietnamese Hệ thống kiểu mà máy phân tích làm việc với lưu file VNExampleTypes Nhận dạng từ văn dấu ngắt bước hệ thống không cần yêu cầu đầu vào, yêu cầu đầu kiểu định nghĩa lớp định nghĩa Token_VN Token_Splits Lớp định nghĩa giải Token_VN, Token_Splits cho thấy kế thừa từ lớp Annotation Lớp Annotation lớp có sẵn UIMA Nó định nghĩa giải (annotator) có đặc trưng begin end Chúng tơi trích phần lớp Token_VN Token_Splits public class Token_VN extends Annotation { public Token_VN(JCas jcas, int begin, int end) { super(jcas); setBegin(begin); setEnd(end);} } public class Token_Splits extends Annotation { public Token_Splits(JCas jcas, int begin, int end) { super(jcas); setBegin(begin); setEnd(end); readObject(); } } 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Chúng xây dựng thêm đặc trưng cho giải posTag componentId Kết chạy máy phân tích cho giải tách từ sau: Hình 3.6 - Kết chạy tách từ tiếng Việt Kết hình 3.6 cho thấy chương trình tách từ câu thành từ riêng biệt, từ cách dấu cách dấu ngắt Mỗi từ, dâu ngắt có đặc trưng begin, end, posTag componentId Nó nhận dạng xác từ tiếng Việt bao gồm từ ghép, từ viết tắt, tên địa phương số nhập nhằng xử lý tiếng Việt Trong trình tách từ tiếng Việt nhiệm vụ cần thiết việc gán nhãn cho loại từ vựng tìm tài liệu, giúp ích không nhỏ cho người dùng ứng dụng Thơng qua việc gán nhãn người dùng nhanh chóng tìm thơng tin có liên quan đến loại từ Do thực tách từ ứng dụng thêm phần gán nhãn cho loại từ vựng (hình 3.7) Các dấu ngắt sử dụng posTag dấu ngắt (hình 3.7) 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Hình 3.7 - Gán nhãn từ, dấu ngắt 3.4.2 Áp dụng nhận dạng thực thể có tên GATE vào UIMA Các giải sử dụng xử lý tiếng Việt hầu hết để nhận dạng thực thể Do chúng tơi sử dụng cơng cụ nhận dạng thực thể có tên [3] sử dụng GATE vào UIMA xây dựng máy phân tích tổng hợp để nhận tất giải đươc xây dựng tích hợp đề tài Chúng tơi sử dụng cơng cụ nhận dạng thực thể tiếng Việt có tên[3] tích hợp vào kiến trúc UIMA Các loại thực thể nhận dạng:  PersonVN: Thực thể người  OrganizationVN: Thực thể tổ chức, nhóm người thành lập theo cấu trúc phân cấp  FacilityVN: Thực thể thực thể người tạo thường thực thể xây dựng kiến trúc, sân vận động, bảo tàng, nhà ga …  LocationVN: Thực thể thực thể địa lý vùng lãnh thổ, địa danh, sông, suối …  NationalityVN: Thực thể quốc tịch người, thuộc quốc gia  ReligionVN: Thực thể tổ chức tôn giáo Để xây dựng cơng cụ phân tích thực thể UIMA Chúng xây dựng miêu tả XML máy phân tích, lớp giải thực thể lớp định nghĩa đẩu cho giải 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Chúng tơi trình bày việc xây dựng nhận dạng thực thể PersonVN, thực thể khác hồn tồn tương tự Đầu tiên chúng tơi xây dựng miêu tả XML máy phân tích nhận dạng thực thể bao gồm xác định lớp giải VN_NE nằm gói VietNamese, hệ thống kiểu sử dụng VNExamples lớp định nghĩa giải VN_NE gói Types Cấu trúc file XML miêu tả sau: org.apache.uima.java true Vietnamese.VN_NE NE_VN tên người Types.Token_VN Types.Splits_VN Types.Organization_VN Types.Location_VN Types.Religion_VN Types.Facility_VN Types.Nationality_VN Types.Person_VN 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng công cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Cấu trúc file XML có kiểu đầu vào từ, dấu ngắt thu máy tách từ tiếng Việt chạy kiểu đầu kiểu định nghĩa gói Types bao gồm Organization_VN, Location_VN, Religion_VN, Facility_VN, Nationality_VN Person_VN Lớp giải lấy từ kết công cụ nhận dạng thực thể có tên [3] hoạt động GATE lấy từ có nhãn “Person”, “Nationality”, “Location”, “Religion”, “Facility”, “Organization” đưa chúng thành giải định nghĩa gói Types Đặc trưng giải bao gồm begin, end xác định ký tự giải tài liệu componentId xác định loại giải Lớp định nghĩa giải tương tự lớp giải Token_VN, giải kế thừa từ lớp Annotator hệ thống đưa thêm đặc trưng componentId Kết thu qua Document Analyzer: Hình 3.8 - Kết phân tích nhận dạng thực thể 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Sau xây dựng toàn giải bao gồm tách từ, thực thể có tên, chúng tơi tiến hành xây dựng máy phân tích tổng hợp sử dụng tất giải để phân tích tài liệu 3.4.3 Kết hợp nhận dạng tách từ thực thể tiếng Việt có tên Việc kết hợp nhận dạng tất thực thể UIMA thơng qua việc sử dụng Aggregate AE trình bày mục trước Sử dụng Aggregate AE cần tạo file xml để xác định thành phần AE tương ứng sử dụng việc phân tích Trong mục cần xây dựng miêu tả cho máy phân tích tổng hợp Nó có nhiệm vụ xử lý giải đưa kết tài liệu Cấu trúc file XML sau: org.apache.uima.java false Aggregate AE 1.0 Namnd VNToken NEVN 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng cơng cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Types.Token_VN Types.Token_Splits Types.Person_VN Types.Location_VN Types.Nationality_VN Types.Organization_VN Types.Religion_VN Types.Facility_VN Bộ miêu tả xem máy phân tích tổng hợp sử dụng máy phân tích đơn rõ file XML miêu tả máy phân tích đơn lấy từ đâu, thứ tự xử lý máy phân tích thẻ định dạng giải đầu thẻ Kết Aggregate chạy thành phần AE bên đưa kết tập hợp kết Kết hình 3.9 thể tài liệu tách thành giải riêng biệt Tài liệu xử lý trước hết tách thành từ, dấu ngắt sau nhận dạng thực thể tên người, tên địa phương, tên quốc gia, tên tổ chức, tên tôn giáo tên công trình Mỗi token thường có hai giải nó: giải thân token giải kiểu thực thể mà nằm Chương trình xử lý số nhập nhằng ví dụ nhập nhằng việc nhận diện tên người, tên quốc gia, tên tổ chức Kết thu chạy Document Analysis: 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3: Xây dựng công cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam Hình 3.9 Kết phân tích cho máy phân tích tổng hợp Tổng kết Trong chương trình bày cách xây dựng cơng cụ phân tích tiếng Việt xây dựng từ thành phần bao gồm tách từ, nhận dạng thực thể có tên kết hợp tất chúng lại máy phân tích Bằng cơng cụ người sử dụng xử lý tài liệu tiếng Việt UIMA tích hợp thêm thành phần khác vào hệ thống 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 4: Tổng kết hướng phát triển Nguyễn Đức Nam Chương Tổng kết hướng phát triển Chúng tơi xây dựng hệ thống tích hợp cơng cụ xử lý tiếng Việt có sẵn lên UIMA Nó bao gồm cơng cụ xử lý tổng hợp từ công cụ tách từ tiếng Việt [1][2] cơng cụ nhận dạng thực thể tiếng Việt có tên [3] Việc tận dụng khả linh hoạt thành phần UIMA hỗ trợ tốt chúng mang lại lợi ích khơng nhỏ cho nhà phát triển phần mềm Các kết thu chạy ứng dụng tách từ nhận dạng thực thể tiếng Việt có tên hồn tồn tương ứng với kết chạy ứng dụng GATE hay hệ thống khác Hướng phát triển ứng dụng thêm thành phần tìm kiếm cho kết thu Các thành phần tìm kiếm thực nhiệm vụ tìm kiếm thực thể mang tên đó, liệt kê, đánh mục hay đưa vào sở liệu tương ứng Một hướng phát triển xây dựng ứng dụng việc tích hợp xử lý hình ảnh, audio video Các hướng phát triển có số nghiên cứu ngôn ngữ khác chưa phát triển ngôn ngữ tiếng Việt việc phát triển thêm ứng dụng hứa hẹn mang lại hệ thống hoàn thiện tương lai 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Nguyễn Đức Nam Tài liệu tham khảo [1] Dang Duc Pham , Giang Binh Tran , Son Bao Pham , A Hybrid Approach to Vietnamese Word Segmentation Using Part of Speech Tags, International Conference on Knowledge and Systems Engineering, 2009 [2] D Pham, Phương pháp phân đoạn từ tiếng Việt sử dụng gán nhãn từ loại, Khóa luận tốt nghiệp, Coltech, VNU, 2009 [3] B Đạt Nguyễn, Nhận dạng thực thể tiếng Việt có tên, Khóa luận tốt nghiệp, Coltech, VNU, 2009 [4] Dat Ba Nguyen, Son Huu Hoang, Son Bao Pham, and Thai Phuong Nguyen, Named Entity Recognition for Vietnamese, The 2nd Asian Conference on Intelligent Information and Database Systems, 2010 [5] T Nguyễn, T Oanh, P Hieu, H Thuy, Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Ramdom Fields, The 8th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Viet Nam 2005 [6] D Appelt, An Introduction to information extraction, Artificial Intelligence Communications, 12, 1999 [7] Graham Wilcock, GATE and UIMA in Language Technology Teaching (2007) [8] H Cunningham, Information extraction: a User Guide (revised version), Research Menorandum CS-99-07, Department of Computer Science, University of Sheffied, May, 1999 [9] [Wei-Bang 2007] Wei-Bang Chen, Chengcui Zhang, Wen-Lin, and Richa Tiwari; MIA: A UIMA-Based Microarray Image Analysis System(2007) [10] Unstructured Information Management Architecture: http://www.oasisopen.org/committees/download.php/28492/uima-spec-wd-05.pdf A : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download Tài liệu tham khảo [11] Nguyễn Đức Nam Documentation UIMA: http://uima.apache.org/downloads/releaseDocs/2.2.2incubating/docs/html/index.html [12] Apache UIMA and Metadata Generation: http://www.slideshare.net/teofili/apache-uima-and-metadata-generation [13] UIMA and Semantic Search: http://domino.research.ibm.com/comm/research_projects.nsf/pages/uima.seman ticSearch.html [14] GATE tài liệu tham khảo http://gate.ac.uk/sale/tao/split.html A : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download ... cơng cụ có sẵn cho UIMA Eclipse, công cụ xử lý văn UIMA (Document Analyzer) tích hợp cơng cụ xử lý tiếng Việt có sẵn tách từ [1][2], nhận dạng thực thể tiếng Việt có tên [3] thành cơng cụ xử lý tiếng. .. dựng công cụ phân tích tiếng Việt UIMA Nguyễn Đức Nam 3.3.1 Giới thiệu tách từ tiếng Việt Các ứng dụng xử lý tiếng Việt mang đặc thù riêng biệt so với ứng dụng xử lý thứ tiếng khác Muốn xử lý văn... hướng phát triển Chúng tơi xây dựng hệ thống tích hợp cơng cụ xử lý tiếng Việt có sẵn lên UIMA Nó bao gồm cơng cụ xử lý tổng hợp từ công cụ tách từ tiếng Việt [1][2] cơng cụ nhận dạng thực thể tiếng

Định dạng
Số trang	50
Dung lượng	1,85 MB