ISSN 1859 1531 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84) 2014, QUYỂN 1 125 BỔ SUNG DỮ LIỆU VÀO TỪ ĐIỂN UNL – TIẾNG VIỆT TRONG BỘ CÔNG CỤ UNL EXPLORER EXPANSION OF UNL – VIETNAMESE DICTI[.]
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN 125 BỔ SUNG DỮ LIỆU VÀO TỪ ĐIỂN UNL – TIẾNG VIỆT TRONG BỘ CÔNG CỤ UNL EXPLORER EXPANSION OF UNL – VIETNAMESE DICTIONARY ON UNL EXPLORER Phan Thị Lệ Thuyền, Võ Trung Hùng Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: thuyenptl@gmail.com, vthung@dut.udn.vn Tóm tắt - Một dự án nghiên cứu thu hút nhiều nhà khoa học, tổ chức cá nhân phát triển hệ thống UNL Một khâu quan trọng phát triển hệ thống UNL xây dựng từ điển ngôn ngữ tích hợp vào hệ thống Trong báo này, đề xuất giải pháp mở rộng từ điển UNL – Tiếng Việt thông qua việc sử dụng công cụ UNL Explorer công cụ tự phát triển Phương pháp chúng tơi sử dụng trích tự động mục từ từ điển Anh - Việt để đối chiếu với mục từ có sẵn UNL – Tiếng Anh, mục từ chưa tồn chúng tơi bổ sung mục từ tiếng Việt tương ứng vào từ điển UNL - Tiếng Việt Đối với mục từ cịn thiếu nhập thủ công công cụ UNL Explorer Kết đạt bổ sung thêm 30.000 từ vào từ điển UNL – Tiếng Việt nhập thêm 550 từ thủ công Abstract - A research project that has attracted scientists, organizations and individuals around the world is the development of UNL system One important step in the system development is building dictionaries for all languages and integrating them into the UNL system In this paper, we propose a solution to expand the UNL - Vietnamese dictionary by using UNL Explorer and other builder tools Our method is to extract automatically entries from English - Vietnamese dictionary and compare them with the available items in UNL- English If the item does not exist, we will add it into UNL – Vietnamese dictionary For those missing entries, we entered manually by UNL Explorer tool As the result, we added 30,000 new words into the dictionary UNL - Vietnamese and 550 new words were entered manually Từ khóa - dịch máy, hệ thống UNL, ngơn ngữ UNL, từ điển, từ điển UNL – Tiếng Việt Key words - machine translation, UNL system, Universal Networking language (UNL), dictionary, UNL – Vietnamese dictionary Giới thiệu Internet trở nên phổ biến kênh cung cấp thông tin lớn Đối tượng người dùng Internet phong phú sử dụng nhiều ngôn ngữ khác Theo thống kê W3Techs vào tháng 12/2013, nội dung web theo ngôn ngữ 10 ngôn ngữ phổ biến là: Ngồi ra, người dùng nội dung có Internet sử dụng hàng trăm ngôn ngữ khác Vậy vấn đề đặt làm để người sử dụng trao đổi với khai thác nội dung viết ngôn ngữ mà họ không biết? Để phá vỡ rào cản ngôn ngữ, giải pháp thường sử dụng đa ngữ hóa hệ thống (nhằm cho phép người dùng lựa chọn ngôn ngữ sử dụng phần mềm/website) hỗ trợ người dùng thông qua phần mềm dịch tự động Một hệ thống hỗ trợ đa ngữ hóa dịch tự động quan tâm nghiên cứu UNL (Universal Networking Language) Mục đích hệ thống UNL cung cấp cho người sử dụng Internet truy cập vào trang web ngôn ngữ mà họ lựa chọn Hiện nay, nhiều ngôn ngữ (45 ngôn ngữ vào cuối năm 2013) tích hợp vào tảng UNL như: Tiếng Anh, tiếng Pháp, tiếng Nga, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha,… Nhằm mục đích nghiên cứu tiếng Việt tích hợp tiếng Việt vào hệ thống UNL, triển khai số nghiên cứu đạt số kết ban đầu [1] Trong báo này, tập trung giới thiệu việc mở rộng kho liệu từ điển UNL – Tiếng Việt Chúng sử dụng từ điển sẵn có từ điển UNL – Tiếng Anh (2.080.318 từ), UNL – Tiếng Việt (651.984 từ) công cụ UNL Explorer từ điển Anh – Việt Hồ Ngọc Đức để mở rộng liệu từ điển UNL – Tiếng Việt [4] Phương pháp sử dụng trích tự động mục từ từ điển Anh - Việt để đối chiếu với mục từ có sẵn UNL – Tiếng Anh, mục từ chưa tồn chúng tơi bổ sung mục từ tiếng Việt tương ứng vào từ điển UNL - Tiếng Việt Đối với mục từ sót Bảng Thống kê nội dung web dựa ngôn ngữ STT 10 Ngôn ngữ Tiếng Anh Tiếng Nga Tiếng Đức Tiếng Nhật Tiếng Tây Ban Nha Tiếng Pháp Tiếng Trung Tiếng Bồ Đào Nha Tiếng Ý Tiếng Ba Lan Tỉ lệ 55.7% 6.0% 6.0% 5.0% 4.6% 4.0% 3.3% 2.3% 1.8% 1.7% Trong đó, thống kê số lượng người dùng Internet sau: Bảng Số lượng người dùng theo ngôn ngữ STT 10 Ngôn ngữ Tiếng Anh Tiếng Trung Tiếng Tây Ban Nha Tiếng Nhật Tiếng Bồ Đào Nha Tiếng Đức Tiếng A-rập Tiếng Pháp Tiếng Nga Tiếng Hàn Tỉ lệ 27% 25% 8% 5% 4% 4% 3% 3% 3% 2% Phan Thị Lệ Thuyền, Võ Trung Hùng 126 (có từ điển UNL - Tiếng Anh mà khơng có UNL – Tiếng Việt) nhập thủ công công cụ UNL Explorer Kết đạt bổ sung thêm 30.000 từ vào từ điển UNL – Tiếng Việt dựa từ điển Anh – Việt nhập thêm 500 từ thủ công Bài báo tổ chức thành phần sau: giới thiệu hệ thống UNL, cấu trúc từ điển UNL, công cụ UNL Explorer, giải pháp thực việc mở rộng liệu từ điển UNL – Tiếng Việt UNL hệ thống UNL UNL ngôn ngữ giả có khả mơ giới ngơn ngữ tự nhiên Kết cho phép người sử dụng biểu diễn tất tri thức từ ngôn ngữ dạng mạng ngữ nghĩa với cấu trúc đa đồ thị Khác với ngôn ngữ tự nhiên, biểu diễn UNL không nhập nhằng Trong mạng đa ngữ nghĩa UNL, nút biểu diễn khái niệm cạnh biểu diễn mối quan hệ khái niệm [6] UNL bao gồm thành phần để biểu diễn ngôn ngữ tự nhiên: UW (Universal Word, kho từ vựng), Relation (Quan hệ), Attributes (Thuộc tính) UNL Knowledge Base (UNLKB, Cơ sở tri thức) UNL liên kết từ vựng dựa mô tả quan hệ thuộc tính để tạo thành câu Những liên kết gọi “relation”, định vai trị từ câu ngụ ý người nói diễn tả thông qua “attribute” UNLKB định nghĩa quan hệ có khái niệm, bao gồm quan hệ phân cấp kỹ thuật tham chiếu khái niệm Vì thế, UNLKB cung cấp tảng ngữ nghĩa UNL để chắn nghĩa biểu thức UNL không nhập nhằng Để phát triển hệ thống chuyển đổi từ tiếng Việt → UNL ngược lại cần hai cơng cụ mã hóa (EnConverter) [2] giải mã (DeConverter) [3] Công cụ mã hóa thực phân tích cú pháp ngơn ngữ độc lập hình thái, cú pháp ngữ nghĩa Công cụ giải mã thực độc lập để chuyển đổi biểu thức UNL sang câu ngôn ngữ tự nhiên, bao gồm cấu trúc hình thái, cú pháp lựa chọn từ nghiên cứu từ Nga, Pháp, Tây Ban Nha, Ấn Độ số quốc gia khác [7] Các đơn vị từ điển gọi “khái niệm UNL” (UNL concept), tương ứng với nghĩa từ mô tả từ điển xây dựng theo cách truyền thống Định nghĩa khái niệm UNL phù hợp với từ điển truyền thống Điều cho phép tái sử dụng nhiều liệu ngôn ngữ tự nhiên thu thập từ từ điển bách khoa toàn thư Các mục từ từ điển UNL tổ chức theo cấu trúc định Cấu trúc chung sau: [HW]{} “UW” (ATTR1, ATTR2, …) ; Trong đó: - HW (Headword): từ đầu mục từ ngôn ngữ - ID (Identification): định danh (có thể trống) - UW (Universal Word): từ vựng - ATTR (Attribute): thuộc tính ngữ pháp - FLG (Flag): cờ ngôn ngữ, ký tự bảng mã ASCII - FRE (Frequence): tần số sử dụng mã hóa - PRI (Priority): ưu tiên sử dụng giải mã Ví dụ, mục từ từ điển UNL – Tiếng Việt mã hóa sau: [làm_phát_cáu]{V} "irritate(agt>human,equ>disturb)" Cơng cụ unl explorer UNL Explorer ứng dụng web dựa thông tin đa ngôn ngữ hệ thống quản lý tri thức Nó cung cấp cho người dùng mơi trường tích hợp mà người dùng tìm kiếm chỉnh sửa tri thức thông tin dựa UNL mà không bị rào cản ngơn ngữ Nó quản lý tìm tri thức thông tin dựa hệ thống từ vựng UNL Ontology Hình Cấu trúc UNL Explorer Hình Hệ thống UNL Cấu trúc từ điển unl Từ điển UNL hay gọi từ điển tổng hợp khái niệm UNL (Dictionary of UNL Concepts) phần dự án quốc tế nhằm phát triển hệ thống UNL Sự phát triển nguồn tài nguyên hỗ trợ thành viên "U++ Consortium", bao gồm nhà UNL Explorer hỗ trợ chức phục vụ cho người sử dụng thực việc nghiên cứu, phát triển tài ngun ngơn ngữ dựa UNL sau: tìm kiếm đa ngữ (Multilingual Context Search); dịch tự động (Translate); từ điển đa ngữ (Multilingual Dictionary); bổ sung thể UNL (UNL Ontology); hỗ trợ giao tiếp (UNL Talk) Từ điển đa ngữ UNL bao gồm từ điển 47 ngơn ngữ Người dùng sử dụng tra cứu cho bất ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN kỳ cặp ngơn ngữ có từ điển (ngôn ngữ tự nhiên – UNL, UNL – ngôn ngữ tự nhiên, ngôn ngữ tự nhiên – ngôn ngữ tự nhiên) [7][8] Đối với chức hỗ trợ từ điển đa ngữ, ta có: Word Mean: Người dùng xem ngữ nghĩa từ thể qua 47 ngôn ngữ khác Semantic Co-occurrence: Cho phép xử lý trường hợp có xuất đồng thời từ nghĩa Search: Cho phép người dùng tìm kiếm mục từ cách nhập vào mục từ muốn tìm UNL Explorer thực tìm kiếm từ vựng UNL từ ngôn ngữ chọn hiển thị kết mục từ biểu diễn thơng qua biểu thức UNL Người dùng chọn sửa đổi thông tin cho mục từ muốn Create New Entry: Cho phép người sử dụng phát triển thêm mục từ bổ sung vào sở liệu UNL Explorer Đây chức mà UNL Explorer cung cấp để người sử dụng phát triển sở liệu UNL dành cho ngôn ngữ hỗ trợ Delete Entry: Cho phép xóa mục từ chọn * danh từ Show properties: Cho phép người sử dụng xem định nghĩa liên quan đến mục từ chọn Người sử dụng trực tiếp sửa đổi thơng tin liên quan đến mục từ cửa sổ hiển thị để làm tăng độ xác hoàn chỉnh cho sở liệu UNL Explorer Operation: cho phép tải danh sách UW từ điển ngôn ngữ chọn danh sách UW bao gồm ngôn ngữ tự nhiên tương ứng với UW Người sử dụng tải từ điển để thực nghiên cứu cấu trúc ngữ pháp ngôn ngữ UNL phục vụ số mục đích phát triển khác cách miễn phí @abandon /ə'bỉndən/ Xây dựng từ điển unl – tiếng việt 5.1 Từ điển Anh – Việt Hiện nay, www.dict.org xây dựng định dạng từ điển dễ sử dụng, định dạng số tổ chức, cá nhân chọn sử dụng để xây dựng từ điển lớn Định dạng từ điển Dict mơ tả sau: tồn sở liệu dược chứa tập tin dạng văn (TXT), tập tin chứa nghĩa từ tập tin mục Tập tin mục bao gồm tên từ, vị trí nghĩa từ bắt đầu tập tin chứa nghĩa độ dài nghĩa Tập tin mục xếp để giảm bớt thời gian tìm kiếm Cấu trúc tổng quát tập tin chứa nghĩa sau: @ headword *tu loai (noun, verb ) -dinhnghia1= cauviduchodinhnghia1+nghiacuacaudo -dinhnghia2= cauviduchodinhnghia2+nghiacuacaudo * tu loai - dinhnghia3 Ví dụ: từ “inside” từ điển Anh – Việt theo chuẩn Dict @inside /'in'said/ 127 - mặt trong, phía trong, phần trong, bên - phần + the inside of a week: phần tuần - (thơng tục) lịng, ruột - lộn ngồi (to turn inside out) * tính từ phó từ - trong, từ trong, nội + inside information: tin tức nội + an inside job: công việc làm + inside of a week: vịng tuần * giới từ - phía trong; vào - phần trong, mặt trong, tính chất Cấu trúc mục từ từ điển Anh – Việt tác giả Hồ Ngọc Đức tuân theo chuẩn Dict Đây từ điển điện tử phát hành giấy phép GNU (GPL) đặt http://www.informatik.uni-leipzig.de/~duc/Dict/ Ví dụ cấu trúc mục từ “abalone” sau: @abalone /,æbə'louni/ * danh từ - (từ Mỹ,nghĩa Mỹ) bào ngư * ngoại động từ - bộm (nhiếp ảnh) (nhiếp ảnh) (từ Mỹ,nghĩa Mỹ) từ bỏ; bỏ rơi, ruồng bỏ + to abandon a hope: từ bỏ hy vọng + to abandon one's wife and children: ruồng bỏ vợ + to abandon oneself to: đắm đuối, chìm đắm vào (nỗi thất vọng ) * danh từ - phóng túng, tự do, bng thả + with abandon: phóng túng @abandoner /ə'bændənə/ * danh từ - (pháp lý) người rút đơn Chúng sử dụng trường headword nằm sau ký tự @ để so sánh với headword mục từ tiếng Anh từ điển UNL – Anh từ UNL Explorer 5.2 Giải pháp xây dựng từ điển UNL – Tiếng Việt UNL Explorer UNL Explorer hỗ trợ sẵn UNL dành cho tiếng Việt với 651.984 từ, UNL dành cho tiếng Anh 2.080.318 từ Số lượng từ vựng tiếng Việt có so với số lượng từ vựng tiếng Anh mà UNL Explorer xây dựng nhỏ Chính vậy, chúng tơi sử dụng cấu trúc mục từ UNL – Tiếng Anh mô tả sang UNL để phát triển mở rộng thêm mục từ dành cho UNL – Tiếng Việt Qua nghiên cứu cấu trúc từ điển UNL – Tiếng Anh từ điển Anh - Việt theo chuẩn Dict tác giả Hồ Ngọc Đức chúng tơi nhận thấy rằng, để xây dựng từ điển UNL – Tiếng Việt cần thực bước sau: Bước 1: Sử dụng từ điển Anh - Việt tác giả Hồ Ngọc Đức để tiến hành tổng hợp chọn lọc từ vựng Bước 2: Tải danh sách mục từ UNL – Tiếng Việt phát triển UNL Explorer Sau đó, chúng tơi tiến Phan Thị Lệ Thuyền, Võ Trung Hùng 128 hành so sánh từ vựng từ điển Hồ Ngọc Đức từ vựng xây dựng UNL Explorer, nhằm lựa chọn mục từ không bị trùng lặp Bước 3: Chúng tiến hành lưu từ vựng không trùng lặp để bổ sung khoảng 30.000 mục từ Bước 4: Sử dụng công cụ UNL Explorer, tiến hành so khớp Headword từ điển Hồ Ngọc Đức với Headword từ điển UNL – Tiếng Anh để trích lọc Bước 5: Bổ sung vào từ điển UNL – Tiếng Việt cơng cụ UNL Explorer 5.3 Mơ hình hệ thống Qui trình triển khai sau: Lấy Headword Từ điển Anh-Việt Từ điển UNL-tiếng Anh Lấy headword Không giống So sánh headword Giống Lấy thuộc tính từ loại UW A-V => thay UW UNL – tiếng Anh nghĩa tiếng Việt Từ điển UNL-tiếng Việt Danh sách mục từ bổ sung Lấy headword So sánh headword Giống Bổ sung vào UNL – tiếng Việt Người dùng Chuyên gia ngơn ngữ Từ điển UNL –tiếng Việt Hình Mơ hình hệ thống Để tạo mục từ sử dụng cấu trúc UNL Chúng thực nghiên cứu dựa thành phần UNL: từ vựng (Universal Words), quan hệ (Relation), thuộc tính (Attribute) 5.4 Thử nghiệm Dữ liệu đầu vào: - Tập tin chứa danh sách từ mục trích từ từ điển Hồ Ngọc Đức - Tập tin chứa mục từ từ điển UNL – Tiếng Anh UNL Explorer Dữ liệu đầu ra: Tạo mục từ UNL – Tiếng Việt Giao diện mục từ UNL Explorer: Vùng 1: tên mục từ Tiếng Anh Vùng 2: Định nghĩa UNL cho mục từ Vùng 3: Định nghĩa mục từ ngôn ngữ 5.5 Đánh giá Qua q trình triển khai, chúng tơi thực bổ sung ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN thêm 30.000 mục từ (dựa từ điển sẵn có) nhập 550 từ (dựa từ điển giấy) Mục từ UNL – Tiếng Việt lưu cấu trúc sau: 129 Việt từ UNL Explorer để tham gia phát triển hoàn chỉnh nguồn liệu từ điển UNL – Tiếng Việt Nhằm tạo từ điển UNL – Tiếng Việt trở nên hoàn chỉnh lớn Kết luận Trong bào này, chúng tơi trình bày q trình bán tự động để tạo từ điển UNL – Tiếng Việt thông qua việc sử dụng nguồn tài ngun có sẵn cơng cụ UNL Explorer từ điển Anh – Việt Mặc dù q trình khơng hồn tồn tự động, bổ sung thêm nhiều số lượng mục từ vào điển UNL–Tiếng Việt TÀI LIỆU THAM KHẢO Hình Cấu trúc từ điển UNL – Tiếng Việt Đây kết khả quan để tiếp tục việc nghiên cứu xây dựng từ điển UNL – Tiếng Việt trở nên phong phú xác Chúng xin đưa số hướng phát triển để xây dựng từ điển dựa nguồn liệu lớn công cụ UNL Explorer tiếng Việt sau: Thứ nhất: Cần nghiên cứu cấu trúc từ điển UNL – Tiếng Anh, Anh – Việt cấu trúc chung UNL Từ sử dụng thành phần nhằm định nghĩa mục từ làm tăng số lượng từ vựng công cụ UNL Explorer Thứ hai: Sử dụng số từ điển dành cho tiếng Việt nhằm khai thác liệu từ vựng tất lĩnh vực Để định nghĩa số mục từ thuộc từ loại khác như: danh từ, giới từ, phó từ, tính từ,… Thứ ba: Thường xuyên cập nhật từ điển UNL – Tiếng [1] N H Siêu, L T Giang, and V T Hùng (2010), Nghiên cứu xây dựng từ điển cho hệ thống dịch tự động UNL – Tiếng Việt, Tạp chí khoa học cơng nghệ, Đại học Đà Nẵng – số 4(39) [2] UNL centre (2002), Enconverter Specifications, Version 3.3, http://www.undl.org/ [3] UNL centre (2002), Deconverter Specifications, Version 2.7, http://www.undl.org/ [4] W3Techs, "Usage of content languages for websites", 2011, http://www.informatik.uni-leipzig.de/~duc/Dict/W3Techs [5] Baldwin T., Pool J., Colowick S PanLex and LEXTRACT: Translating all Words of all Languages of the World, 2010 [6] Boguslavsky I., Cardeñosa J., Gallardo C., Iraola L The UNL Initiative: An Overview, Computational Linguistics and Intelligent Text Processing, 2005 [7] Boguslavsky I., Dikonov V Universal Dictionary of Concepts, Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference, “Dialog 2009” [8] Dikonov V G Modal Attributes in UNL, Proceedings of the 32-nd Conference “Information technologies and systems (ITiS’09)”], Bekasovo, 2009 pp 230–237 ISBN 978-5-901158-11-1 (BBT nhận bài: 28/07/2014, phản biện xong: 21/10/2014) ... 126 (có từ điển UNL - Tiếng Anh mà khơng có UNL – Tiếng Việt) chúng tơi nhập thủ cơng công cụ UNL Explorer Kết đạt bổ sung thêm 30.000 từ vào từ điển UNL – Tiếng Việt dựa từ điển Anh – Việt nhập... mục từ tiếng Anh từ điển UNL – Anh từ UNL Explorer 5.2 Giải pháp xây dựng từ điển UNL – Tiếng Việt UNL Explorer UNL Explorer hỗ trợ sẵn UNL dành cho tiếng Việt với 651.984 từ, UNL dành cho tiếng. .. 550 từ (dựa từ điển giấy) Mục từ UNL – Tiếng Việt lưu cấu trúc sau: 129 Việt từ UNL Explorer để tham gia phát triển hoàn chỉnh nguồn liệu từ điển UNL – Tiếng Việt Nhằm tạo từ điển UNL – Tiếng Việt