Trong báo cáo này, trình bày việc nghiên cứu và xây dựng Từ điển tiếng Việt dùng cho máy tính (Vietnamese Computational Lexicon – VCL), với mục tiêu đặt ra trước mắt là cung cấp ngữ liệu phục vụ phân tích cú pháp tiếng Việt. Chúng tôi sẽ giới thiệu mô hình ngữ liệu cho VCL, quy trình xây dựng VCL và những vấn đề cần phải tiếp tục nghiên cứu, giải quyết trong tương lai.
NGHIÊN CỨU VÀ XÂY DỰNG TỪ ĐIỂN TIẾNG VIỆT CHO MÁY TÍNH (Building a Vietnamese Computational Lexicon) Vũ Xuân Lương Trung tâm từ điển học Vietlex Nguyễn Thị Minh Huyền Trường Đại học Khoa học Tự nhiên Hà Nội Tóm tắt Trong xử lí ngơn ngữ tự nhiên (Natural Language Processing), từ điển cho máy tính (Machine Readable Dictionary - MRD) dạng tài nguyên thiết yếu cho tốn phân tích ngơn ngữ từ đơn giản đến phức tạp Một kho từ vựng chất lượng tốt phải cung cấp cho hệ thống xử lí ngơn ngữ tự nhiên thông tin ngôn ngữ nhiều tầng bậc khác hình thái, ngữ pháp, ngữ nghĩa, tốt phục vụ hệ thống xử lí đơn ngữ đa ngữ Trong báo cáo này, chúng tơi trình bày việc nghiên cứu xây dựng Từ điển tiếng Việt dùng cho máy tính (Vietnamese Computational Lexicon – VCL), với mục tiêu đặt trước mắt cung cấp ngữ liệu phục vụ phân tích cú pháp tiếng Việt Chúng tơi giới thiệu mơ hình ngữ liệu cho VCL, quy trình xây dựng VCL vấn đề cần phải tiếp tục nghiên cứu, giải tương lai GIỚI THIỆU Trên giới, việc xây dựng loại từ điển dạng MRD áp dụng ứng dụng xử lí ngơn ngữ tự nhiên phổ biến Đã có nhiều MRD xây dựng, cho ứng dụng xử lí đơn ngữ đa ngữ, với quan niệm xuất phát điểm riêng (Nguyen, 2006) Với kho từ vựng đơn ngữ, kể đến nhiều dạng từ điển cung cấp thông tin tầng bậc khác Chẳng hạn, dự án BDLEX, CELEX, MULTEXT xây dựng kho từ vựng chứa thơng tin mức ngữ âm, hình thái - cú pháp học cho nhiều thứ tiếng Ấn – Âu Ở tầng bậc cú pháp, nhiều mơ hình từ điển cung cấp thông tin ngôn ngữ phong phú, khả kết hợp cú pháp ràng buộc ngữ nghĩa hay chức cấu trúc ngữ pháp GENELEX, EAGLES cho ngôn ngữ Ấn – Âu, CKIP cho tiếng Trung Thiên ngữ nghĩa, kho từ vựng dạng WordNet tạo tập hợp từ vựng đồ sộ, theo từ xếp dãy tập hợp đồng nghĩa, giúp cho việc xác định nghĩa từ để phân biệt nghĩa xét với nghĩa khác Nguyên lí tổ chức chung Wordnet mạng lưới quan hệ ngữ nghĩa Đó quan hệ đồng nghĩa (synonymy): dog – domestic dog; quan hệ trái nghĩa (antonymy): rich – poor; quan hệ (hyponymy): maple – tree; quan hệ chỉnh thể – phận (meronymy): body – limb; quan hệ kéo theo (entailment): snore – sleep (cho động từ); v.v Dạng kho từ vựng hữu ích cho việc gán nhãn ngữ nghĩa việc truy cập vào ngữ nghĩa văn Những năm gần đây, cần phải kể đến phát triển dự án xây dựng kho từ vựng dạng FrameNet, dựa ngữ nghĩa học kho văn Mục đích đưa chứng khả kết hợp ngữ nghĩa cú pháp từ nét nghĩa chúng, với giải thích có trợ giúp máy tính câu ví dụ trình bày tự động bảng kết FrameNet cho tiếng Anh bao gồm 8900 mục từ, 6100 mục từ giải đầy đủ, 625 khung từ vựng minh hoạ 135.000 câu ví dụ Về kho từ vựng đa ngữ, trước tiên phải nhắc đến dự án đồ sộ EDR cho cặp tiếng Anh Nhật EDR thiết kế dựa 11 từ điển con, bao gồm: từ điển khái niệm, từ điển đơn ngữ, từ điển song ngữ, v.v Mỗi từ điển đơn ngữ Anh/Nhật bao gồm mục từ với thông tin ngữ pháp dạng danh sách thuộc tính có liên kết tới khái niệm từ điển khái niệm Kho từ vựng sau đánh giá thiết kế chưa kĩ lưỡng nên hiệu khai thác chưa cao Ra đời sau dự án EDR nhiều dự án từ điển đa ngữ có quy mơ tương đối lớn khác ISLE / MILE nhóm EAGLES, dự án Wordnet đa ngữ, dự án Papillon, v.v Với phát triển đa dạng dự án xây dựng từ điển cho xử lí ngơn ngữ vốn đòi hỏi nhiều cơng sức, nỗ lực phát triển chuẩn mơ hình từ điển để nâng cao khả trao đổi dùng lại từ điển hội tụ vào dự án LMF (ISO, 2008) khởi động từ năm 2002 Dự án đưa siêu mơ hình từ vựng, mục từ mơ tả nhiều tầng bậc khác nhau, với khối thông tin đơn ngữ (ngữ âm, hình thái, cú pháp, ngữ nghĩa) đa ngữ Theo mơ hình này, việc xây dựng kho từ vựng làm dần dần, tập trung theo khối thông tin Đối với việc xây dựng từ vựng tiếng Việt cho máy tính, ngồi cơng trình từ điển xây dựng cho số hệ thống dịch máy không phổ biến chia sẻ rộng rãi, nhóm nghiên cứu xử lí tiếng Việt có sẵn kho từ vựng với thông tin từ loại tiểu từ loại kèm (ví dụ cơng trình Nguyen et al, 2007), thơng tin có khả phục vụ cho phân tích ngơn ngữ mức sâu (cú pháp, ngữ nghĩa, …) khơng có Do khn khổ đề tài KC.01.01/06-10, đặt mục tiêu xây dựng kho từ vựng nhằm phục vụ cho cộng đồng nghiên cứu xử lí tiếng Việt, bước đầu cung cấp thơng tin ngơn ngữ cho xử lí cú pháp tiếng Việt Mơ hình ngữ liệu kho từ vựng xây dựng theo chuẩn LMF, nhằm đảm bảo khả phát triển tiếp ngữ liệu giai đoạn sau Trong phần báo này, trình bày nội dung, cấu trúc kho ngữ liệu VCL vấn đề cần phải tiếp tục nghiên cứu, giải Chúng hi vọng rằng, VCL trở thành nguồn tri thức từ vựng tiếng Việt, áp dụng ứng dụng xử lí ngơn ngữ tự nhiên có liên quan đến tiếng Việt cách rộng rãi LỰA CHỌN ĐƠN VỊ TỪ VỰNG Với mục đích xây dựng từ điển điện tử tiếng Việt, vấn đề đặc điểm tiếng Việt quan tâm hàng đầu Tuy nhiên, bước đầu quan tâm đến vấn đề mà nhu cầu thực tế xử lí tiếng Việt đòi hỏi, vấn đề khác không đề cập báo Chúng xác định từ ngữ thu thập VCL bao gồm: Từ sở (từ gốc): bao gồm từ đơn – đối lập với từ ghép – có hình thức tả Việt: cha, mẹ, nhà, bàn, đi, học, hát, xanh, đỏ, v.v Các yếu tố Hán-Việt không hoạt động độc lập (khơng tự thân từ), có khả cấu tạo từ lớn thuộc lớp từ Ví dụ: bất (bất bình đẳng, bất bình thường, bất di bất dịch, ); vô (vô thưởng vô mức sâu chúng tơi chưa có điều kiện đề cập tới 3.2 Thông tin cú pháp (Syntactics) Thông tin loại từ (category) Các từ thường có chung đặc điểm ngữ pháp ý nghĩa khái quát, danh từ, động từ, tính từ, v.v Mỗi loại từ phản ánh khả kết hợp chức cú pháp khác Chẳng hạn tạo câu, vị ngữ danh từ phải dùng là, ngược lại vị ngữ tính từ khơng cần (Nguyễn Kim Thản, 1997): sách; sách hay Việc phân định loại từ nhằm mục đích tạo câu cho đúng, việc mô tả chúng có ý nghĩa Trong VCL đề cập đến 14 loại sau: idPOS vnPOS danh từ động từ tính từ số từ enPOS noun verb adjective numeral symbolPOS N V A M 10 11 12 13 14 định từ đại từ phụ từ giới từ liên từ trợ từ cảm từ yếu tố cấu tạo từ từ tắt không xác định determiner pronoun adverb preposition conjunction auxiliary word emotivity word component stem abbreviation undetermined D P R O C I E S Y U Thông tin tiểu loại từ (subcategory) Phân định loại từ phải đạt yêu cầu khoa học mà phải mang tính thực dụng (Nguyễn Kim Thản, 1997) Trong loại từ vậy, lại có nhu cầu phân thành tiểu loại nhỏ Trong VCL đề cập đến 28 loại sau: idPOS 1 1 1 2 3 3 4 6 6 idSubPOS 10 11 12 13 14 15 16 17 18 19 20 21 22 23 vnPOS danh từ riêng danh từ đơn thể danh từ tổng thể danh từ loại danh từ trừu tượng danh từ đơn vị động từ nội động động từ ngoại động động từ trạng thái tính từ tính chất tính từ quan hệ tính từ tượng tính từ tượng hình số từ số lượng số từ thứ tự định từ đại từ xưng hô đại từ định đại từ số lượng đại từ nghi vấn phụ từ giới từ liên từ enPOS proper noun countable noun collective Noun classifier noun abstract noun unit noun intransitifve verb transitive verb state verb property adjective relative adjective onomatopoetic adjective pictographic adjective cardinal numeral ordinal numeral determiner personal pronoun demonstrative pronoun quality pronoun interrogative pronoun adverb preposition conjunction symbolPOS Np Nc Ng Ns Na Nu Vi Vt Vs Ap Ar Ao Ai Mc Mo D Pp Pd Pq Pi R O C 10 11 12 13 14 24 25 26 27 28 trợ từ cảm từ yếu tố cấu tạo từ từ tắt không xác định auxiliary word emotivity word component stem abbreviation undetermined I E S Y U Phân loại từ cơng việc khó khăn phức tạp Chúng tơi ln mong muốn đưa danh sách từ loại cho tổng hợp lại khơng bỏ sót trường hợp Nhưng ngôn ngữ tượng xã hội đặc biệt, nên khó đòi hỏi việc phân loại từ đạt đầy đủ yêu cầu theo mong muốn Thơng tin mẫu động từ (verb pattern) Trong tiếng Việt, có hai nhóm thực từ có số lượng lớn đối lập cách rõ rệt ý nghĩa, hình thức thể hiện, thể từ (biểu thị thực thể) vị từ (từ làm vị ngữ) Trong vị từ động từ đóng vai trò quan trọng Trong ngôn ngữ Ấn-Âu, đặc biệt tiếng Anh tiếng Pháp, vị ngữ động từ chia thời thể định (Nguyễn Minh Thuyết & Nguyễn Văn Hiệp, 2004) Trong tiếng Việt, động từ làm vị ngữ Về vai trò vị ngữ câu, bước đầu quan tâm tới loại động từ, chưa có điều kiện quan tâm tới loại tính từ Trong VCL, đưa mẫu động từ sau: Values Sub+V Comment động từ khơng đòi hỏi bổ ngữ: Chim bay Bé ngủ Sub+V+Obj động từ đòi hỏi bổ ngữ: Tơi đọc sách Nó ngồi xuống sàn Sub+V+Obj+Obj động từ đòi hỏi hai bổ ngữ: Tơi tặng hoa cho mẹ Bà bắt cháu ăn Họ gọi ông vị thánh sống bàn V syntactics | + category : V | + subcategory : Vt | + verb pattern : Sub+V+Obj def : trao đổi ý kiến việc vấn đề exa : bàn kế hoạch ~ bàn chuyện thời Hình Thơng tin Syntactics “bàn” với ý nghĩa động từ 3.3 Thông tin ngữ nghĩa (Semantics) 3.3.1 Ràng buộc Logic (logical constraint) Ý nghĩa phạm trù (categorial meaning) Các ngôn ngữ có hệ thống từ loại ngữ nghĩa giống Có hai loại ngữ nghĩa lớn, loại biểu thị thực thể (thể từ) loại biểu thị thuộc tính thực thể thuộc tính thuộc tính (gọi thuộc từ - mang ý nghĩa trừu tượng) Đại từ phần lớn danh từ thể từ, có nhiều danh từ thuộc từ (danh từ tình cảm, màu sắc, hình dáng, v.v.) (Hồng Phê, 2008) Trong hai loại lớn lại phân chia thành loại nhỏ, loại nhỏ lại phân chia loại nhỏ VCL tổ chức từ loại ngữ nghĩa theo mơ hình quan hệ hình cây, gần 100 tiểu loại Cây ngữ nghĩa tham khảo từ dự án TCL (Thai Computational Lexicon) (Charoenporn, 2004) có 60.000 mục từ Thái – Anh, mơ tả bình diện: hình thái học, cú pháp học ngữ nghĩa học, v.v SEMANTIC TREE | + Thực thể : Concrete Thing | | | + Vật hữu sinh : Living Thing | | | | | + Con người : People | | + Động vật : Animal | | + Vi sinh vật : Microorganism | | + Thực vật : Plant | | | + Vật vô sinh : Non Living Thing | | | | | + Vật dụng : Artifact | | | + Vị trí : Location | | + Trừu tượng : Abstraction | | | + Lĩnh vực tri thức: Field Of Knowledge | + Trạng thái : State | + Hoạt động : Action | + Quan hệ : Relation | Như vậy, đơn vị từ vựng VCL việc gán nhãn từ loại ngữ pháp (học sinh – Nc) gán thêm nhãn từ loại ngữ nghĩa (học sinh – Person) Việc làm giúp cho việc phân loại từ triệt để hơn, giúp cho việc phân tích cú pháp sâu sắc Từ đồng nghĩa (synonym): Đồng nghĩa tượng từ khác âm có ý nghĩa giống gần giống nhau, nhiều hồn cảnh ngơn ngữ cụ thể, chúng thay cho Từ trái nghĩa (opposite): Trái nghĩa tượng từ khác ngữ âm, đối lập ý nghĩa, biểu khái niệm tương phản logic, tương liên lẫn Việc xác định từ trái nghĩa từ đồng nghĩa từ giúp cho việc phân tích sử dụng ngơn ngữ xác 3.3.2 Ràng buộc ngữ nghĩa (semantic constraint) Trong trình tạo câu, ngồi việc câu phải có đầy đủ thành phần (đúng ngữ pháp) đòi hỏi thành phần câu phải có mối liên kết, ràng buộc ngữ nghĩa lẫn Chỉ có xác lập mối liên kết, ràng buộc ngữ nghĩa nhận câu “xe ăn cơm” khơng bình thường bắt V syntactics | + category : V | + subcategory : Vt | + verb pattern : Sub+V+Obj+Obj semantics | + logical constraint | | | + category meaning : Action | | | + synonym : buộc, ép + semantic constraint | + sub : Person | + obj : LivingThing | + obj : VP def : khiến phải làm việc gì, khơng cho phép làm khác exa : bà bắt cháu ngủ ~ ông bắt trâu cày thơng tầm Hình Thơng tin Semantics “bắt” đòi hỏi hai bổ ngữ Do có vai trò quan trọng tiến trình phân tích ngơn ngữ nên thông tin semantic constraint logical constraint thường sử dụng để tạo luật phân tích cú pháp Ngồi thơng tin nêu, VCL đưa thêm thơng tin lời định nghĩa (definition) phần ví dụ (example) minh hoạ Lời định nghĩa nêu lên ý nghĩa đơn vị từ vựng khái quát từ cảnh cụ thể hoạt động ngơn ngữ Ví dụ trường hợp vận dụng từ ngữ cụ thể nêu để minh hoạ chứng minh cho lời định nghĩa Hai thông tin giúp cho người xây dựng từ điển VCL mô tả thông tin liên quan khác xác QUY TRÌNH XÂY DỰNG VCL 4.1 Tổ chức liệu từ điển Chúng dựa vào Từ điển tiếng Việt (2007) Trung tâm Từ điển học phát hành để xây dựng nội dung cho VCL Nói chung, từ điển này, quan điểm thu thập từ vựng, chuẩn hố tả, thích từ loại, từ đồng âm, từ trái nghĩa tương đối rõ ràng thống Chúng tách nghĩa đơn vị từ vựng biểu diễn thành mục từ (entry) VCL, khôngphân biệt từ đồng âm hay từ đa nghĩa Đồng thời, tách từ loại kết từ nêu Từ điển tiếng Việt (2007) thành loại giới từ liên từ; tách danh từ số lượng thành số từ Hiện tại, VCL chứa gần 42.000 mục từ Toàn liệu từ điển VCL tổ chức thành sở liệu, cho phép cập nhật, thay đổi cần thiết Từ sở liệu dễ dàng biến đổi từ điển theo chuẩn XML 4.2 Công cụ xây dựng VCL Việc thiết kế công cụ giúp cho trình xây dựng nội dung VCL cần thiết Cơng cụ cho phép tích hợp số tiện ích tạo mối quan hệ nhãn từ loại, 20 lớp ngữ nghĩa sở với gần 100 tiểu loại chúng phân loại ngữ nghĩa, v.v Công cụ cho phép tổ chức làm việc theo nhóm, làm việc theo vấn đề, công việc kiểm tra, đánh giá kết thuận lợi 4.3 Kho văn Trong phân tích ngơn ngữ, u cầu khơng thể thiếu phải đặt đơn vị ngôn ngữ xét tập hợp nói chung đơn vị ngơn ngữ đứng trước đứng sau Tập hợp đơn vị ngôn ngữ gọi ngữ cảnh Như vậy, ngữ cảnh phương tiện để phân tích ngôn ngữ Kho văn (corpus) tổ chức nguồn ngữ liệu hữu dụng phục vụ cho việc tìm ngữ cảnh đơn vị ngôn ngữ Để giúp cho việc mô tả thông tin VCL, xây dựng kho văn tiếng Việt, theo thiết kế công cụ dùng để tìm ngữ cảnh (Concordance) KẾT LUẬN Bài báo trình bày cách tổng quan việc xây dựng Từ điển tiếng Việt dùng cho máy tính Qua đề xuất mơ hình cấu trúc bước cần thiết q trình thiết kế, hồn thành nội dung cho từ điển Một cấu trúc đưa chắn chưa thể đầy đủ cho nhu cầu phân tích, miêu tả tiếng Việt Tuy nhiên, với kết ban đầu, hi vọng VCL ứng dụng có hiệu đề tài xử lí tiếng Việt Với mong muốn tạo từ điển điện tử tiếng Việt tương thích với từ điển khác, vấn đề cấu trúc VCL tiếp tục nghiên cứu, mở rộng tương lai Chẳng hạn, bổ sung thông tin từ (cụm từ) tương đương tiếng nước (equivalent); thơng tin hình dạng (shape), kích cỡ (size) từ vật thể; thông tin quan hệ chỉnh thể phận (Whole-of ), phận chỉnh thể (Part-of), thơng tin khác thấy có nhu cầu ứng dụng đề tài có liên quan đến nghiên cứu, xử lí tiếng Việt Lời cảm ơn: Việc xây dựng từ điển VCL hỗ trợ kinh phí từ đề tài Nhà nước KC.01.01/06-10 Chúng xin trân trọng cảm ơn giúp đỡ, tạo điều kiện từ phía Ban Chủ nhiệm Đề tài Tập thể tác giả xin chân thành cảm ơn nhóm tham gia Đề tài góp nhiều ý kiến bổ ích trình thiết kế từ điển, cảm ơn bạn đồng nghiệp Trung tâm từ điển học đóng góp nhiều cơng sức cho việc xây dựng từ điển TÀI LIỆU THAM KHẢO Charoenporn T (2004), TCL' s Computational Lexicon Myanmar-Thai Co-Workshop on Myanmar Language Implementation MICT Park, Yangon Myanmar Hồng Phê (2008), Tuyển tập ngơn ngữ học, Nhà xuất Đà Nẵng – Trung tâm Từ điển học ISO/TC 37/SC N330 (Rev.13-2006, Rev.16-2008), Language resource management - Lexical markup framework (LMF) Miller G., Backwith R., Fellbaum C., Gross D., Miller K (1990), Five papers on WordNet, Technical report, Cognitive science laboratory, Princeton University Nguyễn Kim Thản (1997), Nghiên cứu ngữ pháp tiếng Việt, Nhà xuất Giáo dục Nguyễn Minh Thuyết, Nguyễn Văn Hiệp (2004), Thành phần câu tiếng Việt, Nhà xuất Giáo dục Nguyen T M H., Vu X L., Romary L., Rossignol M (2007), A Lexicon for Vietnamese Language Processing, LRE (Language Resources and Evaluation), Special Issue: Asian Language Resources Nguyen T M H (2006), Outils et Ressources Linguistiques pour l'alignement de textes de textes multilingues franỗais-vietnamiens, Thốse de doctorat en Informatique, Universitộ Henri Poincaré - Nancy I, France Vũ Xuân Lương (2002), Thiết lập giao diện biên soạn từ điển ngôn ngữ máy tính, Tạp chí Ngơn ngữ, Số ... với việc xây dựng từ vựng tiếng Việt cho máy tính, ngồi cơng trình từ điển xây dựng cho số hệ thống dịch máy không phổ biến chia sẻ rộng rãi, nhóm nghiên cứu xử lí tiếng Việt có sẵn kho từ vựng...UY TRÌNH XÂY DỰNG VCL 4.1 Tổ chức liệu từ điển Chúng dựa vào Từ điển tiếng Việt (2007) Trung tâm Từ điển học phát hành để xây dựng nội dung cho VCL Nói chung, từ điển này, quan điểm thu thập ...23 vnPOS danh từ riêng danh từ đơn thể danh từ tổng thể danh từ loại danh từ trừu tượng danh từ đơn vị động từ nội động động từ ngoại động động từ trạng thái tính từ tính chất tính từ quan hệ tính