1. Trang chủ
  2. » Thể loại khác

ĐẠI HỌC HOA SEN HỘI THẢO ỨNG DỤNG NGÔN NGỮ HỌC TÍNH TOÁN TRONG NGHIÊN CỨU VÀ GIẢNG DẠY NGÔN NGỮ

74 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC HOA SEN HỘI THẢO ỨNG DỤNG NGÔN NGỮ HỌC TÍNH TỐN TRONG NGHIÊN CỨU VÀ GIẢNG DẠY NGƠN NGỮ  Trường ĐH Khoa học Tự nhiên-ĐHQG-HCM Trung tâm Ngơn ngữ học Tính tốn (Computational Linguistics Center) www.clc.hcmus.edu.vn BCV: Đinh Điền ddien@fit.hcmus.edu.vn 29-8-2019 Nội dung Liên ngành Ngôn ngữ học Tính tốn Nghiên cứu ngơn ngữ Giảng dạy tiếng Việt cho người nước Giảng dạy ngoại ngữ cho người Việt Giới thiệu Ngơn ngữ học Tính tốn ▪ Ngơn ngữ học Tính tốn (NNH Máy tính) (Computational Linguistics) liên ngành (CMCN 4.0) • = Ngơn ngữ học (linguistics) + Tin học (computer) ❑ Sử dụng cơng cụ, mơ hình tính tốn Tin học để nghiên cứu giải toán Ngôn ngữ học ❖ Liên ngành NNHTT mang lại nhiều ứng dụng lĩnh vực sống, như: kinh tế, xã hội, khoa học, giáo dục, an ninh quốc phòng,… ➢ Ứng dụng liên ngành NNHTT việc nghiên cứu ngôn ngữ; giảng dạy tiếng Việt cho người nước giảng dạy ngoại ngữ cho người Việt Nội dung Liên ngành Ngơn ngữ học Tính tốn Nghiên cứu ngôn ngữ Giảng dạy tiếng Việt cho người nước Giảng dạy ngoại ngữ cho người Việt Nghiên cứu ngôn ngữ ✓ Khảo sát tượng/đơn vị ngôn ngữ ✓ Thống kê tần suất xuất hiện tượng/đơn vị ngôn ngữ ✓ So sánh, đối chiếu điểm tương đồng/dị biệt ngôn ngữ ✓ Phát quy luật ngôn ngữ ✓ Kiểm chứng giả thuyết ngôn ngữ Kho ngữ liệu (corpus) Nhất thiết cần có chứng sử dụng ngôn ngữ ❑ Cứ liệu ngôn ngữ => Kho Ngữ liệu (Corpus: 语料库 /yǔ liào kù/ “ngữ liệu khố”)=> kinh nghiệm (empiricism) ❑ Chuyên ngành Ngôn ngữ học Ngữ liệu (Corpus Linguistics): thu thập, xử lý khai thác kho ngữ liệu ❖ Ngôn ngữ học Tính tốn: sử dụng mơ hình tính tốn thơng minh Trí tuệ nhân tạo (AI: Artificial Intelligence), cơng cụ “học máy” (machine learning, deep learning) để xây dựng (tự động) kho ngữ liệu ❑ Dùng kho ngữ liệu để nghiên cứu ngôn ngữ ➢ Ứng dụng giảng dạy ngơn ngữ/ngoại ngữ/… ➢ Ngữ liệu có thích (annotated corpus) ⚫ PTB (Penn Tree Bank): [Pierre/NNP Vinken/NNP],/, [61/CD years/NNS] old/JJ ,/, will/MD join/VB [the/DT board/NN] as/IN [a/DT nonexecutive/JJ director/NN Nov./NNP 29/CD]./ ⚫ CTB (Chinese Tree Bank): ( (IP-HLN (NP-SBJ (NN 外商) (NN 投资) (NN 企业)) (VP (VV 成 为 ) (NP-OBJ (NP (NP-PN (NR 中国)) (NP (NN 外贸))) (ADJP (JJ 重要)) (NP (NN 增长点))))) ) ⚫ (VTB: Vietnamese Tree Bank): Nguyên_nhân/Nn/O là/Vc/O bão/Nn/O số/Nn/O 10/An/O đang/R/O chịu/Vv/O ảnh_hưởng/Nn/O bởi/Cp/O hệ_thống/Nn/O trục/Nn/O rãnh/Nn/O cao/Aa/O và/Cp/O sự/Nc/O lơi_kéo/Vv/O từ/Cm/O siêu bão/Nn/TRM_B Melor/Nr/TRM_I ở/Cm/O ngồi/Cm/O khơi/Nn/O Philippines/Nr/LOC_B /PU/O “Huấn luyện” cho máy cách gán nhãn (training corpus) Ngữ liệu song song đa ngữ (MultiLingual Parallel Corpus) We are learning a language. Nous apprenons une langue. 我们 学习 一门 语言。 言語を 習います。 우리는 언어를 배우고 있어요 Wir lernen eine Sprache Мы учим язык. Ni lernas lingvon. Chúng ta học ngôn ngữ. Trường ngữ nghĩa: “bank” Khai thác kho ngữ liệu Hàn-Việt Ngữ liệu song ngữ (parallel corpora) Phần mềm trợ giúp biên dịch CAT: Computer Assisted Translation Translation Memory, Glossary Reuse Translation Add terms from Glossary Update TM and Glossary 62 Lưu đồ CAT Giới thiệu nhớ dịch (Translation Memory) Dóng hàng đoạn: Dóng hàng câu (cặp câu song song): * Helicopters can rise straight up into the air and can go straight down + Máy bay trực thăng lên thẳng khơng đáp thẳng xuống đất * They can stand still in the air + Chúng đứng yên không * Helicopters not have wings + Máy bay trực thăng khơng có cánh Hỗ trợ biên dịch (CAT: Computer Assisted Translation) 65 Ích lợi CAT ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ Tái sử dụng kết dịch cũ Kiểm tra lỗi tả/ngữ pháp Tìm kiếm từ theo ngữ cảnh (concordance) Kiểm sốt tính quán cách dịch (thuật ngữ) Hỗ trợ nhiều định dạng tập tin (Xls, Ppt, Pdf, AI) Quản lý dự án: ngữ liệu, chất lượng, tiến độ, chi phí, Quản lý nhóm: Manager, Translators, Reviewers Quản lý trực tuyến: (online: Server, Cloud, …) Khai thác sức mạnh cộng đồng (1 for N, N for 1) 66 .x languages Project Manager 67 TRAINING 69 Tiếng Việt mạnh người Việt ⚫ Date: 15-Oct-2015 From: Kohei Saito Subject: Vietnamese; Computational Linguistics; Morphology; Phonology; Semantics; Syntax: Analytic Linguistic Project Manager, Google, Inc., Singapore University or Organization: Google, Inc Department: Natural Language Understanding Job Location: Singapore, Singapore Job Title: Analytic Linguistic Project Manager [Vietnamese] Job Rank: Analytic Linguistic Project Manager; Manager Specialty Areas: Computational Linguistics; Morphology; Phonology; Semantics; Syntax Required Language(s): Vietnamese (vie) Description: The role of the Analytic Linguistic Project Manager is to consult with Natural Language Understanding Researchers on creating guidelines and setting standards for a variety of NLP projects as well as to manage the work of a team of junior linguists to achieve high quality data output This includes: - Training, managing and overseeing the work of a team of junior linguists - Creating guidelines for semantic, syntactic and morphological projects - Evaluating and analyzing data quality - Consulting with researchers and engineers on the development of linguistic databases Job requirements: - Native-level speaker of Vietnamese and fluent in English - Master's degree or higher in Linguistics or Computational Linguistics, specializing in semantics, syntax, morphology or lexicography - Ability to quickly grasp technical concepts; should have an interest in natural language processing - Excellent oral and written communication skills - Good organizational skills - Previous project management and people management experience preferred - Some programming language or previous experience working in a Linux environment a plus KẾT LUẬN Qua phần trên, ta thấy: ❑ Liên ngành Ngơn ngữ học Tính tốn có nhiều ứng dụng thực tế ✓ Giáo dục ví dụ ✓ Tiếng Việt mạnh quý giá người Việt ❖ Nghiên cứu liên ngành xu tất yếu thời đại Cách mạng Công nghiệp 4.0 o Hiện trạng nghiên cứu NNH Tính tốn cho tiếng Việt cịn hạn chế (do cách đào tạo đơn ngành nay) ➢ Rất cần thay đổi để theo kịp thời đại TÀI LIỆU THAM KHẢO Adam Przepiórkowski, Maciej Piasecki, Krzysztof Jassem, and Piotr Fuglewicz (2013), Computational Linguistics: Applications, Berlin: Springer-Verlag Hedelberg Publisher Đinh Điền (2018) Ngôn ngữ học Ngữ liệu Tp HCM: NXB ĐHQG-HCM Đinh Điền (2019) Từ điển học Tính toán Tp HCM: NXB ĐHQGHCM Alexander Clark, Chris Fox, and Shalom Lappin (2010), The Handbook of Computational Linguistics and Natural Language Processing, UK: Blackwell Publishing Sandra Kubler and Heike Zinsmeister (2015), Corpus Linguistics and Linguistically annotated corpora, USA: Bloomsbury Publishing Plc Mikhail Mikhailov and Robert Cooper (2016), Corpus Linguistics for Translation and Contrastive Studies, USA-NY: Routledge Publisher B.T.Sue Atkins and Michael Rundell (2008), The Oxford Guide to Practical Lexicography, UK: Oxford Press University

Ngày đăng: 10/05/2021, 01:24

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w