NGÔN NGỮ học KHỐI LIỆU TRONG nền KINH tế TOÀN cầu

7 319 0
NGÔN NGỮ học KHỐI LIỆU TRONG nền KINH tế TOÀN cầu

Đang tải... (xem toàn văn)

Thông tin tài liệu

HỘI THẢO QUỐC TẾ ĐÓNG GÓP CỦA KHOA HỌC XÃ HỘI – NHÂN VĂN TRONG PHÁT TRIỂN KINH TẾ - XÃ HỘI NGÔN NGỮ HỌC KHỐI LIỆU TRONG NỀN KINH TẾ TOÀN CẦU LINGUISTIQUE DE CORPUS DANS L’ECONOMIE MONDIALE TS Đào Hồng Thu1 Tóm tắt Sự đời phát triển mạnh mẽ công nghệ thông tin dẫn tới đời phát triển hàng loạt lĩnh vực hoạt động khoa học công nghệ khác, có lĩnh vực hoạt động ngôn ngữ học Song song với phát triển không ngừng hệ công nghệ máy tính dịch tự động, ngôn ngữ học hình thành xu hướng phát triển - Ngôn ngữ học khối liệu (Corpus Linguistics) Thực tế chứng minh ngôn ngữ học khối liệu ngày đóng vai trò quan trọng kinh tế Bài báo đề cập đến vai trò ngôn ngữ học khối liệu - khoa học xuất vào nửa cuối kỉ XX vừa qua - đóng góp Khoa học xã hội nhân văn phát triển kinh tế-xã hội phát triển khoa học khối liệu ngôn ngữ kinh tế toàn cầu Résumé La naissance et le développement vigoureux de la technologie informatique ont permis la naissance et le développement en grand nombre des autres activités scientifiques et technologiques dont les activités de la linguistique Parallèlement au développement ininterrompu des générations d’ordinateur et des logiciels de traduction automatique, dans le domaine de la linguistique appliquée on voit apparaître une autre tendance de développement : la linguistique de corpus La réalité a prouvé que la linguistique de corpus joue un rôle de plus en plus important dans l’économie Cet article aborde le rôle de la linguistique de corpus, une science qui a vu le jour au milieu de XXème siècle, comme une contribution des sciences sociale et humaine et de la science de la linguistique de corpus au développement actuel de l’économie mondiale Hội ngôn ngữ học Việt Nam 331 TÀI LIỆU HỘI THẢO HỘI THẢO QUỐC TẾ ĐÓNG GÓP CỦA KHOA HỌC XÃ HỘI – NHÂN VĂN TRONG PHÁT TRIỂN KINH TẾ - XÃ HỘI Cơ sở khái niệm Sự đời phát triển mạnh mẽ công nghệ thông tin dẫn tới đời phát triển hàng loạt lĩnh vực hoạt động khoa học công nghệ khác, có lĩnh vực hoạt động ngôn ngữ học Song song với phát triển không ngừng hệ công nghệ máy tính dịch tự động, ngôn ngữ học hình thành xu hướng phát triển - Ngôn ngữ học khối liệu (Corpus Linguistics) Ngôn ngữ học khối liệu ngày lĩnh vực khoa học đại phát triển nhanh Ngôn ngữ học khối liệu hình thành xuất phát từ nhu cầu ngày tăng khoa học ngôn ngữ việc áp dụng công nghệ máy tính vào việc xử lý khối lượng lớn nguồn ngữ liệu Ngôn ngữ học khối liệu khoa học liên ngành ngôn ngữ học, khoa học máy tính kỹ thuật số, có mối quan hệ trực tiếp với trình xây dựng hoàn thiện khối liệu văn bản, với việc sử dụng chúng công cụ trình nghiên cứu ngôn ngữ Từ "khối liệu" lần sử dụng thuật ngữ khoa học vào năm 19612 để khái niệm ngôn ngữ học khối liệu Về nguyên tắc, tập hợp văn gọi khối liệu Theo tiếng La tinh, khối liệu có nghĩa "any body of text"3 (khối văn - ĐHT dịch) Tuy nhiên, thuật ngữ "khối liệu" sử dụng ngữ cảnh cụ thể ngôn ngữ học đại, có ý nghĩa đặc trưng nhiều so với định nghĩa đơn giản vừa nêu Nếu nhìn nhận từ góc độ khối liệu sở ngôn ngữ học khối liệu - khoa học nghiên cứu phương pháp xây dựng sử dụng khối liệu với trợ giúp công nghệ máy tính, - dựa vào bốn đặc điểm sau để định nghĩa khối liệu: Bao gồm model điển hình Nếu khối liệu hai ngôn ngữ cần bao gồm model tương đồng điển hình; Có kích cỡ xác định; Ở dạng đọc máy tính; Có giải chuẩn mặt ngôn ngữ Ở đây, khối văn khái niệm quan trọng ngôn ngữ học khối liệu Khối liệu tập hợp số lượng lớn văn nhiều tác giả theo nhiều thể loại khác nhau, bao gồm câu gán nhãn cấu trúc cú pháp từ vựng theo nguyên tắc định Có thể nói ngôn ngữ học khối liệu xuất vào đầu thập kỉ 60 kỉ XX với xuất khối liệu Mỹ bắt đầu phát triển vòng vài thập kỉ gần Căn vào chất hoạt động ngôn ngữ khối liệu, định nghĩa khối liệu tập hợp liệu tương đồng mặt ngôn ngữ, trình bày dạng model văn điện tử, theo cấu trúc định Thuật ngữ sử dụng lần Brown corpus năm 1961 với gần triệu từ cụm từ Anh - Mĩ Лингвистический энциклопедический словарь Главн ред В.Н Ярцева М., 1990 - 685 с 332 TÀI LIỆU HỘI THẢO HỘI THẢO QUỐC TẾ ĐÓNG GÓP CỦA KHOA HỌC XÃ HỘI – NHÂN VĂN TRONG PHÁT TRIỂN KINH TẾ - XÃ HỘI sử dụng để giải vấn đề ngôn ngữ cụ thể Trong trường hợp cụ thể, khối liệu ngôn ngữ bao gồm hệ thống điều chỉnh liệu văn nhằm giúp người sử dụng tìm kiếm thông tin cần thiết cách nhanh chóng dễ dàng Đối với nhà nghiên cứu ngôn ngữ, sử dụng khối liệu tiết kiệm nhiều thời gian công sức Vai trò khối liệu ngôn ngữ nghiên cứu giảng dạy Hiện nay, kiểu khối liệu khác xây dựng cho nhiều ngôn ngữ giới, với tầm quan trọng giá trị sử dụng lớn Đơn cử ví dụ: mặt, khối liệu ngôn ngữ gán nhãn nguồn kiến thức hệ thống hóa quan trọng cú pháp nhà ngôn ngữ học sử dụng tiến hành nghiên cứu ngôn ngữ bản; mặt khác, khối liệu ngôn ngữ gán nhãn nguồn tài nguyên quan trọng khoa học ngôn ngữ máy tính nhờ khối liệu ngôn ngữ này, xây dựng chương trình xử lý ngôn ngữ tự nhiên Nghiên cứu cho thấy khối liệu ngôn ngữ có đặc điểm đặc trưng hữu hiệu, đó, khối liệu văn  thành phần thiếu hệ thống dịch máy;  tài nguyên ngôn ngữ chuẩn hình thành sử dụng máy tính;  cho phép sử dụng chương trình tự động xử lý liệu theo chuẩn định;  cho phép lựa chọn liệu cần thiết để nghiên cứu sử dụng Trong lĩnh vực nghiên cứu giảng dạy ngôn ngữ, sở khối liệu, người sử dụng nhanh chóng nhận biết  tần số sử dụng từ vị, phạm trù ngữ pháp;  thay đổi tần số sử dụng từ cụm từ;  thay đổi tần số ngữ cảnh văn theo lịch đại đồng đại;  cách sử dụng ngôn ngữ tác giả khác  v.v Cho đến nay, ngôn ngữ học khối liệu ngày có xu hướng phát triển mạnh mẽ với phát triển công nghệ thông tin Là phận ngôn ngữ học đại, ngôn ngữ học khối liệu nâng cao hiệu thực hành hoàn thiện lí thuyết Ngôn ngữ học khối liệu đóng vai trò ngày quan trọng kinh tế toàn cầu lĩnh vực khoa học công nghệ phát triển mạnh Ngôn ngữ khối liệu ngôn ngữ tham gia vào thành phần khối liệu Có thể nói khối liệu ngôn ngữ sử dụng rộng rãi nhà ngôn ngữ ứng dụng, chuyên gia ngôn ngữ - lí luận, ngôn ngữ máy tính, giảng viên chuyên gia thuộc nhiều lĩnh vực khoa học đời sống khác 333 TÀI LIỆU HỘI THẢO HỘI THẢO QUỐC TẾ ĐÓNG GÓP CỦA KHOA HỌC XÃ HỘI – NHÂN VĂN TRONG PHÁT TRIỂN KINH TẾ - XÃ HỘI Ngôn ngữ học khối liệu kinh tế toàn cầu Hiện nay, Việt Nam gia nhập WTO xuất cần thiết phải thực giao lưu để trao đổi thông tin mức độ giao tiếp ngôn ngữ phạm vi toàn giới điều thiết yếu việc hội nhập kinh tế giới cần có hệ thống khối liệu quốc gia nhằm phục vụ lĩnh vực liên quan đến nghiên cứu khoa học, giảng dạy, cập nhật thông tin nước v.v Một vấn đề quan trọng khác điều kiện nay, "người phiên dịch chuyên nghiệp cần phải biết thuật ngữ nhiều chuyên ngành cần phải thuộc nhiều tên gọi xác chủng loại chi tiết, linh kiện, dụng cụ, cấu, chất v.v khác nhau4", phiên dịch viên dù giỏi đến đâu cập nhật hết lượng thông tin khổng lồ kinh tế toàn cầu phát triển vũ bão Lúc này, việc sử dụng khối liệu ngôn ngữ để trợ giúp cho trình dịch thuật tất yếu cần thiết Khối liệu nghiên cứu ngôn ngữ công cụ để xây dựng, điều chỉnh bổ sung hệ thống tự động hóa khác dịch tự động, nhận dạng lời nói, tìm kiếm thông tin Ví dụ, tìm kiếm khối liệu theo từ tạo danh mục liệt kê tất trường hợp có sử dụng từ với đầy đủ thông tin nguồn gốc liệu Tại nhiều nước giới Anh, Mỹ, Nhật, Đức, Nga, Trung Quốc v.v., vấn đề nghiên cứu sử dụng hữu hiệu khối liệu ngôn ngữ (language corpora) nhận quan tâm đặc biệt từ phía quan quốc gia Chất lượng website nước ví dụ điển hình Một ví dụ khác việc dạy học tiếng Anh ngày đạt hiệu quả, phần đáng kể có trợ giúp công nghệ máy tính với việc sử dụng khối liệu ngôn ngữ Có thể kể đến khối liệu quan trọng Bank of English 1997 với 320 triệu đơn vị từ cụm từ sử dụng ICLE 1997 với 200 triệu đơn vị từ cụm từ sử dụng dạng viết dành cho người nước ngoài5 Trong thập kỉ vừa qua, nhiều quốc gia tiến hành việc xây dựng khối liệu ngôn ngữ sở ngữ Trong đó, mạnh mẽ công trình xây dựng khối liệu tiếng Anh, xuất lần vào năm 60 kỉ XX, điển hình Khối liệu Brown Khối liệu Lancaster/Oslo-Bergen (LOB) Mỗi khối liệu chứa khoảng triệu đơn vị từ cụm từ sử dụng với sơ đồ hình thái học Ngoài ra, Khối liệu Lancaster/Oslo-Bergen chứa khối liệu LeedsLancaster Treebank Khối liệu Lancaster Parsed với sơ đồ cú pháp học Khối liệu Anh Quốc (BNC) chứa đến 100 triệu đơn vị từ cụm từ sử dụng coi số khối liệu ngôn ngữ lớn Khối liệu xây dựng vào năm 90 kỉ XX sở sơ đồ hình thái học, bao gồm khoảng 90% đơn vị từ cụm từ sử dụng dạng viết, 10% số đơn vị lại dạng nói Беляева Л.Н Теория и практика перевода Санкт-Петербург, 2003, с.19 Рыков В.В Корпус текстов как отражение состояния русского языка // Труды Международного конгресса "Русский язык: исторические судьбы и современность" – Москва: МГУ, 2001 г 334 TÀI LIỆU HỘI THẢO HỘI THẢO QUỐC TẾ ĐÓNG GÓP CỦA KHOA HỌC XÃ HỘI – NHÂN VĂN TRONG PHÁT TRIỂN KINH TẾ - XÃ HỘI Ngoài khối liệu ngôn ngữ kể trên, tồn hàng loạt khối liệu tiếng Anh khác sử dụng cho việc nghiên cứu tiếng Anh, cho việc dạy học tiếng Anh ngoại ngữ.6 Đối với nước châu Âu khác, số khối liệu ngôn ngữ có trữ lượng lớn giá trị sử dụng cao, cần kể đến Khối liệu tiếng Đức Đây tập hợp lớn văn ngôn tiếng Đức, bao gồm khoảng tỉ đơn vị từ cụm từ sử dụng Khối liệu chứa sơ đồ hình thái-cú pháp học dựa sở SGML (Standard Generalized Markup Language) Hệ thống tự động hóa COSMAS II khối liệu tiếng Đức cho phép người sử dụng dễ dàng tìm kiếm thông tin chứa khối liệu theo dấu hiệu tình thái học dạng từ Một hệ thống khác cần kể đến Khối liệu tiếng Tiệp với 100 triệu đơn vị từ cụm từ sử dụng Ở đây, chương trình ngôn ngữ hỗ trợ cho khối liệu chương trình tạo lập danh mục từ cụm từ khối liệu, cho phép cập nhật toàn ví dụ sử dụng với đầy đủ trích dẫn, tần số xuất hiện, phân tích ngữ pháp từ cụm từ sử dụng khối liệu.7 Đối với nước châu Á, Trung Quốc Nhật Bản nước có khối liệu ngữ lớn Khối liệu tiếng Trung chứa khoảng tỷ đơn vị từ cụm từ, sử dụng rộng rãi hữu hiệu.8 Tại Nga, ngôn ngữ học khối liệu bắt đầu nghiên cứu vòng hai thập kỉ trở lại đây, với tốc độ nhanh thực hành, chuẩn xác lí thuyết Hiện nay, khoa học khối liệu ngôn ngữ giảng dạy trường đại học lớn nghiên cứu tích cực viện nghiên cứu ngôn ngữ Liên bang Nga nhằm phục vụ cho kinh tế tăng trưởng Trong vòng 10 năm trở lại đây, ngôn ngữ học khối liệu đặc biệt quan tâm nghiên cứu phát triển Các khối liệu ngôn ngữ Nga sử dụng rộng rãi lĩnh vực ngôn ngữ học ứng dụng, từ vựng học, dạy học ngoại ngữ, ngôn ngữ học máy tính lĩnh vực khoa học xã hội khác Khối liệu tiếng Nga đến tăng đáng kể khối lượng đơn vị từ cụm từ sử dụng, mở rộng phạm vi sử dụng ngôn ngữ nhiều lĩnh vực khoa học khác Đối với Việt Nam, việc nghiên cứu xây dựng Khối liệu tiếng Việt (nội dung cụ thể trình bày báo khác) cần thiết cấp bách kinh tế hội nhập Khối liệu tiếng Việt có quan hệ trực tiếp đến hoạt động xã hội, đó, đem lại hiệu cho hoạt động nói Khối liệu tiếng Việt phát huy vai trò tác dụng lĩnh vực quảng cáo thương hiệu Việt Nam thương trường quốc tế Nghiên cứu xây dựng khối liệu ngôn ngữ đòi hỏi phải xác định chuyển xác nghĩa văn cụ thể vào khối liệu nhằm giúp người sử dụng cập nhật xác thông tin tìm kiếm http://www.viniti.ru McEnery T., Wilson A Corpus Linguistics – Edinburgh: Edinburgh University Press, 1999 http://ru.wikipedia.org 335 TÀI LIỆU HỘI THẢO HỘI THẢO QUỐC TẾ ĐÓNG GÓP CỦA KHOA HỌC XÃ HỘI – NHÂN VĂN TRONG PHÁT TRIỂN KINH TẾ - XÃ HỘI Trong điều kiện thông tin quốc tế, cần thiết xây dựng khối liệu song song tiếng Việt - tiếng nước – tiếng Việt liên quan trực tiếp đến lĩnh vực dịch thuật dạy-học ngoại ngữ nguyên nhân chủ yếu sau đây: Số lượng sách đọc tiếng nước thư viện lớn, số người vào thư viện để ngồi đọc sách không đáng kể; Phần lớn học sinh, sinh viên Việt Nam học ngoại ngữ người nước học tiếng Việt có nhu cầu nắm vững cấu trúc ngôn ngữ tương đương để giao tiếp tiếng nước tiếng Việt cần thiết; Phần lớn chuyên gia có nhu cầu đọc nhanh tài liệu nguyên dịch sang ngôn ngữ khác (ví dụ, văn tiếng Việt dịch sang tiếng Anh); "Rào ngăn cách" ngôn ngữ tồn cộng đồng làm cản trở việc truy cập thông tin từ website hỗ trợ sử dụng tiếng Việt Lời kết Việc Việt Nam gia nhập WTO có nghĩa tiếng Việt gia nhập "cộng đồng ngôn ngữ" dân tộc giới Vai trò ngôn ngữ học khối liệu nghiên cứu nước quốc tế khoa học thời đại ngày đề cập làm sáng tỏ Nghiên cứu, xây dựng sử dụng khối liệu ngôn ngữ (ngôn ngữ khối liệu) giải pháp để đẩy nhanh tiến độ hội nhập kinh tế, xã hội trị Tài liệu tham khảo McEnery T., Wilson A Corpus Linguistics – Edinburgh: Edinburgh University Press, 1999 Марчук Ю.Н Корпус текстов и сверхбольшие базы лингвистических данных // Сборник: Труды международной конференции «Корпусная лингвистика – 2002» - Издательство СанктПетербургского университета, 2002 Шимкова М Репрезентативность корпуса как лингвистическая проблема // Сборник: Труды международной конференции «Труды международной конференции «MegaLing'2005 Прикладная лингвистика в поиске новых путей» – 2005 Клименко С.В., Рыков В.В Логические индукция и дедукция как принципы отражения предметной области в корпусе текстов // Труды Международного семинара Диалог „2001 по компьютерной лингвистике и ее приложениям – Аксаково, 2001 г Апресян Ю.Д., Иомдин Л.Л., Санников А.В., Сизов В.Г Семантическая разметка в глубоко аннотированном корпусе русского языка // Сборник: Труды международной конференции «Труды международной конференции «MegaLing'2005 Прикладная лингвистика в поиске новых путей» – 2005 336 TÀI LIỆU HỘI THẢO HỘI THẢO QUỐC TẾ ĐÓNG GÓP CỦA KHOA HỌC XÃ HỘI – NHÂN VĂN TRONG PHÁT TRIỂN KINH TẾ - XÃ HỘI Баранов А.Н Проблема репрезентативности корпуса данных (на примере политической метафорики) // Труды Международного семинара Диалог „2001 по компьютерной лингвистике и ее приложениям – Аксаково, 2001 г Милчонока Э Обзор ресурсов латышского языка в Институте математики и информатики Латвийского университета // Сборник: Труды международной конференции «Корпусная лингвистика – 2002» - Издательство Санкт-Петербургского университета, 2002 Беляева Л.Н Теория и практика перевода Санкт-Петербург, 2003 Жукова В.В К вопросу об интенсификации процесса обучения взрослых иностранному языку (на материале английского языка) - с 291 - 303 // Функциональные стили и преподавание иностранных языков Отв ред М.Я Цвиллинг М., Наука, 1982 - 360 с Лингвистический энциклопедический словарь Главн ред В.Н Ярцева М., 1990 - 685 с Розенталь М.А., Теленкова М.А Словарь – справочник лингвистических терминов М., “Просвещение”, 1985 – 399 с Дао Хонг Тху Корпус параллельных текстов в аспекте корпусной лингвистики // Проблемы современной филологии и лингводидактики, сб научных трудов, СПб, изд.РГПУ им.А.И.Герцена, 2006, с.23-28 Đào Hồng Thu (2009) Ngôn ngữ học khối liệu vấn đề liên quan (Quyển I) Nxb Khoa học xã hội, Hà Nội Đào Hồng Thu (2010) Hướng sử dụng khối liệu tiếng Việt Báo cáo Hội thảo Nghiên cứu, phát triển sản phẩm công nghệ xử lý tiếng Việt tháng năm 2010 Bộ Khoa học Công nghệ 337 TÀI LIỆU HỘI THẢO

Ngày đăng: 24/10/2016, 15:15

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan