Về ngôn ngữ học ngữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích lỗi từ vựng trong bài luận của sinh viên trường đại học ngoại ngữ đại học quốc gia hà nội theo phương pháp ngôn ngữ học ngữ liệu (Trang 26 - 30)

CHƢƠNG 1 CƠ SỞ LÍ THUYẾT

1.5. Về ngôn ngữ học ngữ liệu

Thuật ngữ “Corpus linguistics” được diễn đạt trong tiếng Việt thành: “ngôn ngữ học ngữ liệu” hoặc “ngôn ngữ học khối liệu”. Trong luận văn này, chúng tôi phân biệt các khái niệm sau: data = ngữ liệu (chỉ từng đơn vị ngữ liệu thu thập được), database = cơ sở ngữ liệu (toàn bộ ngữ liệu thu thập được) và corpus = kho ngữ liệu (toàn bộ ngữ liệu thu thập được, đã được xử lí đánh dấu)1. Vì thế, “corpus linguistics” diễn đạt một cách chính xác nhất thì là “ngôn ngữ học kho ngữ liệu”, tuy nhiên luận văn sẽ sử dụng thuật ngữ đã được chấp nhận rộng rãi hơn là “ngôn ngữ học ngữ liệu”.

Thuật ngữ “ngôn ngữ học ngữ liệu” (corpus linguistics) xuất hiện lần đầu vào đầu những năm 1980 nhưng ngành nghiên cứu ngôn ngữ dựa trên kho ngữ liệu đã có một lịch sử lâu đời hơn thế.

Vào những năm 1960-1970, Đại học Brown đã xây dựng thành công kho ngữ liệu Brown về tiếng Anh Mỹ đương đại. Cũng trong thời gian này, Đại học Lancaster xây dựng kho ngữ liệu về tiếng Anh Anh, đặt tên là Lancaster- Oslo-Bergen (LOB). Cho đến những năm 1980, sự phát triển về công nghệ của phần cứng máy tính đã thúc đẩy ngành nghiên cứu này lên một bước mới. Sự kết hợp giữa các kho ngữ liệu với công nghệ máy tính đã khơi lại sự quan tâm đến phương pháp luận nghiên cứu kho ngữ liệu. Kể từ đó số lượng và quy mô của các kho ngữ liệu và các nghiên cứu dựa vào kho ngữ liệu đã tăng lên một cách đáng kể. Vào những năm 90 của thế kỷ XX, ngôn ngữ học ngữ liệu được hình thành như một ngành khoa học độc lập về ngôn ngữ văn bản.

Ngày nay phương pháp luận kho ngữ liệu trở nên rất phổ biến và đã mở ra rất nhiều lĩnh vực nghiên cứu mới, bao gồm: từ điển học, từ vựng học, ngữ pháp học, phân tích phong cách, thể loại, nghiên cứu biến thể ngôn ngữ, phân tích đối chiếu, nghiên cứu dịch thuật, biến đổi ngôn ngữ, giảng dạy ngôn ngữ,

ngữ nghĩa học, ngữ dụng học, phong cách học, nghiên cứu văn học, ngôn ngữ học xã hội, phân tích diễn ngôn, ngôn ngữ học hình pháp, ngôn ngữ học máy tính…

1.5.1. Định nghĩa và phân loại kho ngữ liệu

Một kho ngữ liệu là một khối văn bản hoặc ngôn ngữ được xuất hiện tự nhiên và có những quy ước thiết kế ban đầu. Vì thế, các tập hợp ngẫu nhiên của văn bản không phải kho ngữ liệu. Khi xây dựng kho ngữ liệu phải có mục đích rõ ràng, mục tiêu cụ thể [7], [2], [3].

Kho ngữ liệu, vì thế, mang 4 đặc tính cơ bản sau:

 Kho ngữ liệu là một tập hợp các văn bản mà máy đọc được, nghĩa là ở dạng file điện tử.

 Các văn bản phải là nguyên bản

 Các văn bản dưới dạng văn bản viết hoặc văn bản gỡ băng

 Lấy mẫu phải đại diện cho một ngôn ngữ cụ thể hoặc một phương ngữ

Kho ngữ liệu được phân loại theo mục đích sử dụng. Theo Hunston [38] một số loại kho ngữ liệu phổ biến như:

Kho ngữ liệu chuyên ngành: được dùng để nghiên cứu một loại

ngôn ngữ nhất định.

Kho ngữ liệu chung: có thể dùng để làm các tài liệu tham khảo cho

học và dịch ngôn ngữ, thường được dùng làm cơ sở khi so sánh với những kho ngữ liệu chuyên ngành hơn. Ví dụ: Kho ngữ liệu tiếng Anh-Anh BNC, kho ngữ liệu tiếng Anh-Mĩ đương đại COCA.

Kho ngữ liệu người học: được dùng để phát hiện ra các khía cạnh

khác biệt với ngôn ngữ người bản ngữ sử dụng, do đó phần ngữ liệu bao gồm cả ngữ liệu so sánh với người bản ngữ.

Kho ngữ liệu so sánh: các ngữ liệu dịch được đối sánh với nhau để

tìm ra các diễn đạt tương đương cũng như sự khác nhau giữa các ngôn ngữ.

1.5.2. Vai trò của kho ngữ liệu

Hiện nay, các kho ngữ liệu đã và đang được xây dựng nhằm phục vụ mục đích đa dạng của người sử dụng. Đặc biệt trong lĩnh vực nghiên cứu và giảng dạy ngôn ngữ, khai thác kho ngữ liệu giúp người dùng có thể nhận biết được nhiều thông tin, có thể kể đến:

 Tần suất sử dụng của các từ, cụm từ, cấu trúc ngữ pháp;

 Sự thay đổi tần suất xuất hiện của từ và cụm từ qua văn cảnh và thể loại;

 Sự thay đổi tần suất xuất hiện của từ và cụm từ theo lịch đại và đồng đại;

 Phong cách ngôn ngữ của các tác giả khác nhau.

Sự phát triển của ngành nghiên cứu kho ngữ liệu gắn liền với sự phát triển của công nghệ máy tính. Các ứng dụng ra đời giúp cho việc thu thập ngữ liệu cũng như phân tích dễ dàng hơn. So với phương pháp truyền thống, việc ứng dụng các công nghệ vào phân tích kho ngữ liệu giúp tiết kiệm rất nhiều công sức và thời gian, lại thu được kết quả với quy mô và số lượng từ lớn hơn rất nhiều. Đặc biệt với kho ngữ liệu người học, một lượng lớn thông tin có thể khai thác được từ đây, kể cả về kết hợp từ cố định [38].

Chính vì thế, chúng tôi lựa chọn hướng tiếp cận của ngành ngôn ngữ học ngữ liệu nhằm tái tạo một diện mạo đầy đủ nhất có thể về việc sử dụng kết hợp từ cố định của sinh viên năm 3 và 4 khoa Sư phạm tiếng Anh, Trường Đại học ngoại ngữ, Đại học Quốc gia Hà Nội.

1.5.3. Kho ngữ liệu đối chiếu bản ngữ và từ điển kết hợp từ cố định Kho ngữ liệu bản ngữ tiếng Anh Kho ngữ liệu bản ngữ tiếng Anh

Hiện tại hai kho ngữ liệu tiếng Anh Anh và Anh Mĩ đương đại phổ biến nhất là COCA và BNC.

Kho ngữ liệu tiếng Anh Mỹ đương đại COCA (Corpus of Contemporary American English) là kho ngữ liệu tiếng Anh Mỹ cho phép truy cập miễn phí lớn nhất, được sử dụng rộng rãi nhất và có liên kết với nhiều kho ngữ liệu tiếng Anh khác như kho ngữ liệu tiếng Anh Mỹ lịch sử COHA, kho ngữ liệu tiếng Anh Anh BNC.

COCA bao gồm cơ sở ngữ liệu hơn 520 triệu từ trong các thể loại văn bản, trong đó mỗi năm được bổ sung khoảng 20 triệu từ trong khoảng thời gian từ 1990 đến 2015. Thể loại văn bản được chia đều giữa văn bản nói, truyện, tạp chí, báo và văn bản học thuật.

Kho ngữ liệu BNC là kho ngữ liệu tiếng Anh – Anh hiện đại với cơ sở ngữ liệu khoảng 100 triệu từ và khoảng 98,363,783 đơn vị được gán nhãn từ loại thuộc nhiều thể loại văn bản lấy từ tiếng Anh nói và viết. Người dùng có thể truy cập miễn phí kho ngữ liệu BNC tại địa chỉ https://www.english- corpora.org/bnc/ hoặc http://bncweb.lancs.ac.uk/.

Khoảng 90% từ trong kho ngữ liệu BNC được lấy từ các văn bản viết thuộc báo chí quốc gia và địa phương, các tạp chí, chuyên san v.v.., 10% còn lại của kho ngữ liệu là văn bản gỡ băng của lời nói trong văn cảnh trang trọng và không trang trọng.

Chúng tôi chọn sử dụng kho ngữ liệu BNC để đối chiếu nhận diện và giải thích lỗi, bởi sự phù hợp về thể loại với ngữ liệu cần đối chiếu của luận văn (tập trung vào văn bản viết).

Từ điển kết hợp từ cố định Oxford Collocations Dictionary được xây dựng trên cơ sở kho ngữ liệu OEC (Oxford English Corpus). Đây là kho ngữ liệu có gần 2,1 tỉ từ, gấp gần 5 lần kho ngữ liệu COCA, thu thập ngữ liệu tiếng Anh năm 2000 trở về đây. Thể loại văn bản của kho OEC đa dạng, bao gồm cả phương ngữ. Tuy nhiên kho ngữ liệu OEC không hỗ trợ tiếp cận tự do cho người dùng mà chỉ giới hạn cho một số nghiên cứu viên sử dụng. Vì vậy, chúng tôi chọn sử dụng Từ điển Oxford Collocations Dictionary, là kết quả được xây dựng từ kho ngữ liệu này để đối chiếu, với việc này, chúng tôi gián tiếp đối chiếu kết hợp từ tìm được với kho ngữ liệu khổng lồ này. Mặt khác các kết hợp từ cố định được nêu trong từ điển đã được các chuyên gia ngôn ngữ Anh thẩm định, đây là nguồn tham chiếu rất tốt cho chúng tôi khi xác định các kết hợp từ cố định trong ngữ liệu của luận văn.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích lỗi từ vựng trong bài luận của sinh viên trường đại học ngoại ngữ đại học quốc gia hà nội theo phương pháp ngôn ngữ học ngữ liệu (Trang 26 - 30)