Những khái niệm cơ bản của Ngôn ngữ học ngữ liệu- 123docz.net

6. Cấu trúc của luận án

1.2. Cơ sở lý luận của luận án

1.2.1. Những khái niệm cơ bản của Ngôn ngữ học ngữ liệu

1.2.1.1. Khái niệm về ngôn ngữhọc ngữ liệu

Thuật ngữ Corpus Linguistics (Ngôn ngữ học ngữ liệu) lần đầu tiên được

Aarts và Van den Heuvel sử dụng năm 1982 (dẫn theo Taylor, 2008: 179) để chỉ

các nghiên cứu liên quan đến việc xây dựng và sử dụng Kho ngữ liệu (KNL). Đến

nay, ngôn ngữ học ngữ liệu (NNHNL) được tiếp cận từ nhiều góc độ và được mô tả ở nhiều khía cạnh khác nhau. Một số nghiên cứu khai thác phương diện phương

pháp trong phân tích ngữ liệu về mặt định lượng và định tính (Wilson, 1996 ; Kennedy, 1998; Meyer, 2002; Müller & Wibel, 2016), trong khi số khác đề cao

tính hệ thống của các phương pháp và nguyên tắc ứng dụng KNL trong nghiên cứu,

khẳng định tư cách lý thuyết của NNHNL (McEnergy, Xiao and Tono, 2006: 7-8) . Các nhà nghiên cứu như Leech (1992), McEnergy, Xiao and Tono (2006), Tognini Bonelli (2000, 2001), Stubbs (1993), Teubert (2005), Mahlberg (2005),

nghiên cứu NNHNL và đề cập đến nó trong quá trình tạo lập và khai thác KNL. Leech (1992: 106) cho rằng “NNHNL máy tính (Computer Corpus Linguistics) xác lập không chỉ một hệ phương pháp mới để nghiên cứu ngôn ngữ mà còn là hoạt động nghiên cứu mới, trên thực tế đây là cách tiếp cận về mặt lý luận về chủ đề

này”.

Nguyễn Thiện Giáp (2016: 308) cũng khẳng định vị thế lý thuyết của NNHNL

và bổ sung thêm vai trò của nó trong địa hạt ngôn ngữ. Ông cho rằng “Ngôn ngữ

học kho ngữ liệu (Corpus Linguistics) là sự nghiên cứu ngôn ngữ như được biểu lộ

trong các mẫu của các văn bản thực. Đây là một cách tiếp cận dễ hiểu để có được

một tập hợp các qui tắc trừu tượng của các ngôn ngữ tự nhiên. Ngôn ngữ học kho

ngữ liệu chia sẻ niềm tin rằng sự phân tích ngôn ngữ học diễn ra ở những mẫu văn

bản thu thập được, trong ngữ cảnh tự nhiên, hạn chế đến mức thấp nhất những suy đoán chủ quan thì sẽ đáng tin cậy hơn”.

Xét từ nhiều phương diện, có thể thấy NNHNL tập hợp lý thuyết và phương

pháp nghiên cứu đa ngàn h – ngôn ngữ, công nghệ và dạy học – để phục vụ các nghiên cứu đa lĩnh vực. Cách thức xây dựng và ứng dụng KNL kết hợp với quan niệm nghiên cứu NNHNL hiện đại của Sinclair (2004), Tognini-Bonelli (2000, 2001), McEnery (2004), Bennett (2010),... góp phần khẳng định NNHNL là một

khoa học liên ngành trong đó xác lập hệ thống phương pháp và lý thuyết đặc thù để nghiên cứu KNL ngôn ngữ. Nó lấy đối tượng là các tập hợp ngôn ngữ, kết hợp với phần mềm phân tích để đưa ra các kết quả đáng tin cậy trong nghiên cứu ngôn ngữ trên nhiều phương diện, đồng thời kiểm nghiệm hiệu quả của hệ thống phần mềm

xửlý.Các kết quả trong nghiên cứu NNHNL phục vụ và thúc đẩy sự phát triển trên nhiều lĩnh vực như ngôn ngữ học, công nghệ xử lý ngôn ngữ tự nhiên, và công nghệ

dạy học ngoại ngữ. Nhận định trên được minh chứng qua nhiều nghiên cứu của

Fang, 1992; Nunan, 1999; Biber, 2001; Hunston, 2001; Nation, 2001; Nation & Heatley, 2002; Gries, 2005; Bennett, 2010; Anthony, 2012; Glynn, 2012; Gardner, 2013; Kohn, 2013,...

1.2.1.2. Khái niệm Kho ngữ liệu (KNL)

Khái niệm Kho ngữ liệu (Corpus) phần nhiều được hình thành từ quan niệm

coi tập hợp ngữ liệu văn bản, gồm văn bản viết (văn bản bút ngữ) và văn bản nói

(bản ghi khẩu ngữ), làm cơ sở cho phân tích và mô tả ngôn ngữ (Kennedy, 1998: 1). Trên thực tế, dạng văn bản hay hình thức ngữ liệu cũng như việc phân tích ngôn

ngữ chưa đủ để tạo nên KNL, mà việc tổ chức của tập hợp ngữ liệu văn bản mới

tạo nên diện mạo cho các KNL. Đối với một KNL hiện đại, công nghệ xử lý ngôn

ngữ tự nhiên đóng một vai trò quan trọng không chỉ trong việc thu thập, phân tích

ngữ liệu mà còn trong tổ chức, trình hiện ngữ liệu. Do đó, nói đến các KNL hiện đại không thể không đề cập đến cách thức lưu trữ và xử lý ngữ liệu.

Công nghệ xử lý ngôn ngữ tự nhiên cuối thế kỷ 20, đầu thế kỷ 21 mang đến

các KNL đồ sộ, đa dạng hơn nhiều so với trước đó về loại văn bản và phạm vi khai thác văn bản. Yêu cầu xử lý thông tin đa lĩnh vực, đa chiều một cách chính xác và nhanh chóng phủ nhận dần cách thức lưu trữ theo lối thủ công và xác lập văn bản được “lưu trữ dưới dạng điện tử” cùng tư cách “nguồn tư liệu” của các KNL

(Leech, 1992: 116; Sinclair, 2004: 12; McEnery, 2004: 29; Bennett, 2010: 2). Các nghiên cứu NNHNL chú trọng hơn đến cách thức chọn mẫu ngôn ngữ (tập hợp các văn bản / đoạn văn bản), tính đại diện, cách thức lưu trữ và mục đích sử dụng (tham

chiếu chuẩn) của KNL. Bên cạnh đó, khả năng đọc được trên máy và độ lớn của

KNL cũng được coi trọng. McCarthy (2004:1) định nghĩa: “Kho ngữ liệu là tập

hợp ngữ liệu văn bản, bút ngữ và khẩu ngữ, thường được lưu trữ dưới dạng cơ sở

dữ liệu trên máy tính. Một KNL có thể nh ỏ, gồm 50.000 từ, cũng có thể rất lớn với

nhiều triệu từ”. Nguyễn Thiện Giáp (2016: 211) cũng đưa ra định nghĩa KNL là

“một tập hợp lớn, đã cấu trúc hóa của các văn bản được dùng như một cơ sở để

nghiên cứu ngôn ngữ. Giá trị và phẩm chất của KNL phần lớn phụ thuộc vào cách tiếp cận cụ thể và phương pháp luận của khung lý thuyết của sự nghiên cứu. Hiện nay, KNL thường được xử lý và tàng trữ bằng điện tử”.

Trên thực tế, cách thức lưu trữ văn bản điện tử chiếm một phần đáng kể trong

nghiên cứu KNL, giúp kéo các nghiên cứu KNL lại gần hơn với Ngôn ngữ học tính

toán trong việc “sử dụng các thuật toán, thường có sự trợ giúp của máy tính (...) để

phân tích các dữ liệu ngôn ngữ, chẳng hạn, trong việc xác lập thứ tự trong đó người nói thụ đắc các quy tắc ngữ phápkhác nhau hoặc tần số xuất hiện của một số đơn vị nào đó”(Nguyễn Thiện Giáp, 2016 : 316).

Trên cơ sở xem xét các quan niệm về KNL hiện đại cùng với tính chất và hoạt động của KNL, có thể thấy một tập hợp các mẫu ngôn ngữ tự nhiên (khẩu ngữ hoặc

bút ngữ) để trở thành một KNL cần đáp ứng các tiêu chí thiết kế nhất định, được lưu trữ và xử lý dưới dạng điện tử, đại diện cho một ngôn ngữ hay một biến thể

ngôn ngữ và được dùng làm tư liệu nguồn phục vụ nghiên cứu ngôn ngữ. Những

yếu tố trên thể hiện tính chất tổng hợp của nghiên cứu, xác lập tính tổ chức và tính mô phỏng theo tỉ lệ sử dụng của một biến ngôn ngữ nhất định mà KNL được thành lập. Bên cạnh đó, đặc điểm độ lớn của tập hợp ngôn ngữ cũng được nhấn mạnh với tư cách là tư liệu nguồn phục vụ nghiên cứu.

Ngôn ngữ học ngữ liệu nghiên cứu xây dựng các KNL và dùng chúng để

nghiên cứu ngôn ngữ. Các KNL hỗ trợ mô tả về định lượng và định tính ngôn ngữ

thông qua phân tích ngữ liệu và phân tích phân bố từ vựng trong KNL. Tuy nhiên, nhiều yếu tố như phạm vi, qui trình xử lý, phương tiện, số lượng ngôn ngữ, đối tượng phát ngôn và cách chú giải ngôn ngữ,... chi phối các hướng tiếp cận khác nhau đối với KNL. Xét từ góc độ phạm vi nghiên cứu, KNL phổ thông nghiên cứu

tổng thể ngôn ngữ phân biệt với KNL chuyên ngành phục vụ nghiên cứu chuyên môn hẹp. Từ góc độ qui trình xử lý, lựa chọn văn bản có thể tiếp cận KNL mẫu văn

bản và KNL toàn văn. Tính năng động của KNL mang tới những phân tích KNL “đóng” không được cập nhật và KNL “mở”, còn được gọi là KNL giám sát ha y

“ngân hàng văn bản”. Trên phương diện phương tiện có KNL bút ngữ, KNL khẩu

ngữ và KNL tổng hợp. Số ngôn ngữ sử dụng trong một KNL tạo nên KNL đơn ngữ, KNL song song hay đa ngữ. Thời gian mà số liệu ngôn ngữ thu thập mang lại KNL

đồng đại hay lịch đại. Đối tượng phát ngôn tạo ra KNL bản ngữ hoặc KNL của người học. Và cách chú giải KNLcho ra đờiKNL thuần văn bản hay KNL chú giải. Xuất phát từ mục đích nghiên cứu, các kiểu KNL khác nhau đãđược xây

dựng với các đặc trưng trong tập hợp ngôn ngữ, xử lý và phân tích tư liệu. Các

nghiên cứu ngôn ngữ học ngữ liệu hiện đại đề cập đến 8 loại KNL thông dụng được

xây dựng theo mục đích gồm KNL phổ thông, KNL giám sát, KNL chuyên dụng,

KNL lịch sử, KNL so sánh, KNL song song, KNL người học và KNL sư phạm

(Hunston, 2002 : 14-16 ; Bennet, 2010).

KNL phổ thông (General Corpora) được xây dựng để nghiên cứu toàn bộ

ngôn ngữ hoặc các lĩnh vực đa dạng bên trong ngôn ngữ. Kho ngữ liệu này thường

dùng như tài liệu tham chiếu cho việc học ngôn ngữ cũng như dịch thuật và được

biết đến với cái tên KNL tham chiếu (Reference Corpora). Các KNL phổ thông

khá lớn, chứa tập hợp ngôn ngữ gồm nhiều loại văn bản, cả bút ngữ lẫn khẩu ngữ,

lấy từ một hay nhiều ngôn ngữ. Các KNL phổ thông điển hình được biết đến nhiều nhất hiện nay là KNL Anh ngữ quốc gia (British National Corpus - BNC) gồm 100 triệu hiện dạng (số lần xuất hiện của một dạng hay một đơn vị từ vựng trong văn

bản –quan niệm này sẽ được đề cập cụ thể ở chương 3), KNL Ngân hàng Anh ngữ

(Bank of English – BoE) gồm trên 400 triệu hiện dạng, KNL tiếng Anh-Mỹ

(American National Corpus), KNL tiếng Tây Ban Nha (http: //www.corpusdelespanol.org/), KNL văn bản tiếng Nhật (BCCWJ) (http: //www.ninjal.ac.jp/english/products/bccwj/),...

Mặc dù có qui mô lớn, các KNL phổ thông với bản chất tĩnh chỉ thể hiện tính

chất ngôn ngữ ở một thời điểm nhất định. Các nghiên cứu mang tính thời sự về

những biến đổi của ngôn ngữ cần sử dụng các KNL được cập nhật,bổ sung ngữ liệu thường xuyên, được gọi là KNL giám sát (Monitor Corpora). Các KNL giám sát

thường có qui mô rất lớn, có dung lượng thay đổi liên tục, chứa đựng các thông tin

mới nhất về ngôn ngữ thực, cung cấp tư liệu ngôn ngữ phong phú trên nhiều lĩnh

(COCA) gồm 450 triệu hiện dạng (2009-2012), KNL từ điển tiếng Anh của Đại học

Oxford (OED) chứa gần 2,5 tỉ hiện dạng và KNL giám sát lớn nhất Collins với độ

lớn đạt trên 4,5 tỉ hiện dạng.

Không giống với KNL giám sát, KNL lịch sử (Historical / Diachronic

Corpora) được xây dựng để nghiên cứu các biến đổi ngôn ngữ giữa các giai đoạn

lịch sử. Các KNL này không cập nhật ngữ liệu liên tục mà thu thập ngữ liệu theo

thể loại và các mốc thời gian cần nghiên cứu nên đa dạng về độ lớn. Các dự án xây

dựng KNL lịch sử như Helsinki nghiên cứu tiếng Scotlen cổ từ 1450-1700, KNL

Archer nghiên cứu ngôn ngữ Anh trong khoảng thời gian từ 1650-1990 chỉ phân

tích khoảng 2-3 triệu hiện dạng. Trong khi đó, KNL lịch sử tiếng Anh-MỹCOHA (Corpus of Historial American English) tập hợp ngữ liệu từ 1810 đến 2009 có độ

lớn lên tới 400 triệu hiện dạng. Dựa trên KNL lịch sử, các nhà nghiên cứu có thể so

sánh ngôn ngữ qua từng thời kỳ, so sánh từ vựng, ngữ nghĩa, phong cách hay diễn

ngôn của từng giai đoạn phát triển của ngôn ngữ dân tộc.

Xét từ góc độ so sánh ngôn ngữ đồng đại, KNL so sánh (Comparable Corpora)được thành lập để "so sánh các ngôn ngữ với nhau (...), hoặc so sánh các

biến thể của một ngôn ngữ cùng thời kỳ” (Hunston, 2002: 15). Các KNL so sánh

thường được xây dựng thành từng cặp hoặc nhóm tương ứng về độ lớn, phạm vi

khai thác ngữ liệu, thời gian ra đời của các mẫu,...nhằm thể hiện những điểm khác

biệt và tương đồng giữa hai hay nhiều ngôn ngữ một cách rõ nhất. Ví dụ, cặp KNL

LOB (1961) và Brown (1961), FLOB (1992) và Frown (1992) dành để so sánh tiếng Anh-Anh và Anh-Mỹ, các KNL ICE New Zealand, ICE-Singapore, ICE- Canada, ICE-Hongkong,…dùng để so sánh đặc trưng biến thể ngôn ngữ theo địa

phương (phương ngữ).

KNL song song (Parallel Corpora) cũng được thiết kế theo cặp hoặc nhóm

tiểu kho tương ứng về cả phương diện ngôn ngữ lẫn độ lớn. Thực chất, ngữ liệu của

tiểu kho này là văn bản dịch của tiểu khokia trong cùng một KNL. KNL song song được sử dụng trong đối chiếu ngôn ngữ trên phương diện dịch thuật, ngữ dụng học,

hay ngôn ngữ học văn hóa, hướng tới phục vụ đối tượng làm công tác biên, phiên dịch, nghiên cứu và cả đối tượng người học trong việc tìm kiếm các cách diễn đạt tương đươngcủa hai hay nhiều ngôn ngữ.

Các nghiên cứu cụ thể hơn về một dạng (type) ngôn ngữ hay một ngữ vực (register) thường xây dựng KNL chuyên dụng (Specialized Corpora). Chúng là

“KNL tập hợp một dạng văn bản đặc thù như bài báo, sách, bài báo học thuật về

một chủ đề cụ thể, bài giảng, các cuộc hội thoại, bài viết của sinh viên,...”

(Hunston, 2002: 14). Các KNL chuyên dụng có thể là tiểu kho bộ phận nằm trong

một KNL lớn. Tuy nhiên, nhìn chung KNL chuyên dụng giới hạn văn bản theo thời

gian, bối cảnh xã hội, địa điểm phát ngôn,..., chẳng hạn KNL diễn ngôn CANCODE

(Cambridge and Nottingham Corpus of Discourse in English) nghiên cứu 5 triệu

hiện dạng tiếng Anh-Anh thông dụng, KNL khẩu ngữ học thuật MICASE

(Michigan Corpus of Academic Spoken English) thu thập 1 triệu hiện dạng khẩu

ngữ, hay các KNL dựa trên văn bản viết một ngành như KNL tài chính (Financial English Corpus), KNL pháp lý (Legal English Corpus), KNL điều dưỡng và y học

(Nurning and Medical English Corpus),...

Trong lĩnh vực nghiên cứu ngôn ngữ phục vụ giảng dạy, KNL người học

(Learner Corpus)được đặc biệt chú trọng trong việc xem xét sựkhác biệt vềngôn ngữ mà người học sử dụng so với ngôn ngữ chuẩn. KNL người học thu thập ngữ

liệu sản sinh (productive language) gồm các bài viết hoặc khẩu ngữ của người học ngôn ngữ như người học ngôn ngữ thứ hai, người học ngoại ngữ, hay người bản

ngữ ở các độ tuổi hay ngành nghề nhất định nhằm nghiên cứu các yếu tố ngôn ngữ

vĩ mô như văn phong, tính chân thực, giao tiếp khẩu ngữ, các yếu tố ngôn ngữ vi mô như từ vựng, các tiêu chí ngữ âm, ngữ pháp, hay mô tả chương trình giảng dạy. KNL người học được sử dụng nhiều nhất hiện nay là KNL người học quốc tế ICLE (International Corpus of Learner English) (1990s), KNL người học của Đại học Cambridge CLC (Cambridge Learner’s Corpus),...

Mặc dù KNL người học được sử dụng phổ biến nhưng KNL sư phạm

(Pedagogic Corpora) có ngữ liệu bao quát hơn. Theo Hunston (2002: 16), ngữ liệu

trong KNL sư phạm là “toàn bộ ngôn ngữ mà người học tiếp xúc” trong quá trình

học tập như tư liệu văn bản, tài liệu, khẩu ngữ trong giao tiếp, ngôn ngữ từ các phương tiện truyền thông, băng, đĩa,...Mở rộng định nghĩa trên, Meunier và Gouverneur (dẫn theo Aijmer, 2009: 186) cho rằng “KNL sư phạm cần đủ lớn và

mang tínhđại diện của ngôn ngữ, khẩungữ và bút ngữ,mà người học đã và có khả năng tiếp xúc từ các tư liệu học bao gồm văn bản, băng đĩa và bài tập”. Do đó, có

thể nói KNL sư phạm là một khái niệm lớn, bao chứa cả ngôn ngữ tiếp nhận

(receptive) lẫn sản sinh (productive) từ KNL người học, KNL giáo khoa và các tư

liệu học tập khác. Tuy nhiên, cũng chính vì bao chứa quá nhiều ngữ liệu trên một

phạm vi rộng nên các KNL sư phạm phổ thông ít được phát triển. Thay vào đó, các KNL sư phạm hiện nay chỉ tập trung khai thác vào một mảng ngôn ngữ nhất định

mà KNL giáo khoa là một phần trong đó.

1.2.1.3. Cấu tạo của Kho ngữ liệu

Cấu tạo của một kho ngữ liệu máy tính là kết quả của việc triển khai thiết kế

trên ba lĩnh vực ngôn ngữ học mô tả (Descriptive Linguistics), ngôn ngữ học tính toán (Computational Linguistics), và nghiên cứu văn phong (Literary Studies)

(Kennedy 1998: 85). Do đó, cấu tạo của KNL máy tính gồm tập hợp ngữ liệu mục

tiêu, phần mềm máy tính chi phối bởi quyết định phân tích ngôn ngữ.

- Tập hợp ngữ liệu mục tiêu

Trước khi xác định tập hợp ngữ liệu mục tiêu cần đề cập đến tập hợp ngữ

liệu. Tập hợp ngữ liệu (population) “là nhóm bao chứa toàn bộ các đơn vị mẫu”

(McEnery, 2006: 19) và được xác định trên ba phương diện: sản sinh ngôn ngữ

(language production), tiếp nhận ngôn ngữ (language reception), và sản phẩm ngôn ngữ (language as a product). Ngôn ngữ sản sinh được tạo ra trong hoạt động giao tiếp bao gồm khẩu ngữ (lời nói,bài phát biểu, hội thoại,độc thoại,...),hoặc bút ngữ (câu, đoạn, bài viết, bài nghiên cứu,...). Ngôn ngữ tiếp nhận tập hợp các yếu tố

ngôn ngữ được tiếp thu từ bên ngoài như các bài phát biểu,bài giảng, chương trình

phát thanh, truyền hình, sách, báo,...Ở hai phương diện này, các tiêu chí liên q uan

đến đối tượng sản sinh hay tiếp nhận được chú trọng để phân loại ngôn ngữ.

Phương diện sản phẩm ngôn ngữ được nhìn nhận từ góc độ thể loại (genre) hay

Những khái niệm cơ bản của Ngôn ngữ học ngữ liệu

Kho ngữ liệu giáo khoa

Tiêu chí độ lớn Kho ngữ liệu