6. Cấu trúc của luận án
1.2. Cơ sở lý luận của luận án
1.2.1. Những khái niệm cơ bản của Ngôn ngữ học ngữ liệu
1.2.1.1. Khái niệm về ngôn ngữhọc ngữ liệu
Thuật ngữ Corpus Linguistics (Ngôn ngữ học ngữ liệu) lần đầu tiên được
Aarts và Van den Heuvel sử dụng năm 1982 (dẫn theo Taylor, 2008: 179) để chỉ
các nghiên cứu liên quan đến việc xây dựng và sử dụng Kho ngữ liệu (KNL). Đến
nay, ngôn ngữ học ngữ liệu (NNHNL) được tiếp cận từ nhiều góc độ và được mô tả ở nhiều khía cạnh khác nhau. Một số nghiên cứu khai thác phương diện phương
pháp trong phân tích ngữ liệu về mặt định lượng và định tính (Wilson, 1996 ; Kennedy, 1998; Meyer, 2002; Müller & Wibel, 2016), trong khi số khác đề cao
tính hệ thống của các phương pháp và nguyên tắc ứng dụng KNL trong nghiên cứu,
khẳng định tư cách lý thuyết của NNHNL (McEnergy, Xiao and Tono, 2006: 7-8) . Các nhà nghiên cứu như Leech (1992), McEnergy, Xiao and Tono (2006), Tognini Bonelli (2000, 2001), Stubbs (1993), Teubert (2005), Mahlberg (2005),
nghiên cứu NNHNL và đề cập đến nó trong quá trình tạo lập và khai thác KNL. Leech (1992: 106) cho rằng “NNHNL máy tính (Computer Corpus Linguistics) xác lập không chỉ một hệ phương pháp mới để nghiên cứu ngôn ngữ mà còn là hoạt động nghiên cứu mới, trên thực tế đây là cách tiếp cận về mặt lý luận về chủ đề
này”.
Nguyễn Thiện Giáp (2016: 308) cũng khẳng định vị thế lý thuyết của NNHNL
và bổ sung thêm vai trò của nó trong địa hạt ngôn ngữ. Ông cho rằng “Ngôn ngữ
học kho ngữ liệu (Corpus Linguistics) là sự nghiên cứu ngôn ngữ như được biểu lộ
trong các mẫu của các văn bản thực. Đây là một cách tiếp cận dễ hiểu để có được
một tập hợp các qui tắc trừu tượng của các ngôn ngữ tự nhiên. Ngôn ngữ học kho
ngữ liệu chia sẻ niềm tin rằng sự phân tích ngôn ngữ học diễn ra ở những mẫu văn
bản thu thập được, trong ngữ cảnh tự nhiên, hạn chế đến mức thấp nhất những suy đoán chủ quan thì sẽ đáng tin cậy hơn”.
Xét từ nhiều phương diện, có thể thấy NNHNL tập hợp lý thuyết và phương
pháp nghiên cứu đa ngàn h – ngôn ngữ, công nghệ và dạy học – để phục vụ các nghiên cứu đa lĩnh vực. Cách thức xây dựng và ứng dụng KNL kết hợp với quan niệm nghiên cứu NNHNL hiện đại của Sinclair (2004), Tognini-Bonelli (2000, 2001), McEnery (2004), Bennett (2010),... góp phần khẳng định NNHNL là một
khoa học liên ngành trong đó xác lập hệ thống phương pháp và lý thuyết đặc thù để nghiên cứu KNL ngôn ngữ. Nó lấy đối tượng là các tập hợp ngôn ngữ, kết hợp với phần mềm phân tích để đưa ra các kết quả đáng tin cậy trong nghiên cứu ngôn ngữ trên nhiều phương diện, đồng thời kiểm nghiệm hiệu quả của hệ thống phần mềm
xửlý.Các kết quả trong nghiên cứu NNHNL phục vụ và thúc đẩy sự phát triển trên nhiều lĩnh vực như ngôn ngữ học, công nghệ xử lý ngôn ngữ tự nhiên, và công nghệ
dạy học ngoại ngữ. Nhận định trên được minh chứng qua nhiều nghiên cứu của
Fang, 1992; Nunan, 1999; Biber, 2001; Hunston, 2001; Nation, 2001; Nation & Heatley, 2002; Gries, 2005; Bennett, 2010; Anthony, 2012; Glynn, 2012; Gardner, 2013; Kohn, 2013,...
1.2.1.2. Khái niệm Kho ngữ liệu (KNL)
Khái niệm Kho ngữ liệu (Corpus) phần nhiều được hình thành từ quan niệm
coi tập hợp ngữ liệu văn bản, gồm văn bản viết (văn bản bút ngữ) và văn bản nói
(bản ghi khẩu ngữ), làm cơ sở cho phân tích và mô tả ngôn ngữ (Kennedy, 1998: 1). Trên thực tế, dạng văn bản hay hình thức ngữ liệu cũng như việc phân tích ngôn
ngữ chưa đủ để tạo nên KNL, mà việc tổ chức của tập hợp ngữ liệu văn bản mới
tạo nên diện mạo cho các KNL. Đối với một KNL hiện đại, công nghệ xử lý ngôn
ngữ tự nhiên đóng một vai trò quan trọng không chỉ trong việc thu thập, phân tích
ngữ liệu mà còn trong tổ chức, trình hiện ngữ liệu. Do đó, nói đến các KNL hiện đại không thể không đề cập đến cách thức lưu trữ và xử lý ngữ liệu.
Công nghệ xử lý ngôn ngữ tự nhiên cuối thế kỷ 20, đầu thế kỷ 21 mang đến
các KNL đồ sộ, đa dạng hơn nhiều so với trước đó về loại văn bản và phạm vi khai thác văn bản. Yêu cầu xử lý thông tin đa lĩnh vực, đa chiều một cách chính xác và nhanh chóng phủ nhận dần cách thức lưu trữ theo lối thủ công và xác lập văn bản được “lưu trữ dưới dạng điện tử” cùng tư cách “nguồn tư liệu” của các KNL
(Leech, 1992: 116; Sinclair, 2004: 12; McEnery, 2004: 29; Bennett, 2010: 2). Các nghiên cứu NNHNL chú trọng hơn đến cách thức chọn mẫu ngôn ngữ (tập hợp các văn bản / đoạn văn bản), tính đại diện, cách thức lưu trữ và mục đích sử dụng (tham
chiếu chuẩn) của KNL. Bên cạnh đó, khả năng đọc được trên máy và độ lớn của
KNL cũng được coi trọng. McCarthy (2004:1) định nghĩa: “Kho ngữ liệu là tập
hợp ngữ liệu văn bản, bút ngữ và khẩu ngữ, thường được lưu trữ dưới dạng cơ sở
dữ liệu trên máy tính. Một KNL có thể nh ỏ, gồm 50.000 từ, cũng có thể rất lớn với
nhiều triệu từ”. Nguyễn Thiện Giáp (2016: 211) cũng đưa ra định nghĩa KNL là
“một tập hợp lớn, đã cấu trúc hóa của các văn bản được dùng như một cơ sở để
nghiên cứu ngôn ngữ. Giá trị và phẩm chất của KNL phần lớn phụ thuộc vào cách tiếp cận cụ thể và phương pháp luận của khung lý thuyết của sự nghiên cứu. Hiện nay, KNL thường được xử lý và tàng trữ bằng điện tử”.
Trên thực tế, cách thức lưu trữ văn bản điện tử chiếm một phần đáng kể trong
nghiên cứu KNL, giúp kéo các nghiên cứu KNL lại gần hơn với Ngôn ngữ học tính
toán trong việc “sử dụng các thuật toán, thường có sự trợ giúp của máy tính (...) để
phân tích các dữ liệu ngôn ngữ, chẳng hạn, trong việc xác lập thứ tự trong đó người nói thụ đắc các quy tắc ngữ phápkhác nhau hoặc tần số xuất hiện của một số đơn vị nào đó”(Nguyễn Thiện Giáp, 2016 : 316).
Trên cơ sở xem xét các quan niệm về KNL hiện đại cùng với tính chất và hoạt động của KNL, có thể thấy một tập hợp các mẫu ngôn ngữ tự nhiên (khẩu ngữ hoặc
bút ngữ) để trở thành một KNL cần đáp ứng các tiêu chí thiết kế nhất định, được lưu trữ và xử lý dưới dạng điện tử, đại diện cho một ngôn ngữ hay một biến thể
ngôn ngữ và được dùng làm tư liệu nguồn phục vụ nghiên cứu ngôn ngữ. Những
yếu tố trên thể hiện tính chất tổng hợp của nghiên cứu, xác lập tính tổ chức và tính mô phỏng theo tỉ lệ sử dụng của một biến ngôn ngữ nhất định mà KNL được thành lập. Bên cạnh đó, đặc điểm độ lớn của tập hợp ngôn ngữ cũng được nhấn mạnh với tư cách là tư liệu nguồn phục vụ nghiên cứu.
Ngôn ngữ học ngữ liệu nghiên cứu xây dựng các KNL và dùng chúng để
nghiên cứu ngôn ngữ. Các KNL hỗ trợ mô tả về định lượng và định tính ngôn ngữ
thông qua phân tích ngữ liệu và phân tích phân bố từ vựng trong KNL. Tuy nhiên, nhiều yếu tố như phạm vi, qui trình xử lý, phương tiện, số lượng ngôn ngữ, đối tượng phát ngôn và cách chú giải ngôn ngữ,... chi phối các hướng tiếp cận khác nhau đối với KNL. Xét từ góc độ phạm vi nghiên cứu, KNL phổ thông nghiên cứu
tổng thể ngôn ngữ phân biệt với KNL chuyên ngành phục vụ nghiên cứu chuyên môn hẹp. Từ góc độ qui trình xử lý, lựa chọn văn bản có thể tiếp cận KNL mẫu văn
bản và KNL toàn văn. Tính năng động của KNL mang tới những phân tích KNL “đóng” không được cập nhật và KNL “mở”, còn được gọi là KNL giám sát ha y
“ngân hàng văn bản”. Trên phương diện phương tiện có KNL bút ngữ, KNL khẩu
ngữ và KNL tổng hợp. Số ngôn ngữ sử dụng trong một KNL tạo nên KNL đơn ngữ, KNL song song hay đa ngữ. Thời gian mà số liệu ngôn ngữ thu thập mang lại KNL
đồng đại hay lịch đại. Đối tượng phát ngôn tạo ra KNL bản ngữ hoặc KNL của người học. Và cách chú giải KNLcho ra đờiKNL thuần văn bản hay KNL chú giải. Xuất phát từ mục đích nghiên cứu, các kiểu KNL khác nhau đãđược xây
dựng với các đặc trưng trong tập hợp ngôn ngữ, xử lý và phân tích tư liệu. Các
nghiên cứu ngôn ngữ học ngữ liệu hiện đại đề cập đến 8 loại KNL thông dụng được
xây dựng theo mục đích gồm KNL phổ thông, KNL giám sát, KNL chuyên dụng,
KNL lịch sử, KNL so sánh, KNL song song, KNL người học và KNL sư phạm
(Hunston, 2002 : 14-16 ; Bennet, 2010).
KNL phổ thông (General Corpora) được xây dựng để nghiên cứu toàn bộ
ngôn ngữ hoặc các lĩnh vực đa dạng bên trong ngôn ngữ. Kho ngữ liệu này thường
dùng như tài liệu tham chiếu cho việc học ngôn ngữ cũng như dịch thuật và được
biết đến với cái tên KNL tham chiếu (Reference Corpora). Các KNL phổ thông
khá lớn, chứa tập hợp ngôn ngữ gồm nhiều loại văn bản, cả bút ngữ lẫn khẩu ngữ,
lấy từ một hay nhiều ngôn ngữ. Các KNL phổ thông điển hình được biết đến nhiều nhất hiện nay là KNL Anh ngữ quốc gia (British National Corpus - BNC) gồm 100 triệu hiện dạng (số lần xuất hiện của một dạng hay một đơn vị từ vựng trong văn
bản –quan niệm này sẽ được đề cập cụ thể ở chương 3), KNL Ngân hàng Anh ngữ
(Bank of English – BoE) gồm trên 400 triệu hiện dạng, KNL tiếng Anh-Mỹ
(American National Corpus), KNL tiếng Tây Ban Nha (http: //www.corpusdelespanol.org/), KNL văn bản tiếng Nhật (BCCWJ) (http: //www.ninjal.ac.jp/english/products/bccwj/),...
Mặc dù có qui mô lớn, các KNL phổ thông với bản chất tĩnh chỉ thể hiện tính
chất ngôn ngữ ở một thời điểm nhất định. Các nghiên cứu mang tính thời sự về
những biến đổi của ngôn ngữ cần sử dụng các KNL được cập nhật,bổ sung ngữ liệu thường xuyên, được gọi là KNL giám sát (Monitor Corpora). Các KNL giám sát
thường có qui mô rất lớn, có dung lượng thay đổi liên tục, chứa đựng các thông tin
mới nhất về ngôn ngữ thực, cung cấp tư liệu ngôn ngữ phong phú trên nhiều lĩnh
(COCA) gồm 450 triệu hiện dạng (2009-2012), KNL từ điển tiếng Anh của Đại học
Oxford (OED) chứa gần 2,5 tỉ hiện dạng và KNL giám sát lớn nhất Collins với độ
lớn đạt trên 4,5 tỉ hiện dạng.
Không giống với KNL giám sát, KNL lịch sử (Historical / Diachronic
Corpora) được xây dựng để nghiên cứu các biến đổi ngôn ngữ giữa các giai đoạn
lịch sử. Các KNL này không cập nhật ngữ liệu liên tục mà thu thập ngữ liệu theo
thể loại và các mốc thời gian cần nghiên cứu nên đa dạng về độ lớn. Các dự án xây
dựng KNL lịch sử như Helsinki nghiên cứu tiếng Scotlen cổ từ 1450-1700, KNL
Archer nghiên cứu ngôn ngữ Anh trong khoảng thời gian từ 1650-1990 chỉ phân
tích khoảng 2-3 triệu hiện dạng. Trong khi đó, KNL lịch sử tiếng Anh-MỹCOHA (Corpus of Historial American English) tập hợp ngữ liệu từ 1810 đến 2009 có độ
lớn lên tới 400 triệu hiện dạng. Dựa trên KNL lịch sử, các nhà nghiên cứu có thể so
sánh ngôn ngữ qua từng thời kỳ, so sánh từ vựng, ngữ nghĩa, phong cách hay diễn
ngôn của từng giai đoạn phát triển của ngôn ngữ dân tộc.
Xét từ góc độ so sánh ngôn ngữ đồng đại, KNL so sánh (Comparable Corpora)được thành lập để "so sánh các ngôn ngữ với nhau (...), hoặc so sánh các
biến thể của một ngôn ngữ cùng thời kỳ” (Hunston, 2002: 15). Các KNL so sánh
thường được xây dựng thành từng cặp hoặc nhóm tương ứng về độ lớn, phạm vi
khai thác ngữ liệu, thời gian ra đời của các mẫu,...nhằm thể hiện những điểm khác
biệt và tương đồng giữa hai hay nhiều ngôn ngữ một cách rõ nhất. Ví dụ, cặp KNL
LOB (1961) và Brown (1961), FLOB (1992) và Frown (1992) dành để so sánh tiếng Anh-Anh và Anh-Mỹ, các KNL ICE New Zealand, ICE-Singapore, ICE- Canada, ICE-Hongkong,…dùng để so sánh đặc trưng biến thể ngôn ngữ theo địa
phương (phương ngữ).
KNL song song (Parallel Corpora) cũng được thiết kế theo cặp hoặc nhóm
tiểu kho tương ứng về cả phương diện ngôn ngữ lẫn độ lớn. Thực chất, ngữ liệu của
tiểu kho này là văn bản dịch của tiểu khokia trong cùng một KNL. KNL song song được sử dụng trong đối chiếu ngôn ngữ trên phương diện dịch thuật, ngữ dụng học,
hay ngôn ngữ học văn hóa, hướng tới phục vụ đối tượng làm công tác biên, phiên dịch, nghiên cứu và cả đối tượng người học trong việc tìm kiếm các cách diễn đạt tương đươngcủa hai hay nhiều ngôn ngữ.
Các nghiên cứu cụ thể hơn về một dạng (type) ngôn ngữ hay một ngữ vực (register) thường xây dựng KNL chuyên dụng (Specialized Corpora). Chúng là
“KNL tập hợp một dạng văn bản đặc thù như bài báo, sách, bài báo học thuật về
một chủ đề cụ thể, bài giảng, các cuộc hội thoại, bài viết của sinh viên,...”
(Hunston, 2002: 14). Các KNL chuyên dụng có thể là tiểu kho bộ phận nằm trong
một KNL lớn. Tuy nhiên, nhìn chung KNL chuyên dụng giới hạn văn bản theo thời
gian, bối cảnh xã hội, địa điểm phát ngôn,..., chẳng hạn KNL diễn ngôn CANCODE
(Cambridge and Nottingham Corpus of Discourse in English) nghiên cứu 5 triệu
hiện dạng tiếng Anh-Anh thông dụng, KNL khẩu ngữ học thuật MICASE
(Michigan Corpus of Academic Spoken English) thu thập 1 triệu hiện dạng khẩu
ngữ, hay các KNL dựa trên văn bản viết một ngành như KNL tài chính (Financial English Corpus), KNL pháp lý (Legal English Corpus), KNL điều dưỡng và y học
(Nurning and Medical English Corpus),...
Trong lĩnh vực nghiên cứu ngôn ngữ phục vụ giảng dạy, KNL người học
(Learner Corpus)được đặc biệt chú trọng trong việc xem xét sựkhác biệt vềngôn ngữ mà người học sử dụng so với ngôn ngữ chuẩn. KNL người học thu thập ngữ
liệu sản sinh (productive language) gồm các bài viết hoặc khẩu ngữ của người học ngôn ngữ như người học ngôn ngữ thứ hai, người học ngoại ngữ, hay người bản
ngữ ở các độ tuổi hay ngành nghề nhất định nhằm nghiên cứu các yếu tố ngôn ngữ
vĩ mô như văn phong, tính chân thực, giao tiếp khẩu ngữ, các yếu tố ngôn ngữ vi mô như từ vựng, các tiêu chí ngữ âm, ngữ pháp, hay mô tả chương trình giảng dạy. KNL người học được sử dụng nhiều nhất hiện nay là KNL người học quốc tế ICLE (International Corpus of Learner English) (1990s), KNL người học của Đại học Cambridge CLC (Cambridge Learner’s Corpus),...
Mặc dù KNL người học được sử dụng phổ biến nhưng KNL sư phạm
(Pedagogic Corpora) có ngữ liệu bao quát hơn. Theo Hunston (2002: 16), ngữ liệu
trong KNL sư phạm là “toàn bộ ngôn ngữ mà người học tiếp xúc” trong quá trình
học tập như tư liệu văn bản, tài liệu, khẩu ngữ trong giao tiếp, ngôn ngữ từ các phương tiện truyền thông, băng, đĩa,...Mở rộng định nghĩa trên, Meunier và Gouverneur (dẫn theo Aijmer, 2009: 186) cho rằng “KNL sư phạm cần đủ lớn và
mang tínhđại diện của ngôn ngữ, khẩungữ và bút ngữ,mà người học đã và có khả năng tiếp xúc từ các tư liệu học bao gồm văn bản, băng đĩa và bài tập”. Do đó, có
thể nói KNL sư phạm là một khái niệm lớn, bao chứa cả ngôn ngữ tiếp nhận
(receptive) lẫn sản sinh (productive) từ KNL người học, KNL giáo khoa và các tư
liệu học tập khác. Tuy nhiên, cũng chính vì bao chứa quá nhiều ngữ liệu trên một
phạm vi rộng nên các KNL sư phạm phổ thông ít được phát triển. Thay vào đó, các KNL sư phạm hiện nay chỉ tập trung khai thác vào một mảng ngôn ngữ nhất định
mà KNL giáo khoa là một phần trong đó.
1.2.1.3. Cấu tạo của Kho ngữ liệu
Cấu tạo của một kho ngữ liệu máy tính là kết quả của việc triển khai thiết kế
trên ba lĩnh vực ngôn ngữ học mô tả (Descriptive Linguistics), ngôn ngữ học tính toán (Computational Linguistics), và nghiên cứu văn phong (Literary Studies)
(Kennedy 1998: 85). Do đó, cấu tạo của KNL máy tính gồm tập hợp ngữ liệu mục
tiêu, phần mềm máy tính chi phối bởi quyết định phân tích ngôn ngữ.
- Tập hợp ngữ liệu mục tiêu
Trước khi xác định tập hợp ngữ liệu mục tiêu cần đề cập đến tập hợp ngữ
liệu. Tập hợp ngữ liệu (population) “là nhóm bao chứa toàn bộ các đơn vị mẫu”
(McEnery, 2006: 19) và được xác định trên ba phương diện: sản sinh ngôn ngữ
(language production), tiếp nhận ngôn ngữ (language reception), và sản phẩm ngôn ngữ (language as a product). Ngôn ngữ sản sinh được tạo ra trong hoạt động giao tiếp bao gồm khẩu ngữ (lời nói,bài phát biểu, hội thoại,độc thoại,...),hoặc bút ngữ (câu, đoạn, bài viết, bài nghiên cứu,...). Ngôn ngữ tiếp nhận tập hợp các yếu tố
ngôn ngữ được tiếp thu từ bên ngoài như các bài phát biểu,bài giảng, chương trình
phát thanh, truyền hình, sách, báo,...Ở hai phương diện này, các tiêu chí liên q uan
đến đối tượng sản sinh hay tiếp nhận được chú trọng để phân loại ngôn ngữ.
Phương diện sản phẩm ngôn ngữ được nhìn nhận từ góc độ thể loại (genre) hay