Trong luận văn này, chúng tôi tập trung vào lỗi lựa chọn sai kết hợp từ cố định của các sinh viên có trình độ tiếng Anh từ trung lên cao cấp, dựa trên những lí do sau: - Theo Nation 2001
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-
TRẦN KIỀU HẠNH
PHÂN TÍCH LỖI TỪ VỰNG TRONG BÀI LUẬN
CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC NGOẠI NGỮ
- ĐẠI HỌC QUỐC GIA HÀ NỘI THEO PHƯƠNG PHÁP CỦA NGÔN NGỮ HỌC NGỮ LIỆU
LUẬN VĂN THẠC SĨ NGÔN NGỮ HỌC
Hà Nội – 2019
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-
TRẦN KIỀU HẠNH
PHÂN TÍCH LỖI TỪ VỰNG TRONG BÀI LUẬN
CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC NGOẠI NGỮ
- ĐẠI HỌC QUỐC GIA HÀ NỘI THEO PHƯƠNG PHÁP CỦA NGÔN NGỮ HỌC NGỮ LIỆU
LUẬN VĂN THẠC SĨ NGÔN NGỮ HỌC
Mã số: 60220240
Người hướng dẫn khoa học: TS Phạm Hiển
Hà Nội – 2019
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực vừa chưa từng được ai công bố trong bất kì công trình nào khác
Hà Nội, ngày 20 tháng 7 năm 2019
Tác giả luận văn
Trần Kiều Hạnh
Trang 4LỜI CẢM ƠN
Trước tiên, tác giả luận văn xin bày tỏ lòng biết ơn sâu sắc tới TS Phạm Hiển, người đã hướng dẫn thực hiện luận văn này với kiến thức uyên thâm, phương pháp khoa học tiên tiến và sự tận tình hết mực
Bên cạnh đó, xin gửi lời cảm ơn chân thành đến các thầy cô giáo, các cán bộ của khoa Ngôn ngữ học, trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội đã tạo điều kiện cho tác giả trong quá trình học tập
và thực hiện luận văn
Luận văn này cũng không thể hoàn thành nếu không có sự ủng hộ của bạn bè và đồng nghiệp tại trường Đại học Ngoại ngữ - Đại học Quốc gia Hà Nội
Cuối cùng, sự đồng hành và tình yêu thương vô hạn của gia đình chính
là động lực giúp tác giả đạt được kết quả ngày hôm nay
Trang 5dự đoán là do sự chuyển di ngôn ngữ tiêu cực của tiếng Việt sang tiếng Anh, gây ra sự nhầm lẫn về nghĩa Ngoài ra, ở trình độ cao, sinh viên có
xu hướng chọn cách diễn đạt lại từ, tuy nhiên, khi lựa chọn từ đồng nghĩa lại không phù hợp trong một số trường hợp Từ những kết quả này, kết luận sư phạm khuyến nghị người học và người dạy có những điều chỉnh tập trung vào một số lỗi phổ biến như trong nghiên cứu đã chỉ ra
Từ khóa: Lỗi từ vựng, kết hợp từ cố định, ngôn ngữ học ngữ liệu, sinh
viên chuyên tiếng Anh, trình độ trung cấp cao cấp
Trang 61
MỤC LỤC
PHẦN MỞ ĐẦU 3
1 Lí do chọn đề tài 3
2 Lịch sử vấn đề 4
2.1 Các nghiên cứu trên thế giới 5
2.2 Các nghiên cứu liên quan ở Việt Nam 7
3 Đối tượng và phạm vi nghiên cứu 8
4 Mục đích và nhiệm vụ nghiên cứu 9
5 Phương pháp nghiên cứu 9
6 Bố cục của luận văn 10
CHƯƠNG 1 CƠ SỞ LÍ THUYẾT 11
1.1 Định nghĩa kết hợp từ cố định 11
1.2 Phân loại kết hợp từ cố định 14
1.3 Thụ đắc kết hợp từ cố định của người học tiếng Anh như một ngoại ngữ 15
1.4 Phân tích lỗi và phân tích lỗi kết hợp từ cố định 15
1.4.1 Quy trình phân tích lỗi 16
1.4.2 Phân tích lỗi kết hợp từ cố định 20
1.5 Về ngôn ngữ học ngữ liệu 21
1.5.1 Định nghĩa và phân loại kho ngữ liệu 22
1.5.2 Vai trò của kho ngữ liệu 23
1.5.3 Kho ngữ liệu đối chiếu bản ngữ và từ điển kết hợp từ cố định 24
1.6 Giả thuyết nghiên cứu của luận văn 25
1.7 Thu thập và xử lí ngữ liệu 25
1.7.1 Nguồn ngữ liệu 25
1.7.2 Cách thức thu thập ngữ liệu 26
1.7.3 Công cụ xử lí ngữ liệu 27
1.7.4 Xử lí ngữ liệu bước đầu 27
1.7.5 Đánh dấu từ loại cho ngữ liệu 27
1.7.6 Quy trình xử lí ngữ liệu và phân tích lỗi 28
1.8 Tiểu kết 38
CHƯƠNG 2 LỖI KẾT HỢP THỰC TỪ VÀ GIỚI TỪ 39
2.1 Danh từ + Giới từ 39
2.1.1 N + about, N + on 39
2.1.2 N + for 46
2.1.3 Những trường hợp khác 48
Trang 72
2.2 Tính từ + Giới từ 51
2.2.1 ADJ + about 52
2.2.2 ADJ + for, ADJ + to 52
2.3 Giới từ + Danh từ 53
2.4 Động từ + Giới từ 56
2.5 Tiểu kết 60
CHƯƠNG 3 LỖI KẾT HỢP THỰC TỪ VÀ THỰC TỪ 61
3.1 Động từ + Danh từ 61
3.1.1 Tổng hợp lỗi kết hợp động từ và danh từ 61
3.1.2 Phân tích trường hợp cụ thể 62
3.2 Tính từ + Danh từ 71
3.2.1 Tổng hợp lỗi kết hợp Tính từ và danh từ 71
3.2.2 Phân tích trường hợp cụ thể 72
3.3 Trạng từ + Tính từ 75
3.3.1 Tổng hợp lỗi kết hợp Trạng từ và tính từ 75
3.3.2 Phân tích trường hợp cụ thể 76
3.4 Tiểu kết 78
KẾT LUẬN 80
1 Các kết quả nghiên cứu 80
2 Hạn chế của nghiên cứu 81
3 Hướng phát triển của đề tài 81
TÀI LIỆU THAM KHẢO 83
PHỤ LỤC 89
Trang 8tài “Phân tích lỗi từ vựng trong bài luận của sinh viên Trường Đại học
Ngoại ngữ - Đại học Quốc gia Hà Nội theo phương pháp ngôn ngữ học ngữ liệu”
Lỗi từ vựng là lỗi về sự lựa chọn từ, phân biệt với lỗi ngữ pháp là lỗi về cách tổ chức từ trong câu Có nhiều loại lỗi từ vựng, ví dụ lựa chọn từ sai nghĩa, lựa chọn từ sai phong cách văn bản, hoặc lựa chọn kết hợp từ sai Trong luận văn này, chúng tôi tập trung vào lỗi lựa chọn sai kết hợp từ cố định của các sinh viên có trình độ tiếng Anh từ trung lên cao cấp, dựa trên những lí do sau:
- Theo Nation (2001) collocation (kết hợp từ cố định) là một phần quan
trọng trong ngôn ngữ, mà mức độ thành thạo và chính xác khi sử dụng chúng trở thành tiêu chí phân biệt người bản ngữ và phi bản ngữ, hoặc tiêu chí phân biệt trình độ thành thạo ngôn ngữ đích của người học [44]
Với người phi bản ngữ, có sự khác biệt rõ ràng về khả năng sử dụng kết hợp từ cố định giữa người học ở trình độ trung cấp và cao cấp Sự khác biệt
đó đã được đưa vào bảng mô tả thang chấm Nói của bài thi IELTS, ở tiêu chí đánh giá Mức độ sử dụng từ vựng (Lexical Resource) Để đạt được trình độ cao cấp (tức 7.0 theo thang điểm IELTS hay C1 theo khung CEFR – Khung đánh giá năng lực tiếng của châu Âu, chia làm sáu bậc, từ A1 đến C2), người nói phải “dùng được các từ vựng ít thông dụng và mang tính thành ngữ; thể hiện ý thức về phong cách và kết hợp từ cố định dù vẫn còn lựa chọn từ chưa phù hợp” [39]
Trang 94
- Kết hợp từ cố định là một nội dung quan trọng mà người học tiếng Anh
ở Việt Nam phải nắm được và trau dồi thành thạo, nếu muốn nâng trình độ ngôn ngữ của mình lên mức cao cấp, đủ điều kiện tham gia các hoạt động trao đổi tri thức khoa học quốc tế, như du học hay tham gia dự án nghiên cứu quốc
tế Nhưng ở Việt Nam, hiện đang rất thiếu những nghiên cứu về lỗi kết hợp từ (collocation) của sinh viên, và dù nhìn rộng ra các nước trong khu vực, thì những nghiên cứu như thế này cũng không phải là nhiều
Khi bắt tay vào thực hiện đề tài, chúng tôi phần nào có thể hiểu được nguyên do Việc “bắt lỗi” của sinh viên ở trình độ cao là không hề dễ, sinh viên có thể lựa chọn cách diễn đạt an toàn, hơn là mạo hiểm sử dụng những cách diễn đạt “ít thông dụng” mà họ chưa nắm chắc [35] Nguyên nhân thứ hai là vấn đề về phương pháp nghiên cứu Bởi lẽ, nghiên cứu về lỗi mà không tiến hành bởi người bản ngữ của ngôn ngữ đích thì thao tác nhận diện và miêu
tả lỗi cần được tiến hành bằng phương pháp chặt chẽ Nghiên cứu này được thực hiện do phương pháp ngôn ngữ học ngữ liệu (corpus linguistics) đã cung cấp cho chúng tôi phương pháp khả thi trong việc nhận diện lỗi
2 Lịch sử vấn đề
Từ những năm 1990, theo Hsu (2007) các thảo luận học thuật về tầm quan trọng của kết hợp từ cố định trở nên sôi nổi trong lĩnh vực giảng dạy ngoại ngữ [37] Có bốn lí do chính được đưa ra:
Đầu tiên, các giáo viên dạy tiếng Anh cho người nước ngoài TESOL (Teaching English for Students of Other Languages) chỉ trích các phương pháp giảng dạy ngoại ngữ và ngôn ngữ thứ hai (như phương pháp Dịch ngữ pháp – Grammar Translation) đã bỏ qua vai trò của từ vựng (Schmitt, 2000) [50] Nhu cầu tìm ra các cách dạy từ vựng hiệu quả cho người học ngoại ngữ hai trở nên bức thiết Thứ hai, Lewis (1997) đã tiến hành một chương trình giảng dạy dựa trên kết hợp từ cố định cũng như thực từ với thực từ [40] Tiếp
Trang 105
theo, việc tiếp cận với các kho ngữ liệu đối chiếu dễ dàng, như Kho ngữ liệu Quốc gia tiếng Anh-Anh British National Corpus (BNC) và Kho ngữ liệu Quốc gia tiếng Anh-Mỹ (American National Corpus) giúp các nhà nghiên cứu ngôn ngữ tiếp cận một khối lượng văn bản viết và nói tiếng Anh rất lớn để sử dụng Lí do cuối cùng là việc biên soạn các cuốn từ điển BBI Combinatory Dictionary of English và Oxford Collocations Dictionary for Learners of English cho phép việc tra cứu cụm từ kết hợp tiện lợi hơn nhiều
Với những lí do trên, mối quan tâm đến việc học kết hợp từ cố định khởi phát trong thụ đắc ngôn ngữ thứ hai Ellis (1994) khẳng định ngoại ngữ không chỉ bao gồm các đơn vị từ đơn lẻ mà còn là các kết hợp từ, các biểu đạt đã được định khuôn sẵn hay chưa có sẵn như kết hợp từ cố định, cụm động từ cố
định (phrasal verbs) [27]
2.1 Các nghiên cứu trên thế giới
Các nghiên cứu về việc sử dụng kết hợp từ cố định của người học ngoại ngữ còn khá ít, nhưng tầm quan trọng của vấn đề đã càng ngày càng được chú
ý hơn, phương pháp nghiên cứu dựa vào kho ngữ liệu cũng được áp dụng trong nhiều nghiên cứu Một số nghiên cứu tiêu biểu như:
Năm 1993, Bahns và Eldaw nghiên cứu trên đối tượng học tiếng Anh là người Đức về các kết hợp từ cố định theo dạng động từ kết hợp với danh từ Kết quả chỉ ra rằng số lượng lỗi kết hợp từ cố định cao gấp đôi số lượng từ đơn lẻ Bahns và Eldaw cho rằng tiếng mẹ đẻ có thể dẫn đến việc dùng sai kết hợp từ cố định [11]
Tương tự, Nesselhauf (2005) nghiên cứu bài viết của học viên người Đức học tiếng Anh và đưa ra kết quả là các lỗi phổ biến là lựa chọn sai động
từ Nessenhauf phát hiện ra rằng tiếng mẹ đẻ có ảnh hưởng đến tất cả các loại lỗi kết hợp từ cố định và việc học sẽ khó khăn hơn nếu các kết hợp cố định giữa tiếng mẹ đẻ và ngoại ngữ đang học không tương đương
Trang 116
Trong một nghiên cứu khác, Nessenhauf trích xuất khoảng 2000 kết hợp
cố định dạng động từ + danh từ từ Kho ngữ liệu tiếng Anh của người Đức, trong đó, một phần tư số lỗi nói chung và một phần ba lỗi kết hợp từ cố định được đánh giá là mang tính hệ thống Lỗi kết hợp từ xảy ra cả với người học
Trong khi đó Biskup (1992) nghi ngờ việc nhấn mạnh sự ảnh hưởng của tiếng mẹ đẻ khi tìm nguyên nhân gây lỗi [13] Trong nghiên cứu của Wang và Shaw (2008), các nhóm học viên có tiếng mẹ đẻ khác nhau cùng mắc lỗi kết hợp từ cố định tương tự trong bài luận như lỗi kết hợp sai “do, make” với danh từ Trong phân tích sử dụng kết hợp từ cố định của người học cao cấp, Wang và Shaw biện luận rằng việc học kết hợp từ cố định có mối liên hệ chặt chẽ với học cú pháp, vì thế thưởng bị ảnh hưởng bởi các yếu tố ngoại ngữ, nói cách khác đây là những lỗi tự ngữ đích Theo họ chuyển di từ tiếng mẹ đẻ chỉ
là một trong các yếu tố gây lỗi [57]
Nghiên cứu về việc sử dụng kết hợp từ cố định của người học Việt Nam, hai tác giả Nguyễn Thị Mỹ Hằng và Webb (2016) chỉ ra người học Việt Nam trình độ cận trung cấp có xu hướng ít sử dụng kết hợp từ cố định Hai tác giả khảo sát 100 sinh viên đại học chuyên ngành tiếng Anh trình độ từ A2-B1, yêu cầu sinh viên thực hiện các bài kiểm tra về kết hợp từ, nhằm đánh giá khả năng sử dụng kết hợp từ cố định Động từ-Danh từ và Tính từ-Danh từ, với phạm vi là những động từ và tính từ thuộc danh sách 3000 từ thông dụng, kết
Trang 127
quả cho thấy lượng kết hợp từ cố định của đối tượng này đạt chưa đến một nửa so với mục tiêu Giải thích nguyên nhân của kết quả này, các tác giả cho rằng, quá trình dạy và học tiếng Anh tập trung chủ yếu vào các đơn vị từ đơn
lẻ thay vì tổ hợp từ, do vậy người học dễ hiểu nhầm nghĩa từ trong văn cảnh Thêm vào đó, người học thiếu hiểu biết về tầm quan trọng của kết hợp từ cố định cũng như không ý thức được độ phức tạp khi học kết hợp từ cố định [46] Các nghiên cứu về lỗi kết hợp từ cũng sử dụng phương pháp ngôn ngữ học ngữ liệu gần đây trên thế giới tập trung vào xây dựng và so sánh các kho ngữ liệu người học với kho ngữ liệu bản ngữ để tìm ra lỗi kết hợp từ cố định Laufer & Waldman (2011) khảo sát kho ngữ liệu 300,000 từ trong bài luận của sinh viên nói tiếng Hebrew học tiếng Anh, đối chiếu với kho ngữ liệu bản ngữ để tìm ra tần suất sử dụng kết hợp từ cố định của người học so với người bản ngữ, và kết luận lỗi kết hợp từ cố định vẫn tìm thấy ở người học cao cấp Trong khi đó, Hong và cộng sự (2011), nghiên cứu đối tượng người Malaysia học tiếng Anh trên kho ngữ liệu EMAS (tiếng Anh của học sinh Malaysia) và kết luận rằng lỗi phổ biến nằm ở các kết hợp từ cố định liên quan đến giới từ [35] Yanjuan (2014) nghiên cứu trên kho ngữ liệu tiếng Anh của người học Trung Quốc (CLEC) và đối chiếu với kho ngữ liệu BNC để đưa ra kết luận rằng kết hợp Động từ với Danh từ là loại lỗi phổ biến nhất trong bài luận của sinh viên Trung Quốc [58]
2.2 Các nghiên cứu liên quan ở Việt Nam
Những nghiên cứu áp dụng phương pháp phân tích lỗi và giải thích nguyên nhân lỗi khá phổ biến trong các nghiên cứu về thụ đắc ngoại ngữ ở Việt Nam thời gian gần đây Tác giả Nguyễn Thiện Nam (2001) khi nghiên cứu lỗi tiếng Việt của 3 nhóm người học nước ngoài khác nhau chỉ ra rằng nguyên nhân gây lỗi không chỉ do ảnh hưởng của tiếng mẹ đẻ mà còn do nguyên nhân vượt tuyến (overgeneralisation); ngoài ra, tuỳ mức độ, có thể có
Trang 138
do chuyển di giảng dạy (transfer of training) hay chiến lược giao tiếp (communication strategy) [6] Nhiều nghiên cứu về lỗi tiếng Anh, đặc biệt là lỗi từ vựng trong dịch thuật cũng cho rằng nguyên nhân do cả vấn đề của ngôn ngữ đích (Intralingual) và yếu tố giao thoa ngôn ngữ đích và tiếng mẹ đẻ (Interlingual) (Phan Thị Kim Cúc, 2018) [21] Các tác giả Lê Linh Hương (2017), Phương Hoàng Yến, Thái Minh Nguyên (2018) trong [4], [9] đều nhận ra sự thiếu vắng hướng dẫn học kết hợp từ cố định trong các chương trình dạy tiếng Anh cho đối tượng từ học sinh phổ thông trung học đến sinh viên đại học, và khẳng định vai trò của kết hợp từ cố định trong việc nâng cao
kĩ năng viết của người học Ngoài ra, ở đối tượng sinh viên không chuyên tiếng Anh, lỗi kết hợp từ tập trung nhiều nhất ở loại kết hợp từ cố định thực từ với thực từ (lexical collocations) mang tính cố định cao bởi người học không
có đủ vốn từ kết hợp cố định [4]
Nhìn chung, bức tranh toàn cảnh của việc nghiên cứu kết hợp từ cố định cho thấy việc sử dụng các cụm từ này còn nhiều vấn đề với người học, kể cả người học ở trình độ cao cấp và vấn đề lớn nằm ở cách dùng các từ và kết hợp
từ cố định thông dụng Về phương pháp tiến hành, các nghiên cứu trước đây tại Việt Nam sử dụng phương pháp phân tích lỗi văn bản, sử dụng các công
cụ là bài kiểm tra và bảng hỏi, mà theo khảo sát của chúng tôi, chưa tìm thấy nghiên cứu nào phân tích lỗi kết hợp phương pháp của ngôn ngữ học ngữ liệu Trên cơ sở này, luận văn cố gắng phân tích các lỗi kết hợp từ cố định của người Việt học tiếng Anh trình độ trung cấp trở lên như một ngoại ngữ áp dụng phương pháp và các công cụ hỗ trợ của ngôn ngữ học ngữ liệu
3 Đối tƣợng và phạm vi nghiên cứu
Đối tượng luận văn hướng tới là các lỗi từ vựng của người học tiếng Anh trình độ từ B2 lên C1, tức là từ trung cấp bậc cao lên cao cấp Trong các loại lỗi từ vựng, luận văn tập trung vào lỗi xảy ra với kết hợp từ cố định Như tên
Trang 149
gọi của nó, các kết hợp từ cố định là những lựa chọn kết hợp giữa các từ đã được cố định hoá theo thói quen ngôn ngữ, việc thay thế một yếu tố trong kết hợp này sẽ dẫn đến lỗi từ vựng So với việc mắc lỗi ngữ nghĩa khi dùng từ hay mắc lỗi phong cách trong diễn đạt, thì mắc lỗi kết hợp từ cố định có những tiêu chí về hình thức giúp chúng ta xác định được chúng
Phạm vi nghiên cứu: bài luận tiếng Anh của sinh viên chuyên ngành tiếng Anh, năm 3 và 4, Trường Đại học Ngoại ngữ, Đại học Quốc gia Hà Nội Luận văn chỉ khảo sát các bài viết này dưới góc độ sử dụng ngôn ngữ, cụ thể là tập trung vào các lỗi kết hợp từ cố định xuất hiện trong bài
4 Mục đích và nhiệm vụ nghiên cứu
Mục đích nghiên cứu: làm rõ các lỗi kết hợp từ cố định của người học tiếng Anh trình độ từ trung cấp bậc cao lên cao cấp
Để thực hiện mục đích trên, nghiên cứu đặt ra các nhiệm vụ nghiên cứu sau: (1) nhận diện các lỗi kết hợp từ cố định (2) phân loại lỗi theo tiêu chí, (3) giải thích nguyên nhân gây lỗi
5 Phương pháp nghiên cứu
Ngoài những phương pháp logic thông thường được áp dụng cho nghiên cứu khoa học xã hội, trong luận văn này chúng tôi chủ yếu áp dụng phương pháp nghiên cứu và thủ pháp nghiên cứu sau:
-Phương pháp phân tích lỗi trong thụ đắc ngôn ngữ;
-Phương pháp nghiên cứu ngôn ngữ học ngữ liệu
Các thủ pháp nghiên cứu như khảo sát văn bản, thống kê, so sánh…cũng được áp dụng
Miêu tả cụ thể về phương pháp nghiên cứu ngôn ngữ học ngữ liệu sẽ được trình bày trong chương 1
Trang 1510
6 Bố cục của luận văn
Ngoài phần mở đầu và phần kết luận, nội dung chính của luận văn chia làm ba chương Nội dung của từng phần như sau:
1 Phần mở đầu: Phần này giới thiệu lí do chọn đề tài, lịch sử vấn đề,
đối tượng và phạm vi nghiên cứu, mục đích và nhiệm vụ nghiên cứu, phương pháp nghiên cứu và bố cục của luận văn
2 Chương 1: Cơ sở lí luận Chương này trình bày khái quát các lí thuyết
về kết hợp từ cố định, về lỗi và phân tích lỗi, về ngôn ngữ học ngữ liệu, và giới thiệu các kho ngữ liệu tiếng Anh được dùng làm tham chiếu xác định lỗi Bên cạnh đó, chương này cũng đưa ra giả thuyết nghiên cứu của luận văn và miêu tả cụ thể về quá trình thu thập ngữ liệu, xây dựng kho ngữ liệu, và việc
áp dụng phương pháp ngôn ngữ học ngữ liệu trong phân tích lỗi kết hợp từ cố định
3 Chương 2: Lỗi thực từ kết hợp với giới từ Chương này trình bày kết
quả và bàn luận về nguyên nhân gây ra các loại lỗi kết hợp từ cố định trường
hợp thực từ kết hợp với giới từ
4 Chương 3: Lỗi thực từ kết hợp với thực từ Chương này trình bày kết
quả vào bàn luận về nguyên nhân gây ra các loại lỗi kết hợp từ cố định trường
hợp thực từ kết hợp với thực từ
5 Phần kết luận: tóm tắt lại kết quả nghiên cứu, nêu ra những hạn chế
của luận văn và phương hướng phát triển tiếp theo
Trang 16green-eyed make it Nhóm (1), nghĩa của cả cụm từ được dễ dàng suy ra từ nghĩa của từng thành tố trong cụm từ đó, đồng thời mỗi một thành tố có thể tham gia vào các quan hệ liên tưởng khác nhau, ví dụ “dark blue”, thì “dark” có thể được thay thế bằng “light”, “blue” có thể được thay thế bằng “red” hay “green”, v.v Nhóm (1) là một kết hợp lỏng lẻo, và tần suất dark + blue kết hợp với nhau không phải là dày đặc trong các kết hợp của blue Nhóm này gọi là các kết hợp từ tự do Nhóm (3), nghĩa của cả cụm từ không thể suy ra từ nghĩa của từng thành tố trong cụm đó, ví dụ “green-eyed” nghĩa là “ghen tị”- chỉ một loại cảm xúc của con người, trong khi nghĩa của từng yếu tố trong cụm ghép lại thì chỉ là “mắt – xanh” Nhóm này gọi là các “thành ngữ”, chúng là một tổ hợp cố định, luôn luôn đi cạnh nhau và khó phán đoán về nghĩa Nhóm thứ (2) nằm giữa hai nhóm trên, nghĩa của cả cụm có thể hình dung được dựa vào nghĩa của từng thành tố, ví dụ “crystal clear” = rõ ràng (như) pha lê, tuy nhiên mỗi yếu tố trong cụm từ lại không hoàn toàn tự do tham gia vào quan hệ liên tưởng khác Ví dụ không thể thay “crystal” bằng “glass” được Nhóm thứ (2) này là “kết hợp từ cố định” (collocation)
Chúng ta có thể hình dung kết hợp từ cố định nằm trên một dải liên tục
từ kết hợp lỏng lẻo đến thành ngữ, tính “cố định” của chúng lại khá linh hoạt trong nhiều trường hợp khác nhau, chúng có thể rất gần với kết hợp lỏng lẻo, hoặc rất gần với thành ngữ
Trang 1712
Chúng ta có thể tham khảo một định nghĩa như sau về kết hợp từ cố định trong từ điển Oxford: “[kết hợp từ cố định] là sự kết hợp theo thói quen của một từ cụ thể với một từ khác có tần suất lớn hơn ngẫu nhiên.” (the habitual juxtaposition of a particular word with another word or words with a frequency greater than chance.)
Việc đưa ra những bộ tiêu chí để phân biệt một kết hợp là lỏng lẻo hay
cố định đã được giới nghiên cứu ngôn ngữ quan tâm từ lâu
Để xác định cụm từ cố định, Firth (1957) dựa vào tần suất đồng hiện, ông và những người ủng hộ coi tần số đồng hiện là đặc điểm đặc thù của kết hợp từ cố định Halliday (1966) và Sinclair (1991) tiếp tục đề cao vai trò của tần suất đồng hiện Sinclair cho rằng, kết hợp từ cố định là “sự xuất hiện của hai hay nhiều từ, trong một khoảng cách gần nhau trong văn bản” (“the occurrence of two or more words, within a short space of each other in a text”) [53, tr.170]
Tuy nhiên, Howarth (1998), Schmitt (1998), Shin và Nation (2008), và Nizonkiza (2012b) trong [36], [49], [52], [47], cho rằng, tuy tính “kết hợp thường xuyên” là một chỉ dấu quan trọng, nhưng chỉ riêng nó vẫn là không đủ
để miêu tả kết hợp từ cố định Danh sách 100 kết hợp từ cố định phổ biến trong ngôn ngữ nói tiếng Anh do Shin và Nation [52, tr.345] đề xuất đã không
đưa vào những cụm chào hỏi như „good morning‟, „good afternoon‟, „good
evening‟, và „how are you?‟, mặc dù chúng đáp ứng được yêu cầu về tần suất
đồng hiện Họ đề xuất tần suất sử dụng cần được cân bằng hợp lí với các tiêu chí khác, đặc biệt trong giảng dạy
Kết hợp lỏng lẻo Kết hợp cố định Thành ngữ
Trang 1813
Một hướng tiếp cận khác là từ truyền thống từ vựng học Những người ủng hộ truyền thống này đề xuất định nghĩa về kết hợp từ cố định bằng việc cân nhắc bản chất cú pháp của các thành tố kết hợp từ và mức độ về khả năng thay thế của chúng Ví dụ: “powerful engine” là một kết hợp từ cố định trong tiếng Anh, trong khi “strong engine” lại không phải Các tính từ “powerful”
và “strong” có nghĩa rất gần nhau nhưng lại không thể dùng thay thế được Tuy nhiên ta vẫn có thể thay “powerful” bằng “big, small, twin,…” để tạo thành các kết hợp đúng với từ “engine” Tương tự với kết hợp “strong tea”, các từ thay thế cho tính từ “strong” có thể là “stewed, weak, cold, hot, fresh, …” nhưng không thể dùng “powerful” khi miêu tả về “tea” Rõ ràng ở đây, sự thay thế là có thể xảy ra nhưng bị giới hạn
Theo Nesselhauf (2005), hướng tiếp cận từ truyền thống từ vựng học bị ảnh hưởng bởi truyền thống từ vực học tiếng Nga, và Cowie là đại diện tiêu biểu Cowie chia kết hợp từ cố định thành hai loại là loại hỗn hợp (composites)
và loại công thức (formulae) Những cụm từ như “good morning” và “how are you” là loại công thức với chức năng ngữ dụng là chủ yếu Ngược lại, kết hợp từ cố định thuộc loại hỗn hợp thì sẽ chủ yếu có chức năng cú pháp [45] Benson và cộng sự [12] và Nation (2001) lại chấp nhận tần suất là yếu tố quyết định khi định nghĩa kết hợp từ cố định dù họ đi theo hướng từ vựng học Theo đó, một kết hợp từ cố định phải “bị giới hạn, rõ ràng và thường xuyên” (“restricted, transparent and frequent”) Điều này tạo tiền đề cho một hướng tiếp cận mới nhằm dung hòa hai trường phái trước Hướng tiếp cận này chọn những ưu điểm của cả hai truyền thống nhằm hạn chế những điểm yếu của từng bên [45, tr.17] Hướng tiếp cận này phù hợp với quan điểm của Handl‟s (2008) nói rằng kết hợp từ cố định là kết quả của minh bạch ngữ nghĩa, phạm
vi kết hợp và tần số có liên quan của các thành tố (semantic transparency,
Trang 1914
collocational range, and related frequency of the constituents) [33] Vậy nên các yếu tố ngữ nghĩa, từ vựng và thống kê đều thuộc hướng tiếp cận này Luận văn chọn hướng tiếp cận dung hòa về kết hợp từ cố định và áp dụng định nghĩa trong Từ điển Oxford Collocations Dictionary (2002) về kết hợp từ cố định Một kết hợp từ được coi là cố định, khi nó đảm bảo các yếu tố sau: (+) tính rõ ràng về nghĩa, (+) bị giới hạn về khả năng thay thế, (+) tần suất đồng hiện cao hơn ngẫu nhiên và (+) phù hợp với thói quen diễn đạt của người bản ngữ
Thói quen diễn đạt của người bản ngữ, hay tính “tự nhiên”, tức là được người bản ngữ chấp nhận rộng rãi, điều này không phụ thuộc vào một cá nhân Một cá nhân người bản ngữ, ví dụ như một nhà văn, có thể sáng tạo ra một cách kết hợp từ độc đáo, nhằm phục vụ cho một mục đích nghệ thuật nào đó Một kết hợp từ như thế, khi chúng tôi đặt vào trong kho ngữ liệu bản ngữ để kiểm tra mức độ phổ biến, và kết quả là nó không phù hợp với đại đa số, thì
chúng tôi cũng vẫn kết luận đây là một kết hợp “lỗi”
1.2 Phân loại kết hợp từ cố định
Phân loại kết hợp từ cố định được thấy trong các nghiên cứu của M Benson, E Benson, & R Ilson (1997) [56], Hill (2000) [34] và Conzett (2000) [18, tr.133] Các tác giả đưa ra những bảng phân loại khác nhau, nhưng nhìn một cách tổng quát, chúng tôi thấy các kết hợp từ cố định được chia thành 2 loại lớn, loại kết hợp từ cố định thiên ngữ nghĩa, tức là các kết hợp giữa thực từ và thực từ, và loại thiên cấu trúc, tức là một cụm từ bao gồm
từ chính (danh từ, động từ hoặc tính từ) và một giới từ hoặc một cấu trúc ngữ pháp như một từ nguyên thể hoặc một mệnh đề” (a phrase consisting of a dominant word (noun, adjective, or verb) and a preposition or grammatical
structure such as an infinitive or a clause).[56]
Trang 2015
Trong luận văn này, chúng tôi dựa vào tiêu chí hình thức từ loại, chia kết hợp từ cố định thành hai loại, loại kết hợp giữa thực từ và thực từ và loại kết hợp giữa thực từ và giới từ
1.3 Thụ đắc kết hợp từ cố định của người học tiếng Anh như một ngoại ngữ
Sự chuyển di ngôn ngữ từ tiếng mẹ đẻ được coi là một yếu tố thiết yếu
trong thụ đắc ngoại ngữ, do vậy, sẽ có ảnh hưởng đến việc sử dụng kết hợp từ
cố định của người học [45] Ellis (1994) cho rằng nếu trong tiếng mẹ đẻ và ngoại ngữ đang học có hai kết hợp từ cố định giống nhau thì việc học sẽ dễ
dàng hơn qua chuyển di tích cực, còn nếu chúng khác nhau thì việc học trở nên khó khăn và lỗi sẽ xuất hiện do chuyển di tiêu cực có khả năng lớn sẽ xảy
ra [27] Ví dụ, học viên người Thụy Điển và người Trung Quốc tạo ra các kết
hợp từ cố định như *do changes, *do a great effort, *make damage, *make
the cleaning, bởi sự chuyển di tiêu cực từ tiếng mẹ đẻ [57]
Ngoài ảnh hưởng của tiếng mẹ đẻ, việc sử dụng các từ đồng nghĩa thay thế cũng là một cách người học ngoại ngữ “vượt tuyến” tạo nên các kết hợp không phù hợp với thói quen của người bản ngữ Farghal & Obiedat (1995) nghiên cứu trên đối tượng người Ả-rập học tiếng Anh như một ngoại ngữ đã thấy rằng họ có thể tưởng rằng một từ tiếng Anh và các từ đồng nghĩa của nó
có thể dùng thay thế nhau, do vậy phần nào tạo ra sự sai lệch trong khi dùng tiếng Anh [28]
1.4 Phân tích lỗi và phân tích lỗi kết hợp từ cố định
Định nghĩa về lỗi: Lỗi là sự lệch chuẩn so với các quy tắc của ngôn ngữ
đích [27] Các quy chuẩn ở đây được lựa chọn tùy thuộc vào điều kiện, hoàn cảnh cũng như nhu cầu của người học Trong luận văn này, đối tượng người học hướng đến mục tiêu thành thạo kĩ năng viết học thuật, cho nên quy chuẩn lựa chọn là tiếng Anh học thuật tiêu chuẩn (standard academic English) Các nguồn ngữ liệu đối chiếu vì thế sẽ được lựa chọn trên tiêu chí này
Trang 2116
Phân biệt lỗi và lầm: Lỗi có tính hệ thống, lỗi do người học mắc phải
khi sử dụng ngôn ngữ đích Những lỗi này cho thấy một hệ thống ngôn ngữ trung gian (interlanguage), hay là hệ thống kết cấu ngôn ngữ người học tạo ra trong quá trình thành thạo ngôn ngữ đích [20] Lầm là hiện tượng lệch chuẩn không mang tính hệ thống Người bản ngữ có thể mắc “lầm” (mistake) [6, tr.5] như nói nhịu, người bản ngữ ít khi mắc lỗi như người học ngoại ngữ
Trong dạy học ngoại ngữ, lỗi là yếu tố có lợi cho người học, người dạy
và thậm chí cả các nhà nghiên cứu ngôn ngữ học [19] Theo Corder, lỗi người học là bằng chứng về hệ thống ngôn ngữ mà người học đã học và đang sử dụng tại một thời điểm cụ thể Theo đó, người dạy dựa vào lỗi sẽ biết được mức độ tiến bộ của người học cũng như những kiến thức cần bổ sung cho họ Ngược lại, người học coi lỗi là phương tiện học bởi việc sửa lỗi sẽ giúp họ ghi nhớ tốt hơn Lỗi còn là căn cứ để các nhà nghiên cứu quan sát được quá trình ngôn ngữ được học và thụ đắc, các chiến lược hay quy trình nào người học dùng để khám phá ngôn ngữ đích Năm 1988, Doff đã khẳng định rằng lỗi sai chính là một bước tích cực cho người học tiến bộ [23] Luận văn này tập trung vào lỗi kết hợp từ cố định cũng với mong muốn tìm ra một hướng đi giúp người học đạt được mục tiêu trong quá trình học ngoại ngữ
Phân tích lỗi là phương pháp dùng để phát hiện lỗi trong ngôn ngữ của người học, xem xét những lỗi đó có tính hệ thống hay không và giải thích nguyên nhân lỗi nếu có thể Người bản ngữ sẽ dễ nhận ra lỗi của người học ngoại ngữ, tuy nhiên, như chúng ta thấy, độ chuẩn xác cũng chỉ là một yếu tố đánh giá khả năng của ngôn ngữ người học Để đánh giá sự thành thạo một ngoại ngữ, các yếu tố cần xét đến là sự chuẩn xác, sự trôi chảy và độ phức tạp [54] [23], [25], [26]
1.4.1 Quy trình phân tích lỗi
Các nhà nghiên cứu đã thiết kế ra một quy trình phân tích lỗi như sau [20]:
Trang 2217
(1) Phát hiện lỗi trong mẫu ngữ liệu người học
Để phân tích lỗi, Pit Corder đưa ra một nguyên tắc chung: tất cả các câu trong ngôn ngữ của người học đều được coi là “có thể sai” cho đến khi xác minh được chúng là sai hay đúng Còn nếu không xác định được thì gác câu
đó lại, không phân tích Tại điểm cuối của giai đoạn nhận diện lỗi sai, ta có hai câu: một câu sai và một câu đúng – câu đã được sửa, mà về bản chất, theo Pit Corder, thì chúng cùng biểu thị chung một ý nghĩa Đối với từng lỗi, cần nhận diện người nói hay người viết muốn truyền đạt điều gì và thực hiện điều
đó như thế nào
Ví dụ, một người học tiếng Anh có thể nói: *She go to school by bike
Đây là một lỗi Vậy trước hết phải xem xét người học muốn truyền đạt điều gì? Có thể cân nhắc ít nhất hai cách sau:
(1) She IS GOING to school by bike (Cô ấy đang đang đi xe đạp tới trường.)
(2) She GOES to school by bike (Cô ấy tới trường bằng xe đạp.)
Đây là thao tác tái cấu trúc lỗi, Tarone & Swierzbin [55, tr.25] lưu ý có thể có nhiều hơn một cách để tái cấu trúc các lỗi người học Việc nhận dạng lỗi phụ thuộc vào thông điệp người học muốn truyền đạt Nhưng điều này phức tạp ở chỗ sản phẩm ngôn ngữ có thể mắc lỗi ở nhiều khía cạnh một lúc:
âm vị, hình thái, cú pháp hay từ vựng
Trang 2318
của câu gốc là lỗi về thì của động từ “go”, cần chia thành “is going” như trong (1) Tuy nhiên, khi người học muốn miêu tả thói quen thì đây lại là lỗi hòa hợp chủ ngữ và động từ, “go” cần chia thành “goes”
(3) Giải thích lỗi
Khi đã xác định được các lỗi mang tính hệ thống trong ngữ liệu từ người học, nhà nghiên cứu dựa vào đó để tìm ra nguyên nhân gây lỗi Có rất nhiều nguyên nhân đã được chỉ ra trong các nghiên cứu Nguyên nhân phổ biến là
sự chuyển di ngôn ngữ, tức là sử dụng quy tắc của ngôn ngữ mẹ đẻ cho ngôn ngữ đích Một số lỗi cũng được xếp vào loại lỗi phát triển (developmental errors) mà hầu hết người học nào cũng mắc phải bất kể họ nói tiếng mẹ đẻ nào đi nữa Cách truyền đạt của giáo viên hay cách trình bày của sách học cũng có thể gây ra lỗi về cấu trúc (form) Selinka (1977) thấy rằng người học tuy mắc lỗi về cấu trúc nhưng sử dụng các chiến lược giao tiếp thì vẫn có thể truyền đạt được thông điệp họ mong muốn [51]
Giải thích lỗi người học không phải lúc nào cũng dễ dàng và đơn giản bởi có những lỗi gây ra bởi nhiều nguyên nhân Lightbown & Spada [41, tr.15] cho rằng “… ưu điểm của phương pháp phân tích lỗi là nó miêu tả được người học thực sự làm gì nhưng lại không phải lúc nào cũng cho ta một cái nhìn rõ ràng vì sao họ làm như vậy.” (…while error analysis has the advantage of describing what learners actually do …it does not always give us clear insights into why they do it.)
Khi phân loại lỗi theo nguồn gốc, Nguyễn Thiện Nam (2001) tổng hợp ra hai loại lỗi:
- Lỗi giao thoa (intelingual error): sinh ra do ảnh hưởng của tiếng mẹ đẻ lên sản phẩm của ngôn ngữ đích, đặc biệt là ở vùng khác biệt của hai ngôn ngữ Lỗi chuyển di ngôn ngữ hay lỗi xuyên ngôn là những tên khác của lỗi
Trang 2419
giao thoa Chelli (2013) cũng định nghĩa rằng lỗi giao thoa là kết quả của sự chuyển di ngôn ngữ mà nguyên nhân là do tiếng mẹ đẻ [16]
Ví dụ:
*This muffin is very delicious
Đây là cách diễn đạt người Việt Nam hay sử dụng khi muốn nói Cái
bánh này rất ngon, dịch trực tiếp: rất → very
Tuy nhiên, trong tiếng Anh, tính từ delicious mang nghĩa very tasty nên kết hợp trên chưa chính xác Kết hợp đúng phải là This muffin is really
delicious
- Lỗi tự ngữ đích (intralingual error): sinh ra do nội bộ cấu trúc của ngôn ngữ đích, chứ không do ảnh hưởng của tiếng mẹ đẻ Ví dụ khi người nước ở các nước khác nhau mắc cùng một loại lỗi trong ngôn ngữ đích, thì đó là lỗi
tự ngữ đích Dựa vào nguyên nhân gây ra loại lỗi này, có thể chia lỗi tự ngữ đích thành các kiểu sau: lỗi chuyển di giảng dạy, lỗi vượt tuyến, lỗi không nắm rõ quy tắc ngôn ngữ đích của người học, …
Cũng theo tổng hợp của tác giả Nguyễn Thiện Nam, các nguyên nhân tạo
ra lỗi thường được quy về các chiến lược người học áp dụng trong quá trình thụ đắc ngôn ngữ thứ hai Hai chiến lược được sử dụng nhiều là Chiến lược học (Learning strategies) và Chiến lược giao tiếp (Communication strategies)
Chiến Giải Dùng một từ hay cấu trúc riêng *greatly
Trang 25recommended (highly
recommended)
Vay mượn
(Borrowing)
Trực tiếp dịch từng từ theo ngữ pháp tiếng mẹ đẻ (dựa vào chuyển di) hoặc dùng xen kẽ trực tiếp từ của tiếng mẹ đẻ
*wish you full of health and luck (wish you good health and good luck)
Trong luận văn này, khi phân tích nguyên nhân gây lỗi của người học chúng tôi sử dụng các thuật ngữ: lỗi chuyển di ngôn ngữ, lỗi tự ngữ đích khi chia phân tích lỗi theo nguồn gốc và khi bàn đến nguyên nhân tạo ra lỗi do sử dụng các chiến lược thì có các lỗi vượt tuyến, lỗi diễn đạt lại và lỗi vay mượn
1.4.2 Phân tích lỗi kết hợp từ cố định
Lỗi kết hợp từ cố định không nằm ngoài đối tượng của phân tích lỗi Các quy trình thao tác khi phân tích loại lỗi này vẫn bao gồm đầy đủ các bước thông thường của phương pháp phân tích lỗi Tuy nhiên nhờ sự kết hợp với phương pháp nghiên cứu ngôn ngữ học ngữ liệu (sẽ trình bày cụ thể dưới đây), việc phát hiện lỗi kết hợp từ cố định sẽ nhanh chóng hơn trên một khối lượng ngữ liệu lớn Vì ngữ liệu đã được gắn nhãn từ loại nên việc phân loại lỗi cũng
dễ dàng hơn Số liệu lỗi đồng thời cũng được thống kê theo tần suất để thể hiện mức độ sai có hệ thống hay không Sau đó, các lỗi kết hợp từ được đưa vào giải thích để tìm nguyên nhân Để tìm nguyên nhân gây lỗi kết hợp từ, chúng tôi xem xét trong phạm vi nguyên nhân nói chung của lỗi ngôn ngữ
Trang 2621
1.5 Về ngôn ngữ học ngữ liệu
Thuật ngữ “Corpus linguistics” được diễn đạt trong tiếng Việt thành:
“ngôn ngữ học ngữ liệu” hoặc “ngôn ngữ học khối liệu” Trong luận văn này, chúng tôi phân biệt các khái niệm sau: data = ngữ liệu (chỉ từng đơn vị ngữ liệu thu thập được), database = cơ sở ngữ liệu (toàn bộ ngữ liệu thu thập được)
và corpus = kho ngữ liệu (toàn bộ ngữ liệu thu thập được, đã được xử lí đánh dấu)1 Vì thế, “corpus linguistics” diễn đạt một cách chính xác nhất thì là
“ngôn ngữ học kho ngữ liệu”, tuy nhiên luận văn sẽ sử dụng thuật ngữ đã được chấp nhận rộng rãi hơn là “ngôn ngữ học ngữ liệu”
Thuật ngữ “ngôn ngữ học ngữ liệu” (corpus linguistics) xuất hiện lần đầu vào đầu những năm 1980 nhưng ngành nghiên cứu ngôn ngữ dựa trên kho ngữ liệu đã có một lịch sử lâu đời hơn thế
Vào những năm 1960-1970, Đại học Brown đã xây dựng thành công kho ngữ liệu Brown về tiếng Anh Mỹ đương đại Cũng trong thời gian này, Đại học Lancaster xây dựng kho ngữ liệu về tiếng Anh Anh, đặt tên là Lancaster-Oslo-Bergen (LOB) Cho đến những năm 1980, sự phát triển về công nghệ của phần cứng máy tính đã thúc đẩy ngành nghiên cứu này lên một bước mới
Sự kết hợp giữa các kho ngữ liệu với công nghệ máy tính đã khơi lại sự quan tâm đến phương pháp luận nghiên cứu kho ngữ liệu Kể từ đó số lượng và quy
mô của các kho ngữ liệu và các nghiên cứu dựa vào kho ngữ liệu đã tăng lên một cách đáng kể Vào những năm 90 của thế kỷ XX, ngôn ngữ học ngữ liệu được hình thành như một ngành khoa học độc lập về ngôn ngữ văn bản
Ngày nay phương pháp luận kho ngữ liệu trở nên rất phổ biến và đã mở
ra rất nhiều lĩnh vực nghiên cứu mới, bao gồm: từ điển học, từ vựng học, ngữ pháp học, phân tích phong cách, thể loại, nghiên cứu biến thể ngôn ngữ, phân tích đối chiếu, nghiên cứu dịch thuật, biến đổi ngôn ngữ, giảng dạy ngôn ngữ,
1 Vietlex, đơn vị biên soạn Từ điển Tiếng Việt, dùng cụm từ “ngân hàng ngữ liệu” cho thuật ngữ “corpus”
Trang 2722
ngữ nghĩa học, ngữ dụng học, phong cách học, nghiên cứu văn học, ngôn ngữ học xã hội, phân tích diễn ngôn, ngôn ngữ học hình pháp, ngôn ngữ học máy tính…
1.5.1 Định nghĩa và phân loại kho ngữ liệu
Một kho ngữ liệu là một khối văn bản hoặc ngôn ngữ được xuất hiện tự nhiên và có những quy ước thiết kế ban đầu Vì thế, các tập hợp ngẫu nhiên của văn bản không phải kho ngữ liệu Khi xây dựng kho ngữ liệu phải có mục đích rõ ràng, mục tiêu cụ thể [7], [2], [3]
Kho ngữ liệu, vì thế, mang 4 đặc tính cơ bản sau:
Kho ngữ liệu là một tập hợp các văn bản mà máy đọc được, nghĩa
là ở dạng file điện tử
Các văn bản phải là nguyên bản
Các văn bản dưới dạng văn bản viết hoặc văn bản gỡ băng
Lấy mẫu phải đại diện cho một ngôn ngữ cụ thể hoặc một phương ngữ
Kho ngữ liệu được phân loại theo mục đích sử dụng Theo Hunston [38] một số loại kho ngữ liệu phổ biến như:
Kho ngữ liệu chuyên ngành: được dùng để nghiên cứu một loại
ngôn ngữ nhất định
Kho ngữ liệu chung: có thể dùng để làm các tài liệu tham khảo cho
học và dịch ngôn ngữ, thường được dùng làm cơ sở khi so sánh với những kho ngữ liệu chuyên ngành hơn Ví dụ: Kho ngữ liệu tiếng Anh-Anh BNC, kho ngữ liệu tiếng Anh-Mĩ đương đại COCA
Kho ngữ liệu người học: được dùng để phát hiện ra các khía cạnh
ngôn ngữ khác nhau của đối tượng người học khác nhau và sự
Trang 2823
khác biệt với ngôn ngữ người bản ngữ sử dụng, do đó phần ngữ liệu bao gồm cả ngữ liệu so sánh với người bản ngữ
Kho ngữ liệu so sánh: các ngữ liệu dịch được đối sánh với nhau để
tìm ra các diễn đạt tương đương cũng như sự khác nhau giữa các ngôn ngữ
1.5.2 Vai trò của kho ngữ liệu
Hiện nay, các kho ngữ liệu đã và đang được xây dựng nhằm phục vụ mục đích đa dạng của người sử dụng Đặc biệt trong lĩnh vực nghiên cứu và giảng dạy ngôn ngữ, khai thác kho ngữ liệu giúp người dùng có thể nhận biết được nhiều thông tin, có thể kể đến:
Tần suất sử dụng của các từ, cụm từ, cấu trúc ngữ pháp;
Sự thay đổi tần suất xuất hiện của từ và cụm từ qua văn cảnh và thể loại;
Sự thay đổi tần suất xuất hiện của từ và cụm từ theo lịch đại và đồng đại;
Phong cách ngôn ngữ của các tác giả khác nhau
Sự phát triển của ngành nghiên cứu kho ngữ liệu gắn liền với sự phát triển của công nghệ máy tính Các ứng dụng ra đời giúp cho việc thu thập ngữ liệu cũng như phân tích dễ dàng hơn So với phương pháp truyền thống, việc ứng dụng các công nghệ vào phân tích kho ngữ liệu giúp tiết kiệm rất nhiều công sức và thời gian, lại thu được kết quả với quy mô và số lượng từ lớn hơn rất nhiều Đặc biệt với kho ngữ liệu người học, một lượng lớn thông tin có thể khai thác được từ đây, kể cả về kết hợp từ cố định [38]
Chính vì thế, chúng tôi lựa chọn hướng tiếp cận của ngành ngôn ngữ học ngữ liệu nhằm tái tạo một diện mạo đầy đủ nhất có thể về việc sử dụng kết hợp từ cố định của sinh viên năm 3 và 4 khoa Sư phạm tiếng Anh, Trường Đại học ngoại ngữ, Đại học Quốc gia Hà Nội
Trang 2924
1.5.3 Kho ngữ liệu đối chiếu bản ngữ và từ điển kết hợp từ cố định
Kho ngữ liệu bản ngữ tiếng Anh
Hiện tại hai kho ngữ liệu tiếng Anh Anh và Anh Mĩ đương đại phổ biến nhất là COCA và BNC
Kho ngữ liệu tiếng Anh Mỹ đương đại COCA (Corpus of Contemporary American English) là kho ngữ liệu tiếng Anh Mỹ cho phép truy cập miễn phí lớn nhất, được sử dụng rộng rãi nhất và có liên kết với nhiều kho ngữ liệu tiếng Anh khác như kho ngữ liệu tiếng Anh Mỹ lịch sử COHA, kho ngữ liệu tiếng Anh Anh BNC
COCA bao gồm cơ sở ngữ liệu hơn 520 triệu từ trong các thể loại văn bản, trong đó mỗi năm được bổ sung khoảng 20 triệu từ trong khoảng thời gian từ 1990 đến 2015 Thể loại văn bản được chia đều giữa văn bản nói, truyện, tạp chí, báo và văn bản học thuật
Kho ngữ liệu BNC là kho ngữ liệu tiếng Anh – Anh hiện đại với cơ sở ngữ liệu khoảng 100 triệu từ và khoảng 98,363,783 đơn vị được gán nhãn từ loại thuộc nhiều thể loại văn bản lấy từ tiếng Anh nói và viết Người dùng có thể truy cập miễn phí kho ngữ liệu BNC tại địa chỉ https://www.english-corpora.org/bnc/ hoặc http://bncweb.lancs.ac.uk/
Khoảng 90% từ trong kho ngữ liệu BNC được lấy từ các văn bản viết thuộc báo chí quốc gia và địa phương, các tạp chí, chuyên san v.v , 10% còn lại của kho ngữ liệu là văn bản gỡ băng của lời nói trong văn cảnh trang trọng
và không trang trọng
Chúng tôi chọn sử dụng kho ngữ liệu BNC để đối chiếu nhận diện và giải thích lỗi, bởi sự phù hợp về thể loại với ngữ liệu cần đối chiếu của luận văn (tập trung vào văn bản viết)
Từ điển kết hợp từ cố định Oxford Collocations Dictionary
Trang 3025
Từ điển kết hợp từ cố định Oxford Collocations Dictionary được xây dựng trên cơ sở kho ngữ liệu OEC (Oxford English Corpus) Đây là kho ngữ liệu có gần 2,1 tỉ từ, gấp gần 5 lần kho ngữ liệu COCA, thu thập ngữ liệu tiếng Anh năm 2000 trở về đây Thể loại văn bản của kho OEC đa dạng, bao gồm cả phương ngữ Tuy nhiên kho ngữ liệu OEC không hỗ trợ tiếp cận tự do cho người dùng mà chỉ giới hạn cho một số nghiên cứu viên sử dụng Vì vậy, chúng tôi chọn sử dụng Từ điển Oxford Collocations Dictionary, là kết quả được xây dựng từ kho ngữ liệu này để đối chiếu, với việc này, chúng tôi gián tiếp đối chiếu kết hợp từ tìm được với kho ngữ liệu khổng lồ này Mặt khác các kết hợp từ cố định được nêu trong từ điển đã được các chuyên gia ngôn ngữ Anh thẩm định, đây là nguồn tham chiếu rất tốt cho chúng tôi khi xác định các kết hợp từ cố định trong ngữ liệu của luận văn
1.6 Giả thuyết nghiên cứu của luận văn
Kết quả nghiên cứu đi trước về lỗi kết hợp từ của sinh viên châu Á trong [15, 28, 35, 37, 42, 46, 57, 58] cho thấy, lỗi kết hợp từ cố định thường xảy ra với kết hợp thực từ và giới từ và kết hợp thực từ với thực từ Giả thuyết được đặt ra trong luận văn là, người học Việt Nam cũng xuất hiện hai kiểu lỗi tương tự, vì vậy trong luận văn chúng tôi tập trung vào việc khảo sát:
(1) Kết hợp từ cố định dạng thực từ kết hợp với giới từ
Các kết hợp thực từ với giới từ, bao gồm: danh từ + giới từ, tính từ + giới
từ, giới từ + danh từ, động từ + giới từ
(B) Kết hợp từ cố định dạng thực từ kết hợp với thực từ:
Các kết hợp giữa động từ + danh từ, tính từ + danh từ, trạng từ + tính từ
1.7 Thu thập và xử lí ngữ liệu
1.7.1 Nguồn ngữ liệu
Nguồn ngữ liệu của luận văn là các bài luận tiếng Anh của sinh viên năm
3 và năm 4 khoa Sư phạm tiếng Anh, Trường Đại học ngoại ngữ, ĐHQGHN
Trang 3126
Đây là nhóm người học đã đạt chuẩn đầu ra về kiến thức tiếng, tức là đạt trình độ tiếng Anh tương đương trình độ C1 theo Khung tham chiếu Châu Âu, hoặc 7.0 IELTS Với chuẩn đầu ra này, người học đạt trình độ tiếng Anh từ trên trung cấp đến cao cấp, phù hợp với yêu cầu của đề tài Ở nhóm đối tượng này, số lượng lỗi ở trình độ thấp (lỗi chính tả, lỗi ngữ pháp như hòa hợp chủ ngữ và vị ngữ,…) sẽ hiếm xuất hiện và không gây nhiễu khi nghiên cứu các lỗi còn lại như lỗi kết hợp từ cố định Các sản phẩm viết của họ được thu thập
và dùng làm ngữ liệu cho việc phân tích
1.7.2 Cách thức thu thập ngữ liệu
Các bài viết được thu thập qua thư điện tử (email) Chúng tôi gửi thư điện tử cho lớp trưởng các lớp đề nghị cung cấp các bài luận tiếng Anh, trong thư nói rõ mục đích nghiên cứu, yêu cầu về ngữ liệu thu thập, bảo mật và quyền riêng tư, và yêu cầu về sự đồng ý sử dụng ngữ liệu cho mục đích học thuật Bằng cách gửi bài qua thư trả lời, các sinh viên đã đồng ý cung cấp ngữ liệu cho luận văn với mục đích nghiên cứu và giữ ẩn danh
Các bài luận tiếng Anh thu được tương đối phong phú và đa dạng về cả
độ dài và thể loại Chúng là các bài thu hoạch hoặc báo cáo dài từ 150 đến
1500 từ thuộc các môn học sử dụng tiếng Anh để giảng dạy như Giao tiếp liên văn hóa, Đất nước học Anh, Dẫn luận ngôn ngữ v.v Các bài viết được giáo viên dạy đánh giá về nội dung và trình độ sử dụng ngôn ngữ
Số lượng bài viết thu được là 133 bài, ứng với tổng số từ thu được là 66.828 từ Căn cứ vào số lượng chữ trong mỗi bài, cơ sở ngữ liệu (database) của luận văn bao gồm 3 loại bài viết chính: bài viết dài trên 1000 từ, bài viết ngắn 100-200 từ và bài viết có độ dài trung bình 400-600 từ Các bài viết đều được viết theo văn phong học thuật Các tệp bài viết được mã hóa và đưa vào
xử lí đảm bảo độ ẩn danh
Trang 32và phân tích văn bản Các tính năng của phần mềm này đáp ứng rất tốt cho mục đích nghiên cứu của luận văn
Khi sử dụng phần mềm này, chúng tôi có thể thiết lập danh sách các kết hợp từ chia theo các loại kết hợp từ đưa ra trong giả thuyết cũng như truy xuất
vị trí xuất hiện trong văn cảnh gốc, từ đó đưa ra danh sách kết hợp từ mắc lỗi
để đưa vào phân tích
1.7.4 Xử lí ngữ liệu bước đầu
Toàn bộ cơ sở dữ liệu định dạng văn bản doc/docx được chuyển về dạng plain text (.txt), dùng mã Unicode UTF-8 để phù hợp chạy trong các phần mềm phân tích kho ngữ liệu AntConc
1.7.5 Đánh dấu từ loại cho ngữ liệu
Để đánh dấu từ loại cho ngữ liệu, luận văn sử dụng công cụ hỗ trợ TagAnt và bảng hệ thống nhãn từ loại của Anthony dựa trên hệ thống phân loại từ của University of Washington, cụ thể xin tham khảo Phụ lục của luận văn.2
Ngữ liệu sau khi được gán nhãn từ loại sẽ có định dạng như sau:
In_IN the_DT past_JJ few_JJ weeks_NNS ,_, Intercultural_NP communication_NN provided_VVD me_PP with_IN rationale_NN
2 Tham khảo trên trang web: https://courses.washington.edu/hypertxt/csar-v02/penntable.html
Trang 33Việc gán nhãn từ loại giúp phần mền Antconc nhận diện được các kết hợp từ theo từ loại, từ đó xếp nhóm các kết hợp từ cố định như yêu cầu đặt ra
1.7.6 Quy trình xử lí ngữ liệu và phân tích lỗi
Bước 1: Xác định kết hợp từ cố định
Dữ liệu sau khi được gán nhãn, được tải vào phần mềm Antconc, chúng tôi sẽ: (a) dùng các lệnh để tìm ra các kết hợp từ (gồm kết hợp từ cố định và kết hợp từ tự do), (b) từ kết quả thu được lọc ra các kết hợp từ cố định
Dưới đây chúng tôi minh họa từng thao tác trên:
(1) Dùng lệnh để tìm các kết hợp từ
Dựa vào mục đích tìm kiếm, chúng tôi sử dụng các lệnh khác nhau để thao tác trên công cụ này Các lệnh tìm kiếm được viết ra theo cú pháp định sẵn của phần mềm, kết hợp với kí hiệu nhãn từ loại quy định, tùy vào từng loại kết hợp từ cần tìm sẽ có những công thức khác nhau
Ví dụ:
Trang 3429
Tìm kiếm các kết hợp Danh từ + Giới từ, trong ô Search Term, gõ biểu thức: “NN #IN” Các kết quả thu được như hình bên dưới:
Kết quả dưới dạng văn bản (10 dòng đầu tiên):
1 in front of the class about a topic they chose
2 consists of a short tale about a naughty rabbit named
3 Here came a story about a bargain between a
4 possible Taking a conversation about babies‟ clothing in the
5 Scandal about British children emigrated to
6 of synthesizing a general image about childhood itself In
7 British culture about childhood Previously , children
8 to prostitution The idea about children perpetuated by Victorian
9 mind and deepening my understanding about communication among cultures
10 today gave me an overview about cultural taxonomy In
Thêm lệnh tìm kiếm “NNS #IN” để thu được các kết hợp là danh từ số nhiều và giới từ:
Trang 3530
Kết quả dưới dạng văn bản (10 dòng đầu tiên):
1 Stereotyping – widely held beliefs about a group of people
2 a barrier when negative thoughts about a group of people
3 ovide overview knowledge and insights about child labor in this
4 was a transition of ideas about childhood The contradiction
5 the romantics to adopt ideas about childhood into their poetry
6 docile ones Wordsworth‟s ideas about childhood was later reinforced
7 stemmed from the poverty , ideas about children which perpetuated them
8 I have learned many things about culture around the world
9 fascinating terms and phenomenons about culture which I encountered
10 English to teach the children about culture , history : Further , I
Hoặc khi muốn tìm kiếm một khuôn cố định, chúng tôi dùng các biểu thức chính quy (regular expressions) để cho ra các kết hợp từ mong muốn
Trang 3631
Ví dụ: Khi muốn tìm các kết hợp động từ và giới từ, các động từ có thể ở
nhiều thì và dạng, ta sử dụng biểu thức chính quy \b\w*_V\w*\b
\b\w*_RP\w*\b giúp tìm kiếm động từ ở tất cả các dạng thức kết hợp với các
giới từ trong toàn bộ ngữ liệu Kết quả hiển thị trên phần mềm như sau:
Kết quả dưới dạng văn bản (10 dòng đầu tiên):
1 Education have been promoted and developed along with the change of
2 othing and the expectations that come along with wearing them
3 them by their names , or pick apart the differences between each
4 show very well She moved around , asked for the guests
5 a recession Inflation may hold around that level till the
6 child carried a luggage and hung around their necks were name
7 suggesting that he should set aside a special day in
8 “ideal citizens ”who put aside their selfish ambitions and
9 had the “fantasy of stealing away a girl „s innocence
10 more than 30 years being taken away from Nottingham to Australia
Trang 3732
Trong trường hợp xem xét từ cụ thể, chúng tôi áp dụng loại lệnh khác
Ví dụ: muốn xem trường hợp danh từ “presentation” trong các kết hợp từ, nhập lệnh “presentation” và xem kết quả
Kết quả hiển thị trên phần mềm:
Kết quả dưới dạng văn bản (10 dòng đầu tiên):
1 lesson , we had a presentation about “ DOLCE & GABBANA ADVERTISEMENT
2 of my classmate‟s presentation about intercultural relationships and
3 it Talking about the presentation , although it no doubt
4 classmates in the first presentation By looking back at
5 In our presentation , by using comparison between
6 yang as the group presentation does For example , many
7 the scandal In our presentation , firstly , we showed the
8 appear in our group presentation for not only this
9 In week 9 , the presentation has left great impression
10 I think doing the presentation helps us a lot
Trang 3833
(b) Từ kết quả thu được lọc ra các kết hợp từ cố định
Từ các kết quả thu được, những kết hợp từ nào là cố định sẽ được lọc ra dựa trên định nghĩa về kết hợp từ và dựa vào văn cảnh mà cụm từ đó xuất hiện
Ví dụ: tìm kiếm các kết hợp Động từ và Danh từ, chúng ta sẽ được kết quả như sau (trích kết quả đại diện):
48 and virtue The idea drew attention from contemporary social artists
50 I have always observed and paid attention to how the “
58 talk show so as to give audience a new experience and
59 very new and useful information helping audiences be easy to understand
81 ur , girls were encouraged to give birth as soon as possible
84 practice of child labor also gave birth to a deadly disease
85 , many families still want to give birth to boys rather than
92 can teach you how to use body language in an essential
94 than traditional ways Why buy books and carried them everywhere
95 and offered him love of reading books and learning , something that
112 all EU nationals wanting to enter Britain , which clearly points to
113 then , in 1944 , when Germany attacked Britain with V1 Flying
117 gether , for example , I like watching cai luong like when I
121 child who deserved to be taken care of and to be
123 nevertheless , women who were taking care of children under the
Trong các kết quả trên, các kết hợp từ như: give audience, helping audiences use body language, buy books, reading books, enter Britain, attacked Britain, watching cai luong, là các kết hợp từ tự do; các kết hợp từ
như drew attention, paid attention, give birth, taken care là các kết hợp từ cố
định Nhóm thứ 2 được xác định là các kết hợp từ cố định dựa trên định nghĩa
Trang 3934
và tiêu chí về kết hợp từ cố định, được kiểm tra tần suất đồng hiện trên BNC, cũng như kiểm tra bằng Từ điển kết hợp từ cố định Oxford
Bước 2: Nhận diện lỗi kết hợp từ cố định
Việc xác định đâu là kết hợp từ lỗi là công việc đòi hỏi nhiều sự tỉ mỉ Chúng tôi thực hiện các thao tác sau nhằm đảm bảo xác định đúng lỗi kết hợp
từ cố định
Thứ nhất, xem xét các kết hợp từ cố định trong ngữ cảnh Phần mềm Antconc cho phép ta truy xuất đến tệp văn bản chứa cụm từ đang xét, nên có thể xem xét cụm từ đó trong văn cảnh cụ thể
Thứ hai, xem xét các kết hợp từ đó trong kho ngữ liệu BNC để xác định tần suất xuất hiện, kết hợp từ nào có tần suất xuất hiện thấp thì thuộc diện nghi vấn có lỗi
Thứ ba xem xét kết hợp tình nghi trong từ điển Oxford Collocations Dictionary để khẳng định có phải là lỗi hay không Như chúng tôi đã giải thích bên trên, thao tác so sánh với từ điển kết hợp từ cố định, là chúng tôi đang so sánh gián tiếp với một kho ngữ liệu khác lớn hơn (OEC), đồng thời cũng là kết quả đã được thẩm định bởi người bản ngữ
Dưới đây chúng tôi lấy một ví dụ cụ thể để minh họa quy trình xác định lỗi
Ví dụ: Xem xét “perspectives about” trong kết quả tìm kiếm kết hợp danh từ + giới từ, chúng ta có thể truy xuất ngữ cảnh của nó:
“For further research for presentation or lesson, I
recommend that students should read more about this topic and experience more to feel the difference across cultures, so that they
form the perspectives about how to deal with intercultural
competence, to handle the situations in later life.”
Trang 4035
Đối chiếu với kho ngữ liệu BNC
Xem xét tần suất của perspective(s) about trong kho ngữ liệu BNC Kết hợp perspective(s) about chỉ có 7 kết quả Đặt trong các kết hợp của
perspective(s) với các giới từ (808 kết quả), ta sẽ thấy tần suất 7 kết quả là rất
ít, chỉ chiếm khoảng 0,9% Trong các giới từ kết hợp với perspective, thì giới
từ “on” kết hợp thường xuyên hơn cả So sánh trong bảng sau:
Kết hợp từ Tần suất xuất hiện Tỉ lệ xuất hiện
Kết quả hiển thị trong kho ngữ liệu BNC như ảnh bên dưới:
Perspective(s) + about có 7 kết quả, chiếm tỉ lệ 0,9 % tổng các kết hợp
Perspective(s) + on có 343 kết quả, chiếm tỉ lệ 42% tổng các kết hợp: