1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích lỗi từ vựng trong bài luận của sinh viên trường đại học ngoại ngữ đại học quốc gia hà nội theo phương pháp ngôn ngữ học ngữ liệu

95 97 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 2,14 MB

Nội dung

Trong luận văn này, chúng tôi tập trung vào lỗi lựa chọn sai kết hợp từ cố định của các sinh viên có trình độ tiếng Anh từ trung lên cao cấp, dựa trên những lí do sau: - Theo Nation 2001

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN

-

TRẦN KIỀU HẠNH

PHÂN TÍCH LỖI TỪ VỰNG TRONG BÀI LUẬN

CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC NGOẠI NGỮ

- ĐẠI HỌC QUỐC GIA HÀ NỘI THEO PHƯƠNG PHÁP CỦA NGÔN NGỮ HỌC NGỮ LIỆU

LUẬN VĂN THẠC SĨ NGÔN NGỮ HỌC

Hà Nội – 2019

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN

-

TRẦN KIỀU HẠNH

PHÂN TÍCH LỖI TỪ VỰNG TRONG BÀI LUẬN

CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC NGOẠI NGỮ

- ĐẠI HỌC QUỐC GIA HÀ NỘI THEO PHƯƠNG PHÁP CỦA NGÔN NGỮ HỌC NGỮ LIỆU

LUẬN VĂN THẠC SĨ NGÔN NGỮ HỌC

Mã số: 60220240

Người hướng dẫn khoa học: TS Phạm Hiển

Hà Nội – 2019

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực vừa chưa từng được ai công bố trong bất kì công trình nào khác

Hà Nội, ngày 20 tháng 7 năm 2019

Tác giả luận văn

Trần Kiều Hạnh

Trang 4

LỜI CẢM ƠN

Trước tiên, tác giả luận văn xin bày tỏ lòng biết ơn sâu sắc tới TS Phạm Hiển, người đã hướng dẫn thực hiện luận văn này với kiến thức uyên thâm, phương pháp khoa học tiên tiến và sự tận tình hết mực

Bên cạnh đó, xin gửi lời cảm ơn chân thành đến các thầy cô giáo, các cán bộ của khoa Ngôn ngữ học, trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội đã tạo điều kiện cho tác giả trong quá trình học tập

và thực hiện luận văn

Luận văn này cũng không thể hoàn thành nếu không có sự ủng hộ của bạn bè và đồng nghiệp tại trường Đại học Ngoại ngữ - Đại học Quốc gia Hà Nội

Cuối cùng, sự đồng hành và tình yêu thương vô hạn của gia đình chính

là động lực giúp tác giả đạt được kết quả ngày hôm nay

Trang 5

dự đoán là do sự chuyển di ngôn ngữ tiêu cực của tiếng Việt sang tiếng Anh, gây ra sự nhầm lẫn về nghĩa Ngoài ra, ở trình độ cao, sinh viên có

xu hướng chọn cách diễn đạt lại từ, tuy nhiên, khi lựa chọn từ đồng nghĩa lại không phù hợp trong một số trường hợp Từ những kết quả này, kết luận sư phạm khuyến nghị người học và người dạy có những điều chỉnh tập trung vào một số lỗi phổ biến như trong nghiên cứu đã chỉ ra

Từ khóa: Lỗi từ vựng, kết hợp từ cố định, ngôn ngữ học ngữ liệu, sinh

viên chuyên tiếng Anh, trình độ trung cấp cao cấp

Trang 6

1

MỤC LỤC

PHẦN MỞ ĐẦU 3

1 Lí do chọn đề tài 3

2 Lịch sử vấn đề 4

2.1 Các nghiên cứu trên thế giới 5

2.2 Các nghiên cứu liên quan ở Việt Nam 7

3 Đối tượng và phạm vi nghiên cứu 8

4 Mục đích và nhiệm vụ nghiên cứu 9

5 Phương pháp nghiên cứu 9

6 Bố cục của luận văn 10

CHƯƠNG 1 CƠ SỞ LÍ THUYẾT 11

1.1 Định nghĩa kết hợp từ cố định 11

1.2 Phân loại kết hợp từ cố định 14

1.3 Thụ đắc kết hợp từ cố định của người học tiếng Anh như một ngoại ngữ 15

1.4 Phân tích lỗi và phân tích lỗi kết hợp từ cố định 15

1.4.1 Quy trình phân tích lỗi 16

1.4.2 Phân tích lỗi kết hợp từ cố định 20

1.5 Về ngôn ngữ học ngữ liệu 21

1.5.1 Định nghĩa và phân loại kho ngữ liệu 22

1.5.2 Vai trò của kho ngữ liệu 23

1.5.3 Kho ngữ liệu đối chiếu bản ngữ và từ điển kết hợp từ cố định 24

1.6 Giả thuyết nghiên cứu của luận văn 25

1.7 Thu thập và xử lí ngữ liệu 25

1.7.1 Nguồn ngữ liệu 25

1.7.2 Cách thức thu thập ngữ liệu 26

1.7.3 Công cụ xử lí ngữ liệu 27

1.7.4 Xử lí ngữ liệu bước đầu 27

1.7.5 Đánh dấu từ loại cho ngữ liệu 27

1.7.6 Quy trình xử lí ngữ liệu và phân tích lỗi 28

1.8 Tiểu kết 38

CHƯƠNG 2 LỖI KẾT HỢP THỰC TỪ VÀ GIỚI TỪ 39

2.1 Danh từ + Giới từ 39

2.1.1 N + about, N + on 39

2.1.2 N + for 46

2.1.3 Những trường hợp khác 48

Trang 7

2

2.2 Tính từ + Giới từ 51

2.2.1 ADJ + about 52

2.2.2 ADJ + for, ADJ + to 52

2.3 Giới từ + Danh từ 53

2.4 Động từ + Giới từ 56

2.5 Tiểu kết 60

CHƯƠNG 3 LỖI KẾT HỢP THỰC TỪ VÀ THỰC TỪ 61

3.1 Động từ + Danh từ 61

3.1.1 Tổng hợp lỗi kết hợp động từ và danh từ 61

3.1.2 Phân tích trường hợp cụ thể 62

3.2 Tính từ + Danh từ 71

3.2.1 Tổng hợp lỗi kết hợp Tính từ và danh từ 71

3.2.2 Phân tích trường hợp cụ thể 72

3.3 Trạng từ + Tính từ 75

3.3.1 Tổng hợp lỗi kết hợp Trạng từ và tính từ 75

3.3.2 Phân tích trường hợp cụ thể 76

3.4 Tiểu kết 78

KẾT LUẬN 80

1 Các kết quả nghiên cứu 80

2 Hạn chế của nghiên cứu 81

3 Hướng phát triển của đề tài 81

TÀI LIỆU THAM KHẢO 83

PHỤ LỤC 89

Trang 8

tài “Phân tích lỗi từ vựng trong bài luận của sinh viên Trường Đại học

Ngoại ngữ - Đại học Quốc gia Hà Nội theo phương pháp ngôn ngữ học ngữ liệu”

Lỗi từ vựng là lỗi về sự lựa chọn từ, phân biệt với lỗi ngữ pháp là lỗi về cách tổ chức từ trong câu Có nhiều loại lỗi từ vựng, ví dụ lựa chọn từ sai nghĩa, lựa chọn từ sai phong cách văn bản, hoặc lựa chọn kết hợp từ sai Trong luận văn này, chúng tôi tập trung vào lỗi lựa chọn sai kết hợp từ cố định của các sinh viên có trình độ tiếng Anh từ trung lên cao cấp, dựa trên những lí do sau:

- Theo Nation (2001) collocation (kết hợp từ cố định) là một phần quan

trọng trong ngôn ngữ, mà mức độ thành thạo và chính xác khi sử dụng chúng trở thành tiêu chí phân biệt người bản ngữ và phi bản ngữ, hoặc tiêu chí phân biệt trình độ thành thạo ngôn ngữ đích của người học [44]

Với người phi bản ngữ, có sự khác biệt rõ ràng về khả năng sử dụng kết hợp từ cố định giữa người học ở trình độ trung cấp và cao cấp Sự khác biệt

đó đã được đưa vào bảng mô tả thang chấm Nói của bài thi IELTS, ở tiêu chí đánh giá Mức độ sử dụng từ vựng (Lexical Resource) Để đạt được trình độ cao cấp (tức 7.0 theo thang điểm IELTS hay C1 theo khung CEFR – Khung đánh giá năng lực tiếng của châu Âu, chia làm sáu bậc, từ A1 đến C2), người nói phải “dùng được các từ vựng ít thông dụng và mang tính thành ngữ; thể hiện ý thức về phong cách và kết hợp từ cố định dù vẫn còn lựa chọn từ chưa phù hợp” [39]

Trang 9

4

- Kết hợp từ cố định là một nội dung quan trọng mà người học tiếng Anh

ở Việt Nam phải nắm được và trau dồi thành thạo, nếu muốn nâng trình độ ngôn ngữ của mình lên mức cao cấp, đủ điều kiện tham gia các hoạt động trao đổi tri thức khoa học quốc tế, như du học hay tham gia dự án nghiên cứu quốc

tế Nhưng ở Việt Nam, hiện đang rất thiếu những nghiên cứu về lỗi kết hợp từ (collocation) của sinh viên, và dù nhìn rộng ra các nước trong khu vực, thì những nghiên cứu như thế này cũng không phải là nhiều

Khi bắt tay vào thực hiện đề tài, chúng tôi phần nào có thể hiểu được nguyên do Việc “bắt lỗi” của sinh viên ở trình độ cao là không hề dễ, sinh viên có thể lựa chọn cách diễn đạt an toàn, hơn là mạo hiểm sử dụng những cách diễn đạt “ít thông dụng” mà họ chưa nắm chắc [35] Nguyên nhân thứ hai là vấn đề về phương pháp nghiên cứu Bởi lẽ, nghiên cứu về lỗi mà không tiến hành bởi người bản ngữ của ngôn ngữ đích thì thao tác nhận diện và miêu

tả lỗi cần được tiến hành bằng phương pháp chặt chẽ Nghiên cứu này được thực hiện do phương pháp ngôn ngữ học ngữ liệu (corpus linguistics) đã cung cấp cho chúng tôi phương pháp khả thi trong việc nhận diện lỗi

2 Lịch sử vấn đề

Từ những năm 1990, theo Hsu (2007) các thảo luận học thuật về tầm quan trọng của kết hợp từ cố định trở nên sôi nổi trong lĩnh vực giảng dạy ngoại ngữ [37] Có bốn lí do chính được đưa ra:

Đầu tiên, các giáo viên dạy tiếng Anh cho người nước ngoài TESOL (Teaching English for Students of Other Languages) chỉ trích các phương pháp giảng dạy ngoại ngữ và ngôn ngữ thứ hai (như phương pháp Dịch ngữ pháp – Grammar Translation) đã bỏ qua vai trò của từ vựng (Schmitt, 2000) [50] Nhu cầu tìm ra các cách dạy từ vựng hiệu quả cho người học ngoại ngữ hai trở nên bức thiết Thứ hai, Lewis (1997) đã tiến hành một chương trình giảng dạy dựa trên kết hợp từ cố định cũng như thực từ với thực từ [40] Tiếp

Trang 10

5

theo, việc tiếp cận với các kho ngữ liệu đối chiếu dễ dàng, như Kho ngữ liệu Quốc gia tiếng Anh-Anh British National Corpus (BNC) và Kho ngữ liệu Quốc gia tiếng Anh-Mỹ (American National Corpus) giúp các nhà nghiên cứu ngôn ngữ tiếp cận một khối lượng văn bản viết và nói tiếng Anh rất lớn để sử dụng Lí do cuối cùng là việc biên soạn các cuốn từ điển BBI Combinatory Dictionary of English và Oxford Collocations Dictionary for Learners of English cho phép việc tra cứu cụm từ kết hợp tiện lợi hơn nhiều

Với những lí do trên, mối quan tâm đến việc học kết hợp từ cố định khởi phát trong thụ đắc ngôn ngữ thứ hai Ellis (1994) khẳng định ngoại ngữ không chỉ bao gồm các đơn vị từ đơn lẻ mà còn là các kết hợp từ, các biểu đạt đã được định khuôn sẵn hay chưa có sẵn như kết hợp từ cố định, cụm động từ cố

định (phrasal verbs) [27]

2.1 Các nghiên cứu trên thế giới

Các nghiên cứu về việc sử dụng kết hợp từ cố định của người học ngoại ngữ còn khá ít, nhưng tầm quan trọng của vấn đề đã càng ngày càng được chú

ý hơn, phương pháp nghiên cứu dựa vào kho ngữ liệu cũng được áp dụng trong nhiều nghiên cứu Một số nghiên cứu tiêu biểu như:

Năm 1993, Bahns và Eldaw nghiên cứu trên đối tượng học tiếng Anh là người Đức về các kết hợp từ cố định theo dạng động từ kết hợp với danh từ Kết quả chỉ ra rằng số lượng lỗi kết hợp từ cố định cao gấp đôi số lượng từ đơn lẻ Bahns và Eldaw cho rằng tiếng mẹ đẻ có thể dẫn đến việc dùng sai kết hợp từ cố định [11]

Tương tự, Nesselhauf (2005) nghiên cứu bài viết của học viên người Đức học tiếng Anh và đưa ra kết quả là các lỗi phổ biến là lựa chọn sai động

từ Nessenhauf phát hiện ra rằng tiếng mẹ đẻ có ảnh hưởng đến tất cả các loại lỗi kết hợp từ cố định và việc học sẽ khó khăn hơn nếu các kết hợp cố định giữa tiếng mẹ đẻ và ngoại ngữ đang học không tương đương

Trang 11

6

Trong một nghiên cứu khác, Nessenhauf trích xuất khoảng 2000 kết hợp

cố định dạng động từ + danh từ từ Kho ngữ liệu tiếng Anh của người Đức, trong đó, một phần tư số lỗi nói chung và một phần ba lỗi kết hợp từ cố định được đánh giá là mang tính hệ thống Lỗi kết hợp từ xảy ra cả với người học

Trong khi đó Biskup (1992) nghi ngờ việc nhấn mạnh sự ảnh hưởng của tiếng mẹ đẻ khi tìm nguyên nhân gây lỗi [13] Trong nghiên cứu của Wang và Shaw (2008), các nhóm học viên có tiếng mẹ đẻ khác nhau cùng mắc lỗi kết hợp từ cố định tương tự trong bài luận như lỗi kết hợp sai “do, make” với danh từ Trong phân tích sử dụng kết hợp từ cố định của người học cao cấp, Wang và Shaw biện luận rằng việc học kết hợp từ cố định có mối liên hệ chặt chẽ với học cú pháp, vì thế thưởng bị ảnh hưởng bởi các yếu tố ngoại ngữ, nói cách khác đây là những lỗi tự ngữ đích Theo họ chuyển di từ tiếng mẹ đẻ chỉ

là một trong các yếu tố gây lỗi [57]

Nghiên cứu về việc sử dụng kết hợp từ cố định của người học Việt Nam, hai tác giả Nguyễn Thị Mỹ Hằng và Webb (2016) chỉ ra người học Việt Nam trình độ cận trung cấp có xu hướng ít sử dụng kết hợp từ cố định Hai tác giả khảo sát 100 sinh viên đại học chuyên ngành tiếng Anh trình độ từ A2-B1, yêu cầu sinh viên thực hiện các bài kiểm tra về kết hợp từ, nhằm đánh giá khả năng sử dụng kết hợp từ cố định Động từ-Danh từ và Tính từ-Danh từ, với phạm vi là những động từ và tính từ thuộc danh sách 3000 từ thông dụng, kết

Trang 12

7

quả cho thấy lượng kết hợp từ cố định của đối tượng này đạt chưa đến một nửa so với mục tiêu Giải thích nguyên nhân của kết quả này, các tác giả cho rằng, quá trình dạy và học tiếng Anh tập trung chủ yếu vào các đơn vị từ đơn

lẻ thay vì tổ hợp từ, do vậy người học dễ hiểu nhầm nghĩa từ trong văn cảnh Thêm vào đó, người học thiếu hiểu biết về tầm quan trọng của kết hợp từ cố định cũng như không ý thức được độ phức tạp khi học kết hợp từ cố định [46] Các nghiên cứu về lỗi kết hợp từ cũng sử dụng phương pháp ngôn ngữ học ngữ liệu gần đây trên thế giới tập trung vào xây dựng và so sánh các kho ngữ liệu người học với kho ngữ liệu bản ngữ để tìm ra lỗi kết hợp từ cố định Laufer & Waldman (2011) khảo sát kho ngữ liệu 300,000 từ trong bài luận của sinh viên nói tiếng Hebrew học tiếng Anh, đối chiếu với kho ngữ liệu bản ngữ để tìm ra tần suất sử dụng kết hợp từ cố định của người học so với người bản ngữ, và kết luận lỗi kết hợp từ cố định vẫn tìm thấy ở người học cao cấp Trong khi đó, Hong và cộng sự (2011), nghiên cứu đối tượng người Malaysia học tiếng Anh trên kho ngữ liệu EMAS (tiếng Anh của học sinh Malaysia) và kết luận rằng lỗi phổ biến nằm ở các kết hợp từ cố định liên quan đến giới từ [35] Yanjuan (2014) nghiên cứu trên kho ngữ liệu tiếng Anh của người học Trung Quốc (CLEC) và đối chiếu với kho ngữ liệu BNC để đưa ra kết luận rằng kết hợp Động từ với Danh từ là loại lỗi phổ biến nhất trong bài luận của sinh viên Trung Quốc [58]

2.2 Các nghiên cứu liên quan ở Việt Nam

Những nghiên cứu áp dụng phương pháp phân tích lỗi và giải thích nguyên nhân lỗi khá phổ biến trong các nghiên cứu về thụ đắc ngoại ngữ ở Việt Nam thời gian gần đây Tác giả Nguyễn Thiện Nam (2001) khi nghiên cứu lỗi tiếng Việt của 3 nhóm người học nước ngoài khác nhau chỉ ra rằng nguyên nhân gây lỗi không chỉ do ảnh hưởng của tiếng mẹ đẻ mà còn do nguyên nhân vượt tuyến (overgeneralisation); ngoài ra, tuỳ mức độ, có thể có

Trang 13

8

do chuyển di giảng dạy (transfer of training) hay chiến lược giao tiếp (communication strategy) [6] Nhiều nghiên cứu về lỗi tiếng Anh, đặc biệt là lỗi từ vựng trong dịch thuật cũng cho rằng nguyên nhân do cả vấn đề của ngôn ngữ đích (Intralingual) và yếu tố giao thoa ngôn ngữ đích và tiếng mẹ đẻ (Interlingual) (Phan Thị Kim Cúc, 2018) [21] Các tác giả Lê Linh Hương (2017), Phương Hoàng Yến, Thái Minh Nguyên (2018) trong [4], [9] đều nhận ra sự thiếu vắng hướng dẫn học kết hợp từ cố định trong các chương trình dạy tiếng Anh cho đối tượng từ học sinh phổ thông trung học đến sinh viên đại học, và khẳng định vai trò của kết hợp từ cố định trong việc nâng cao

kĩ năng viết của người học Ngoài ra, ở đối tượng sinh viên không chuyên tiếng Anh, lỗi kết hợp từ tập trung nhiều nhất ở loại kết hợp từ cố định thực từ với thực từ (lexical collocations) mang tính cố định cao bởi người học không

có đủ vốn từ kết hợp cố định [4]

Nhìn chung, bức tranh toàn cảnh của việc nghiên cứu kết hợp từ cố định cho thấy việc sử dụng các cụm từ này còn nhiều vấn đề với người học, kể cả người học ở trình độ cao cấp và vấn đề lớn nằm ở cách dùng các từ và kết hợp

từ cố định thông dụng Về phương pháp tiến hành, các nghiên cứu trước đây tại Việt Nam sử dụng phương pháp phân tích lỗi văn bản, sử dụng các công

cụ là bài kiểm tra và bảng hỏi, mà theo khảo sát của chúng tôi, chưa tìm thấy nghiên cứu nào phân tích lỗi kết hợp phương pháp của ngôn ngữ học ngữ liệu Trên cơ sở này, luận văn cố gắng phân tích các lỗi kết hợp từ cố định của người Việt học tiếng Anh trình độ trung cấp trở lên như một ngoại ngữ áp dụng phương pháp và các công cụ hỗ trợ của ngôn ngữ học ngữ liệu

3 Đối tƣợng và phạm vi nghiên cứu

Đối tượng luận văn hướng tới là các lỗi từ vựng của người học tiếng Anh trình độ từ B2 lên C1, tức là từ trung cấp bậc cao lên cao cấp Trong các loại lỗi từ vựng, luận văn tập trung vào lỗi xảy ra với kết hợp từ cố định Như tên

Trang 14

9

gọi của nó, các kết hợp từ cố định là những lựa chọn kết hợp giữa các từ đã được cố định hoá theo thói quen ngôn ngữ, việc thay thế một yếu tố trong kết hợp này sẽ dẫn đến lỗi từ vựng So với việc mắc lỗi ngữ nghĩa khi dùng từ hay mắc lỗi phong cách trong diễn đạt, thì mắc lỗi kết hợp từ cố định có những tiêu chí về hình thức giúp chúng ta xác định được chúng

Phạm vi nghiên cứu: bài luận tiếng Anh của sinh viên chuyên ngành tiếng Anh, năm 3 và 4, Trường Đại học Ngoại ngữ, Đại học Quốc gia Hà Nội Luận văn chỉ khảo sát các bài viết này dưới góc độ sử dụng ngôn ngữ, cụ thể là tập trung vào các lỗi kết hợp từ cố định xuất hiện trong bài

4 Mục đích và nhiệm vụ nghiên cứu

Mục đích nghiên cứu: làm rõ các lỗi kết hợp từ cố định của người học tiếng Anh trình độ từ trung cấp bậc cao lên cao cấp

Để thực hiện mục đích trên, nghiên cứu đặt ra các nhiệm vụ nghiên cứu sau: (1) nhận diện các lỗi kết hợp từ cố định (2) phân loại lỗi theo tiêu chí, (3) giải thích nguyên nhân gây lỗi

5 Phương pháp nghiên cứu

Ngoài những phương pháp logic thông thường được áp dụng cho nghiên cứu khoa học xã hội, trong luận văn này chúng tôi chủ yếu áp dụng phương pháp nghiên cứu và thủ pháp nghiên cứu sau:

-Phương pháp phân tích lỗi trong thụ đắc ngôn ngữ;

-Phương pháp nghiên cứu ngôn ngữ học ngữ liệu

Các thủ pháp nghiên cứu như khảo sát văn bản, thống kê, so sánh…cũng được áp dụng

Miêu tả cụ thể về phương pháp nghiên cứu ngôn ngữ học ngữ liệu sẽ được trình bày trong chương 1

Trang 15

10

6 Bố cục của luận văn

Ngoài phần mở đầu và phần kết luận, nội dung chính của luận văn chia làm ba chương Nội dung của từng phần như sau:

1 Phần mở đầu: Phần này giới thiệu lí do chọn đề tài, lịch sử vấn đề,

đối tượng và phạm vi nghiên cứu, mục đích và nhiệm vụ nghiên cứu, phương pháp nghiên cứu và bố cục của luận văn

2 Chương 1: Cơ sở lí luận Chương này trình bày khái quát các lí thuyết

về kết hợp từ cố định, về lỗi và phân tích lỗi, về ngôn ngữ học ngữ liệu, và giới thiệu các kho ngữ liệu tiếng Anh được dùng làm tham chiếu xác định lỗi Bên cạnh đó, chương này cũng đưa ra giả thuyết nghiên cứu của luận văn và miêu tả cụ thể về quá trình thu thập ngữ liệu, xây dựng kho ngữ liệu, và việc

áp dụng phương pháp ngôn ngữ học ngữ liệu trong phân tích lỗi kết hợp từ cố định

3 Chương 2: Lỗi thực từ kết hợp với giới từ Chương này trình bày kết

quả và bàn luận về nguyên nhân gây ra các loại lỗi kết hợp từ cố định trường

hợp thực từ kết hợp với giới từ

4 Chương 3: Lỗi thực từ kết hợp với thực từ Chương này trình bày kết

quả vào bàn luận về nguyên nhân gây ra các loại lỗi kết hợp từ cố định trường

hợp thực từ kết hợp với thực từ

5 Phần kết luận: tóm tắt lại kết quả nghiên cứu, nêu ra những hạn chế

của luận văn và phương hướng phát triển tiếp theo

Trang 16

green-eyed make it Nhóm (1), nghĩa của cả cụm từ được dễ dàng suy ra từ nghĩa của từng thành tố trong cụm từ đó, đồng thời mỗi một thành tố có thể tham gia vào các quan hệ liên tưởng khác nhau, ví dụ “dark blue”, thì “dark” có thể được thay thế bằng “light”, “blue” có thể được thay thế bằng “red” hay “green”, v.v Nhóm (1) là một kết hợp lỏng lẻo, và tần suất dark + blue kết hợp với nhau không phải là dày đặc trong các kết hợp của blue Nhóm này gọi là các kết hợp từ tự do Nhóm (3), nghĩa của cả cụm từ không thể suy ra từ nghĩa của từng thành tố trong cụm đó, ví dụ “green-eyed” nghĩa là “ghen tị”- chỉ một loại cảm xúc của con người, trong khi nghĩa của từng yếu tố trong cụm ghép lại thì chỉ là “mắt – xanh” Nhóm này gọi là các “thành ngữ”, chúng là một tổ hợp cố định, luôn luôn đi cạnh nhau và khó phán đoán về nghĩa Nhóm thứ (2) nằm giữa hai nhóm trên, nghĩa của cả cụm có thể hình dung được dựa vào nghĩa của từng thành tố, ví dụ “crystal clear” = rõ ràng (như) pha lê, tuy nhiên mỗi yếu tố trong cụm từ lại không hoàn toàn tự do tham gia vào quan hệ liên tưởng khác Ví dụ không thể thay “crystal” bằng “glass” được Nhóm thứ (2) này là “kết hợp từ cố định” (collocation)

Chúng ta có thể hình dung kết hợp từ cố định nằm trên một dải liên tục

từ kết hợp lỏng lẻo đến thành ngữ, tính “cố định” của chúng lại khá linh hoạt trong nhiều trường hợp khác nhau, chúng có thể rất gần với kết hợp lỏng lẻo, hoặc rất gần với thành ngữ

Trang 17

12

Chúng ta có thể tham khảo một định nghĩa như sau về kết hợp từ cố định trong từ điển Oxford: “[kết hợp từ cố định] là sự kết hợp theo thói quen của một từ cụ thể với một từ khác có tần suất lớn hơn ngẫu nhiên.” (the habitual juxtaposition of a particular word with another word or words with a frequency greater than chance.)

Việc đưa ra những bộ tiêu chí để phân biệt một kết hợp là lỏng lẻo hay

cố định đã được giới nghiên cứu ngôn ngữ quan tâm từ lâu

Để xác định cụm từ cố định, Firth (1957) dựa vào tần suất đồng hiện, ông và những người ủng hộ coi tần số đồng hiện là đặc điểm đặc thù của kết hợp từ cố định Halliday (1966) và Sinclair (1991) tiếp tục đề cao vai trò của tần suất đồng hiện Sinclair cho rằng, kết hợp từ cố định là “sự xuất hiện của hai hay nhiều từ, trong một khoảng cách gần nhau trong văn bản” (“the occurrence of two or more words, within a short space of each other in a text”) [53, tr.170]

Tuy nhiên, Howarth (1998), Schmitt (1998), Shin và Nation (2008), và Nizonkiza (2012b) trong [36], [49], [52], [47], cho rằng, tuy tính “kết hợp thường xuyên” là một chỉ dấu quan trọng, nhưng chỉ riêng nó vẫn là không đủ

để miêu tả kết hợp từ cố định Danh sách 100 kết hợp từ cố định phổ biến trong ngôn ngữ nói tiếng Anh do Shin và Nation [52, tr.345] đề xuất đã không

đưa vào những cụm chào hỏi như „good morning‟, „good afternoon‟, „good

evening‟, và „how are you?‟, mặc dù chúng đáp ứng được yêu cầu về tần suất

đồng hiện Họ đề xuất tần suất sử dụng cần được cân bằng hợp lí với các tiêu chí khác, đặc biệt trong giảng dạy

Kết hợp lỏng lẻo Kết hợp cố định Thành ngữ

Trang 18

13

Một hướng tiếp cận khác là từ truyền thống từ vựng học Những người ủng hộ truyền thống này đề xuất định nghĩa về kết hợp từ cố định bằng việc cân nhắc bản chất cú pháp của các thành tố kết hợp từ và mức độ về khả năng thay thế của chúng Ví dụ: “powerful engine” là một kết hợp từ cố định trong tiếng Anh, trong khi “strong engine” lại không phải Các tính từ “powerful”

và “strong” có nghĩa rất gần nhau nhưng lại không thể dùng thay thế được Tuy nhiên ta vẫn có thể thay “powerful” bằng “big, small, twin,…” để tạo thành các kết hợp đúng với từ “engine” Tương tự với kết hợp “strong tea”, các từ thay thế cho tính từ “strong” có thể là “stewed, weak, cold, hot, fresh, …” nhưng không thể dùng “powerful” khi miêu tả về “tea” Rõ ràng ở đây, sự thay thế là có thể xảy ra nhưng bị giới hạn

Theo Nesselhauf (2005), hướng tiếp cận từ truyền thống từ vựng học bị ảnh hưởng bởi truyền thống từ vực học tiếng Nga, và Cowie là đại diện tiêu biểu Cowie chia kết hợp từ cố định thành hai loại là loại hỗn hợp (composites)

và loại công thức (formulae) Những cụm từ như “good morning” và “how are you” là loại công thức với chức năng ngữ dụng là chủ yếu Ngược lại, kết hợp từ cố định thuộc loại hỗn hợp thì sẽ chủ yếu có chức năng cú pháp [45] Benson và cộng sự [12] và Nation (2001) lại chấp nhận tần suất là yếu tố quyết định khi định nghĩa kết hợp từ cố định dù họ đi theo hướng từ vựng học Theo đó, một kết hợp từ cố định phải “bị giới hạn, rõ ràng và thường xuyên” (“restricted, transparent and frequent”) Điều này tạo tiền đề cho một hướng tiếp cận mới nhằm dung hòa hai trường phái trước Hướng tiếp cận này chọn những ưu điểm của cả hai truyền thống nhằm hạn chế những điểm yếu của từng bên [45, tr.17] Hướng tiếp cận này phù hợp với quan điểm của Handl‟s (2008) nói rằng kết hợp từ cố định là kết quả của minh bạch ngữ nghĩa, phạm

vi kết hợp và tần số có liên quan của các thành tố (semantic transparency,

Trang 19

14

collocational range, and related frequency of the constituents) [33] Vậy nên các yếu tố ngữ nghĩa, từ vựng và thống kê đều thuộc hướng tiếp cận này Luận văn chọn hướng tiếp cận dung hòa về kết hợp từ cố định và áp dụng định nghĩa trong Từ điển Oxford Collocations Dictionary (2002) về kết hợp từ cố định Một kết hợp từ được coi là cố định, khi nó đảm bảo các yếu tố sau: (+) tính rõ ràng về nghĩa, (+) bị giới hạn về khả năng thay thế, (+) tần suất đồng hiện cao hơn ngẫu nhiên và (+) phù hợp với thói quen diễn đạt của người bản ngữ

Thói quen diễn đạt của người bản ngữ, hay tính “tự nhiên”, tức là được người bản ngữ chấp nhận rộng rãi, điều này không phụ thuộc vào một cá nhân Một cá nhân người bản ngữ, ví dụ như một nhà văn, có thể sáng tạo ra một cách kết hợp từ độc đáo, nhằm phục vụ cho một mục đích nghệ thuật nào đó Một kết hợp từ như thế, khi chúng tôi đặt vào trong kho ngữ liệu bản ngữ để kiểm tra mức độ phổ biến, và kết quả là nó không phù hợp với đại đa số, thì

chúng tôi cũng vẫn kết luận đây là một kết hợp “lỗi”

1.2 Phân loại kết hợp từ cố định

Phân loại kết hợp từ cố định được thấy trong các nghiên cứu của M Benson, E Benson, & R Ilson (1997) [56], Hill (2000) [34] và Conzett (2000) [18, tr.133] Các tác giả đưa ra những bảng phân loại khác nhau, nhưng nhìn một cách tổng quát, chúng tôi thấy các kết hợp từ cố định được chia thành 2 loại lớn, loại kết hợp từ cố định thiên ngữ nghĩa, tức là các kết hợp giữa thực từ và thực từ, và loại thiên cấu trúc, tức là một cụm từ bao gồm

từ chính (danh từ, động từ hoặc tính từ) và một giới từ hoặc một cấu trúc ngữ pháp như một từ nguyên thể hoặc một mệnh đề” (a phrase consisting of a dominant word (noun, adjective, or verb) and a preposition or grammatical

structure such as an infinitive or a clause).[56]

Trang 20

15

Trong luận văn này, chúng tôi dựa vào tiêu chí hình thức từ loại, chia kết hợp từ cố định thành hai loại, loại kết hợp giữa thực từ và thực từ và loại kết hợp giữa thực từ và giới từ

1.3 Thụ đắc kết hợp từ cố định của người học tiếng Anh như một ngoại ngữ

Sự chuyển di ngôn ngữ từ tiếng mẹ đẻ được coi là một yếu tố thiết yếu

trong thụ đắc ngoại ngữ, do vậy, sẽ có ảnh hưởng đến việc sử dụng kết hợp từ

cố định của người học [45] Ellis (1994) cho rằng nếu trong tiếng mẹ đẻ và ngoại ngữ đang học có hai kết hợp từ cố định giống nhau thì việc học sẽ dễ

dàng hơn qua chuyển di tích cực, còn nếu chúng khác nhau thì việc học trở nên khó khăn và lỗi sẽ xuất hiện do chuyển di tiêu cực có khả năng lớn sẽ xảy

ra [27] Ví dụ, học viên người Thụy Điển và người Trung Quốc tạo ra các kết

hợp từ cố định như *do changes, *do a great effort, *make damage, *make

the cleaning, bởi sự chuyển di tiêu cực từ tiếng mẹ đẻ [57]

Ngoài ảnh hưởng của tiếng mẹ đẻ, việc sử dụng các từ đồng nghĩa thay thế cũng là một cách người học ngoại ngữ “vượt tuyến” tạo nên các kết hợp không phù hợp với thói quen của người bản ngữ Farghal & Obiedat (1995) nghiên cứu trên đối tượng người Ả-rập học tiếng Anh như một ngoại ngữ đã thấy rằng họ có thể tưởng rằng một từ tiếng Anh và các từ đồng nghĩa của nó

có thể dùng thay thế nhau, do vậy phần nào tạo ra sự sai lệch trong khi dùng tiếng Anh [28]

1.4 Phân tích lỗi và phân tích lỗi kết hợp từ cố định

Định nghĩa về lỗi: Lỗi là sự lệch chuẩn so với các quy tắc của ngôn ngữ

đích [27] Các quy chuẩn ở đây được lựa chọn tùy thuộc vào điều kiện, hoàn cảnh cũng như nhu cầu của người học Trong luận văn này, đối tượng người học hướng đến mục tiêu thành thạo kĩ năng viết học thuật, cho nên quy chuẩn lựa chọn là tiếng Anh học thuật tiêu chuẩn (standard academic English) Các nguồn ngữ liệu đối chiếu vì thế sẽ được lựa chọn trên tiêu chí này

Trang 21

16

Phân biệt lỗi và lầm: Lỗi có tính hệ thống, lỗi do người học mắc phải

khi sử dụng ngôn ngữ đích Những lỗi này cho thấy một hệ thống ngôn ngữ trung gian (interlanguage), hay là hệ thống kết cấu ngôn ngữ người học tạo ra trong quá trình thành thạo ngôn ngữ đích [20] Lầm là hiện tượng lệch chuẩn không mang tính hệ thống Người bản ngữ có thể mắc “lầm” (mistake) [6, tr.5] như nói nhịu, người bản ngữ ít khi mắc lỗi như người học ngoại ngữ

Trong dạy học ngoại ngữ, lỗi là yếu tố có lợi cho người học, người dạy

và thậm chí cả các nhà nghiên cứu ngôn ngữ học [19] Theo Corder, lỗi người học là bằng chứng về hệ thống ngôn ngữ mà người học đã học và đang sử dụng tại một thời điểm cụ thể Theo đó, người dạy dựa vào lỗi sẽ biết được mức độ tiến bộ của người học cũng như những kiến thức cần bổ sung cho họ Ngược lại, người học coi lỗi là phương tiện học bởi việc sửa lỗi sẽ giúp họ ghi nhớ tốt hơn Lỗi còn là căn cứ để các nhà nghiên cứu quan sát được quá trình ngôn ngữ được học và thụ đắc, các chiến lược hay quy trình nào người học dùng để khám phá ngôn ngữ đích Năm 1988, Doff đã khẳng định rằng lỗi sai chính là một bước tích cực cho người học tiến bộ [23] Luận văn này tập trung vào lỗi kết hợp từ cố định cũng với mong muốn tìm ra một hướng đi giúp người học đạt được mục tiêu trong quá trình học ngoại ngữ

Phân tích lỗi là phương pháp dùng để phát hiện lỗi trong ngôn ngữ của người học, xem xét những lỗi đó có tính hệ thống hay không và giải thích nguyên nhân lỗi nếu có thể Người bản ngữ sẽ dễ nhận ra lỗi của người học ngoại ngữ, tuy nhiên, như chúng ta thấy, độ chuẩn xác cũng chỉ là một yếu tố đánh giá khả năng của ngôn ngữ người học Để đánh giá sự thành thạo một ngoại ngữ, các yếu tố cần xét đến là sự chuẩn xác, sự trôi chảy và độ phức tạp [54] [23], [25], [26]

1.4.1 Quy trình phân tích lỗi

Các nhà nghiên cứu đã thiết kế ra một quy trình phân tích lỗi như sau [20]:

Trang 22

17

(1) Phát hiện lỗi trong mẫu ngữ liệu người học

Để phân tích lỗi, Pit Corder đưa ra một nguyên tắc chung: tất cả các câu trong ngôn ngữ của người học đều được coi là “có thể sai” cho đến khi xác minh được chúng là sai hay đúng Còn nếu không xác định được thì gác câu

đó lại, không phân tích Tại điểm cuối của giai đoạn nhận diện lỗi sai, ta có hai câu: một câu sai và một câu đúng – câu đã được sửa, mà về bản chất, theo Pit Corder, thì chúng cùng biểu thị chung một ý nghĩa Đối với từng lỗi, cần nhận diện người nói hay người viết muốn truyền đạt điều gì và thực hiện điều

đó như thế nào

Ví dụ, một người học tiếng Anh có thể nói: *She go to school by bike

Đây là một lỗi Vậy trước hết phải xem xét người học muốn truyền đạt điều gì? Có thể cân nhắc ít nhất hai cách sau:

(1) She IS GOING to school by bike (Cô ấy đang đang đi xe đạp tới trường.)

(2) She GOES to school by bike (Cô ấy tới trường bằng xe đạp.)

Đây là thao tác tái cấu trúc lỗi, Tarone & Swierzbin [55, tr.25] lưu ý có thể có nhiều hơn một cách để tái cấu trúc các lỗi người học Việc nhận dạng lỗi phụ thuộc vào thông điệp người học muốn truyền đạt Nhưng điều này phức tạp ở chỗ sản phẩm ngôn ngữ có thể mắc lỗi ở nhiều khía cạnh một lúc:

âm vị, hình thái, cú pháp hay từ vựng

Trang 23

18

của câu gốc là lỗi về thì của động từ “go”, cần chia thành “is going” như trong (1) Tuy nhiên, khi người học muốn miêu tả thói quen thì đây lại là lỗi hòa hợp chủ ngữ và động từ, “go” cần chia thành “goes”

(3) Giải thích lỗi

Khi đã xác định được các lỗi mang tính hệ thống trong ngữ liệu từ người học, nhà nghiên cứu dựa vào đó để tìm ra nguyên nhân gây lỗi Có rất nhiều nguyên nhân đã được chỉ ra trong các nghiên cứu Nguyên nhân phổ biến là

sự chuyển di ngôn ngữ, tức là sử dụng quy tắc của ngôn ngữ mẹ đẻ cho ngôn ngữ đích Một số lỗi cũng được xếp vào loại lỗi phát triển (developmental errors) mà hầu hết người học nào cũng mắc phải bất kể họ nói tiếng mẹ đẻ nào đi nữa Cách truyền đạt của giáo viên hay cách trình bày của sách học cũng có thể gây ra lỗi về cấu trúc (form) Selinka (1977) thấy rằng người học tuy mắc lỗi về cấu trúc nhưng sử dụng các chiến lược giao tiếp thì vẫn có thể truyền đạt được thông điệp họ mong muốn [51]

Giải thích lỗi người học không phải lúc nào cũng dễ dàng và đơn giản bởi có những lỗi gây ra bởi nhiều nguyên nhân Lightbown & Spada [41, tr.15] cho rằng “… ưu điểm của phương pháp phân tích lỗi là nó miêu tả được người học thực sự làm gì nhưng lại không phải lúc nào cũng cho ta một cái nhìn rõ ràng vì sao họ làm như vậy.” (…while error analysis has the advantage of describing what learners actually do …it does not always give us clear insights into why they do it.)

Khi phân loại lỗi theo nguồn gốc, Nguyễn Thiện Nam (2001) tổng hợp ra hai loại lỗi:

- Lỗi giao thoa (intelingual error): sinh ra do ảnh hưởng của tiếng mẹ đẻ lên sản phẩm của ngôn ngữ đích, đặc biệt là ở vùng khác biệt của hai ngôn ngữ Lỗi chuyển di ngôn ngữ hay lỗi xuyên ngôn là những tên khác của lỗi

Trang 24

19

giao thoa Chelli (2013) cũng định nghĩa rằng lỗi giao thoa là kết quả của sự chuyển di ngôn ngữ mà nguyên nhân là do tiếng mẹ đẻ [16]

Ví dụ:

*This muffin is very delicious

Đây là cách diễn đạt người Việt Nam hay sử dụng khi muốn nói Cái

bánh này rất ngon, dịch trực tiếp: rất → very

Tuy nhiên, trong tiếng Anh, tính từ delicious mang nghĩa very tasty nên kết hợp trên chưa chính xác Kết hợp đúng phải là This muffin is really

delicious

- Lỗi tự ngữ đích (intralingual error): sinh ra do nội bộ cấu trúc của ngôn ngữ đích, chứ không do ảnh hưởng của tiếng mẹ đẻ Ví dụ khi người nước ở các nước khác nhau mắc cùng một loại lỗi trong ngôn ngữ đích, thì đó là lỗi

tự ngữ đích Dựa vào nguyên nhân gây ra loại lỗi này, có thể chia lỗi tự ngữ đích thành các kiểu sau: lỗi chuyển di giảng dạy, lỗi vượt tuyến, lỗi không nắm rõ quy tắc ngôn ngữ đích của người học, …

Cũng theo tổng hợp của tác giả Nguyễn Thiện Nam, các nguyên nhân tạo

ra lỗi thường được quy về các chiến lược người học áp dụng trong quá trình thụ đắc ngôn ngữ thứ hai Hai chiến lược được sử dụng nhiều là Chiến lược học (Learning strategies) và Chiến lược giao tiếp (Communication strategies)

Chiến Giải Dùng một từ hay cấu trúc riêng *greatly

Trang 25

recommended (highly

recommended)

Vay mượn

(Borrowing)

Trực tiếp dịch từng từ theo ngữ pháp tiếng mẹ đẻ (dựa vào chuyển di) hoặc dùng xen kẽ trực tiếp từ của tiếng mẹ đẻ

*wish you full of health and luck (wish you good health and good luck)

Trong luận văn này, khi phân tích nguyên nhân gây lỗi của người học chúng tôi sử dụng các thuật ngữ: lỗi chuyển di ngôn ngữ, lỗi tự ngữ đích khi chia phân tích lỗi theo nguồn gốc và khi bàn đến nguyên nhân tạo ra lỗi do sử dụng các chiến lược thì có các lỗi vượt tuyến, lỗi diễn đạt lại và lỗi vay mượn

1.4.2 Phân tích lỗi kết hợp từ cố định

Lỗi kết hợp từ cố định không nằm ngoài đối tượng của phân tích lỗi Các quy trình thao tác khi phân tích loại lỗi này vẫn bao gồm đầy đủ các bước thông thường của phương pháp phân tích lỗi Tuy nhiên nhờ sự kết hợp với phương pháp nghiên cứu ngôn ngữ học ngữ liệu (sẽ trình bày cụ thể dưới đây), việc phát hiện lỗi kết hợp từ cố định sẽ nhanh chóng hơn trên một khối lượng ngữ liệu lớn Vì ngữ liệu đã được gắn nhãn từ loại nên việc phân loại lỗi cũng

dễ dàng hơn Số liệu lỗi đồng thời cũng được thống kê theo tần suất để thể hiện mức độ sai có hệ thống hay không Sau đó, các lỗi kết hợp từ được đưa vào giải thích để tìm nguyên nhân Để tìm nguyên nhân gây lỗi kết hợp từ, chúng tôi xem xét trong phạm vi nguyên nhân nói chung của lỗi ngôn ngữ

Trang 26

21

1.5 Về ngôn ngữ học ngữ liệu

Thuật ngữ “Corpus linguistics” được diễn đạt trong tiếng Việt thành:

“ngôn ngữ học ngữ liệu” hoặc “ngôn ngữ học khối liệu” Trong luận văn này, chúng tôi phân biệt các khái niệm sau: data = ngữ liệu (chỉ từng đơn vị ngữ liệu thu thập được), database = cơ sở ngữ liệu (toàn bộ ngữ liệu thu thập được)

và corpus = kho ngữ liệu (toàn bộ ngữ liệu thu thập được, đã được xử lí đánh dấu)1 Vì thế, “corpus linguistics” diễn đạt một cách chính xác nhất thì là

“ngôn ngữ học kho ngữ liệu”, tuy nhiên luận văn sẽ sử dụng thuật ngữ đã được chấp nhận rộng rãi hơn là “ngôn ngữ học ngữ liệu”

Thuật ngữ “ngôn ngữ học ngữ liệu” (corpus linguistics) xuất hiện lần đầu vào đầu những năm 1980 nhưng ngành nghiên cứu ngôn ngữ dựa trên kho ngữ liệu đã có một lịch sử lâu đời hơn thế

Vào những năm 1960-1970, Đại học Brown đã xây dựng thành công kho ngữ liệu Brown về tiếng Anh Mỹ đương đại Cũng trong thời gian này, Đại học Lancaster xây dựng kho ngữ liệu về tiếng Anh Anh, đặt tên là Lancaster-Oslo-Bergen (LOB) Cho đến những năm 1980, sự phát triển về công nghệ của phần cứng máy tính đã thúc đẩy ngành nghiên cứu này lên một bước mới

Sự kết hợp giữa các kho ngữ liệu với công nghệ máy tính đã khơi lại sự quan tâm đến phương pháp luận nghiên cứu kho ngữ liệu Kể từ đó số lượng và quy

mô của các kho ngữ liệu và các nghiên cứu dựa vào kho ngữ liệu đã tăng lên một cách đáng kể Vào những năm 90 của thế kỷ XX, ngôn ngữ học ngữ liệu được hình thành như một ngành khoa học độc lập về ngôn ngữ văn bản

Ngày nay phương pháp luận kho ngữ liệu trở nên rất phổ biến và đã mở

ra rất nhiều lĩnh vực nghiên cứu mới, bao gồm: từ điển học, từ vựng học, ngữ pháp học, phân tích phong cách, thể loại, nghiên cứu biến thể ngôn ngữ, phân tích đối chiếu, nghiên cứu dịch thuật, biến đổi ngôn ngữ, giảng dạy ngôn ngữ,

1 Vietlex, đơn vị biên soạn Từ điển Tiếng Việt, dùng cụm từ “ngân hàng ngữ liệu” cho thuật ngữ “corpus”

Trang 27

22

ngữ nghĩa học, ngữ dụng học, phong cách học, nghiên cứu văn học, ngôn ngữ học xã hội, phân tích diễn ngôn, ngôn ngữ học hình pháp, ngôn ngữ học máy tính…

1.5.1 Định nghĩa và phân loại kho ngữ liệu

Một kho ngữ liệu là một khối văn bản hoặc ngôn ngữ được xuất hiện tự nhiên và có những quy ước thiết kế ban đầu Vì thế, các tập hợp ngẫu nhiên của văn bản không phải kho ngữ liệu Khi xây dựng kho ngữ liệu phải có mục đích rõ ràng, mục tiêu cụ thể [7], [2], [3]

Kho ngữ liệu, vì thế, mang 4 đặc tính cơ bản sau:

 Kho ngữ liệu là một tập hợp các văn bản mà máy đọc được, nghĩa

là ở dạng file điện tử

 Các văn bản phải là nguyên bản

 Các văn bản dưới dạng văn bản viết hoặc văn bản gỡ băng

 Lấy mẫu phải đại diện cho một ngôn ngữ cụ thể hoặc một phương ngữ

Kho ngữ liệu được phân loại theo mục đích sử dụng Theo Hunston [38] một số loại kho ngữ liệu phổ biến như:

Kho ngữ liệu chuyên ngành: được dùng để nghiên cứu một loại

ngôn ngữ nhất định

Kho ngữ liệu chung: có thể dùng để làm các tài liệu tham khảo cho

học và dịch ngôn ngữ, thường được dùng làm cơ sở khi so sánh với những kho ngữ liệu chuyên ngành hơn Ví dụ: Kho ngữ liệu tiếng Anh-Anh BNC, kho ngữ liệu tiếng Anh-Mĩ đương đại COCA

Kho ngữ liệu người học: được dùng để phát hiện ra các khía cạnh

ngôn ngữ khác nhau của đối tượng người học khác nhau và sự

Trang 28

23

khác biệt với ngôn ngữ người bản ngữ sử dụng, do đó phần ngữ liệu bao gồm cả ngữ liệu so sánh với người bản ngữ

Kho ngữ liệu so sánh: các ngữ liệu dịch được đối sánh với nhau để

tìm ra các diễn đạt tương đương cũng như sự khác nhau giữa các ngôn ngữ

1.5.2 Vai trò của kho ngữ liệu

Hiện nay, các kho ngữ liệu đã và đang được xây dựng nhằm phục vụ mục đích đa dạng của người sử dụng Đặc biệt trong lĩnh vực nghiên cứu và giảng dạy ngôn ngữ, khai thác kho ngữ liệu giúp người dùng có thể nhận biết được nhiều thông tin, có thể kể đến:

 Tần suất sử dụng của các từ, cụm từ, cấu trúc ngữ pháp;

 Sự thay đổi tần suất xuất hiện của từ và cụm từ qua văn cảnh và thể loại;

 Sự thay đổi tần suất xuất hiện của từ và cụm từ theo lịch đại và đồng đại;

 Phong cách ngôn ngữ của các tác giả khác nhau

Sự phát triển của ngành nghiên cứu kho ngữ liệu gắn liền với sự phát triển của công nghệ máy tính Các ứng dụng ra đời giúp cho việc thu thập ngữ liệu cũng như phân tích dễ dàng hơn So với phương pháp truyền thống, việc ứng dụng các công nghệ vào phân tích kho ngữ liệu giúp tiết kiệm rất nhiều công sức và thời gian, lại thu được kết quả với quy mô và số lượng từ lớn hơn rất nhiều Đặc biệt với kho ngữ liệu người học, một lượng lớn thông tin có thể khai thác được từ đây, kể cả về kết hợp từ cố định [38]

Chính vì thế, chúng tôi lựa chọn hướng tiếp cận của ngành ngôn ngữ học ngữ liệu nhằm tái tạo một diện mạo đầy đủ nhất có thể về việc sử dụng kết hợp từ cố định của sinh viên năm 3 và 4 khoa Sư phạm tiếng Anh, Trường Đại học ngoại ngữ, Đại học Quốc gia Hà Nội

Trang 29

24

1.5.3 Kho ngữ liệu đối chiếu bản ngữ và từ điển kết hợp từ cố định

Kho ngữ liệu bản ngữ tiếng Anh

Hiện tại hai kho ngữ liệu tiếng Anh Anh và Anh Mĩ đương đại phổ biến nhất là COCA và BNC

Kho ngữ liệu tiếng Anh Mỹ đương đại COCA (Corpus of Contemporary American English) là kho ngữ liệu tiếng Anh Mỹ cho phép truy cập miễn phí lớn nhất, được sử dụng rộng rãi nhất và có liên kết với nhiều kho ngữ liệu tiếng Anh khác như kho ngữ liệu tiếng Anh Mỹ lịch sử COHA, kho ngữ liệu tiếng Anh Anh BNC

COCA bao gồm cơ sở ngữ liệu hơn 520 triệu từ trong các thể loại văn bản, trong đó mỗi năm được bổ sung khoảng 20 triệu từ trong khoảng thời gian từ 1990 đến 2015 Thể loại văn bản được chia đều giữa văn bản nói, truyện, tạp chí, báo và văn bản học thuật

Kho ngữ liệu BNC là kho ngữ liệu tiếng Anh – Anh hiện đại với cơ sở ngữ liệu khoảng 100 triệu từ và khoảng 98,363,783 đơn vị được gán nhãn từ loại thuộc nhiều thể loại văn bản lấy từ tiếng Anh nói và viết Người dùng có thể truy cập miễn phí kho ngữ liệu BNC tại địa chỉ https://www.english-corpora.org/bnc/ hoặc http://bncweb.lancs.ac.uk/

Khoảng 90% từ trong kho ngữ liệu BNC được lấy từ các văn bản viết thuộc báo chí quốc gia và địa phương, các tạp chí, chuyên san v.v , 10% còn lại của kho ngữ liệu là văn bản gỡ băng của lời nói trong văn cảnh trang trọng

và không trang trọng

Chúng tôi chọn sử dụng kho ngữ liệu BNC để đối chiếu nhận diện và giải thích lỗi, bởi sự phù hợp về thể loại với ngữ liệu cần đối chiếu của luận văn (tập trung vào văn bản viết)

Từ điển kết hợp từ cố định Oxford Collocations Dictionary

Trang 30

25

Từ điển kết hợp từ cố định Oxford Collocations Dictionary được xây dựng trên cơ sở kho ngữ liệu OEC (Oxford English Corpus) Đây là kho ngữ liệu có gần 2,1 tỉ từ, gấp gần 5 lần kho ngữ liệu COCA, thu thập ngữ liệu tiếng Anh năm 2000 trở về đây Thể loại văn bản của kho OEC đa dạng, bao gồm cả phương ngữ Tuy nhiên kho ngữ liệu OEC không hỗ trợ tiếp cận tự do cho người dùng mà chỉ giới hạn cho một số nghiên cứu viên sử dụng Vì vậy, chúng tôi chọn sử dụng Từ điển Oxford Collocations Dictionary, là kết quả được xây dựng từ kho ngữ liệu này để đối chiếu, với việc này, chúng tôi gián tiếp đối chiếu kết hợp từ tìm được với kho ngữ liệu khổng lồ này Mặt khác các kết hợp từ cố định được nêu trong từ điển đã được các chuyên gia ngôn ngữ Anh thẩm định, đây là nguồn tham chiếu rất tốt cho chúng tôi khi xác định các kết hợp từ cố định trong ngữ liệu của luận văn

1.6 Giả thuyết nghiên cứu của luận văn

Kết quả nghiên cứu đi trước về lỗi kết hợp từ của sinh viên châu Á trong [15, 28, 35, 37, 42, 46, 57, 58] cho thấy, lỗi kết hợp từ cố định thường xảy ra với kết hợp thực từ và giới từ và kết hợp thực từ với thực từ Giả thuyết được đặt ra trong luận văn là, người học Việt Nam cũng xuất hiện hai kiểu lỗi tương tự, vì vậy trong luận văn chúng tôi tập trung vào việc khảo sát:

(1) Kết hợp từ cố định dạng thực từ kết hợp với giới từ

Các kết hợp thực từ với giới từ, bao gồm: danh từ + giới từ, tính từ + giới

từ, giới từ + danh từ, động từ + giới từ

(B) Kết hợp từ cố định dạng thực từ kết hợp với thực từ:

Các kết hợp giữa động từ + danh từ, tính từ + danh từ, trạng từ + tính từ

1.7 Thu thập và xử lí ngữ liệu

1.7.1 Nguồn ngữ liệu

Nguồn ngữ liệu của luận văn là các bài luận tiếng Anh của sinh viên năm

3 và năm 4 khoa Sư phạm tiếng Anh, Trường Đại học ngoại ngữ, ĐHQGHN

Trang 31

26

Đây là nhóm người học đã đạt chuẩn đầu ra về kiến thức tiếng, tức là đạt trình độ tiếng Anh tương đương trình độ C1 theo Khung tham chiếu Châu Âu, hoặc 7.0 IELTS Với chuẩn đầu ra này, người học đạt trình độ tiếng Anh từ trên trung cấp đến cao cấp, phù hợp với yêu cầu của đề tài Ở nhóm đối tượng này, số lượng lỗi ở trình độ thấp (lỗi chính tả, lỗi ngữ pháp như hòa hợp chủ ngữ và vị ngữ,…) sẽ hiếm xuất hiện và không gây nhiễu khi nghiên cứu các lỗi còn lại như lỗi kết hợp từ cố định Các sản phẩm viết của họ được thu thập

và dùng làm ngữ liệu cho việc phân tích

1.7.2 Cách thức thu thập ngữ liệu

Các bài viết được thu thập qua thư điện tử (email) Chúng tôi gửi thư điện tử cho lớp trưởng các lớp đề nghị cung cấp các bài luận tiếng Anh, trong thư nói rõ mục đích nghiên cứu, yêu cầu về ngữ liệu thu thập, bảo mật và quyền riêng tư, và yêu cầu về sự đồng ý sử dụng ngữ liệu cho mục đích học thuật Bằng cách gửi bài qua thư trả lời, các sinh viên đã đồng ý cung cấp ngữ liệu cho luận văn với mục đích nghiên cứu và giữ ẩn danh

Các bài luận tiếng Anh thu được tương đối phong phú và đa dạng về cả

độ dài và thể loại Chúng là các bài thu hoạch hoặc báo cáo dài từ 150 đến

1500 từ thuộc các môn học sử dụng tiếng Anh để giảng dạy như Giao tiếp liên văn hóa, Đất nước học Anh, Dẫn luận ngôn ngữ v.v Các bài viết được giáo viên dạy đánh giá về nội dung và trình độ sử dụng ngôn ngữ

Số lượng bài viết thu được là 133 bài, ứng với tổng số từ thu được là 66.828 từ Căn cứ vào số lượng chữ trong mỗi bài, cơ sở ngữ liệu (database) của luận văn bao gồm 3 loại bài viết chính: bài viết dài trên 1000 từ, bài viết ngắn 100-200 từ và bài viết có độ dài trung bình 400-600 từ Các bài viết đều được viết theo văn phong học thuật Các tệp bài viết được mã hóa và đưa vào

xử lí đảm bảo độ ẩn danh

Trang 32

và phân tích văn bản Các tính năng của phần mềm này đáp ứng rất tốt cho mục đích nghiên cứu của luận văn

Khi sử dụng phần mềm này, chúng tôi có thể thiết lập danh sách các kết hợp từ chia theo các loại kết hợp từ đưa ra trong giả thuyết cũng như truy xuất

vị trí xuất hiện trong văn cảnh gốc, từ đó đưa ra danh sách kết hợp từ mắc lỗi

để đưa vào phân tích

1.7.4 Xử lí ngữ liệu bước đầu

Toàn bộ cơ sở dữ liệu định dạng văn bản doc/docx được chuyển về dạng plain text (.txt), dùng mã Unicode UTF-8 để phù hợp chạy trong các phần mềm phân tích kho ngữ liệu AntConc

1.7.5 Đánh dấu từ loại cho ngữ liệu

Để đánh dấu từ loại cho ngữ liệu, luận văn sử dụng công cụ hỗ trợ TagAnt và bảng hệ thống nhãn từ loại của Anthony dựa trên hệ thống phân loại từ của University of Washington, cụ thể xin tham khảo Phụ lục của luận văn.2

Ngữ liệu sau khi được gán nhãn từ loại sẽ có định dạng như sau:

In_IN the_DT past_JJ few_JJ weeks_NNS ,_, Intercultural_NP communication_NN provided_VVD me_PP with_IN rationale_NN

2 Tham khảo trên trang web: https://courses.washington.edu/hypertxt/csar-v02/penntable.html

Trang 33

Việc gán nhãn từ loại giúp phần mền Antconc nhận diện được các kết hợp từ theo từ loại, từ đó xếp nhóm các kết hợp từ cố định như yêu cầu đặt ra

1.7.6 Quy trình xử lí ngữ liệu và phân tích lỗi

Bước 1: Xác định kết hợp từ cố định

Dữ liệu sau khi được gán nhãn, được tải vào phần mềm Antconc, chúng tôi sẽ: (a) dùng các lệnh để tìm ra các kết hợp từ (gồm kết hợp từ cố định và kết hợp từ tự do), (b) từ kết quả thu được lọc ra các kết hợp từ cố định

Dưới đây chúng tôi minh họa từng thao tác trên:

(1) Dùng lệnh để tìm các kết hợp từ

Dựa vào mục đích tìm kiếm, chúng tôi sử dụng các lệnh khác nhau để thao tác trên công cụ này Các lệnh tìm kiếm được viết ra theo cú pháp định sẵn của phần mềm, kết hợp với kí hiệu nhãn từ loại quy định, tùy vào từng loại kết hợp từ cần tìm sẽ có những công thức khác nhau

Ví dụ:

Trang 34

29

Tìm kiếm các kết hợp Danh từ + Giới từ, trong ô Search Term, gõ biểu thức: “NN #IN” Các kết quả thu được như hình bên dưới:

Kết quả dưới dạng văn bản (10 dòng đầu tiên):

1 in front of the class about a topic they chose

2 consists of a short tale about a naughty rabbit named

3 Here came a story about a bargain between a

4 possible Taking a conversation about babies‟ clothing in the

5 Scandal about British children emigrated to

6 of synthesizing a general image about childhood itself In

7 British culture about childhood Previously , children

8 to prostitution The idea about children perpetuated by Victorian

9 mind and deepening my understanding about communication among cultures

10 today gave me an overview about cultural taxonomy In

Thêm lệnh tìm kiếm “NNS #IN” để thu được các kết hợp là danh từ số nhiều và giới từ:

Trang 35

30

Kết quả dưới dạng văn bản (10 dòng đầu tiên):

1 Stereotyping – widely held beliefs about a group of people

2 a barrier when negative thoughts about a group of people

3 ovide overview knowledge and insights about child labor in this

4 was a transition of ideas about childhood The contradiction

5 the romantics to adopt ideas about childhood into their poetry

6 docile ones Wordsworth‟s ideas about childhood was later reinforced

7 stemmed from the poverty , ideas about children which perpetuated them

8 I have learned many things about culture around the world

9 fascinating terms and phenomenons about culture which I encountered

10 English to teach the children about culture , history : Further , I

Hoặc khi muốn tìm kiếm một khuôn cố định, chúng tôi dùng các biểu thức chính quy (regular expressions) để cho ra các kết hợp từ mong muốn

Trang 36

31

Ví dụ: Khi muốn tìm các kết hợp động từ và giới từ, các động từ có thể ở

nhiều thì và dạng, ta sử dụng biểu thức chính quy \b\w*_V\w*\b

\b\w*_RP\w*\b giúp tìm kiếm động từ ở tất cả các dạng thức kết hợp với các

giới từ trong toàn bộ ngữ liệu Kết quả hiển thị trên phần mềm như sau:

Kết quả dưới dạng văn bản (10 dòng đầu tiên):

1 Education have been promoted and developed along with the change of

2 othing and the expectations that come along with wearing them

3 them by their names , or pick apart the differences between each

4 show very well She moved around , asked for the guests

5 a recession Inflation may hold around that level till the

6 child carried a luggage and hung around their necks were name

7 suggesting that he should set aside a special day in

8 “ideal citizens ”who put aside their selfish ambitions and

9 had the “fantasy of stealing away a girl „s innocence

10 more than 30 years being taken away from Nottingham to Australia

Trang 37

32

Trong trường hợp xem xét từ cụ thể, chúng tôi áp dụng loại lệnh khác

Ví dụ: muốn xem trường hợp danh từ “presentation” trong các kết hợp từ, nhập lệnh “presentation” và xem kết quả

Kết quả hiển thị trên phần mềm:

Kết quả dưới dạng văn bản (10 dòng đầu tiên):

1 lesson , we had a presentation about “ DOLCE & GABBANA ADVERTISEMENT

2 of my classmate‟s presentation about intercultural relationships and

3 it Talking about the presentation , although it no doubt

4 classmates in the first presentation By looking back at

5 In our presentation , by using comparison between

6 yang as the group presentation does For example , many

7 the scandal In our presentation , firstly , we showed the

8 appear in our group presentation for not only this

9 In week 9 , the presentation has left great impression

10 I think doing the presentation helps us a lot

Trang 38

33

(b) Từ kết quả thu được lọc ra các kết hợp từ cố định

Từ các kết quả thu được, những kết hợp từ nào là cố định sẽ được lọc ra dựa trên định nghĩa về kết hợp từ và dựa vào văn cảnh mà cụm từ đó xuất hiện

Ví dụ: tìm kiếm các kết hợp Động từ và Danh từ, chúng ta sẽ được kết quả như sau (trích kết quả đại diện):

48 and virtue The idea drew attention from contemporary social artists

50 I have always observed and paid attention to how the “

58 talk show so as to give audience a new experience and

59 very new and useful information helping audiences be easy to understand

81 ur , girls were encouraged to give birth as soon as possible

84 practice of child labor also gave birth to a deadly disease

85 , many families still want to give birth to boys rather than

92 can teach you how to use body language in an essential

94 than traditional ways Why buy books and carried them everywhere

95 and offered him love of reading books and learning , something that

112 all EU nationals wanting to enter Britain , which clearly points to

113 then , in 1944 , when Germany attacked Britain with V1 Flying

117 gether , for example , I like watching cai luong like when I

121 child who deserved to be taken care of and to be

123 nevertheless , women who were taking care of children under the

Trong các kết quả trên, các kết hợp từ như: give audience, helping audiences use body language, buy books, reading books, enter Britain, attacked Britain, watching cai luong, là các kết hợp từ tự do; các kết hợp từ

như drew attention, paid attention, give birth, taken care là các kết hợp từ cố

định Nhóm thứ 2 được xác định là các kết hợp từ cố định dựa trên định nghĩa

Trang 39

34

và tiêu chí về kết hợp từ cố định, được kiểm tra tần suất đồng hiện trên BNC, cũng như kiểm tra bằng Từ điển kết hợp từ cố định Oxford

Bước 2: Nhận diện lỗi kết hợp từ cố định

Việc xác định đâu là kết hợp từ lỗi là công việc đòi hỏi nhiều sự tỉ mỉ Chúng tôi thực hiện các thao tác sau nhằm đảm bảo xác định đúng lỗi kết hợp

từ cố định

Thứ nhất, xem xét các kết hợp từ cố định trong ngữ cảnh Phần mềm Antconc cho phép ta truy xuất đến tệp văn bản chứa cụm từ đang xét, nên có thể xem xét cụm từ đó trong văn cảnh cụ thể

Thứ hai, xem xét các kết hợp từ đó trong kho ngữ liệu BNC để xác định tần suất xuất hiện, kết hợp từ nào có tần suất xuất hiện thấp thì thuộc diện nghi vấn có lỗi

Thứ ba xem xét kết hợp tình nghi trong từ điển Oxford Collocations Dictionary để khẳng định có phải là lỗi hay không Như chúng tôi đã giải thích bên trên, thao tác so sánh với từ điển kết hợp từ cố định, là chúng tôi đang so sánh gián tiếp với một kho ngữ liệu khác lớn hơn (OEC), đồng thời cũng là kết quả đã được thẩm định bởi người bản ngữ

Dưới đây chúng tôi lấy một ví dụ cụ thể để minh họa quy trình xác định lỗi

Ví dụ: Xem xét “perspectives about” trong kết quả tìm kiếm kết hợp danh từ + giới từ, chúng ta có thể truy xuất ngữ cảnh của nó:

“For further research for presentation or lesson, I

recommend that students should read more about this topic and experience more to feel the difference across cultures, so that they

form the perspectives about how to deal with intercultural

competence, to handle the situations in later life.”

Trang 40

35

Đối chiếu với kho ngữ liệu BNC

Xem xét tần suất của perspective(s) about trong kho ngữ liệu BNC Kết hợp perspective(s) about chỉ có 7 kết quả Đặt trong các kết hợp của

perspective(s) với các giới từ (808 kết quả), ta sẽ thấy tần suất 7 kết quả là rất

ít, chỉ chiếm khoảng 0,9% Trong các giới từ kết hợp với perspective, thì giới

từ “on” kết hợp thường xuyên hơn cả So sánh trong bảng sau:

Kết hợp từ Tần suất xuất hiện Tỉ lệ xuất hiện

Kết quả hiển thị trong kho ngữ liệu BNC như ảnh bên dưới:

Perspective(s) + about có 7 kết quả, chiếm tỉ lệ 0,9 % tổng các kết hợp

Perspective(s) + on có 343 kết quả, chiếm tỉ lệ 42% tổng các kết hợp:

Ngày đăng: 16/02/2020, 14:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w