Quy trình xử lí ngữ liệu và phân tích lỗi

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích lỗi từ vựng trong bài luận của sinh viên trường đại học ngoại ngữ đại học quốc gia hà nội theo phương pháp ngôn ngữ học ngữ liệu (Trang 33 - 43)

CHƢƠNG 1 CƠ SỞ LÍ THUYẾT

1.7. Thu thập và xử lí ngữ liệu

1.7.6. Quy trình xử lí ngữ liệu và phân tích lỗi

Bước 1: Xác định kết hợp từ cố định

Dữ liệu sau khi được gán nhãn, được tải vào phần mềm Antconc, chúng tôi sẽ: (a) dùng các lệnh để tìm ra các kết hợp từ (gồm kết hợp từ cố định và kết hợp từ tự do), (b) từ kết quả thu được lọc ra các kết hợp từ cố định.

Dưới đây chúng tôi minh họa từng thao tác trên:

(1)Dùng lệnh để tìm các kết hợp từ

Dựa vào mục đích tìm kiếm, chúng tôi sử dụng các lệnh khác nhau để thao tác trên công cụ này. Các lệnh tìm kiếm được viết ra theo cú pháp định sẵn của phần mềm, kết hợp với kí hiệu nhãn từ loại quy định, tùy vào từng loại kết hợp từ cần tìm sẽ có những công thức khác nhau.

Tìm kiếm các kết hợp Danh từ + Giới từ, trong ô Search Term, gõ biểu thức: “NN #IN”. Các kết quả thu được như hình bên dưới:

Kết quả dưới dạng văn bản (10 dòng đầu tiên):

1 in front of the class about a topic they chose 2 consists of a short tale about a naughty rabbit named 3 . Here came a story about a bargain between a 4 possible . Taking a conversation about babies‟ clothing in the 5 Scandal about British children emigrated to 6 of synthesizing a general image about childhood itself . In

7 British culture about childhood . Previously , children 8 to prostitution . The idea about children perpetuated by Victorian 9 mind and deepening my understanding about communication among cultures. 10 today gave me an overview about cultural taxonomy . In

Thêm lệnh tìm kiếm “NNS #IN” để thu được các kết hợp là danh từ số nhiều và giới từ:

Kết quả dưới dạng văn bản (10 dòng đầu tiên):

1 Stereotyping – widely held beliefs about a group of people 2 a barrier when negative thoughts about a group of people 3 ovide overview knowledge and insights about child labor in this

4 was a transition of ideas about childhood . The contradiction 5 the romantics to adopt ideas about childhood into their poetry 6 docile ones . Wordsworth‟s ideas about childhood was later reinforced 7 stemmed from the poverty , ideas about children which perpetuated them 8 I have learned many things about culture around the world

9 fascinating terms and phenomenons about culture which I encountered 10 English to teach the children about culture , history ...: Further , I

Hoặc khi muốn tìm kiếm một khuôn cố định, chúng tôi dùng các biểu thức chính quy (regular expressions) để cho ra các kết hợp từ mong muốn.

Ví dụ: Khi muốn tìm các kết hợp động từ và giới từ, các động từ có thể ở nhiều thì và dạng, ta sử dụng biểu thức chính quy \b\w*_V\w*\b \b\w*_RP\w*\b giúp tìm kiếm động từ ở tất cả các dạng thức kết hợp với các

giới từ trong toàn bộ ngữ liệu. Kết quả hiển thị trên phần mềm như sau:

Kết quả dưới dạng văn bản (10 dòng đầu tiên):

1 Education have been promoted and developed along with the change of

2 othing and the expectations that come along with wearing them .

3 them by their names , or pick apart the differences between each

4 show very well . She moved around , asked for the guests

5 a recession . Inflation may hold around that level till the

6 child carried a luggage and hung around their necks were name

7 suggesting that he should set aside a special day in

8 “ideal citizens ”who put aside their selfish ambitions and

9 had the “fantasy of stealing away a girl „s innocence

Trong trường hợp xem xét từ cụ thể, chúng tôi áp dụng loại lệnh khác. Ví dụ: muốn xem trường hợp danh từ “presentation” trong các kết hợp từ, nhập lệnh “presentation” và xem kết quả.

Kết quả hiển thị trên phần mềm:

Kết quả dưới dạng văn bản (10 dòng đầu tiên):

1 lesson , we had a presentation about “ DOLCE & GABBANA ADVERTISEMENT

2 of my classmate‟s presentation about intercultural relationships and

3 it . Talking about the presentation , although it no doubt

4 classmates in the first presentation . By looking back at

5 In our presentation , by using comparison between

6 yang as the group presentation does . For example , many

7 the scandal . In our presentation , firstly , we showed the

8 appear in our group presentation for not only this

9 In week 9 , the presentation has left great impression

(b) Từ kết quả thu được lọc ra các kết hợp từ cố định

Từ các kết quả thu được, những kết hợp từ nào là cố định sẽ được lọc ra dựa trên định nghĩa về kết hợp từ và dựa vào văn cảnh mà cụm từ đó xuất hiện. Ví dụ: tìm kiếm các kết hợp Động từ và Danh từ, chúng ta sẽ được kết quả như sau (trích kết quả đại diện):

48 and virtue . The idea drew attention from contemporary social artists

50 I have always observed and paid attention to how the “

58 talk show so as to give audience a new experience and

59 very new and useful information helping audiences be easy to understand

81 ur , girls were encouraged to give birth as soon as possible

84 practice of child labor also gave birth to a deadly disease

85 , many families still want to give birth to boys rather than

92 can teach you how to use body language in an essential

94 than traditional ways . Why buy books and carried them everywhere

95 and offered him love of reading books and learning , something that

112 all EU nationals wanting to enter Britain , which clearly points to

113 then , in 1944 , when Germany attacked Britain with V1 Flying

117 gether , for example , I like watching cai luong like when I

121 child who deserved to be taken care of and to be

123 nevertheless , women who were taking care of children under the

Trong các kết quả trên, các kết hợp từ như: give audience, helping audiences use body language, buy books, reading books, enter Britain, attacked Britain, watching cai luong, là các kết hợp từ tự do; các kết hợp từ

như drew attention, paid attention, give birth, taken care là các kết hợp từ cố định. Nhóm thứ 2 được xác định là các kết hợp từ cố định dựa trên định nghĩa

và tiêu chí về kết hợp từ cố định, được kiểm tra tần suất đồng hiện trên BNC, cũng như kiểm tra bằng Từ điển kết hợp từ cố định Oxford.

Bước 2: Nhận diện lỗi kết hợp từ cố định

Việc xác định đâu là kết hợp từ lỗi là công việc đòi hỏi nhiều sự tỉ mỉ. Chúng tôi thực hiện các thao tác sau nhằm đảm bảo xác định đúng lỗi kết hợp từ cố định.

Thứ nhất, xem xét các kết hợp từ cố định trong ngữ cảnh. Phần mềm Antconc cho phép ta truy xuất đến tệp văn bản chứa cụm từ đang xét, nên có thể xem xét cụm từ đó trong văn cảnh cụ thể.

Thứ hai, xem xét các kết hợp từ đó trong kho ngữ liệu BNC để xác định tần suất xuất hiện, kết hợp từ nào có tần suất xuất hiện thấp thì thuộc diện nghi vấn có lỗi.

Thứ ba xem xét kết hợp tình nghi trong từ điển Oxford Collocations Dictionary để khẳng định có phải là lỗi hay không. Như chúng tôi đã giải thích bên trên, thao tác so sánh với từ điển kết hợp từ cố định, là chúng tôi đang so sánh gián tiếp với một kho ngữ liệu khác lớn hơn (OEC), đồng thời cũng là kết quả đã được thẩm định bởi người bản ngữ.

Dưới đây chúng tôi lấy một ví dụ cụ thể để minh họa quy trình xác định lỗi.

Ví dụ: Xem xét “perspectives about” trong kết quả tìm kiếm kết hợp danh từ + giới từ, chúng ta có thể truy xuất ngữ cảnh của nó:

“For further research for presentation or lesson, I

recommend that students should read more about this topic and experience more to feel the difference across cultures, so that they form the perspectives about how to deal with intercultural competence, to handle the situations in later life.”

Đối chiếu với kho ngữ liệu BNC

Xem xét tần suất của perspective(s) about trong kho ngữ liệu BNC. Kết hợp perspective(s) about chỉ có 7 kết quả. Đặt trong các kết hợp của

perspective(s) với các giới từ (808 kết quả), ta sẽ thấy tần suất 7 kết quả là rất

ít, chỉ chiếm khoảng 0,9%. Trong các giới từ kết hợp với perspective, thì giới từ “on” kết hợp thường xuyên hơn cả. So sánh trong bảng sau:

Kết hợp từ Tần suất xuất hiện Tỉ lệ xuất hiện

perspective(s) on 343 42% perspective(s) of 329 40% perspective(s) in 78 9,7% perspective(s) from 41 5,1% perspective(s) upon 12 2,3% perspective(s) about 07 0,9% Tổng số 808 100%

Kết quả hiển thị trong kho ngữ liệu BNC như ảnh bên dưới:

Perspective(s) + about có 7 kết quả, chiếm tỉ lệ 0,9 % tổng các kết hợp.

Ở đây, chúng ta thấy kết hợp “perspective(s) about” tuy hiếm thấy, nhưng vẫn xuất hiện 7 lần trong kho BNC, điều này đặt ra vấn đề liệu đó có phải là một kết hợp lỗi? Tiếp tục xem xét nguồn văn bản của một số trường hợp “perspective(s) about”, hầu hết tập trung vào các văn bản không rõ tác giả, mức độ khó của văn bản ở bậc trung bình, tức là không phải văn bản có tính học thuật cao, vì vậy văn bản đó có khả năng mắc lỗi.

Đối chiếu với Từ điển Oxford Collocations Dictionary:

Thao tác đối chiếu với từ điển Oxford Collocations Dictionary, trên thực tế là chúng tôi đang gián tiếp đối chiếu với khó ngữ liệu 2,1 tỷ từ mà từ điển này dựa vào, đồng thời kết quả được đưa ra trong từ điển cũng đã qua thẩm định của các chuyên gia ngôn ngữ học người bản ngữ. Trong ví dụ trên đây, khi đối chiếu với từ điển Oxford Collocations Dictionary, các kết quả cho ra:

“Perspective” kết hợp với “in/on/upon”. Đến đây, chúng ta có thể kết luận “perspective about” là kết hợp từ không điển hình, không được người

tiêu chí về lỗi kết hợp từ của luận văn, “perspective about” được xác định là một lỗi kết hợp từ.

Nesselhauf (2005) đề xuất xác định lỗi kết hợp từ cố định bằng cách xem xét trong kho ngữ liệu BNC và chỉ ra rằng nếu kết hợp đó xuất hiện ít nhất 05 lần trong các văn bản khác nhau trong kho BNC, kết hợp đó có thể coi là kết hợp đúng, và ngược lại, nếu không thể tìm thấy kết hợp từ cố định trong từ điển Oxford Collocations Dictionary và nó xuất hiện ít hơn 05 lần trong kho BNC thì đó là một kết hợp lỗi [45]. Đây cũng là một gợi ý cho chúng tôi trong quá trình xác định lỗi kết hợp từ vựng. Tuy nhiên tác giả không đưa ra phương án xác định cho những trường hợp kết hợp tình nghi là lỗi xuất hiện hơn 05 lần trong kho ngữ liệu BNC nhưng không có trong từ điển kết hợp từ. Chúng tôi sẽ đề cập đến phương án xác định cụ thể trong phần thảo luận về các trường hợp này.

Bước 3: Phân tích nguyên nhân gây lỗi

Dựa trên kết quả tổng hợp các lỗi kết hợp từ, luận văn sẽ tiến hành thảo luận về nhận dạng lỗi tiêu biểu của đối tượng nghiên cứu và phân tích nguyên nhân gây ra lỗi.

Trong quá trình phân tích nguyên nhân gây lỗi, chúng tôi tham khảo Từ điển Anh Việt do Viện Ngôn ngữ học biên soạn, xuất bản năm 1993, để đối chiếu và làm cơ sở xác định nguyên nhân gây lỗi. Cuốn từ điển này sử dụng phần tường giải bằng tiếng Anh của cuốn Oxford Advanced Learners‟ Dictionary, từ đó dịch sang tiếng Việt và cung cấp từ ngữ tiếng Việt đối chiếu trong trường hợp có thể. Từ điển Anh Việt này hướng đến đối tượng trình độ tiếng Anh cao cho nên không chỉ diễn giải nghĩa của từ đơn thuần mà còn hướng dẫn cách dùng từ, phân biệt sắc thái khác nhau của từ trong tiếng Anh. Khi sử dụng từ điển đối chiếu tiếng Anh – tiếng Việt này, chúng tôi chú ý các

trường hợp những từ tiếng Anh khác nhau có cách diễn đạt giống nhau trong tiếng Việt, điều có khả năng gây nhầm lẫn với người học.

Ví dụ: cặp giới từ “for” và “to” cùng có nghĩa “cho” trong tiếng Việt, như ở cụm “a letter for you” hay cụm “the key to the door”. Sự giống nhau này có khả năng là nguyên nhân gây ra lỗi như *solution for (kết hợp đúng: solution to) bởi trong tiếng Việt cụm tương đương là “giải pháp cho”.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích lỗi từ vựng trong bài luận của sinh viên trường đại học ngoại ngữ đại học quốc gia hà nội theo phương pháp ngôn ngữ học ngữ liệu (Trang 33 - 43)