Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
771,35 KB
Nội dung
XX NHỮNG VẤN ĐỀ CHUNG XX 1. Khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu Đã có không ít nhà nghiên cứu khẳng định rằng “kho ngữ liệu và việc nghiên cứu kho ngữ liệu đã làm nên cuộc cách mạng về nghiên cứu ngôn ngữ, và về các ứng dụng của ngôn ngữ trong vòng vài thập niên qua” [Hunston 2002:1]. Mặc dù thuật ngữ ngôn ngữ học ngữ liệu (corpus linguistics) và ngữ liệu (corpus) xuất hiện lần đầu tiên đầu những năm 1980 [Leech & Svartvik 1992:105] nhưng những nghiên cứu ngôn ngữ dựa vào ngữ liệu đã có lịch sử từ trước đó. Thuật ngữ “ngữ liệu” (corpus) trong ngành ngôn ngữ học được hiểu là một tập hợp văn bản viết hoặc lời nói đã được văn bản hoá (hay phiên âm) dùng làm cơ sở cho việc phân tích và miêu tả ngôn ngữ học. Theo Sinclair [ 1991], kho ngữ liệu là “một khối các văn bản ngôn ngữ tự nhiên được chọn làm đại diện cho một trạng thái hay biến thể của một ngôn ngữ”. Leech [1992:116] đưa ra một định nghĩa khá chặt chẽ như sau về khái niệm kho ngữ liệu : “cần phải nói thêm rằng các kho ngữ liệu điện tử là những tập hợp các văn bản một cách có tổ chức: chúng thường được xây dựng với các mục đích cụ thể định trước, và thường được xây dựng để (nói một cách thông dụng) đại diện cho một ngôn ngữ hay thể loạ i văn bản”. Sinclair [1996] cũng chia sẻ với quan điểm trên của Leech và nhấn mạnh tầm quan trọng của tính đại diện như sau: “Một kho ngữ liệu là một tập hợp các phân đoạn của ngôn ngữ được chọn lựa và sắp xếp theo các tiêu chí ngôn ngữ học một cách rõ ràng nhằm sử dụng như một mẫu của ngôn ngữ đó”. Trong hoàn cảnh hiện nay, một kho ngữ liệu có thể được hi ểu theo một số cách hiểu sau: - (nghĩa rộng) bất cứ khối văn bản nào của ngôn ngữ tự nhiên; - (thông dụng) một khối văn bản máy đọc được; - (nghĩa hẹp) một tập hợp nhất định các văn bản máy đọc được, là mẫu đại diện lớn nhất cho một ngôn ngữ hay các loại biến thể (variety). Về nguyên tắc thì bất cứ tập h ợp lớn hơn một văn bản nào đều có thể gọi là một kho ngữ liệu. Từ “corpus” trong tiếng Latin đơn giản có nghĩa là khối (body), do vậy một kho ngữ liệu có thể được định nghĩa là một khối các văn bản bất kì. Tuy nhiên thuật ngữ “corpus” khi được sử dụng trong văn cảnh ngôn ngữ học hiện đại thường dùng để định danh một cách chặt chẽ hơn lố i định nghĩa giản đơn. Theo đó, các thuộc tính sau được coi như các thuộc tính bất khả li của một kho ngữ liệu [McEnery & Wilson 2001:29]: a. tính mẫu và tính đại diện; b. kích cỡ nhất định; c. dạng thức máy tính đọc được (cũng gọi là dạng thức điện tử); d. một tham chiếu chuẩn. SỬDỤNGKHONGỮLIỆU TRONGGIẢNGDẠYTIẾNGVIỆT PHẠM HIỂN* * Cán bộ Viện Từ điển học và Bách khoa thư Việt Nam; NCS Khoa Ngôn ngữ học, Đại học Alberta, Canada. XXI TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012 XXI Bài viết này giới thiệu và đề xuất việc sử dụng kho ngữ liệu (corpus) trong việc dạy và học tiếng Việt qua kinh nghiệm xây dựng, sử dụng và khai thác kho ngữ liệu tiếng Việt cũng như kinh nghiệm rút ra từ việc sử dụng, khai thác và phân tích dữ liệu các kho ngữ liệu tiếng Anh có chất lượng cao trong việc nghiên cứu và giảng dạy ngôn ngữ. Bài viết không chỉ tổng kết và trình bày các vấn đề bản chất mang tính lí thuyết của ngôn ngữ học ngữ liệu trong việc giảng dạy ngôn ngữ, mà còn đưa ra các thí dụ minh hoạ cụ thể về việc sử dụng thực tế kho ngữ liệu trong giảng dạy tiếng Việt. 2. Lí do sử dụng kho ngữ liệu trong giảng dạy tiếng Việt Một khó khăn trong việc chuẩn bị và biên soạn tài liệu giảng dạy ngôn ngữ là phả i thường xuyên cung cấp cho người học sản phẩm phản ánh chân thực ngôn ngữ đang được sử dụng trong đời sống thật nhất. Các bài phê bình về tài liệu dạy tiếng truyền thống đã có lí khi chỉ ra rằng thông tin trong các tài liệu đó về sử dụng ngôn ngữ - đó có thể là thông tin về ngữ pháp, từ vựng hay hội thoại - thường dựa trên những ý kiến chưa được kiểm chứng bằ ng dữ liệu thực tế hay chỉ dựa trên cảm thức ngôn ngữ của người biên soạn tài liệu. Đó nhiều khi là những thông tin thường không chính xác hoặc không thích hợp trong cuộc sống thực của ngôn ngữ. Trong lĩnh vực dạy tiếng những năm 80 của thế kỉ XX đã nổi lên một “cuộc cách mạng” về tài liệu nguyên bản nhằm giải quyết vấn đề này bằng cách chủ tr ương sử dụng nhiều tài liệu gốc hơn, tức là những tài liệu được tạo ra không phải nhằm vào mục đích sử dụng trong lớp học. Người ta giải thích rằng các tài liệu này sẽ giúp người học tiếp cận với các ví dụ của ngôn ngữ tự nhiên được lấy từ ngôn cảnh thực tế. Gần đây hơn, với sự phát triển nhanh chóng của ngôn ngữ học ngữ liệu, việc xây dựng và ứng dụng thành công nhiều cơ sở dữ liệu quy mô lớn hay các kho ngữ liệu (corpora) gồm các thể loại ngôn ngữ gốc khác nhau đã mang lại một cách tiếp cận xa hơn đó là cung cấp cho người học các tài liệu giảng dạy phản ánh cách sử dụng ngôn ngữ thực [Sinclair & Renouf:1988]. Ngôn ngữ học ngữ liệu cho phép người dạy và người học tiếng tự tin rằng ngôn ngữ họ đang dạy và học là ngôn ngữ tự nhiên mà họ gặp ở ngoài lớp học - tức là ngôn ngữ trong đời sống thực của nó. Chính ngôn ngữ học ngữ liệu sẽ cung cấp phương tiện cho giáo viên mang ngôn ngữ tự nhiên vào lớp học bằng cách hướng dẫn người học thực hành các hoạt động tương tác với ngôn ngữ thực. Bên cạnh lí do được tiếp cận với các văn bản nguyên gốc, nhiều nghiên cứu về tiếp thu ngôn ngữ thứ hai đã chỉ ra rằng khi người học thực sự tham gia vào các hoạt động có ý nghĩa, chẳng hạn như các hoạt động thao tác tìm kiếm trên kho ngữ liệu cho phép họ vận dụng biến hoá ngôn ngữ, thì người học sẽ học được nhiều thông tin hơ n, nhớ và lưu giữ thông tin lâu hơn và tốt hơn. Ngôn ngữ học ngữ liệu giúp người học tiếng có được những hoạt động có ý nghĩa này. Cũng như hầu hết những người bản ngữ nói tiếng khác, người bản ngữ nói tiếng Việt như tiếng mẹ đẻ thường chỉ chú ý đến các dạng thức sử dụng ngôn ngữ mang tính đánh dấu và bất thường h ơn là các dạng thức sử dụng mang tính không đánh dấu và điển hình. Với tư cách là người biên soạn tài liệu phục vụ việc giảng dạy tiếng Việt, chúng ta có thể ứng dụng nhiều kết quả của ngôn ngữ học ngữ liệu để khắc phục những khiếm khuyết trên bởi lẽ ngôn ngữ học ngữ liệu có thể cung cấp các thông tin sử dụng ngôn ngữ trong đời sống thực của nó. Những thông tin này có thể sử dụng để xây dựng và phát triển tài liệu giảng dạy ngôn ngữ cũng như dùng để xây dựng các bộ đề kiểm tra khả năng sử dụng ngôn ngữ cho học viên. Hầu hết những người nói thành thạo một ngôn ngữ đều có một cảm thức khá chính xác và chắc chắn về một dạng thức nào đó có đúng ngữ pháp hay không. Chẳ ng hạn, khi nghe “*Tôi ăn XXII NHỮNG VẤN ĐỀ CHUNG XXII không cơm” chúng ta biết rằng dạng thức đúng phải là “Tôi không ăn cơm”. Tuy nhiên, khi phải trả lời câu hỏi, chẳng hạn như “năm động từ được sử dụng nhiều nhất trong hội thoại là những động từ nào?” thì dường như cảm thức của người bản ngữ lại khó đưa lại một câu trả lời chuẩn xác được. Các ứng dụng và tìm kiếm ngữ li ệu có thể dễ dàng và nhanh chóng nhận diện và cung cấp các khuôn mẫu hay dạng thức đồng xuất hiện theo các tình huống khác nhau. Trong các kết quả nghiên cứu về giảng dạy ngôn ngữ thứ hai gần đây, các nhà chuyên môn, từ giáo viên đến các chuyên gia khảo thí, đều thường xuyên khẳng định việc dành ưu tiên cho các tài liệu nguyên bản phản ánh ngôn ngữ trong các văn bản tự nhiên hơn là các ví dụ tự đặt ra. Trong đó bao gồm các đặc trưng ngôn ngữ h ọc như từ vựng và ngữ pháp dùng trong giảng dạy và kiểm tra [Byrd, 1995]. Kho ngữ liệu và các phương pháp của ngôn ngữ học ngữ liệu có thể mang lại một nguồn văn bản tự nhiên, nguyên bản cho việc giảng dạy và học ngôn ngữ. Có thể nhận xét rằng một trong những vấn đề và cũng là chủ đề tranh luận trong việc sử dụng kho ngữ liệu trong giảng dạy ngôn ngữ nói chung và tiếng Việt nói riêng là tính nguyên bản (authenticity) của tài liệu phục vụ cho vi ệc giảng dạy và học tập ngôn ngữ. Rõ ràng việc thu thập dữ liệu để xây dựng kho ngữ liệu, tức là việc thu thập các ví dụ trong ngôn ngữ như nó vốn được sử dụng trong các văn cảnh tự nhiên là cần thiết nhưng cũng không hề đơn giản do vấp phải các vấn đề về xung đột lợi ích và bản quyền tác giả. Các ví dụ trong các kho ngữ liệu cung cấp các khía cạ nh và bình diện sử dụng khác nhau và hơn nữa chúng lại độc lập với các nhiệm vụ học tiếng. Tức là, các ví dụ này nằm trong các ngữ cảnh nguyên bản của chúng, đa số chúng được soạn ra cho những đối tượng độc giả cụ thể, và thường là không phải ngay từ đầu chúng hướng đến những người học tiếng. Do đó, khi người học tiếng được tiếp xúc với các thí d ụ trích rút từ kho ngữ liệu này, họ đang được tiếp cận với nguồn ngôn ngữ thực như nó đang được sử dụng hàng ngày. Chính điều này minh chứng cho cái gọi là tính nguyên bản mà chúng ta đang tìm hiểu. 3. Các phương pháp sử dụng kho ngữ liệu trong lớp dạy tiếng Việc sử dụng kho ngữ liệu trong lớp dạy tiếng có thể được thực hiện theo một số phương pháp khác nhau. Chẳng hạn, có thể tập trung vào các đặc trưng ngôn ngữ học của từng đơn vị hoặc tập trung vào đặc trưng chung của các văn bản hay biến thể ngôn ngữ thuộc cùng một thể loại như văn bản hành chính, văn bản thương mại, hay cũng có thể là các bài diễn thuyết. Trong các phần dưới đây chúng tôi sẽ trình bày các phương pháp sử dụng kho ngữ liệu sau: (i) Lập danh sách tần s ố từ, (ii) Sử dụng dòng chỉ mục ngữ cảnh (concordance), (iii) Sử dụng bảng đồng hiện từ vựng (collocation), và (iv) Lập khuôn cấu trúc câu. Cùng với các ứng dụng trong giảng dạy ngôn ngữ khác, việc học tiếng với sự trợ giúp của máy tính (CALL) bao gồm cả sử dụng các kho ngữ liệu ngôn ngữ cho phép người học trực tiếp sử dụng kho ngữ liệu thông qua các bài tập có hướng dẫ n hoặc qua các tài liệu được biên soạn dựa vào các kho ngữ liệu, chẳng hạn như các dòng chỉ mục ngữ cảnh sau: [xem trang XXIII] Hoạt động trên lớp này thường được biết đến với tên gọi “học hướng dữ liệu” (DDL) [xem thêm Johns 1986, 1991] . Johns [2002:108] xem DDL là một quá trình trong đó “cho phép người học tiếng tiếp cận với dữ liệu trực tiếp giống như những người làm nghiên cứu ngôn ngữ học và mỗi học viên là một Sherlock Holmes”. Thực tế đây là một phương pháp được nhiều người giảng dạy cũng như học tập ngôn ngữ thường dùng khi họ sử dụng kho ngữ liệu lớn nhất thế giới - mạng Internet, để tìm kiếm các ngữ cảnh thực tế bằng các cỗ máy tìm kiếm hiệu quả. XXIII TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012 XXIII Hình 1. Chỉ mục ngữ cảnh của từ chúng ta Một dạng thông tin rất hữu ích cho người dạy và học tiếng là danh sách các từ có tần số sử dụng cao nhất. Đây là cơ sở để rút ra danh sách từ cơ bản trong dạy tiếng. Ý nghĩa chính của danh sách tần số là khám phá các từ có tần suất sử dụng thường xuyên nhất trong một ngôn ngữ. Đối với người dạy và học tiếng, danh sách tần số cho phép họ sử dụng thời gian hiệu qu ả hơn bằng cách tập trung vào dạy và học các từ mà học viên dường như chắc chắn sẽ gặp phải trong đời sống thực. Để có được thông tin danh sách tần số từ, cách duy nhất là phải dựa vào một kho ngữ liệu tin cậy. Dưới đây là danh sách tần số từ tiếng Việt, với 2 thông tin từ đầu mục và tần số thô xuất hiện trong toàn bộ kho ng ữ liệu, dựa trên kho ngữ liệu xấp xỉ 100 triệu từ. Thủ tục để tìm kiếm các ngữ đoạn đồng xuất hiện chúng tôi sử dụng trong bài này nhằm để rút ra các chuỗi lặp đi lặp lại trong kho ngữ liệu là tạo ra các chuỗi lặp gồm 2, 3, 4, 5, 6 từ sau đó sắp của 1886580 đã 915163 và 1796594 người 901890 là 1557623 cho 835825 một 1247714 với 683074 có 1238202 để 584675 không 1101842 tôi 570177 trong 1089431 này 559560 những 1054607 về 551195 được 996418 ở 526722 các 981065 cũng 506872 Hình 2. Danh sách 20 từ có tần số cao nhất XXIV NHỮNG VẤN ĐỀ CHUNG XXIV xếp danh sách này theo tần số từ cao xuống thấp cho toàn bộ kho ngữ liệu xấp xỉ 100 triệu từ. Vì lí do kĩ thuật, một giới hạn tần số được đặt ra để hạn chế số lượng các ngữ đoạn có tần số thấp. Để phục vụ bài viết này, chúng tôi đặt ranh giới này là có tần số xuất hiện tối thiểu 400 lần trong toàn bộ kho ngữ liệu, t ức là phải xuất hiện ít nhất 4 lần trên một triệu từ. Biber et al., (1999) đặt giới hạn này là 10 lần trên một triệu từ và Cortes [2002; 2008] đặt 20 lần trên một triệu từ. Hình 3. Trích một số ngữ đoạn đồng xuất hiện (5-gram) có tần số cao Vì sao chúng ta lại nên quan tâm đến các ngữ đoạn? Vì chúng là một chỉ dấu của người bản ngữ. Nghiên cứu của Prodromou [2003, 2008] cho rằng lời nói của người bản ngữ có thể được phân biệt với lời nói của người sử dụng tiếng Anh thành công ở trình độ cao qua việc xem xét sự có mặt hay không của các ngữ đoạn đồng xuất hiện thông dụng. Prodromou biện luận rất thuyết phục rằng các ngữ đoạn cốt lõi như sort of và you know được người nói trong cộng đồng văn hoá nói tiếng Anh đánh giá là nó phản ánh tính cộng đồng sâu sắc giữa những người bản ngữ mà không phải người học tiếng nào, kể cả ở trình độ cao cấp, cũng có thể sử dụng thành thạo được. 4. Biên soạn bài thực hành từ vựng dựa trên kho ngữ liệu Nghiên cứu kho ngữ liệu có thể đóng một vai trò quan trọng trong việc đánh giá xem chúng ta có đang dạy cho người học các từ mà họ sẽ cầ n tới trong đời sống hàng ngày hay không, từ đó chúng ta sẽ phát triển tài liệu dựa trên các kho ngữ liệu như thế nào. Kết quả nghiên cứu của Nation [2007], Schmitt [2008] cho biết rằng để đọc một văn bản thành công ta cần phải biết khoảng 97 phần trăm từ trong văn bản đó. Cũng từ nghiên cứu việc đọc các nhà nghiên cứu kết luận rằng khả năng đọc thạo và vốn từ vựng có liên quan chặt chẽ với nhau và có mối quan hệ qua lại. Càng đọc nhiều thì càng học được nhiều từ vựng mới, và càng biết nhiề u từ vựng thì đọc càng thuận lợi [Grabe 2009; Grabe & Stoller 2002]. Chính thông tin này về nhu cầu đọc văn bản học thuật khẳng định thêm vai trò quan trọng của việc giảng dạy và hướng dẫn học từ vựng trong khi dạy tiếng. Nhờ có các nghiên cứu ngữ liệu chúng ta biết rằng việc đọc học thuật chủ yếu dựa vào danh từ. Dữ liệu từ kho ngữ liệu các văn bản học thuật cho thấy tỉ lệ danh từ cao h ơn động từ nhiều. Ngược lại, trong hội thoại hàng ngày, thậm chí cả trong các bài giảng học thuật trên lớp, việc sử dụng động từ và danh từ phân bố khá đều đặn [Biber 2006]. Giáo viên có thể sử dụng thông tin này để thiết kế tài liệu bổ sung từ vựng đáp ứng tốt hơn nhu cầu của từng học viên. Như vậy, tuy không loại bỏ việc học động từ, nhưng chúng ta nên chú trọng việc học danh từ trong phần hướng tất cả những cái đó tôi không hiểu tại sao là một trong những người không còn nghi ngờ gì cho tất cả mọi người những gì đã xảy ra không còn cách nào khác không bao giờ quên được với tất cả mọi người không thể nào quên được ngày này qua ngày khác không thể tưởng tượng được không biết phải làm gì không biết làm thế nào không bao giờ trở lại tôi có cảm giác như như không có chuyện gì không biết bao nhiêu là muốn làm gì thì làm làm sao tôi có thể không biết bao nhiêu lần chuyện gì đã xảy ra Đây là lần đầu tiên không bao giờ có thể là lần đầu tiên tôi sinh ra và lớn lên tất cả mọi người đều có một cái gì đó đây là lần đầu tiên lần đầu tiên trong đời XXV TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012 XXV dẫn từ vựng, bao gồm cả việc tiếp thu danh từ và cấu tạo danh từ, cho các học viên có nhu cầu theo học đại học hoặc làm công việc nghiên cứu. Chẳng hạn, qua việc hướng dẫn học viên tìm hiểu nhóm các từ kết hợp với hai từ “việc” và “sự” vốn thường kết hợp trước động từ hoặc tính từ để biến chúng thành danh từ trong tiếng Việt có thể gợi ý cho học viên khám phá cách sử dụng từ ngữ trong thực hành tiếng Việt. 5. Biên soạn bài thực hành ngữ pháp dựa trên kho ngữ liệu Trên đây chúng ta đã thảo luận về các chứng cứ ngữ liệu sử dụng trong việc đưa ra các đặc trưng và khuôn mẫu từ vựng vốn khó có thể nhận ra nếu chỉ dựa vào cảm thức ngôn ngữ. Trong phần này chúng ta sẽ tìm hiểu sâu thêm một bước đ ó là xem xét lối các từ kết hợp với nhau để tạo thành các khuôn ngữ pháp riêng biệt qua việc chuẩn bị một bài thực hành ngữ pháp dựa trên kho ngữ liệu. việc sự từ kết hợp sau từ kết hợp trước việc sự 10 1885 hiện diện thu hút 0 195 0 272 hiện hữu bày tỏ 13 645 26 836 có mặt thể hiện 44 874 178 6627 sống thiếu 43 624 74 870 quan tâm đánh dấu 63 380 57 460 trợ giúp chứng tỏ 46 246 79 557 đóng góp có 64 308 70 341 hiểu biết chứng kiến 104 333 88 417 ổn định duy trì 86 221 75 301 can thiệp đảm bảo 119 292 242 671 hợp tác nhờ 192 474 1779 5655 phát triển thúc đẩy 204 368 450 682 lựa chọn ngăn chặ n 181 242 477 570 kiểm soát cản trở 186 205 919 339 quản lý mất 889 242 966 182 bảo vệ bao gồm 355 39 1397 235 học thực hiện 1040 128 799 9 giải quyết hoàn tất 305 27 1059 9 thành lập phản đối 772 54 1293 10 nghiên cứu hoàn thành 315 21 2803 19 sử dụng coi 630 40 1173 8 tổ chức Về 496 24 1288 0 đưa thông qua 883 29 1846 0 thực hiện ủng hộ 453 0 2770 0 xây dựng lo 1116 0 Hình 4. Bảng các từ kết hợp sau và trước việc và sự với thông tin tần số xuất hiện XXVI NHỮNG VẤN ĐỀ CHUNG XXVI Một kho ngữ liệu có thể cho chúng ta biết nhiều điều khác nhau về ngữ pháp. Nó có thể mở rộng hiểu biết của chúng ta về các khái niệm và phạm trù ngữ pháp truyền thống, cụ thể là cung cấp cho chúng ta nhiều thông tin hơn về sự phân bố các phạm trù này. Một kho ngữ liệu có thể chỉ ra mối quan hệ quan trọng giữa ngữ pháp và từ vựng [xem Sinclair 1990; 1996; 1998] . Một kho ngữ liệu cũng có thể cung cấp nhiều thông tin về một dạng thức quan trọng và các khuôn ngữ nghĩa và từ vựng - ngữ pháp liên hệ với hình thức của nó. Dưới đây chúng tôi thử khám phá một trong những “kì quan” của tiếng Việt đó là tìm kiếm các chuỗi động từ kết hợp với nhau trong cách sử dụng ngôn ngữ thực tế. Kinh nghiệm giảng dạy cho thấy đây là vấn đề gây nhiều bối rối cho học viên cấp cơ sở, nhưng có thể lại mang nhiều cảm hứng học tập và khám phá cho học viên trình độ trung và cao cấp. Có thể cần nhiều thảo luận về khái niệm “động từ”, nhưng ở đây chúng tôi tạm lấy nền tảng giáo khoa dạy tiếng cũng như từ điển tiếng Việt tiêu chuẩn để xác định các chuỗi bao gồm 5 động từ đi liền nhau trong tiếng Việt. Thực tế kết hợp với cái tần số kết hợp với con tần số kết hợp với chiếc tần số tên 6838 đường 29187 xe 5633 đầu 2298 mắt 3809 áo 2197 tâm 1862 chó 2721 ghế 1589 giá 1418 sông 2844 máy bay 1614 ngã 1091 vật 2784 tàu 1444 bóng 951 tàu 2633 thuyền 1298 máy 895 chim 2083 lá 1297 áo 856 ngựa 2037 máy 849 bàn 909 gà 1603 đồng hồ 639 ghế 770 tim 1555 xe hơi 621 cây 769 cá 1469 cầu 723 cảm giác 695 thuyền 1107 khăn 592 ác 665 thú 1015 giường 601 nôi 630 rắn 942 xe đạp 559 xác 631 voi 887 trực thăng 548 trí 639 dao 834 bàn 747 cớ 601 mèo 770 mũ 503 tội 645 bò 754 nhẫ n 452 vỏ 595 mồi 614 điện thoại 450 chuyện 814 suối 547 xe tải 400 miệng 601 chuột 529 bánh 431 sự 824 hổ 462 váy 397 thế giới 768 đường dẫn 448 hộp 406 đuôi 557 dân 570 áo dài 373 Hình 5. Phân bố của các từ đi sau cái, con, chiếc với thông tin tần số xuất hiện XXVII TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012 XXVII khi tìm hiểu, chúng tôi ghi nhận chuỗi động từ có con số cao hơn như vậy nhưng không có điều kiện trình bày ở đây. Hình 6. Một số thí dụ câu có kết cấu chuỗi 5 động từ đi liền nhau 6. Một vài hoạt động trên lớp sử dụng kho ngữ liệu Phần này trình bày một số thí dụ hoạt động sử dụng hoặc khai thác dữ liệu từ kho ngữ liệu trong lớp học tiếng. Các hoạt động có thể điều chỉnh để phù hợp với trình độ của học viên. Người dạy có thể cải tiến, nâng cao nhằm đáp ứng được các mục tiêu giảng dạ y của mình. Hoạt động 1. Nhận diện nghĩa và cách sử dụng qua ngữ cảnh: Hoạt động này có thể áp dụng cho các phần dạy đọc và phần từ vựng cho học viên các trình độ khác nhau. Bước 1: Đề nghị học viên lấy 10 bài báo và tạo thành một kho ngữ liệu nhỏ của riêng mình. Sau đó chạy chương trình tìm kiếm các dòng chỉ mục ngữ cảnh. Bước 2: Cho học viên đọc các chỉ mục ng ữ cảnh đó và đoán nghĩa của từ. Sau đó gộp nhóm các dòng chỉ mục có cùng nghĩa lại với nhau. Bước 3: Đặt câu với các từ vừa học được. Hoạt động 2. Tìm hiểu tần số sử dụng của từ. Bước 1: Cho học viên nhập 10 bài báo trên vào chương trình và tạo bảng danh sách tần số của các từ sắp xếp theo trật tự ABC và sắp xếp theo tầ n số từ cao xuống xuống thấp. Bước 2: Đề nghị học viên đọc qua danh sách tần số trên và viết lại các từ không biết hoặc không quen. Xem các từ mình không biết nằm ở nửa trên hay nửa dưới của danh sách tần số trên. Chú ý: Có thể thực hiện cả hai hoạt động 1 và 2 đồng thời. Khi học viên nhận thấy từ mới không biết nghĩa ở trong Hoạt động 2 thì có thể chuyển qua Hoạt động 1 để đoán nghĩa từ trong ngữ cảnh. XXVIII NHỮNG VẤN ĐỀ CHUNG XXVIII Hoạt động 3. Từ vựng trong các thể loại ngữ vực khác nhau: Hoạt động này yêu cầu học viên hoặc giáo viên chuẩn bị trước các văn bản học thuật và các văn bản hội thoại (có thể lấy từ các cuộc hội thoại hàng ngày hay trên lớp). Bước 1: Chia lớp thành 2 nhóm. Đề nghị các học viên nhóm thứ nhất nhập 10 văn bản học thuật và các học viên nhóm còn lại nhập 10 văn b ản hội thoại vào chương trình. Các học viên có thể chọn các văn bản khác nhau trong cùng thể loại được giao. Bước 2: Cho học viên tạo các danh sách tần số từ các văn bản mà họ đã chọn và sắp xếp theo trật tự tần số, tức là các từ có tần số cao nhất sẽ đứng đầu danh sách. Bước 3: Đề nghị học viên viết 10 từ cho mỗi loại từ loại như danh từ, động từ, và tính từ. Bước 4: Cho các học viên so sánh danh sách của họ với danh sách của các học viên khác cùng nhóm xem có những từ nào trùng nhau và không trùng nhau. Sau đó tập hợp lại thành một danh sách chung gồm 10 từ có tần số cao nhất trong toàn bộ nhóm, cũng theo từ loại. Bước 5: Cho học viên so sánh với các học viên khác thuộc nhóm còn lại, tức là nhóm học viên chọn các văn bản thuộc các ngữ vực khác. Thảo luận về sự khác nhau của danh sách từ cùng nhóm và khác nhóm. Tìm những từ nào giống nhau trong cả 2 nhóm. [Chú ý: Khi học viên gặp từ mới có thể cho họ làm Hoạt động 1 để đoán nghĩa từ trong ngữ cảnh] 7. Những điểm nên chú ý khi sử dụng kho ngữ liệu trên lớp Có nhiều cách thức và hoạt động sử dụng kho ngữ liệu trong hoạt động giảng dạy và học tập, ở trên lớp cũng như ở nhà, đã được nghiên cứu và áp dụng. Tuy nhiên, chúng ta cũng cần chú ý tới một số nguyên tắc cơ bản dùng để xây dựng và phát triển tài liệu và các hoạt động giảng dạy tiếng Vi ệt dựa trên ngữ liệu. Reppen (2010, p. 43) đã đề xuất một vài hướng dẫn chung cho việc sử dụng kho ngữ liệu như những gợi ý ban đầu như sau: - Có ý tưởng rõ ràng về chủ điểm muốn dạy; - Chọn kho ngữ liệu phù hợp nhất cho bài giảng của mình; - Khám phá toàn bộ, thấu đáo kho ngữ liệu phục vụ cho chủ điểm muốn dạy; - Đảm bảo r ằng các hướng đi là hoàn thiện và dễ thực hiện; - Đảm bảo rằng các thí dụ tập trung vào chủ điểm muốn dạy; - Cung cấp nhiều cách tương tác với tài liệu; - Sử dụng nhiều dạng bài tập; - Nếu sử dụng máy tính, nên có kế hoạch hoặc hoạt động thay thế trong trường hợp máy tính có vấn đề. Chẳng hạn, có thể in trước một số danh sách tần số, ch ỉ mục ngữ cảnh, hoặc danh sách từ đồng hiện để cung cấp cho học viên trong trường hợp điều kiện kĩ thuật không cho phép ở lớp học. 8. Kết luận Khi sử dụng ngôn ngữ học ngữ liệu, hay cụ thể hơn là đưa các chứng cứ từ kho ngữ liệu vào lớp học tiếng, có lẽ cần xác định rõ vai trò kép của ngôn ngữ học ngữ li ệu, đó là nó vừa là vấn đề cải tiến về mặt phương pháp, vừa là một vấn đề mang tính lí thuyết. Kết hợp lại là một phương pháp giảng dạy mới. Nhìn từ góc độ lí thuyết, việc diễn giải các cứ liệu ngôn ngữ quan sát được XXIX TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012 XXIX sẽ dẫn tới định nghĩa mới về một đơn vị mang nghĩa mà vốn khó hoặc không thể nhận diện và quan sát được cụ thể bằng các phạm trù miêu tả truyền thống. Từ góc độ phương pháp, định nghĩa và đánh giá cho các đơn vị này trong khi tiến hành các hoạt động trên lớp sẽ mang lại cách tiếp cận giao tiếp thực sự trong quá trình giảng dạy. Như vậy, nhiệ m vụ nhận diện các quy luật sử dụng ngôn ngữ trở thành hiện thực cho cả học viên lẫn giáo viên. Trong môi trường lớp học, phương pháp của ngôn ngữ học ngữ liệu thích hợp cho học viên ở các trình độ khác nhau vì đây là cách học đi từ dưới lên (bottom-up) của ngôn ngữ, tức là những kinh nghiệm học được dù rất nhỏ để bắt đầu thực hành, và học viên sẽ tiến bộ nhanh h ơn qua việc quan sát và thực hành. Những điều chúng ta đã xem xét ở trên chỉ ra rằng những hiểu biết mà học viên có thể rút ra được từ kho ngữ liệu có thể khác về chất so với những miêu tả trong các sách ngữ pháp nhà trường truyền thống. Qua trang chỉ mục ngữ cảnh, việc nhận ra chức năng của một đơn vị và áp dụng nó trong thực tế sử dụng ngôn ngữ trở nên khá dễ dàng đối với giáo viên và học viên. Tognini-Bonelli [2001:41] đã gọi các đơn vị mang nghĩa mới vốn được tạo ra bằng sự liên kết chặt chẽ giữa các khuôn từ vựng và ngữ pháp là “các khuynh hướng mới cho miêu tả ngôn ngữ học”. Do đó, nếu chúng ta muốn dạy cho học viên giao tiếp theo cách tiếp cận mới này trong sử dụng ngôn ngữ thì chúng ta phải đưa ngữ liệu vào lớp học 1 . THƯ MỤC THAM KHẢO [1] Biber, D. (1999). Longman grammar of spoken and written English. New York: Longman. [2] Biber, D. (2006). University language : a corpus-based study of spoken and written registers. Amsterdam ; Philadelphia: J. Benjamins. [3] Byrd, P. E. (1995). Material Writer's Guide: Heinle & Heinle Publishers, International Thomson Publishing Book Distribution Center, 7625 Empire Drive, Florence, KY 41042. [4] Cortes, V. (2002). Lexical bundles in freshman composition. In R. Reppen, S. Fitzmaurice & D. Biber (Eds.), Using Corpora to Explore Linguistic Variation (pp. 131-145). Amsterdam: John Benjamins. [5] Cortes, V. (2008). A comparative analysis of lexical bundles in academic history writing in English and Spanish. Corpora, 3(1), 43-57. [6] Grabe, W. (2009). Reading in a second language : Moving from theory to practice. Cambridge ; New York: Cambridge University Press. [7] Grabe, W., & Stoller, F. L. (2002). Teaching and researching reading. Harlow: Longman. [8] Hunston, S. (2002). Corpora in applied linguistics. Cambridge, England ; New York: Cambridge University Press. [9] Johns, T. (1986). Micro-concord: A language learner's research tool. System, 14(2), 151-162. doi: Doi: 10.1016/0346-251x(86)90004-7 [10] Johns, T. (1991). From printout to handout: Grammar and vocabulary learning in the context of data-driven learning. English Language Research Journal 4, 27-45. ⇛ (Xem tiếp trang 54) 1 Bài viết này đã gửi tham gia Hội thảo Quốc tế: “Nghiên cứu và giảng dạy tiếng Việt lần thứ nhất” được tổ chức ngày 27-2-2011. [...]... semantic change of several words often seen ⇛ SỬ DỤNG KHO NGỮ LIỆU (Tiếp theo trang XXIX) [11] Johns, T (2002) Data-driven Learning: The Perpetual Challenge In B Kettemann & G Marko (Eds.), Teaching and Learning by Doing Corpus Linguistics (pp 107-117): Amsterdam: Rodopi [12] Leech, G., & Svartvik, J (1992) Corpora and theories of linguistic performance Directions in corpus linguistics : proceedings of Nobel Symposium 82, Stockholm, 4-8...54 NHỮNG VẤN ĐỀ TỪ ĐIỂN HỌC [7] Trần Ngọc Thêm, Tìm về bản sắc văn hoá Việt Nam, NXB Thành phố Hồ Chí Minh, TP HCM, 1996 [8] Viện Ngôn ngữ học, Từ điển tiếng Việt, NXB Từ điển Bách khoa, H., 2010 in recent newspapers in Vietnamese (nóng, sốt, sạch, nhạy cảm, đại gia, chân dài, hàng), from that to point out . ngôn ngữ học ngữ liệu trong việc giảng dạy ngôn ngữ, mà còn đưa ra các thí dụ minh hoạ cụ thể về việc sử dụng thực tế kho ngữ liệu trong giảng dạy tiếng Việt. 2. Lí do sử dụng kho ngữ liệu trong. các ứng dụng trong giảng dạy ngôn ngữ khác, việc học tiếng với sự trợ giúp của máy tính (CALL) bao gồm cả sử dụng các kho ngữ liệu ngôn ngữ cho phép người học trực tiếp sử dụng kho ngữ liệu thông. nguyên bản mà chúng ta đang tìm hiểu. 3. Các phương pháp sử dụng kho ngữ liệu trong lớp dạy tiếng Việc sử dụng kho ngữ liệu trong lớp dạy tiếng có thể được thực hiện theo một số phương pháp khác