Tiêu chí về mẫu đơn vị

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng kho ngữ liệu giáo khoa tiếng anh chuyên ngành xã hội học (Trang 65)

6. Cấu trúc của luận án

2.2.6. Tiêu chí về mẫu đơn vị

Mẫu đơn vị3hay còn gọi là đơn vị lấy mẫu (sampling unit) là đơn vị văn bản được lấy làm mẫu, nói cách khác là các văn bản hoặc đoạn văn bản được lựa chọn để tạo nên tiểu kho. Tiêu chí chọn mẫu đơn vị đảm bảo việc lựa chọn đại diện phù

hợp trong số các văn bản của tập hợp. Nội dung của mẫu đơn vị chính là nội dung

của KNL. Theo Hunstons (2002: 26) và Kilgariff (2006: 129),quyết định về nội

dung của các mẫu đơn vị cần dựa trên mục đích xây dựng KNL và nguồn tư liệu sẵn

có.Mặc dù không có một tiêu chí nào chung nhất cho mọi thiết kế KNL,nhưng đặc trưng đại diện của kho ngữ liệu đòi hỏi các mẫu đơn vị có độ dài tương đối và được xác định rõ ràng về phương diện tổ chức trong các tiểu kho thành phần. Ngoài ra,

không thể không tính đến khả năng truy xuất dễ dàng của mẫu và nguồn văn bản thực đáng tin cậy đại diện cho ngôn ngữ đang nghiên cứu.

Nhìn chung, tiêu chí chọn mẫu đơn vị được xác lập thông qua nguồn tư liệu

(từ một hay nhiều nhà xuất bản, tờ báo, cơ sở đào tạo), loại tư liệu (khẩu ngữ, bút

ngữ: sách, báo, bản ghi hìnhảnh và âm thanh,..), lượng tư liệu cần thiết, xuất xứ tư

liệu (tư liệu trong nước,nước ngoài, in hay không in,...), tính tiện dụng của tư liệu

(bản điện tử), và tính tiết kiệm của tư liệu (chi phí bản quyền). Các tiêu chí chọn mẫu đơn vị đảm bảo KNL cân đối và đại diện cho ngôn ngữ hay phạm vi ngôn ngữ

mà nó nghiên cứu. Khi nghiên cứu ngôn ngữ một cách toàn diện (KNL phổ thông),

người ta đưa ra kế hoạch chi tiết để phân mảng,tạo tiểu kho và độ lớn của tiểu kho.

Các mẫu đơn vị (văn bản) được lựa chọn phù hợp với hệ thống này. Các tiêu chí

chọn mẫu cũng được mô tả cụ thể như tỷ lệ văn bản khẩu ngữ và bút ngữ, thể loại

ngôn ngữ (genre) (khoa học, chính trị, giải trí,...), số lượng văn bản mỗi thể loại, các

biến cần xử lý trong KNL như tuổi tác, giới tính của người phát ngôn hoặ c người viết. Trong một số KNL khác, người ta tính tới các biến nhân khẩu (demographical variables) như trìnhđộ văn hóa, vùng ngôn ngữ, hay thậm chí là địa vị xã hội của đối tượng phát ngôn . Các văn bản viết (bút ngữ) có thể phân chia thành các nhóm

3

“Sampling unit” được chọn dịch là “mẫu đơn vị” bởi trên thực tế,thuật ngữ nàykhông đơn thuầnmang nghĩa “đơn vị"để lấy mẫu mà đượcsửdụng nhiều với nghĩa là “mẫu nhỏ nhất”trong một “sample” (mẫu). Tính chất, nội dung và tiêu chí của “sampling unit” đều hướng đến “mẫu nhỏ nhất” chứ không hướng tới đơn vị đo (unit).

văn bản in hoặc không in, dạng sách, báo, thư từ công việc hay thư cá nhân, thời gian văn bản ra đời,...

Đối với các KNL giám sát cần tính đến khả năng tham chiếu và cập nhật trong tương lai.Với các KNL loại này,tỉ lệ mẫu đơn vị trong mỗi tiểu kho cần được tính toán chi tiết sao cho mỗi lần bổ sung, tỉ lệ văn bản trong tiểu kho không đổi và không phá vỡ cấu trúc tổng thể ban đầu của KNL.Mặc dù vấn đề này liên quan chủ yếu đến lưu văn bản nhưng với một số thiết kế KNL sử dụng mẫu tùy biến (xem 2.1.3), đây là vấn đề không dễ giải quyết.

Nhìn chung, các tiêu chí chọn mẫu đơn vị mặc dù được cân nhắc đến từng chi tiết nhưng khi thực hiện vẫn có khả năng bị thay đổi, đặc biệt là khi độ lớn của mỗi mẫu ảnh hưởng đến hệ thống tiểu kho, từ đó làm thayđổi thiết kế tổng thể của

KNL.Do đó,xây dựng một KNL là một qui trình “tuần hoàn”,đánh giá đi,đánh giá lại các mẫu đơn vị trong suốt quá trình tập hợp văn bản (Biber 1993:256). Đối với

KNL TESoC, điều này cũng khôngphải là ngoại lệ.

Mẫu đơn vị của KNL TESoC được xác định thông qua tiêu chí nguồn lấy

mẫu là sách giáo khoa được lấy toàn văn. Tiêu chí này một mặt giúp xác định loại văn bản được qui chuẩn trong nhóm bút ngữ xuất bản. Mặt khác, nó làm cho các mẫu đơn vị thể hiện đầy đủ đặc điểm ngôn ngữ cần có mà nó được lấy làm đại diện.

Mặc dù vậy, để đảm bảo tiêu chí tỉ lệ trong so sánh từ vựng giữa các tiểu kho tiếng Anh cơ sở và chuyên ngành, các mẫu đơn vị ở mảng chuyên ngành cũng được cân

nhắc, lựa chọn theo chủ đề và lược bớt một số chủ đề để cân đối về độ lớn giữa các

tiểu kho.

2.2.6.2.Tiêu chí về độ dài mẫu đơn vị

Độ dài là tiêu chí đầu tiên dễ nhận thấy khi lấy mẫu đơn vị. Nghiên cứu của

Biber (Meyer, 2004: 39) cho thấy để phân tích các yếu tố ngôn ngữ thường xuyên trong văn bản thì 1000 hiện dạng là độ dài vừa đủ cho một mẫu đơn vị. Tuy nhiên,

Yếu tố đầu tiên cần kể đến là đặc điểm ngôn ngữ cần nghiên cứu.Với những đặc điểm không xuất hiện thường xuyên trong văn bản như các mệnh đề quan hệ,

thành ngữ, hay các chuỗi đồng hiện, mẫu cần có độ dài lớn hơn để có thể nghiên

cứu khái quát ngữ cảnh và nghĩa mà chúng thể hiện.

Bên cạnh đó, độ dài mẫu còn phụ thuộc vào loại văn bản. Với các văn bản

thuộc các ngành khoa học xã hội và nhân văn,mẫu đơn vị có độ dài tỉ lệ thuận với số dạng thức ngôn ngữ. Từ vựng trong các văn bản này nhìn chung phong phú hơn văn bản kỹ thuật. Do đó, mẫu đơn vị khai thác từ các tư liệu trong lĩnh vực khoa học nhân văn sẽ dài hơn,có thể lên tới 2000đến40.000 hiện dạng trên một văn bản

(xem KNL BNC hoặc KNL lịch sử Helsinki) (Meyer, 2004: 39).

Quyết định lấy mẫu toàn văn (toàn bộ văn bản) hay lấy mẫu trích đoạn cũng ảnh hưởng đến độ dài mẫu. Ngoài ra, độ dài mẫu còn bị hạn chế do chi phí bản quyền,ảnh hưởng bởi tỉ lệ tiểu kho hoặc tính cân đối về độ dài giữa các mẫu đơn vị. Trong KNL TESoC, quyết định lấy mẫu toàn văn theo bài/ chủ đề khiến việc xác định độ dài mẫu không gặp khó khăn. Hơn nữa, mục đích thống kê và nghiên cứu vốn từ không gặp phải vấn đề về đặc điểm ngôn ngữ. Trên tập hợp sách giáo

khoa, các mẫu đơn vị lấy toàn văn có độ dài từ 5000 tới 15000 hiện dạng, đảm bảo độ dài phù hợp với các văn bản khoa học xã hộ i. Hơn nữa, việc xác định phạm vi

mẫu theo chủ đề ở mảng SGK chuyên ngành giúp đảm bảo thể hiện đầy đủ đặc trưng từ vựng trong phạm vi nghiên cứu.

2.2.6.3.Tiêu chí thống nhất giữa hình thức và nội dung của mẫu đơn vị

Tiêu chí thống nhất giữa hình thức,nội dung của các mẫu đơn vị đảm bảo sự tương đồng về thể loại văn bản. Do đó, tiêu chí này đặc biệt quan trọng trong nghiên cứu ngữ dụng học hay phong cách văn bản. Đối với mẫu trích đoạn lấy từ các bài báo hay thư từ giao dịch cần thống nhất trong nội dung lấy mẫu bởi mỗi phần trong trích đoạn thể hiện một đặc trưng ngôn ngữ khác nhau. Mặc dù vậy, tiêu

Đối với KNL TESoC, yếu tố tương đồng về thể loại văn bản được phát huy

phần nào qua xác định tập hợp. Tuy nhiên, yêu cầu về tính thống nhất giữa hình thức và nội dung của mẫu đơn vị không được đặt lên hàng đầu bởi kho ngữ liệu chú

trọng thống kê từ vựng từ đa dạng giáo trình . Giáo trình tiếng Anh dạy tiếng cơ bản hướng tới các hoạt động và b ài tập luyện kỹ năng nghe, nói, đọc viết, ngữ pháp và từ vựng.Trong khi đó, giáo trình chuyên ngành Xã hội học bằngtiếng Anh thiên về

tổ chức bài viết khoa học với hình thức giống như một bài báo, hoặc chương sách

với các tiểu mục tương ứng với nhiều nội dung khác nhau.

2.2.6.4.Tiêu chí đa dạng của mẫu đơn vị

Tính đa dạng của mẫu đơn vị thể hiện ở việc tập hợp văn bản từ nhiều đối tượng phát ngôn hoặc nhiều đối tượng người viết để phản ánh trung thực tính đa dạng của ngôn ngữ tự nhiên. Nói cho cùng,tính đa dạng này có đôi chút tương phản với tiêu chí độ dài bởi thay vì kéo dài mỗi mẫu đơn vị,có thể tăng số lượng loại văn bản theo nhiều tiêu chí khác nhau để KNL vừa đảm bảo độ dài, vừa có độ phong

phú về mẫu. Tuy nhiên,sử dụng tiêu chí đa dạng hay không lại tùy thuộc vào từng thiết kế cụ thể. Đối với KNLTESoC, tiêu chí đa dạng không được khai thác bởi các

mẫu đơn vị đã thể hiện toàn bộ tập hợp cần nghiên cứu.

2.2.7. Tiêuchí chú giải

Tiêu chí chú giải được đề cập đến như một phần của thiết kế KNL máy tính,

bao gồm chú giải ngữ liệu văn bản, chú giải từ loại hoặc chú giải cú pháp. Chú giải

giúp thể hiện các đối tượng cần nghiên cứu trong KNL, hỗ trợ phân tích ngữ liệu và hiển thị KNL trên giao diện có thể nhìn thấy và thao tác được. Đối với một KNL máy tính như KNL TESoC, tiêu chí chú giải rất cần thiết trong việc xác lập cách thức đánh dấu ngữ liệu.

Mặc dù được coi là một trong những tiêu chí thiết kế KNL nhưng không phải KNL nào cũng cần chú giải từ loại hoặc cú pháp. Sinclair (1991: 21) nhấn mạnh “chính sách văn bản sạch(clear-text policy)» và cho rằng “chính sách an toàn nhất

không chú giải ngôn ngữ,KNL có thể sử dụng cho nhiều nghiên cứu khác nhau mà không gây khó dễ cho người sử dụng khi phải chuẩn hóa lại văn bản. Hơn nữa, khi chú giải, việc thiếu thống nhất trong xử lý đặc điểm ngôn ngữ (như ranh giới giữa từ và hình vị) sau nàycũng tạo nên sự sai lệch trong xử lý và phân tích ngôn ngữ.

Khi cân nhắc tiêu chí chú giải trong KNL TESoC, chúng tôi cho rằng đ ể phục vụ cho phân tích từ vựng trên văn bản thực, tránh gây phức tạp, gây khó khăn cho người học tiếng trong quá trìnhtiếp cận và nhận diện các đơn vị từ vựng trong ngữ cảnh, KNL TESoC sử dụng các phần mềm hỗ trợ bên ngoài hơn là đánh dấu trực tiếp vào ngữ liệu văn bản. Hơn nữa, trên cơ sở định lượng và xác định vốn từ vựngtrọng tâm, để đáp ứng vừa đủ các mục tiêu trước mắt, TESoC được giải phóng khỏi các hình thức chú giải như loại từ hay ngữ pháp. Do đó, về cơ bản, KNL

TESoC là KNL chỉ sử dụng chú giải ngữ liệu văn bản, tức là định rõ các tiểu kho

theo bậc như mảng ngữ liệu, giáo trình theo bậc học, bài, chương chủ đề. Hơn nữa,

với việc sử dụng phần mềmAntConc (Anthony, 2014), Range (Nation et al. 2002)

và chương trình TextLex Compare trong trang Lexical Compleat Tutor (Cobb, 2012), KNL được đánh dấu tự động các yếu tố từ vựng như kiểu từ, từ hình và tổ từ

(chi tiết về các yếu tố này được đề cập ở chương 3).

2.3. Qui trình thiết kế kho ngữ liệu giáo khoa tiếng Anh chuyên ngành Xã

hội học TESoC

2.3.1. Qui trình chung

Qui trình thiết kế KNL được tiến hành khi cấu trúc KNL được xác lập. Đây là “qui trình ba bước gồm: thu thậpdữ liệu(mẫu đơn vị), nhập liệu trên máy và chú

giải” (Meyer 2004: 55). Thu thập dữ liệu liên quan đến ghi âm khẩu ngữ, tập hợp văn bản bút ngữ,ghi hình dữ liệu hình ảnh,lấy xác nhận quyền sử dụng của cá nhân hoặc đơn vị có quyền tác giả đối với ngữ liệu. Tuy nhiên, một số tổ chức và cá nhân cho phép khai thác văn bản trên mạng vào mục đích nghiên cứu và giáo dục với

điều kiện trích dẫn nguồn đầy đủ. Đối với các nguồn ngữ liệu này, xác nhận tác

quyền có thể được miễn trừ.

Việcnhập liệu trên máy tùy thuộc vào loại dữ liệu thu thập.Các dữ liệu hình ảnh có thể quay, ghi và lưu thành tệp (file). Các dữ liệu khẩu ngữ được lưu dưới dạng âm thanh hoặc chuyển sang dạng văn bản như KNL MICASE của trường Đại học Michigan (Mỹ). Văn bản bút ngữ được sử dụng nhiều nhất. Chúng được lưu nhờ máy quét văn bản (scanner) có phần mềm nhận diện ký tự (OCR-Optical Character Recognition),truy cập và lấy dữ liệu trên mạng,hoặc đánh máy thủ công. Khâu chú giải bao gồm đánh dấu cấu trúc (Structural Markup), chú giải loại từ (POS tagging) và chú giải cú pháp (Parsing) được thực hiện trong quá trình thu thập văn bản.Một số chú giải đặc thù khá phức tạp và cần thực hiện thủ công,nhất là với một số ngôn ngữ không phải tiếng Anh.

Mặc dù qui trình thiết kế KNL được phân tách thành nhiều giai đoạn nhưng thực chất các giai đoạn này tiến hành hầu như đồng thời. Từ khâu định hướng văn bản, quyết định cấu trúc đến xác định tập hợp mục tiêu để thu thập dữ liệu, nhập liệu được tiến hành hầu như cùng lúc. Chú giải văn bản có thể tiến hành đồng thời hay được xử lý ở chu trình tiếp theo nhưng với các KNL sử dụng phần mềm chú giải làm sẵn và cần độ chính xác tương đối,vấn đề chỉ làthêm bớt thao tác.

2.3.2. Qui trình thiết kế chi tiết KNL TESoC

Trên cơ sở nghiên cứu về nguyên tắc, tiêu chí và qui trình thiết kế của KNL

nói chung và KNL giáo khoa tiếng Anh chuyên ngành Xã hội học nói riêng, chúng tôi tiến hành tái hiện từng bước quá trình thành lập KNL trên thực tế cả về phương

diện tổ chức văn bản, xác định nội dung ngôn ngữ cùng các yếu tố kỹ thuật sử dụng

trong xử lý và phân tích kho ngữ liệu về mặt từ vựng. Qui trình thể hiện công việc

thực tế cần làm đối với một kho ngữ liệu giáo khoa có kết cấu được xác định là khá

2.3.2.1. Xác định tập hợp ngữ liệu mục tiêu và mẫu văn bản của KNL TESoC

theo tiêu chí bên ngoài +Định hướng ngôn ngữ

Việc định hướng ngôn ngữ trong KNL TESoC xuất phát từ thực tế giao tiếp

khá hạn chế ở Việt Nam. Trong đó, từ vựng và mô hình ngôn ngữ lẽ ra được tiếp

nhận thông qua ngữ cảnh giao tiếp thực tế, sách, báo, hoặc các phương tiện truyền thông,... để tái hiện lại trong giao tiếp ngôn bản và văn bản của người học, lại chủ yếu lấy từ sách giáo khoa. Thực tế này không riêng cóở Việt Nam mà còn ở nhiều quốc gia giảng dạy tiếng Anh như một ngoại ngữ. Giới hạn giao tiếp thực tế khiến

kênh tiếp nhận của người học bị thu hẹp đáng kể.Hơn nữa, mức độ tiếp nhận thông tin với các nguồn tư liệu bên ngoài lớp học khó xác định khiến cho định lượng kiến thức chỉ có thể lấy ngôn ngữ giáo khoa làm cơ sở (Nemati, 2009: 91).

Xác định ngôn ngữ trong KNL TESoC cũng bị chi phối bởi quan niệm về chương trìnhẩn (hidden curriculum) của Leask (2015: 8), trong đó, sách giáo khoa được chọn đưa vào giảng dạy đều mang một thông điệp nhất định về nội dung chương trình tại các trường về những gì người học được dạy và nên học. Trong môi trường giao tiếp khá hạn chế ở các nước mà tiếng Anh là một ngoại ngữ như ở Việt

Nam, sách giáo khoa có ảnh hưởng không nhỏ đến định hướng học tập của sinh

viên.

Một lý do khác có ảnh hưởng tới việc định hướng và xác định tập hợp ngữ

liệu mục tiêu hiện tại cho KNL TESoC là thiếu tư liệu giáo trình tiếng Anh chuyên

ngành Xã hội học cả trong nước và ngoài nước trong khi nguồn tư liệu sách giáo

khoa chuyên ngành Xã hội học bằng tiếng Anh lại rất phong phú.Thực tế này khiến tập hợp ngôn ngữ của KNLTESoC,dù hướng tới giáo trình tiếng Anh, cũng chỉ tận dụng được một phầnsách giáo khoa dạy tiếng.Phần lớn tư liệu còn lại phải dựa trên SGK chuyên ngành XHH đại cương bằng tiếng Anh. Tuy nhiên, đây cũng là điểm

chuyên ngành và là mục tiêu ngôn ngữ mà người học chuyên ngành Xã hội học hướng tới.

+Xác định tậphợp ngữ liệu mục tiêu

Khác với các KNL chuyên ngành chỉ thu thập bằng chứng ngôn ngữ thuộc

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng kho ngữ liệu giáo khoa tiếng anh chuyên ngành xã hội học (Trang 65)

Tải bản đầy đủ (PDF)

(179 trang)