Tiêu chí độ lớn Kho ngữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng kho ngữ liệu giáo khoa tiếng anh chuyên ngành xã hội học (Trang 63)

6. Cấu trúc của luận án

2.2.4. Tiêu chí độ lớn Kho ngữ liệu

Độ lớn của một KNL được xác định “phụ thuộc vào câu hỏi nghiên cứu và cách khai thác dữ liệu trong nghiên cứu”(Sinclair 2004: 9). Do đó, mỗi KNL có độ

lớn không như nhau. Thông thường, quyết định độ lớn tùy thuộc vào ýđồ của người

thiết kế có tính đến tiềm lực về tài chính, nhân sự, trang thiết bị máy móc với thời

gian và khối lượng công việc cần thiết dành cho thu thập và nhập văn bản, đánh dấu chú giải và phân tích. Nghiên cứu thực tế trên KNL tiếng Anh quốc tế ICE

(International Corpus of English)cho thấy cứ một mẫu văn bản 2000 từ mất 8 tiếng

xử lý, còn đối với mẫu ngôn bản, con số này sẽ là từ 10 đến 20 tiếng (Greenbaum,

Đối với KNL dùng làm tư liệu biên soạn sách tham khảo hay từ điển ngôn ngữ thì không cần giới hạn độ lớn.Càng thu thập nhiều dữ liệu, các KNL này càng phong phú về nội dung và càng hữu ích. Tuy nhiên, trong nhiều trường hợp , độ tập

trung ngôn ngữ (như từ vựng hay các cấu trúc ngữ pháp đặc trưng) trong phạm vi

nghiên cứu được chú trọng hơn. Khi ấy, mẫu chỉ cần lấy vừa đủ bởi nếu quá dàn trải

có thể gây khó khăn trong quá trình chú giải hoặc phân tích, đặc biệt với các KNL

cần chú giải thủ công hay buộc phải sử dụng phần mềm bị giới hạn độ lớn.

Độ lớn của KNL quyết định phương pháp xác định nó. Mặc dù nghe có vẻ không hợp logic nhưng điều này lại đúng với thực tế nghiên cứu bởi thông thường,

người thiết kế cần xác định cho mình tập hợp mục tiêu trước khi tiến hành lấy mẫu và tính toán độ lớn của KNL thành phẩm. Với một KNL phổ thông cần lượng dữ liệu lớn,người ta có thể áp dụng qui luật của Zipf (1935) (dẫn theo Sinclair, 2004)

để tính tần sốcủa các dạng hay còn gọi là kiểu từ (type),từ đó quyết định độ lớn tối thiểu của KNL.Nghĩa là dựa trên danh sách tần số của kiểu từ theo thứ tự tăng dần,

xác định sao cho ½ lượng kiểu từ trong cả tập hợp xuất hiện 1 lần, ¼ xuất hiện 2

lần, v.v.... Đến cuối cùng, kiểu từ thông dụng nhất có tần số tương đương tổng số

kiểu từ và kiểu từ thông dụng thứ hai xấp xỉ½ tổng đó.

Tuy nhiên, theo James (1994), KNL chuyên ngành thường tạo thành từ các văn bản có độ tập trung từ vựng cao hơnnên lượngkiểu từ ít hơn. Do đó,tỉ lệ phần trăm kiểu từ xuất hiện 1-2 lần trong cả KNL cũng ít hơn so với KNL phổ thông. Thống kê trên KNL giáo khoa tiếng Anh chuyên ngành Xã hội học cho thấy số lượng kiểu từ xuất hiện 1 lần là 38,49% (xấp xỉ 40%) và 2 lần là 11,39%, chứng tỏ độ tập trung từ vựng cao của giáo trình dạy tiếng nói chung và giáo trình tiếng Anh

chuyên ngành Xã hội học nói riêng. Trên cơ sở đó, KNL TESoC đảm bảo độ lớn

cần thiết cho các phân tích từ vựng. Mặc dù vậy, quyết định lấy mẫu toàn văn đối

với các giáo trình dạy tiếng cũng đã phần nào xác lập độ lớn của KNL TESoC.

Số lượng văn bản trong KNL TESoC bị chi phối bởi mức độ đại diện của tập

hợp và các yếu tố ngôn ngữ cần nghiên cứu bên trong tập hợp. Theo Meyer (2004:

40),việc lựa chọn số lượng văn bản có thể cân nhắc từ hai quan niệm: tỉ trọng mẫu và quan niệm thuần ngôn ngữ.

Quan niệm tỉ trọng mẫu (sampling weights) được các nhà khoa học xã hội

xây dựng. Theo đó, độ lớn KNL, tức là số lượng văn bản trong KNL, tỉ lệ thuận với

tần số của các yếu tố cần nghiên cứu trong tập hợp mục tiêu (Kalton 1983: 266). Số lượng các yếu tố cần nghiên cứu trong mỗi mẫu đơn vị càng lớn, số lượng mẫu đơn

vị ước tính cần sử dụng càng giảm. Phương pháp này giúp quyết định độ lớn của KNL đủ để đại diện cho tập hợp ngôn ngữ. Trong nghiên cứu KNL phổ thông, người ta dựa vào tỉ trọng mẫu để quyết định số lượng văn bản cần có để đảm bảo độ

bao quát về thể loại (genre) và nhóm đối tượng cần lấy làm đại diện. Với KNL

TESoC, đặc trưng tính toán từ vựng của cả KNL khiến nó không bị chi phối nhiều

bởi yếu tố tỉ trọng mẫu. Quan niệm tỉ trọng chỉ được áp dụng khi tính toán số lượng văn bản của các tiểu kho giai đoạn cơ sở và chuyên ngành để đảm bảo độ tương đương về số lượng từ vựng.

Điều đáng lưu ý trong sử dụng phương pháp tỉ trọng mẫu là phương pháp

này có thể làm tăng độ lớn và độ đa dạng của mẫu đơn vị, từ đó dẫn tới tăn g độ lớn của KNL lớn quá mức so với ước tính ban đầu. Chính vì vậy, Biber (1993), rút ra từ

kinh nghiệm nghiên cứu thể loại, cho rằng tốt hơn là theo quan niệm thuần ngôn

ngữ để giảm số lượng mẫu cần lấy mà vẫn có được đại diện cho toàn tập hợp. Có

nghĩa là căn cứ vào tính đa dạng bên trong thể loại để quyết định. Điều này đặc biệt

phù hợp với các nghiên cứu kho ngữ liệu nhỏ như KNL TESoC. Khiấy, KNL được

xây dựng trên cơ sở quyết định số biến thể ngôn ngữ cần có để đưa vào KNL. Quan niệm thuần ngôn ngữ được tính đến khi xem xét mẫu văn bản dành cho các tiểu kho

chuyên ngành.

2.2.6. Tiêu chí về mẫu đơn vị

Mẫu đơn vị3hay còn gọi là đơn vị lấy mẫu (sampling unit) là đơn vị văn bản được lấy làm mẫu, nói cách khác là các văn bản hoặc đoạn văn bản được lựa chọn để tạo nên tiểu kho. Tiêu chí chọn mẫu đơn vị đảm bảo việc lựa chọn đại diện phù

hợp trong số các văn bản của tập hợp. Nội dung của mẫu đơn vị chính là nội dung

của KNL. Theo Hunstons (2002: 26) và Kilgariff (2006: 129),quyết định về nội

dung của các mẫu đơn vị cần dựa trên mục đích xây dựng KNL và nguồn tư liệu sẵn

có.Mặc dù không có một tiêu chí nào chung nhất cho mọi thiết kế KNL,nhưng đặc trưng đại diện của kho ngữ liệu đòi hỏi các mẫu đơn vị có độ dài tương đối và được xác định rõ ràng về phương diện tổ chức trong các tiểu kho thành phần. Ngoài ra,

không thể không tính đến khả năng truy xuất dễ dàng của mẫu và nguồn văn bản thực đáng tin cậy đại diện cho ngôn ngữ đang nghiên cứu.

Nhìn chung, tiêu chí chọn mẫu đơn vị được xác lập thông qua nguồn tư liệu

(từ một hay nhiều nhà xuất bản, tờ báo, cơ sở đào tạo), loại tư liệu (khẩu ngữ, bút

ngữ: sách, báo, bản ghi hìnhảnh và âm thanh,..), lượng tư liệu cần thiết, xuất xứ tư

liệu (tư liệu trong nước,nước ngoài, in hay không in,...), tính tiện dụng của tư liệu

(bản điện tử), và tính tiết kiệm của tư liệu (chi phí bản quyền). Các tiêu chí chọn mẫu đơn vị đảm bảo KNL cân đối và đại diện cho ngôn ngữ hay phạm vi ngôn ngữ

mà nó nghiên cứu. Khi nghiên cứu ngôn ngữ một cách toàn diện (KNL phổ thông),

người ta đưa ra kế hoạch chi tiết để phân mảng,tạo tiểu kho và độ lớn của tiểu kho.

Các mẫu đơn vị (văn bản) được lựa chọn phù hợp với hệ thống này. Các tiêu chí

chọn mẫu cũng được mô tả cụ thể như tỷ lệ văn bản khẩu ngữ và bút ngữ, thể loại

ngôn ngữ (genre) (khoa học, chính trị, giải trí,...), số lượng văn bản mỗi thể loại, các

biến cần xử lý trong KNL như tuổi tác, giới tính của người phát ngôn hoặ c người viết. Trong một số KNL khác, người ta tính tới các biến nhân khẩu (demographical variables) như trìnhđộ văn hóa, vùng ngôn ngữ, hay thậm chí là địa vị xã hội của đối tượng phát ngôn . Các văn bản viết (bút ngữ) có thể phân chia thành các nhóm

3

“Sampling unit” được chọn dịch là “mẫu đơn vị” bởi trên thực tế,thuật ngữ nàykhông đơn thuầnmang nghĩa “đơn vị"để lấy mẫu mà đượcsửdụng nhiều với nghĩa là “mẫu nhỏ nhất”trong một “sample” (mẫu). Tính chất, nội dung và tiêu chí của “sampling unit” đều hướng đến “mẫu nhỏ nhất” chứ không hướng tới đơn vị đo (unit).

văn bản in hoặc không in, dạng sách, báo, thư từ công việc hay thư cá nhân, thời gian văn bản ra đời,...

Đối với các KNL giám sát cần tính đến khả năng tham chiếu và cập nhật trong tương lai.Với các KNL loại này,tỉ lệ mẫu đơn vị trong mỗi tiểu kho cần được tính toán chi tiết sao cho mỗi lần bổ sung, tỉ lệ văn bản trong tiểu kho không đổi và không phá vỡ cấu trúc tổng thể ban đầu của KNL.Mặc dù vấn đề này liên quan chủ yếu đến lưu văn bản nhưng với một số thiết kế KNL sử dụng mẫu tùy biến (xem 2.1.3), đây là vấn đề không dễ giải quyết.

Nhìn chung, các tiêu chí chọn mẫu đơn vị mặc dù được cân nhắc đến từng chi tiết nhưng khi thực hiện vẫn có khả năng bị thay đổi, đặc biệt là khi độ lớn của mỗi mẫu ảnh hưởng đến hệ thống tiểu kho, từ đó làm thayđổi thiết kế tổng thể của

KNL.Do đó,xây dựng một KNL là một qui trình “tuần hoàn”,đánh giá đi,đánh giá lại các mẫu đơn vị trong suốt quá trình tập hợp văn bản (Biber 1993:256). Đối với

KNL TESoC, điều này cũng khôngphải là ngoại lệ.

Mẫu đơn vị của KNL TESoC được xác định thông qua tiêu chí nguồn lấy

mẫu là sách giáo khoa được lấy toàn văn. Tiêu chí này một mặt giúp xác định loại văn bản được qui chuẩn trong nhóm bút ngữ xuất bản. Mặt khác, nó làm cho các mẫu đơn vị thể hiện đầy đủ đặc điểm ngôn ngữ cần có mà nó được lấy làm đại diện.

Mặc dù vậy, để đảm bảo tiêu chí tỉ lệ trong so sánh từ vựng giữa các tiểu kho tiếng Anh cơ sở và chuyên ngành, các mẫu đơn vị ở mảng chuyên ngành cũng được cân

nhắc, lựa chọn theo chủ đề và lược bớt một số chủ đề để cân đối về độ lớn giữa các

tiểu kho.

2.2.6.2.Tiêu chí về độ dài mẫu đơn vị

Độ dài là tiêu chí đầu tiên dễ nhận thấy khi lấy mẫu đơn vị. Nghiên cứu của

Biber (Meyer, 2004: 39) cho thấy để phân tích các yếu tố ngôn ngữ thường xuyên trong văn bản thì 1000 hiện dạng là độ dài vừa đủ cho một mẫu đơn vị. Tuy nhiên,

Yếu tố đầu tiên cần kể đến là đặc điểm ngôn ngữ cần nghiên cứu.Với những đặc điểm không xuất hiện thường xuyên trong văn bản như các mệnh đề quan hệ,

thành ngữ, hay các chuỗi đồng hiện, mẫu cần có độ dài lớn hơn để có thể nghiên

cứu khái quát ngữ cảnh và nghĩa mà chúng thể hiện.

Bên cạnh đó, độ dài mẫu còn phụ thuộc vào loại văn bản. Với các văn bản

thuộc các ngành khoa học xã hội và nhân văn,mẫu đơn vị có độ dài tỉ lệ thuận với số dạng thức ngôn ngữ. Từ vựng trong các văn bản này nhìn chung phong phú hơn văn bản kỹ thuật. Do đó, mẫu đơn vị khai thác từ các tư liệu trong lĩnh vực khoa học nhân văn sẽ dài hơn,có thể lên tới 2000đến40.000 hiện dạng trên một văn bản

(xem KNL BNC hoặc KNL lịch sử Helsinki) (Meyer, 2004: 39).

Quyết định lấy mẫu toàn văn (toàn bộ văn bản) hay lấy mẫu trích đoạn cũng ảnh hưởng đến độ dài mẫu. Ngoài ra, độ dài mẫu còn bị hạn chế do chi phí bản quyền,ảnh hưởng bởi tỉ lệ tiểu kho hoặc tính cân đối về độ dài giữa các mẫu đơn vị. Trong KNL TESoC, quyết định lấy mẫu toàn văn theo bài/ chủ đề khiến việc xác định độ dài mẫu không gặp khó khăn. Hơn nữa, mục đích thống kê và nghiên cứu vốn từ không gặp phải vấn đề về đặc điểm ngôn ngữ. Trên tập hợp sách giáo

khoa, các mẫu đơn vị lấy toàn văn có độ dài từ 5000 tới 15000 hiện dạng, đảm bảo độ dài phù hợp với các văn bản khoa học xã hộ i. Hơn nữa, việc xác định phạm vi

mẫu theo chủ đề ở mảng SGK chuyên ngành giúp đảm bảo thể hiện đầy đủ đặc trưng từ vựng trong phạm vi nghiên cứu.

2.2.6.3.Tiêu chí thống nhất giữa hình thức và nội dung của mẫu đơn vị

Tiêu chí thống nhất giữa hình thức,nội dung của các mẫu đơn vị đảm bảo sự tương đồng về thể loại văn bản. Do đó, tiêu chí này đặc biệt quan trọng trong nghiên cứu ngữ dụng học hay phong cách văn bản. Đối với mẫu trích đoạn lấy từ các bài báo hay thư từ giao dịch cần thống nhất trong nội dung lấy mẫu bởi mỗi phần trong trích đoạn thể hiện một đặc trưng ngôn ngữ khác nhau. Mặc dù vậy, tiêu

Đối với KNL TESoC, yếu tố tương đồng về thể loại văn bản được phát huy

phần nào qua xác định tập hợp. Tuy nhiên, yêu cầu về tính thống nhất giữa hình thức và nội dung của mẫu đơn vị không được đặt lên hàng đầu bởi kho ngữ liệu chú

trọng thống kê từ vựng từ đa dạng giáo trình . Giáo trình tiếng Anh dạy tiếng cơ bản hướng tới các hoạt động và b ài tập luyện kỹ năng nghe, nói, đọc viết, ngữ pháp và từ vựng.Trong khi đó, giáo trình chuyên ngành Xã hội học bằngtiếng Anh thiên về

tổ chức bài viết khoa học với hình thức giống như một bài báo, hoặc chương sách

với các tiểu mục tương ứng với nhiều nội dung khác nhau.

2.2.6.4.Tiêu chí đa dạng của mẫu đơn vị

Tính đa dạng của mẫu đơn vị thể hiện ở việc tập hợp văn bản từ nhiều đối tượng phát ngôn hoặc nhiều đối tượng người viết để phản ánh trung thực tính đa dạng của ngôn ngữ tự nhiên. Nói cho cùng,tính đa dạng này có đôi chút tương phản với tiêu chí độ dài bởi thay vì kéo dài mỗi mẫu đơn vị,có thể tăng số lượng loại văn bản theo nhiều tiêu chí khác nhau để KNL vừa đảm bảo độ dài, vừa có độ phong

phú về mẫu. Tuy nhiên,sử dụng tiêu chí đa dạng hay không lại tùy thuộc vào từng thiết kế cụ thể. Đối với KNLTESoC, tiêu chí đa dạng không được khai thác bởi các

mẫu đơn vị đã thể hiện toàn bộ tập hợp cần nghiên cứu.

2.2.7. Tiêuchí chú giải

Tiêu chí chú giải được đề cập đến như một phần của thiết kế KNL máy tính,

bao gồm chú giải ngữ liệu văn bản, chú giải từ loại hoặc chú giải cú pháp. Chú giải

giúp thể hiện các đối tượng cần nghiên cứu trong KNL, hỗ trợ phân tích ngữ liệu và hiển thị KNL trên giao diện có thể nhìn thấy và thao tác được. Đối với một KNL máy tính như KNL TESoC, tiêu chí chú giải rất cần thiết trong việc xác lập cách thức đánh dấu ngữ liệu.

Mặc dù được coi là một trong những tiêu chí thiết kế KNL nhưng không phải KNL nào cũng cần chú giải từ loại hoặc cú pháp. Sinclair (1991: 21) nhấn mạnh “chính sách văn bản sạch(clear-text policy)» và cho rằng “chính sách an toàn nhất

không chú giải ngôn ngữ,KNL có thể sử dụng cho nhiều nghiên cứu khác nhau mà không gây khó dễ cho người sử dụng khi phải chuẩn hóa lại văn bản. Hơn nữa, khi chú giải, việc thiếu thống nhất trong xử lý đặc điểm ngôn ngữ (như ranh giới giữa từ và hình vị) sau nàycũng tạo nên sự sai lệch trong xử lý và phân tích ngôn ngữ.

Khi cân nhắc tiêu chí chú giải trong KNL TESoC, chúng tôi cho rằng đ ể phục vụ cho phân tích từ vựng trên văn bản thực, tránh gây phức tạp, gây khó khăn cho người học tiếng trong quá trìnhtiếp cận và nhận diện các đơn vị từ vựng trong ngữ cảnh, KNL TESoC sử dụng các phần mềm hỗ trợ bên ngoài hơn là đánh dấu trực tiếp vào ngữ liệu văn bản. Hơn nữa, trên cơ sở định lượng và xác định vốn từ vựngtrọng tâm, để đáp ứng vừa đủ các mục tiêu trước mắt, TESoC được giải phóng khỏi các hình thức chú giải như loại từ hay ngữ pháp. Do đó, về cơ bản, KNL

TESoC là KNL chỉ sử dụng chú giải ngữ liệu văn bản, tức là định rõ các tiểu kho

theo bậc như mảng ngữ liệu, giáo trình theo bậc học, bài, chương chủ đề. Hơn nữa,

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng kho ngữ liệu giáo khoa tiếng anh chuyên ngành xã hội học (Trang 63)

Tải bản đầy đủ (PDF)

(179 trang)