6. Cấu trúc của luận án
2.1.3. Nguyên tắc lấy mẫu
Nguyên tắc lấy mẫu trong KNL TESoC cũng như các KNL thông thường
khácđược quyết định trên cơ sở“định hướng ngôn ngữ,xác định tiêu chí chọn mẫu,
lựa chọn tính chất và thước đo mẫu ”(Sinclair, 2004).
Định hướng ngôn ngữ cho thấy tính đa dạng của mẫu bị chi phối bởi mục đích thiết kế. Mục đích thiết kế xác định loại ngữ liệu mà KNL dự định khai thác là cùng một thời kỳ hay nhiều thời kỳ, số lượng ngôn ngữ sử dụng,kiểu ngữ liệu (tĩnh hay động),…, xác định tiêu chí chọn mẫu bao gồm mô tả cách thức văn bản (bút
(học thuật hay thông dụng), đơn ngữ hay đa ngữ, địa điểm xuất xứ, thời gian xuất hiện của các văn bản.
Các tiêu chí chọn mẫu mô tả cụ thể hơn nhóm văn bản cần khai thác trong
KNL. Tính chất và thước đo mẫu ngôn ngữ được xác định qua tiêu chí sử dụng và đánh giá mẫu. Hai tiêu chí này một mặt đảm bảo độ khả dụng và giá trị nội dung của ngôn ngữ được lựa chọn mô tả, mặt khác, tạo nên sự thống nhất trong liên kết giữa các tiêu chí trong tổ chức KNL để mang lại kết quả trong nghiên cứu.
Việc lấy mẫu được coi là yếu tố căn bản trong xây dựng KNL.Tùy vào điều kiện thực tế về loại mẫu, khả năng thu thập mẫu, thời gian, nhân lực và cả tài chính mà các KNL có thể áp dụng các phương pháp lấy mẫu khác nhau. Có 6 phương pháp lấy mẫu được Nesi (2005: 2) (dẫn theo O’Keeffe & McCarthy, 2010: 392) tổng kết gồm mẫu ngẫu nhiên, mẫu tầng bậc, mẫu theo nhóm, mẫu định mức, mẫu
tùy biến và mẫu theo mục đích.
Lấy mẫu ngẫu nhiên (random sampling) là cách chọn mẫu bất kỳ cùng kích cỡ. Người thiết kế không cần cân nhắc đến nội dung hay các tiêu chí khác như đối tượng tạo văn bản, thời gian, xuất xứ,... Mẫu tầng bậc (stratified sampling) được xác định trên cơ sở tập hợp đã được phân tầng. Ở mỗi tầng, người ta sử dụng phương pháp lẫy mẫu ngẫu nhiên để tạo tiểu kho. Trong trường hợp phạm vi tập
hợp quá rộng, người thiết kế có thể quyết định lấy mẫu theo nhóm (cluster
sampling) bằng cách chia tập hợp ngữ liệu thành các nhóm nhỏ và chọn một số nhóm nhất định. Mẫu định mức (quota sampling)cũng được xác định trong trường hợp tương tự. Khi ấy, quá trình phân loại tập hợp theo nhiều hướng rất quan trọng bởi phải căn cứ mỗi nhóm bậc dưới để lấy mẫu định mức. Trong nhiều trường hợp, người thiết kế tham vấn các chuyên gia thuộc lĩnh vực đang nghiên cứu nhờ giúp
lựa chọn mẫu có khả năng minh họa tốt nhất cho tập hợp. Mẫu được lấy theo hình thức này gọi là lấy mẫu theo mục đích(purposive sampling). Trong số các phương
không tuân theo bất kỳ tiêu chí nào kể cả độ lớn. Phương pháp lấy mẫu tùy biến tận
dụng mọi mẫu dễ truy cập để đưa vào nghiên cứu.
Trong thiết kế KNL cần có sự thống nhất giữa nguyên tắc và phương pháp
chọn mẫu. Bên cạnh các yếu tố chủ quan về loại ngôn ngữ, phạm vi khai thác và
định hướng phân tích cần tính đến các yếu tố khách quan như khả năng tiếp cận và khai thác tập hợp. Đối với KNL TESoC, nguyên tắc lấy mẫu toàn văn được quyết định đối với tập hợp ngữ liệu mục tiêu đã xácđịnh. Thiết lập tổ chức trong KNL
theo tầng bậc dựa vào loại văn bản, phạm vi sử dụng văn bản giáo khoa. Thước đo đơn vị mẫu được xác định dựa trên phạm vi bài học hoặc tiểu chủ đề.
2.2. Các tiêu chí thiết kế KNLgiáo khoa tiếng Anh chuyên ngành Xã hội học
2.2.1. Tiêu chí hình thức KNL
Trên cơ sở xây dựng từ tập hợp ngữ liệu văn bản, Kho ngữ liệu TESoC thể
hiện sáu đặc trưng cơ bản về hình thức và nội dung mà Sinclair (2004) đã phần nào
đề cập đến khi so sánh sự khác biệt giữa KNL với các dạng văn bản khác.
Thứ nhất, KNL được thiết kế trên phương diện ngôn ngữ học, phục vụ nghiên cứu các yếu tố ngôn ngữ. Đặc điểm này khiến nó khác so với các tập hồ sơ bởi lý do thu thập văn bản và khả năng khai thác văn bản. Các hồ sơ cũng chứa thông tin ngôn ngữ được lưu trữ nhưng được thu thập dựa trên nhiều lựa chọn ưu
tiên, chẳng hạn như tên riêng, độ tuổi, loại hình công tác,...(đối với hồ sơ cá nhân).
Các thông số ưu tiên ở mỗi lần xử lý lại khác nhau, mang lại kết quả có hoặc không và đều có giá trị như nhau. Tuy nhiên, đối với KNL, không phải mọi yếu tố đều có
thể được khai thác từ một KNL. Khi ấy, giá trị không (0) đối với các yếu tố ngôn ngữ trong KNL không mang lại giá trị nghiên cứu bởi nó không thể hiện được yếu tố ngôn ngữ cần xem xét.
Thứ hai, KNL có độ lớn tương đối ổn định nhờ những thước đo cụ thể về văn bản như thể loại, độ lớn, nguồn tư liệu,.... Tính ổn định của KNL phân biệt nó với các trang mạng thông thường (World Wide Web) bởi các trang này có độ lớn
luôn thay đổi do quá trình cập nhật thông tin được diễn ra liên tục từ vô số nguồn tin cả chính thống lẫn không chính thống,từ văn bản đến các ghi chú hay nhật ký cá
nhân.
Thứ ba, tập hợp ngữ liệu trong KNL đại diện cho một ngôn ngữ hoặc biến thể ngôn ngữ.Nó mô phỏng đối tượng ngôn ngữ lớn hơn cần nghiên cứu.Đặc điểm này phân biệt KNL với các dữ liệu ngôn ngữ khác được tập hợp ngẫu hứng và không phải là tiêu biểu hay đại diện cho một phạm vi ngôn ngữ nào.
Thứ tư, tập hợp ngữ liệu trong KNL có tính tiếp nối văn bản và tính ẩn
danh. Đặc điểm này phân biệt tập hợp các trích dẫn với KNL bởi thông tin chính xác về địa điểm phát ngôn và danh tính của người được trích dẫn không được coi là quan trọng trong nghiên cứu KNL.Trong nhiều trường hợp,chúng còn làm sai lệch kết quả nghiên cứu ngôn ngữ.Trái lại,tính tiếp nối văn bản không có trong tập hợp trích dẫn nhưng rất cần thiết trong tập hợp ngôn ngữ của KNL bởi nó thể hiện rõ nhất quá trình phát triển ngôn ngữ tự nhiên trong các bối cảnh phát ngôn, giúp
nghiên cứu đặc trưng ngôn ngữ một cách chân thực nhất.
Thứ năm, KNL mang tính khái quát về bản chất hoặc cấu trúc ngôn ngữ
trong phạm vi ngôn ngữ được nghiên cứu. Do đó, một bài viết không thể tạo nên một KNL bởi nó không đủ để khái quát cho cả nhóm văn bản cùng thể loại, cũng không đủ để tổng hợp nên văn phong của một tác giả.
Thứ sáu, KNL là tập hợp văn bản thực. Nó chú trọng lưu trữ các văn bản nguyên dạng theo từng nhóm, từng tiểu kho. Cách lưu trữ này khác so với kiểu lưu trữ từ vựng trong Mạng từ của George Miller (Baum, 1998)trong đó các tổ hợp như danh từ,động từ, tính từ, trạng từ được nhóm thành các bộ từ đồng nghĩa(synsets)
về tri nhận.Tập hợp trong mạng từ được xây dựng dựa trên liên kết về nghĩa và các kết hợp tạo nghĩa.
2.2.2. Tiêu chí cấu trúc KNL
một bậc của KNL. Tiêu chí càng rõ ràng, phạm vi lấy mẫu càng cụ thể. Số lượng
bậc được quyết định dựa vào số lượng tiêu chí mà thiết kế KNL đưa ra. Tiêu chí của
tiểu kho bậc dưới cụ thể hóa ngữ liệu của tiểu kho bậc trên. Càng nhiều tiêu chí, số lượng bậc càng nhiều và việc phân chia tiểu kho bậc dưới càng phức tạp. Do đó,
trong luận án này, cấu trúc của KNL TESoC được xác định đơn giản, đảm bảo số lượng tiểu kho hợp phần ít, được tách biệt rõ ràng và mô tả chính xác và hiệu quả
một KNL đại diện cho văn bản giáo khoa tiếng Anh sử dụng trong chuyên ngành Xã hội học.
Nhìn chung, tiêu chí cấu trúc bậc một của KNL thường được xác định theo hướng nhị phân hoặc tam phân để đảm bảo tính khái quát. Điều này không những
giúp phát triển các tiểu kho bậc dưới được dễ dàng mà còn giới hạn phạm vi lấy mẫu không quá dàn trải và đảm bảo sự thống nhất trên toàn KNL. Khống chế số lượng tiểu kho trong cấu trúc bậc 1cũng giúp người thiết kế kiểm soát được độ lớn của KNL cũng như tỉ lệ các mẫu đơn vị thành phần.
Các tiêu chí giúp phân bậc ngữ liệu từ các mảng (cell) đến các văn bản đơn lẻ được sử dụng trong lấy mẫu. Tiêu chí khái quát nhất đưa ra phương án phân mảng tiểu kho bậc 1. Các tiêu chí cụ thể hơn giúp phânchia tiểu kho bậc2, 3,... Có
nhiều lý do liên quan đến mẫu khiến mảng bậc1cần hạn chế về số lượng.Thứ nhất,
nếu KNL được xác định độ lớn từ đầu thì việc tăng số lượng mảng sẽ dẫn đến độ lớn của mẫu đơn vị bị thu hẹp,làm mất tính đại diện của văn bản gốc.Thứ hai,nếu chưa xác định độ lớn của KNL,việc tăng số lượng mảng bậc 1 khiến số lượng tiểu kho bậc dưới tăng theo.Khi đó, mẫu đơn vị sẽ tăng lên nhiều lần so với dự tính ban đầu.
Đối với KNL TESoC được thiết kế để so sánh vốn từ trọng tâm trong các giáo trình ở bậc đại học từ giai đoạn cơ sở đến chuyên ngành, các tiêu chí cấu trúc
không phức tạp. Tiêu chí phân mảng bậc 1 của KNL là tiêu chí loại văn bản. Tiêu chí này dựa trên sự tương phản văn bản sách giáo khoa tiếng Anh và sách chuyên
sách giáo khoa, một dùng trong giảng dạy tiếng Anh giai đoạn cơ sở, và một dùng trong giảng dạy kiến thức chuyên ngành bằng tiếng Anh.Như vậy,nhị phân ở bậc1 chia KNL TESoC làm hai mảng: văn bản giáo trình cơ sở và văn bản từ giáo trình chuyên ngành bằng tiếng Anh với lượng từ tương đương.
Tiêu chí cấu trúc bậc2của KNL xác định mức độ sử dụng từ vựng trong mỗi bậc ứng vớiphạm vi sử dụng theo trình độ, trên cơ sở đó hướng tới xác định vốn từ trọng tâm ở mỗi bậc và chuyên ngành.Tiêu chí này chia mảng tiếng Anh giai đoạn cơ sở (TACS) thành 3tiểu kho. Mỗi tiểu kho thu thập toàn bộ ngôn ngữ trong SGK của một bậc (level)trong đó có sách học,sách bài tập, các bản ghi bài nghe.Mảng tiếng Anh chuyên ngành được chia thành hai tiểu kho trên cơ sở định lượng từ vựng.
Tiêu chí cấu trúc bậc 3xác định chủ đề (topic)về từ vựng. Tiêu chí này chia
mỗi tiểu kho thành các mẫu đơn vị dựa trên phạm từ vựng liên quan đến một chủ đề. Dựa vào tiêu chí này, mỗi đơn vị trong SGK được chia theo bài hoặc chương
(chủ đề).
2.2.3.Tiêu chí mô tả văn bản trong tập hợpngữ liệu
Các văn bản trong tập hợp ngữ liệu của một KNL cần đáp ứng yêu cầu cả về
nội dung và hình thức. Hai phương diện này hình thành nên tiêu chí mô tả văn bản
trong tập hợp ngữ liệu gọi là tiêu chíbên trong và tiêu chí bên ngoài.
2.2.3.1. Tiêu chí bên trong
Tiêu chí bên trong (internal criteria) là những tiêu chí mang tính ngôn ngữ. (Atkins, Clear & Ostler, 1991: 8). Tiêu chí này dùng để phân biệt văn phong, mức độ chuẩn mực, hoặc độ phù hợp của văn bản trên cơ sở phân tích các đặc điểm từ vựng, cú pháp,...của tập hợp. Chẳng hạn, nếu ngữ liệu cần thu thập trong KNL là khẩu ngữ, cần xác định các mẫu văn bản có đáp ứng yêu cầu giao tiếp hay không,
các diễn đạt phức tạp hay đơn giản, từ vựng sử dụng là từ thông dụng hay đặc thù,... Từ góc độ nghiên cứu từ vựng của KNL giáo khoa tiếng Anh chuyên ngành Xã hội
và mức độ tập trung từ vựng (dạng từ và tổ từ) theo trình độ.Tiêu chí này chi phối
độ dài của hai nhóm tư liệu trong cấu trúc bậc 1và lượng từ vựng của các tiểu kho bậc dưới sao cho lượng từ ở hai nhóm tư liệu là tương đương.
2.2.3.2. Tiêu chí bên ngoài
“Tiêu chí bên ngoài (External criteria) là tiêu chí mang tính phi ngôn ngữ”
(Atkins, Clear & Ostler, 1991:8) với 25 đặc trưng nằm ngoài văn bản dùng để mô tả tập hợp ngữ liệu, từ đó tạo nên các mẫu đơn vị trong KNL. Các tiêu chí ngoài gồm dạng ngôn ngữ (mode), tính tham dự của các đối tượng tạo ngôn ngữ
(participation), tính chất có chuẩn bị (preparedness), loại phương tiện (medium), phong cách (style), thể loại (genre), tính kết cấu (constitution), tính thực
(factuality), bối cảnh (setting), chức năng (function), chủ đề (topic), tính chuyên ngành (technicalilty), thời gian (date), tình trạng văn bản (text status), ngôn ngữ
(language), liên kết ngôn ngữ (language links), tình trạng ngôn ngữ (language status),tác quyền (authorship), giới tính của tác giả (sex of author), tuổi tác của tác giả (age of author), vùng miền(region of author), quốc tịch (nationality of author),
tiếng mẹ đẻ (author’s mother tongue), vị thế trong ngành của tác giả (authority of author).
Đối với KNL TESoC, tập hợp ngữ liệu mục tiêu xác lập tiêu chí đầu tiên là dạng ngôn ngữ : văn bản sách giáo khoa tiếng Anh. Tiêu chí này xác định tính
chuẩn mực của ngôn ngữ trong các văn bản in tiếng Anh thể hiện qua sách giáo
khoa dành cho sinh viên Xã hội học được tập hợp trong KNL TESoC gồm sách giáo
khoa dạy tiếng và sách giáo khoa dạy chuyên ngành. Tiêu chí số lượng ngôn ngữ
xác lập tính đơn ngữ của KNL TESoC. Tiêu chí thứ ba áp dụng với KNL TESoC là thể loại văn bản. Tiêu chí này giúp phân biệt hai loại văn bản sách giáo khoa dạy
tiếng Anh phổ thông và sách giáo khoa dành cho nghiên cứu chuyên ngành trong KNL. Tiêu chí thời gian ấn hành của văn bản giới hạn các văn bản trong giai đoạn
từ 2004 đến nay. Ngoài ra, tiêu chí nguồn văn bản xác định ngữ liệu được lấy từ
đơn vị trong KNL ứng với phạm vi học tập của người học. Các tiêu chí trênchi phối việc lấy mẫu theo mảng, tầng bậc của tiểu kho, xác định mẫu đơn vị,phương pháp lấy mẫu,lưu mẫu văn bản trong kho ngữ liệu.
Nhìn chung, các tiêu chí bên ngoài được sử dụng để đưa ra quyết định ban đầu mà chưa cần tính đến nội dung văn bản. Việc này đảm bảo cho văn bản mang
tính khách quan, không bị chi phối bởi các mẫu được lựa chọn theo ý muốn chủ quan của người thiết kế. Do đó, trong xác định tập hợp mục tiêu, các tiêu chí bên
ngoài được sử dụng trước. Khi lấy mẫu và phân tích, các đặc điểm ngôn ngữ bên trong văn bản sẽ phối hợp với các tiêu chí bên ngoài tạo nên đặc điểm chung về mặt ngôn ngữ của KNL.
Các tiêu chí bên ngoài không độc lập mà liên hệ chặt chẽ với các tiêu chí bên trong để tạo nên giá trị cho KNL.Một KNL được xây dựng chỉ dựa trên tiêu chí bên
trong sẽ không thể hiện được mối liên hệ giữa ngôn ngữ và ngữ cảnh tình huống của
nó. Một KNL chỉ thiết kế dựa trên tiêu chí bên ngoài có khả năng bỏ qua những đặc trưng quan trọng trong văn bản vì những tiêu chí của nó không hỗ trợ khai thác các nhân tố ngôn ngữ bên trong văn bản.
2.2.4. Tiêu chíđộ lớn Kho ngữ liệu
Độ lớn của một KNL được xác định “phụ thuộc vào câu hỏi nghiên cứu và cách khai thác dữ liệu trong nghiên cứu”(Sinclair 2004: 9). Do đó, mỗi KNL có độ
lớn không như nhau. Thông thường, quyết định độ lớn tùy thuộc vào ýđồ của người
thiết kế có tính đến tiềm lực về tài chính, nhân sự, trang thiết bị máy móc với thời
gian và khối lượng công việc cần thiết dành cho thu thập và nhập văn bản, đánh dấu chú giải và phân tích. Nghiên cứu thực tế trên KNL tiếng Anh quốc tế ICE
(International Corpus of English)cho thấy cứ một mẫu văn bản 2000 từ mất 8 tiếng
xử lý, còn đối với mẫu ngôn bản, con số này sẽ là từ 10 đến 20 tiếng (Greenbaum,
Đối với KNL dùng làm tư liệu biên soạn sách tham khảo hay từ điển ngôn ngữ thì không cần giới hạn độ lớn.Càng thu thập nhiều dữ liệu, các KNL này càng