Về chỉ số phong phú (R) của vốn từ

Một phần của tài liệu (LUẬN văn THẠC sĩ) từ vựng trong thơ tố hữu ( khảo sát qua hai tập việt bắc và gió lộng ) 60 22 01002 (Trang 35 - 42)

7. Cấu trúc của luận văn

2.1. Đánh giá độ phong phú từ vựng của tác phẩm

2.1.1. Về chỉ số phong phú (R) của vốn từ

Để đánh giá độ phong phú của vốn từ tác phẩm hoặc vốn từ của tác giả, trong phương pháp thống kê ngôn ngữ học, người ta có thể sử dụng nhiều công thức cùng lúc để hỗ trợ lẫn nhau trong quá trình phân tích; chẳng hạn: tính theo tỉ lệ số từ khác nhau trên tổng độ dài văn bản, tỉ lệ từ thực trên tổng số từ khác nhau, tính độ tập trung từ vựng và độ phân tán từ vựng. Ở đây, trong luận văn này chúng tôi sẽ áp dụng một số trong các công thức đó.

a) Tính chỉ số R bằng tỉ lệ giữa số lượng từ khác nhau với tổng độ dài văn bản.

Nhìn vào bảng thống kê từ vựng của tập thơ Việt Bắc, chúng tôi thấy có 1731 từ ngữ (đơn vị từ vựng- đơn vị thống kê) khác nhau với tổng tần số lượt là 6593 lượt từ.

Tập thơ Gió lộng, có 1835 từ ngữ khác nhau. Về độ dài văn bản, chúng tôi tính được tổng tần số các đơn vị thống kê trong toàn văn bản là 8106 lượt từ.

Theo công thức của ngôn ngữ học thống kê tính độ phong phú từ vựng (chỉ số R) trong văn bản khảo sát [15, tr 169], chúng tôi xác lập cách tính cho các nguồn ngữ liệu ở đây theo công thức a) như sau:

a)

Trong đó:

R: Độ phong phú từ vựng R = V

V: Số từ khác nhau của văn bản

N: Độ dài văn bản (tính bằng tổng tần số của các từ có mặt trong văn bản)

Theo công thức này, chỉ số R trong Việt Bắc là: R = V = 1731 = 0,26 N 6593 Chỉ số R trong Gió lộng là: R = V = 1835 = 0,22 N 8106

Về nguyên tắc cũng như trong thực tế, phương pháp thống kê định lượng trong ngôn ngữ học chỉ rõ rằng:

- Khi độ dài văn bản càng lớn thì chỉ số R càng giảm dần.

- Nếu hai văn bản có độ dài tương đương nhau thì văn bản nào có chỉ số R cao hơn sẽ được coi là có độ phong phú từ vựng lớn hơn, tức là được coi có từ vựng phong phú hơn (văn bản kia).

Sở dĩ như vậy là vì mỗi văn bản đều bao gồm một số từ nhất định trong đó có những từ lặp lại nhiều hay ít khác nhau. Chính điều này tạo ra sự liên hệ giữa độ dài văn bản và tổng số từ trong văn bản đó. Nếu trong một văn bản mà từ ngữ càng ít lặp lại thì độ phong phú của nó càng cao. Người ta dùng tỉ lệ giữa số lượng từ khác nhau V và tổng số lượt từ N của văn bản làm chỉ số đánh giá độ phong phú từ vựng R là vì như thế.

Bên trên, nếu tính riêng biệt thì ta có hai chỉ số cho Việt Bắc Gió lộng. Chỉ số R hai bên là tương đối gần nhau và chỉ số đó là khá cao, chứng tỏ vốn từ trong Việt BắcGió lộng có thể nói là có độ phong phú khá lớn; và đây chính là một căn cứ quan trọng để đánh giá vốn từ của tác giả cũng như khả năng sử dụng từ vựng, ngôn ngữ dân tộc của ông. Nếu so sánh với tập

Thơ thơ [1, tr 29…] , chỉ số R = 0,23; so với Quốc âm thi tập của Nguyễn Trãi [5, tr15-21] , chỉ số R là 0,22.

Nếu trộn hai tập thơ này thành một văn bản để khảo sát thì chúng tôi thu được kết quả như sau:

Tổng số đơn vị thống kê (từ ngữ) khác nhau [ V ] là 2733 từ ngữ. Tổng độ dài văn bản (hai tập) là [ N ] 14925 lượt từ.

Theo công thức tính độ phong phú từ vựng trên đây, ta sẽ tính được chỉ số R của văn bản chung gồm hai tập thơ là:

Cả hai tập: R = V = 2733

= 0,18 N 14925

Ta có bảng tổng hợp số liệu về chỉ số R của từng văn bản và chung cả hai văn bản như sau:

Việt Bắc R = V = 1731 = 0,26 N 6593 Gió lộng R = V = 1835 = 0,22 N 8106 Việt Bắc + Gió lộng R = V = 2733 = 0,18 N 14925

Tất nhiên, ở đây chúng tôi xin lưu ý rằng, khi độ dài văn bản được khảo sát tăng lên nữa thì việc gia tăng từ mới sẽ giảm dần vì mức độ lặp từ buộc phải tăng dần theo độ dài văn bản; và các chỉ số về độ phong phú từ vựng cũng sẽ phải nhỏ bớt đi. Vì thế, những số liệu nêu trên và cả những số liệu nêu dưới đây là để cung cấp cho chúng ta một căn cứ xác thực để hình dung và đánh giá về từ vựng tác phẩm theo các tương quan định lượng, chứ chưa

phải là con số tuyệt đối và đầy đủ về toàn bộ từ vựng trong toàn bộ tác phẩm của Tố Hữu.

Chúng tôi so sánh tỉ số V đã khảo sát trong hai tác phẩm thơ của N

Tố Hữu (Việt Bắc, Gió lộng) với tập Thơ thơ của Xuân Diệu thì thấy: Nói chung, chỉ số về độ phong phú từ vựng của ba tập này có thể coi là tương đương, tuy Việt Bắc có nhỉnh hơn một chút.

Việt Bắc Gió lộng Thơ thơ

1731/6594 = 0,26 1835/8106 = 0,22 1347/5834 = 0,23

b) Tính chỉ số R theo độ phân tán từ vựng.

Công thức để tính độ phân tán từ vựng liên quan nhiều đến vùng từ vựng tần số thấp và cũng là một loại cơ sở dữ liệu khác để cung cấp thông tin về độ lặp, độ phong phú từ vựng và năng lực ngôn ngữ tác giả. Trong nguồn ngữ liệu được thống kê đánh giá, nếu số lượng từ có tần số thấp mà càng lớn thì chứng tỏ việc dùng từ ngữ ở đó ít phải lặp lại, độ phân tán từ vựng càng cao. Từ đó suy ra độ phong phú từ vựng của nguồn ngữ liệu được khảo sát càng cao. Công thức tính độ phân tán từ vựng: n 100 ∑ Vi b) i = 1 D = V

Nếu tính độ phân tán từ vựng trong Việt BắcGió lộng trong khoảng tần số 01 đến 02 thì số liệu cho thấy là như sau;

Trong Việt Bắc có tới 971 / 1731 từ ngữ chỉ xuất hiện 1 lần. có 257 / 1731 từ ngữ chỉ xuất hiện 2 lần.

Trong Gió lộng có 885 / 1835 từ ngữ xuất hiện 1 lần. có 299 / 1835 từ ngữ xuất hiện 2 lần. Cả hai tập có 1338 / 2733 từ ngữ chỉ xuất hiện 1 lần có 864 / 2733 từ ngữ xuất hiện 2 lần. Ta có bảng số liệu sau: Văn bản V V1 V1: V V2 V2: V (V1+V2):V Việt Bắc 1731 971 56 % 257 14,8 % 70,8 % Gió lộng 1835 885 48 % 299 16,2 % 64,2 % VB + GL 2733 1338 49% 864 31,6% 80,5%

Trong bảng này: V: số lượng các từ khác nhau trong văn bản V1: số lượng các từ có tần số là 1

V2 : số lượng các từ có tần số là 2 c) Tính chỉ số độ tập trung từ vựng.

Chỉ số độ tập trung từ vựng được tính theo công thức: 50

100 ∑ fr r = 1

c) C = N

Trong công thức này, fr là tần số của từ có hạng r. Công thức này cho biết tỉ số lần dùng tính theo phần trăm của 50 từ có tần số cao nhất so với toàn bộ văn bản.

Trong tập Việt Bắc, chúng tôi lấy 50 từ có tần số cao nhất (tính từ trên xuống), chiếm 2,8% tổng số từ khác nhau; tổng tần số của 50 từ này là 1957 chiếm tới 29,6% độ dài văn bản.

Trong tập Gió lộng, 50 từ có tần số cao nhất chiếm 2,7 tổng số từ khác nhau và tổng tần số của 50 từ này là 2299 chiếm 28,3% độ dài văn bản.

Sau khi đã trộn cả hai tập, chúng ta có 50 từ có tần số cao nhất chiếm 1,8% số từ khác nhau; tổng tần số của 50 từ này là 4075 chiếm 27,3% độ dài văn bản.

Mỗi văn bản được khảo sát ở đây, có độ dài không lớn lắm; nhưng chúng tôi vẫn lấy 50 từ có tần số cao nhất để tính chỉ số về độ tập trung từ vựng. Thế nhưng các chỉ số ở đây chỉ khoảng 27 % đến 29,6 % trong khi chỉ số về độ phân tán lại nằm trong khoảng từ 64 đến 80 %. Sự chênh lệch lớn này rất có ý nghĩa trong sự phản ánh độ phong phú của vốn từ. Như vậy, các kết quả tính chỉ số R theo các công thức trên đây cho thấy một số thông tin ban đầu sau đây:

Chỉ số R tính theo công thức a) là cao.

Chỉ số về độ phân tán từ vựng tính theo công thức b) là cao.

Chỉ số độ tập trung từ vựng tính theo công thức c) là thấp (chỉ bằng khoảng phân nửa hoặc non nửa so với chỉ số về độ phân tán).

So sánh trong nội hai tập thơ với nhau, các chỉ số đánh giá về độ phong phú từ vựng của tập Việt Bắc luôn nhỉnh hơn, trội hơn tập Gió lộng một chút.

Các chỉ số đó (nhất là so sánh tương quan giữa độ phân tán và độ tập trung từ vựng) chứng tỏ từ vựng trong hai tập thơ của Tố Hữu là phong phú và việc dùng từ trong văn bản sáng tác của ông luôn có sự sáng tạo, ít lặp lại, ít đi vào lối mòn. Điều đó cho ta cảm giác ngôn ngữ thơ luôn biến đổi, vận động, cập nhật nhiều thông tin. Nhà thơ đã cách tân, đổi mới cách sử dụng từ ngữ để diễn đạt tư tưởng, tình cảm của mình. Những sáng tạo này làm cho

người đọc luôn cảm thấy thơ gần gũi, thân quen, dễ thuộc, dễ nhớ. Nếu có độ dài văn bản ngang nhau, chúng ta có thể so sánh độ phong phú từ vựng của các tác giả với nhau. Tuy nhiên do hạn chế về mặt thời gian, chúng tôi chưa tìm được nhiều văn bản có độ dài tương đương với Việt BắcGió lộng để khảo sát, so sách. Do vậy chúng tôi chỉ đưa ra những chỉ số này để đánh giá độ phong phú từ vựng của Tố Hữu qua hai tập thơ và so sánh độ phong phú từ vựng của hai tập thơ với nhau. Bên trên, chúng tôi có nói rằng các chỉ số về độ phong phú từ vựng của tập Việt Bắc luôn nhỉnh hơn tập Gió lộng một chút.

2.1.2.Các từ có tần số cao và sự phân bố của các vùng tần số khác nhau

Ngoài các chỉ số vê độ phong phú, nếu quan sát các từ có tần số cao và sự phân bố của các vùng tần số khác nhau, chúng tôi thu được số liệu rất phù hợp và ủng hộ số liệu về chỉ số độ phong phú. Đó là: các từ ở vùng tần số cao trong Gió lộng luôn luôn nhỉnh hơn số từ ở vùng tần số cao của tập Việt Bắc.

Tập thơ Từ có tần số từ 3-10 Từ có tần số lớn hơn 10

Việt Bắc 344 20% 136 8%

Gió lộng 466 25% 176 9,5%

VB + GL 643 23,5% 311 11%

Trong cả hai tập thơ, khu vực có tần số cao chiếm tỉ lệ ít hơn nhiều so với khu vực có tần số thấp và như trên chúng tôi vừa trình bày, tập thơ Gió lộng số từ có tần số cao nhiều hơn so với tập thơ Việt Bắc. Điều này phù hợp với các chỉ số về độ phân tán, độ tập trung từ vựng vừa tính được bên trên; và nó cũng chứng tỏ có sự đậm đặc về từ vựng ở những chủ đề nhất định, độ phân tán ở những "trường" đó không lớn. Số lượng từ có tần số cao chủ yếu

tập trung vào các nhóm từ (trường từ vựng) nói về kháng chiến, người lính, mẹ, Bác Hồ.

Như vậy, chúng ta thấy rằng ngôn ngữ thơ Tố Hữu có độ phong phú từ vựng khá cao. Sau khi đã khảo sát hai tập thơ bằng phương pháp thống kê,

Một phần của tài liệu (LUẬN văn THẠC sĩ) từ vựng trong thơ tố hữu ( khảo sát qua hai tập việt bắc và gió lộng ) 60 22 01002 (Trang 35 - 42)

Tải bản đầy đủ (PDF)

(94 trang)