TRẮC HỌC PHƯƠNG NGỮ VÀ VIỆC NGHIÊN CỨU PHƯƠNG NGỮ HỌC ĐỊA LÍ Ở VIỆT NAM

13 0 0
TRẮC HỌC PHƯƠNG NGỮ VÀ VIỆC NGHIÊN CỨU PHƯƠNG NGỮ HỌC ĐỊA LÍ Ở VIỆT NAM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Kinh Tế - Quản Lý - Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Thiên Nhiên - Natural NGÔN NGỮ SÓ 1 2023 TRẮC HỌC PHƯƠNG NGỮ VÀ VIỆC NGHIÊN CỨU PHƯƠNG NGỮ HỌC ĐỊA LÍ Ở VIỆT NAM NGUYỀN TRÀN QUÝ1 ĐINH Lư GIANG2 NGUYÊN HUỲNH LÂM3 Abstract: Dialectometrics is a quantitative and computational branch of Dialectology that uses techniques to measure the distances and similarities between dialects andor suo-dialects, and build the dialectal distribution maps. The quantitative results may cover consonnants, vowels, syllable duration and can be classified into scales and groups. In Dialectometrics, many calculative procedures and softwares can be used. For instance, Levenshetein Distance uses matrices to calculate digitalized values. This paper introduces Dialectometrics and suggests research directions in Vietnamese geo-dialectology. Keywords: dialectometrics, geo-dialectology, Vietnamese dialects 1. Đặt vấn đề Việc nghiên cứu ngữ âm phương ngữ tiếng Việt trước đây thường dựa trên các kết quả miêu tả hơn là khảo sát thực nghiệm, trong đó có cả những kết CỊuả mang tính cảm CỊuan của nhà nghiên cứu. Mặc dù các kết quả nghiên cứu phương ngữ học tiếng Việt từ trước đến nay rõ ràng là đã đóng góp không nhỏ cho sự hiểu biết về sự khác biệt của các biến ngôn ngữ, tuy vậy, vẫn còn những vấn đề cần nghiên cứu, mà việc điền dã, ghi chép mô tả, phân chia vùng phươngthổ ngữ dường như cân thêm sô liệu minh chứng. Khi nghiên cứu phương ngữ, quan điêm của mỗi nhà nghiên cứu đôi khi có tính quyết định. Chẳng hạn việc phân nhóm các biến thể ngữ âm bởi vì sự hoà lẫn, đan xen giữa các nhóm biến thể trên phạm vi phân bố là điều không dễ dàng. Nhưng về cơ bản vẫn cần dựa trên vị trí địa lí để thống kê và mô tả các biến thể. Từ năm 1982, một số nhà phương ngữ học đã áp dụng trắc học phương ngữ (Dialectometry, viết tắt THPN) cho việc thống kê định lượng sự khác biệt ngữ âm giữa các phương ngữ. THPN được các nhà phương ngữ học dùng như một phương pháp đo đạc, định lượng sự khác biệt về ngữ âm giữa các phương ngữ. Phương pháp này giúp cụ thể hoá, số hoá khối liệu lớn và có thể làm cơ sở cho việc xây dựng bản đồ phương ngữ 13, THPN được phục vụ chủ yếu cho việc mô tả phân bố các phương ngữ và mức độ tương đồng phương ngữ (Similarities). Dựa vào các thuật toán và thủ pháp khoảng cách (Levenshtein Distance), người nghiên cứu có thể lập bản đồ phương ngữ và thể hiện chi tiết các thông số trên bản đồ. Tất nhiên, dữ liệu đầu vào phải là các kết quả nghiên cứu điền dã. Sau khi tính toán, chúng tôi dùng phần mềm Google earth pro 17 để vẽ các bản đồ. Ưu điểm của phần mềm này là có độ chính xác cao với ảnh chụp từ vệ tinh và có thể đo được khoảng cách địa lí. Người đọc có thể dễ dàng theo dõi diễn biến của phương ngữ thông qua sơ đồ phân nhóm. ''''Nghiên cứu được tài trợ bởi Bộ Khoa học Công nghệ trong khuôn khổ Chương trình “Hỗ trợ nghiên cứu, phát triển và ứng dụng công nghệ của công nghiệp 4.0” mã so: KC-4.019-25 ’’2’3 Trường Đại học Khoa học Xã hội và Nhân văn - Đại học Quốc gia Thành phố Hồ Chí Minh. 40 I Ngôn ngữ số ỉ năm 2023 Các biến thể được xếp vào các nhóm từ lớn đến nhỏ dựa vào tiêu chí độ lệch chuẩn. Lúc này, chúng ta sẽ nhận thấy không phải ranh giới phương ngữ lúc nào cũng trùng với ranh giới địa lí. THPN không chỉ tập trung vào các phân tích tổng hợp, mà thay vào đó triển khai nhiều kĩ thuật đê xác định các đặc điêm đại diện và khác biệt của các phương ngữ. Nhờ việc sô hoá dữ liệu ngữ âm phương ngữ, nhà nghiên cứu có thể tính toán được điểm khác biệt của phương ngữ trên cơ sở tông hợp các yêu tô ngôn ngữ xã hội như giới tính, độ tuôi, trình độ văn hoá. Với các ưu điểm của THPN, người nghiên cứu có thể tính toán được một cách số hoá dữ liệu ngữ âm phương ngữ ở Việt Nam. Bên cạnh việc vẽ nên bức tranh phương ngữ, nhà nghiên cứu có thê dựa trên cơ sở chung là các thuật toán đo đạc để xác định mối liên hệ của một biến thể trong tương quan với toàn bộ các biến thể còn lại. Bài viết này trình bày những hiểu biết của nhóm tác giả về THPN và chọn mẫu nghiên cứu là các cộng tác viên có cùng độ tuổi và giới tính. Dữ liệu đầu vào là các bảng từ phiên âm các giọng nói của 7 địa phương bao gồm: Hà Nội, Nghệ An, Huế, Quảng Ngãi, Lý Sơn, Sài Gòn, Trà Vinh. Trong nghiên cứu này, chúng tôi tạm thời chưa đề cập đến truyên thông phân vùng phương ngữ của các tác giả đi trước mà chỉ khảo sát và minh họa cho thủ pháp THPN. Bảng từ điều tra gồm 44 âm tiết cơ bản. Các loại biến thể được quan tâm khảo sát là 4 thành phần của cấu trúc âm tiết tiếng Việt: âm đầu, âm đệm, âm chính, âm cuối. Dữ liệu bảng điều tra phươnẹ ngữ được sưu tập từ các công trình đã công bố của các tác giả trước đâỵ 3, 2, 14, 1, 4. Điều kiện để chọn cộng tác viên của các tác giả này là cộng tác viên có số năm cư trú lâu dài ở địa phương, có bố, mẹ là người địa phương và ít di chuyển, sinh sốnẹ ở vùng khác, số lượng cộng tác viên của mỗi vùng là 32 (16 nữ), với độ tuổi từ 18 đên 55 và đêu có trình độ học vân 1212. Nghê nghiệp của cộng tác viên là nông dân, công nhân và nhân viên văn phòng. Các vùng được khảo sát như sau: quận Hoàn Kiếm, thành phố Hà Nội; thành phố Vinh, tỉnh Nghệ An; huyện Sơn Tịnh, tỉnh Quảng Ngãi; huyện đảo Lý Sơn, tỉnh Quảng Ngãi; thành phố Hồ Chí Minh (Sài Gòn); thành phố Trà Vinh, tỉnh Trà Vinh. Dựa vào kinh nghiệm điền dã của bản thân, chúng tôi có bổ sung thêm các biến thể phương ngữ thành phố Hồ Chí Minh. Yếu tố chuyển cư của cộng tác viên chưa được đề cập trong khảo sát này. Việc phiên âm được dùnẹ theo chuẩn IPA nhưng loại phần thanh điệu ra vì mục tiêu của bài viết này tập trung vào biến thể của các âm vị đoạn tính. 2. Tổng quan về trắc học phương ngữ THPN là một nhánh của phương ngữ học, được khởi xướng nhờ hai tác giả J. Séguy và Hans Goebl từ năm 1970 16, THPN có đặc trưng là việc dùng máy tính và các mô hình thống kê để tính toán số liệu trong nghiên cứu phương ngữ. Nhờ THPN, bản đồ phương ngữ sẽ là cơ sở dữ liệu lưu giữ các thông tin phương ngữ với khối lượng đồ sộ. Các phân loại của THPN giúp trừu tượng hoá các đặc trưng ngôn ngữ, hay cụ thể hoá một nhận định qua số liệu cụ thê. THPN có thể xử lí dữ liệu lớn, phức tạp bởi các biến thể trải rộng khắp cấu trúc âm tiết (âm đầu, âm chính, âm cuối). Mục tiêu tổng hợp sự khác biệt phương ngữ được hiện thực hoá qua số liệu thống kê các mẫu. Theo phương pháp nghiên cứu phương ngữ truyền thống, các nhà nghiên cứu tập trung nhiều vào miêu tả chi tiết các biến thể của một phương ngữ, thổ ngữ nào đó mà ít chú ý đến mối liên hệ chung giữa các biến thể vùng miền của một ngôn ngữ. Bước tiến của J. Séguy là tiến hành đếm sự khác biệt trong tập dữ liệu. Kết quả khác biệt từ các nhóm được tổng hợp lại dựa trên các cặp phương ngữ, thổ ngữ. Trên bản đồ phương ngữ, người xem có thể nhận biết sự khác biệt tổng thể và sự khác biệt cá thể của một phương ngữ. Trắc học phương ngữ... I 41 THPN đóng góp thành tựu về kĩ thuật nhận dạng các mẫu nghiên cứu phương ngữ. Với đầu vào là bàn phiên âm hay sô liệu, mô hình phân tích sẽ được chạy trên máy tính để tính toán theo yêu cầu của nhà nghiên cứu. Trong giai đoạn đầu, THPN được xem là một thủ pháp (technique), đã được thử nghiệm trên khu vực nói tiếng Occitan ở vùng Catalonia. Năm 1995, tác giả Kessler giới thiệu việc sử dụng Khoảng cách Levenshtein như một công cụ đo đạc của THPN 8, Nhà nghiên cứu Kessler đã áp dụng thành công cho việc nghiên cứu các phương ngữ của tiếng Ai Len. Kessler và Nerbonne đã đóng góp một thủ pháp đo khoảng cách ngôn ngữ bằng số. Sau đó, thủ pháp này đã được đã được kiểm chứng và áp dụng rộng rãi 6. Trong nghiên cứu của một số tác giả sau đó, thuật toán Khoảng cách Levenshtein được dùng để so sánh biến thể của tiếng Hà Lan và Na Uy. Tác giả Heeringa cũng có bài viết về ứng dụng thuật toán này cho việc nghiên cứu phương ngữ Sardinia ở Địa Trung Hải 7, Nhờ sự phát triển của công nghệ, một sổ kĩ thuật tính toán hiện đại dùng cho ngôn ngữ học đã được vận dụng. THPN được phát triển thêm mô hình cân chỉnh, xác định nguồn gốc của các biến thể trong tập dữ liệu 9. Các nhà nghiên cứu tiền nhiệm đã có suy nghĩ về hạn chế của phương pháp nghiên cứu phương ngữ truyền thống, cần có lời giải đáp cho vấn đề khuếch tán ngôn ngữ, về những giới hạn của những khác biệt và tương đồng giữa các vùng phương ngữ lân cận 5, Để trả lời câu hỏi này, THPN đã được phát triển và mở rộng hơn nhằm thực hiện các mục tiêu của phương ngữ học. Trước đây, các nhà nghiên cứu phương ngữ chỉ có thể tập trung vào địa lí để giải thích sự biến đổi của ngôn ngữ. Giờ đây, với sự hỗ trợ của các thủ pháp trong THPN, việc nghiên cứu có thể bao quát được các yếu tố địa lí, ngôn ngữ và xã hội. Sự khác biệt giữa các phương ngữ được chỉ ra qua các yếu tố như: tuổi tác, giới tính, vị trí địa lí. THPN cũng được áp dụng trong nghiên cứu ngôn ngữ học lịch đại. Nhờ những ưu điểm của việc số hoá dữ liệu, phân nhánh này đã đóng góp thêm cơ sở lí thuyết vào việc so sánh các phương ngữ và góp phần miêu tả chi tiết hơn sự khuếch tán phương ngữ. Tác giả Nerbonne chi ra rằng sự tổng hợp biến thể ngôn ngữ trong một tập dữ liệu, đều được chấp nhận bởi tất cả các biến thể trong tập dữ liệu đó 12. Các đặc trưng của biến thể cá nhân đều có tính gây nhiễu. Nếu chi căn cứ vào biến thể của cá nhân mà không dùng các phép tính, thuật toán để chuẩn hoá, so sánh thì kết quà sẽ mang tính chủ quan. 2.1. Khoảng cách Levenshtein Khoảng cách Levenshtein là một giá trị số quy ước cho việc chèn, xóa hoặc thay thế cần thiết để chuyển đổi một chuỗi kí tự này sang một chuỗi kí tự khác 10. Kĩ thuật đơn giản nhất là so sánh chuồi âm tố. Trong phương pháp này, tất cà các thao tác có cùng quy ước số. Chúng ta có thể đo khoảng cách giữa hai chuỗi kí tự phiên âm ngôn ngữ. Thuật toán Levenshtein cho phép chúng ta đo chính xác và tính đên sự khác biệt hoặc tương đồng giữa những cách phát âm khác nhau của một từ. Để xác định hai chuỗi khác nhau như thế nào, cần thực hiện các thao tác như sau: - Xoá: xoá một thành phần của chuỗi; - Thay thế: thay thế một thành phần của chuỗi này bằng một thành phần của chuồi khác; - Chèn: chêm một thành phần khác vào chuỗi. 42 I Ngôn ngữ số 1 năm 2023 Ví dụ: so sánh từ “đồng ý” trong tiếng Phần Lan, giữa phương ngữ Lyngby có từ ?e:ni với từ e:ma của phương ngữ Helsinki 7. Lỵngby ?e:ni xoá ? 1 e:ni thay thế i bàng I 1 e:m chèn a 1 Helsinki e:nia 3 1 2 3 4 5 Helsinki Lungby ? e: e: n n i I a xoá thay thế chèn Khoảng cách chưa cân chỉnh: 3 Khoảng cách đã cân chỉnh: 35 = 0.6 hoặc 60 Khi so sánh hai chuồi âm tố, Kessler tính khoảng cách Levenshtein không chỉ khi các từ là biến thể ngữ âm của nhau, mà cả khi chúng khác biệt về mặt từ vựng. Tác giả Kessler gọi đây là cách tiếp cận toàn thể từ (all word). Như vậy, thủ pháp Levenshtein áp dụng được cho cả việc đối sánh ngữ âm và từ vựng. Trong phần này, chúng tôi minh hoạ cách tính khoảng cách Levenshtein trên cơ sở các phát âm có cùng nghĩa “buồm”. Tạm gọi bam là SI và buom là S2. số lượng chiết đoạn (âm tố) trong SI là m và trong S2 là n. Chúng ta thấy rằng m = 3 và n = 4. Khoảng cách Levenshtein tính toán giá trị tối thiểu cần thiết để thay đổi SI thành S2. Đổ thực hiện điều này, một ma trận có kích thước (m + 1, n + 1) được áp dụng. Các hàng được đánh số từ 0.. .m và các cột từ 0... n. Khoảng cách ô 0,0 nhận giá trị 0. Chúng ta đi qua hàng dist của ma trận, gán giá trị cho các ô khác. Bắt đầu bằng hàng 0 và trong mỗi hàng, chúng tôi luôn bắt đầu với cột 0 (chỉ trong hàng zero chúng tôi bắt đầu với cột đầu tiên), số hàng hiện tại là i và số cột hiện tại là j. Công thức tính khoảng cách như sau: disi J1 X100 '''' '''' long dist: khoảng cách dif: sự khác biệt k: biến thể long: chiều dài Trắc học phương ngữ... I 43 Khoảng cách ngôn ngữ giữa hai biến thể (i, j) là kết quả của sự tổng hợp những khác biệt giữa chúng liên quan đên một biên thê ngôn ngữ k và phân chia chúng theo chiêu dài của môi mục từ được so sánh. Sau đó, cần phải cân chỉnh các chuỗi âm vị của dữ liệu sao cho các nguyên âm sẽ được so sánh với các nguyên âm và các phụ âm so sánh với các phụ âm. Khoảng cách giữa hai chuỗi, sau đó được thiêt lập băng cách so sánh từng kí tự: nêu các kí tự giông nhau tại một vị trí phù hợp trong mỗi chuỗi, khoảng cách sẽ có kết quả là 0. Nếu cân chinh hai kí tự khác nhau thì khoảng cách sẽ được đo bằng 1. Khoảng cách giữa hai chuỗi là tổng của khoảng cách kí tự. 2.2. Các bước xử lí số liệu trên máy tính Quá trình xử lí trên máy tính để tạo ra bàn đồ phương ngữ gồm có 6 bước. Khi có được bảng từ đối chiếu giữa các phương ngữ, các bước tiếp theo sẽ như sau: Bước 1: Thu thập dữ liệu Bước 2: Khảo dữ liệu (data inspection), bao gồm việc xây dựng bản đồ chỉ số (index map), xem xét tổng quan dữ liệu (data overview), xây dựng bàn đồ phân bố ban đầu (distribution maps) Bước 3: Đo đạc khoảng cách ngôn ngữ (measurement of linguistic distances), bao gồm: - phiên âm ngữ âm học - cân chinh chuồi (string alignments) - khoảng cách mục từ (item distances) - tổng hợp (aggregation) - ma trận khoảng cách (distance matrix) Bước 4: Xác định sự khác biệt ngôn ngữ (linguistic differences), gồm: - xây dựng bản đồ về sự khác biệt ngôn ngữ (difference maps) - so sánh với khoảng cách địa lí - xây dựng bản đồ điểm tham chiếu (reference point maps) Bước 5: Phân tích thống kê và lập bản đồ (statistical analyses and mappings) - thang đo đa chiều (multidimensional scaling) - gom nhóm riêng rẽ (discrete clustering) - gom nhóm hỗn hợp (fuzzy clustering) - công nhận nhóm (cluster validation) Bước 6: Khai thác dữ liệu (data mining) - xác định các định tố nhóm (cluster determinants) - xây dựng bàn đồ phân bố (distribution maps) 2.3. Thống kê theo thang đo đa chiểu Thang đo đa chiều (multidimensional scaling) là một kiểu thống kê được sử dụng để nghiên cứu các vùng chuyển tiếp (dialect continua). Thang đo đa chiều là một kỳ thuật trình bày khoảng 44 I Ngôn ngữ số 1 năm 2023 cách giữa các đối tượng, được đo từ một tập hợp các biến thể được mã hóa trong một ma trận khoảng cách, với một tập hợp các vị trí có liên hệ. Điều quan trọng cần lưu ý ở đây thang đo đa chiều sẽ cung cấp một phương pháp toán học để định vị các đối tượng cần so sánh (ngôn ngữ hoặc phương ngữ) trong một không gian hình học được xác định bởi hai hoặc nhiều trục. Mục đích của việc dùng thang đo đa chiều là cung cấp một cách trình bày trực quan về mẫu khoảng cách giữa một tập hợp các yếu tố. Khoảng cách ngôn ngữ tổng hợp giữa các cặp đôi được phân tích và một tập hợp các điểm trong không gian chiều thấp được trả về sao cho khoảng cách giữa các điểm xấp xỉ bằng khoảng cách ban đầu. Khi áp dụng cho việc phân tích dữ liệu phương ngữ, thang đo đa chiều thường giải thích ít nhất khoảng 90 tổng số biến thể trong dữ liệu 11, 15, Kết quả được trình bày trên đồ thị có hệ tọa độ Descartes. VỊ trí hai điểm càng gần nhau thì khác biệt ngôn ngữ càng nhỏ. Khi áp dụng thủ pháp cân chỉnh khoảng cách chuỗi để đo khoảng cách ngôn ngữ trong tập dữ liệu, khoảng cách giữa hai phương ngữ được tính toán cho tất cả các biến thể được dùng trong khảo sát phương ngữ. Sau đó, khoảng cách tổng hợp giữa hai phương ngữ được tính là mức trung bình của tất cả các khoảng cách biến thể. 2.4. Vùng chuyển tiếp phương ngữ Vùng chuyển tiếp phương ngữ (Dialect continuum) là khu vực có sự lan truyền của các biến thể ngôn ngữ được sử dụng trong hai khu vực tiếp giáp nhau sao cho các biến thể ở đường tiếp giáp chỉ khác nhau ít nhất có thể. Tuy vậy, sự khác biệt thường được tích lũy theo khoảng cách. Người dân ở khu vực lân cận thường dễ hiểu phát âm của nhau. Còn người dân ở khu vực xa hơn sẽ thấy khó hiểu hơn. Ở các vùng có cư dân định cư lâu đời, vùng chuyển tiếp phương ngữ xuất hiện khi sự thay đổi mới lan rộng từ các điểm xuất phát khác nhau dưới dạng ...

NGÔN NGỮ 2023 SÓ 1 TRẮC HỌC PHƯƠNG NGỮ VÀ VIỆC NGHIÊN CỨU PHƯƠNG NGỮ HỌC ĐỊA LÍ Ở VIỆT N* AM NGUYỀN TRÀN QUÝ1 ĐINH Lư GIANG2 NGUYÊN HUỲNH LÂM3 Abstract: Dialectometrics is a quantitative and computational branch of Dialectology that uses techniques to measure the distances and similarities between dialects and/or suo-dialects, and build the dialectal distribution maps The quantitative results may cover consonnants, vowels, syllable duration and can be classified into scales and groups In Dialectometrics, many calculative procedures and softwares can be used For instance, Levenshetein Distance uses matrices to calculate digitalized values This paper introduces Dialectometrics and suggests research directions in Vietnamese geo-dialectology Keywords: dialectometrics, geo-dialectology, Vietnamese dialects 1 Đặt vấn đề Việc nghiên cứu ngữ âm phương ngữ tiếng Việt trước đây thường dựa trên các kết quả miêu tả hơn là khảo sát thực nghiệm, trong đó có cả những kết CỊuả mang tính cảm CỊuan của nhà nghiên cứu Mặc dù các kết quả nghiên cứu phương ngữ học tiếng Việt từ trước đến nay rõ ràng là đã đóng góp không nhỏ cho sự hiểu biết về sự khác biệt của các biến ngôn ngữ, tuy vậy, vẫn còn những vấn đề cần nghiên cứu, mà việc điền dã, ghi chép mô tả, phân chia vùng phương/thổ ngữ dường như cân thêm sô liệu minh chứng Khi nghiên cứu phương ngữ, quan điêm của mỗi nhà nghiên cứu đôi khi có tính quyết định Chẳng hạn việc phân nhóm các biến thể ngữ âm bởi vì sự hoà lẫn, đan xen giữa các nhóm biến thể trên phạm vi phân bố là điều không dễ dàng Nhưng về cơ bản vẫn cần dựa trên vị trí địa lí để thống kê và mô tả các biến thể Từ năm 1982, một số nhà phương ngữ học đã áp dụng trắc học phương ngữ (Dialectometry, viết tắt THPN) cho việc thống kê định lượng sự khác biệt ngữ âm giữa các phương ngữ THPN được các nhà phương ngữ học dùng như một phương pháp đo đạc, định lượng sự khác biệt về ngữ âm giữa các phương ngữ Phương pháp này giúp cụ thể hoá, số hoá khối liệu lớn và có thể làm cơ sở cho việc xây dựng bản đồ phương ngữ [13], THPN được phục vụ chủ yếu cho việc mô tả phân bố các phương ngữ và mức độ tương đồng phương ngữ (Similarities) Dựa vào các thuật toán và thủ pháp khoảng cách (Levenshtein Distance), người nghiên cứu có thể lập bản đồ phương ngữ và thể hiện chi tiết các thông số trên bản đồ Tất nhiên, dữ liệu đầu vào phải là các kết quả nghiên cứu điền dã Sau khi tính toán, chúng tôi dùng phần mềm Google earth pro [17] để vẽ các bản đồ Ưu điểm của phần mềm này là có độ chính xác cao với ảnh chụp từ vệ tinh và có thể đo được khoảng cách địa lí Người đọc có thể dễ dàng theo dõi diễn biến của phương ngữ thông qua sơ đồ phân nhóm 'Nghiên cứu được tài trợ bởi Bộ Khoa học Công nghệ trong khuôn khổ Chương trình “Hỗ trợ nghiên cứu, phát triển và ứng dụng công nghệ của công nghiệp 4.0” mã so: KC-4.0/19-25 ’’2’3 Trường Đại học Khoa học Xã hội và Nhân văn - Đại học Quốc gia Thành phố Hồ Chí Minh 40 I Ngôn ngữ số ỉ năm 2023 Các biến thể được xếp vào các nhóm từ lớn đến nhỏ dựa vào tiêu chí độ lệch chuẩn Lúc này, chúng ta sẽ nhận thấy không phải ranh giới phương ngữ lúc nào cũng trùng với ranh giới địa lí THPN không chỉ tập trung vào các phân tích tổng hợp, mà thay vào đó triển khai nhiều kĩ thuật đê xác định các đặc điêm đại diện và khác biệt của các phương ngữ Nhờ việc sô hoá dữ liệu ngữ âm phương ngữ, nhà nghiên cứu có thể tính toán được điểm khác biệt của phương ngữ trên cơ sở tông hợp các yêu tô ngôn ngữ xã hội như giới tính, độ tuôi, trình độ văn hoá Với các ưu điểm của THPN, người nghiên cứu có thể tính toán được một cách số hoá dữ liệu ngữ âm phương ngữ ở Việt Nam Bên cạnh việc vẽ nên bức tranh phương ngữ, nhà nghiên cứu có thê dựa trên cơ sở chung là các thuật toán đo đạc để xác định mối liên hệ của một biến thể trong tương quan với toàn bộ các biến thể còn lại Bài viết này trình bày những hiểu biết của nhóm tác giả về THPN và chọn mẫu nghiên cứu là các cộng tác viên có cùng độ tuổi và giới tính Dữ liệu đầu vào là các bảng từ phiên âm các giọng nói của 7 địa phương bao gồm: Hà Nội, Nghệ An, Huế, Quảng Ngãi, Lý Sơn, Sài Gòn, Trà Vinh Trong nghiên cứu này, chúng tôi tạm thời chưa đề cập đến truyên thông phân vùng phương ngữ của các tác giả đi trước mà chỉ khảo sát và minh họa cho thủ pháp THPN Bảng từ điều tra gồm 44 âm tiết cơ bản Các loại biến thể được quan tâm khảo sát là 4 thành phần của cấu trúc âm tiết tiếng Việt: âm đầu, âm đệm, âm chính, âm cuối Dữ liệu bảng điều tra phươnẹ ngữ được sưu tập từ các công trình đã công bố của các tác giả trước đâỵ [3], [2], [14], [1], [4] Điều kiện để chọn cộng tác viên của các tác giả này là cộng tác viên có số năm cư trú lâu dài ở địa phương, có bố, mẹ là người địa phương và ít di chuyển, sinh sốnẹ ở vùng khác, số lượng cộng tác viên của mỗi vùng là 32 (16 nữ), với độ tuổi từ 18 đên 55 và đêu có trình độ học vân 12/12 Nghê nghiệp của cộng tác viên là nông dân, công nhân và nhân viên văn phòng Các vùng được khảo sát như sau: quận Hoàn Kiếm, thành phố Hà Nội; thành phố Vinh, tỉnh Nghệ An; huyện Sơn Tịnh, tỉnh Quảng Ngãi; huyện đảo Lý Sơn, tỉnh Quảng Ngãi; thành phố Hồ Chí Minh (Sài Gòn); thành phố Trà Vinh, tỉnh Trà Vinh Dựa vào kinh nghiệm điền dã của bản thân, chúng tôi có bổ sung thêm các biến thể phương ngữ thành phố Hồ Chí Minh Yếu tố chuyển cư của cộng tác viên chưa được đề cập trong khảo sát này Việc phiên âm được dùnẹ theo chuẩn IPA nhưng loại phần thanh điệu ra vì mục tiêu của bài viết này tập trung vào biến thể của các âm vị đoạn tính 2 Tổng quan về trắc học phương ngữ THPN là một nhánh của phương ngữ học, được khởi xướng nhờ hai tác giả J Séguy và Hans Goebl từ năm 1970 [16], THPN có đặc trưng là việc dùng máy tính và các mô hình thống kê để tính toán số liệu trong nghiên cứu phương ngữ Nhờ THPN, bản đồ phương ngữ sẽ là cơ sở dữ liệu lưu giữ các thông tin phương ngữ với khối lượng đồ sộ Các phân loại của THPN giúp trừu tượng hoá các đặc trưng ngôn ngữ, hay cụ thể hoá một nhận định qua số liệu cụ thê THPN có thể xử lí dữ liệu lớn, phức tạp bởi các biến thể trải rộng khắp cấu trúc âm tiết (âm đầu, âm chính, âm cuối) Mục tiêu tổng hợp sự khác biệt phương ngữ được hiện thực hoá qua số liệu thống kê các mẫu Theo phương pháp nghiên cứu phương ngữ truyền thống, các nhà nghiên cứu tập trung nhiều vào miêu tả chi tiết các biến thể của một phương ngữ, thổ ngữ nào đó mà ít chú ý đến mối liên hệ chung giữa các biến thể vùng miền của một ngôn ngữ Bước tiến của J Séguy là tiến hành đếm sự khác biệt trong tập dữ liệu Kết quả khác biệt từ các nhóm được tổng hợp lại dựa trên các cặp phương ngữ, thổ ngữ Trên bản đồ phương ngữ, người xem có thể nhận biết sự khác biệt tổng thể và sự khác biệt cá thể của một phương ngữ Trắc học phương ngữ I 41 THPN đóng góp thành tựu về kĩ thuật nhận dạng các mẫu nghiên cứu phương ngữ Với đầu vào là bàn phiên âm hay sô liệu, mô hình phân tích sẽ được chạy trên máy tính để tính toán theo yêu cầu của nhà nghiên cứu Trong giai đoạn đầu, THPN được xem là một thủ pháp (technique), đã được thử nghiệm trên khu vực nói tiếng Occitan ở vùng Catalonia Năm 1995, tác giả Kessler giới thiệu việc sử dụng Khoảng cách Levenshtein như một công cụ đo đạc của THPN [8], Nhà nghiên cứu Kessler đã áp dụng thành công cho việc nghiên cứu các phương ngữ của tiếng Ai Len Kessler và Nerbonne đã đóng góp một thủ pháp đo khoảng cách ngôn ngữ bằng số Sau đó, thủ pháp này đã được đã được kiểm chứng và áp dụng rộng rãi [6] Trong nghiên cứu của một số tác giả sau đó, thuật toán Khoảng cách Levenshtein được dùng để so sánh biến thể của tiếng Hà Lan và Na Uy Tác giả Heeringa cũng có bài viết về ứng dụng thuật toán này cho việc nghiên cứu phương ngữ Sardinia ở Địa Trung Hải [7], Nhờ sự phát triển của công nghệ, một sổ kĩ thuật tính toán hiện đại dùng cho ngôn ngữ học đã được vận dụng THPN được phát triển thêm mô hình cân chỉnh, xác định nguồn gốc của các biến thể trong tập dữ liệu [9] Các nhà nghiên cứu tiền nhiệm đã có suy nghĩ về hạn chế của phương pháp nghiên cứu phương ngữ truyền thống, cần có lời giải đáp cho vấn đề khuếch tán ngôn ngữ, về những giới hạn của những khác biệt và tương đồng giữa các vùng phương ngữ lân cận [5], Để trả lời câu hỏi này, THPN đã được phát triển và mở rộng hơn nhằm thực hiện các mục tiêu của phương ngữ học Trước đây, các nhà nghiên cứu phương ngữ chỉ có thể tập trung vào địa lí để giải thích sự biến đổi của ngôn ngữ Giờ đây, với sự hỗ trợ của các thủ pháp trong THPN, việc nghiên cứu có thể bao quát được các yếu tố địa lí, ngôn ngữ và xã hội Sự khác biệt giữa các phương ngữ được chỉ ra qua các yếu tố như: tuổi tác, giới tính, vị trí địa lí THPN cũng được áp dụng trong nghiên cứu ngôn ngữ học lịch đại Nhờ những ưu điểm của việc số hoá dữ liệu, phân nhánh này đã đóng góp thêm cơ sở lí thuyết vào việc so sánh các phương ngữ và góp phần miêu tả chi tiết hơn sự khuếch tán phương ngữ Tác giả Nerbonne chi ra rằng sự tổng hợp biến thể ngôn ngữ trong một tập dữ liệu, đều được chấp nhận bởi tất cả các biến thể trong tập dữ liệu đó [12] Các đặc trưng của biến thể cá nhân đều có tính gây nhiễu Nếu chi căn cứ vào biến thể của cá nhân mà không dùng các phép tính, thuật toán để chuẩn hoá, so sánh thì kết quà sẽ mang tính chủ quan 2.1 Khoảng cách Levenshtein Khoảng cách Levenshtein là một giá trị số quy ước cho việc chèn, xóa hoặc thay thế cần thiết để chuyển đổi một chuỗi kí tự này sang một chuỗi kí tự khác [10] Kĩ thuật đơn giản nhất là so sánh chuồi âm tố Trong phương pháp này, tất cà các thao tác có cùng quy ước số Chúng ta có thể đo khoảng cách giữa hai chuỗi kí tự phiên âm ngôn ngữ Thuật toán Levenshtein cho phép chúng ta đo chính xác và tính đên sự khác biệt hoặc tương đồng giữa những cách phát âm khác nhau của một từ Để xác định hai chuỗi khác nhau như thế nào, cần thực hiện các thao tác như sau: - Xoá: xoá một thành phần của chuỗi; - Thay thế: thay thế một thành phần của chuỗi này bằng một thành phần của chuồi khác; - Chèn: chêm một thành phần khác vào chuỗi 42 I Ngôn ngữ số 1 năm 2023 Ví dụ: so sánh từ “đồng ý” trong tiếng Phần Lan, giữa phương ngữ Lyngby có từ [?e:ni] với từ [e:ma] của phương ngữ Helsinki [7] Lỵngby ?e:ni xoá ? 1 Helsinki e:ni thay thế i 1 bàng I e:m chèn a 1 e:nia 3 1 2 3 4 5 Helsinki ? e: n i a Lungby e: n I xoá thay thế chèn Khoảng cách chưa cân chỉnh: 3 Khoảng cách đã cân chỉnh: 3/5 = 0.6 hoặc 60 % Khi so sánh hai chuồi âm tố, Kessler tính khoảng cách Levenshtein không chỉ khi các từ là biến thể ngữ âm của nhau, mà cả khi chúng khác biệt về mặt từ vựng Tác giả Kessler gọi đây là cách tiếp cận toàn thể từ (all word) Như vậy, thủ pháp Levenshtein áp dụng được cho cả việc đối sánh ngữ âm và từ vựng Trong phần này, chúng tôi minh hoạ cách tính khoảng cách Levenshtein trên cơ sở các phát âm có cùng nghĩa “buồm” Tạm gọi [bam] là SI và [buom] là S2 số lượng chiết đoạn (âm tố) trong SI là m và trong S2 là n Chúng ta thấy rằng m = 3 và n = 4 Khoảng cách Levenshtein tính toán giá trị tối thiểu cần thiết để thay đổi SI thành S2 Đổ thực hiện điều này, một ma trận có kích thước (m + 1, n + 1) được áp dụng Các hàng được đánh số từ 0 m và các cột từ 0 n Khoảng cách ô [0,0] nhận giá trị 0 Chúng ta đi qua hàng dist của ma trận, gán giá trị cho các ô khác Bắt đầu bằng hàng 0 và trong mỗi hàng, chúng tôi luôn bắt đầu với cột 0 (chỉ trong hàng zero chúng tôi bắt đầu với cột đầu tiên), số hàng hiện tại là i và số cột hiện tại là j Công thức tính khoảng cách như sau: disi J_1 X100 ' ' long dist: khoảng cách dif: sự khác biệt k: biến thể long: chiều dài Trắc học phương ngữ I 43 Khoảng cách ngôn ngữ giữa hai biến thể (i, j) là kết quả của sự tổng hợp những khác biệt giữa chúng liên quan đên một biên thê ngôn ngữ k và phân chia chúng theo chiêu dài của môi mục từ được so sánh Sau đó, cần phải cân chỉnh các chuỗi âm vị của dữ liệu sao cho các nguyên âm sẽ được so sánh với các nguyên âm và các phụ âm so sánh với các phụ âm Khoảng cách giữa hai chuỗi, sau đó được thiêt lập băng cách so sánh từng kí tự: nêu các kí tự giông nhau tại một vị trí phù hợp trong mỗi chuỗi, khoảng cách sẽ có kết quả là 0 Nếu cân chinh hai kí tự khác nhau thì khoảng cách sẽ được đo bằng 1 Khoảng cách giữa hai chuỗi là tổng của khoảng cách kí tự 2.2 Các bước xử lí số liệu trên máy tính Quá trình xử lí trên máy tính để tạo ra bàn đồ phương ngữ gồm có 6 bước Khi có được bảng từ đối chiếu giữa các phương ngữ, các bước tiếp theo sẽ như sau: Bước 1: Thu thập dữ liệu Bước 2: Khảo dữ liệu (data inspection), bao gồm việc xây dựng bản đồ chỉ số (index map), xem xét tổng quan dữ liệu (data overview), xây dựng bàn đồ phân bố ban đầu (distribution maps) Bước 3: Đo đạc khoảng cách ngôn ngữ (measurement of linguistic distances), bao gồm: - phiên âm ngữ âm học - cân chinh chuồi (string alignments) - khoảng cách mục từ (item distances) - tổng hợp (aggregation) - ma trận khoảng cách (distance matrix) Bước 4: Xác định sự khác biệt ngôn ngữ (linguistic differences), gồm: - xây dựng bản đồ về sự khác biệt ngôn ngữ (difference maps) - so sánh với khoảng cách địa lí - xây dựng bản đồ điểm tham chiếu (reference point maps) Bước 5: Phân tích thống kê và lập bản đồ (statistical analyses and mappings) - thang đo đa chiều (multidimensional scaling) - gom nhóm riêng rẽ (discrete clustering) - gom nhóm hỗn hợp (fuzzy clustering) - công nhận nhóm (cluster validation) Bước 6: Khai thác dữ liệu (data mining) - xác định các định tố nhóm (cluster determinants) - xây dựng bàn đồ phân bố (distribution maps) 2.3 Thống kê theo thang đo đa chiểu Thang đo đa chiều (multidimensional scaling) là một kiểu thống kê được sử dụng để nghiên cứu các vùng chuyển tiếp (dialect continua) Thang đo đa chiều là một kỳ thuật trình bày khoảng 44 I Ngôn ngữ số 1 năm 2023 cách giữa các đối tượng, được đo từ một tập hợp các biến thể được mã hóa trong một ma trận khoảng cách, với một tập hợp các vị trí có liên hệ Điều quan trọng cần lưu ý ở đây thang đo đa chiều sẽ cung cấp một phương pháp toán học để định vị các đối tượng cần so sánh (ngôn ngữ hoặc phương ngữ) trong một không gian hình học được xác định bởi hai hoặc nhiều trục Mục đích của việc dùng thang đo đa chiều là cung cấp một cách trình bày trực quan về mẫu khoảng cách giữa một tập hợp các yếu tố Khoảng cách ngôn ngữ tổng hợp giữa các cặp đôi được phân tích và một tập hợp các điểm trong không gian chiều thấp được trả về sao cho khoảng cách giữa các điểm xấp xỉ bằng khoảng cách ban đầu Khi áp dụng cho việc phân tích dữ liệu phương ngữ, thang đo đa chiều thường giải thích ít nhất khoảng 90% tổng số biến thể trong dữ liệu [11, 15], Kết quả được trình bày trên đồ thị có hệ tọa độ Descartes VỊ trí hai điểm càng gần nhau thì khác biệt ngôn ngữ càng nhỏ Khi áp dụng thủ pháp cân chỉnh khoảng cách chuỗi để đo khoảng cách ngôn ngữ trong tập dữ liệu, khoảng cách giữa hai phương ngữ được tính toán cho tất cả các biến thể được dùng trong khảo sát phương ngữ Sau đó, khoảng cách tổng hợp giữa hai phương ngữ được tính là mức trung bình của tất cả các khoảng cách biến thể 2.4 Vùng chuyển tiếp phương ngữ Vùng chuyển tiếp phương ngữ (Dialect continuum) là khu vực có sự lan truyền của các biến thể ngôn ngữ được sử dụng trong hai khu vực tiếp giáp nhau sao cho các biến thể ở đường tiếp giáp chỉ khác nhau ít nhất có thể Tuy vậy, sự khác biệt thường được tích lũy theo khoảng cách Người dân ở khu vực lân cận thường dễ hiểu phát âm của nhau Còn người dân ở khu vực xa hơn sẽ thấy khó hiểu hơn Ở các vùng có cư dân định cư lâu đời, vùng chuyển tiếp phương ngữ xuất hiện khi sự thay đổi mới lan rộng từ các điểm xuất phát khác nhau dưới dạng sóng Trong tình huống này, việc phân loại các biến thể theo nhóm là không thực tế Thay vào đó, các nhà phương ngữ học lập bản đồ ghi chú biến đổi của các đặc điểm ngôn ngữ khác nhau trên một vùng chuyển tiếp phương ngữ, vẽ các đường đồng ngữ giữa các khu vực khác nhau theo một số đặc điểm [5], Như vậy, để xác định được đường đồng ngữ cần yếu tố tiên quyết là định vị vùng phương ngữ Thực tế cho thấy, ngôn ngữ luôn vận động với sự di cư, giao thoa văn hoá vùng miền Do đó, xác định vùng phương ngữ theo cách truyền thống [2] sẽ vô hình chung loại bỏ những biểu hiện vận động đương đại của ngữ âm địa phương THPN với sự rộng mở của dữ liệu đầu vào cho phép nhà nghiên cứu có thể miêu tả sâu sắc, chi tiết từng biến thể địa phương Đường đồng ngữ hay bó đường đồng ngữ nếu có sẽ được xác định Điều quan trọng là nhà nghiên cứu có thể tính toán được sự phân bố của các biến thể để xác định được đâu là đường đồng ngữ hội tụ 3 Áp dụng THPN trong nghiên cứu phương ngữ tiếng Việt 3.1 Thí dụ một nghiên cứu phương ngữ tiếng Việt theo hướng THPN Nhằm minh họa cho kĩ thuật THPN, chúng tôi sử dụng 1 bảng hỏi 44 từ khảo sát tại 7 địa phương khác nhau Kết quả phân tích độ khác biệt của 44 từ này tại 7 địa phương có thể thấy ở Sơ đồ 1 Trắc học phương ngữ, I 45 Sơ đồ ỉ Sơ đồ nhánh về độ khác biệt giữa các giọng ở Việt Nam Trong Sơ đồ 1, sự khác về ngữ âm đã được so sánh trên các cặp giọng địa phương, trên cơ sở so sánh đối chiếu một khu vực với toàn thể các khu vực khác nhàm chỉ ra mức độ của sự khác biệt Mồi một khu vực được tính đến mối tương quan chặt hay lỏng với khu vực liền kề hay bất kì khu vực nào khác trên lãnh thổ Việt Nam trên cơ sở số liệu ngôn ngữ Cặp giọng Lý Sơn, Quảng Ngãi có độ khác biệt 0.011 Với trị số khác biệt này, ngữ âm Lý Sơn và Quảng Ngãi tương đồng cao nhất khi so với các khu vực khác Cặp giọng Sài Gòn và Trà Vinh có trị số khác biệt là 0.021, cao hơn so với cặp Lý Sơn, Quảng Ngãi Theo thang độ, giọng Huế có khác biệt ngôn ngừ cao hơn nên được xếp vào nhánh lớn hơn Cở sở của việc thiết lập sơ đồ nhánh phương ngừ này là trị số độ khác biệt của các phương ngữ Điểm quy về gốc của các phương ngữ sẽ là 2 nhánh lớn Nhờ sơ đồ này, nhà nghiên cứu có thể nhận định khái quát về mối liên hệ ngôn ngữ giữa các phương ngữ Quan sát sơ đồ 1, chúng ta có thể dễ dàng xác định được phương ngữ nào có điểm tương đồng hoặc điểm khác biệt cao nhất so với một phương ngữ bất kì Theo bảng 1, nếu chọn giọng Hà Nội làm tiêu điểm so sánh, thì giọng Nghệ An có tương đồng với giọng Hà Nội cao nhất (0.034) Giọng Quảng Ngãi có độ sai biệt cao nhất (0.238) Xét về nhóm phương ngữ, cặp giọng Hà Nội và Nghệ An có độ sai biệt lớn nhất so với các giọng còn lại Mỗi một giọng được xác định vị trí trong sơ đồ nhánh nhờ thông số dị biệt Các giọng có nhiều điểm tương đồng với nhau hơn thì được xếp cùng nhóm Độ sai biệt về khoảng cách ngôn ngữ được tính trong thang độ từ 0.00 đến 0.240 Như vậy, có thể chia phương ngữ tiếng Việt thành hai nhóm chính Trong mỗi nhóm lại có các nhánh thổ ngữ Tất cả các thổ ngữ đều có thể được tính toán dị biệt qua sơ đồ nhánh Bảng 1 Bàng thống kê khác biệt ngôn ngữ giữa các phương ngữ tiếng Việt Sài Gòn Hà Nội Huế Quảng Ngãi Lí Sơn Trà Vinh Nghệ An Sài Gòn 0.000 0.228 0.080 0.082 0.071 0.021 0.210 Hà Nội 0.228 0.000 0.157 0.238 0.228 0.226 0.034 Huế 0.080 0.157 0.000 0.089 0.079 0.090 0.130 Quảng Ngãi 0.082 0.238 0.089 0.000 0.011 0.092 0.214 Lý Sơn 0.071 0.228 0.079 0.011 0.000 0.080 0.204 Trà Vinh 0.021 0.226 0.090 0.092 0.080 0.000 0.208 Nghệ An 0.210 0.034 0.130 0.214 0.204 0.208 0.000 46 I Ngôn ngữ số 1 năm 2023 Trong bảng 1, mỗi giọng được đối chiếu về khoảng cách ngôn ngữ với tất cà các giọng còn lại Đây là dữ liệu cơ sờ để thiết lập các bảng biêu, sơ đô, bản đô phương ngữ Các công trình nghiên cứu về phương ngữ trước đây chưa tính đến các thông số sai biệt ngôn ngữ giữa các phương ngữ Biểu đồ 1 Biểu đồ tương ứng khác biệt ngôn ngữ với khoảng cách địa líphương ngữ Quan sát Biểu đồ 1, sự khác biệt phương ngữ có sự chênh lệch lớn từ Nghệ An đến Lý Sơn Tuy nhiên, cũng có những cặp phương ngữ có vị trí địa lí gần nhau và độ khác biệt phương ngữ không cao như cặp phương ngữ Hà Nội - Nghệ An, Lý Sơn - Quảng Ngãi, Sài Gòn - Trà Vinh Theo chiều dài địa lí Việt Nam, Trà Vinh là điểm xa nhất nhưng không phải là nơi có sự khác biệt cao nhất so với Hà Nội Phương ngữ có sự khác biệt lớn nhất so với Hà Nội là Quảng Ngãi Điều này cho thấy, sự khác biệt về ngôn ngữ không hoàn toàn tỉ lệ thuận với khoảng cách địa lí Bản đồ 1: Bản đồ phương ngữ tiếng Việt Dựa trên số liệu thu thập và thông qua các bước xử lí của THPN, chúng tôi xây dựng được các bản đồ phương ngữ tiếng Việt Quan sát trên Bản đồ 1, có thể dễ dàng nhận ra điểm khác biệt theo thang độ màu sắc Từ bản đồ này, có thể phân nhóm các thổ ngữ vào các phương ngữ chính Giọng Hà Nội được đối chiếu lần lượt với 6 giọng địa phương còn lại - là các đối tưựng của nghiên cửu Màu hiển thị ở mồi vùng cho thấy sự khác biệt ngữ âm Tất cả những sự khác biệt về màu trên bàn đồ phương ngữ đều là kết quả của việc tính toán độ sai biệt giữa các biến thể với hằng thể Màu sắc này được chọn theo chuẩn RGB Hai vùng có nhiều tưotig đồng ngữ âm sẽ có màu sắc gần giống nhau và ngược lại Do đó, tuỳ vào sự biểu hiện đa dạng của biến thể ngữ âm ở các khu vực, THPN sẽ đo đạc và trực quan hoá dữ liệu ngữ âm phương ngữ Trắc học phương ngữ I 47 Bản đồ 1 Bàn đồ mối liên hệ giữa các phương ngữ Bản đồ 2 cho thấy các cặp phương ngữ có tiếng Việt tương đông ngữ âm như cặp phương ngữ Hà Nội - Nghệ An, Quảng Ngãi - Lý Sơn, Sài Gòn - Trà Vinh Phương ngữ tiếng Việt vốn chứa đựng một lượng lớn các biến thể phát âm ở các vùng khác nhau trong cùng một lãnh thổ của ngôn ngữ Tất cả các cặp biến thể này đều được so sánh để đo đạc khoảng cách hội tụ giữa các biến thể phương ngữ Rõ ràng là qua quan sát bản đồ này, người đọc có thể nhận ra mối liên hệ về ngôn ngữ giữa từng cặp phương ngữ về mặt chi tiết, từng biến thể cụ thể có thể được hiển thị trực quan trên bản đồ phương ngữ Ví dụ: mục từ “tay” giọng Hà Nội được dùng để so sánh lần lượt với các địa phương còn lại theo cách thức các âm tiết của các giọng địa phương đều lấy giọng Hà Nội làm điểm đối chiếu Ha Noi - Sai Gon Ha Noi - Ly Son ■■ ° Sau đó, các kết quả này được tổng hợp lại và tiến hành xử lí các thuật toán, ma trận để cho ra kết quả tổng hợp Sự khác biệt của âm tiết “tay” giọng Hà Nội được quy ra con số khi so với giọng địa phương khác Neu hai địa phương giống nhau thì kết quả so sánh là 0 Khác biệt nhiều hơn thì số sẽ tăng lên So sánh âm tiết “tay”, giọng Hà Nội và giọng Sài Gòn có khác biệt ở âm chính nên quy ra giá trị 1 Tiếp tục so sánh với giọng Quàng Ngãi thì kết quả là 2 vì có 2 sự khác biệt Các biến thể có thể được kiểm tra xem sự phân bổ của nó trên các phương ngữ như thế nào Mỗi một biến thể sẽ được thể hiện trên một bản đồ giúp tiện cho việc quan sát Ví dụ, người nghiên cứu có thể kiểm tra sự phân bố biến thể từ “cắt” Kết quà cho thấy ở Huế, Sài Gòn và Trà Vinh đều có biến thể [kăk] tương ứng Trong Bàn đồ 3 bên dưới, biến thể [kăk] cho biết màu tương ứng của các vùng 48 I Ngôn ngữ số ỉ năm 2023 đồng nghĩa với biến thể phân bố giống nhau Tương tự cách này, các biến thể khác có thể được kiểm tra xem có bao nhiêu biến thể cho một âm vị và sự phân bố của chúng trên bản đồ địa lí như thế nào o Hà Nội o Nghệ An Lý Sơn ° o Quàng Ngãi Bàn đồ 3 Sự phân bố của biến thể [kăk] Hình 2 Trục thang đo đa chiềuphương ngữ tiếng Việt ở các phương ngữ CÓ thể quan sát trục được đánh dấu bởi mũi tên đứt quãng chia thành hai khu vực, giọng Hà Nội, Vinh với phần còn lại như ví dụ ở Hình 2 Thang đo đa chiều trình bày két quả của ma trận khoảng cách giữa các thổ ngữ dựa trên thang đo hai chiều Các điểm càng gần nhau thì có sự khác biệt ngôn ngữ càng nhỏ và ngược lại Đường kẽ mũi tên phân chia các nhóm thổ ngữ Sự không đồng nhất của thổ ngữ dựa trên ý tưởng phương ngữ ở một địa điểm ít khác với phương ngữ gần nó, so với phương ngữ của một địa điểm khác, vẫn ở vùng lân cận, nhưng xa hơn một chút Sự khác biệt giữa các địa điểm cách xa nhau về mặt địa lí bị loại bỏ, bời vì có thể mức độ trùng họp ngẫu nhiên được tính đến Mũi tên liền mạch được dùng chỉ vùng 1 Mũi tên đứt quãng chỉ vùng 2 Giá trị biến thể thấp tương ứng với vị trí gốc của mũi tên Ở vị trí đầu mũi tên, tương ứng với giá trị biến thể cao Trong cà 2 vùng, ở điểm gốc mũi tên đứt quãng và mũi tên liền mạch đều có giá trị thấp Ở đỉnh mũi tên, các phương ngữ sẽ có sự chia sẻ một số đặc điểm ngữ âm cho nhau lớn hơn ở điểm gốc mũi tên Trắc học phương ngữ I 49 Như vậy, vùng 1 phác họa những khác biệt cơ bản, chung của tất cả các phương ngữ đang xét Vùng 2 sẽ đi sâu vào từng khác biệt cụ thể giữa các phương ngữ Nhờ đó, các kết quả về ranh giới phương ngữ trở nên dễ dàng quan sát hơn khi được trực quan trên các bản đồ phương ngữ Mặc dù biểu hiện ngữ âm ngôn ngữ mang tính tự nhiên, rất phong phú các biến thể, nhưng dưới góc độ một nhà nghiên cứu, họ luôn muốn khái quát lên những điểm tiêu biểu cho từng vùng phương ngữ Với thủ pháp Thang đo đa chiều, các nhà ngôn ngữ có thể bổ sung thêm những chi tiết cho các đặc điểm ngữ âm phương ngữ qua các vùng được đánh dấu bằng màu sắc Bởi tính không thống nhất của địa phương mà chúng ta có thể dùng nhiều phép đo đạc cho một khu vực Kết quả đo đạc phụ thuộc rất lớn vào địa lí của khu vực và sự phân bố của các biến thể 3.2 Mức độ áp dụng THPN và những hạn chế Thủ pháp THNP sẽ càng chính xác nếu như số lượng các đơn vị ngữ âm khảo sát ngày càng lớn và nhiều tham số khác của người nói được đưa vào thang đo Đặc điểm đa biến (variatism) của thủ pháp này dựa trên các tiền đề của NNHXH, bao gồm các tham tố có thể khai thác như giới tính, tuổi tác Lí do nằm ở chồ việc xác định các đặc điểm phương ngữ học của các yếu tố ngôn ngữ từ trước đến nay đều theo khuynh hướng tiêu thể, nghĩa là lấy các đặc trưng chung, khái quát, đại diện làm đặc trưng mô tả Như vậy, càng nhiều đơn vị được khảo sát, càng nhiều tham tố của người nói được đưa vào đo, thì khả năng đưa ra kết quà chính xác càng cao Chính vì vậy, một số hạn chế của THPN sẽ có thể được nhận ra khi dữ liệu khảo sát không đủ lớn, hoặc khi các phương ngữ/thổ ngữ được khảo sát nằm trong những vùng chuyển tiếp và có các đường đồng ngữ phức tạp Một khó khăn nữa là việc xác định khoảng cách địa lí giữa các khu vực cận kề nhau với những vùng phương ngữ khó xác định tâm 4 Kết luận Việc nghiên cứu ngữ âm phương ngữ luôn cần có những cứ liệu ngữ âm như bản phiên âm IPA, các tệp tin thu âm để tiện cho việc kiểm tra lại của các nhà nghiên cứu ngữ âm khác Nghiên cứu này đã kiểm chứng nét đặc trưng phương ngữ một cách có hệ thống Tuỳ theo vùng miền, biến thể ngữ âm đều có độ lệch chuẩn nhất định và theo quy luật phân bố Khi áp dụng thủ pháp nghiên cứu Khoảng cách Levenshtein và các phần mềm hỗ trợ, nhà nghiên cứu có thể tính toán được khoảng cách ngôn ngữ giữa các phương ngữ, thổ ngữ Các bàn đồ phương ngữ Tiếng Việt nhờ đó có thể sẽ được xây dựng một cách có cơ sở hơn, chứa các thông tin cần thiết cho người nghiên cứu phương ngữ Đặc trưng ngữ âm các phương ngữ tiếng Việt đều có thể được số hoá Sự phân bố của mỗi một biến thể ngôn ngữ đều có thể được đánh dấu trên bản đồ Sự khác biệt về ngôn ngữ giữa các thổ ngữ thể hiện trực quan hơn trên sơ đồ nhánh Điều quan trọng là với THPN, người nghiên cứu có thể xử lí nguồn dữ liệu phương ngữ rất lớn và phức tạp Tóm lại, khi dùng thủ pháp nghiên cứu của THPN, nhà nghiên cứu sẽ có được góc nhìn trực quan, sinh động về bức tranh phương ngữ của tiếng Việt Hơn nữa, người nghiên cứu có thể so sánh các ngôn ngữ trong nhóm với nhau để tìm những dấu vết ngữ âm lịch sử 50 I Ngôn ngữ số ỉ năm 2023 PHỤ LỤC Bảng từ 7 địa phương được khảo sát 1 23 4 5 6 7 8 9 10 11 12 13 14 15 hoa qua sa va gia oan cau cao suy hoe khuya khoai rô toa luân Sài Gòn wa wa sa ja ja wag kaw kaw si he fie faj go to lit) Hà Nội hwa kwa ga va za ?wan kăw kaw §wi hwe %wie /waj zo twa lwõn Huế hwa kwa sa va ja wag kaw kaw si he %wie xwaj ro to lwõn Quảng Ngãi wa wa sa ja ja wag kaw kaw si he /wie %waj ro to lwõn Lý Sơn wa wa sa ja ja wag kaw kaw si he xwie %waj ro to lwõn Trà Vinh wa wa sa ja ja wag kaw kaw si he fie faj go to líi) Nghệ An hwa kwa ga va za ?wan kăw kaw gwi hwe xwie xwaj ro twa lwõn 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 xuất nêm đất Cơm bên chết bệnh kênh hưu chuối tra cắt tươi buồm làm Sài Gòn xit nim dăk kom bon cok bịp kịp hu cuj ta kăk ti bom lam Hà Nội xwõt nem dot kom ben cet bẹp keji hiw cuoj ca kãt tioj buom lam Huế xít nim dõt kom bon cok bịp kịp hiw cuj ta kăk tioj bom lam Quảng Ngãi xit nim dăk kom bon cok bip kip hu cuj ta kek ti bim lom Lý Sơn xit nim dăk kom bon cok bip kíp hu cuj ta kek ti bim lom Trà Vinh xit nim dầk kom bon cok bịp kịp hu cuj ta kăk ti bom lam Nghệ An xwăt nem dot kom ben cet bẹp kẹp hiw cuoj ca kăt tioj buom lam 31 32 33 34 35 36 37 38 39 40 41 42 43 44 tay tiên tương tăm tan tang tạt trơ it quay tre in tóc xoăn Sài Gòn taj ciw nik ăỊ) tag tag tak to ic wăj t£ ịn tok săn Hà Nội tăj ciew niok ăn tan tag tat co it kwăj CE in tok swan Huế tăj ciw nik ãi) tag tag tak to ic wăj t£ ĩn tok swăn eg tag tog tak tow ic wăj t£ ịn tak seg Quảng Ngãi te ciw nik CT) tag tog tak tỏw ic wăj t£ ìn tok săn Lý Sơn te ciw nik ăg tag tag tak to ic waj te ặ) tok săn Trà Vinh taj ciw nik Nghệ An tăj ciew niok ăn tag tag tat co it wăj t£ ặ) tok swăn Trắc học phưong ngữ I 51 TÀI LIỆU THAM KHẢO Tiếng Việt 1 Trần Thị Thúy An, Vài đặc điểm ngữ âm thổ ngữ Lí Sơn, Quảng Ngãi, Ngôn ngữ & Đời sống, 2015 2 Hoàng Thị Châu, Phương ngữ học tiếng Việt, Đại học Quốc gia Hà Nội, 2004 3 Andrea Hoa Pham, Sự biến âm trong vần tiếng Việt: Thổ ngữ làng Hến, huyện Đức Thọ, tinh Hà Tĩnh, Ngôn Ngữ, 11,7-26,2016 4 Vũ Thị Thắng, Bức tranh vềphương ngữ trong địa danh Thanh Hóa, Ngôn ngữ & Đời sống, số 3 (221), 2014 Tiếng Anh 5 Chambers J.K., Trudgill p., Dialectology, 2 ed, Cambridge, Cambridge University Press, 1998 6 Gooskens c., Heeringa w., Perceptive evaluation ofLevenshtein dialect distance measurements using Norwegian dialect data, Language variation change, 16 (3), 189-207,2004 7 Heeringa W.J., Measuring dialect pronunciation differences using levenshtein distance, University Library Groningen, 2004 8 Kessler B., Computational dialectology in Irish Gaelic, EACL, 1995 (Dublin) 9 Kondrak G., Phonetic alignment and similarity, Computers the Humanities, 37 (3), 273-91, 2003 10 Kruskal J.B., An overview of sequence comparison: Time warps, string edits, and macromolecules, SIAM review, 1983, 25 (2), 201-37 11 Leinonen T.N., An acoustic analysis of vowel pronunciation in Swedish dialects, Rijksuniversiteit Groningen, 2010 12 Nerbonne J., Data-driven dialectology, Language Linguistics Compass, 2009, 3 (1), 175-98 13 Osenova p., Heringa w., Nerbonne J., A Quantitative analysis of Bulgarian dialect pronunciation, Zeitschrift fur slavische Philologie, 2009, 66 (2), 425 14 Thompson L.C., A Vietnamese grammar, Seattle, University of Washington, 1965 15 Valls E., Nerbonne J., Prokic J., Wieling M., Clua E., Lloret M-R., Applying the levenshtein distance to Catalan dialects: A brief comparison of two dialectometric approaches, Anuario Galego de Filoloxia, Verba, 39, 35-61,2012 16 Séguy J., La dialectométrie dans I'Atlas linguistique de la Gascogne, Société de linguistique romane, 1973 17 About Google Earth Pro Mapping & Analytics Platform [Internet], 2019 Available from: Available: https://www.esri.com/en-us/Google Earth Pro/about-Google Earth Pro/overview

Ngày đăng: 14/03/2024, 20:07

Tài liệu cùng người dùng

Tài liệu liên quan