Kinh Tế - Quản Lý - Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Thiên Nhiên - Natural NGÔN NGỮ SÓ 1 2023 TRẮC HỌC PHƯƠNG NGỮ VÀ VIỆC NGHIÊN CỨU PHƯƠNG NGỮ HỌC ĐỊA LÍ Ở VIỆT NAM NGUYỀN TRÀN QUÝ1 ĐINH Lư GIANG2 NGUYÊN HUỲNH LÂM3 Abstract: Dialectometrics is a quantitative and computational branch of Dialectology that uses techniques to measure the distances and similarities between dialects andor suo-dialects, and build the dialectal distribution maps. The quantitative results may cover consonnants, vowels, syllable duration and can be classified into scales and groups. In Dialectometrics, many calculative procedures and softwares can be used. For instance, Levenshetein Distance uses matrices to calculate digitalized values. This paper introduces Dialectometrics and suggests research directions in Vietnamese geo-dialectology. Keywords: dialectometrics, geo-dialectology, Vietnamese dialects 1. Đặt vấn đề Việc nghiên cứu ngữ âm phương ngữ tiếng Việt trước đây thường dựa trên các kết quả miêu tả hơn là khảo sát thực nghiệm, trong đó có cả những kết CỊuả mang tính cảm CỊuan của nhà nghiên cứu. Mặc dù các kết quả nghiên cứu phương ngữ học tiếng Việt từ trước đến nay rõ ràng là đã đóng góp không nhỏ cho sự hiểu biết về sự khác biệt của các biến ngôn ngữ, tuy vậy, vẫn còn những vấn đề cần nghiên cứu, mà việc điền dã, ghi chép mô tả, phân chia vùng phươngthổ ngữ dường như cân thêm sô liệu minh chứng. Khi nghiên cứu phương ngữ, quan điêm của mỗi nhà nghiên cứu đôi khi có tính quyết định. Chẳng hạn việc phân nhóm các biến thể ngữ âm bởi vì sự hoà lẫn, đan xen giữa các nhóm biến thể trên phạm vi phân bố là điều không dễ dàng. Nhưng về cơ bản vẫn cần dựa trên vị trí địa lí để thống kê và mô tả các biến thể. Từ năm 1982, một số nhà phương ngữ học đã áp dụng trắc học phương ngữ (Dialectometry, viết tắt THPN) cho việc thống kê định lượng sự khác biệt ngữ âm giữa các phương ngữ. THPN được các nhà phương ngữ học dùng như một phương pháp đo đạc, định lượng sự khác biệt về ngữ âm giữa các phương ngữ. Phương pháp này giúp cụ thể hoá, số hoá khối liệu lớn và có thể làm cơ sở cho việc xây dựng bản đồ phương ngữ 13, THPN được phục vụ chủ yếu cho việc mô tả phân bố các phương ngữ và mức độ tương đồng phương ngữ (Similarities). Dựa vào các thuật toán và thủ pháp khoảng cách (Levenshtein Distance), người nghiên cứu có thể lập bản đồ phương ngữ và thể hiện chi tiết các thông số trên bản đồ. Tất nhiên, dữ liệu đầu vào phải là các kết quả nghiên cứu điền dã. Sau khi tính toán, chúng tôi dùng phần mềm Google earth pro 17 để vẽ các bản đồ. Ưu điểm của phần mềm này là có độ chính xác cao với ảnh chụp từ vệ tinh và có thể đo được khoảng cách địa lí. Người đọc có thể dễ dàng theo dõi diễn biến của phương ngữ thông qua sơ đồ phân nhóm. ''''Nghiên cứu được tài trợ bởi Bộ Khoa học Công nghệ trong khuôn khổ Chương trình “Hỗ trợ nghiên cứu, phát triển và ứng dụng công nghệ của công nghiệp 4.0” mã so: KC-4.019-25 ’’2’3 Trường Đại học Khoa học Xã hội và Nhân văn - Đại học Quốc gia Thành phố Hồ Chí Minh. 40 I Ngôn ngữ số ỉ năm 2023 Các biến thể được xếp vào các nhóm từ lớn đến nhỏ dựa vào tiêu chí độ lệch chuẩn. Lúc này, chúng ta sẽ nhận thấy không phải ranh giới phương ngữ lúc nào cũng trùng với ranh giới địa lí. THPN không chỉ tập trung vào các phân tích tổng hợp, mà thay vào đó triển khai nhiều kĩ thuật đê xác định các đặc điêm đại diện và khác biệt của các phương ngữ. Nhờ việc sô hoá dữ liệu ngữ âm phương ngữ, nhà nghiên cứu có thể tính toán được điểm khác biệt của phương ngữ trên cơ sở tông hợp các yêu tô ngôn ngữ xã hội như giới tính, độ tuôi, trình độ văn hoá. Với các ưu điểm của THPN, người nghiên cứu có thể tính toán được một cách số hoá dữ liệu ngữ âm phương ngữ ở Việt Nam. Bên cạnh việc vẽ nên bức tranh phương ngữ, nhà nghiên cứu có thê dựa trên cơ sở chung là các thuật toán đo đạc để xác định mối liên hệ của một biến thể trong tương quan với toàn bộ các biến thể còn lại. Bài viết này trình bày những hiểu biết của nhóm tác giả về THPN và chọn mẫu nghiên cứu là các cộng tác viên có cùng độ tuổi và giới tính. Dữ liệu đầu vào là các bảng từ phiên âm các giọng nói của 7 địa phương bao gồm: Hà Nội, Nghệ An, Huế, Quảng Ngãi, Lý Sơn, Sài Gòn, Trà Vinh. Trong nghiên cứu này, chúng tôi tạm thời chưa đề cập đến truyên thông phân vùng phương ngữ của các tác giả đi trước mà chỉ khảo sát và minh họa cho thủ pháp THPN. Bảng từ điều tra gồm 44 âm tiết cơ bản. Các loại biến thể được quan tâm khảo sát là 4 thành phần của cấu trúc âm tiết tiếng Việt: âm đầu, âm đệm, âm chính, âm cuối. Dữ liệu bảng điều tra phươnẹ ngữ được sưu tập từ các công trình đã công bố của các tác giả trước đâỵ 3, 2, 14, 1, 4. Điều kiện để chọn cộng tác viên của các tác giả này là cộng tác viên có số năm cư trú lâu dài ở địa phương, có bố, mẹ là người địa phương và ít di chuyển, sinh sốnẹ ở vùng khác, số lượng cộng tác viên của mỗi vùng là 32 (16 nữ), với độ tuổi từ 18 đên 55 và đêu có trình độ học vân 1212. Nghê nghiệp của cộng tác viên là nông dân, công nhân và nhân viên văn phòng. Các vùng được khảo sát như sau: quận Hoàn Kiếm, thành phố Hà Nội; thành phố Vinh, tỉnh Nghệ An; huyện Sơn Tịnh, tỉnh Quảng Ngãi; huyện đảo Lý Sơn, tỉnh Quảng Ngãi; thành phố Hồ Chí Minh (Sài Gòn); thành phố Trà Vinh, tỉnh Trà Vinh. Dựa vào kinh nghiệm điền dã của bản thân, chúng tôi có bổ sung thêm các biến thể phương ngữ thành phố Hồ Chí Minh. Yếu tố chuyển cư của cộng tác viên chưa được đề cập trong khảo sát này. Việc phiên âm được dùnẹ theo chuẩn IPA nhưng loại phần thanh điệu ra vì mục tiêu của bài viết này tập trung vào biến thể của các âm vị đoạn tính. 2. Tổng quan về trắc học phương ngữ THPN là một nhánh của phương ngữ học, được khởi xướng nhờ hai tác giả J. Séguy và Hans Goebl từ năm 1970 16, THPN có đặc trưng là việc dùng máy tính và các mô hình thống kê để tính toán số liệu trong nghiên cứu phương ngữ. Nhờ THPN, bản đồ phương ngữ sẽ là cơ sở dữ liệu lưu giữ các thông tin phương ngữ với khối lượng đồ sộ. Các phân loại của THPN giúp trừu tượng hoá các đặc trưng ngôn ngữ, hay cụ thể hoá một nhận định qua số liệu cụ thê. THPN có thể xử lí dữ liệu lớn, phức tạp bởi các biến thể trải rộng khắp cấu trúc âm tiết (âm đầu, âm chính, âm cuối). Mục tiêu tổng hợp sự khác biệt phương ngữ được hiện thực hoá qua số liệu thống kê các mẫu. Theo phương pháp nghiên cứu phương ngữ truyền thống, các nhà nghiên cứu tập trung nhiều vào miêu tả chi tiết các biến thể của một phương ngữ, thổ ngữ nào đó mà ít chú ý đến mối liên hệ chung giữa các biến thể vùng miền của một ngôn ngữ. Bước tiến của J. Séguy là tiến hành đếm sự khác biệt trong tập dữ liệu. Kết quả khác biệt từ các nhóm được tổng hợp lại dựa trên các cặp phương ngữ, thổ ngữ. Trên bản đồ phương ngữ, người xem có thể nhận biết sự khác biệt tổng thể và sự khác biệt cá thể của một phương ngữ. Trắc học phương ngữ... I 41 THPN đóng góp thành tựu về kĩ thuật nhận dạng các mẫu nghiên cứu phương ngữ. Với đầu vào là bàn phiên âm hay sô liệu, mô hình phân tích sẽ được chạy trên máy tính để tính toán theo yêu cầu của nhà nghiên cứu. Trong giai đoạn đầu, THPN được xem là một thủ pháp (technique), đã được thử nghiệm trên khu vực nói tiếng Occitan ở vùng Catalonia. Năm 1995, tác giả Kessler giới thiệu việc sử dụng Khoảng cách Levenshtein như một công cụ đo đạc của THPN 8, Nhà nghiên cứu Kessler đã áp dụng thành công cho việc nghiên cứu các phương ngữ của tiếng Ai Len. Kessler và Nerbonne đã đóng góp một thủ pháp đo khoảng cách ngôn ngữ bằng số. Sau đó, thủ pháp này đã được đã được kiểm chứng và áp dụng rộng rãi 6. Trong nghiên cứu của một số tác giả sau đó, thuật toán Khoảng cách Levenshtein được dùng để so sánh biến thể của tiếng Hà Lan và Na Uy. Tác giả Heeringa cũng có bài viết về ứng dụng thuật toán này cho việc nghiên cứu phương ngữ Sardinia ở Địa Trung Hải 7, Nhờ sự phát triển của công nghệ, một sổ kĩ thuật tính toán hiện đại dùng cho ngôn ngữ học đã được vận dụng. THPN được phát triển thêm mô hình cân chỉnh, xác định nguồn gốc của các biến thể trong tập dữ liệu 9. Các nhà nghiên cứu tiền nhiệm đã có suy nghĩ về hạn chế của phương pháp nghiên cứu phương ngữ truyền thống, cần có lời giải đáp cho vấn đề khuếch tán ngôn ngữ, về những giới hạn của những khác biệt và tương đồng giữa các vùng phương ngữ lân cận 5, Để trả lời câu hỏi này, THPN đã được phát triển và mở rộng hơn nhằm thực hiện các mục tiêu của phương ngữ học. Trước đây, các nhà nghiên cứu phương ngữ chỉ có thể tập trung vào địa lí để giải thích sự biến đổi của ngôn ngữ. Giờ đây, với sự hỗ trợ của các thủ pháp trong THPN, việc nghiên cứu có thể bao quát được các yếu tố địa lí, ngôn ngữ và xã hội. Sự khác biệt giữa các phương ngữ được chỉ ra qua các yếu tố như: tuổi tác, giới tính, vị trí địa lí. THPN cũng được áp dụng trong nghiên cứu ngôn ngữ học lịch đại. Nhờ những ưu điểm của việc số hoá dữ liệu, phân nhánh này đã đóng góp thêm cơ sở lí thuyết vào việc so sánh các phương ngữ và góp phần miêu tả chi tiết hơn sự khuếch tán phương ngữ. Tác giả Nerbonne chi ra rằng sự tổng hợp biến thể ngôn ngữ trong một tập dữ liệu, đều được chấp nhận bởi tất cả các biến thể trong tập dữ liệu đó 12. Các đặc trưng của biến thể cá nhân đều có tính gây nhiễu. Nếu chi căn cứ vào biến thể của cá nhân mà không dùng các phép tính, thuật toán để chuẩn hoá, so sánh thì kết quà sẽ mang tính chủ quan. 2.1. Khoảng cách Levenshtein Khoảng cách Levenshtein là một giá trị số quy ước cho việc chèn, xóa hoặc thay thế cần thiết để chuyển đổi một chuỗi kí tự này sang một chuỗi kí tự khác 10. Kĩ thuật đơn giản nhất là so sánh chuồi âm tố. Trong phương pháp này, tất cà các thao tác có cùng quy ước số. Chúng ta có thể đo khoảng cách giữa hai chuỗi kí tự phiên âm ngôn ngữ. Thuật toán Levenshtein cho phép chúng ta đo chính xác và tính đên sự khác biệt hoặc tương đồng giữa những cách phát âm khác nhau của một từ. Để xác định hai chuỗi khác nhau như thế nào, cần thực hiện các thao tác như sau: - Xoá: xoá một thành phần của chuỗi; - Thay thế: thay thế một thành phần của chuỗi này bằng một thành phần của chuồi khác; - Chèn: chêm một thành phần khác vào chuỗi. 42 I Ngôn ngữ số 1 năm 2023 Ví dụ: so sánh từ “đồng ý” trong tiếng Phần Lan, giữa phương ngữ Lyngby có từ ?e:ni với từ e:ma của phương ngữ Helsinki 7. Lỵngby ?e:ni xoá ? 1 e:ni thay thế i bàng I 1 e:m chèn a 1 Helsinki e:nia 3 1 2 3 4 5 Helsinki Lungby ? e: e: n n i I a xoá thay thế chèn Khoảng cách chưa cân chỉnh: 3 Khoảng cách đã cân chỉnh: 35 = 0.6 hoặc 60 Khi so sánh hai chuồi âm tố, Kessler tính khoảng cách Levenshtein không chỉ khi các từ là biến thể ngữ âm của nhau, mà cả khi chúng khác biệt về mặt từ vựng. Tác giả Kessler gọi đây là cách tiếp cận toàn thể từ (all word). Như vậy, thủ pháp Levenshtein áp dụng được cho cả việc đối sánh ngữ âm và từ vựng. Trong phần này, chúng tôi minh hoạ cách tính khoảng cách Levenshtein trên cơ sở các phát âm có cùng nghĩa “buồm”. Tạm gọi bam là SI và buom là S2. số lượng chiết đoạn (âm tố) trong SI là m và trong S2 là n. Chúng ta thấy rằng m = 3 và n = 4. Khoảng cách Levenshtein tính toán giá trị tối thiểu cần thiết để thay đổi SI thành S2. Đổ thực hiện điều này, một ma trận có kích thước (m + 1, n + 1) được áp dụng. Các hàng được đánh số từ 0.. .m và các cột từ 0... n. Khoảng cách ô 0,0 nhận giá trị 0. Chúng ta đi qua hàng dist của ma trận, gán giá trị cho các ô khác. Bắt đầu bằng hàng 0 và trong mỗi hàng, chúng tôi luôn bắt đầu với cột 0 (chỉ trong hàng zero chúng tôi bắt đầu với cột đầu tiên), số hàng hiện tại là i và số cột hiện tại là j. Công thức tính khoảng cách như sau: disi J1 X100 '''' '''' long dist: khoảng cách dif: sự khác biệt k: biến thể long: chiều dài Trắc học phương ngữ... I 43 Khoảng cách ngôn ngữ giữa hai biến thể (i, j) là kết quả của sự tổng hợp những khác biệt giữa chúng liên quan đên một biên thê ngôn ngữ k và phân chia chúng theo chiêu dài của môi mục từ được so sánh. Sau đó, cần phải cân chỉnh các chuỗi âm vị của dữ liệu sao cho các nguyên âm sẽ được so sánh với các nguyên âm và các phụ âm so sánh với các phụ âm. Khoảng cách giữa hai chuỗi, sau đó được thiêt lập băng cách so sánh từng kí tự: nêu các kí tự giông nhau tại một vị trí phù hợp trong mỗi chuỗi, khoảng cách sẽ có kết quả là 0. Nếu cân chinh hai kí tự khác nhau thì khoảng cách sẽ được đo bằng 1. Khoảng cách giữa hai chuỗi là tổng của khoảng cách kí tự. 2.2. Các bước xử lí số liệu trên máy tính Quá trình xử lí trên máy tính để tạo ra bàn đồ phương ngữ gồm có 6 bước. Khi có được bảng từ đối chiếu giữa các phương ngữ, các bước tiếp theo sẽ như sau: Bước 1: Thu thập dữ liệu Bước 2: Khảo dữ liệu (data inspection), bao gồm việc xây dựng bản đồ chỉ số (index map), xem xét tổng quan dữ liệu (data overview), xây dựng bàn đồ phân bố ban đầu (distribution maps) Bước 3: Đo đạc khoảng cách ngôn ngữ (measurement of linguistic distances), bao gồm: - phiên âm ngữ âm học - cân chinh chuồi (string alignments) - khoảng cách mục từ (item distances) - tổng hợp (aggregation) - ma trận khoảng cách (distance matrix) Bước 4: Xác định sự khác biệt ngôn ngữ (linguistic differences), gồm: - xây dựng bản đồ về sự khác biệt ngôn ngữ (difference maps) - so sánh với khoảng cách địa lí - xây dựng bản đồ điểm tham chiếu (reference point maps) Bước 5: Phân tích thống kê và lập bản đồ (statistical analyses and mappings) - thang đo đa chiều (multidimensional scaling) - gom nhóm riêng rẽ (discrete clustering) - gom nhóm hỗn hợp (fuzzy clustering) - công nhận nhóm (cluster validation) Bước 6: Khai thác dữ liệu (data mining) - xác định các định tố nhóm (cluster determinants) - xây dựng bàn đồ phân bố (distribution maps) 2.3. Thống kê theo thang đo đa chiểu Thang đo đa chiều (multidimensional scaling) là một kiểu thống kê được sử dụng để nghiên cứu các vùng chuyển tiếp (dialect continua). Thang đo đa chiều là một kỳ thuật trình bày khoảng 44 I Ngôn ngữ số 1 năm 2023 cách giữa các đối tượng, được đo từ một tập hợp các biến thể được mã hóa trong một ma trận khoảng cách, với một tập hợp các vị trí có liên hệ. Điều quan trọng cần lưu ý ở đây thang đo đa chiều sẽ cung cấp một phương pháp toán học để định vị các đối tượng cần so sánh (ngôn ngữ hoặc phương ngữ) trong một không gian hình học được xác định bởi hai hoặc nhiều trục. Mục đích của việc dùng thang đo đa chiều là cung cấp một cách trình bày trực quan về mẫu khoảng cách giữa một tập hợp các yếu tố. Khoảng cách ngôn ngữ tổng hợp giữa các cặp đôi được phân tích và một tập hợp các điểm trong không gian chiều thấp được trả về sao cho khoảng cách giữa các điểm xấp xỉ bằng khoảng cách ban đầu. Khi áp dụng cho việc phân tích dữ liệu phương ngữ, thang đo đa chiều thường giải thích ít nhất khoảng 90 tổng số biến thể trong dữ liệu 11, 15, Kết quả được trình bày trên đồ thị có hệ tọa độ Descartes. VỊ trí hai điểm càng gần nhau thì khác biệt ngôn ngữ càng nhỏ. Khi áp dụng thủ pháp cân chỉnh khoảng cách chuỗi để đo khoảng cách ngôn ngữ trong tập dữ liệu, khoảng cách giữa hai phương ngữ được tính toán cho tất cả các biến thể được dùng trong khảo sát phương ngữ. Sau đó, khoảng cách tổng hợp giữa hai phương ngữ được tính là mức trung bình của tất cả các khoảng cách biến thể. 2.4. Vùng chuyển tiếp phương ngữ Vùng chuyển tiếp phương ngữ (Dialect continuum) là khu vực có sự lan truyền của các biến thể ngôn ngữ được sử dụng trong hai khu vực tiếp giáp nhau sao cho các biến thể ở đường tiếp giáp chỉ khác nhau ít nhất có thể. Tuy vậy, sự khác biệt thường được tích lũy theo khoảng cách. Người dân ở khu vực lân cận thường dễ hiểu phát âm của nhau. Còn người dân ở khu vực xa hơn sẽ thấy khó hiểu hơn. Ở các vùng có cư dân định cư lâu đời, vùng chuyển tiếp phương ngữ xuất hiện khi sự thay đổi mới lan rộng từ các điểm xuất phát khác nhau dưới dạng ...
Trang 1NGÔN NGỮ
NGUYỀN TRÀN QUÝ1 ĐINH Lư GIANG2 NGUYÊN HUỲNH LÂM3 Abstract: Dialectometrics is a quantitative and computational branch ofDialectology that uses
techniques to measure the distances and similarities between dialects and/or suo-dialects, and build the dialectal distribution maps. The quantitative results may cover consonnants, vowels, syllableduration and
can be classified into scales and groups In Dialectometrics, many calculativeprocedures and softwares can
be used For instance, Levenshetein Distance uses matrices to calculate digitalized values This paper
introduces Dialectometrics andsuggests research directions in Vietnamese geo-dialectology.
Keywords: dialectometrics, geo-dialectology, Vietnamese dialects
1 Đặt vấn đề
Việc nghiên cứu ngữ âm phương ngữ tiếng Việt trước đây thường dựa trên các kết quả miêu
tả hơn là khảo sát thực nghiệm, trong đó có cả những kết CỊuả mang tính cảm CỊuan của nhà nghiên cứu Mặc dù các kết quả nghiên cứu phương ngữ học tiếng Việt từ trước đến nay rõ ràng là đã đóng góp không nhỏ cho sự hiểu biết về sự khác biệt của các biến ngôn ngữ, tuy vậy, vẫn còn những vấn đề cần nghiên cứu, mà việc điền dã, ghi chép mô tả, phân chia vùng phương/thổ ngữ dường như cân thêm sô liệu minh chứng Khi nghiên cứu phương ngữ, quan điêm của mỗi nhà nghiên cứu đôi khi có tính quyết định Chẳng hạn việc phân nhóm các biến thể ngữ âm bởi vì sự hoà lẫn, đan xen giữa các nhóm biến thể trên phạm vi phân bố là điều không dễ dàng Nhưng về cơ bản vẫn cần dựa trên vị trí địa lí để thống kê và mô tả các biến thể
Từ năm 1982, một số nhà phương ngữ học đã áp dụng trắc học phương ngữ (Dialectometry, viết tắt THPN) cho việc thống kê định lượng sự khác biệt ngữ âm giữa các phương ngữ THPN được các nhà phương ngữ học dùng như một phương pháp đo đạc, định lượng sự khác biệt về ngữ
âm giữa các phương ngữ Phương pháp này giúp cụ thể hoá, số hoá khối liệu lớn và có thể làm cơ
sở cho việc xây dựng bản đồ phương ngữ [13], THPN được phục vụ chủ yếu cho việc mô tả phân
bố các phương ngữ và mức độ tương đồng phương ngữ (Similarities) Dựa vào các thuật toán và thủ pháp khoảng cách (Levenshtein Distance), người nghiên cứu có thể lập bản đồ phương ngữ và thể hiện chi tiết các thông số trên bản đồ Tất nhiên, dữ liệu đầu vào phải là các kết quả nghiên cứu điền dã Sau khi tính toán, chúng tôi dùng phần mềm Google earth pro [17] để vẽ các bản đồ
Ưu điểm của phần mềm này là có độ chính xác cao với ảnh chụp từ vệ tinh và có thể đo được khoảng cách địa lí Người đọc có thể dễ dàng theo dõi diễn biến của phương ngữ thông qua sơ đồ phân nhóm
'Nghiên cứu được tài trợ bởi Bộ Khoa học Công nghệ trong khuôn khổ Chương trình “Hỗ trợnghiên cứu, phát
triển và ứng dụng công nghệ của công nghiệp 4.0” mã so: KC-4.0/19-25
’’2’3 Trường Đại học Khoa học Xã hội và Nhân văn - Đại học Quốc gia Thành phố Hồ Chí Minh
Trang 2Các biến thể được xếp vào các nhóm từ lớn đến nhỏ dựa vào tiêu chí độ lệch chuẩn Lúc này, chúng ta sẽ nhận thấy không phải ranh giới phương ngữ lúc nào cũng trùng với ranh giới địa lí THPN không chỉ tập trung vào các phân tích tổng hợp, mà thay vào đó triển khai nhiều kĩ thuật đê xác định các đặc điêm đại diện và khác biệt của các phương ngữ Nhờ việc sô hoá dữ liệu ngữ âm phương ngữ, nhà nghiên cứu có thể tính toán được điểm khác biệt của phương ngữ trên
cơ sở tông hợp các yêu tô ngôn ngữ xã hội như giới tính, độ tuôi, trình độ văn hoá Với các ưu điểm của THPN, người nghiên cứu có thể tính toán được một cách số hoá dữ liệu ngữ âm phương ngữ ở Việt Nam Bên cạnh việc vẽ nên bức tranh phương ngữ, nhà nghiên cứu có thê dựa trên cơ
sở chung là các thuật toán đo đạc để xác định mối liên hệ của một biến thể trong tương quan với toàn bộ các biến thể còn lại
Bài viết này trình bày những hiểu biết của nhóm tác giả về THPN và chọn mẫu nghiên cứu
là các cộng tác viên có cùng độ tuổi và giới tính Dữ liệu đầu vào là các bảng từ phiên âm các giọng nói của 7 địa phương bao gồm: Hà Nội, Nghệ An, Huế, Quảng Ngãi, Lý Sơn, Sài Gòn, Trà Vinh Trong nghiên cứu này, chúng tôi tạm thời chưa đề cập đến truyên thông phân vùng phương ngữ của các tác giả đi trước mà chỉ khảo sát và minh họa cho thủ pháp THPN Bảng từ điều tra gồm 44 âm tiết cơ bản Các loại biến thể được quan tâm khảo sát là 4 thành phần của cấu trúc âm tiết tiếng Việt: âm đầu, âm đệm, âm chính, âm cuối Dữ liệu bảng điều tra phươnẹ ngữ được sưu tập từ các công trình đã công bố của các tác giả trước đâỵ [3], [2], [14], [1], [4] Điều kiện để chọn cộng tác viên của các tác giả này là cộng tác viên có số năm cư trú lâu dài ở địa phương, có bố,
mẹ là người địa phương và ít di chuyển, sinh sốnẹ ở vùng khác, số lượng cộng tác viên của mỗi vùng là 32 (16 nữ), với độ tuổi từ 18 đên 55 và đêu có trình độ học vân 12/12 Nghê nghiệp của cộng tác viên là nông dân, công nhân và nhân viên văn phòng Các vùng được khảo sát như sau: quận Hoàn Kiếm, thành phố Hà Nội; thành phố Vinh, tỉnh Nghệ An; huyện Sơn Tịnh, tỉnh Quảng Ngãi; huyện đảo Lý Sơn, tỉnh Quảng Ngãi; thành phố Hồ Chí Minh (Sài Gòn); thành phố Trà Vinh, tỉnh Trà Vinh Dựa vào kinh nghiệm điền dã của bản thân, chúng tôi có bổ sung thêm các biến thể phương ngữ thành phố Hồ Chí Minh Yếu tố chuyển cư của cộng tác viên chưa được đề cập trong khảo sát này Việc phiên âm được dùnẹ theo chuẩn IPA nhưng loại phần thanh điệu ra
vì mục tiêu của bài viết này tập trung vào biến thể của các âm vị đoạn tính
2 Tổng quan về trắc học phương ngữ
THPN là một nhánh của phương ngữ học, được khởi xướng nhờ hai tác giả J Séguy và Hans Goebl từ năm 1970 [16], THPN có đặc trưng là việc dùng máy tính và các mô hình thống kê để tính toán số liệu trong nghiên cứu phương ngữ Nhờ THPN, bản đồ phương ngữ sẽ là cơ sở dữ liệu lưu giữ các thông tin phương ngữ với khối lượng đồ sộ Các phân loại của THPN giúp trừu tượng hoá các đặc trưng ngôn ngữ, hay cụ thể hoá một nhận định qua số liệu cụ thê
THPN có thể xử lí dữ liệu lớn, phức tạp bởi các biến thể trải rộng khắp cấu trúc âm tiết (âm đầu, âm chính, âm cuối) Mục tiêu tổng hợp sự khác biệt phương ngữ được hiện thực hoá qua số liệu thống kê các mẫu Theo phương pháp nghiên cứu phương ngữ truyền thống, các nhà nghiên cứu tập trung nhiều vào miêu tả chi tiết các biến thể của một phương ngữ, thổ ngữ nào đó mà ít chú ý đến mối liên hệ chung giữa các biến thể vùng miền của một ngôn ngữ
Bước tiến của J Séguy là tiến hành đếm sự khác biệt trong tập dữ liệu Kết quả khác biệt từ các nhóm được tổng hợp lại dựa trên các cặp phương ngữ, thổ ngữ Trên bản đồ phương ngữ, người xem có thể nhận biết sự khác biệt tổng thể và sự khác biệt cá thể của một phương ngữ
Trang 3Trắc học phương ngữ I 41
THPN đóng góp thành tựu về kĩ thuật nhận dạng các mẫu nghiên cứu phương ngữ Với đầu vào là bàn phiên âm hay sô liệu, mô hình phân tích sẽ được chạy trên máy tính để tính toán theo yêu cầu của nhà nghiên cứu
Trong giai đoạn đầu, THPN được xem là một thủ pháp (technique), đã được thử nghiệm trên khu vực nói tiếng Occitan ở vùng Catalonia Năm 1995, tác giả Kessler giới thiệu việc sử dụng Khoảng cách Levenshtein như một công cụ đo đạc của THPN [8], Nhà nghiên cứu Kessler đã áp dụng thành công cho việc nghiên cứu các phương ngữ của tiếng Ai Len Kessler và Nerbonne đã đóng góp một thủ pháp đo khoảng cách ngôn ngữ bằng số Sau đó, thủ pháp này đã được đã được kiểm chứng và áp dụng rộng rãi [6]
Trong nghiên cứu của một số tác giả sau đó, thuật toán Khoảng cách Levenshtein được dùng
để so sánh biến thể của tiếng Hà Lan và Na Uy Tác giả Heeringa cũng có bài viết về ứng dụng thuật toán này cho việc nghiên cứu phương ngữ Sardinia ở Địa Trung Hải [7], Nhờ sự phát triển của công nghệ, một sổ kĩ thuật tính toán hiện đại dùng cho ngôn ngữ học đã được vận dụng THPN được phát triển thêm mô hình cân chỉnh, xác định nguồn gốc của các biến thể trong tập dữ liệu [9] Các nhà nghiên cứu tiền nhiệm đã có suy nghĩ về hạn chế của phương pháp nghiên cứu phương ngữ truyền thống, cần có lời giải đáp cho vấn đề khuếch tán ngôn ngữ, về những giới hạn của những khác biệt và tương đồng giữa các vùng phương ngữ lân cận [5], Để trả lời câu hỏi này, THPN đã được phát triển và mở rộng hơn nhằm thực hiện các mục tiêu của phương ngữ học Trước đây, các nhà nghiên cứu phương ngữ chỉ có thể tập trung vào địa lí để giải thích sự biến đổi của ngôn ngữ Giờ đây, với sự hỗ trợ của các thủ pháp trong THPN, việc nghiên cứu có thể bao quát được các yếu tố địa lí, ngôn ngữ và xã hội Sự khác biệt giữa các phương ngữ được chỉ ra qua các yếu tố như: tuổi tác, giới tính, vị trí địa lí
THPN cũng được áp dụng trong nghiên cứu ngôn ngữ học lịch đại Nhờ những ưu điểm của việc số hoá dữ liệu, phân nhánh này đã đóng góp thêm cơ sở lí thuyết vào việc so sánh các phương ngữ và góp phần miêu tả chi tiết hơn sự khuếch tán phương ngữ Tác giả Nerbonne chi ra rằng sự tổng hợp biến thể ngôn ngữ trong một tập dữ liệu, đều được chấp nhận bởi tất cả các biến thể trong tập dữ liệu đó [12] Các đặc trưng của biến thể cá nhân đều có tính gây nhiễu Nếu chi căn cứ vào biến thể của cá nhân mà không dùng các phép tính, thuật toán để chuẩn hoá, so sánh thì kết quà sẽ mang tính chủ quan
2.1 Khoảng cách Levenshtein
Khoảng cách Levenshtein là một giá trị số quy ước cho việc chèn, xóa hoặc thay thế cần thiết
để chuyển đổi một chuỗi kí tự này sang một chuỗi kí tự khác [10] Kĩ thuật đơn giản nhất là so sánh chuồi âm tố Trong phương pháp này, tất cà các thao tác có cùng quy ước số Chúng ta có thể
đo khoảng cách giữa hai chuỗi kí tự phiên âm ngôn ngữ Thuật toán Levenshtein cho phép chúng
ta đo chính xác và tính đên sự khác biệt hoặc tương đồng giữa những cách phát âm khác nhau của một từ Để xác định hai chuỗi khác nhau như thế nào, cần thực hiện các thao tác như sau:
- Xoá: xoá một thành phần của chuỗi;
- Thay thế: thay thế một thành phần của chuỗi này bằng một thành phần của chuồi khác;
- Chèn: chêm một thành phần khác vào chuỗi
Trang 4Ví dụ: so sánh từ “đồng ý” trong tiếng Phần Lan, giữa phương ngữ Lyngby có từ [?e:ni] với
từ [e:ma] của phương ngữ Helsinki [7]
e:ni thaythế i
bàng I
1
3
Helsinki Lungby
e:
n n
i I
a
Khoảng cách chưa cân chỉnh: 3
Khoảng cách đã cân chỉnh: 3/5 = 0.6 hoặc 60 %
Khi so sánh hai chuồi âm tố, Kessler tính khoảng cách Levenshtein không chỉ khi các từ là biến thể ngữ âm của nhau, mà cả khi chúng khác biệt về mặt từ vựng Tác giả Kessler gọi đây là cách tiếp cận toàn thể từ (all word) Như vậy, thủ pháp Levenshtein áp dụng được cho cả việc đối sánh ngữ âm và từ vựng
Trong phần này, chúng tôi minh hoạ cách tính khoảng cách Levenshtein trên cơ sở các phát
âm có cùng nghĩa “buồm” Tạm gọi [bam] là SI và [buom] là S2 số lượng chiết đoạn (âm tố) trong SI là m và trong S2 là n Chúng ta thấy rằng m = 3 và n = 4 Khoảng cách Levenshtein tính toán giá trị tối thiểu cần thiết để thay đổi SI thành S2 Đổ thực hiện điều này, một ma trận có kích thước (m + 1, n + 1) được áp dụng Các hàng được đánh số từ 0 m và các cột từ 0 n Khoảng cách ô [0,0] nhận giá trị 0 Chúng ta đi qua hàng dist của ma trận, gán giá trị cho các ô khác Bắt đầu bằng hàng 0 và trong mỗi hàng, chúng tôi luôn bắt đầu với cột 0 (chỉ trong hàng zero chúng tôi bắt đầu với cột đầu tiên), số hàng hiện tại là i và số cột hiện tại là j
Công thức tính khoảng cách như sau:
dist: khoảng cách
dif: sự khác biệt
k: biến thể
long: chiều dài
Trang 5Trắc học phương ngữ I 43
Khoảng cách ngôn ngữ giữa hai biến thể (i, j) là kết quả của sự tổng hợp những khác biệt giữa chúng liên quan đên một biên thê ngôn ngữ k và phân chia chúng theo chiêu dài của môi mục từ được so sánh Sau đó, cần phải cân chỉnh các chuỗi âm vị của dữ liệu sao cho các nguyên âm sẽ được so sánh với các nguyên âm và các phụ âm so sánh với các phụ âm Khoảng cách giữa hai chuỗi, sau
đó được thiêt lập băng cách so sánh từng kí tự: nêu các kí tự giông nhau tại một vị trí phù hợp trong mỗi chuỗi, khoảng cách sẽ có kết quả là 0 Nếu cân chinh hai kí tự khác nhau thì khoảng cách sẽ được đo bằng 1 Khoảng cách giữa hai chuỗi là tổng của khoảng cách kí tự
2.2 Các bước xử lí số liệu trên máy tính
Quá trình xử lí trên máy tính để tạo ra bàn đồ phương ngữ gồm có 6 bước Khi có được bảng
từ đối chiếu giữa các phương ngữ, các bước tiếp theo sẽ như sau:
Bước 1: Thu thập dữ liệu
Bước 2: Khảo dữ liệu (data inspection), bao gồm việc xây dựng bản đồ chỉ số (index map), xem xét tổng quan dữ liệu (data overview), xây dựng bàn đồ phân bố ban đầu (distribution maps)
Bước 3: Đo đạc khoảng cách ngôn ngữ (measurement of linguistic distances), bao gồm:
- phiên âm ngữ âm học
- cân chinh chuồi (string alignments)
- khoảng cách mục từ (item distances)
- tổng hợp (aggregation)
- ma trận khoảng cách (distance matrix)
Bước 4: Xác định sự khác biệt ngôn ngữ (linguistic differences), gồm:
- xây dựng bản đồ về sự khác biệt ngôn ngữ (difference maps)
- so sánh với khoảng cách địa lí
- xây dựng bản đồ điểm tham chiếu (reference point maps)
Bước 5: Phân tích thống kê và lập bản đồ (statistical analyses and mappings)
- thang đo đa chiều (multidimensional scaling)
- gom nhóm riêng rẽ (discrete clustering)
- gom nhóm hỗn hợp (fuzzy clustering)
- công nhận nhóm (cluster validation)
Bước 6: Khai thác dữ liệu (data mining)
- xác định các định tố nhóm (cluster determinants)
- xây dựng bàn đồ phân bố (distribution maps)
2.3 Thống kê theo thang đo đa chiểu
Thang đo đa chiều (multidimensional scaling) là một kiểu thống kê được sử dụng để nghiên cứu các vùng chuyển tiếp (dialect continua) Thang đo đa chiều là một kỳ thuật trình bày khoảng
Trang 6cách giữa các đối tượng, được đo từ một tập hợp các biến thể được mã hóa trong một ma trận khoảng cách, với một tập hợp các vị trí có liên hệ Điều quan trọng cần lưu ý ở đây thang đo đa chiều sẽ cung cấp một phương pháp toán học để định vị các đối tượng cần so sánh (ngôn ngữ hoặc phương ngữ) trong một không gian hình học được xác định bởi hai hoặc nhiều trục
Mục đích của việc dùng thang đo đa chiều là cung cấp một cách trình bày trực quan về mẫu khoảng cách giữa một tập hợp các yếu tố Khoảng cách ngôn ngữ tổng hợp giữa các cặp đôi được phân tích và một tập hợp các điểm trong không gian chiều thấp được trả về sao cho khoảng cách giữa các điểm xấp xỉ bằng khoảng cách ban đầu Khi áp dụng cho việc phân tích dữ liệu phương ngữ, thang đo đa chiều thường giải thích ít nhất khoảng 90% tổng số biến thể trong dữ liệu [11, 15], Kết quả được trình bày trên đồ thị có hệ tọa độ Descartes VỊ trí hai điểm càng gần nhau thì khác biệt ngôn ngữ càng nhỏ
Khi áp dụng thủ pháp cân chỉnh khoảng cách chuỗi để đo khoảng cách ngôn ngữ trong tập dữ liệu, khoảng cách giữa hai phương ngữ được tính toán cho tất cả các biến thể được dùng trong khảo sát phương ngữ Sau đó, khoảng cách tổng hợp giữa hai phương ngữ được tính là mức trung bình của tất cả các khoảng cách biến thể
2.4 Vùng chuyển tiếp phương ngữ
Vùng chuyển tiếp phương ngữ (Dialect continuum) là khu vực có sự lan truyền của các biến thể ngôn ngữ được sử dụng trong hai khu vực tiếp giáp nhau sao cho các biến thể ở đường tiếp giáp chỉ khác nhau ít nhất có thể Tuy vậy, sự khác biệt thường được tích lũy theo khoảng cách Người dân ở khu vực lân cận thường dễ hiểu phát âm của nhau Còn người dân ở khu vực xa hơn sẽ thấy khó hiểu hơn
Ở các vùng có cư dân định cư lâu đời, vùng chuyển tiếp phương ngữ xuất hiện khi sự thay đổi mới lan rộng từ các điểm xuất phát khác nhau dưới dạng sóng Trong tình huống này, việc phân loại các biến thể theo nhóm là không thực tế Thay vào đó, các nhà phương ngữ học lập bản
đồ ghi chú biến đổi của các đặc điểm ngôn ngữ khác nhau trên một vùng chuyển tiếp phương ngữ,
vẽ các đường đồng ngữ giữa các khu vực khác nhau theo một số đặc điểm [5],
Như vậy, để xác định được đường đồng ngữ cần yếu tố tiên quyết là định vị vùng phương ngữ Thực tế cho thấy, ngôn ngữ luôn vận động với sự di cư, giao thoa văn hoá vùng miền Do đó, xác định vùng phương ngữ theo cách truyền thống [2] sẽ vô hình chung loại bỏ những biểu hiện vận động đương đại của ngữ âm địa phương
THPN với sự rộng mở của dữ liệu đầu vào cho phép nhà nghiên cứu có thể miêu tả sâu sắc, chi tiết từng biến thể địa phương Đường đồng ngữ hay bó đường đồng ngữ nếu có sẽ được xác định Điều quan trọng là nhà nghiên cứu có thể tính toán được sự phân bố của các biến thể để xác định được đâu là đường đồng ngữ hội tụ
3 Áp dụng THPN trong nghiên cứu phương ngữ tiếng Việt
3.1 Thí dụ một nghiên cứu phương ngữ tiếng Việt theo hướng THPN
Nhằm minh họa cho kĩ thuật THPN, chúng tôi sử dụng 1 bảng hỏi 44 từ khảo sát tại 7 địa phương khác nhau Kết quả phân tích độ khác biệt của 44 từ này tại 7 địa phương có thể thấy ở Sơ đồ 1
Trang 7Trắc học phương ngữ, I 45
Sơ đồ ỉ Sơ đồ nhánh về độ khác biệt giữa các giọng ở Việt Nam
Trong Sơ đồ 1, sự khác về ngữ âm đã được so sánh trên các cặp giọng địa phương, trên cơ
sở so sánh đối chiếu một khu vực với toàn thể các khu vực khác nhàm chỉ ra mức độ của sự khác biệt Mồi một khu vực được tính đến mối tương quan chặt hay lỏng với khu vực liền kề hay bất kì khu vực nào khác trên lãnh thổ Việt Nam trên cơ sở số liệu ngôn ngữ Cặp giọng Lý Sơn, Quảng Ngãi có độ khác biệt 0.011 Với trị số khác biệt này, ngữ âm Lý Sơn và Quảng Ngãi tương đồng cao nhất khi so với các khu vực khác Cặp giọng Sài Gòn và Trà Vinh có trị số khác biệt là 0.021, cao hơn so với cặp Lý Sơn, Quảng Ngãi Theo thang độ, giọng Huế có khác biệt ngôn ngừ cao hơn nên được xếp vào nhánh lớn hơn Cở sở của việc thiết lập sơ đồ nhánh phương ngừ này là trị số
độ khác biệt của các phương ngữ Điểm quy về gốc của các phương ngữ sẽ là 2 nhánh lớn Nhờ
sơ đồ này, nhà nghiên cứu có thể nhận định khái quát về mối liên hệ ngôn ngữ giữa các phương ngữ Quan sát sơ đồ 1, chúng ta có thể dễ dàng xác định được phương ngữ nào có điểm tương đồng hoặc điểm khác biệt cao nhất so với một phương ngữ bất kì Theo bảng 1, nếu chọn giọng
Hà Nội làm tiêu điểm so sánh, thì giọng Nghệ An có tương đồng với giọng Hà Nội cao nhất (0.034) Giọng Quảng Ngãi có độ sai biệt cao nhất (0.238) Xét về nhóm phương ngữ, cặp giọng
Hà Nội và Nghệ An có độ sai biệt lớn nhất so với các giọng còn lại Mỗi một giọng được xác định
vị trí trong sơ đồ nhánh nhờ thông số dị biệt Các giọng có nhiều điểm tương đồng với nhau hơn thì được xếp cùng nhóm Độ sai biệt về khoảng cách ngôn ngữ được tính trong thang độ từ 0.00 đến 0.240 Như vậy, có thể chia phương ngữ tiếng Việt thành hai nhóm chính Trong mỗi nhóm lại có các nhánh thổ ngữ Tất cả các thổ ngữ đều có thể được tính toán dị biệt qua sơ đồ nhánh
Bảng 1 Bàng thống kê khác biệt ngôn ngữ giữa các phương ngữ tiếng Việt
Sài Gòn Hà Nội Huế Quảng Ngãi Lí Sơn Trà Vinh Nghệ An
Trang 8Trong bảng 1, mỗi giọng được đối chiếu về khoảng cách ngôn ngữ với tất cà các giọng còn lại Đây là dữ liệu cơ sờ để thiết lập các bảng biêu, sơ đô, bản đô phương ngữ Các công trình nghiên cứu về phương ngữ trước đây chưa tính đến các thông số sai biệt ngôn ngữ giữa các phương ngữ
Biểu đồ 1 Biểu đồ tương ứng khác biệt ngôn ngữ với khoảng cách địa lí phương ngữ
Quan sát Biểu đồ 1, sự khác biệt phương ngữ có sự chênh lệch lớn từ Nghệ An đến Lý Sơn Tuy nhiên, cũng có những cặp phương ngữ có vị trí địa lí gần nhau và độ khác biệt phương ngữ không cao như cặp phương ngữ Hà Nội - Nghệ An, Lý Sơn - Quảng Ngãi, Sài Gòn - Trà Vinh Theo chiều dài địa lí Việt Nam, Trà Vinh là điểm xa nhất nhưng không phải là nơi có sự khác biệt cao nhất so với Hà Nội Phương ngữ có sự khác biệt lớn nhất so với Hà Nội là Quảng Ngãi Điều này cho thấy, sự khác biệt về ngôn ngữ không hoàn toàn tỉ lệ thuận với khoảng cách địa lí
Bản đồ 1: Bản đồ phương ngữ tiếng Việt
Dựa trên số liệu thu thập và thông qua các bước xử lí của THPN, chúng tôi xây dựng được các bản đồ phương ngữ tiếng Việt Quan sát trên Bản đồ 1, có thể dễ dàng nhận ra điểm khác biệt theo thang độ màu sắc Từ bản đồ này, có thể phân nhóm các thổ ngữ vào các phương ngữ chính Giọng Hà Nội được đối chiếu lần lượt với
6 giọng địa phương còn lại - là các đối tưựng của nghiên cửu Màu hiển thị ở mồi vùng cho thấy sự khác biệt ngữ âm Tất cả những sự khác biệt về màu trên bàn đồ phương ngữ đều là kết quả của việc tính toán độ sai biệt giữa các biến thể với hằng thể Màu sắc này được chọn theo chuẩn RGB Hai vùng có nhiều tưotig đồng ngữ
âm sẽ có màu sắc gần giống nhau và ngược lại
Do đó, tuỳ vào sự biểu hiện đa dạng của biến thể ngữ âm ở các khu vực, THPN sẽ đo đạc và trực quan hoá dữ liệu ngữ âm phương ngữ
Trang 9Trắc học phương ngữ I 47
Bản đồ 1 Bàn đồ mối liên hệ giữa các phương ngữ
tiếng Việt
Bản đồ 2 cho thấy các cặp phương ngữ có tương đông ngữ âm như cặp phương ngữ Hà Nội
- Nghệ An, Quảng Ngãi - Lý Sơn, Sài Gòn - Trà Vinh Phương ngữ tiếng Việt vốn chứa đựng một lượng lớn các biến thể phát âm ở các vùng khác nhau trong cùng một lãnh thổ của ngôn ngữ Tất cả các cặp biến thể này đều được so sánh để đo đạc khoảng cách hội tụ giữa các biến thể phương ngữ Rõ ràng là qua quan sát bản đồ này, người đọc có thể nhận ra mối liên hệ về ngôn ngữ giữa từng cặp phương ngữ
về mặt chi tiết, từng biến thể cụ thể có thể được hiển thị trực quan trên bản đồ phương ngữ
Ví dụ: mục từ “tay” giọng Hà Nội được dùng để so sánh lần lượt với các địa phương còn lại theo cách thức các âm tiết của các giọng địa phương đều lấy giọng Hà Nội làm điểm đối chiếu
■■ °
Sau đó, các kết quả này được tổng hợp lại và tiến hành xử lí các thuật toán, ma trận để cho ra kết quả tổng hợp Sự khác biệt của âm tiết “tay” giọng Hà Nội được quy ra con số khi so với giọng địa phương khác Neu hai địa phương giống nhau thì kết quả so sánh là 0 Khác biệt nhiều hơn thì
số sẽ tăng lên So sánh âm tiết “tay”, giọng Hà Nội và giọng Sài Gòn có khác biệt ở âm chính nên quy ra giá trị 1 Tiếp tục so sánh với giọng Quàng Ngãi thì kết quả là 2 vì có 2 sự khác biệt Các biến thể có thể được kiểm tra xem sự phân bổ của nó trên các phương ngữ như thế nào Mỗi một biến thể sẽ được thể hiện trên một bản đồ giúp tiện cho việc quan sát Ví dụ, người nghiên cứu có thể kiểm tra sự phân bố biến thể từ “cắt” Kết quà cho thấy ở Huế, Sài Gòn và Trà Vinh đều có biến thể [kăk] tương ứng Trong Bàn đồ 3 bên dưới, biến thể [kăk] cho biết màu tương ứng của các vùng
Trang 10đồng nghĩa với biến thể phân bố giống nhau Tương tự cách này, các biến thể khác có thể được kiểm tra xem có bao nhiêu biến thể cho một âm vị và sự phân bố của chúng trên bản đồ địa lí như thế nào
Bàn đồ 3 Sự phân bố của biến thể [kăk]
ở các phương ngữ
o Hà Nội
o Nghệ An
Lý Sơn
° o
Quàng Ngãi
Hình 2 Trục thang đo đa chiều phương ngữ tiếng Việt
CÓ thể quan sát trục được đánh dấu bởi mũi tên đứt quãng chia thành hai khu vực, giọng Hà Nội, Vinh với phần còn lại như ví dụ ở Hình 2
Thang đo đa chiều trình bày két quả của ma trận khoảng cách giữa các thổ ngữ dựa trên thang
đo hai chiều Các điểm càng gần nhau thì có sự khác biệt ngôn ngữ càng nhỏ và ngược lại Đường
kẽ mũi tên phân chia các nhóm thổ ngữ
Sự không đồng nhất của thổ ngữ dựa trên ý tưởng phương ngữ ở một địa điểm ít khác với phương ngữ gần nó, so với phương ngữ của một địa điểm khác, vẫn ở vùng lân cận, nhưng xa hơn một chút Sự khác biệt giữa các địa điểm cách xa nhau về mặt địa lí bị loại bỏ, bời vì có thể mức
độ trùng họp ngẫu nhiên được tính đến
Mũi tên liền mạch được dùng chỉ vùng 1 Mũi tên đứt quãng chỉ vùng 2
Giá trị biến thể thấp tương ứng với vị trí gốc của mũi tên Ở vị trí đầu mũi tên, tương ứng với giá trị biến thể cao Trong cà 2 vùng, ở điểm gốc mũi tên đứt quãng và mũi tên liền mạch đều có giá trị thấp Ở đỉnh mũi tên, các phương ngữ sẽ có sự chia sẻ một số đặc điểm ngữ âm cho nhau lớn hơn ở điểm gốc mũi tên