Tạp chí Khoa học Đại học Huế: Khoa học Xã hội Nhân văn ISSN 2588-1213 Tập 130, Số 6A, 2021, Tr 123–130; DOI: 10.26459/hueunijssh.v130i6A.5744 MƠ HÌNH SO SÁNH CÁC VĂN BẢN TIẾNG VIỆT THEO ĐỘ KHÓ Nguyễn Sơn1, Hồ Viết Hoàng1, Đinh Điền2, Lương An Vinh2, Nguyễn Thị Như Điệp3 Trường Đại học Ngoại ngữ, Đại học Huế, 57 Nguyễn Khoa Chiêm, Huế, Việt Nam Trường Đại học Khoa học Tự Nhiên, ĐHQG - HCM Trường Đại học Khoa học Xã hội Nhân văn, ĐHQG - HCM Tóm tắt Độ khó văn số xác định văn dễ hay khó đọc mức Độ khó văn đóng vai trị vơ quan trọng việc soạn thảo, phát hành lựa chọn sách, đặc biệt lĩnh vực giáo dục Nghiên cứu độ khó văn quan tâm từ lâu chủ yếu cho tiếng Anh số ngôn ngữ phổ biến khác Trong báo này, chúng tơi trình bày phương pháp so sánh độ khó văn tiếng Việt với máy tính, sử dụng phân lớp SVM Bộ ngữ liệu sử dụng tác phẩm văn học Việt Nam đánh giá độ khó tương quan với thơng qua số người đọc Phương pháp khơng địi hỏi q nhiều chi phí để xây dựng ngữ liệu huấn luyện đạt độ xác xấp xỉ 80% Đây tiền đề cho việc so sánh lựa chọn văn cho phù hợp với trình độ đọc người đọc Từ khóa: độ khó văn bản, so sánh văn bản, tiếng Việt Giới thiệu Theo định nghĩa Bailin & Grafstein, độ khó văn độ đo xác định xem văn dễ hay khó đọc Độ khó văn phụ thuộc nhiều vào yếu tố ngôn ngữ cách dùng từ, ngữ, câu, phong cách văn bản… Độ khó văn có ảnh hưởng lớn trình đọc hiểu văn Dựa độ khó văn bản, độc giả xác định xem văn có phù hợp với khả đọc họ hay khơng Soạn giả sử dụng độ khó văn soạn thảo để định hình đối tượng độc giả có điều chỉnh cần thiết để văn họ phù hợp với đối tượng người đọc hướng đến [1] Xây dựng mơ hình đánh giá độ khó văn có ý nghĩa lớn khoa học thực tiễn: hỗ trợ nhà khoa học viết báo cáo dễ đọc hiểu hơn; hỗ trợ nhà làm giáo dục *Liên hệ: viethoang.vnh@gmail.com Nhận bài: 27-03-2020; Hoàn thành phản biện: 23-11-2020; Ngày nhận đăng: 10-12-2020 Nguyễn Sơn, Hồ Viết Hoàng cs Tập 130, Số 6A, 2021 soạn thảo giáo trình tài liệu phù hợp với lứa tuổi học sinh; hỗ trợ nhà xuất việc định hình đối tượng độc giả; hỗ trợ phủ soạn thảo văn quy phạm pháp luật cho phù hợp với trình độ đọc hiểu cơng dân; hỗ trợ nhà sản xuất việc chuẩn bị tài liệu hướng dẫn sử dụng sản phẩm họ… Ngồi ra, mơ hình xác định độ khó văn cịn hỗ trợ hiệu cho trình lựa chọn học liệu giảng dạy tiếng Việt cho người nước Các nghiên cứu độ khó văn thực từ năm đầu kỉ XX, hầu hết nghiên cứu thực tiếng Anh số ngôn ngữ phổ biến khác công thức Dale-Chall [2], Flesch [4], Flesch-Kincaid [6], SMOG [8], công trình Si Callan [12], Schwarm Ostendorf [11], Heilman cộng [5], Tanaka-Ishii cộng [13], Vajjala Meurers [14]… Trong tiếng Việt, khơng có nhiều nghiên cứu độ khó văn Một số nghiên cứu thực từ năm 1985 nhóm Nguyễn Henkin [9], [10] cho người Việt hải ngoại Năm 2017, khảo sát đặc trưng văn sách giáo khoa ngữ văn, nhóm tác giả Lương cộng yếu tố độ dài văn có ảnh hưởng lớn đến việc phân loại văn ngữ văn theo độ khó [7] Tuy nhiên, nguồn ngữ liệu mà nhóm Lương cộng khảo sát giới hạn văn sách giáo khoa phổ thông với độ khó có sẵn theo cấp lớp học Trong thực tế, nguồn ngữ liệu văn bên ngồi phong phú khơng có ràng buộc thời gian đọc giáo dục phổ thơng, nên cần có giải pháp khác để đánh giá độ khó văn Trong báo này, chúng tơi trình bày phương pháp so sánh độ khó văn tiếng Việt với Những văn ban đầu không cần có độ khó thuộc lớp mà cần độ khó tương quan với số văn khác Theo đó, phần cịn lại báo trình bày sau: phần trình bày đặc trưng văn mà chúng tơi sử dụng; phần trình bày thực nghiệm so sánh độ khó văn dựa đặc trưng nêu ra; phần kết luận nghiên cứu Đặc trưng sử dụng Chúng mô tả đặc trưng sử dụng để so sánh độ khó văn Các đặc trưng lựa chọn hầu hết thống kê hình thái, tần suất ngữ pháp mức từ Những đặc trưng rút trích cách tự động thơng qua cơng cụ máy tính để tự động hóa q trình so sánh văn Với đặc trưng mức cao ngữ pháp mức câu, ngữ nghĩa… có ảnh hưởng lớn tới độ khó văn bản, công cụ xử lý tự động cho tiếng Việt cịn nhiều hạn chế rút trích đặc trưng nên không sử dụng báo 124 Jos.hueuni.edu.vn Tập 130, Số 6A, 2021 Độ dài trung bình câu: Độ dài trung bình câu văn đặc trưng dễ thống kê phổ biến đánh giá độ khó văn Trong báo này, chúng tơi sử dụng độ dài trung bình câu tính theo từ theo tiếng Độ dài trung bình từ: Trong tiếng Việt, từ từ đơn tiết (chỉ có âm tiết) từ đa tiết (có từ âm tiết trở lên) Trong báo này, độ dài trung bình từ mà chúng tơi sử dụng tính theo số âm tiết Tỉ lệ từ khó văn bản: nhiều nghiên cứu, tỉ lệ từ khó văn đặc trưng quan trọng đánh giá độ khó văn Tuy nhiên, việc xây dựng danh sách từ khó tốn kém, đòi hỏi khảo sát lượng lớn người đọc với lượng lớn từ, hầu hết tác giả sử dụng danh sách tần số từ để thay cho danh sách từ khó với ý tưởng: từ mà có tần suất sử dụng cao nhiều khả từ từ dễ ngược lại Trong báo này, sử dụng danh sách 3.000 từ phổ biến tiếng Việt trích xuất từ thống kê nhóm tác giả Dien Dinh cộng [3] công bố vào năm 2018 Theo nhóm tác giả Dien Dinh cộng sự, 3.000 từ phổ biến chiếm tới gần 90% số lượng từ thường sử dụng văn tiếng Việt Trong nghiên cứu này, từ xuất danh sách 3.000 từ xem từ dễ, ngược lại, từ không xuất danh sách xem từ khó Tương tự, khơng có từ khó, chúng tơi lấy Tỉ lệ âm tiết khó làm đặc trưng nghiên cứu Chúng sử dụng danh sách 3.000 âm tiết phổ biến tiếng Việt trích xuất từ nghiên cứu nhóm tác giả Dien Dinh cộng [3] Tỉ lệ số từ Hán - Việt văn bản: Theo nhiều nghiên cứu, có 60% số từ vựng tiếng Việt có nguồn gốc từ tiếng Hán - từ mà gọi từ Hán - Việt Các từ Hán Việt thường sử dụng văn khoa học, văn kỹ thuật, văn có phong cách trang trọng, thức, từ Hán - Việt thường xem khó so với từ khác tiếng Việt Chính thế, tỉ lệ số từ Hán - Việt sử dụng nghiên cứu Tương tự, sử dụng thêm số danh sách từ mượn khác danh sách từ Pháp - Việt, Anh - Việt lúc với danh sách từ Hán - Việt để sử dụng làm đặc trưng tỉ lệ số từ mượn văn Tỉ lệ từ địa phương: Lãnh thổ Việt Nam trải dài 3.000km với nhiều vùng miền khác nhau, vùng có nét văn hóa cách sử dụng ngôn ngữ khác Nhiều vùng có từ mà thường sử dụng vùng mà khơng có nơi khác Chính thế, văn thơng thường, văn toàn dân, xuất từ ngữ địa phương ảnh hưởng tới độ khó văn 125 Nguyễn Sơn, Hồ Viết Hồng cs Tập 130, Số 6A, 2021 Tỉ lệ danh từ riêng: Trong văn bản, số lượng danh từ riêng (tên người, tên địa danh…) nhiều, người đọc cần phải tốn nhiều công sức để ghi nhớ nhận diện đầy đủ thực thể mà danh từ đề cập đến Chính vậy, tỉ lệ số danh từ riêng văn đặc trưng tốt để đánh giá độ khó văn Trong báo này, sử dụng thêm đặc trưng tương tự tỉ lệ danh từ riêng phân biệt từ vựng văn (số từ phân biệt văn bản) Với văn bản, chúng tơi trích xuất tất đặc trưng nêu làm vector đặc trưng văn để sử dụng bước thực nghiệm mô tả phần 3 Thực nghiệm Trong toán đánh giá độ khó văn bản, việc xây dựng ngữ liệu dùng để huấn luyện cần nhiều công sức bỏ ra: cần phải xác định xem văn thuộc mức độ khó Nếu chưa có thang đo làm chuẩn mực để xác định mức độ khó văn bản, phải khảo sát nhiều người đọc với độ tuổi, trình độ đọc khác để xác định xem nhóm người đọc đọc hiểu văn dùng nhóm làm để định mức độ khó văn Đó chưa kể đến số lượng văn cần phải đánh giá phải đủ lớn để huấn luyện phương pháp máy học Chúng sử dụng 200 văn thuộc lĩnh vực văn học thu thập thủ công từ nhiều trang web làm nguồn ngữ liệu ban đầu Nguyên nhân chủ yếu việc lựa chọn lĩnh vực văn học văn thuộc lĩnh vực dễ dàng thu thập người đọc không cần phải có nhiều kiến thức chuyên ngành để đọc hiểu nội dung văn lĩnh vực chuyên môn khác Các văn sau thu thập trải qua nhiều công đoạn tiền xử lý kiểm sửa lỗi tả, chuẩn hóa dấu thanh, chuẩn hóa bảng mã tiếng Việt, tách câu, tách từ tách dấu câu Bước kiểm sửa lỗi tả chúng tơi thực thủ cơng Các bước cịn lại, chúng tơi sử dụng cơng cụ “CLC_VN_Toolkit” Trung tâm Ngơn ngữ học Tính tốn1 phát triển Đây cơng cụ hỗ trợ tiền xử lý văn bản, tách từ, gán nhãn từ loại, gán nhãn thực thể có tên văn Các văn sau tiền xử lý lấy theo phương pháp tổ hợp để cặp văn Với 200 văn thu thập xử lý ban đầu, chọn 20.000 cặp văn theo phương pháp tổ hợp Tuy nhiên, số hạn chế chi phí phần cứng máy tính, chọn 10.000 cặp văn để thực nghiệm Các cặp văn đưa cho số người đọc để xác định văn khó Những người đọc học viên cao học chuyên ngành Ngôn ngữ học số trường đại học Thành phố Hồ Chí Minh Các cặp khơng xác định văn khó bị loại Còn lại, CLC - Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh (http://www.clc.hcmus.edu.vn) 126 Jos.hueuni.edu.vn Tập 130, Số 6A, 2021 cặp văn trích xuất thành vector đặc trưng khác tương ứng với phân lớp: Văn A khó Văn B; Văn B dễ Văn A Hai vector đặc trưng tạo cách lấy hiệu vector đặc trưng văn A với văn B ngược lại Trong báo này, sử dụng thư viện sklearn python để xây dựng mơ hình máy học phân lớp cặp văn theo độ khó, sử dụng thuật tốn tính SVM (Support Vector Machine - Máy vector hỗ trợ) SVM thuật tốn máy học có giám sát sử dụng phổ biến ngày toán phân lớp (classification), đặc biệt toán phân lớp văn Ý tưởng SVM tìm siêu phẳng (hyper lane) để phân tách điểm liệu tạo vector đặc trưng liệu - nghiên cứu vector đặc trưng văn thu thập Siêu phẳng chia không gian vector thành miền khác miền chứa loại liệu Trong nghiên cứu này, miền liệu nhãn tương ứng với phân lớp: Văn A khó Văn B; Văn B dễ Văn A Nhằm tránh tình trạng q khớp xảy ra, chúng tơi sử dụng phương pháp đánh giá chéo theo k-fold với k=10: ngẫu nhiên chia 10.000 cặp văn thành 10 phần thực 10 lần xây dựng đánh giá mơ hình phân lớp Cứ lần thực hiện, phần (tương đương với 9.000 cặp văn bản) dùng để huấn luyện mơ hình phần lại (tương đương 1.000 cặp văn bản) dùng để đánh giá mơ hình Ở giai đoạn huấn luyện, tồn 18.000 vector tương ứng trích xuất từ 9.000 cặp văn (mỗi cặp văn trích vector đặc trưng) đưa vào thuật toán SVM để xác định siêu phẳng phân tách liệu Sau đó, siêu phẳng kiểm tra 2.000 vector 1.000 cặp văn lại để đánh giá độ xác mơ hình phân lớp Kết quả, chúng tơi có mơ hình so sánh độ khó tương quan văn với đầu vào vector đặc trưng rút từ cặp văn đầu số xác định xem văn văn khó Độ xác đạt mơ hình 79,95% Một số ví dụ kết so sánh mơ hình : ● Văn có độ khó cao (kết so sánh khó nhiều văn nhất): đọc “Rơbin-xơn ngồi đảo hoang“ (Sách giáo khoa môn Ngữ văn lớp 9, tập 2, Nhà xuất Giáo dục, tái lần thứ năm 2011) ● Văn có độ khó thấp (kết so sánh dễ nhiều văn nhất): đọc “Điện thoại“ (Sách giáo khoa môn Tiếng Việt lớp 2, tập 1, Nhà xuất Giáo dục, tái lần thứ 11 năm 2014) ● Cặp văn có kết so sánh khơng xác: đọc “Vẽ sống an toàn“ (Sách giáo khoa môn Tiếng Việt lớp 4, tập 2, Nhà xuất Giáo dục, tái lần thứ năm 2014) 127 Nguyễn Sơn, Hồ Viết Hoàng cs Tập 130, Số 6A, 2021 mơ hình máy tính đánh giá khó đọc “Những ngơi xa xơi“ (Sách giáo khoa môn Ngữ văn lớp 9, tập 2, Nhà xuất Giáo dục, tái lần thứ năm 2011) Nguyên nhân đọc “Vẽ sống an tồn“ có câu câu lại dài với từ chủ yếu tên địa danh tên riêng, dẫn tới độ dài trung bình câu tỉ lệ số danh từ riêng đọc tăng cao so với đọc khác, làm ảnh hưởng tới đánh giá mơ hình máy tính Kết luận Nghiên cứu độ khó văn tiếng Việt cịn quan tâm tiền đề quan trọng việc soạn thảo lựa chọn văn Hơn nữa, nguồn ngữ liệu dùng để khảo sát độ khó văn tiếng Việt nhiều hạn chế vấn đề quyền Trong nghiên cứu này, chúng tơi trình bày phương pháp so sánh độ khó văn tiếng Việt với thông qua SVM với đặc trưng mức từ rút trích từ văn Phương pháp khơng địi hỏi q nhiều ngữ liệu ban đầu mà cần lượng nhỏ văn có tương quan độ khó chênh lệch Kết thực nghiệm 10.000 cặp văn cho thấy phương pháp đánh giá tương quan độ khó cặp văn với độ xác xấp xỉ 80% Trong nghiên cứu kế tiếp, chúng tơi tìm cách xếp phân nhóm độ khó văn dựa kết so sánh độ khó tương quan Các ngữ liệu cụ thể thuộc nhiều lĩnh vực thu thập để xây dựng mơ hình so sánh, đánh giá độ khó văn tiếng Việt cho lĩnh vực TÀI LIỆU THAM KHẢO Bailin, A., & Grafstein, A (2016) Readability: Text and Context: Palgrave Macmillan UK Dale, E., & Chall, J S (1949) The Concept of Readability Elementary English, 26(1), 19 26 Dinh, D., Nguyen, T N., & Ho, H T (2018) Building a corpus-based frequency dictionary of Vietnamese In, pp 72 - 98 Flesch, R (1949) The Art of Readable Writing New York: Harper and Brothers Publishers Heilman, M., Collins-Thompson, K., Callan, J., & Eskenazi, M (2007) Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts Paper presented at the Human Language Technologies 2007: The 128 Tập 130, Số 6A, 2021 Jos.hueuni.edu.vn Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, Rochester, New York Kincaid, J P., Fishburne, R P., Rogers, R L., & Chissom, B S (1975) Derivation of New Readability Formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy Enlisted Personnel Technical Training, Research B(February), pp 49 Luong, A.-V., Nguyen, D., & Dinh, D (2017) Examining the text-length factor in evaluating the readability of literary texts in Vietnamese textbooks Paper presented at the 2017 9th International Conference on Knowledge and Systems Engineering (KSE) Mc Laughlin, G H (1969) SMOG grading-a new readability formula Journal of Reading, 12(8), pp 639 - 646 Nguyen, L T., & Henkin, A B (1982) A Readability Formula for Vietnamese Journal of Reading, 26(3), pp 243 - 251 10 Nguyen, L T., & Henkin, A B (1985) A Second Generation Readability Formula for Vietnamese Journal of Reading, 29(3), pp 219 - 225 11 Schwarm, S E., & Ostendorf, M (2005) Reading Level Assessment Using Support Vector Machines and Statistical Language Models Paper presented at the Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Stroudsburg, PA, USA 12 Si, L., & Callan, J (2001) A Statistical Model for Scientific Readability Paper presented at the Proceedings of the Tenth International Conference on Information and Knowledge Management, New York, NY, USA 13 Tanaka-Ishii, K., Tezuka, S., & Terada, H (2010) Sorting Texts by Readability Comput Linguist., 36(2), pp 203 - 227 14 Vajjala, S., & Meurers, D (2012) On Improving the Accuracy of Readability Classification using Insights from Second Language Acquisition Paper presented at the Proceedings of the Seventh Workshop on Building Educational Applications Using NLP, Montr\'{e}al, Canada 129 Nguyễn Sơn, Hồ Viết Hoàng cs Tập 130, Số 6A, 2021 COMPARING VIETNAMESE TEXTS BY READABILITY Nguyễn Sơn1, Hồ Viết Hoàng1, Đinh Điền2, Lương An Vinh2, Nguyễn Thị Như Điệp3 University of Foreign Languages - Hue University, 57 Nguyen Khoa Chiem, Hue University of Sciences, HCM National University University of Social Scinces and Humanities, HCM National University Abstract Readability is a concept that describes the degree to which a text is easy or difficult to read It has an important role in text drafting, publishing and document selecting, especially in education Research on text readability has long been concerned but mainly for English and some other popular languages In this paper, we present a method of comparing the readability of Vietnamese texts using an SVM classifier The corpus we used for the experiment is Vietnamese literary texts evaluated for their relative readability by some readers This method does not require too much effort to build a training corpus but also achieves approximately 80% accuracy This is also a prerequisite for the comparison and selection of text to fit the reader's reading level Keywords: Text Readability, Comparing text, Vietnamese literary texts 130 ... mơ hình so sánh độ khó tương quan văn với đầu vào vector đặc trưng rút từ cặp văn đầu số xác định xem văn văn khó Độ xác đạt mơ hình 79,95% Một số ví dụ kết so sánh mơ hình : ● Văn có độ khó. .. cặp văn cho thấy phương pháp đánh giá tương quan độ khó cặp văn với độ xác xấp xỉ 80% Trong nghiên cứu kế tiếp, chúng tơi tìm cách xếp phân nhóm độ khó văn dựa kết so sánh độ khó tương quan Các. .. nghiệm so sánh độ khó văn dựa đặc trưng nêu ra; phần kết luận nghiên cứu Đặc trưng sử dụng Chúng mô tả đặc trưng sử dụng để so sánh độ khó văn Các đặc trưng lựa chọn hầu hết thống kê hình thái,