Bài viết tiến hành thực nghiệm lại một phương pháp đánh giá tính dễ đọc của văn bản dựa trên bộ từ điển ngữ nghĩa WordNet cho tiếng Anh và tiến hành một số thay đổi để thực nghiệm trên bộ WordNet tiếng Việt. Những kết quả đạt được cho thấy đây là một phương pháp tiềm năng và có thể sử dụng làm cơ sở cho các nghiên cứu sau này về đánh giá tính dễ đọc văn bản cho tiếng Việt.
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00013 ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET Phạm Duy Tâm, Trần Minh Hùng, Lƣơng An Vinh, Đinh Điền Trung tâm Ngơn ngữ học Tính tốn - Trường ĐH Khoa học Tự nhiên Tp Hồ Chí Minh 1212346@student.hcmus.edu.vn, 1212157@student.hcmus.edu.vn, anvinhluong@gmail.com, ddien@fit.hcmus.edu.vn TĨM TẮT— Tính dễ đọc văn tổng hợp yếu tố văn tác động tới khả đọc hiểu hoàn toàn nội dung văn Việc đánh giá tính dễ đọc có vai trị lớn trình soạn thảo văn nhằm xác định đối tượng độc giả muốn hướng đến Những nghiên cứu tính dễ đọc văn thực từ lâu giới chủ yếu cho tiếng Anh số ngôn ngữ phổ biến khác,… Đối với tiếng Việt, có cơng trình nghiên cứu vấn đề thực đặc trưng bề mặt ngôn ngữ độ dài từ, độ dài câu,… Trong báo này, tiến hành thực nghiệm lại phương pháp đánh giá tính dễ đọc văn dựa từ điển ngữ nghĩa WordNet cho tiếng Anh tiến hành số thay đổi để thực nghiệm WordNet tiếng Việt Những kết đạt cho thấy phương pháp tiềm sử dụng làm sở cho nghiên cứu sau đánh giá tính dễ đọc văn cho tiếng Việt Từ khóa— Tính dễ đọc văn – text readablity, từ điển ngữ nghĩa WordNet I GIỚI THIỆU Tính dễ đọc văn (text readability) – theo định nghĩa Edgar Dale Jeanne Chall (1949) [7] ―tổng hợp yếu tố văn ảnh hưởng đến thành công nhóm người đọc văn Sự thành cơng mức độ họ hiểu văn đó, đọc với tốc độ tối ưu cảm thấy thích thú đọc văn đó‖ Tính dễ đọc thường nhầm lẫn với tính dễ nhìn (legibility) văn ―mức độ dễ dàng đọc văn dựa yếu tố kiểu chữ, kích cỡ chữ, khoảng cách dịng,…‖ Tính dễ đọc văn có tác động lớn tới khả đọc hiểu hồn tồn văn Căn vào tính dễ đọc văn bản, người đọc xác định văn muốn đọc có phù hợp với khả hay khơng Người tạo văn vào tính dễ đọc văn soạn thảo để định hướng đối tượng người đọc hay có điều chỉnh cho phù hợp với đối tượng người đọc hướng tới Việc xây dựng mơ hình để phân tích tính dễ đọc văn có ý nghĩa lớn khoa học thực tiễn: giúp nhà khoa học viết báo cáo nghiên cứu dễ đọc cho đối tượng người đọc hướng tới; hỗ trợ nhà giáo dục soạn thảo sách giáo khoa, giáo trình phù hợp với lứa tuổi trình độ học sinh, sinh viên; hỗ trợ nhà xuất việc định hình đối tượng độc giả; giúp quan soạn thảo văn quy phạm pháp luật điều chỉnh nội dung cho phù hợp với đa số công dân; hay giúp nhà sản xuất việc soạn thảo tài liệu hướng dẫn sử dụng sản phẩm họ,… Ngồi ra, việc xác định tính dễ đọc văn hỗ trợ hiệu việc lựa chọn giáo trình phù hợp giảng dạy ngơn ngữ cho người nước ngồi Trên giới có nhiều cơng trình nghiên cứu việc xác định phân loại tính dễ đọc văn hầu hết cho tiếng Anh Từ kỉ XIX, có số khảo sát khả đọc viết người trưởng thành Mỹ tiêu biểu khảo sát Louis Harris [11], nghiên cứu Khảo sát Tiến Giáo dục Quốc gia (National Assessment of Educational Progress – NAEP) [11], Các kết khảo sát thể khác biệt lớn kỹ đọc viết người lớn mức độ ảnh hưởng khả đọc viết đến sống Cuối kỉ XIX, có nhiều cơng thức đánh giá tính dễ đọc văn đề xuất, số cơng thức phổ biến kể đến cơng thức tính dễ đọc Flesch [6], Dale-Chall [7],… Các công thức chủ yếu sử dụng đặc trưng đơn giản mức bề mặt văn độ dài từ, độ dài câu, từ vựng,… Cũng giai đoạn này, nhà xuất bản, nhà giáo dục người giảng dạy bắt đầu quan tâm đến việc sử dụng cơng thức đánh giá tính dễ đọc văn để hỗ trợ cho việc lựa chọn văn bản, tài liệu cho phù hợp với người đọc, người học… Bắt đầu từ năm 50 kỉ XX, việc đánh giá tính dễ đọc văn có bước phát triển Các nghiên cứu giai đoạn bắt đầu đề cập đến đóng góp yếu tố tâm lý học sở thích, động lực kiến thức cá nhân ảnh hưởng đến tính dễ đọc nhằm tăng độ xác việc đánh giá tính dễ đọc văn Năm 2008, nhóm tác giả Shu-yen Lin [10] cộng có cơng trình nghiên cứu phương pháp đánh giá tính dễ đọc văn tiếng Anh dựa từ điển ngữ nghĩa WordNet1 Họ sử dụng mối quan hệ ngữ nghĩa WordNet hạ danh (hyponyms), thượng danh (hypernyms) để xác định từ (basic word) để đánh giá tính dễ đọc văn Trong báo này, tiến hành thực nghiệm lại phương pháp ngữ liệu văn tiếng Anh WordNet sở liệu tri thức ngữ nghĩa từ vựng xây dựng theo hệ thống cấp bậc Hệ thống cấp bậc WordNet xác định mối quan hệ ngữ nghĩa từ vựng ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 94 Đối với tiếng Việt, có hai cơng trình nghiên cứu tính dễ đọc văn tiếng Việt nhóm tác giả Liem Thanh Nguyen Alan B Henkin (năm 1982 1985) [1, 2] thực cho cộng đồng người Việt hải ngoại Hai nghiên cứu tập trung vào mối liên hệ đặc điểm thống kê cấp độ từ câu với tính dễ đọc văn tập ngữ liệu nhỏ (24 văn bản) chưa vào phân tích đặc điểm sâu v trò từ, ngữ, cấu trúc ngữ pháp, ngữ nghĩa câu,… Trong báo này, tiến hành thực nghiệm phương pháp nhóm Shu-yen Lin [10] ngữ liệu 10.000 văn tiếng Việt dựa từ điển ngữ nghĩa WordNet tiếng Việt với số thay đổi cho phù hợp Các kết thực nghiệm cho thấy phương pháp tiềm sử dụng làm sở cho việc nghiên cứu sau vấn đề đánh giá tính dễ đọc văn cho tiếng Việt Phần báo mô tả chi tiết phương pháp thực nghiệm Kết thực nghiệm kết luận trình bày Phần Phần II PHƢƠNG PHÁP Hình mơ tả kiến trúc hệ thống phương pháp nhóm tác giả Shu-yen Lin [10] Đầu tiên, tập danh sách từ mức độ (Basic Level Word – BLW) lọc lại thông qua WordNet để xác định lại danh sách từ (Basic Word – BW) Khái niệm BLW, theo định nghĩa Rosch [9], từ thường dễ tiếp nhận từ hạ danh (hyponyms) thượng danh (hypernyms) Thượng danh quan hệ ngữ nghĩa WordNet, từ có lớp ngữ nghĩa bao hàm từ khác (ví dụ: ‗màu sắc‘ thượng danh ‗màu đỏ‘) Tương tự, hạ danh từ có ngữ nghĩa cụ thể tập từ có lớp ngữ nghĩa rộng (ví dụ ‗màu đỏ‘ hạ danh ‗màu sắc‘) Phương pháp nhóm Shu-yen Lin [10] thực nghiệm từ loại danh từ Tiếp theo, danh sách BW lọc dùng để đánh giá tính dễ đọc văn đưa vào Hình Mơ hình kiến trúc hệ thống phương pháp đánh giá tính dễ đọc văn tiếng Anh dựa từ điển ngữ nghĩa WordNet nhóm tác giả Shu-yen Lin A Lọc BW Thực nghiệm 1: Thống kê độ dài độ phức tạp hạ danh thượng danh Mục tiêu thực nghiệm khảo sát độ dài độ phức tạp BLW từ thuộc hạ danh thượng danh trực tiếp BLW WordNet BLW giả định có đặc trưng sau: độ dài từ tương đối ngắn (bao gồm ký tự độ dài trung bình từ thuộc hạ danh thượng danh); hạ danh trực tiếp có nhiều tập đồng nghĩa (synsets)2 thượng danh trực tiếp; hình thái từ đơn giản Tập BLW Rosch [9] thống kê độ dài, độ phức tạp số tập đồng nghĩa BLW hạ danh, thượng danh Các kết thống kê sở cho việc xác nhận giả định tính chất BLW đặt đầu thực nghiệm Các kết thực nghiệm trình bày phần 3, mục A Thực nghiệm 2: Thống kê tỉ lệ BLW cấu tạo từ ghép hạ danh Mục tiêu thực nghiệm khảo sát đóng góp BLW, hạ danh thượng danh trực tiếp BLW cấu tạo từ ghép Nhóm Shu-yen Lin giả định BLW tham gia cấu tạo nên từ ghép nhiều hạ danh thượng danh trực tiếp Với BLW thực nghiệm với từ thuộc hạ danh thượng danh trực tiếp, nhóm Shu-yen Lin thống kê tất từ hạ danh từ xét từ ghép mà từ xét tham gia cấu tạo, nhằm thống kê tỉ lệ số từ ghép hạ danh mà từ xét tham gia cấu tạo tất từ hạ danh Từ ghép từ cấu tạo từ hai từ đơn lẻ trở lên (ví dụ: ‗thiếu nữ‘ từ ghép cấu tạo hai từ đơn) Đối với từ có nhiều nhánh nghĩa, phương pháp tập trung nhánh nghĩa theo định nghĩa Rosch [9] Các kết thống kê sở cho việc xác nhận giả định tính chất BLW đặt đầu thực nghiệm Các kết thực nghiệm trình bày Phần 3, mục A Tập đồng nghĩa (synsets) tập hợp từ cụm từ đồng nghĩa với (ví dụ: táo có hạ danh hai tập đồng nghĩa táo trái táo) Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền 95 Hai điều kiện lọc Dựa kết sơ hai thực nghiệm, nhóm Shu-yen Lin giả định BW có hai tính chất: (1) xuất nhiều từ ghép hạ danh; (2) chiều dài từ ngắn chiều dài trung bình hạ danh trực tiếp Các tính chất đơn giản thành điều kiện lọc để xác định BW: (1) Tỉ lệ từ ghép tất hạ danh ≥ 25%; (2) Độ dài trung bình hạ danh trực tiếp trừ độ dài từ xét ≥ Dựa hai tính chất điều kiện lọc, thông tin cần thiết để danh từ xác định có phải BW bao gồm (1) độ dài từ (số ký tự từ); (2) tỉ lệ từ ghép từ (số từ ghép hạ danh mà từ tham gia cấu tạo); (3) Độ dài trung bình hạ danh trực tiếp Kết thống kê danh sách BW lọc trình bày Phần 3, mục A B Đánh giá mối liên hệ BW tính dễ đọc văn Mục tiêu thực nghiệm đánh giá mối liên hệ BW tính dễ đọc văn Nhóm Shu-yen Lin giả định văn dễ đọc chứa nhiều BW văn khó đọc hơn; nghĩa là, tỉ lệ BW văn dễ đọc cao văn khó đọc Nhằm đảm bảo tính khách quan, nhóm Shu-yen Lin tiến hành đánh giá mối liên hệ BW tính dễ đọc tập văn thông qua thống kê tỉ lệ BW tổng số danh từ văn bản, văn đánh giá tính dễ đọc phương pháp khác Các kết thực nghiệm trình bày Phần 3, mục A C Đánh giá mối liên hệ BW tính dễ đọc văn tiếng Việt Chúng tơi áp dụng phương pháp nhóm Shu-yen Lin để thực nghiệm tiếng Việt Các mục tiêu, giả định phương pháp thực nghiệm thực tương tự có số thay đổi cho phù hợp với tiếng Việt Đầu tiên, sử dụng WordNet tiếng Việt Trung tâm Ngôn ngữ học tính tốn3 - Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh Tiếp theo, việc đánh giá mối liên hệ BW tính dễ đọc văn phương pháp tiến hành ngữ liệu tiếng Việt tự xây dựng với mức độ tính dễ đọc khác chúng tơi giả định, nội dung trình bày chi tiết Phần 3, mục B III THỰC NGHIỆM Ở phần này, chúng tơi trình bày kết thực nghiệm phương pháp nhóm Shu-yen Lin tiếng Anh tiếng Việt A Các kết thực nghiệm tiếng Anh Thực nghiệm 1: Thống kê độ dài độ phức tạp hạ danh thượng danh Để đạt mục tiêu thực nghiệm này, tiến hành khảo sát ngữ liệu gồm 20 từ theo định nghĩa Rosch [9]; 3.000 từ tiếng Anh phổ biến theo thống kê tần số sử dụng4; 3.000 danh từ thống kê ngữ liệu Penn Tree Bank [8] tất danh từ thuộc WordNet tiếng Anh Kết thống kê 20 từ theo định nghĩa Rosch trình bày Bảng Các kết thống kê tập ngữ liệu cịn lại trình bày Phụ lục 1, cuối báo Bộ từ điển ngữ nghĩa WordNet tiếng Anh online Đại học Princeton5 sử dụng để tiến hành thực nghiệm Bảng Kết thống kê độ dài (trung bình), số tập đồng nghĩa độ phức tạp hình thái* 20 từ theo định nghĩa Rosh so sánh với hạ danh thượng danh trực tiếp Từ / Cụm từ screwdriver guitar hammer piano apple peach grape pants socks shirt table chair truck Độ dài 11 6 5 5 5 5 5 BLW Độ phức tạp A A A A A A A A A A A A A Độ dài 18 18.67 7.5 11 10 7 12 Thƣợng danh Số tập Độ đồng nghĩa phức tạp B B A B A, B B B A A A A A B Computional Linguistics Center – CLC Website: http://www.clc.hcmus.edu.vn http://www.wordfrequency.info/free.asp http://wordnet.princeton.edu Độ dài 20.33 10.33 10.67 10.67 11.67 7.4 7.667 13 11.33 8.455 Hạ danh Số tập đồng nghĩa 3 15 11 Độ phức tạp B A, B N/A AB B N/A A, B N/A A, B A, B A, B A, B A, B ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 96 Từ / Cụm từ drum lamp saw car bus dog cat Độ dài 4 3 3 BLW Độ phức tạp A A A A A A A Độ dài 20 20 12 15 10 Thƣợng danh Số tập Độ đồng nghĩa phức tạp B B A B B A, B A Độ dài 7.5 10 7.968 8.667 7.5 Hạ danh Số tập đồng nghĩa 17 31 18 Độ phức tạp A, B A, B N/A A, B A, B A, B A, B *A đại diện cho từ đơn, B đại diện cho từ ghép Các kết thống kê xác nhận giả định ban đầu thực nghiệm Đầu tiên, độ dài trung bình từ hạ danh thượng danh lớn BLW Thứ hai, hạ danh có nhiều tập đồng nghĩa thượng danh Thứ ba, BLW ln có hình thái đơn giản Ngược lại, từ hạ danh thượng danh trực tiếp có hình thái phức tạp Một số từ hạ danh từ ghép Thượng danh phức tạp hơn, BLW (trừ ‗peach‘) có từ ghép thượng danh Thực nghiệm 2: Thống kê tỉ lệ BLW cấu tạo từ ghép hạ danh Bảng trình bày kết thống kê 20 từ theo định nghĩa Rosch [9] Tương tự, kết thống kê tập ngữ liệu cịn lại trình bày Phụ lục 4, cuối báo Bảng Kết thống kê tỉ lệ từ ghép phân phối từ ghép cấp độ hạ danh 20 từ theo định nghĩa Rosch Thƣợng danh BLW Hạ danh hand tool Số từ ghép/ Số hạ danh Tỉ lệ từ ghép (%) Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ 0/241 0 0 0 screwdriver flat tip screwdriver 4/4 100 0 0 0/0 N/A 0 0 0 stringed instrument 1/85 0 0 guitar acoustic guitar 5/12 42 0 0 0/0 N/A 0 0 0 striker 0/0 N/A 0 0 0 hammer N/A 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A keyboard instrument 0/35 0 0 0 piano grand piano 8/16 50 4 0 3/8 38 0 0 edible fruit 0/303 0 0 0 5/29 18 0 0 0/4 0 0 0 2/450 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A apple cooking apple fruit tree peach N/A edible fruit 0/303 0 0 0 grape muscadine 6/17 36 0 0/0 N/A 0 0 0 underpants 0/17 0 0 0 pants N/A 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A hosiery 0/30 0 0 0 Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền Thƣợng danh BLW Hạ danh Số từ ghép/ Số hạ danh 97 Tỉ lệ từ ghép (%) Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ N/A N/A N/A N/A N/A N/A N/A N/A 0/0 N/A 0 0 0 garment 4/445 0 shirt camise 8/17 48 0 0 0/0 N/A 0 0 0 array 1/49 0 0 table actuarial table 7/10 70 0 0/1 0 0 0 0/1 0 0 0 chair armchair 31/48 65 17 13 0 0/10 0 0 0 motor vehicle 0/153 0 0 0 truck dump truck 15/48 32 10 0 0/0 N/A 0 0 0 percussion instrument 0/68 0 0 0 drum bass drum 5/14 36 0 0 0/0 N/A 0 0 0 source of illumination 0/107 0 0 0 lamp aladdin's lamp 27/68 40 19 0 0/0 N/A 0 0 0 0/59 0 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A motor vehicle 0/153 0 0 0 car ambulance 21/76 28 19 0 0/1 0 0 0 0/38 0 0 0 3/5 60 0 0 0/0 N/A 0 0 0 socks anklet seat saying saw N/A public transport bus minibus canine 0/1 0 0 0 dog basenji 51/279 19 11 22 16 0/0 N/A 0 0 0 feline 0/123 0 0 0 cat domestic cat 35/87 41 30 0 0/32 0 0 0 Từ Bảng cho thấy, hầu hết BLW có tỉ lệ tham gia cấu tạo từ ghép thống kê cao So sánh với hạ danh thượng danh BLW, sử dụng nhiều cấu tạo từ ghép Tuy nhiên, có số từ (ví dụ: ‗crab apple‘) có tỉ lệ thống kê cao khơng cho BLW từ ghép mà tham gia cấu tạo từ ghép bao gồm BLW (ví dụ: ‗Southern crab apple‘), trường hợp đại diện cho tính chết kế thừa từ ghép có cấu tạo từ BLW Kết thống kê tỉ lệ trung bình BW ngữ liệu tiếng Anh Dựa kết thống kê hai thực nghiệm trên, nhóm Shu-yen Lin rút điều kiện lọc cho việc xác định BW trình bày Phần Kết lọc BW gồm 13 BW 20 từ theo định nghĩa Rosch, 294 BW ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 98 3.000 từ tiếng Anh phổ biến theo thống kê tần số sử dụng, 389 BW 3.000 danh từ thống kê ngữ liệu Penn Tree Bank 2.505 BW tất danh từ thuộc WordNet tiếng Anh Trong báo này, tiến hành thực nghiệm đánh giá tính dễ đọc ngữ liệu sách giáo khoa tiếng Anh nhóm Islam [5] Bộ ngữ liệu bao gồm 519 văn bản, 95.470 câu 1.184.124 từ theo định dạng TEI P5 Các kết thống kê dựa ngữ liệu BW kết đánh giá tính dễ đọc cơng thức Flesh Grade Level [6] Dale-Chall [7] trình bày Bảng Bảng Tỉ lệ trung bình BW kết đánh giá tính dễ đọc cơng thức Flesh Grade Level, Dale-Chall cấp độ khác ngữ liệu tiếng Anh Tỉ lệ BW Cấp độ 20 từ theo định nghĩa Rosch 0.359 0.156 0.165 0.103 3.000 từ phổ biến 3.000 danh từ phổ biến Tất danh từ WordNet 7.488 6.655 6.572 5.878 7.969 7.375 7.494 7.006 14.766 14.324 14.602 14.264 Flesh Grade Level DaleChall 4.569 5.608 6.571 7.760 6.742 6.907 6.975 7.053 Các văn chia thành cấp độ Cấp độ (level 1) giả định dễ nhất, cấp độ (level 4) khó Kết thống kê Bảng Hình thể tỉ lệ BW giảm theo độ khó văn Tỉ lệ BW văn cấp độ nhiều cấp độ Ta thấy tỉ lệ BW trung bình cấp độ thường gần xấp xỉ với cấp độ 3, nguyên nhân độ khó văn thuộc cấp độ không chênh lệch nhiều Chúng khảo sát kĩ nguyên nhân nghiên cứu sau 18 16 Số văn 14 12 10 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.1 Tỉ lệ BW (%) Very Easy Easy Medium Difficult Hình Thống kê số lượng văn theo mức tỉ lệ BW ngữ liệu tiếng Anh với tập 20 từ Rosch B Các kết thực nghiệm tiếng Việt Tương tự với phương pháp nhóm Shu-yen Lin tiếng Anh, báo tiến hành thực nghiệm tiếng Việt thay đổi ngữ liệu cho phù hợp Đối với thực nghiệm 2, tiến hành khảo sát ngữ liệu gồm 3000 từ phổ biến theo thống kê tần số sử dụng [3]; 3000 danh từ phổ biến theo thống kê tần số sử dụng [3] tất danh từ thuộc WordNet tiếng Việt Đối với thực nghiệm 3, ngữ liệu tiếng Việt tự xây dựng sử dụng để tiến hành thực nghiệm Chúng xây dựng ngữ liệu tiếng Việt với cấp độ tính dễ đọc khác Cấp độ – cấp độ dễ (easy level) thu thập từ sách giáo khoa (từ lớp lớp 5); truyện ngắn dành cho thiếu nhi; văn mẫu; tin tức website thiếu nhi Cấp độ thứ hai – cấp độ trung bình (normal level) thu thập từ website tin tức ngày Dân trí, Tuổi trẻ, Thanh niên, VnExpress, Vietnamnet,… Cấp độ cuối – cấp độ khó (difficult level) thu thập từ Các viết tạp chí lý luận Đảng, Nhà nước; viết tạp chí lý luận ngơn ngữ, văn hóa, xã hội; luận, giáo trình Triết học; văn Quy phạm pháp luật, Các ngữ liệu thu thập từ tài nguyên Internet tiền xử lý (tách từ, tách câu, chuẩn hóa văn bản,…) trước đưa vào thực nghiệm Các kết thực nghiệm 1, theo phương pháp nhóm Shu-yen Lin tiếng Việt trình bày Bảng 4, 5, Phụ lục 7, 8, 9, 10 cuối báo Trong Bảng 6, chúng tơi trình bày kết đánh giá tính dễ đọc cơng thức nhóm Liem Thanh Nguyen Alan B Henkin [1] Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền 99 Bảng Kết thống kê độ dài (trung bình), số tập đồng nghĩa độ phức tạp hình thái 3.000 danh từ tiếng Việt phổ biến theo thống kê tần số sử dụng so sánh với hạ danh thượng danh trực tiếp Thƣợng danh BLW Từ / Cụm từ Hạ danh Độ dài Độ phức tạp Độ dài Số tập đồng nghĩa Độ phức tạp Độ dài Số tập đồng nghĩa 1 2 3 4 5 6 7 8 10 12 18 … A A A A A A A A A A B B B B B B B B B B … 10 14 8 9 11 12 12 17 12 15 14 13 13 … 1 1 1 1 1 1 1 1 1 1 … B B B B B B B B B B B B B B B B B B B B … 20 12 9.68 8.8 10 15.25 10 10.67 10.75 12.64 14.5 10.33 15.64 12.1 15.5 13 … 1 22 16 11 14 11 20 24 … ổ âm tủ nón trí suối tiệc đường thuốc xã hội bí mật máy ảnh binh sĩ tốn học thể chất quê hương chuyên môn cổ động viên kinh tế thị trường … Độ phức tạp A N/A B B AB B AB AB AB B B N/A B B B B AB B AB B … Bảng Kết thống kê tỉ lệ từ ghép phân phối từ ghép cấp độ hạ danh của 3.000 danh từ tiếng Việt phổ biến theo thống kê tần số sử dụng Thƣợng danh BLW Hạ danh kết tụ ổ vật che nắng ô N/A tượng học âm âm có tần số siêu âm kho chứa tủ gian để chổi đồ đội đầu nón mũ nhận thức trí bất tỉnh vùng nước suối lạch buổi tụ họp tiệc buổi chiêu đãi đại phân tử Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp dộ Cấp độ 0 0 0 0 0 0 0 0 0 0 N/A N/A N/A N/A 0 0 0 0/833 0/2 0/0 0/16 0/0 N/A 0/44 1/1 Tỉ lệ từ ghép (%) 0 N/A N/A N/A 100 Cấp độ 0 0 N/A 0 0/0 N/A 0 0 0 0/25 5/8 0/0 0/196 8/73 0/0 8/216 0/7 0/0 2/206 9/40 0/0 1/129 39/69 0/0 0/918 63 N/A 11 N/A N/A 23 N/A 57 N/A 0 0 0 0 0 0 0 0 0 0 0 0 23 0 0 0 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Số từ ghép / Số hạ danh Cấp độ 0 0 N/A 0 ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 100 Thƣợng danh BLW Hạ danh đƣờng deoxiriboza phương thuốc thuốc bột seidlitz tập đoàn xã hội xã hội văn minh giấu kín bí mật N/A trang thiết bị máy ảnh bảng dập báo hiệu công nhân có tay nghề binh sĩ binh nhì khoa học tốn học tốn học t đặc tính thể thể chất dáng béo lùn người chủ xướng cổ động viên chỗ dựa hệ thống kinh tế kinh tế thị trƣờng chủ nghĩa tư … Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp dộ Cấp độ 10 11 0 0 0 0 0 0 0 0 0 11 0 0 0 0 0 N/A N/A N/A N/A 0 10 0 0 42/167 0/0 2/85 4/14 0/0 0/3838 5/36 15/23 0/13 0/0 N/A 3/1036 12/79 0/0 Tỉ lệ từ ghép (%) 26 N/A 29 N/A 14 66 N/A N/A 16 N/A Cấp độ 0 0 0 0 0 N/A 0 0/1062 0 0 0 1/362 0/0 29/851 4/94 0/64 0/216 0/19 0/0 0/18 1/110 0/0 0/31 0/4 0/1 … N/A 0 N/A N/A 0 … 0 0 0 0 0 0 0 … 0 0 0 0 0 0 … 0 0 0 0 0 … 0 0 0 0 0 … 0 0 0 0 0 0 … 0 0 0 0 0 0 … Số từ ghép / Số hạ danh Cấp độ 0 0 0 0 N/A 0 Bảng Tỉ lệ trung bình BW kết đánh giá tính dễ đọc cơng thức nhóm Liem Thanh Nguyen cấp độ khác ngữ liệu tiếng Việt Cấp độ Số văn Tỉ lệ BW 3.000 danh từ phổ biến 9.077 9.176 7.319 3.000 từ phổ biến 13.343 12.585 10.196 Tất danh từ WordNet 15.074 14.232 11.857 Cơng thức nhóm Liem Thanh Nguyen 6.377 8.832 12.738 900 800 700 600 500 400 300 200 100 10 11 12 13 14 15 16 17 18 Tỉ lệ BW (%) Easy Medium Difficult Hình Thống kê số lượng văn theo mức tỉ lệ BW ngữ liệu tiếng Việt với 3.000 danh từ tiếng Việt phổ biến Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền 101 Từ Bảng Hình thấy nhận định tỉ lệ BW văn tiếng Việt tương đồng với tiếng Anh: độ khó tăng tỉ lệ BW giảm Đối với kết tập 3.000 danh từ phổ biến, tỉ lệ BW trung bình cấp độ gần xấp xỉ nhau, nguyên nhân khảo sát nguyên nhân nghiên cứu IV KẾT LUẬN Trong báo này, tiến hành thực nghiệm lại phương pháp đánh giá độ khó văn nhóm tác giả Shu-yen Lin ngữ liệu tiếng Anh lớn tiến hành số thay đổi để thực nghiệm ngữ liệu tiếng Việt Các kết thực nghiệm ngữ liệu tiếng Anh tiếng Việt xác nhận lại nhận định văn khó tỉ lệ từ Tuy cịn số kết khơng thực rõ ràng tổng quan văn dễ có từ văn khó Trong nghiên cứu tiếp theo, tiến hành khảo sát tập ngữ liệu tiếng Việt lớn mở rộng sang từ loại khác (như động từ, tính từ,…) khơng danh từ nghiên cứu TÀI LIỆU THAM KHẢO [1] B H Liem T Nguyen, ―A Second Generation Readability Formula for Vietnamese‖, Journal of Reading, vol 29, pp 219-225, 1985 B H Liem Thanh Nguyen, ―A Readability Formula for Vietnamese‖, Journal of Reading, vol 26, pp 243-251, 1982 Đinh Điền, Đỗ Đức Hào, ―Chữ Quốc ngữ qua số thống kê‖, Hội thảo Chữ Quốc ngữ - Phú Yên E Dale, J S Chall, ―A formula for predicting readability‖, Educational research bulletin, vol 27, no.1, pp 11-20, 28, 1948 Islam, M Zahurul, ―Multilingual Text Classification using Information - Theoretic Features‖, PhD Thesis-Goethe University Frankfurt, 2014 [6] J N Farr, J J Jenkins, D G Paterson ―Simplification of the Flesch Reading Ease Formula‖, Journal of applied psychology, vol 35, no 5, pp 333-357, 1951 [7] J S C Edgar Dale, ―The Concept of Readability‖, Elementary English, vol 26, pp 19-26, 1949 [8] M Marcus, B Santorini, M A Marcinkiewicz, ―Building a Large Annotated Corpus of English: The Penn Treebank‖, Computational Linguistics - Special issue on using large corpora: II, vol 19, no 2, pp 313-330, 1993 [9] Rosch, Eleanor, Mervis, Carolyn, Gray, Wayne, Johnson, David, & Boyes-Braem, Penny, ―Basic objects in natural categories‖, Cognitive Psychology, vol 8, pp 382-439, 1976 [10] S Y Lin, C.C Su, Y D Lai, L.C Yang, S.K Hsieh, ―Measuring Text Readability by Lexical Relations Retrieved from Wordnet‖, Proceedings of the 20th Conference on Computational Linguistics and Speech Processing, 2008 [11] T G Sticht, A B Armstrong, ―Adult literacy in the United States: A compendium of quantitative data and interpretive comment‖, 1994 [2] [3] [4] [5] ASSESSING VIETNAMESE TEXT READABILITY USING WORDNET Pham Duy Tam, Tran Minh Hung, Luong An Vinh, Dinh Dien ABSTRACT— Text readability is a combination of factors in a text that affects its reading comprehension Assessing text readability plays an important role in text creating process, which helps to deliver the right content to right target readers Although text readability has been studied for a long time, proposed researches mainly focus on English and other popular languages In Vietnamese, there have been two studies using shallow features like word length and sentence length In this paper, we conduct an experiment on text readability measurement based on English WordNet and Vietnamese WordNet with adjustment The results show that this is a potential method which could be used as fundamental for future researches on Vietnamese text readability ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 102 V PHỤ LỤC Phụ lục Kết thống kê độ dài (trung bình), số tập đồng nghĩa độ phức tạp hình thái 3.000 từ tiếng Anh phổ biến theo thống kê tần số sử dụng so sánh với hạ danh thượng danh trực tiếp Từ / Cụm từ concentration fundamental maintenance extension listening childhood distances landscape miracle mission airport battles help does jean data bee fan joy in … Độ dài 13 11 11 9 9 7 7 4 4 3 … BLW Độ phức tạp A A A A A A A A A A A A A A A A A A A A … Thƣợng danh Độ dài 6 10 7 27 14 19 7.5 10 19 10 … Số tập đồng nghĩa 1 1 1 1 1 1 1 1 1 … Độ phức tạp A A A A A B A A A B A B A B A A B A A B … Độ dài 11.25 11.33 11.5 7.5 7.94 0 9.17 7.33 9.67 10.3 9.75 … Hạ danh Số tập đồng nghĩa 2 18 0 12 10 … Độ phức tạp A, B N/A A, B N/A A A A, B N/A N/A N/A A A, B A N/A A A, B A, B A, B A N/A … Phụ lục Kết thống kê độ dài (trung bình), số tập đồng nghĩa độ phức tạp hình thái 3.000 danh từ tiếng Anh thống kê ngữ liệu Penn Tree Bank so sánh với hạ danh thượng danh trực tiếp Từ / Cụm từ telecommunications recommendations developers permission difficulty comparison assistant hospitals behavior cities flight values rumors lesson track genes cells bias lake bike … BLW Độ Độ dài phức tạp 18 A 15 A 10 A 10 A 10 A 10 A A A A A A A A A A A A A A A … … Độ dài 6 11 15 12 6 8 11 10 11 12 … Thƣợng danh Số tập Độ đồng nghĩa phức tạp A A A A A A A B A A A A A A A A A A B B … … Hạ danh Độ dài 9.6 7 9.52 12 10.86 14.67 0 11.6 7.67 11 11.86 5.75 8.5 … Số tập đồng nghĩa 27 0 21 … Độ phức tạp A A N/A A, B A, B A A, B A, B A, B B N/A N/A N/A B A, B A, B N/A A, B A, B A, B … Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền 103 Phụ lục Kết thống kê độ dài (trung bình), số tập đồng nghĩa độ phức tạp hình thái tất danh từ WordNet tiếng Anh so sánh với hạ danh thượng danh trực tiếp Từ / Cụm từ remark reserve promise obsession poker face open house motor home home movie door prize cross hair club member car company livingroom set kitchen police imperial beard greenwich time flowering cherry first appearance chemical engineering basketball backboard … Độ dài 7 10 10 10 10 10 10 11 11 14 14 14 14 16 16 20 20 … BLW Độ phức tạp A A A A B B B B B B B B B B B B B B B B … Độ dài 9 9.5 16 11 19 5 14 11 13 … Thƣợng danh Số tập Độ đồng nghĩa phức tạp A A AB B A A B A A A A A A B A A A A A B … … Độ dài 8.33 10 12 0 0 0 0 0 24 13.5 13 0 … Hạ danh Số tập đồng nghĩa 12 0 0 0 0 0 4 0 … Độ phức tạp AB A AB A N/A N/A A N/A N/A N/A N/A N/A N/A N/A N/A B AB AB N/A N/A … Phụ lục Kết thống kê tỉ lệ từ ghép phân phối từ ghép cấp độ hạ danh 3.000 từ tiếng Anh phổ biến theo thống kê tần số sử dụng Thƣợng danh BLW Hạ danh property concentration hydrogen ion concentration factor fundamental N/A repair maintenance camera care delay extension N/A sensing listening auscultation time of life Số từ ghép / Số hạ danh 7/123 3/14 0/6 3/10 0/0 N/A 1/47 1/10 0/0 0/3 0/0 N/A 0/0 1/6 0/3 0/64 Tỉ lệ từ ghép (%) 22 30 N/A N/A 10 N/A N/A N/A N/A 17 0 Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ 0 0 N/A 0 0 N/A 0 0 N/A 0 N/A 0 0 N/A 0 0 N/A 0 0 0 0 N/A 0 0 N/A 0 0 0 0 N/A 0 0 N/A 0 0 Cấp độ 0 0 N/A 0 0 N/A 0 0 ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 104 Thƣợng danh BLW Hạ danh childhood boyhood spacing distances elevation scenery landscape N/A happening miracle N/A nongovernmental organization mission N/A airfield airport heliport military action battles armageddon activity help accommodation executive department does N/A trouser jean levi's collection data accounting data hymenopterous insect bee andrena device fan electric fan emotion joy elation linear unit in N/A … Số từ ghép / Số hạ danh 0/4 0/0 0/0 N/A 0/0 0/12 0/0 N/A 0/1718 0/0 N/A Tỉ lệ từ ghép (%) N/A N/A N/A N/A N/A N/A N/A N/A 0/65 0/0 N/A 1/11 0/1 0/0 0/101 N/A 0/0 9/5223 4/89 0/4 0/61 N/A N/A 2/49 0/2 0/0 6/576 3/3 0/0 0/92 18/26 0/0 29/4466 3/5 0/0 3/268 0/22 0/9 2/147 0/0 N/A … N/A N/A 10 N/A N/A N/A 0 N/A N/A N/A 100 N/A 70 N/A 60 N/A 0 N/A N/A … Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 N/A 0 0 N/A 0 0 N/A N/A 0 0 0 0 0 0 0 0 N/A … 0 N/A 0 N/A 0 N/A N/A 0 0 11 18 0 N/A … 0 N/A 0 0 N/A 2 0 N/A N/A 0 0 0 0 0 N/A … 0 N/A 0 0 N/A 0 N/A N/A 0 0 0 0 0 0 0 N/A … 0 N/A 0 0 N/A 0 N/A N/A 0 0 0 0 0 0 0 0 N/A … 0 N/A 0 0 N/A 0 0 N/A N/A 0 0 0 0 0 0 0 0 N/A … Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền 105 Phụ lục Kết thống kê tỉ lệ từ ghép phân phối từ ghép cấp độ hạ danh 3.000 danh từ tiếng Anh thống kê ngữ liệu Penn Tree Bank Thƣợng danh BLW Hạ danh medium Số từ ghép / Số hạ danh Tỉ lệ từ ghép (%) Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ 4/102 2 0 N/A N/A N/A N/A N/A N/A N/A N/A 0/0 N/A 0 0 0 advice 1/11 10 0 0 recommendations N/A N/A N/A N/A N/A N/A N/A N/A referral 0/0 N/A 0 0 0 creator 0/6 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A approval 0/26 0 0 0 permission 0/20 0 0 0 0/0 N/A 0 0 0 0/152 0 0 0 difficulty 0/2 0 0 0 the devil 0/0 N/A 0 0 0 examination 5/67 0 0 comparison 0/5 0 0 0 analogy 0/0 N/A 0 0 0 24/1467 5/147 4 0 0/4 0 0 0 medical building 0/36 0 0 0 hospitals N/A N/A N/A N/A N/A N/A N/A N/A 0/0 N/A 0 0 0 9/5223 2 0/46 0 0 0 0/0 N/A 0 0 0 municipality 0/15 0 0 0 cities N/A N/A N/A N/A N/A N/A N/A N/A 0/0 N/A 0 0 0 1/55 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A belief 2/697 0 0 values 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A gossip 0/0 N/A 0 0 0 rumors N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A teaching 2/33 0 0 10/10 100 5 0 telecommunications broadcasting developers all clear effort worker assistant accomplice creche activity behavior aggression national capital formation flight N/A lesson ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 106 Thƣợng danh BLW Hạ danh dance lesson Số từ ghép / Số hạ danh Tỉ lệ từ ghép (%) Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ 0/0 N/A 0 0 0 line 4/15 27 0 0 track 1/9 12 0 0 collision course 0/0 N/A 0 0 0 1/105 1 0 0 genes N/A N/A N/A N/A N/A N/A N/A N/A allele 2/4 50 0 0 sequence compartment 0/8 0 0 0 cells N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A 0/0 N/A 0 0 0 1/11 10 0 0 0/0 N/A 0 0 0 0/102 0 0 0 3/20 16 0 0 partiality bias experimenter bias body of water lake bayou 0/0 N/A 0 0 0 0/153 0 0 0 bike 4/6 67 0 0 minibike 0/1 0 0 0 … … … … … … … … … motor vehicle Phụ lục Kết thống kê tỉ lệ từ ghép phân phối từ ghép cấp độ hạ danh tất danh từ WordNet tiếng Anh Thƣợng danh BLW Hạ danh statement remark ad-lib Số từ ghép cấp độ hạ danh Số từ ghép / Số hạ danh Tỉ lệ từ ghép (%) 8/662 0 0/35 0 0 0 Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ 0/0 N/A 0 0 0 0/25 0 0 0 reserve 0/1 0 0 0 demureness 0/0 N/A 0 0 0 commitment 0/1 0 0 0 promise 0/11 0 0 0 betrothal 0/1 0 0 0 0/25 0 0 0 0/1 0 0 0 propriety irrational motive obsession onomatomania 0/0 N/A 0 0 0 0/11 0 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A party 4/49 0 0 0/0 N/A 0 0 0 countenance poker face open house Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền Thƣợng danh BLW Hạ danh 107 Số từ ghép cấp độ hạ danh Số từ ghép / Số hạ danh Tỉ lệ từ ghép (%) N/A N/A Cấp độ N/A recreational vehicle 0/7 motor home 0/2 van 0/0 N/A Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ N/A N/A N/A N/A N/A 0 0 0 0 0 0 N/A 0 0 0 2/37 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A prize 2/7 29 0 0 door prize 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A line 4/15 27 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A member 6/40 16 0 0 0/0 N/A 0 0 0 movie home movie cross hair club member N/A N/A N/A N/A N/A N/A N/A N/A N/A 41/83 50 28 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A suite 0/1 0 0 0 company car company livingroom set 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A enlisted person 0/90 0 0 0 kitchen police 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A beard 2/10 20 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A time 0/0 N/A 0 0 0 greenwich time 0/8 0 0 0 coordinated universal time 0/6 0 0 0 cherry 0/0 N/A 0 0 0 3/12 26 0 0 0/0 N/A 0 0 0 0/84 0 0 0 0/7 0 0 0 induction 0/11 0 0 0 engineering 3/18 17 0 0 0/0 N/A 0 0 0 imperial beard flowering cherry fuji beginning first appearance chemical engineering N/A game equipment basketball backboard N/A … N/A N/A N/A N/A N/A N/A N/A N/A 0/109 0 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A … … … … … … … … ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 108 Phụ lục Kết thống kê độ dài (trung bình), số tập đồng nghĩa độ phức tạp hình thái 3.000 từ tiếng Việt phổ biến theo thống kê tần số sử dụng so sánh với hạ danh thượng danh trực tiếp Từ / Cụm từ Độ dài u ổ cỗ bổ cãi lật quấn chôn huyết xưởng thuyết phượng tổ quốc số phận nối tiếp tín dụng phong phú trái phiếu nghề nghiệp chuyên ngành … 1 2 3 4 5 6 7 8 10 11 12 … BLW Độ phức tạp A A A A A A A A A A A A B B B B B B B B … Thƣợng danh Hạ danh Độ dài Số tập đồng nghĩa Độ phức tạp Độ dài Số tập đồng nghĩa Độ phức tạp 5 8 15 10 11 15 11 10 11 9.5 14 … 1 1 1 1 1 1 1 1 1 … B B B B B B B A A B B B B B B B B B B B … 15 0 10.5 8.5 15.64 9.75 10 17 16.88 12 … 2 0 11 2 16 … B A B N/A B N/A N/A B N/A B B N/A A, B B B B B B B N/A … Phụ lục Kết thống kê độ dài (trung bình), số tập đồng nghĩa độ phức tạp hình thái tất danh từ WordNet tiếng Việt so sánh với hạ danh thượng danh trực tiếp Từ / Cụm từ Độ dài ù ả rê lốc gió ngày giàu tường giếng bạn bè cha mẹ ghế cao quốc lộ phim ảnh phím đàn hội chứng điều kỳ lạ đói khát kính đeo mắt … 1 2 3 4 5 6 7 8 10 11 12 … BLW Độ phức tạp A A A A A A A A A A B B B B B B B B B B … Độ dài 10 11 6 14 14 8 10 14 … Thƣợng danh Số tập Độ đồng phức nghĩa tạp B B B B B B B B B B A B B B B A B B B B … … Độ dài 14 10.5 10.3913 8.7 14 8.4 10.8 10 6.833333 9.833333 9.611111 17.76667 11 9.6 … Hạ danh Số tập đồng nghĩa 23 30 10 6 18 30 … Độ phức tạp B A, B A, B N/A B A, B B B B B B A, B N/A AB B N/A A, B B N/A B … Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền 109 Phụ lục Kết thống kê tỉ lệ từ ghép phân phối từ ghép cấp độ hạ danh của 3.000 từ tiếng Việt phổ biến theo thống kê tần số sử dụng Thƣợng danh BLW Hạ danh kim loại u đồng vị Urani 235" kết tụ Số từ ghép / Số hạ danh Tỉ lệ từ ghép (%) Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ 20/483 20 0 0 2/2 100 0 0 N/A N/A N/A N/A N/A N/A N/A N/A 0/833 0 0 0 Số từ ghép cấp độ hạ danh ổ 0/2 0 0 0 0/0 N/A 0 0 0 0/833 0 0 0 cỗ 1/5 20 0 0 0/0 N/A 0 0 0 0/12 0 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A hồi âm 0/60 0 0 0 cãi 1/11 10 0 0 láo xược 0/0 N/A 0 0 0 đắm tàu 0/5 0 0 0 lật 0/0 N/A 0 0 0 kết tụ chia tách bổ N/A N/A N/A N/A N/A N/A N/A N/A N/A thay đổi hình dạng 0/0 N/A 0 0 0 quấn 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A giấu 5/55 10 0 chôn 0/1 0 0 0 cải táng 0/0 N/A 0 0 0 máu 0/0 N/A 0 0 0 huyết 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A 0/312 0 0 0 xưởng 0/6 0 0 0 khu chứa đồ cũ 0/0 N/A 0 0 0 học thuyết 0/7 0 0 0 thuyết 0/7 0 0 0 quy tắc vàng 0/0 N/A 0 0 0 0/1044 0 0 0 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A 0/152 0 0 0 1/60 0 0 0/0 N/A 0 0 0 0/230 0 0 0 khu đất rộng gỗ hạt kín phượng N/A khu vực hành tổ quốc nước chiếm đại lục nam mỹ diện ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 110 số phận phong vân 0/163 0 0 0 0/32 0 0 0 0/159 0 0 0 nối tiếp 0/9 0 0 0 luân phiên 0/0 N/A 0 0 0 0/34 0 0 0 tín dụng 0/4 0 0 0 khoản cho vay mua ô tô 0/0 N/A 0 0 0 nguồn tài sản 0/34 0 0 0 phong phú 0/20 0 0 0 0/0 N/A 0 0 0 chứng khoán 18/84 22 15 0 trái phiếu 29/40 73 25 0 0/0 N/A 0 0 0 nhóm đồng nghiệp 0/28 0 0 0 nghề nghiệp xếp thứ tự tiền cho vay kho báu cơng tác khơng có tiền 0/25 0 0 0 giới doanh nhân 0/0 N/A 0 0 0 ngành học 0/1 0 0 0 chuyên ngành 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A … … … … … … … … N/A … Phụ lục 10 Kết thống kê tỉ lệ từ ghép phân phối từ ghép cấp độ hạ danh của tất danh từ WordNet tiếng Việt Số từ ghép / Số hạ danh Tỉ lệ từ ghép (%) 9/34 27 0 0 ù 0/1 0 0 0 điểm kết thúc đầu 0/0 N/A 0 0 0 0/77 0 0 0 ả 1/3 34 0 0 lolita 0/0 N/A 0 0 0 đơn vị tiền tệ 0/0 N/A 0 0 0 đô 52/62 84 51 0 fiji 0/0 N/A 0 0 0 0/15 0 0 0 Thƣợng danh BLW Hạ danh chiến thắng quý nương nốt son rê Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A bão gió 0/22 0 0 0 lốc 2/2 100 0 0 gió lốc nhẹ 0/0 N/A 0 0 0 thời tiết 0/0 N/A 0 0 0 gió 94/111 85 56 38 0 bão 0/0 N/A 0 0 0 khoảng thời gian 0/0 N/A 0 0 0 Phạm Duy Tâm, Trần Minh Hùng, Lương An Vinh, Đinh Điền 111 Số từ ghép / Số hạ danh Tỉ lệ từ ghép (%) ngày 3/3 100 0 0 ngày nguyệt lịch 0/0 N/A 0 0 0 điều kiện kinh tế 0/27 0 0 0 giàu 4/26 16 1 0 inherited wealth N/A N/A N/A N/A N/A N/A N/A N/A vách 0/41 0 0 0 16/26 62 15 0 0/0 N/A 0 0 0 Thƣợng danh BLW Hạ danh tường tường bao lò Số từ ghép cấp độ hạ danh Cấp độ Cấp độ Cấp độ Cấp dộ Cấp độ Cấp độ hố đào 1/90 0 0 giếng 13/14 93 0 giếng dầu 2/7 29 0 0 bạn 0/0 N/A 0 0 0 bạn bè 0/9 0 0 0 bạn đồng đội 0/0 N/A 0 0 0 cha mẹ 0/64 0 0 0 cha mẹ 3/64 0 0 0/2 0 0 0 ghế tựa 5/78 0 0 ghế cao 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A 0/0 N/A 0 0 0 0/22 0 0 0 0/0 N/A 0 0 0 0/197 0 0 0 cha mẹ kế N/A đường quốc lộ đường dẫn đến biểu dương phim ảnh 0/42 0 0 0 ba chiều 0/0 N/A 0 0 0 phím 0/0 N/A 0 0 0 phím đàn 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A triệu chứng 0/12 0 0 0 hội chứng 28/76 37 28 0 0 a162083z N/A N/A N/A N/A N/A N/A N/A N/A kiện 0/2 0 0 0 điều kỳ lạ 0/9 0 0 0 biến hình 0/0 N/A 0 0 0 đói 0/0 N/A 0 0 0 đói khát 0/0 N/A 0 0 0 N/A N/A N/A N/A N/A N/A N/A N/A N/A dụng cụ quang học 0/55 0 0 0 kính đeo mắt 0/7 0 0 0 kính bảo hộ 0/0 N/A 0 0 0 … … … … … … … … … ...ĐÁNH GIÁ TÍNH DỄ ĐỌC CỦA VĂN BẢN TIẾNG VIỆT DỰA TRÊN WORDNET 94 Đối với tiếng Việt, có hai cơng trình nghiên cứu tính dễ đọc văn tiếng Việt nhóm tác giả Liem Thanh... B Đánh giá mối liên hệ BW tính dễ đọc văn Mục tiêu thực nghiệm đánh giá mối liên hệ BW tính dễ đọc văn Nhóm Shu-yen Lin giả định văn dễ đọc chứa nhiều BW văn khó đọc hơn; nghĩa là, tỉ lệ BW văn. .. dễ đọc cao văn khó đọc Nhằm đảm bảo tính khách quan, nhóm Shu-yen Lin tiến hành đánh giá mối liên hệ BW tính dễ đọc tập văn thông qua thống kê tỉ lệ BW tổng số danh từ văn bản, văn đánh giá tính