TIỂU LUẬN môn xử lý NGÔN NGỮ tự NHIÊN ĐÁNH GIÁ độ KHÓ văn bản BẰNG MACHINE LEARNING

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TIỂU LUẬN MÔN XỬ LÝ NGƠN NGỮ TỰ NHIÊN ĐÁNH GIÁ ĐỘ KHĨ VĂN BẢN BẰNG MACHINE LEARNING GVHD: GVTG: PGS TS ĐINH ĐIỀN NCS LƯƠNG AN VINH HV: NGUYỄN THANH HUY MSHV: 20C29024 LÊ NGUYỄN THANH THẢO MSHV: 20C29036 Tp Hồ Chí Minh - 2021 TIEU LUAN MOI download : skknchat@gmail.com Mục lục Giới Thiệu Chung 1.1 Đặt vấn đề 1.2 Định nghĩa 1.3 Các giai đoạn nghiên cứu độ khó văn 1.3.1 Thời kỳ cổ điển 1.3.2 Thời kỳ đại 1.3.3 Thời kỳ đánh giá độ khó văn máy 1.4 Tiêu chuẩn đánh giá độ khó văn 1.5 Ứng dụng đánh giá độ khó văn tự động Các 2.1 2.2 2.3 2.4 2.5 đặc trưng đánh giá độ khó văn Đặc trưng từ vựng Đặc trưng cú pháp Đặc trưng diễn ngôn Các tính ổn định đọc sử dụng Đặc trưng dựa từ loại 2 2 8 tự động mơ hình ngơn ngữ thống kê 12 12 12 13 13 13 tính Machine Learning 14 3.1 Logistic Regression 14 3.2 Linear Discriminant Analysis 15 Support Vector Machine 4.1 Maximal Margin Classifer 4.2 Support Vector Classifier 4.3 Support Vector Machine 4.3.1 Phân loại ranh giới định phi tuyến 4.3.2 Support Vector Machine 4.4 Áp dụng SVM đánh giá độ khó văn TIEU LUAN MOI download : skknchat@gmail.com 17 17 18 19 19 21 22 Chương Giới Thiệu Chung 1.1 Đặt vấn đề Khả đọc hiểu phương pháp luận quan trọng để học tập tiếp thu kiến thức trích xuất thơng tin giới Mức độ khó đọc văn tiêu chí quan trọng để chọn đọc tài liệu, với văn với độ khó cao tạo thành khó khăn việc tiếp thu thơng tin Do đó, vấn đề đặt làm để tìm mức độ đọc phù hợp yếu tố quan trọng người đọc, đặc biệt tài liệu nước Hiện nay, khối lượng liệu thông tin internet tăng lên theo cấp số nhân, việc lựa chọn thông tin quan tâm theo độ khó thích hợp trở thành thách thức 1.2 Định nghĩa Độ khó văn thông số quan trọng triển khai cơng cụ tìm kiếm Độ khó văn giúp cơng cụ truy xuất văn cấp độ thích hợp website Độ khó văn điều làm cho số văn trở nên dễ đọc văn khác George Klare (1963) định nghĩa độ khó văn việc đọc hiểu cách dễ dàng văn phong viết Định nghĩa tập trung vào văn phong tách biệt với đặc trưng khác nội dung, bố cục tính mạch lạc Tương tự, Gretchen Hargis cộng IBM (1998) tuyên bố độ khó văn – việc dễ dàng đọc hiểu từ câu – thuộc tính rõ ràng G Harry McLaughlin người tạo cơng thức đo độ khó văn SMOG (1969) định nghĩa độ khó văn mức độ nhóm độc giả định cảm thấy dễ dàng việc đọc hiểu văn Đinh nghĩa nhấn mạnh tương tác lớp độc giả văn bản, cụ thể kỹ đọc, kiến thức trước động lực Theo Edgar Dale Janne Chall (1949), định nghĩa độ khó văn xem toàn diện nhất: “Tổng (bao gồm tương tác) yếu tố văn ảnh hưởng đến thành cơng nhóm độc giả Sự thành công mức độ độc giả hiểu, đọc văn với tốc độ tối ưu thấy thu hút.” 1.3 1.3.1 Các giai đoạn nghiên cứu độ khó văn Thời kỳ cổ điển Mục đích nghiên cứu độ khó cổ điển phát triển phương pháp thực tế phù hợp với khả đọc hiểu học sinh người lớn Các nghiên cứu bắt đầu vào cuối kỷ 19 kết thúc vào năm 1940, phổ biến công trình cơng thức Flesch Dale-Chall TIEU LUAN MOI download : skknchat@gmail.com Trong thời kỳ này, nhà xuất bản, nhà giáo cục giáo viên quan tâm đến việc phát phương pháp thưc tế để tìm văn phù hợp với độc giả, người lớn học sinh Các công thức đánh giá độ khó văn thời kỳ dựa hồi quy tuyến tính hầu hết sử dụng hai số từ vựng cú pháp Công thức đo độ khó văn phát triển Bertha A Lively Sidney L Pressey (1923) tập trung vào ba đặc trưng: số lượng từ khác nhau, tỷ lệ khơng có danh sách Thorndike, xếp hạng tần số xuất từ danh sách Họ thử nghiệm 11 sách giáo khoa với độ khó khác nhận thấy số trung bình số tốt từ vựng văn này: tần số cao, từ vựng dễ hiểu, tần số thấp, từ vựng khó hiểu Nghiên cứu Lively-Pressey có ảnh hưởng lớn đến nghiên cứu độ khó văn sau Đánh giá cơng thức ban đầu để dự đoán khả đọc dựa vào đặc trưng bề mặt, chẳng hạn độ dài từ trung bình độ dài câu trung bình Cơng thức độ dễ đọc Rodoft Flesch (1949) Công thức đánh giá độ dễ đọc Flesch cách tiếp cận đơn giản để đánh giá trình độ người đọc Đó số thước đo xác mà sử dụng mà không cần xem xét kỹ lưỡng Công thức sử dụng tốt văn giáo dục Kể từ đó, cơng thức Flesch trở thành tiêu chuẩn sử dụng nhiều Cơ quan Chính phủ Hoa Kỳ, bao gồm Bộ Quốc phòng Hoa Kỳ RE = 206.835 − (1.015 × ASL) − (84.6 × ASW ) Trong đó: ❼ RE: Độ dễ đọc ❼ ASL: Độ dài câu trung bình (nghĩa số từ chia cho số câu ❼ ASW: Số âm tiết trung bình từ (số âm tiết chia cho số từ) Kết - RE - nằm khoảng từ đến 100, điểm cao nghĩa văn dễ đọc ❼ Điểm từ 90,0 đến 100,0 xem dễ hiểu với học sinh lớp ❼ Điểm từ 60,0 đến 70,0 xem dễ hiểu với học sinh lớp lớp ❼ Điểm từ 0,0 đến 30,0 xem dễ hiểu với sinh viên tốt nghiệp đại học Cơng thức đánh giá độ khó văn Dale-Chall (1948) Dale Chall tạo cơng thức Dale-Chall với mục đích cải thiện cơng thức đánh giá độ dễ đọc Flesch Công thức Dale-Chall không giống với công thức khác sử dụng độ dài từ để đánh giá độ khó từ mà sử dụng tần số xuất từ khó Cơng thức tính tốn cấp độ khó dựa dộ dài số từ khó từ khó từ không xuất danh sách từ thông dụng thiết kế cho hầu hết cho học sinh lớp RS = 0, 1579 × P DW + 0, 0496 × ASL Trong đó: ❼ RS: Điểm đọc thơ người hiểu văn từ lớp trở xuống TIEU LUAN MOI download : skknchat@gmail.com ❼ PDW: Phần trăm từ khó ❼ ASL: Độ dài câu trung bình tính từ Nếu (PDW) lớn 5%, thì: ❼ Điểm điều chỉnh = Điểm thơ + 3,6365, khơng điểm điều chỉnh = Điểm thô ❼ Điểm Điều chỉnh = Điểm đọc người đọc hiểu văn bạn lớp trở lên Dale Chall công bố bảng điểm sau để điều chỉnh trình cấp cao Điểm 4,9 trở xuống 5,0 - 5,9 6,0 - 6,9 7,0 - 7,9 8,0 - 8,9 9,0 - 9,9 10 trở lên Trình độ Lớp trở xuống Lớp - Lớp - Lớp - 10 Lớp 11 - 12 Lớp 13 - 15 Lớp 16 trở lên (Đại học) Bảng 1.1: Bảng độ khó văn Dale-Chall 1.3.2 Thời kỳ đại Các phát triển bắt đầu vào năm 1950 củng cố nghiên cứu sâu Các nhà nghiên cứu tìm phương pháp hoạt động cơng thức đo độ khó cách cải thiện cơng thức Trong năm 1950, số phát triển khác thúc đẩy nghiên cứu độ khó văn Những thách thức Spunil cơng nghệ địi hỏi trình độ đọc hiểu cao người lao động Các ngành cơng nghiệp cũ địi hỏi nhân viên có trình độ cao, cơng nghệ địi hỏi người lao động có trình độ cao Các nghiên cứu độ khó văn tập trung vào đặc trưng sau: ❼ Cộng đồng học giả: Các tóm tắt định kỳ tiến trình nghiên cứu độ khó văn (Klare 1952, 1963, 1974-75, 1984, Chall 1958, Chall Dale 1995) đề cập đến cộng đồng học giả Họ quan tâm đến cách thức nguyên nhân công thức hoạt động, cách cải thiện, đưa quan điểm khơng đọc cịn viết ❼ Kiểm tra cloze: giới thiệu Wilson Taylor (1953), đưa phương pháp giúp nhà nghiên cứu kiểm tra thuộc tính văn độc giả độ xác chi tiết Bài kiểm tra Cloze tập, kiểm tra đánh giá bao gồm phần văn có từ định bị loại bỏ, người kiểm tra yêu cầu người tham gia điền khuyết từ bị thiếu Các kiểm tra cloze yêu cầu người tham gia hiểu ngữ cảnh từ vựng để xác định từ xác thuộc đoạn văn bị xóa ❼ Khả đọc, trình độ có sẵn, mối quan tâm động lực: nghiên cứu xem xét cách thức mà biến người đọc ảnh hưởng đến độ khó văn TIEU LUAN MOI download : skknchat@gmail.com ❼ Hiệu đọc: Trong nghiên cứu khác xem xét tác dộng độ khó văn đến đọc hiểu, nghiên cứu xem xét tác động lên tốc độ kiên nhẫn đọc văn ❼ Đo lường nội dung: ảnh hưởng tâm lý học nhận thức ngôn ngữ học năm 1980 thúc đẩy nghiên cứu nhận thức cấu trúc câu văn sử dụng để dự đoán độ khó văn ❼ Đồng văn bản: lý thuyết nhận thức ngôn ngữ thúc đẩy mối quan tâm đến đánh giá định tính chủ quan độ khó văn Với đào tạo, đồng văn có hiệu việc đánh giá đặc trưng văn mà không đánh giá cơng thức đo độ khó văn ❼ Sản xuất chuyển đổi văn bản: số nghiên cứu kiểm tra hiệu việc sử dụng biến công thức để soạn thảo sửa đổi văn Khi độc giả tham gia vào việc sản xuất nội dung, cách tổ chức mạch lạc, sử dụng biến dễ đọc hiệu việc sản xuât chuyển đổi văn dddessn cấp độ khác ❼ Cơng thức đo độ khó văn bản: nghiên cứu sâu độ khó văn bẳn John Bormuth nhà nghiên cứu khác xem xét độ tin cậy loạt biến văn đánh giá Sự đời kiểm tra cloze thúc đẩy sử phát triển tiêu chí mới, cơng thức mới, phiên có can thiệp cơng nghệ ❼ Sự khác biệt công thức: Sự khác biệt kết công thức khác cách người viết áp dụng công thức Một số công thức đánh giá độ khó văn thời kỳ Cơng thức đo độ khó văn FOG Gunning Cơng thức độ khó văn số Gunning Fog, hay gọi đơn giản Chỉ số FOG, nhà xuất sách giáo khoa người Mỹ, Robert Gunning Các bước thực để áp dụng công thức: Bước 1: Chọn đoạn văn mẫu gồm 100 từ đếm xác số từ số câu Bước 2: Chia tổng số từ đoạn văn cho số câu để tính độ dài câu trung bình (ASL) Bước 3: Đếm số lượng từ có ba âm tiết trở lên (i) danh từ riêng, (ii) tổ hợp từ ghép từ có dấu gạch nối, (iii) động từ có hai âm tiết thêm hậu tố -es -ed Bước 4: Chia số cho số từ đoạn văn mẫu Ví dụ: 25 từ dài chia cho 100 từ cho 25% từ khó (PHW) Bước 5: Thêm ASL từ Bước PHW từ Bước Bước 6: Nhân kết với 0,4 Cơng thức tốn học là: Grade = 0, × (ASL + P HW ) Trong đó: TIEU LUAN MOI download : skknchat@gmail.com ❼ Grade: Cấp độ ❼ ASL: Độ dài câu trung bình (nghĩa số từ chia cho số câu) ❼ PHW: Phần trăm từ khó Điểm lý tưởng cho độ khó văn với số FOG Điểm 12 nhận định văn khó với hầu hết người đọc Cơng thức độ khó văn đồ thị Fry Hình 1.1: Đồ thị Fry ước tính trình độ đọc hiểu Edward Fry phát triển cơng thức đánh giá độ khó văn có mức độ phổ biến - Cơng thức độ khó văn đồ thị Fry Bài kiểm tra dựa đồ thị xác định khả đọc thơng qua trình độ trung học; cơng thức thẩm định với tài liệu từ trường tiểu học trung học với kết công thức dễ đọc khác Các bước thực để áp dụng công thức: Bước 1: Chọn ngẫu nhiên mẫu văn 100 từ (loại bỏ chữ số) Bước 2: Đếm số câu ba đoạn văn 100 từ, ước tính phân số câu cuối xác đến 1/10 Bước 3: Đếm số lượng âm tiết ba đoạn văn 100 từ Sau đó, lập bảng sau: Bước 4: Nhập biểu đồ với độ dài câu trung bình số lượng âm tiết Vẽ dấu chấm nơi hai đường giao Khu vực dấu chấm biểu thị cấp độ khó gần nội dung TIEU LUAN MOI download : skknchat@gmail.com Số câu Số âm tiết Đoạn văn thứ Đoạn văn thứ hai Đoạn văn thứ ba Tổng Trung bình Bảng 1.2: Bảng tính Fry Bước 5: Nếu quan sát có nhiều thay đổi, bạn đưa nhiều số mẫu vào giá trị trung bình Cơng thức đánh giá độ khó văn SMOG Cơng thức đánh giá độ khó SMOG, phát triển G Harry McLaughlin, ước tính số năm học mà người cần để hiểu đoạn văn McLaughlin tạo công thức cải tiến so với công thức dễ đọc khác Các ước thực áp dụng cơng thức: Bước 1: Lấy tồn văn cần kiểm tra Bước 2: Đếm 10 câu liên tiếp gần đầu, 10 10 cuối để có tổng số 30 câu Bước 3: Đếm số từ có ba âm tiết trở lên nhóm câu, từ xuất nhiều lần Bước 4: Tính bậc hai số bước làm trịn đến gần 10 Thêm vào công thức để biết cấp độ SMOG, tức cấp độ đọc mà người phải đạt muốn hiểu đầy đủ văn đánh giá Cấp độ SMOG = + Căn bậc hai số từ có nhiều âm tiết McLaughlin xác thực cơng thức dựa đoạn McCall-Crabbs, sử dụng tiêu chí điểm 100%, hầu hết kiểm tra công thức cho khả hiểu khoảng 50% -75% 1.3.3 Thời kỳ đánh giá độ khó văn máy tính Ban đầu, đánh giá độ khó văn tự động kèm với việc đơn giản hóa thực tế ngôn ngữ Daoust cộng (1996) sử dụng cơng cụ NLP, ví dụ P.O.S – tagger, để tham số hóa đặc trưng văn Foltz cộng (1998) đánh giá tính mạch lạc văn dựa Latent Semantic Analysis (LSA) Si Callan (2001) định nghĩa độ khó văn toán phân loại áp dụng phương pháp máy học đại để nghiên cứu Các xu hướng đánh giá độ khó văn máy tính: Collins-Thompson Callan (2005) rút cải thiện từ mơ hình ngơn ngữ Si Callan (2001), nâng cao kết hợp b phõn loi Naăve Bayes Schwarm v Ostendorf (2005) triển khai biến cú pháp, dựa trên luật phân tích cú pháp kết hợp tất đặc trưng vào mơ hình Support Vector Machine TIEU LUAN MOI download : skknchat@gmail.com (SVM), nhiên đặc điểm cú pháp khơng đóng góp nhiều vào mơ hình Heilman cộng (2007) nghiên cứu đóng góp đặc trưng cú pháp chứng minh đặc trưng quan trọng Trong nghiên cứu tập trung vào từ vựng cú pháp, cơng trình nghiên cứu khác xem xét biến ngữ nghĩa, diễn ngôn nhận thức Crossley cộng sự, (2007) thiết kế công thức khả đọc hỗ trợ NLP kết hợp chiều từ vựng, cú pháp liên kết, dựa Coh-Metrix Tuy nhiên, yếu tố liên kết ý nghĩa mơ hình Pitler Nenkova (2008) cơng bố mơ hình đánh giá độ khó văn cơng nhận có ảnh hưởng số yếu tố nhận thức đến mơ hình Tanaka-Ishii cộng (2010) xem xét độ khó văn toán xếp Vajjala Mekers (2012) giới thiệu biến SLA mơ hình có độ xác phân loại cao Weekly Reader (93,3%) 1.4 Tiêu chuẩn đánh giá độ khó văn Một số tiêu chuẩn đặt dùng để đánh giá độ khó văn bản: ❼ Đánh giá chuyên gia: đồng ý số chuyên gia ngơn ngữ học cấp độ khó văn ❼ Văn từ sách giáo khoa: biến thể tiêu chuẩn đánh giá chuyên gia, dựa vào văn chuyên gia cung cấp ❼ Kiểm tra khả đọc hiểu: khả đọc hiểu văn đánh giá thông qua câu hỏi ❼ Kiểm tra cloze: tương tự kiểm tra khả đọc hiểu văn ❼ Tốc độ đọc: đánh giá tốc độ đọc, thông thường kết hợp với câu hỏi để kiểm tra khả đọc hiểu ❼ Ghi nhớ: tỷ lệ văn mà người đọc nhớ lại sau đọc hiểu ❼ Đánh giá chuyên gia: van Oosten Hoste (2011) trình bày với số lượng N (N>10) người chuyên gia thích đáng tin cậy 1.5 Ứng dụng đánh giá độ khó văn tự động Sự dễ đọc cho người học ngôn ngữ thứ hai Người đọc ngơn ngữ thứ (L1) có kỹ nhu cầu có khác biệt so với người đọc ngơn ngữ thứ hai (L2) Sự khác biệt trình đọc L1 L2 trình quy trình để tiếp thu ngơn ngữ Đối với người học L1, việc tiếp thu giai đoạn sơ sinh cấu trúc ngữ pháp thường học sau bốn tuổi (Bates, 2003) - trước bắt đầu học thức Người học L2 thường độ tuổi đại học trở lên, có trình độ nắm bắt ý tưởng lập luận phức tạp Trong hầu hết nghiên cứu phát triển công cụ đánh giá độ khó văn tập trung vào người đọc L1, số nghiên cứu gần phát triển phương pháp đánh giá khả đọc tự động nhằm giải thích khía cạnh đặc biệt người học ngôn ngữ thứ hai Một nghiên cứu để phát triển công cụ đánh giá độ khó văn dựa máy học cho người đọc L2 Heilman cộng (2007), nhà nghiên cứu cho đặc điểm ngữ pháp đóng vai trị quan trọng việc dự đốn khả đọc người học ngơn TIEU LUAN MOI download : skknchat@gmail.com ngữ thứ hai người học ngôn ngữ thứ Hỗ trợ ngôn ngữ quốc tế Trước đây, phần lớn nghiên cứu đánh giá độ khó văn truyền thống tập trung vào tiếng Anh, ngôn ngữ khác áp dụng từ kết trước Ví dụ, sau cơng thức Flesch tính độ dễ đọc văn tiếng Anh (Flesch, 1948) xuất bản, loạt chuyển thể cho ngôn ngữ châu Âu ngôn ngữ khác theo sau: Kandel Moles (1958) xuất chuyển thể cho tiếng Pháp, sau đó, José Fernández Huerta (1959) cơng bố công thức tương ứng cho tiếng Tây Ban Nha sử dụng rộng rãi Zakaluk Samuel (1988) công bố danh sách đầy đủ công thức dễ đọc truyền thống cho nhiều loại ngôn ngữ Gần đây, nhiều nghiên cứu tiến hành ngơn ngữ khác ngồi tiếng Anh Đặc biệt, ngơn ngữ châu Á châu Âu sớm trở thành nguồn gốc thích nghi với phương pháp tính tốn cải tiến Hỗ trợ độc giả khuyết tật Ngồi người ngữ người học ngôn ngữ thứ hai từ ngôn ngữ khác nhau, biện pháp khả đọc bắt đầu điều chỉnh dành cho người bị khuyết tật người mắc hội chứng khó đọc tiếp cận với ngơn ngữ Abedi cộng (2003) kiểm tra độ khó văn cổ điển kiểm tra đọc hiểu nhằm xác định đặc điểm ngữ pháp nhận thức phân tích độ khó đọc học sinh khuyết tật Tuy nhiên, nhà nghiên cứu nhận thấy số đặc điểm văn đặc trưng hình ảnh có khả phân biệt cao học sinh khuyết tật không khuyết tật, chẳng hạn việc sử dụng từ dài (lớn bảy chữ cái), thay đổi phông chữ, độ dài từ khoảng cách, giảm hình ảnh gây tập trung yếu tố quan trọng khả đọc nhóm người khuyết tật Các nghiên cứu liên quan thực Rello cộng (2013) nhóm độc giả mắc hội chứng khó đọc: khả hiểu khơng phụ thuộc vào khả đọc, độ dài từ quan trọng, ví dụ từ ngắn tăng khả đọc hiểu văn Ngoài việc đánh giá, kỹ thuật đơn giản hóa tóm tắt văn hứa hẹn phương pháp tiếp cận để cải thiện khả đọc cho người học mắc chứng khó đọc (Nandhini Balasundaram, 2011) Hệ thống giáo dục có máy tính hỗ trợ Nhiều phương pháp giáo dục yêu cầu khả tìm kiếm thơng tin mức độ khó phù hợp, đó, cơng cụ đánh gia độ khó văn tự động đóng vai trò quan trọng sở giáo dục, đặc biệt hệ thống dạy kèm học ngoại ngữ đọc hiểu Một ví dụ hệ thống trợ giảng từ vựng REAP phát triển Viện Công nghệ Ngôn ngữ Đại học Carnegie Mellon REAP sử dụng công nghệ lọc xếp hạng độ phức tạp để cung cấp hướng dẫn cá nhân hóa tiếng Anh, tiếng Pháp tiếng Bồ Đào Nha REAP giúp hàng trăm người học ngôn ngữ thứ hai đồng thời cung cấp tảng thử nghiệm hấp dẫn để nghiên cứu yếu tố giúp học sinh học từ vựng hiệu Dự đốn độ khó văn từ trang web Tính chất đa dạng, đại nội dung từ trang web, từ nhận xét blog, trang kết cơng cụ tìm kiếm đến quảng cáo trực tuyến, dẫn đến thách thức dự đốn khả đọc Ngồi văn có cấu trúc đại, trang web chứa hình ảnh, video, âm thanh, bảng thành phần có cấu trúc phong phú khác ảnh hưởng đến khả TIEU LUAN MOI download : skknchat@gmail.com đọc văn Khả đọc hiểu văn người dùng dường khía cạnh quan trọng đánh giá giá trị văn Một số cơng cụ đánh giá độ khó văn tự động AMesure cung cấp khả phân tích trực tiếp văn hành đánh giá mức độ khó đọc thang gồm năm cấp Hình 1.2: AMesure Lexile Analyzer Lexile Quantile Hub cho phép nhà giáo dục nhập văn để nhận phạm vi Lexile xem đặc điểm văn với từ khó định nghĩa chúng Lexile Analyzer đo độ phức tạp văn cách phân tích đặc điểm độ dài câu tần suất từ Nói chung, câu dài từ có tần suất xuất thấp dẫn đến phương pháp Lexile cao hơn; câu ngắn từ có tần suất cao dẫn đến phương pháp Lexile thấp 10 TIEU LUAN MOI download : skknchat@gmail.com Hình 1.3: Lexile➤ Text Analyzer 11 TIEU LUAN MOI download : skknchat@gmail.com Chương Các đặc trưng đánh giá độ khó văn tự động 2.1 Đặc trưng từ vựng Một văn hoàn chỉnh thường bao gồm nhiều từ Các đặc điểm từ vựng đặc điểm phản ánh độ khó văn mức độ Ví dụ, văn chứa nhiều từ khiến người đọc khó nắm bắt nghĩa văn bản, khả đọc hiểu văn xếp hạng thấp người đọc Thơng thường, tính từ vựng sử dụng số độ khó văn bao gồm loại từ độ dài Các nghiên cứu để có hiểu biết sâu sắc từ việc học ngôn ngữ thứ hai nghiên cứu Sowmya Vajjala Detmar Meurers (2012) đánh giá đặc điểm từ vựng bao gồm đa dạng từ vựng biến thể từ vựng, tổng cộng gồm 16 đặc điểm Độ xác quy trình phân loại họ đạt trung bình lên đến 68,1% Sau thêm ba đặc điểm từ vựng khác chí lên đến 84,1% Bên cạnh đặc điểm từ vựng bề mặt trích xuất từ văn định, tần suất xuất từ văn sử dụng phổ biến để đo độ khó đọc Càng nhiều từ thơng dụng, dễ hiểu khả đọc cao 2.2 Đặc trưng cú pháp Sự phức tạp cú pháp yếu tố rõ ràng ảnh hưởng đến khả đọc văn Cấu trúc cú pháp văn định ảnh hưởng đến trình đọc hiểu Một cấu trúc cú pháp phức tạp thường gây hiệu đọc hiểu thấp Nếu câu không tuân theo quy tắc ngữ pháp chuẩn (các câu không ngữ pháp), câu có số khả đọc hiểu thấp Các đặc điểm cú pháp phổ biến sử dụng số khả đọc hiểu bao gồm chiều cao phân tích cú pháp trung bình, số lượng danh từ, động từ, cụm giới từ trung bình câu, số mệnh đề phụ trung bình câu Ngồi ra, tỷ lệ phân tích cú pháp không đầy đủ văn sử dụng tính Các phân tích cú pháp thực cách sử dụng cơng cụ phân tích cú pháp nơng Sundance English Slot Grammar (ESG) Thông thường, việc tập trung vào nhiều cụm từ mệnh đề làm tăng độ khó hiểu câu Trong số đặc điểm cú pháp này, cụm danh từ động từ đặc điểm quan trọng việc dự đốn cho đánh giá độ khó văn 12 TIEU LUAN MOI download : skknchat@gmail.com 2.3 Đặc trưng diễn ngôn Lijun Feng cộng (2010) triển khai bốn loại tính diễn ngơn: tính mật độ thực thể, tính chuỗi từ vựng, tính tham chiếu cốt lõi tính lưới thực thể Các thực thể tạo thành thành phần khái niệm mệnh đề, sở q trình diễn ngơn cấp độ cao Số lượng thực thể văn liên quan đến trí nhớ độc giả Do đó, tính mật độ thực thể có liên quan đến khả đọc văn Các tính chuỗi từ vựng sử dụng để đánh giá mối quan hệ ngữ nghĩa thực thể Các thực thể định nghĩa tham chiếu tham chiếu người đối tượng thành chuỗi đồng tham chiếu Trong tất tính diễn ngơn, tính mật độ thực thể khuyến khích để đạt kết dự đốn tốt độ khó văn 2.4 Các tính ổn định đọc sử dụng mơ hình ngơn ngữ thống kê Các mơ hình ngôn ngữ thống kê (LM) sử dụng rộng rãi thước đo khả đọc để nắm bắt tính ngơn ngữ tự nhiên Các mơ hình dự đoán xác suất mà chuỗi từ chuỗi từ loại cụ thể xảy Các phương pháp sử dụng để nắm bắt thông tin nội dung liên quan đến độ khó văn Mơ hình thống kê sử dụng phổ biến mơ hình n-gram giả định chuỗi từ (n-1) thứ tự trình Markov 2.5 Đặc trưng dựa từ loại Các đặc điểm ngữ pháp dựa từ loại chứng minh hữu ích việc dự đốn khả đọc nghiên cứu Heil man cộng (2007), Leroy cộng (2008) Năm loại từ (danh từ, động từ, tính từ, trạng từ giới từ) hai loại lớn (từ nội dung, từ chức năng), nội dung từ bao gồm danh từ, động từ, chữ số, tính từ trạng từ; loại từ kết nối từ chức Từ loại từ có từ việc kiểm tra nút dựa đầu phương pháp phân tích cú pháp Charniak, nút bao gồm từ từ loại thích 13 TIEU LUAN MOI download : skknchat@gmail.com Chương Machine Learning Một phương pháp khác để đánh giá độ khó văn ứng dụng machine learning vào việc đánh giá Bắt đầu việc có liệu phân loại độ khó (dễ, trung bình, khó) chấm điểm (1 đến 10), ta xem xét độ phức tạp thông qua ứng dụng máy học Việc xây dựng mơ hình chủ yếu có hai hướng, bao gồm toán phân loại văn thành cấp độ, tốn hồi quy mức độ khó thành thang điểm Sau dựa liệu testing validation để đánh giá mơ hình có hiệu hay khơng ❼ Bài tốn phân tích hồi quy tìm cách xác định biến độc lập ảnh hưởng đến biến phụ thuộc (ở độ khó văn bản) Nói cách đơn giản, ta tìm phương trình tốn học để thể độ khó văn dựa biến Phân tích hồi quy tìm cơng thức để chấm điểm độ khó văn Tuy nhiên, thuật tốn hồi quy hồi quy logistic ứng dụng toán phân loại ❼ Bài toán phân loại máy học đưa định quan trắc thuộc loại dựa đặc tính Giới nghiên cứu đánh giá phương pháp máy học ngày thu nhiều triển vọng, có mức độ xác cao phương pháp cổ điển Trong ứng dụng máy học vào đánh giá độ khó văn có nhiều cách tiếp cận trọng toán phân loại, bao gồm Decision Tree, Naive Bayes, Support Vector Machine, Hồi quy logistic, Linear Discriminant Analysis, Random Forests, Boosting hay chí Neural Network Một nghiên cứu sơ cho thấy SVM LDA cho kết tốt 3.1 Logistic Regression Mơ hình hồi quy logistic dùng để tính xác suất tỷ lệ Y có khả thuộc vào phân loại Mơ hình hồi quy logistic thường để thể dạng: p(X) = eβ0 +β1 X + eβ0 +β1 X Các giá trị β0 β1 giá trị cần ước lượng mộ hình dựa liệu training Ở đây, phương pháp thường dùng để ước lượng maximum likelihood Mơ hình thêm vào nhiều tham số X khác Để mở rộng mơ hình hồi quy logistics cho trường hợp phân loại nhiều hai lớp, ví dụ có loại a, b, c ta đặt mơ hình gồm P r(Y = a|X) P r(Y = b|X), với phân loại lại P r(Y = c|X) = − P r(Y = a|X) − P r(Y = b|X) Tuy nhiên thực tế người ta không thường dùng theo phương pháp Một lý có dùng phương pháp Discriminant Analysis (phân tích biệt thức) để phân loại nhiều lớp 14 TIEU LUAN MOI download : skknchat@gmail.com 3.2 Linear Discriminant Analysis Hồi quy logistic sử dụng trực tiếp mơ hình P r(Y = k|X = x) cho trường hợp có lớp Trong thuật ngữ thống kê tức ta mơ hình phân phối có điều kiện Y với dự đoán X Ta xem xét phương pháp thay trực tiếp để tính tốn khả Trong đó, ta mơ hình phân phối dự báo X riêng biệt với phân loại Y , sử dụng thuyết Bayes để đưa chúng vào ước lượng cho P r(Y = k|X = x) Khi phân phối giả định chuẩn, mơ hình trở nên tương tự hồi quy logic Lý ta dùng mơ hình thay hồi quy logic là: ❼ Khi lớp khác biệt rõ rệt với nhau, ước lượng tham số cho mơ hình hồi quy logic lại khơng cịn ổn định, phân tích biệt thức tuyến tính khơng gặp vấn đề ❼ Nếu mẫu nhỏ phân phối ước lượng X gần chuẩn cho lớp, mô hình biệt thức tuyến tính lại ổn định ❼ Mơ hình phân tích biệt thức tuyến tính phổ biến phân loại nhiều hai lớp Giả sử ta muốn thực phân loại quan trắc thành K lớp với K tối thiểu Nói cách khác, kết định tính biến Y nhận K giá trị phân biệt không liên tục Gọi giá trị tỉ lệ tiên nghiệm (hay tỉ lệ quan trắc thuộc lớp k) Đặt hàm hàm mật độ X cho quan trắc từ lớp k Nói cách khác, hàm f cho giá trị lớn quan trắc X thuộc lớp k có giá trị X gần x, hàm f nhỏ quan trắc có khả x Theo định lý Bayes ta thể là: πk fk (x) K l=1 πl fl (x) P r(Y = k|X = x) = Ta dùng dạng rút gọn sau: pk (X) = P r(Y = k|X) Theo đó, thay trực tiếp tính tốn pk (X), ta đưa vào ước lượng πk fk (x) vào hàm P r Nói chung, ta có mẫu ngẫu nhiên Y từ mẫu, ta dễ dàng ước lượng πk cách chia tổng quan trắc training vào lớp k Tuy nhiên, ta nên sử dụng công thức đơn giản để xác định fk (x) cách xem pk (X) xác suất hậu nghiệm để X = x thuộc lớp k Ta dự đốn cách tạo phân loại gần giống công thức Bayes fk (x) = √ 1 exp(− (x − µk )2 ) 2σk 2πσk πk √2πσ exp(− 2σ1 (x − µk )2 ) k pk (x) = k K √ l=1 πl 2πσk exp(− 2σ (x k δk (x) = x x= µ2k µk − + log(πk ) σ2 2σ µ − µ2 µ21 − µ22 = 2(µ1 − µ2 ) µ ˆk = σ2 = − µ k )2 ) n−K nk xi i:yi =k K (xi − µ ˆk )2 k=1 i:yi =k π ˆk = 15 nk n TIEU LUAN MOI download : skknchat@gmail.com µ ˆ2 µ ˆk πk ) δˆk (x) = x − k2 + log(ˆ σ ˆ 2ˆ σ Hàm phân loại LDA biến đổi dạng phương trình bậc x Do lý mơ hình gọi tuyến tính Để cài đặt LDA, ta ước lượng giá trị πk , fk (x), σ tìm ranh giới định Hình 3.1: Hàm phân loại LDA Trái: Mật độ phân phối chuẩn chiều hai nhóm Đường đứt nét biên phân chia Bayes Phải: Các quan trắc thể lên histogram Đường đứt nét biên phân chia Bayes Đường liền nét đường phân chia LDA ước lượng từ liệu training Nguồn: An Introduction to Statistical Learning with Applications in R Sau có ranh giới phân loại, ta xếp loại quan trắc dựa vào vị trí quan trắc so với ranh giới Như hình hoạ, tất điểm nằm bên trái ranh giới màu đen thuộc lớp xanh Ngược lại nằm bên phải thuộc phân loại hồng Tuy nhiên ta cần ý, phân loại LDA thu kết từ giả định quan trắc lớp tuân theo phân phối chuẩn với vector giá trị trung bình phương sai chung, kết hợp với ước lượng cho chúng phân loại Bayes 16 TIEU LUAN MOI download : skknchat@gmail.com Chương Support Vector Machine Support Vector Machine (máy vector hỗ trợ) phương pháp phân loại phát triển ngành khoa học máy tính vào năm 90 từ ngày phổ biến Nó khái qt hố công cụ phân loại đơn giản trực quan maximal margin classifier (phân loại cực đại biên) Từ maximal margin classifier cải tiến thành support vector classifier (phân loại vector hỗ trợ), từ phát triển thành SVM để thích nghi với ranh giới phân loại phi tuyến tính 4.1 Maximal Margin Classifer Hình 4.1: Mặt siêu phẳng khơng gian p chiều Hyperplane + 2X1 + 3X2 = Vùng màu xanh tập hợp điểm thoả phương trình + 2X1 + 3X2 > 0, vùng màu tím tập hợp điểm thoả + 2X1 + 3X2 < Nguồn: An Introduction to Statistical Learning with Applications in R Trong không gian p chiều, mặt siêu phẳng (hyperplane) không gian phẳng với chiều p − Ta phân loại tập liệu cách tìm hyperplane để phân tách hai loại với Như hình minh hoạ, hyperplane với phương trình + 2X1 + 3X2 = chia thành hai vùng xanh tím riêng biệt Do đó, với liệu X đó, ta tìm hyperplane để phân loại liệu Dựa hyperplane này, ta xác định quan trắc xa hyperplane ta khẳng định việc phân loại cho quan trắc Ngược lại quan trắc nằm gần hyperplane việc phân loại thiếu chắn dễ sai lầm Nói chung liệu ta chia tách hồn hảo siêu phẳng thực tế có vơ số siêu phẳng tồn thoả điều kiện Do ta cần có phương pháp để chọn 17 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.2: Trái: Có hai lớp quan trắc xanh tím ước lượng hai biến Có hyperplane thể Phải: Một hyperplane phân chia màu đen Vùng vô mô xanh tím thể cho luật phân chia thực classifier dựa hyperplane này: quan trắc rơi vào vùng xanh thuộc nhóm xanh, ngược lại thuộc nhóm tím Nguồn: An Introduction to Statistical Learning with Applications in R hyperplane hợp lý, lựa chọn tự nhiên hyperplane biên cực đại (maximal margin hyperplane hay optimal separating hyperplane) Một hyperplane biên cực đại hyperplane có khoảng ranh giới phân cách xa khỏi tập training Nghĩa ta tính tốn khoảng cách từ quan trắc training đến đường phân cách siêu phẳng thu khoảng cách nhỏ gọi biên (margin) Hyperplane biên cực đại đường hyperplane có margin lớn nhất, tức đường hyperplane xa quan trắc Từ đường phân cách này, ta phân loại quan trắc dựa vào phần biên mà quan trắc thuộc Ta kỳ vọng classifier có biên lớn tập training cho biên lớn tập kiểm thử, việc phân loại tập kiểm thử Tuy nhiên, classifier biên cực đại thường cho overfitting số chiều p lớn Trong biểu đồ trên, có quan trắc gần với đường hyperplane biên tối đa, nằm phần biên Các quan trắc support vector, chúng vector không gian p chiều chúng “hỗ trợ” đường hyperplane biên cực đại theo cách điểm dịch chuyển đường hyperplane biên cực đại dịch chuyển theo Đường hyperplane phụ thuộc trực tiếp vào support vector dựa vào quan trắc lại, tức quan trắc lại thay đổi không ảnh hưởng đến đường hyperplane 4.2 Support Vector Classifier Ở hình 4.4, quan trắc thuộc hai lớp chưa tách biệt rõ rệt mặt siêu phẳng (hyperplane) Thực tế hyperplane phân chia có tồn tại, có trường hợp classifier dựa cho kết không tốt Chẳng hạn classifier thể tốt cho tập dataset đó, nhiên cần thêm giá trị đơn lẻ vào làm cho classifier bị thay đổi lớn Nghĩa classifier nhạy với quan trắc cụ thể 18 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.3: Có hai lớp quan trắc xanh tím Đường maximal margin hyperplane đường liền nét Margin khoảng cách từ đường liền nét đến đường đứt đoạn Hai chấm xanh chấm tím nằm đường đứt đoạn support vector, khoảng cách đến hyperplane thể mũi tên Vùng xanh tím thể cho quy tắc phân loại classifer Nguồn: An Introduction to Statistical Learning with Applications in R Vì thế, classifier dựa hyperplane cách tốt để phân loại hai lớp, đôi lúc ta cần mơ hình để đánh đổi việc bỏ qua vài quan trắc nhỏ lẻ để phân loại tổng quát tốt Tức ta phân loại sai vài trường hợp để đạt kết phân loại tốt cho quan trắc lại Support vector classifier (hay soft margin classifier) hoạt động theo cách Tức thay tìm đường biên tốt quan trắc vừa nằm phía mặt siêu phẳng vừa nằm bên đường biên, ta cho phép có quan trắc cho kết sai tập training, từ việc nằm sai phía vùng biên đến nằm sai phía hyperplane 4.3 4.3.1 Support Vector Machine Phân loại ranh giới định phi tuyến Support vector classifier phương pháp tự nhiên để phân loại hai lớp ranh giới chúng tuyến tính Tuy nhiên, thực tế ta gặp trường hợp ranh giới lớp đường thẳng hình 4.6 Khi đó, support vector classifier cho kết tệ biểu đồ bên phải 19 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.4: Trong trường hợp hai loại liệu xanh tím khơng phân chia hyperplane, maximal margin classifer áp dụng Nguồn: An Introduction to Statistical Learning with Applications in R Để vượt qua vấn đề trên, người ta áp dụng thêm cách tăng khơng gian đặc tính việc sử dụng hàm parabol bậc 2, hàm đồ thị cong bậc chí hàm đa thức bậc cao cho predictor Chẳng hạn thay áp support vector classifier p đặc tính X1 , X2 , , Xp ta dùng lên đến 2p đặc tính gồm X1 , X12 , X2 , X22 , , Xp , Xp2 Khi cơng thức trở thành: maximizeβ0 ,β11 ,β12 , ,βp1 ,βp2 , p , , n ,M M p yi (β0 + βj2 x2ij ) βj1 xij + j=1 p n i M (1 − i ) j=1 C, i 2 βjk =1 0, i=1 j=1 k=1 Nhờ ta có ranh giới định phi tuyến tính Trong khơng gian đặc trưng mở rộng, ranh giới có từ cơng thức nêu thực tế đường thẳng Nhưng không đặc trưng gốc, ranh giới định dạng q(x) = với q hàm đa thức bậc hai với nghiệm đường thẳng Ta muốn tăng khơng gian đặc tính hàm đa thức bậc 20 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.5: Trái: Hai loại quan trắc xanh tím với maximal margin hyperplane Phải: đưa thêm quan trắc xanh làm thay đổi lớn đường maximal margin hyperplane Đường đứt khúc maximal margin hyperplane cũ trước đưa thêm quan trắc Nguồn: An Introduction to Statistical Learning with Applications in R cao hơn, hàm tương tác (interaction) dạng Xi Xj với i = j Ngoài ra, hàm dự đốn khác xem xét bên cạnh hàm đa thức Dễ thấy có nhiều cách để phóng to mơ hình đặc trưng, khơng cẩn thận ta gặp phải mơ hình với số lượng vơ lớn đặc trưng dẫn đến việc tính tốn khơng kiểm sốt Mơ hình SVM cho phép mở rộng không gian đặc trưng theo cách việc tính tốn hiệu 4.3.2 Support Vector Machine SVM mở rộng support vector classifier cách mở rộng khơng gian đặc tính thơng qua kernel Ý tưởng ta muốn mở rộng khơng gian đặc trưng để thích ứng với ranh giới khơng tuyến tính phân lớp Phương pháp kernel đơn giản phương pháp tính tốn hiệu để thực hóa ý tưởng Vấn đề support vector classifier bao gồm khơng gian tích (inner product) quan trắc khơng phải quan trắc Những thông tin bên r vector a b định nghĩa a, b = ri=1 bi Dẫn đến tích hai quan trắc xi , xi công thức xi , xi = rj=1 xij xi j với n tham số αi , i = 1, , n cho quan trắc Khi đó, để đánh giá hàm f (x) Support Vector Classifier tuyến tính, ta cần tính tích điểm x điểm training xi Tuy nhiên, nghiệm αi cho support vector; tức quan trắc học khơng phải support vector αi Tóm lại để thể classifier tuyến tính f (x) cho việc tính tốn hiệu quả, ta cần tích Giả sử tích xuất hiện, hay tìm nghiệm cho support vector classifier, ta thay chuẩn hố tích với dạng K(xi , xi ) với K hàm ta gọi kernel Hàm kernel định lượng tương tự hai quan trắc Từ ta có hàm kernel tuyến tính support vector classifier tuyến tính đặc trưng Người ta đưa support vector classifier không gian nhiều chiều vào kernel hàm đa thức bậc d > để đạt ranh giới định linh hoạt hơn, cách support vector machine Nhờ vào việc áp dụng kernel, ta dựng lên thuật tốn phi tuyến tính từ cơng thức 21 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.6: Trái: Hai loại quan trắc khơng thể áp dụng đường phân chia tuyến tính Phải: Support vector classifier có tìm rành giới tuyến tính cho mẫu cho kết tệ Nguồn: An Introduction to Statistical Learning with Applications in R tuyến tính mà khơng thay đổi thiết kế ban đầu Ngồi hàm đa thức kernel thể thay hàm radical kernel Khi sử dụng radical kernel, quan trắc nằm xa khỏi quan trắc mà ta quan tâm khơng có hành hưởng lớn việc phân loại Radical kernel có đặc tính local cao, tức quan trắc nằm gần có ảnh hưởng đến việc phân loại SVM ban đầu thiết kế việc phân loại hai lớp, ta cần mở rộng SVM để phân loại cho nhiều hai Có nhiều thiết kế để mở rộng SVM cho phân loại K lớp, phổ biến một-một (one versus one) một-tất (one-versus-all): ❼ Phân loại một-một: Cách xây dựng tổ hợp K chập SVM, so sánh cặp phân loại Ta phân loại quan trắc kiểm thử cách sử dụng classifier ghi lại số lần phân loại Cuối phân loại cách dựa vào lớp xếp loại nhiều ❼ Phân loại một-tất cả: Đầu tiên fit K SVM, lần so sánh lớp thứ K với K − lớp lại Mỗi lần ta thu giá trị β0k , β1k , , βpk từ việc fit SVM so sánh lớp thứ K (mã 1) với K − lớp lại (mã -1) Ta phân loại dựa vào biểu thức: β0k + β1k x∗1 + + βpk x∗p cho giá trị lớn lớp nào, giá trị biểu thức độ tin cậy quan trắc có thuộc lớp K hay không 4.4 Áp dụng SVM đánh giá độ khó văn Trong nghiên cứu, Schwarm, Sarah E cộng (2005) việc sử dụng công cụ xác định dựa SVM kết hợp LM đặc trưng khác cho kết vượt trội so với công cụ dựa LM, kết hợp SVM với mơ hình ngơn ngữ n-grams, mơ hình thống kê ngơn ngữ với đặc tính độ dài câu trung bình, độ dài trung bình từ, điểm Flesch-Kincaid, v.v để phân loại độ khó văn bản, kết cho thấy việc phân loại loại văn dễ khó cho kết tốt Tuy nhiên loại văn có độ khó trung bình có hiệu suất điểm phải phân 22 TIEU LUAN MOI download : skknchat@gmail.com Hình 4.7: Trái: Một SVM sử dụng hàm số bậc để phân loại dẫn đến kết xác nhiều so với hàm tuyến tính Phải: Một phân loại sử dụng radical kernal Cả hai kernel sử dụng để phân loại liệu biệt với loại cận bên Sarah E Petersen Mari Ostendor (2008) phát triển phương pháp đánh giá trình độ độc cách kết hợp SVM với đặc trưng từ mơ hình ngơn ngữ thống kê (LM), cú pháp (parse tree), nhiều đặc trưng truyền thống khác Nhóm tác giả kết hợp n-gram LM, cú pháp phương pháp đánh giá độ khó truyền thống vào framework SVM để phân loại độ khó văn Họ thấy với ngữ liệu giới hạn, phân loại thể tốt phương pháp có sẵn khác độ hiệu gần khả thích người Bộ phân loại SVM chuẩn hố để áp dụng cho văn tin tức Việc thêm vào liệu để học có mức phủ định âm cao làm tăng độ hiệu việc chuẩn hoá nhờ vào việc giảm dương tính giả (false positive) mà không làm giảm nhiều hiệu suất so với liệu kiểm thử ban đầu Bộ phân loại SVM học nên không ngạc nhiên mà chúng vượt qua classifier thông thường, đặc trưng quan trọng tối ưu hố hiệu cho nhu cầu cụ thể nhóm hay chí cá nhân Nhóm tác giả cịn thấy người lẫn SVM xác định tốt mức độ điểm thấp Tanaka-Ishii cộng (2010)đã sử dụng model để đánh giá văn cách sorting Phương pháp so sánh độ khó văn qua cách so sánh với văn khác thay đưa số đánh giá độ khó tuyệt đối văn Nghiên cứu sử dụng SVM để xem văn khó đưa văn vào vị trí độ khó dựa vào binary insertion sorting Cách tiếp cận tận dụng việc cần có hai loại độ khó để thực cho việc so sánh 23 TIEU LUAN MOI download : skknchat@gmail.com Tài liệu tham khảo [1] L Feng, M Jansche, M Huenerfauth, N Elhadad A comparison of features for automatic readability assessment 2010 [2] Kang, Tian, Noémie Elhadad, and Chunhua Weng Initial readability assessment of clinical trial eligibility criteria AMIA Annual Symposium Proceedings Vol 2015 American Medical Informatics Association, 2015 [3] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani An Introduction to Statistical Learning with Applications in R Springer [4] Sarah E Petersen and Mari Ostendorf A machine learning approach to reading level assessment University of Washington CSE Technical Report, 2016 [5] DuBay, William H The Principles of Readability Online Submission (2004) [6] Collins-Thompson, Kevyn Computational assessment of text readability: A survey of current and future research ITL-International Journal of Applied Linguistics 165.2 (2014): 97-135 [7] Schwarm, Sarah E., and Mari Ostendorf Reading level assessment using support vector machines and statistical language models Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL’05) 2005 [8] Tanaka-Ishii, Kumiko, Satoshi Tezuka, and Hiroshi Terada Sorting texts by readability Computational Linguistics 36.2 (2010): 203-227 [9] Zhang, Lixiao, Zaiying Liu, and Jun Ni Feature-based assessment of text readability 2013 Seventh International Conference on Internet Computing for Engineering and Science IEEE, 2013 24 TIEU LUAN MOI download : skknchat@gmail.com ... đánh giá độ khó văn Một số tiêu chuẩn đặt dùng để đánh giá độ khó văn bản: ❼ Đánh giá chuyên gia: đồng ý số chun gia ngơn ngữ học cấp độ khó văn ❼ Văn từ sách giáo khoa: biến thể tiêu chuẩn đánh. .. câu văn sử dụng để dự đốn độ khó văn ❼ Đồng văn bản: lý thuyết nhận thức ngôn ngữ thúc đẩy mối quan tâm đến đánh giá định tính chủ quan độ khó văn Với đào tạo, đồng văn có hiệu việc đánh giá. .. để đánh giá văn cách sorting Phương pháp so sánh độ khó văn qua cách so sánh với văn khác thay đưa số đánh giá độ khó tuyệt đối văn Nghiên cứu sử dụng SVM để xem văn khó đưa văn vào vị trí độ khó