BÁO cáo môn học xử lý NGÔN NGỮ tự NHIÊN độ KHÓ văn bản

ĐỘ KHĨ VĂN BẢN BÁO CÁO MƠN HỌC XỬ LÝ NGƠN NGỮ TỰ NHIÊN ĐỘ KHĨ VĂN BẢN Giảng viên: PGS.TS Đinh Điền NHÓM 10 Danh sách thành viên: STT Họ tên MSHV Email Nguyễn Duy Minh Khôi 20C29027 ndminhkhoi46@gmail.com Dương Quốc Đạt 20C29019 dat181197@gmail.com Trần Duy Khang 20C29025 dktran.et@gmail.com ĐỘ KHÓ VĂN BẢN I Giới thiệu: Đơ khó văn Những khái niệm dễ nhầm lẫn Các ứng dụng độ khó văn 3 II Các giai đoạn phát triển độ khó văn bản: III Một số cơng thức tính độ khó văn tiếng Công thức Flesch-Kincaid Công thức Dale-Chall Công thức Gunning fog Biểu đồ Fry - (Fry readability graph) Công thức McLaughlin SMOG Công thức FORCAST 6 10 10 12 IV Bài tốn độ khó văn với hướng tiếp cận sử dụng trí tuệ nhân tạo Các ngữ liệu phổ biến: Các đặc trưng thường sử dụng mơ hình độ khó văn bản: Các mơ hình học máy 13 13 14 18 V Sử dụng cơng thức độ khó văn bản: 18 VI Những thách thức độ khó văn hướng tiếp cận AI 19 VIII Thực nghiệm xây dựng mô hình phân loại độ khó văn Bộ ngữ liệu Các loại đặc trưng sử dụng Các thuật toán học máy Kết Đánh giá 20 20 21 22 23 23 Trích dẫn 24 ĐỘ KHĨ VĂN BẢN I Giới thiệu: Đơ khó văn Là độ dễ hiểu văn nhóm độc giả định Trong ngơn ngữ tự nhiên, độ khó văn phụ thuộc vào nội dung (từ vựng cấu trúc câu) hình thức (cách bố trí văn bản) hướng tới nhóm độc giả (có số đặc điểm: kỹ đọc, kiến thức, sở thích, ) Các yếu tố thường xét đến đo độ khó văn là: ● Tốc độ đọc nhận thức người đọc ● Khả đọc hiểu khoảng cách định ● Khả đọc hiểu tầm nhìn ngoại vi ● Độ rõ ràng văn ● Độ khó chữ viết ● Phân tích N-gram Độ khó văn tồn ngôn ngữ tự nhiên ngơn ngữ lập trình dạng khác Đối với ngơn ngữ lập trình, thích (comments) lập trình viên, cấu trúc vịng lặp (loop structure) cách chọn tên (choice of names) ảnh hưởng đến mức độ khó mã chương trình máy tính người khác Những khái niệm dễ nhầm lẫn ● Legibility – Tính dễ nhìn Tính dễ nhìn là dễ dàng mà người đọc giải mã ký hiệu. Ngồi ngơn ngữ viết, đề cập đến hành vi kiến trúc, chẳng hạn. Dưới góc độ nghiên cứu ĐỘ KHĨ VĂN BẢN truyền thơng , mơ tả thước đo tính thẩm thấu một kênh truyền thơng . Một số lượng lớn yếu tố biết ảnh hưởng đến tính dễ nhìn Trong ngơn ngữ hàng ngày, tính dễ nhìn thường sử dụng từ đồng nghĩa với khả đọc. Trong thiết kế đồ họa, nhiên, tính dễ nhìn thường phân biệt với độ khó văn bản. Độ khó văn dễ dàng mà người đọc theo dõi hiểu từ, câu đoạn văn. Trong độ khó văn thường đề cập đến rõ ràng trực quan ký hiệu riêng lẻ, tính dễ nhìn lại liên quan đến xếp chúng chí lựa chọn từ Tính dễ nhìn thành phần độ khó văn ● Reading comprehension – Khả đọc hiểu Khả đọc hiểu kỹ đọc chữ viết thẩm thấu nội dung văn Các ứng dụng độ khó văn Một số ứng dụng độ khó văn bao gồm: ● Lựa chọn tài liệu để dùng sách giáo khoa ● Hiệu chỉnh ngôn ngữ dùng sách trẻ em ● Thúc đẩy trình học tập ● Giúp tăng số lượng đọc giả cho nhà xuất sách, báo ● Kiểm sốt độ khó cho văn hành chính, giúp tiết kiệm thời gian ngân sách cho công ty II Các giai đoạn phát triển độ khó văn bản: ● The origins (1880-1930): Là giai đoạn hình thành nghiên cứu ban đầu Người ta tìm tìm yếu tố gây tính khó đọc sách nhóm người cụ thể ĐỘ KHÓ VĂN BẢN Một mục tiêu ban đầu nghiên cứu Readability nhằm phát triển phương pháp chọn tài liệu đọc phù hợp với khả đọc người nâng cao chất lượng giáo dục Những ứng dụng ban đầu thống kê vào phân tích độ khó văn Vào năm 1923, Bertha A Lively Sidney L Pressey cho dời công thức để đo lường độ khó văn Đây cơng thức sử dụng yếu tố từ vựng số từ hay tần số từ Các nghiên cứu thời kì chủ yếu xác định độ khó văn dựa từ vựng cú pháp ● Classic Period (40-60): Sự đời công thức đo lường độ khó Các cơng thức thường xây dựng nhờ vào thống kê tận dụng yếu tố liên quan đến tính chất từ vựng cú pháp Khi việc nghiên cứu ngày phát triển cơng thức tính tốn độ khó ngày trở nên phức tạp hơn, việc sử dụng nhiều biến để giải thích khơng thể tránh khỏi Ở giai đoạn này, nghiên cứu độ khó văn lại tìm kiếm cơng thức có tính đơn giản hiệu lý sau: - Nhiều biến dự đoán đề để giải thích cho độ khó văn người ta phát có xuất hiện tượng đa cộng tuyến chúng - Hầu hết tính tốn thủ cơng, cơng thức dễ dàng giúp việc tính tốn thực nhanh ● Structuro-cognitivitst period (70-80): Khi người ta bắt đầu xét đến khía cạnh khác văn (liên kết, cấu trúc, suy luận…) vào việc tính tốn độ khó Do ảnh hưởng thuyết kiến tạo giáo dục nên góc nhìn nghiên cứu vượt khỏi mức độ từ câu, hướng trọng tâm người thay văn Tính đến q trình ĐỘ KHĨ VĂN BẢN tinh thần trí nhớ, hiểu biết, kiến thức người đọc (các yếu tố nhận thức) Trong ngôn ngữ học, tập trung vào tính liên kết, mạch lạc ngữ pháp văn (các yếu tố cấu trúc) Ngồi có phê bình hướng nghiên cứu cổ điển như: Độ khó văn cần phải nghiên cứu sâu thay câu, từ (các biến hình thức bên ngồi) Hầu hết nghiên cứu giai đoạn hướng đến: tổ chức văn bản, liên kết, găn kết văn bản, cấu trúc tu từ… Nhưng đặc trưng liên quan đến từ vựng, cú pháp thể trọng số lớn mô hình dự đốn độ khó ● AI Readability (90-nay): Các đặc tính ngơn ngữ tìm thấy công cụ NLP tiên tiến ứng dụng thuật tốn thống kê phức tạp Đâu thời kì ứng dụng Machine Learning độ khó văn Những công cụ xử lý ngôn ngữ tự nhiên mạnh mẽ đời ứng dụng việc tham số hoá đặc trưng, nhanh dễ dàng Sử dụng nhiều predictors mơ hình dự đốn Độ khó văn định nghĩa toán phân loại ứng dụng phương pháp ML đại để giải Mơ hình sử dụng đa dạng biến từ từ vựng, cú pháp ngữ nghĩa, diễn ngôn, nhận thức, liên kết Dựa mơ hình nghiên cứu trước đó, nâng cao đưa vào mơ hình học máy Ứng dụng cơng cụ NLP phân tích cú pháp, sử dụng features vào mơ SVM III Một số cơng thức tính độ khó văn tiếng Công thức Flesch-Kincaid Vào năm 1943, Rudolf Flesch xây dựng nên cơng thức tính độ khó văn dùng để dự đốn độ khó tài liệu đọc dành cho người lớn Một biến xét đến ĐỘ KHÓ VĂN BẢN tham chiếu cá nhân (personal references), chẳng hạn tên đại từ nhân xưng Một biến khác phụ tố (affixes) Năm 1948, ông công bố công thức Reading Ease bao gồm hai phần Thay sử dụng cấp độ lớp (grade levels), công thức chuyển sang thang điểm từ đến 100, với tương đương với lớp 12 100 tương đương với lớp Công thức loại bỏ việc xử dụng phụ tố (affixes) Phần thứ hai công thức dự đoán quan tâm người đọc cách sử dụng tham chiếu cá nhân số lượng câu cá nhân Cơng thức có độ tương quan 0.70 với kiểm tra đọc McCall-Crabbs Công thức ban đầu định nghĩa sau: Reading Ease score = 206,835 - (1,015 × ASL) - (84,6 × ASW) Trong đó: ASL = độ dài trung bình câu (số từ chia cho số câu) ASW = độ dài từ trung bình tính âm tiết (số âm tiết chia cho số từ) Các nhà xuất phát cơng thức Flesch tăng lượng độc giả lên đến 60 phần trăm Công việc Flesch tạo tác động to lớn ngành báo chí Cơng thức Flesch Reading Ease trở thành thước đo khả đọc sử dụng rộng rãi, thử nghiệm đáng tin cậy Năm 1951, Farr, Jenkins Patterson đơn giản hóa cơng thức cách thay đổi số lượng âm tiết Công thức sửa đổi là: Điểm dễ đọc = 1.599nosw - 1.015sl - 31.517 Trong đó: nosw = số từ âm tiết 100 từ sl = độ dài câu trung bình tính từ Vào năm 1975, dự án Hải quân Hoa Kỳ tài trợ, công thức Reading Ease tính tốn lại điểm cấp lớp Công thức gọi công thức cấp lớp Flesch – Kincaid Công thức Flesch – Kincaid công thức phổ biến thử ĐỘ KHĨ VĂN BẢN nghiệm nhiều Nó tương quan 0,91 với khả đọc hiểu (comprehension) đo kiểm tra đọc Công thức Dale-Chall Công thức xây dựng giáo sư giáo dục Edgar Dale, nhà phê bình danh sách tần suất từ Thorndike (Thorndike's vocabulary-frequency lists) Ơng tun bố họ khơng phân biệt ý nghĩa khác mà nhiều từ có Ông tạo hai danh sách riêng Một, "danh sách ngắn" gồm 769 từ đơn giản, Irving Lorge sử dụng công thức Cuốn cịn lại "danh sách dài" 3.000 từ dễ hiểu ông, 80% học sinh lớp hiểu Tuy nhiên, người ta phải mở rộng danh sách từ danh từ số nhiều thông thường, dạng thơng thường q khứ động từ, dạng tăng dần động từ, v.v Năm 1948, ông kết hợp danh sách vào công thức mà ông phát triển với Jeanne S Chall, người sau thành lập Phịng thí nghiệm Đọc Harvard Cơng thức thực theo bước sau: Chọn số mẫu 100 từ suốt văn Tính độ dài trung bình câu từ (chia số từ cho số câu) Tính tỷ lệ phần trăm từ KHƠNG có danh sách 3.000 từ dễ hiểu Dale – Chall Tính tốn phương trình từ năm 1948: Raw score = 0.1579*(PDW) + 0.0496*(ASL) phần trăm PDW nhỏ 5%, khơng tính Raw score = 0.1579*(PDW) + 0.0496*(ASL) + 3.6365 với: ĐỘ KHÓ VĂN BẢN Raw score = điểm đọc chưa hiệu chỉnh học sinh trả lời nửa số câu hỏi kiểm tra đoạn văn PDW = Tỷ lệ phần trăm từ khó khơng có danh sách từ Dale – Chall ASL = Độ dài câu trung bình Cuối cùng, để bù cho "grade-equivalent curve", áp dụng bảng sau cho Điểm cuối cùng: Raw Score Final Score 4.9 and below Grade and below 5.0–5.9 Grades 5–6 6.0–6.9 Grades 7–8 7.0–7.9 Grades 9–10 8.0–8.9 Grades 11–12 9.0–9.9 Grades 13–15 (college) 10 and above Grades 16 and above Với độ tương quan 0.93 với khả đọc hiểu (comprehension) đo kiểm tra đọc, công thức Dale-Chall công thức tin cậy xử dụng rộng rãi lĩnh vực nghiên cứu Vào năm 1995, Dale Chall xuất phiên công thức họ với danh sách từ cập nhật, cơng thức độ khó văn sau: Raw score = 64 - 0.95 *(PDW) - 0.69 *(ASL) Công thức Gunning fog Vào năm 1940, Robert Gunning giúp đưa nghiên cứu khả đọc vào nơi làm việc Năm 1944, ông thành lập công ty tư vấn khả đọc dành riêng cho việc giảm "sương mù" báo chí kinh doanh Năm 1952, ơng xuất “Technique of Clear ĐỘ KHÓ VĂN BẢN Writing” với số Fog Index, cơng thức có độ tương quan 0,91 với khả hiểu đo kiểm tra đọc [9] Công thức công thức đáng tin cậy đơn giản để áp dụng: Grade level= 0.4 * ( (average sentence length) + (percentage of Hard Words) ) với: Hard Words = từ có nhiều hai âm tiết Biểu đồ Fry - (Fry readability graph) Độ khó văn tính số câu trung bình 100 từ (trục y) số âm tiết trung bình 100 từ (trục x) Các điểm vẽ lên đồ thị bên Các đường thẳng cắt đường cong tách thành vùng có độ tương ứng với từ đến 15 Các điểm vẽ vùng xem có độ khó xấp xỉ với vùng Fry công thức thường sử dụng y tế, thư viện đơn giản thuận tiện nhiều người Công thức McLaughlin SMOG G Harry McLaughlin đề xuất công thức “SMOG Readability Formula” vào năm 1969 thông qua báo ông, SMOG Grading – A New Readability Formula đăng tạp chí Journal of Reading Cơng thức độ khó SMOG ước lượng số năm học tập cần thiết để người 10 ĐỘ KHÓ VĂN BẢN hiểu phần văn McLaughlin tạo công thức cải tiến cơng thức xác định độ khó văn khác Các bước tính tốn cơng thức SMOG sau: Bước 1: Đưa vào toàn văn Bước 2: Lấy 10 câu liên tiếp gần đầu tiền, 10 câu 10 câu cuối văn Bước 3: Đếm tất từ có âm tiết nhóm câu bước Xét trường hợp từ lặp lại nhóm Bước 4: Tính bậc số có từ bước sau làm trịn đến gần 10 Bước 5: Công thêm vào kết bước để có SMOG Grade, cấp học mà người phải đạt để hiểu toàn văn đưa SMOG grade = + Square Root of Polysyllable Count Công thức SMOG coi phù hợp cho độc giả lứa tuổi trung học Đối với trường hợp văn ngắn 30 câu, công thức SMOG điều chỉnh sau: Đếm toàn từ đa âm tiết văn Đếm số câu văn Tính từ đa âm tiết trung bình câu cách lấy kết (1) chia cho kết (2) Nhân kết từ (3) với 30 Cộng số có với tổng số từ đa âm tiết Tra bảng chuyển đổi SMOG SMOG Conversion Table Total Polysyllabic Word Count Approximate Grade Level (+1.5 Grades) 1-6 11 ĐỘ KHÓ VĂN BẢN - 12 13 - 20 21 - 30 31 - 42 43 - 56 10 57 - 72 11 73 - 90 12 91 - 110 13 111 - 132 14 133 - 156 15 157 - 182 16 183 - 210 17 211 - 240 18 Công thức FORCAST Năm 1970, nhiều cơng thức tính độ khó văn đưa FORCAST kết xu hướng Công thức đề xuất HUMRRO - phòng nghiên cứu quân đội Mỹ, nỗ lực tìm kiếm giải pháp cải thiện tài liệu đào tạo cho nhân Công thức sau: Grade level = 20 − (N / 10) Where N = number of single-syllable words in a 150-word sample 12 ĐỘ KHĨ VĂN BẢN Cơng thức này, không công thức khác, không dựa câu hoàn chỉnh mà sử dụng yếu tố từ vựng Ngồi khơng thiết kế cho mục đích phân tích tài liệu học đường FORCAST giải pháp tốt cho tài liệu kĩ thuật tài liệu hướng dẫn đào tạo, câu hỏi khảo sát, biểu mẫu, kiểm trắc nghiệm Bởi tính dễ sử dụng, công thức giúp quân đội Mỹ cải thiện tính dễ đọc tài liệu Khơng qn Hịa Kỳ thức phê duyệt cơng thức vào cuối 1970 Đề xuất cho người viết kĩ thuật, soạn thảo bảng câu hỏi khảo sát…là đặt mục tiệu FORCAST grade 9-10 cho văn IV Bài tốn độ khó văn với hướng tiếp cận sử dụng trí tuệ nhân tạo Ba thành phần quan trọng mơ hình Machine learning bao gồm Kho ngữ liệu, đặc trưng mơ hình Text readability ngoại lệ Các ngữ liệu phổ biến: a Weebit: 3125 báo giáo dục từ website Weekly Reader BBC-Bitesize chia thành mức độ khó tương ứng với số tuổi từ đến 16 tuổi Đây ngữ liệu thường sử dụng nghiên cứu readability có sử dụng ngữ liệu b Newsela: hàng ngàn báo tin tức chuyên viên biên tập Newsela phân loại thành mức độ khác Đây ngữ liệu thường sử dụng nghiên cứu đơn giản hóa văn Nhưng thường dùng đo độ khó văn 13 ĐỘ KHÓ VĂN BẢN Các đặc trưng thường sử dụng mơ hình độ khó văn bản: Trong lịch sử q trình nghiên cứu độ khó văn bản, phương pháp đánh giá xây dựng từ năm đầu kỉ trước Ban đầu nhà nghiên cứu đánh giá độ khó dựa yếu tố mang tính chất hình thức bên ngồi văn trung bình độ dài từ theo ký tự, trung bình độ dài câu theo từ Các đặc trưng phân tích định lượng tương đối dễ thực lại chưa tính đến khía cạnh khác văn Giai đoạn sau này, nhiều đặc điểm ngôn ngữ khác đưa vào mô hình dự đốn độ khó đặc điểm từ vựng, cú pháp, tính mạch lạc diễn ngơn, cấu trúc văn Một hướng tiếp cận đáng ý khác xem xét việc đọc văn trình nhận thức, nhiều nghiên cứu đề xuất xác định độ khó văn dựa trình nhận thức việc đọc tương tác người đọc nội dung văn Thực nghiệm cho thấy đặc điểm features văn có ảnh hưởng lớn việc đo lường, dự đoán độ khó văn Thậm chí kết thực nghiệm kết luận features xác định tốt ảnh hưởng nhiều việc chọn mơ hình Machine Learning phù hợp Một mơ hình cho dù tốt, đáng tin cậy thơng tin features khơng có ý nghĩa cho kết tin cậy a Khía cạnh từ vựng, ngữ nghĩa: Văn góc nhìn tập hợp từ vựng Do đó, đặc tính từ vựng có ảnh hưởng lớn đến độ khó văn Ví dụ: cách tự nhiên văn có q nhiều từ khó đọc, khó hiểu làm người đọc khó nắm bắt ý nghĩa hơn, tức độ khó văn tăng lên Thông thường, đặc trưng từ vựng dùng xác định độ khó văn bao gồm từ loại độ dài từ, độ da dạng từ, độ khó từ, cụ thể sau: ● Số âm tiết trung bình từ 14 ĐỘ KHÓ VĂN BẢN ● Tỷ lệ số từ nằm ngữ liệu tổng số từ ngữ liệu ● Tỷ lệ số token riêng biệt tổng số token ● Tỷ lệ số từ hư tổng số từ ngữ liệu ● Tỷ lệ số đại từ tổng số từ ngữ liệu ● Chỉ số Perplexity mơ hình ngơn ngữ ● Mức độ dạng từ vựng (đối với mơ hình ứng dụng cho người đọc L2) ● Tần số từ phổ biến b Khía cạnh cú pháp: Độ phức tạp hay đơn giản cú pháp văn rõ ràng có ảnh hưởng lớn độ khó văn Cụ thể tương quan nhân tố thời gian xử lý để hiểu văn Một văn với cấu trúc cú pháp phức tạp làm tăng độ khó văn lên nhiều Ngồi cú pháp câu không tuân theo ngữ pháp chuẩn có tác động giảm mức độ dễ đọc văn Sự đời giải thuật phân tích cú pháp hỗ trợ lớn việc trích xuất đặc trưng cú pháp văn Các đặc trưng cú pháp thường thấy nghiên cứu gồm có: ● Chiều dài trung bình câu ● Chiều cao trung bình phân tích cú pháp ● Số cụm danh từ trung bình câu ● Số cụm động từ trung bình câu ● Số cụm giới từ trung bình câu ● Số lượng trung bình mệnh đề phụ thuộc câu ● Tỉ lệ câu có phân tích cú pháp bị khuyết (incomplete parse) 15 ĐỘ KHĨ VĂN BẢN Dựa kết cơng trình nghiên cứu cụm danh từ cụm động từ nhân tố quan trọng mơ hình dự đốn độ khó văn c Các đặc trưng dựa tiếp cận khác ngôn ngữ học: Diễn ngơn Một số cơng trình sử dụng hướng tiếp cận nghiên cứu số đặc tính diễn ngơn bao gồm: -Mật độ thực thể - Entity-Density (thông tin văn thường đưa thực thể - danh từ chung, thực thể đặt tên…) -Tổng số lượng thực thể toàn văn -Số lượng chuỗi từ vựng - Lexical Chain: chuỗi từ có liên quan ngữ nghĩa, nằm câu gần kề VD: Thủ Đức - Thành phố - dân cư -Đồng tham chiếu từ vựng - Coreference: VD: Nam học viên giỏi, anh vừa nhận học bổng -Ma trận thực thể - Entity Grid: Mảng chiều với chiều thực thể chiều lại câu văn bản, giá trị ô ma trận vai trò thực thể câu, bao gồm subject (S), object (O), S O (X), không tồn câu (-) - … Mật độ thực thể - Entity-Density đặc trưng đề nghị sử dụng để đạt kết tốt mơ hình dự đốn độ khó văn Feature dựa quan điểm Nhận thức Quan điểm nhận thức nhà ngôn ngữ học đưa dựa ảnh hưởng thuyết kiến tạo Hướng góc nhìn nghiên cứu phía người, tính đến q trình tinh thần người đọc bao gồm: kiến thức, hiểu biết, trí nhớ người đọc Tần suất thường xuyên từ, độ tương tự ngữ nghĩa, lặp lại gối lên câu từ chứa nội dung quan trọng, 16 ĐỘ KHĨ VĂN BẢN tính qn ngữ pháp đặc trưng xem xét nhiều Tuy nhiên thực tế đặc tính dường trùng khớp với đặc điểm từ vựng hay cú pháp Điểm khác biệt mơ hình hướng đến đối tượng người đọc trẻ em khác người lớn, người đọc ngữ người đọc L2, … d Đặc trưng trích xuất Deep Learning: Deep Learning ngày trở nên phổ biến tác vụ xử lý ngôn ngữ tự nhiên, cho thấy hiệu tốt nhiều tốn NLP Các mơ hình mạng Neural sử dụng đầu vào văn thơ vector embedding văn thay sử dụng feature ngơn ngữ học Tuy nhiên tốn Độ khó văn bản, việc dựa hồn tồn Deep Learning lại cho hiệu suất không thực cao hay chí thấp cịn mơ hình Machine Learning truyền thông Các nhà nghiên cứu đặt giả thuyết lượng liệu độ phức tạp mô hình chưa đủ để nắm bắt hết feature ngơn ngữ học Thực tế mơ hình đại BERT cho hiệu suất tốt kho ngữ liệu Weebit với Newsela lại cho kết không tốt Điều chứng minh mơ hình Deep Learning chưa thể tổng qt hóa tồn ngơn ngữ tự nhiên vào mơ hình Do đó, việc sử dụng kết hợp đặc trưng ngôn ngữ học với đặc trưng trích xuất mơ hình Deep Learning hỗ trợ khả tổng qt hóa hiệu suất mơ hình tổng, thực tế có nhiều báo nghiên cứu theo hướng cho thấy kết tốt mơ hình dự đốn độ khó văn Với hướng tiếp cận này, đặc trưng trích xuất Deep Learning (ví dụ BERT-pre-trained hay biến thể) sử dụng kết hợp đặc trưng ngôn ngữ để tạo thành đặc tạo thành đặc trưng đưa cho mơ hình Machine Learning truyền thống 17 ĐỘ KHĨ VĂN BẢN Các mơ hình học máy Tùy theo mục đích nghiên cứu mà tốn độ khó văn xem xét tốn hồi quy hay phân loại Như áp dụng mơ hình máy học tương ứng để giải vấn đề Trong thực tết mô hình nhà nghiên cứu sử dụng thường xuyên gồm có: - SVM - Linear Regression - Deep Learning: CNN, Transformer, - Các pre-train model ứng dụng cho tốn độ khó Để kiểm định mơ hình K-fold cross validation phương pháp thường dùng Các metric đánh giá hiệu mơ hình bao gồm: - Hệ số tương quan - Accuracy - Adjacent accuracy (tỷ lệ đánh giá gần khớp với độ khó đánh giá người) - Root mean square Error(RMSE) - Mean absolute error(MAE) Thơng thường mơ hình tốt metric định V Sử dụng cơng thức độ khó văn bản: ● Các chuyên gia đồng ý kết từ cơng thức độ khó văn đơn giản Flesch–Kincaid dễ gây hiểu lầm Mặc dù đặc trưng truyền thống chiều dài trung bình có mối tương quan cao độ khó đọc đo lường độ khó văn vấn đề phức tạp Trí tuệ nhân tạo (AI) hay phương pháp dựa ngữ liệu hình thành để lắp vào khoảng trống ● Các chuyên gia viết cảnh báo việc cố tình rút ngắn độ dài câu từ với mong muốn đơn giản hóa văn dẫn đến văn khó đọc Đó biến cố có quan hệ chặt chẽ với Nếu thay đổi đặc trưng phải thay đổi 18 ĐỘ KHĨ VĂN BẢN đặc trưng khác cách tiếp cận vấn đề, giọng nói, tính cách, âm sắc, kiểu chữ, cách thiết kế tổ chức văn ● Các chuyên gia viết nhận định bên cạnh việc sử dụng cơng thức đo độ khó văn cách máy móc ta cần phải xét đến tiêu chuẩn hay có viết tốt Vì điều cần thiết để viết nên văn dễ đọc Các tác giả phải nghiên cứu loại văn thường dùng đọc giả thói quen đọc họ Điều có nghĩa để viết văn cho đọc giả lớp năm, tác giả cần phải nghiên cứu văn lớp có chất lượng tốt VI Những thách thức độ khó văn hướng tiếp cận AI - Trong xây dựng kho ngữ liệu: Các phương pháp nghiên cứu yêu cầu kho ngữ liệu có gán nhãn với số lượng lớn Tuy vậy, nhiều toán NLP khác, ngữ liệu độ khó nghiên cứu từ lâu lượng data gán nhãn thiếu Nhiều hướng tiếp cận, nhiều ngữ cảnh tiêu chuẩn nghiên cứu khác khiến ngữ liệu thiếu tính đồng Thực tế triển khai gán nhãn độ khó yêu cầu chuyên gia yêu cầu số lượng lớn đối tượng tham gia làm kiểm tra chi phí lớn - Vấn đề chun mơn hố cơng thức: điều chỉnh mơ hình tương ứng đối tượng quan tâm cụ thể (trẻ em, người đọc L2,…)hoặc thể loại văn Vấn đề chuẩn hố mơ hình, chưa thể quản lý việc sử dụng Model kiểu Corpus khác nhau, tốt hiệu Corpus khơng có khơng có nghĩa tốt Corpus khác - Các features sử dụng nhiều thực tế, theo thực nghiệm từ vựng cú pháp có kết ảnh hưởng rõ ràng đến hiệu suất mơ hình Thực với đặc trưng 19 ĐỘ KHĨ VĂN BẢN có nhiều đặc trưng nhỏ bên trong…Nhiều dạng feature đưa vào mơ hình đa số chưa cho thấy hiệu tốt - Nhiều chiều khác cần nghiên cứu thêm: ngữ nghĩa, ngữ dụng… Các toán NLP ngữ nghĩa, ngữ dụng chặng đường dài so với toán cấp độ từ vựng hay ngữ nghĩa Hiệu suất tương đối tăng dần qua nghiên cứu chưa đủ cho sử dụng thương mại - Những đóng góp cơng cụ NLP giúp lĩnh vực độ khó khó văn hồi sinh phát triển mạnh mẽ tốn NLP đối mặt, cịn cần nhiều việc phải làm, nhiều hướng nghiên cứu đối mặt với thách thức thực to lớn VIII Thực nghiệm xây dựng mơ hình phân loại độ khó văn Bộ ngữ liệu Bộ ngữ liệu xử dụng để thí nghiệm cho tốn phân loại độ khó văn Vietnamese Text Readability giả An-Vinh Luong, Diep Nguyen Dien Dinh xây dựng (Luong et.al 2020) Bộ ngữ liệu bao gồm 1825 văn bản, chia thành mức độ khó từ dễ (very easy), dễ (easy), trung bình (medium) khó (difficult) Các tiêu chí để xây dựng ngữ liệu tác giả đề cập báo là: ● Focused: Bộ ngữ liệu tập trung vào lĩnh vực tác phẩm văn học bao gồm đoạn truyện cho trẻ em, truyện ngắn, tiểu thuyết, văn liên quan đến văn học ngôn ngữ học Bộ ngữ liệu khơng bao gồm thơ văn kịch văn thường chứa câu khơng hồn chỉnh có nhiều cấu trúc đặc biệt 20 ĐỘ KHĨ VĂN BẢN ● Reliability: Bộ ngữ liệu kiểm định chéo (cross-validation) với nhiều chuyên gia khác để đảm bảo độ tin cậy ● Large number: Số lượng văn ngữ liệu phải đủ lớn để đảm bảo độ tin cậy cho thí nghiệm, giúp tránh khớp (overfitting) chạy thuật toán học máy Mức độ phân bố liệu loại độ khó (0: Rất dễ, 1: Dễ, 2: Trung bình, 3: Khó) Ghi chú: liệu có tính cân class, ảnh hưởng đến việc xây dựng mơ hình chọn metric đánh giá Các loại đặc trưng sử dụng Từ lý thuyết nêu phần trước, nhóm định sử dụng loại đặc trưng trích xuất từ ngữ liệu Các loại đặc trưng bao gồm: ● sennum: tổng số câu văn 21 ĐỘ KHÓ VĂN BẢN ● maxword: độ dài câu dài văn tính số từ. ● maxsyl: độ dài câu dài văn tính số âm-hình tiết. ● wordpersen: số từ trung bình câu văn bản. ● sylperword: số âm-hình tiết trung bình từ văn ● ratepolysyl: tỷ số số lượng từ đa âm tiết toàn từ gặp ● wordnum: số lượng từ vựng khác văn bản. ● unkrate: tỷ lệ số từ nằm tần số từ Các đặc trưng trích xuất cơng cụ VnCoreNLP (Nguyen et al 2018) Các thuật toán học máy Các mơ hình học máy xây dựng kiểm định bao gồm Support Vector Machines (SVM) với Linear Kernel Radial Basis Function Kernel, Artificial Neural Network Support Vector Machines (SVM) SVM thuật tốn học có giám sát, cách hoạt động đốn xây dựng siêu phẳng tập hợp siêu phẳng không gian nhiều chiều vơ hạn chiều, sử dụng cho phân loại, hồi quy, nhiệm vụ khác Một cách trực giác, để phân loại tốt siêu phẳng nằm xa điểm liệu tất lớp (gọi hàm lề) tốt, nói chung lề lớn sai số tổng qt hóa thuật tốn phân loại bé Mạng neural nhân tạo (ANN) ANN mơ hình tốn học hay mơ hình tính tốn xây dựng dựa mạng neural sinh học Nó gồm có nhóm neural nhân tạo (nút) nối với nhau, xử lý thông tin cách truyền theo kết nối tính giá trị nút (cách tiếp cận connectionism tính toán) Trong nhiều trường hợp, mạng neural nhân tạo hệ thống thích ứng (adaptive system) tự thay đổi cấu trúc dựa thơng tin bên ngồi hay bên chảy qua mạng q trình học Trong thực tế sử dụng, nhiều mạng neural cơng cụ mơ hình hóa liệu thống kê phi tuyến Chúng dùng để mơ hình hóa mối quan hệ phức tạp liệu vào kết để tìm kiếm dạng/mẫu liệu 22 ĐỘ KHĨ VĂN BẢN Trong mơ hình nhóm, SVM sử dụng hai kernel Linear Radial Basis cho kết tốt sau chọn parameters Điều cho thấy liệu có tính chất linear separable, nên ANN khơng cần đến hidden layer mà cần train nhiều epoch có độ xác đủ cao Kết Các phương học máy kiểm định sử dụng phương pháp K-Fold cross validation với K = 10 Bộ ngữ liệu sau trích xuất đặc trưng trộn lên (nhưng giữ tỉ lệ class data ban đầu) phân thành 10 phần nhỏ (tỉ lệ train/test 80/20), phần sử dụng làm liệu huấn luyện (training) phần lại đem làm liệu đánh giá (testing) Metric dùng để đánh giá kết mơ hình Weighted F1-Score, tốn phân loại đa lớp Trọng số sample tính từ Logistics Regression để tăng độ quan trọng class có samples Metric F1 harmonic mean precision recall (giả sử hai đại lượng khác không): 𝐹1 = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 · 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 F1-Score có giá trị nằm nửa khoảng (0, 1] F1 cao, phân lớp tốt Đánh giá Có thể thấy độ xác mơ hình học máy ngữ liệu tốt đặc trưng lựa chọn có mối tương quan tốt độ khó văn Ngồi ra, ngữ liệu có độ tin cậy cao việc đánh giá mức độ đọc hiểu văn tiếng Việt Tuy nhiên, mơ hình có độ lệch chuẩn tương đối cao sau nhiều fold chạy 23 ĐỘ KHĨ VĂN BẢN Trích dẫn Feng, Jansche - 2010 - A comparison of features for automatic readability assessment Franỗois - 2015 - Readability a one-hundred-year-old field still in his teens Deutsch, T., Jasbi, M., & Shieber, S (2020) Linguistic Features for Readability Assessment Proceedings of the Fifteenth Workshop on Innovative Use of NLP for Building Educational Applications doi:10.18653/v1/2020.bea-1.1 DuBay, W H (2004) The Principles of Readability Distributed by ERIC Clearinghouse Duyet (n.d.) Duyet/vietnamese-wordlist Retrieved from https://github.com/duyet/vietnamese-wordlist/blob/master/Viet11K.txt Luong, A., Nguyen, D., & Dinh, D (2020) Building a Corpus for Vietnamese Text Readability Assessment in The Literature Domain Universal Journal of Educational Research, 8(10), 4996-5004 doi:10.13189/ujer.2020.081073 Vu, T., Nguyen, D Q., Nguyen, D Q., Dras, M., & Johnson, M (2018) VnCoreNLP: A Vietnamese Natural Language Processing Toolkit Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations doi:10.18653/v1/n18-5012 Zhang, L., Liu, Z., & Ni, J (2013) Feature-Based Assessment of Text Readability 2013 Seventh International Conference on Internet Computing for Engineering and Science doi:10.1109/icicse.2013.18 24 ... 24 ĐỘ KHĨ VĂN BẢN I Giới thiệu: Đơ khó văn Là độ dễ hiểu văn nhóm độc giả định Trong ngơn ngữ tự nhiên, độ khó văn phụ thuộc vào nội dung (từ vựng cấu trúc câu) hình thức (cách bố trí văn bản) ...ĐỘ KHĨ VĂN BẢN I Giới thiệu: Đơ khó văn Những khái niệm dễ nhầm lẫn Các ứng dụng độ khó văn 3 II Các giai đoạn phát triển độ khó văn bản: III Một số cơng thức tính độ khó văn tiếng... Khả đọc hiểu tầm nhìn ngoại vi ● Độ rõ ràng văn ● Độ khó chữ viết ● Phân tích N-gram Độ khó văn tồn ngơn ngữ tự nhiên ngơn ngữ lập trình dạng khác Đối với ngôn ngữ lập trình, thích (comments)

Định dạng
Số trang	24
Dung lượng	366,16 KB