Năm 1944, tác giả Irving Lorge [16] đã công bố Chỉ số Lorge Lorge Indexdùng để đánh giá Độ khó của văn bản dựa trên 3 đặc trưng là Độ dài trung bình củacâu tính theo từ, Số lượng các cụm
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
LƯƠNG AN VINH
XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ
CUA VĂN BẢN TIENG VIỆT
LUẬN ÁN TIEN SĨ KHOA HOC MAY TÍNH
Trang 2_ ĐẠI HỌC QUỐC GIA TP.HCM _
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
LƯƠNG AN VINH
XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ
CUA VĂN BẢN TIENG VIỆT
Ngành: Khoa học Máy tính
Mã số ngành: 62480101
Phản biện 1: PGS.TS Nguyễn Tuần Đăng
Phản biện 2: PGS.TS Nguyễn Thanh Hiên
Trang 3LỜI CÁM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS.Dinh Điền, người thay đã chỉ bao và hướng dẫn tận tình cho tôi trong suốt quá trình
nghiên cứu khoa học và thực hiện luận án này.
Tôi xin chân thành cảm ơn sự giúp đỡ và góp ý rất nhiệt tình của tập thé giảng viên,
cán bộ Khoa Công nghệ thông tin và Trung tâm Ngôn ngữ học Tính toán, Trường
Đại hoc Khoa học Tự nhiên — Đại học Quốc gia Tp Hồ Chí Minh
Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè — những người
luôn ở bên tôi những lúc khó khăn nhât, luôn động viên tôi, khuyên khích tôi trong cuộc sông và trong công việc.
Tôi xin chân thành cảm ơn!
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận án này được hoàn thành trên cơ sở nghiên cứu, tông hợp vàphát triển các nghiên cứu đánh giá độ khó của các văn bản trong nước và trên thế giới
do tôi thực hiện đưới sự hướng dẫn của PGS.TS Dinh Điền Tat cả các tài liệu thamkhảo đều được nêu rõ nguồn gốc một cách rõ ràng trong Danh mục tài liệu tham khảo.Các công trình công bồ là trung thực và chưa được ai công bé trong bat kỳ công trình
nào khác.
Ký tên
Lương An Vinh
Trang 58/9000 ii080) iii
MUC LUC
DANH MỤC CÁC KY HIỆU, CÁC CHỮ VIET TÁTT s< vii
0 0):0 0090 (0790 viii
DANH MỤC CAC HINH VE, DO THI
TOM TAT LUẬN AN
THESIS SUMMARY
CHUONG 1 TONG QUAN
1.1 Độ khó cua văn bản.
1.2 Các nghiên cứu về độ khó của văn bản
1.2.1 Hướng tiếp cận thống kê 2¿-2++z+222+++ettrvxxrrerrrkerrrrei 91.2.2 Hướng tiếp cận máy học ¿:+++2v++++evvvvrrsrrrsrresrr 19
1.3 Mục tiêu và phạm vi của lUẬH đhH -ccscS«S+SsxskekeeeEerekseekerrrerxee 26
1.3.1 Mục (iÊU - th HH HH HT 26
1.3.2 Đối tượng nghiên cứu -22-:+22222vvvvrrrrtrtrrrtrrrrrrrrrrrrrree 26
1.3.3 Nội dung luận án - ¿+ St k0 012 H00 01 hp 27
1.3.4 Phạm vi nghiên CỨU - - ¿+5 + S*St+t+EEeEertrkrkerrrrrkrkrkrree 28
1.4 Đóng góp của lUẬN đH c-cScSstkTkTếếhhhghTHngrire 28
1.5 BO cục luận đn cccccceS2EEEEtrtthHHHHH ae 30D6 Tig Ket nh 31CHƯƠNG 2 CƠ SỞ LÝ THUYET VE ĐỘ KHO CUA VAN BẢN 33
21 DO KN6 CUA VGN DAN n4 33
2.2 Các yếu tổ ngôn ngữ ảnh hưởng đến độ khó của văn bản 45
2.2.1 Yếu tố từ 2222222222 tt 22rreg 452.2.2 Yếu tổ câu
2.2.3 Yếu tố van bản
Trang 62.3.1 Đánh giá độ khó van bản theo hướng tiếp cận thống kê 552.3.2 Đánh giá độ khó theo hướng tiếp cận máy học - 592.4 Tiểu KẾI HH giờ 63CHUONG 3 MÔ HÌNH ĐÁNH GIA ĐỘ KHÓ VAN BẢN TIENG VIỆT 64
BD Các AGC IFƯHg St TH HH ngư 64
3.2 Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận thống kê 66
3.2.1 Phân tích tương quan -.66
3.2.2 Phân tích hdi quy
3.3 Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận máy học, sử dungcác thuật toán phân lớp truyền thống
3.4 Mô hình đánh giá độ khó văn ban sử dụng kỹ thuật học sâu 79
BAL on 83
3.4.2 Tach đoạn văn ban - ¿c2 St *ESEEEvEeEEErrrrrrsesrrrsrrrssre 83
3.4.3 Tinh chỉnh BERT - 5-5522 2t tren 83
3.4.4 Mã hóa các đoạn văn bản - 5+ St ssrerrrrerrrrrrrrrrrree 85
3.4.5 Tổng hợp vector văn bản và phân lớp : - + §6
3.4.6 Tích hợp đặc trưng ngôn ngữ vào mô hình ¿ -«- 87
BS Tiểu kẾ, HH, 87CHUONG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ -. -csssccccssse 89
4.1 Xây dựng ngữ liỆM ST St St SH 89
4.1.1 Thu thập ngữ liệu độ khó văn ban từ sách giáo khoa tiếng Viét 93
4.1.2 Xây dựng ngữ liệu độ khó của các văn bản lĩnh vực văn học và
ngôn ngữ hỌc +: tt 221 121211211111 121212101 11021 H0 re 96
4.1.3 Tiền xử lý va gán nhãn ngữ liệu - -¿52+cz+ccvscceer, 994.1.4 Thống kê và gom nhóm ngữ liệu -zc++ 102
4.2 Rút trích đặc trưng
4.3 Phương pháp đánh giá
4.4 Thực HghiỆMM St ST TT HH TII
Trang 74.4.2 Đánh giá độ khó văn bản theo hướng tiếp cận máy học, sử dụng cácthuật toán phân lớp truyền thống -: 2¿¿2222++++vcvvzrrrrrvee 114
4.4.3 Đánh giá độ khó văn bản sử dụng kỹ thuật học sâu 124
4.4.4 So sánh với các nghiên cứu khác - + s es+x+x+x+vzervxexex 127
AS TiGU KE na 133CHƯƠNG 5 KET LUẬN VA HƯỚNG PHAT TRIÊN - 135DANH MỤC CONG TRINH CONG BO CUA TÁC GIẢ 142DANH MUC TAI LIEU THAM KHAO
PHU LUC
Trang 8DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIET TAT
STT Từ viết tắt Tên đầy đủ
1 | SVM Support Vector Machine
2 | TF-IDF Term Frequency - Inverse Document Frequency
3 | CEFR Common European Framework of Reference
9 | RFECV Recursive Feature Elimination with Cross-Validation
10 | BERT Bidirectional Encoder Representations from Transformers
11 | LSTM Long short-term memory
12 | OCR Optical Character Recognition
13 ¡SGK Sách giáo khoa
14 | VH-NNH_| Van học — Ngôn ngữ học
Trang 9DANH MỤC CÁC BẢNG
Bang 1.1: Các đặc trưng và hệ số tinh Syntactic Density Score - SDS 16Bảng 1.2: Quy đổi từ SDS sang độ khó văn bản - 2 2252: c2222vcccccvserccrr 17Bảng 1.3: Tổng hợp một số nghiên cứu về độ khó văn bản - 25Bảng 2.1: So sánh Khả năng hiểu văn bản và Độ phức tạp của văn bản 34Bảng 4.1: Thống kê ngữ liệu SGK 105Bảng 4.2: Thống kê ngữ liệu SGK (gom nhóm theo 3 cấp học) 06Bang 4.3: Thống kê ngữ liệu VH-NNH 07Bang 4.4: Hệ số tương quan của các đặc trưng với độ khó của van bản 12Bảng 4.5: Hệ số tương quan của các công thức đo độ khó 114Bang 4.6: Các đặc trưng cho kết quả tốt nhất trên bộ ngữ liệu SGK 18Bang 4.7: Các đặc trưng tốt nhất trên ngữ liệu SGK - với đặc trưng độ dài 20Bang 4.8: Kết quả đánh giá trên bộ ngữ liệu SGK -75c5cccc2 20
Bảng 4.9: Danh sách đặc trưng của thuật toán RF - ngữ liệu VH-NNH 23
Bang 4.10: Kết quả đánh giá trên bộ ngữ liệu VH-NNH - 24Bảng 4.11: Thông tin cầu hình của mô hình học sâu - -¿¿5sc+¿ 26Bảng 4.12: Kết quả của mô hình học sâu, so sánh với các mô hình khác 27Bảng 4.13: Hệ số tương quan của các công thức đo độ khó -: 29
Bang 4.14: So sánh các mô hình máy học của luận án với các nghiên cứu khác 133
Trang 10DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ
Hình 1.1: Ví dụ về văn bản dé và văn bản khó iirrirerrrrrrrrrrrrrereee 6
Hình 1.2: Minh họa sự khác biệt giữa độ khó văn bản và khả năng đọc hiểu 7
Hình 2.1: Ví dụ về tính dé nhìn của văn bản 2-52-5222 ++2Ec2EEEEEerEkerrxerree 36 Hình 2.2: Các hướng nghiên cứu về sự phù hợp giữa văn bản và người đọc 39
Hình 2.3: Khung tham chiếu trình độ ngôn ngữ chung của châu Âu CEER „44
Hình 2.4: Độ khó của văn bản được tích hợp trong công cụ Microsoft Word. Hình 2.5: Minh họa siêu phẳng, margin trong SVM Hình 2.6: Minh họa thuật toán KNN với k đối tượng khác nhau Hình 2.7: Minh họa thuật toán Random Forest „62 Hình 3.1: Hệ số tương quan biểu thị trên đồ thị phân tán Scatter - 68
Hình 3.2: Biểu diễn phương trình hồi quy tuyến "0 70
Hình 3.3: Minh họa các dang hàm hỏi quy phi tuyến -cc+-222cvsve 7I Hình 3.4: Mô hình lựa chọn đặc trưng dựa trên thuật toán RFECV T1 Hình 3.5: Sự khác biệt giữa câu trúc của BERT, OpenAI GPT và ELMo 81
Hình 3.6: Mô hình đánh giá độ khó của văn bản sử dung BERT - 82
Hình 3.7: Mô hình ngôn ngữ mặt nạ của BERÌT -. -5555c+cs<++ 84 Hình 3.8: Vector của token [CLS] được dùng như vector đại diện cho đoạn văn 85
Hình 3.9: Mô hình phân lớp sử dụng LSTM .-. - +22 <+<<+s+<+++c+> §6 Hình 3.10: Mô hình đề xuất, sử dung BERT và tích hợp đặc trưng ngôn ngữ 87
Hình 4.1: Quá trình xây dựng ngữ liệu đánh giá độ khó van bản - 97
Hình 4.2: Thực nghiệm thuật toán RFECV trên bộ ngữ liệu SGK 116
Hình 4.3: Thực nghiệm thuật toán RFECV sử dụng thêm 6 đặc trưng độ dai 119
Hình 4.4: Thực nghiệm thuật toán RFECV trên ngữ liệu VH-NNH 122
Trang 11TOM TAT LUẬN ÁN
Độ khó của văn bản là hệ thống các yếu tố ngôn ngữ của nội tại văn bản ảnhhướng đến tính dễ đọc hay khó đọc của một văn bản Các nghiên cứu về độ khó đãđược bắt đầu từ lâu, nhưng hau hết các nghiên cứu đó đều được thực hiện trên tiếngAnh và một số ngôn ngữ phô biến trên thế giới Trong tiếng Việt, trước đây chỉ cóhai công trình nghiên cứu về Độ khó của văn bản, thực hiện trên hai bộ ngữ liệu khánhỏ Chính vì thế, rất cần có thêm các công trình nghiên cứu khác về độ khó của vănbản tiếng Việt thực hiện trên các bộ ngữ liệu cập nhật hơn, lớn hơn và trên các đặctrưng sâu hơn của văn bản như vai trò của từ, ngữ, cầu trúc ngữ pháp, ngữ nghĩa của
cau
Luận án đã xây dựng 2 bộ ngữ liệu dùng đề khảo sát và thực nghiệm đánh giá
độ khó văn bản tiếng Việt, gồm: (1) Bộ ngữ liệu 370 văn bản thu thập từ sách giáokhoa tiếng Việt và Ngữ văn; và (2) Bộ ngữ liệu 1.825 văn bản thuộc lĩnh vực văn học
và ngôn ngữ học Đây là 2 bộ ngữ liệu lớn và công khai đầu tiên về độ khó văn bảntrong tiếng Việt Luận án đã khảo sát 262 đặc trưng được trích xuất từ các văn bảnnày để xây dựng các công thức, các mô hình đánh giá độ khó văn bản Các đặc trưngnày được thuộc nhiều cấp độ của văn bản như các đặc trưng ở mức bề mặt (độ dàicâu, độ dài từ, ), các đặc trưng về tần suất từ và tần suất chữ, các đặc trưng ở cấp
độ ngữ pháp mức từ, mức câu, các đặc trưng thuộc về mô hình ngôn ngữ, các đặctrưng đơn giản ở cấp độ ngữ nghĩa và các đặc trưng của riêng tiếng Việt (như tỉ lệ từ
mượn, tỉ lệ phương ngữ).
Luận án cũng đã giới thiệu 3 mô hình đánh giá độ khó văn bản tiếng Việt theotừng hướng tiếp cận: Với hướng tiếp cận thống kê, luận án đã thực hiện phân tíchtương quan dé chọn ra những đặc trưng có tương quan cao nhất với độ khó của vănbản, sau đó thực hiện phân tích hồi quy với một số cải tiến khi thực nghiệm để xâydựng công thức tính độ khó văn bản tiếng Việt Kết quả cho thấy công thức mới đượcxây dựng có độ tương quan với độ khó văn bản vượt trội so với tất cả các nghiên cứu
Trang 12Với hướng tiếp cận máy học, luận án đã đề xuất sử dụng thuật toán RFECV dé
tự động chọn ra các đặc trưng có đóng góp tốt vào các mô hình máy học đánh giá độkhó văn bản dùng các thuật toán phân lớp truyền thống Nhờ đó, mô hình mà luận án
xây dựng đã đạt độ chính xác cao so với các nghiên cứu trước đây.
Ngoài ra, luận án cũng đề xuất một mô hình học sâu đề phân lớp văn bản theo
độ khó dựa trên mô hình ngôn ngữ tiền huấn luyện BERT và mạng LSTM Độ chínhxác của mô hình có giảm nhẹ so với các mô hình máy học truyền thống nhưng chúng
ta tiết kiệm được chi phí dé gán nhãn và trích xuất đặc trưng từ văn bản Khi tích hợpthêm một số đặc trưng ngôn ngữ trích xuất từ văn bản vào mô hình học sâu, độ chínhxác của mô hình đã được cải thiện và cao hơn so với các mô hình phân lớp truyềnthống
Trang 13THESIS SUMMARY
Text readability is the system of linguistic factors of the text's internals that
affect the easiness or difficulty of a text Readability studies have been done for a
long time, but most of them are in English and some popular languages In
Vietnamese, there were previously only two studies on text readability, performed on
two relatively small corpora Therefore, it is necessary to have other studies on the
readability of Vietnamese texts on more updated, larger corpora and deeper features
of the text such as the role of words, phrases, grammatical structure, semantics of
sentences
This thesis has built two corpora for examining and experimenting, including:
(1) The corpus of 370 documents collected from textbooks of Vietnamese language
and Literature; and (2) The corpus 1,825 texts in the field of literature and linguistics.
These are the first two large and public corpora for text readability in Vietnamese.
The thesis has examined 262 features extracted from these corpora to build formulas
and models for assessing text readability These features are included at many levels
of the text such as surface-level features (sentence length, word length, etc.), word
and word-frequency features, word and sentence-level grammatical features,
language model features, simple semantic features and Vietnamese-specific features
(such as the ratio of borrowed words, the ratio of dialects).
This thesis has also introduced three models for assessing the readability of
Vietnamese texts according to each approach: With the statistical approach, the thesis
has performed correlation analysis to select the features that have the most significant
correlation with the readability of the text, then performed regression analysis with
some improvements when experimenting to build a formula to calculate the
readability of Vietnamese text The results show that the newly formulated formula
has a superior correlation with text readability compared to all other studies.
With the machine learning approach, the thesis has proposed to implement the
Trang 14to machine learning models to evaluate text readability using traditional classification
algorithms As a result, the model developed by the thesis has achieved high accuracy
compared to previous studies.
In addition, the thesis also proposes a deep learning model to classify documents
according to difficulty based on BERT pre-training language model and LSTM neural
network The accuracy of the model is slightly reduced compared to traditional
machine learning models, but we save the cost to label and extract features from the
text When integrating some more linguistic features extracted from text into the deep
learning model, the accuracy of the model has been improved and is higher than that
of traditional classification models.
Trang 15CHUONG 1 TONG QUAN
Chương này trình bày tong quan về độ khó của van bản, các nghiên cứu
về độ khó của văn bản trên thế giới và trong tiếng Việt Kế đó, chương này
trình bày mục tiêu, phạm vi thực hiện và các đóng góp của luận án.
1.1 Độ khó của văn bản
Đọc là một trong các kỹ năng cơ bản của con người trong quá trình tiếp nhận kiếnthức của thế giới Đọc không chỉ là đề thu nhận kiến thức, nó còn giúp chúng ta thưgiãn, phát triển các năng lực ngôn ngữ, năng lực trí tuệ, rèn luyện trí não, hay thậm
chí là giúp làm chậm quá trình lão hóa [1].
Tuy vậy, trong những năm gan đây, cùng với sự phát triển nhanh và mạnh mẽcủa mạng Internet, lượng thông tin bằng văn bản trên mang đang ngày càng bùng nô.Trong số những văn bản đó, có văn bản dé đọc, nhưng cũng có những văn bản khóđọc Chúng ta có thể bắt đầu với một ví dụ thực tế trong tiếng Anh: Trong Hình 1.1
là hai văn bản — hai đoạn tin tức về cùng một nội dung là “Earthquake in Indonesia”(dịch nghĩa: Động dat ở Indonesia”) vào tháng 10/2018 Cả hai đoạn tin tức này được
trích từ trang web “News In Levels” (link: https://www.newsinlevels.com/) — đây là
một trang web chuyên viết các tin tức thời sự theo nhiều mức độ khó khác nhau dé
hỗ trợ học tiếng Anh Mặc dù trình độ tiếng Anh của chúng ta có thể khác nhau,nhưng tat cả chúng ta đều có thé nhận thấy là văn bản a dé đọc hơn văn bản b, haynói cách khác, văn bản a có độ khó thấp hơn văn bản b Trang web “News In Levels”cũng xếp loại văn bản a vào mức độ khó “Level 1” và văn bản b vào mức độ khó
“Level 3” Cơ sở khoa học dé họ phân loại như thế, chính là dựa trên độ khó củachính văn bản đó (readability) Đó cũng chính là chủ đề nghiên cứu của luận án này
Trang 16Văn bản a
Earthquake in Indonesia — level 1
Sulawesi is an island in Indonesia An earthquake hits near it The earthquake makes a tsunanii It is 3 metres tall.
The tsunami moves into two cities Around 600,000 people live there More
than 832 people die Hospitals, hotels, a shopping centre, and thousands
of homes are destroyed.
Difficult words: earthquake (when the ground moves), tsunami (a big wave started by an earthquake),
destroy (break completely).
- - Văn bản b
Earthquake in Indonesia — level 3
A7.5-magnitude earthquake hit near the Indonesian island of Sulawesi, triggering a 3-metre tsunami, which smashed into two cities on the coast.
Palu and Donggala are the cities affected the worst, and they are home to
over 600,000 people At least 832 people have been confirmed dead,
thousands of homes collapsed, along with hospitals, hotels, and a shopping centre The disaster affected as
many as 1.6 million people, according to Red Cross estimates.
Difficult words: trigger (start), estimate (a careful guess based on data).
Hinh 1.1: Vi du vé van ban dé va van ban kho
Vay độ khó của văn bản là gì? Những yếu tố ngôn ngữ nào ảnh hưởng đến độkhó của văn bản? Từ những yếu t6 đó, chúng ta sẽ xây dựng mô hình máy tính dé tựđộng đánh giá độ khó của văn bản như thế nào? Đó chính là những câu hỏi nghiên
cứu của luận án.
Trên cơ sở tổng hợp các nghiên cứu trước đây trong tiếng Anh, trong khuôn khổcủa luận án này, độ khó của văn bản được chúng tôi định nghĩa như sau: “hệ thôngcác yêu tố ngôn ngữ của nội tại văn bản ảnh hướng đến tính dễ đọc hay khó đọc của
một văn bản”.
Nghiên cứu về Độ khó của văn bản là nghiên cứu các yếu té thuộc về ngôn ngữ
Trang 17hưởng mức độ như thé nào tới việc đánh giá, xếp loại văn bản đó là dễ đọc hay khóđọc Các yếu tố ngôn ngữ nay là các yếu tố khách quan của văn bản, được hình thành
trong quá trình soạn thảo văn bản, hoàn toàn không chịu sự ảnh hưởng / tác động từ
phía người đọc.
Ở đây, chúng ta cần phân biệt hai khái niệm dễ nhằm lẫn: đó là độ khó văn bản(readability) và khả năng đọc hiểu văn bản (comprehensibility) Trong khi độ khóvăn bản tùy thuộc vào các các yêu tô ngôn ngữ nội tại khách quan của văn ban, thìkhả năng đọc hiéu van bản lại tùy thuộc vào các yếu tố cá nhân mang tính chủ quancủa người đọc Ví dụ: lĩnh vực chuyên môn, trình độ, niềm say mê, sức khỏe, mụctiêu đọc văn bản của người đọc Do đó, sẽ có nhiều trường hợp: cùng một văn bản
A, nhưng với người đọc X sẽ cảm thấy dễ, người đọc Y lại cảm thấy khó Đề dễ hình
dung sự khác nhau giữa hai khái niệm này, chúng ta xem ví dụ trực quan sau: Hình
1.2: đo chiều cao của một bộ bàn - ghế cho học sinh
Độ khó của văn bản Khả năng hiểu văn bản của người đọc
0 # 0
Chiều cao của bàn / ghế Chiều cao của bàn / ghế so với từng học sinh
Anh ơi, bộ ban gl
80cm
60cm el
Hình 1.2: Minh họa sự khác biệt giữa độ khó văn ban và kha năng đọc hiểu
Chiều cao của cái bàn - ghế là một đại lượng khách quan, được đo bằng thang
đo định sẵn (ví dụ như thang đo mét hay inch ) Ví dụ: chiều cao cái bàn A đo được
Trang 18X ngồi vào bộ bàn ghế đó, sẽ có cảm nhận là bàn này thấp, nhưng người Y ngồi vàolại có cảm nhận cái bàn này cao, điều này tương đương với khả năng đọc hiểu văn
bản của người X và Y khi cùng đọc văn bản A Khả năng này là khác nhau vì tùy
thuộc vào chiều cao, vào cấu tạo cơ thé, vào tư thé ngồi, cua người X và Y Vi
vậy, với một nhóm người có chiều cao xấp xỉ nhau, thì đa số sẽ có cảm nhận về độcao của cái ban gần giống nhau Đây cũng chính là cơ sở để chúng ta đóng bàn ghế
có kích thước phù hợp của các học sinh mỗi cấp Điều này tương tự với cơ sở khoahọc đề chúng ta xây dựng các văn bản có độ khó phù hợp với trình độ chung của đa
số một nhóm người đọc nào đó (hay một cấp học, lớp học nào đó)
Mục tiêu của bài toán đánh giá độ khó của văn bản là căn cứ trên các yếu tô
ngôn ngữ khách quan của văn bản, xác định xem văn bản đó là khó hay dễ, hay cụ
thể hơn là văn bản đó có độ khó như thế nào Dựa trên kết quả đó, chúng ta có thể
xác định được văn bản có phù hợp với một đối tượng người đọc nào đó hay không
Đối tượng người đọc ở đây không phải là một người đọc đơn lẻ, mà là một nhóm
những người đọc có chung một vài đặc điểm nao đó Việc xác định văn bản có phù
hợp với chỉ một người đọc đơn lẻ nào đó hay không sẽ chỉ mang tính chủ quan với
người đọc đó, không phù hợp để ứng dụng vào thực tế Lấy ví dụ: xác định văn bản
V có phù hợp với người đọc A hay không thì chỉ đưa ra được quyết định với ngườiđọc A, đến khi cần xét xem văn bản đó có phù hợp với người đọc B hay không thìphải xem xét lại từ đầu Trong khi đó, nếu ta xác định văn bản A đó phù hợp với cáchọc sinh có trình độ lớp 5 trở lên thì nghĩa là đa số các học sinh đang học lớp 5 hoặchơn có thể đọc hiểu được văn bản đó
Các nghiên cứu về Độ khó đã được bắt đầu từ lâu, nhưng hầu hết các nghiêncứu đó đều được thực hiện trên tiếng Anh và một số ngôn ngữ phé biến trên thế giớinhư tiếng Pháp, tiếng Hoa, tiếng Đức, tiếng Ý, tiếng Bồ Đào Nha Đối với tiếngViệt, trước đây chỉ có hai công trình nghiên cứu về Độ khó của văn bản của cùng một
nhóm tác giả Liem Thanh Nguyen và Alan B Henkin vào năm 1982 [2] và
năm 1985 [3] Cả hai công trình nghiên cứu này đều tập trung vào phân tích các mối
Trang 19quan hệ giữa các đặc trưng thống kê ở mức nông (như độ dài của từ, độ dài của câu,
độ khó của từ) với Độ khó của văn bản Ngoài ra, cả hai công trình nghiên cứu này
đều đã được thực hiện từ lâu — cách đây hơn 30 năm — dựa trên hai bộ ngữ liệu khánhỏ với chỉ 20 văn bản [2] và 54 văn bản [3] Chính vì thế, rất cần có thêm các côngtrình nghiên cứu khác về Độ khó của văn bản tiếng Việt thực hiện trên các bộ ngữ
liệu cập nhật hơn, lớn hơn và trên các đặc trưng sâu hơn của văn bản như vai trò của
từ, ngữ, cầu trúc ngữ pháp, ngữ nghĩa của câu Việc xây dựng một tập ngữ liệu lớnhơn và tiến hành khảo sát, phân tích các đặc điểm của văn bản tiếng Việt ở các mức
độ sâu hơn (ngữ pháp, ngữ nghĩa ) nhằm rút ra các đặc trưng ảnh hưởng đến Độkhó của văn bản tiếng Việt và xây dựng mô hình hoàn chỉnh đề đánh giá Độ khó củavăn bản tiếng Việt là rất cần thiết
1.2 Các nghiên cứu về độ khó của văn ban
Các nghiên cứu về Độ khó của văn bản được chia thành 2 hướng tiếp cận chính dựatrên các đặc điểm chung của các công trình nghiên cứu thuộc từng hướng tiếp cận:
+ Hướng tiếp cận thống kê
+ Hướng tiếp cận máy học
1.2.1 Hướng tiếp cận thống kê
Các nghiên cứu theo hướng tiếp cận này chủ yếu khảo sát các yếu tố của văn bản ảnhhưởng đến Độ khó của văn bản và xây dựng các công thức tính toán Độ khó dựa trêncác yếu tố đó
Những năm 1880, giáo sư Lucius Adelno Sherman thuộc trường Dai học
Nebraska đã bắt đầu tiến hành dạy học văn học theo quan điểm thống kê Trong côngtrình nghiên cứu của mình vào năm 1893, Sherman đã thực hiện các thống kê trên rấtnhiều tác phẩm văn học tiếng Anh từ cô điền đến cận-hiện đại và nhận thấy rằng độdài của các câu văn đã ngắn đi theo thời gian [4]:
+ Thời kì tiền Elizabeth: trung bình 50 từ/câu
Trang 20+ Thời kì Elizabeth: trung bình 45 từ/câu
+ Thời kì Victoria: trung bình 29 từ/câu
+ Thời kì của chính tác giả Sherman: trung bình 23 từ/câu.
Trong thời kì hiện nay, độ dài trung bình của câu văn trong các tác phẩm vănhọc tiếng Anh đã giảm xuống còn khoảng 20 từ/câu [5] Nghiên cứu của tác giảSherman đã là tiền đề cho hàng loạt các nghiên cứu khác với các nhận định sau [4]:
+ Văn học cũng là một đối tượng dé phân tích thống kê
+ Câu ngắn gọn và các thuật ngữ súc tích sẽ làm giảm độ khó
+ Ngôn ngữ nói thì hiệu quả hơn ngôn ngữ viết
+ Ngôn ngữ viết càng ngày càng giống với ngôn ngữ nói và do đó trở nên hiệu
quả hơn.
Trong nghiên cứu của mình, tác giả Sherman cũng đồng thời đưa ra hai nhận
định khác:
+ Mỗi tác giả thường viết câu với độ dài trung bình gần như là không đổi
+ Theo thời gian, các câu trong văn bản viết không chỉ ngày càng ngắn hơn mà
còn trở nên đơn giản hơn và bớt trừu tượng hơn.
Bắt đầu từ năm 1911, nhà nghiên cứu Thorndike đã tiền hành thống kê tần sốcủa các từ trong văn bản tiếng Anh Đến năm 1921, ông đã xuất bản cuốn sách “Theteacher’s word book” [6] liệt kê ra 10.000 từ có tần suất sử dụng cao nhất trong tiếngAnh Đến năm 1932, Thorndike tiếp tục với cuốn “A teacher’s word book of 20.000words” [7] và đến năm 1944 là cuốn “The teacher’s word book of 30.000 words” [8]viết chung với Irving Lorge Cho đến trước khi các thống kê trên máy tinh trở nênphổ biến, các cuốn sách của Thorndike đã được sử dụng làm cơ sở cho rất nhiều
nghiên cứu sau này về Độ khó của văn bản.
Cũng trong năm 1921, nhà tâm lý học Harry D Kitson đã xuất bản cuốn sách
“The mind of the Buyer: A Psychology of Selling — Scholar’s Choice Edition” [9].
Trang 21số tạp chí và tờ báo nổi tiếng như Chicago Evening Post, Chicago American, Century
và American Tác giả cũng đã chỉ ra được nguyên nhân của sự khác biệt là do độ dài
từ và độ dài câu trung bình của các bài báo thuộc các tạp chí này là khác nhau: tờ
Chicago American có độ dài trung bình câu và từ nhỏ hơn so với tờ Chicago Evening
Post, và tạp chí American có phong cách đơn giản hơn so với Century.
Trong một công bố vào năm 1923, nhóm tác giả Bertha A Lively va Sidney L.Pressey [10] đã đề cập tới những khó khăn họ gặp phải khi lựa chọn giáo trình khoahọc cho học sinh phổ thông Họ nhận thấy rằng các giáo trình khoa học chứa khánhiều các từ ngữ / thuật ngữ chuyên môn mới và / hoặc khá khó hiểu đối với học sinhphổ thông Nhóm tác giả đã đề xuất một công thức tính toán Độ khó dựa trên các đặctrưng như số lượng từ khác nhau trong văn bản, số lượng từ không có trong danh sách
10.000 từ của Thorndike [6], vị trí trung vi của các từ có trong danh sách 10.000 từ
của Thorndike Họ nhận thấy rằng, vị trí trung vị của các từ ở trong danh sách củaThorndike đóng vai trò then chốt trong việc xác định từ vựng của văn bản là dễ haykhó: vị trí càng cao thì từ vựng càng dễ và ngược lại
Năm 1928, nhóm tác giả Mabel Vogel và Carleton Washburne [11] đã công bốmột trong những công trình quan trọng nhất về Độ khó của văn bản Lần đầu tiên đặcđiểm cấu trúc của văn bản đã được đưa ra đánh giá xem tác động của nó với Độ khó
và cũng là lần đầu tiên các tiêu chí để xác định Độ khó của văn bản được lựa chọndựa trên các thống kê trên ngữ liệu Mười đặc trưng đã được nhóm tác giả khảo sát,bao gồm cả những đặc trưng mới như loại câu, cụm giới ngữ và cả những đặc trưng
đã từng được khảo sát như độ dài câu, độ dài từ, độ khó của từ Nhóm tác giả đã
lựa chọn ba đặc trưng để xây dựng công thức đo Độ khó của văn bản bao gồm Sốlượng từ khác nhau trong văn bản, Tỉ lệ các từ không xuất hiện trong danh sách 10.000
từ của Thorndike [6] và trọng số trung vị của các từ xuất hiện cũng trong danh sách
đó Nhóm tác giả cũng đã rút ra được kết luận tương tự với kết luận của nhóm Lively
và Pressey [10] là trọng số trung vị đóng vai trò quan trọng nhất
Trang 22Trong một công bố vào năm 1931, nhóm tác giả W W Patty và W I Painter[12] đã chỉ ra rằng năm học lớp 10 ở Mỹ là năm học nặng nhất của học sinh khi xétđến yếu tố từ vựng Nhóm tác giả cũng đã xây dựng một công thức đo Độ khó củacác bài đọc trong sách giáo khoa ở bậc trung học phổ thông ở sử dụng hai đặc trưng
là tần số trung bình của từ dựa trên danh sách 10.000 từ của Thorndike [6] và số lượng
từ vựng của văn bản.
Năm 1934, trong một công trình nghiên cứu về Độ khó của văn bản đành chongười trưởng thành, tác giả Ralph Ojemann [13] đã đóng góp hai điều cực kì quantrong trong nghiên cứu về Độ khó Thứ nhất, Ojemann là người đầu tiên tiến hànhđánh giá Độ khó của văn bản thông qua các khảo sát trên đối tượng người trưởngthành Dựa trên các khảo sát này, tác giả đã tiến hành đánh giá độ tương quan giữacác yếu tố thuộc về từ vựng và 8 yếu tố thuộc về thành phan và cấu trúc của câu với
Độ khó của văn bản và rút ra được kết luận độ khó của từ theo danh sách củaThorndike [6] là yếu tố từ vựng quan trọng nhất Thứ hai, Ojemann đã dé xuất việcphân loại các văn bản theo Độ khó tương ứng với các lớp học, đồng thời cũng giớithiệu 16 đoạn văn bản tham khảo để so sánh, đánh giá Độ khó của các văn bản khác
Cũng trong năm 1934, cũng đã có một nghiên cứu khác về Độ khó của văn bảndành cho đối tượng người trưởng thành của nhóm tác giả Dale và Tyler [14] Nhómtác giả đã khảo sát 29 yếu tố ảnh hưởng đến Độ khó của văn bản dành cho trẻ em vàrút ra được 10 yếu tố có ảnh hưởng lớn đến Độ khó của văn bản dành cho ngườitrưởng thành, trong đó có ba yếu tố có độ tương quan lớn nhất là số lượng từ vựngchuyên ngành, số lượng từ vựng khó không thuộc chuyên ngành, và số lượng mệnh
dé quan hệ không xác định Dựa trên ba yếu tố này, nhóm tác giả đã xây dựng mộtcông thức dự đoán tỉ lệ số người trưởng thành có thể đọc hiểu văn bản có độ tương
quan 0,511 với Độ khó của các văn bản được khảo sát.
Vào năm 1935, nhóm tác gia Gray va Leary [15] đã xuất bản cuốn sách WhatMakes a Book Readable, trình bày các nghiên cứu về các yếu tố ảnh hưởng đến Độ
Trang 23giả đã tiến hành khảo sát trên khoảng 1.690 người trưởng thành và xác định được 288yếu tô ảnh hưởng đến Độ khó của văn bản và được chia thành 4 nhóm lớn và đượcsắp xếp theo thứ tự giảm dần về độ quan trọng như sau:
1 Nội dung (Content)
Văn phong (Style)
Định dạng (Format)
- YN Cac dac trung về Tổ chức của văn bản (Organization).
Cũng theo các tác giả, các yếu tố thuộc về Nội dung, Định dạng và Tổ chứckhông thé hoặc khó có thể thống kê khách quan được Trong các yếu tố thuộc về Vanphong, nhóm tác giả đã chọn ra 64 đặc trưng có thể thống kê khách quan để tiếp tục
khảo sát và rút ra được 17 đặc trưng có độ tương quan cao với Độ khó của văn bản
theo thứ tự như sau:
Độ dài trung bình của câu tính theo từ: -0,52
Ti lệ của các từ dé trong văn bản: 0,52
Số lượng từ mà trên 90% học sinh lớp 6 không biết: -0,51
Số lượng từ dễ: 0,51
Số lượng từ khó: -0,50
Độ dài của câu có ít âm tiết nhất: -0,49
Số lượng câu rõ ràng: 0,48
Số lượng đại từ nhân xưng ngôi thứ nhất, nhì và ba: 0,48
© n1 Ð he Độ dài của câu có nhiều âm tiết nhất: -0,47
= Độ dài trung bình của câu tính theo âm tiết: -0,47
Ti lệ của các từ đơn tiết: 0,43
N - Độ dai trung bình của đoạn văn tính theo câu: 0,43
we Số lượng từ phân biệt (không trùng nhau) mà trên 90% học sinh lớp 6 khôngbiết: -0,40
14 Số lượng câu đơn giản: 0,39
Trang 2416 Tỉ lệ của các từ đa tiết: -0,38
17 Số lượng các cụm giới ngữ: -0,35
Nhóm tác giả đã sử dụng các đặc trưng thứ 1, 5, 8, 15 và 17 để xây dựng một
công thức xác định Độ khó của văn bản với độ tương quan là 0,645.
Năm 1944, tác giả Irving Lorge [16] đã công bố Chỉ số Lorge (Lorge Index)dùng để đánh giá Độ khó của văn bản dựa trên 3 đặc trưng là Độ dài trung bình củacâu tính theo từ, Số lượng các cụm giới ngữ mỗi 100 từ và Số lượng từ khó (khôngnằm trong danh sách 769 từ dé của Dale) Đến năm 1948, cũng chính tác giả Lorge[17] đã điều chỉnh lại công thức này cho phù hợp hơn va nó đã được sử dụng rat phổbiến kể từ Chiến tranh Thế giới lần II Các nghiên cứu của Lorge đã làm tiền đề chorất nhiều công thức xác định Độ khó của văn bản sau này, trong đó có 2 công thức rấtnổi tiếng là Dale-Chall [18] và Flesch Reading Ease [19]
Tác gia Rudolf Flesch, trong một nghiên cứu vào năm 1946 [20] đã nhận định
rằng tiếng Anh đang học theo tiếng Hoa để trở nên đơn giản hơn bằng cách thay thếcác câu trúc ngữ pháp phức tạp bằng trật tự từ chuẩn: chủ ngữ - động từ - tân ngữ(subject — verb — object) Theo Flesch, tiếng Hoa đơn giản hơn, linh hoạt hơn và thực
tế hơn bat kì ngôn ngữ phương tây nào nhờ đặc điểm là có rat ít biến cách va các cấutrúc bất quy tắc Năm 1948, Flesch đã công bố công thức xác định Độ khó của văn
bản với tên gọi là Flesch Reading Ease [19] như sau:
Score = 206,835 — (1,015 x ASL) — (84,6 x ASW) (1)
với Score chính là Độ khó của văn bản; ASL là độ dài trung bình của câu tính theo
từ; và ASW độ dài trung bình của từ tính theo âm tiết Giá trị của Score nằm trongđoạn từ 0 (khó) đến 100 (dễ) và văn bản có Score khoảng 70 là phù hợp nhất cho đốitượng người trưởng thành Công thức Flesch Reading Ease được sử dụng rất phổ biến
và được tích hợp vào trong chương trình soạn thảo văn ban Microsoft Word ké từphiên bản 2007 dé hỗ trợ người dùng kiểm tra Độ khó của văn ban đang soạn thảo
Trang 25Năm 1948, nhóm tác giả Edgar Dale va Jeanne S Chall [18] đã khảo sát yếu tố
độ dài của câu và tỉ lệ từ khó trong văn bản đề xây dựng một công thức xác định Độ
khó của văn bản dành cho người đọc có trình độ từ lớp 4 trở lên — công thức
Dale-Chall:
Score = 0,1579PDW + 0,0496ASL + 3,6365 (2)
với Score là Độ khó của văn bản với đơn vị là cấp lớp học trung bình của người đọc;PDW là tỉ lệ phần trăm của các từ khó — từ không nằm trong danh sách 763 từ dochính nhóm tác giả lập ra; và ASL là độ dài trung bình của câu tính theo từ Đến năm
1995, nhóm tác giả đã mở rộng danh sách từ lên thành 3.000 từ, đồng thời chỉnh sửalại công thức để sử dụng được cho các lớp nhỏ hon [21]:
Score = 0,1579PDW + 0,0496ASL (3)
Lúc này, nếu PDW > 5% thì ta cộng thêm một lượng 3,6365 vào Score; ngượclại thì ta giữ nguyên Giá trị cuối cùng của Score chính là cấp lớp học trung bình củangười đọc để có thé đọc hiểu được văn bản
Năm 1969, tác giả G Harry McLaughlin [22] dé xuất một công thức xác định
độ khó của văn ban sử dụng yếu tố từ khó Theo tác giả, một từ được coi là khó nếu
từ đó có từ 3 âm tiết trở lên Công thức được đặt tên là SMOG, cụ thé như sau:
SMOG grading = 3 + J s6 lượng từ khó (4)
Trong đó, số lượng từ khó được đếm từ 10 câu ở phần đầu + 10 câu ở phần giữa+ 10 câu ở phan cuối của văn bản Kết qua đo của công thức SMOG thường lớn hon
khoảng 2 lớp so với công thức Dale-Chall [18].
Năm 1973, quân đội Mỹ giới thiệu công thức FORCAST dé đo độ khó văn bản.Không giống như các công thức đo khác, công thức FORCAST chỉ sử dụng yếu tố từvựng dé đánh giá độ khó của những văn bản quân sự không được viết đầy đủ [23]:
Trang 26Level = 20 — (N/10) (5)
với Level là độ khó của văn bản; N là sé từ đơn tiết trong một mau 150 từ được trích
từ văn bản.
Năm 1974, nhóm tác giả Golub và Kidder đã công bố công thức đo Điểm mật
độ cú pháp Golub (Syntactic Density Score - SDS), tập trung vào các đặc điểm cú
trích theo các hệ số được trình bày trong Bang 1.1:
pháp của một văn bản Để tính toán cấp độ khó của một văn bản, một mẫu gồm mộtVài trăm từ được lấy Ta từ đoạn văn đó và tính tổng giá trị của các đặc trưng được rút
Đặc trưng Hệ số
Số từ / số T-unit 0,95
Số mệnh đề phụ / số T-unit 0,90
Độ dài trung bình của mệnh đề chính 0,20
Độ dài trung bình của mệnh đề phụ 0,50
Số lượng động từ khiếm khuyết (will, shall, can, may, must, would ) 0,65
Số lượng trợ động từ Be và Have 0,40
Số lượng cụm giới từ 0,75
Số lượng danh từ và đại từ sở hữu 0,70
Số lượng trạng từ thời gian (when, then, once, while ) 0,60
Số lượng danh động từ, phân từ và cụm từ độc lập 0,85
Bảng 1.1: Các đặc trưng và hệ số tinh Syntactic Density Score - SDS
với T-unit là một mệnh đề độc lập và bát kỳ mệnh đề phụ thuộc nào gắn liền với nó.Cuối cùng, Điểm mật độ cú pháp Golub (SDS) sẽ là tổng giá trị của các đặc trưngnày chia cho số lượng T-unit [24] Nhóm tác giả của giới thiệu bảng giá
từ SDS sang độ khó văn bản như sau:
trị quy đổi
Trang 27SDS | 0,5 | 1,3 | 2,1 | 2,9 | 3,7 | 4,5 | 5,3 | 6,1 | 6,9 | 7,7 | 8,5 | 9,3 | 10,1 | 10,9
Grade} 1 |2 |3 |4|5 |6 |7|8 | 9) 10/11} 12} 13 | 14
Bang 1.2: Quy đổi tir SDS sang độ khó van ban
Trong một nghiên cứu được Hải quân Mỹ ủy thác năm 1975, J Peter Kincaid
và các cộng sự [25] đã tiền hành chỉnh sửa lại công thức Flesch Reading Ease để đưa
ra kết quả đo theo từng cấp lớp học như sau:
GL = (0,39 x ASL) + (11,8 x ASW) — 15,59 (6)
Trong đó, GL là cấp lớp học trung bình của người doc (Grade Level); ASL là
độ dài trung bình của câu tinh theo từ; va ASW là độ dài trung bình của từ tính theo
âm tiết Công thức này được sử dụng khá phổ biến với tên là Công thức
Flesch-Kincaid và cũng được tích hợp vào trong chương trình soạn thảo văn ban Microsoft
Word ké từ phiên bản 2007 dé hỗ trợ người dùng kiểm tra Độ khó của văn bản đang
soạn thảo.
Trong một nghiên cứu năm 2020, nhóm tác gia Bruce W và Jason đã giới thiệu
LXPER Index 2.0 — một công cụ đo độ khó văn bản cho tiếng Hàn [26] Công cụ nàytích hợp các thư viện để hỗ trợ trích xuất các đặc trưng ngôn ngữ từ văn bản như cácđặc trưng về từ, từ loại, đặc trưng về mật độ thực thé (entity density), kênh từ vựng(lexical chain) và các đặc trưng về từ khó Các đặc trưng này cũng được sử dụng đểphân tích tương quan với độ khó của văn bản rồi xây dựng công thức đánh giá độ khócho văn bản tiếng Hàn Các tác giả đã thực nghiệm trên bộ ngữ liệu CoKEC-text —một bộ ngữ liệu hơn 2.700 văn bản từ cấp độ K7 đến K12 dành cho người nước ngoàihọc tiếng Hàn — và các kết quả thực nghiệm cho thay công cụ này giúp cải thiện đáng
kể độ chính xác khi đánh giá độ khó của các tài liệu giảng dạy tiếng Hàn cho người
nước ngoài.
Năm 2021, nhóm tác gia Chakraborty và các cộng sự công bố 1 nghiên cứu về
độ khó của văn bản cho tiếng Bangla (ngôn ngữ của Bangladesh và 1 số vùng ở Ấn
Trang 28tiếng Bangla bằng cách tích hợp các công thức đo độ khó nồi tiếng trong tiếng Anh
như Automated Readability Index [28], Flesch Reading Ease [19], Flesch-Kincaid
[25] Gunning Fog [29], SMOG [22] và công thức Dale-Chall [18] Các công thức
này đã được điều chỉnh lại trọng số của các đặc trưng theo bộ ngữ liệu các văn bảnđược thu thập từ sách giáo khoa Bên cạnh các công thức đo này, các tác giả cũng déxuất một phương pháp học sâu đề đánh giá độ khó của các câu và công bố một bộngữ liệu hơn 96.000 câu được gan nhãn khó / dé dé làm cơ sở cho các nghiên cứu saunày về độ khó của văn bản trong tiếng Bangla
Ngoài các công trình đã được trình bày ở trên, còn có rất nhiều nghiên cứu về
Độ khó của văn bản theo hướng tiếp cận thống kê như các nghiên cứu của Caylor và
các cộng sự (1973) [23]; Smith va Senter (1967) [28]; Zeno và các cộng sự (1995)
[30]; Lee và Hasebe (2016) [31]; Choi và Crossley (2020) [32]; Ghani và các cộng
sự (2021) [33];
Trong tiếng Việt, không có nhiều các nghiên cứu về Độ khó của văn bản Năm
1982, nhóm tác giả Liem Thanh Nguyen và Alan B Henkin [2] đã khảo sát các yếu
tố của văn bản tiếng Việt và chọn ra 2 yếu tố có độ tương quan cao nhất với Độ khócủa văn bản để xây dựng công thức đầu tiên dùng để đánh giá Độ khó của văn bản
như sau:
RL = (2x WL) + (0,2 x SL) — 6 (7)
Trong đó, RL là Độ khó của văn bản với đơn vi là cắp lớp học trung bình của ngườiđọc; WL là độ dài trung bình của từ tính tính bằng số kí tự; và SL là độ dài trung bìnhcủa các câu tính bằng số từ Đến năm 1985, nhóm tác giả đã tiếp tục cải tiến côngthức bằng cách sử dụng yếu tố độ khó của từ [3], cụ thể như sau:
RL = (0,27 x WD) + (0,13 x SL) + 1,74 (8)
Trong đó, WD là ti lệ số từ ghép Hán Việt có trong văn bản Theo nhóm tác gia, các
từ ghép Hán Việt mặc dù chiếm tỉ lệ lớn trong bộ từ vựng tiếng Việt nhưng chúng
Trang 291.2.2 Hướng tiếp cận máy học
Trong những năm gần đây, tận dụng sự phát triển của máy tính, các nghiên cứu về
Độ khó của văn bản cũng phát triển theo Các nghiên cứu thuộc hướng tiếp cận nàyxem các cấp độ khó của văn bản như các phân lớp và tìm cách khai thác các thuậttoán máy học với khả năng tính toán lớn đề giải quyết bài toán thông qua việc xử lý
nhiêu đặc trưng hơn và ở các mức sâu hơn.
Nam 2001, nhóm tác giả Si và Callan [34] đã giới thiệu một phương pháp xác
định Độ khó của văn bản trên web sử dụng Mô hình ngôn ngữ kết hợp với độ dài của
câu Thuật toán Cực đại hóa kỳ vọng (Expectation-Maximization — EM) được các tác
gia sử dung dé dự đoán Độ khó của một số trang web theo 3 cấp độ (Mẫu giáo->Lớp2; Lớp 3->Lớp 5; và Lớp 6->Lớp 8) và đạt được độ chính xác lên đến 75%
Đến năm 2005, nhóm tác giả Collins-Thompson va Callan [35] tiếp tục cải tiến
mô hình ngôn ngữ của Si và Callan Nhóm tác giả đã chuyên sang sử dụng NaiveBayes đề dự đoán cấp độ của các trang web và có độ tương quan khá cao với các cấp
độ do chuyên gia đánh giá.
Cũng trong năm 2005, nhóm tác giả Schwarm và Ostendorf [36] đã khảo sát sự
kết hợp của 12 đặc trưng thuộc về mô hình ngôn ngữ, 4 đặc trưng thuộc về ngữ pháp
và một số đặc trưng truyền thống như độ dài trung bình của câu, độ dài trung bìnhcủa từ để phân lớp các văn bản theo Độ khó của văn bản sử dụng thuật toán SVM(Support Vector Machine) Các kết quả khảo sát cho thấy các đặc trưng thuộc về ngữpháp không đóng góp gì nhiều cho mô hình phân lớp các văn bản khi thực nghiệm
trên bộ ngữ liệu Weekly Reader.
Đến năm 2007, tác giả Heilman và các cộng sự [37] đã tiến hành kiểm chứng
lại vai trò của các đặc trưng ngữ pháp mà nhóm Schwarm và Ostendorf [36] đã đặt ra
nhưng trên các văn bản tiếng Anh dành cho đối tượng là người nước ngoài Kết quảkhảo sát cho thấy rằng các đặc trưng này có thể đóng vai trò quan trọng trong việc
Trang 30đánh giá Độ khó của các văn bản dành cho người nước ngoài hơn là trong các văn
bản dành cho người bản xứ.
Năm 2008, nhóm tác giả Pitler và Nenkova [38] đã tiến hành một số khảo sátdựa trên việc kết hợp các yếu tô thuộc về từ vựng, ngữ pháp và một số yếu tố diễnngôn đề xác định Độ khó của các văn bản tiếng Anh Các kết quả khảo sát cho thấyrằng các mối quan hệ diễn ngôn có liên hệ chặt chẽ tới khả năng nhận thức được vănbản và là đặc trưng rất tốt để dự đoán và xếp hạng Độ khó của văn bản
Trong một công bố vào năm 2010, tác giả Tanaka-Ishii và các cộng sự [39] đãxem xét van dé đánh giá Độ khó của văn bản dưới góc độ của một bài toán sắp xếp:
thay vì xây dựng một mô hình phân lớp văn bản, nhóm tác giả đã xây dựng một mô
hình so sánh (Comparator) đề đánh giá tương quan Độ khó giữa 2 văn bản bat kì Môhình được huấn luyện dựa trên một số đặc trưng về tần số từ được trích xuất từ cácvăn bản thuộc bộ ngữ liệu chỉ gồm 2 mức Độ khó (Khó và Dễ) sử dụng thuật toánSVM Dựa trên mô hình này, nhóm tác giả có thé sắp xếp tất cả các văn bản dựa theo
Độ khó với độ tin cậy cao và chi phí không quá lớn.
Vào năm 2012, nhóm tác giả Vajjala và Meurers [40] đã tiến hành khảo sát một
số đặc trưng của văn bản dành cho đối tượng người nước ngoài ở mức từ (như mật
độ từ, sự biến đổi danh từ ) và mức ngữ pháp (như độ dài trung bình của mệnh đề,
số lượng mệnh để trung bình của câu ) kết hợp với các đặc trưng truyền thống đềphân loại văn bản Các kết quả thực nghiệm trên bộ ngữ liệu văn bản lấy từ tờ báo'Weekly Reader và website BBC-Bitesize cho thấy rằng việc đánh giá Độ khó của cácvăn bản dành cho người nước ngoài cần sử dụng những đặc trưng riêng và cụ thể hơn
so với dành cho người bản ngữ.
Nam 2013, tác gia Chen va các cộng sự [41] đã tiến hành đánh giá ảnh hưởngcủa các đặc trưng thuộc về kênh từ vung (lexical chain) và thông tin tan số của các từtrong văn bản đến Độ khó Một mô hình phân lớp các văn bản đã được xây dựng bằngthuật toán SVM dé phân lớp các văn bản tiếng Hoa theo Độ khó Kết quả thực nghiệm
Trang 31kênh từ vựng với các đặc trưng TF-IDE (Term Frequency - Inverse Document
Frequency) thường có kết quả phân lớp với độ chính xác cao
Năm 2014, tác giả Al-Tamimi và các cộng sự [42] đã công bố một phương phápđánh chỉ mục tự động các văn bản tiếng Ả-Rập theo Độ khó Các tác giả đã tiến hànhphân tích hơn 1.000 văn bản được trích xuất từ sách giáo khoa phổ thông ở Jordani
để đánh giá các công thức xác định Độ khó của văn bản đã có và xây dựng mô hìnhđánh giá văn bản sử dụng SVM Các kết quả thực nghiệm đã chỉ ra những hạn chế vàcác kết quả không chính xác của các công thức đó trong tiếng Ả-Rập
Cũng trong năm 2014, tác giả Gang Sun và các cộng sự [43] đã tiến hành khảosát các đặc trưng ảnh hưởng đến Độ khó của các văn bản tiếng Hoa Nhóm tác giả đã
sử dụng một mô hình xếp hạng đặc trưng kết hợp tuyến tính để xếp hạng các đặctrưng phù hợp nhất dé xây dựng mô hình hồi quy tuyến tính Các đặc trưng được lựachọn bao gồm các đặc trưng bề mặt, từ loại, cây cú pháp và đặc trưng entropy Cáckết quả thực nghiệm cho thấy các mô hình đánh giá Độ khó của văn bản được xây
dựng dựa trên các đặc trưng này có độ tin cậy khá cao.
Năm 2015, nhóm tác giả Chen và Daowadung [44] đã xây dựng một mô hình
máy học đề dự đoán Độ khó của các văn bản tiếng Thái bằng SVM Các tác giả đã sửdụng một số tổ hợp đặc trưng bao gồm các đặc trưng về tần số, các đặc trưng nông(như độ dài trung bình của từ, tỉ lệ của một số từ phé biến ) và các đặc trưng thuộc
về mô hình ngôn ngữ đề xây dựng mô hình Các kết quả thực nghiệm trên bộ ngữ liệucác văn bản trích từ giáo khoa tiểu học ở Thái Lan đã cho thấy giá trị của các đặctrưng về tần số trong việc xác định Độ khó của các văn bản tiếng Thái
Cũng trong năm 2015, tác giả Hind Saddiki và các cộng sự [45] đã tiến hànhkhảo sát các đặc trưng ảnh hưởng đến Độ khó của các văn bản tiếng Ả-Rập dành chođối tượng người nước ngoài Nhóm tác giả đã xây dựng một số mô hình đánh giá Độkhó bằng các thuật toán máy học đề làm cơ sở cho các nghiên cứu sau này về Độ khócủa các văn bản dành cho người nước ngoài Các kết quả thực nghiệm cho thấy một
Trang 32số đặc trưng dễ thống kê như số lượng từ, số lượng ki tự, số lượng từ loại cĩ thểbiểu thị được mức độ khĩ của văn bản.
Nhĩm tác giả M.A Tưrer và R Ozcan [46] đã cĩ một nghiên cứu về việc sửdụng kết quả của các cơng thức xác định Độ khĩ của văn bản cĩ sẵn như là đặc trưng
để xây dựng các mơ hình máy học để phân lớp văn bản Nhĩm tác giả đã sử dụng cácvăn bản được lấy từ sách giáo khoa ở Thổ Nhĩ Kỳ dé huấn luyện các mơ hình thơngqua nhiều phương pháp máy học như Nạve Bayes, Cây quyết định, Random Forest
và Multilayer Perceptron Các kết quả thực nghiệm trên một số văn bản trích xuất từcác website giáo dục ở Thổ Nhĩ Kỳ cho thay đặc trưng kết quả của cơng thức xácđịnh Độ khĩ của văn bản cĩ sử dụng độ khĩ của từ cĩ kết quả tốt hơn so với các cơng
thức khác.
Trong một nghiên cứu được cơng bố vào năm 2016, nhĩm Xia và các cộng sự(2016) [47] đã trình bày các khảo sát trên một số bộ ngữ liệu dành cho người cĩ tiếngAnh là ngơn ngữ mẹ đẻ Các tác giả đã tiền hành một số thực nghiệm bằng các phươngpháp đánh giá độ khĩ của văn bản theo hướng máy học và tìm cách biến đổi cácphương pháp này dé đánh giá các văn bản ding cho người học ngoại ngữ tiếng Anh
— miền văn bản thường cĩ ít ngữ liệu dé khảo sát Các tác giả đã sử dụng phươngpháp EasyAdapt của Daume III giới thiệu năm 2007 [48] để xây dựng mơ hình chuyềnđổi Các kết quả thực nghiệm cho thấy mơ hình chuyên đổi này giúp cải thiện độchính xác của quá trình đánh giá văn bản tiếng Anh cho người học ngoại ngữ so vớiviệc sử dung lại mơ hình được huấn luyện trên ngữ liệu tiếng Anh cho người bản ngữ
Năm 2021, nhĩm tác giả Chatzipanagiotidis và các cộng sự [49] đã cơng bố 1nghiên cứu về độ khĩ của các văn bản tiếng Hy Lạp Trong nghiên cứu này, nhĩmtác giả đã khảo sát tổng cộng 212 đặc trưng ngơn ngữ, bao gồm 67 đặc trưng ở mức
từ, 77 đặc trưng hình thái học, 68 đặc trưng ngữ pháp Ngồi ra, nghiên cứu này cịn
sử dụng thêm 3 đặc trưng là 3 cơng thức đo độ khĩ văn bản là cơng thức FOG, SMOG
một phiên bản cho tiếng Hy Lạp của cơng thức Flesch Reading Ease Nhĩm tác giả
Trang 33dùng để giảng day tiếng Hy Lạp như một ngôn ngữ thứ hai, gồm nhiều nhóm tuổi vàtrình độ khác nhau Kết quả thực nghiệm bằng các phương pháp máy học truyền thông
(như (Logistic Regression, Multilayer Perceptron, Sequential Minimal Optimization)
cho thấy, tất cả các nhóm đặc trưng ngôn ngữ được sử dụng đều có vai trò quan trọngtrong việc đánh giá độ khó của văn bản tiếng Hy Lạp và độ chính xác cao nhất đạtđược là trên 88%, tốt hơn so với các nghiên cứu trước đây
Cũng trong năm 2021, trong một nghiên cứu về độ khó của văn bản, tác giảImperial [50] đã giới thiệu một phương pháp đánh giá độ khó của văn bản tiếng Anh.Tác giả đã sử dụng các đặc trưng ngôn ngữ được trích xuất từ văn bản như đặc trưng
về từ loại, đặc trưng về cú pháp, các đặc trưng về vai trò ngữ nghĩa, các thực thể vàquan hệ, dé đánh giá Bên cạnh đó, tác giả cũng đề xuất sử dụng thêm đặc trưngđược trích xuất thông qua mô hình ngôn ngữ tiền huấn luyện BERT để thực nghiệm
Các thuật toán phân lớp nồi tiếng như Logistic Regression, SVM, Random Forest đã
được sử dụng để xây dựng các mô hình thực nghiệm Các kết quả cho thấy, việc kết
hợp các đặc trưng ngôn ngữ được trích xuất từ văn bản với đặc trưng được trích xuất
từ BERT đã cải thiện đáng kể độ chính xác của các mô hình khi thực nghiệm trên một
số bộ ngữ liệu tiếng Anh Phương pháp mà tác giả Imperial sử dụng cũng là phươngpháp được Deutsch và các cộng sự giới thiệu trong 1 nghiên cứu trước đó dé thựcnghiệm trên một só bộ ngữ liệu khác trong tiếng Anh [51]
Ngoài các nghiên cứu đã được trình bày ở trên, còn có rất nhiều công bố về Độ
hó của văn bản theo hướng tiếp cận máy học như nghiên cứu của nhóm Frangois vàFairon (2012) [52] cho tiếng Pháp: nhóm Islam và Mehler (2013) [53] trên các vănbản lấy từ trang Wikipedia; nhóm Sinha và Basu (2016) cho tiếng Bangla [54], Cha
và các cộng sự (2017) [55]; Qiu và các cộng sự (2018) [56]; WeiB và Meurers (2018)
[57]; Zhu và các cộng sự (2019) [58] Trong tiếng Việt, chưa có bất kỳ nghiên cứunào về Độ khó của văn bản theo hướng tiếp cận máy học ngoại trừ các công trình đãcông bố của luận án này (công bố [CT6] và [CT7])
Trang 34Bảng 1.3 tổng hợp thông tin về các ngữ liệu, các đặc trưng, phương pháp và các
ở nước ngoài và Việt Nam.
ết quả đạt được của một số nghiên cứu về độ khó văn bản trong cả 2 hướng tiếp cận
Công bỗ Ngôn ngữ, Ngữ liệu Các đặc trưng Ket quả
Hướng tiếp cận thống kê
G Harry Mc
Laughlin [22]
Tiếng Anh — 390 đoạn văn
trong các bài kiêm tra đọc McCall-Crabbs
Trung bình độ đài của câu;
Trung bình sô lượng âm tiét
Cải thiện độ tương quan lên 0,87 (so
Hasebe [31] g Nhật từ cap độ cơ bản
đến nâng cao và các biên
bản các cuộc họp quốc hội
Nhật Bản, được chia thành 6
cấp độ khó.
cô; Ti lệ động từ; Tỉ lệ trợ động từ
[25] cứ Hải quân ở Mỹ của từ với -0,74 của các
phiên bản cũ)
Jeanne S Tiếng Anh Ti lệ từ khó; Trung bình độ
Chall và đài câu
Edgar Dale
(21)
J.H.Leevà |Tiéng Nhat—Téng hợp các | Trung bình độ dài câu; Ti lệ số | Độ tương quan đạt
Yoichiro ăn ban từ 83 sách giáo khoa | tir Hán-Nhật; Ti lệ sô từ Nhật | 0,896
Hướng tiếp cận máy học
Gang Sun và Tieng Hoa — 637 văn bản từ 76 đặc trưng bề mặt, từ loại, Thuat toán linear
cộng sự [59] LassyKlein các đặc trưng mức sâu
Phương pháp: K-nearest neighbors, Random forest các cộng sự | sách giáo khoa cho học sinh |cây cú pháp va Entropy regression và log-
[43] từ lớp 1 đến lớp 6 ở Trung |Phương pháp: linear linear regression
Quốc đại lục regression và log-linear cho két qua kha
regression quan
Orphée De Tiéng Hà Lan — 105 đoạn Các đặc trưng cơ bản; Các đặc | Độ chính xác cao Clercq và các |văn từ kho ngữ liệu Dutch |trưng mô hình ngôn ngữ; và |nhất đạt trên
77.5% với thuật toán Random forest
Phương pháp: Thuật toán tối
thiểu tuần tự (Sequential
Yaw-Huei Tiéng Thai — 720 van ban Các đặc trưng tan suất từ; Các | Các đặc trưng tần Chen và thuộc 6 môn học trong sách | đặc trưng mức nông; Các đặc suất đóng vai trò Patcharanut _ | giáo khoa tiểu học ở Thái trưng mô hình ngôn ngữ rất quan trọng Độ Daowadung |Lan Phương pháp: SVM chính xác cao nhất
[44] dat 51%
Karin Tiếng Đức - 2.928 bài đọc [Cac đặc trưng mức từ vựng; | Độ chính xác phân
lớp theo từng cặp câp độ độ khó đạt
trên 75%
Trang 35Các đặc trưng ngữ nghĩa tiềm
an (Latent semantic analysis —
BH với SVM dé au khoa học tự nhiên
Hướng tiếp cận thông kê
khoa cho học sinh sinh viên
người Việt ở Mỹ từ lớp 4
đên cao đăng.
Liem Thanh [20 đoạn văn bản, mỗi đoạn | Trung bình độ dài câu; Trung
Nguyen và có độ dài khoảng 300 từ, bình độ dài từ
Alan B được trích từ các tiéu thuyết,
Henkin [2] các tạp chí v: sách giáo
khoa cho học sinh sinh viên người Việt ở Mỹ từ lớp 4 đên cao dang
Liem Thanh | 54 đoạn văn bản, mỗi đoạn _ | Tỉ lệ từ khó; Trung bình độ Độ tương quan đạt
Nguyen và có độ dài khoảng 300 từ, đài câu 0.922
Alan B được trích từ các tiêu thuyết,
Henkin [3] các tạp chí và các sách giáo
Công trình
công bô [CT5]
của luận án
996 văn bản thuộc các thê
loại như truyện thiêu nhi,
văn mẫu, truyện cổ tích, bài
đọc trong sách giáo khoa,
báo, bài báo khoa học về văn
học và ngôn ngữ học, các văn bản luật,
Trung bình độ đài câu, Trung bình độ dài từ; Ti lệ từ khó
Hướng tiếp cận máy học
Công trình
công bô [CT7]
của luận án
288 văn bản trích xuất từ
sách giáo khoa Tiêng Việt
cho học sinh tiểu học và
sách giáo khoa Ngữ văn cho
học sinh trung học cơ sở ở Việt Nam
Trung bình độ dài câu; Trung bình độ dài từ; Tỉ lệ từ khó;
Độ dải văn bản Phương pháp: SVM
Độ chính xác đạt trên 96% với ngữ
Sách giáo khoa Tiếng Việt _
và Ngữ văn cho học sinh phô
thông ở Việt Nam
Ti lệ từ Hán-Việt; Tỉ lệ từ địa
phương; Tỉ lệ danh từ riêng
Phương pháp: SVM
Độ chính xác đạt trên 85% với ngữ
liệu gom nhóm
theo cấp học
Bang 1.3: Tổng hợp một số nghiên cứu về độ khó văn bản
Nhu vậy, chúng ta có thé thấy, có rất ít nghiên cứu về Độ khó của văn bản trongtiếng Việt — cả ở hướng tiếp cận thống kê và hướng tiếp cận máy học Các nghiên cứu
Trang 36liệu có kích thước rất nhỏ Rất cần có thêm các công trình nghiên cứu khác về Độkhó của văn bản tiếng Việt thực hiện trên các bộ ngữ liệu cập nhật hơn, lớn hơn và
trên các đặc trưng sâu hơn của văn bản Việc xây dựng một tập ngữ liệu lớn hơn và
tiến hành khảo sát, phân tích các đặc điểm của văn bản tiếng Việt ở các mức độ sâuhơn (ngữ pháp, ngữ nghĩa ) nhằm rút ra các đặc trưng ảnh hưởng đến Độ khó củavăn bản tiếng Việt và xây dựng mô hình hoàn chỉnh để đánh giá Độ khó của văn bảntiếng Việt là rất cần thiết Dé chính là lý do thực hiện của luận án “XÂY DỰNG MOHÌNH DANH GIÁ ĐỘ KHÓ CUA VĂN BẢN TIENG VIỆT”
1.3 Mục tiêu và phạm vi của luận án
1.3.1 Mục tiêu
Mục tiêu của luận án là xây dựng một mô hình đánh giá độ khó của văn bản tiếng'Việt Cụ thé hơn, luận án này sẽ đề xuất và xây dựng phương pháp xác định xem mộtvăn bản (tiếng Việt — đang xét) có độ khó như thé nào Kết quả của luận án có thé ápdụng vào nhiều lĩnh vực quan trọng như hỗ trợ biên soạn sách giáo khoa, giáo trình,viết báo, viết hướng dẫn sử dụng, viết định nghĩa trong từ điền giải thích bằng tiếngViệt; hỗ trợ dạy tiếng Việt cho người nước ngoài
1.3.2 Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận án là các yếu tố ảnh hưởng đến độ khó của văn bản,
cụ thé sẽ là các đối tượng sau:
+ Các văn bản tiếng Việt
+ Các đặc điểm của tiếng Việt: cách sử dụng từ, cách viết câu, tính liên kếttrong văn bản tiếng Việt, cách sử dụng ngôn ngữ địa phương, phong cách họcvăn bản tiếng Việt
+ Các tri thức ngôn ngữ: ranh giới từ, ranh giới ngữ, thông tin từ loại, cầu trúc
cú pháp, ngữ nghĩa của câu.
Trang 371.3.3 Nội dung luận án
Luận án nay tập trung nghiên cứu các yếu tô ảnh hưởng tới Độ khó của văn bản vàcác phương pháp để đánh giá Độ khó của văn bản tiếng Việt Nội dung của nghiêncứu sẽ bao gồm các phần sau:
+ Tìm hiểu tổng quan về Độ khó của văn bản: các khái niệm về Độ khó củavăn bản, những tác động của Độ khó văn bản và sự cần thiết của việc xácđịnh Độ khó của văn bản trong quá trình biên tập, xuất bản sách, giáo khoa,
giáo trình hay các văn bản khác.
+ Tim hiểu các kiến thức cơ sở: các phương pháp xây dựng bộ ngữ liệu đánh
giá Độ khó của văn bản, các phương pháp đánh giá Độ khó của văn bản, một
số phương pháp xác định độ chính xác và độ tin cậy của mô hình đánh giá
Độ khó của văn bản.
+ Tìm hiểu các đặc điểm của ngôn ngữ nói chung và các đặc điểm của tiếngViệt nói riêng ảnh hưởng đến Độ khó của văn bản tiếng Việt
+ Xây dựng mô hình đánh giá Độ khó của văn bản tiếng Việt:
— Xây dựng ngữ liệu phục vụ đánh giá Độ khó của văn bản tiếng Việt: thuthập các văn bản tiếng Việt, dự kiến theo 3 cấp độ: Dễ (các mẫu truyệnthiếu nhi, các nội dung sách giáo khoa cấp 1, bách khoa toàn thư cho trẻem ), Trung bình (các tin tức hằng ngày trên các trang báo mạng) và Khó
(các giáo trình, luận văn đại học và sau đại học, các tài liệu lý luận ngôn
ngữ, ).
— Xây dựng mô hình: tiến hành thống kê, phân tích bằng máy tính các yếu
tố ngôn ngữ, các đặc trưng của tiếng Việt tác động đến độ khó của vănbản, như: yếu tố từ vựng, yếu tố cấu trúc, ngữ nghĩa văn bản, Từ đó đềxuất một mô hình máy học dùng để đánh giá Độ khó của văn bảntiếng Việt
+ Đánh giá mô hình: tiến hành các thử nghiệm, thực nghiệm nhằm đánh giátính chính xác, độ tin cậy của mô hình đề xuất
Trang 381.3.4 Pham vi nghiên cứu
Luận án này tập trung vào nghiên cứu xây dựng một phương pháp hiệu quả để đánhgiá độ khó của văn bản tiếng Việt:
+ Đối tượng văn bản: Luận án chỉ khảo sát các văn bản viết hoặc văn bản in cóngôn ngữ là tiếng Việt, không xét đến văn bản nói và các văn bản không phải
là tiếng Việt Luận án dự kiến khảo sát và đánh giá trên miền văn bản chủyếu là các văn bản trong lĩnh vực văn học và ngôn ngữ học thuộc chươngtrình giáo dục phô thông và đào tạo sau phổ thông ở Việt Nam Với lĩnh vực
văn học, luận án chỉ sử dụng các văn bản văn xuôi, không sử dụng các văn
bản văn vần (thơ, trường ca, vé, tục ngữ, ca dao, )
+ Độ khó của văn bản: Luận án dự kiến kết quả đánh giá Độ khó của văn bản
là một chỉ số (trên một miền hoặc thang đo định sẵn) hoặc một nhãn phân lớpthể hiện văn bản dễ hay khó ở mức độ / cắp độ nào, văn bản đó phù hợp vớinhóm đối tượng người đọc nào Những chỉ số / nhãn phân lớp này mang tínhkhách quan, được rút ra từ chính bản thân văn bản, không chịu bất cứ sự tácđộng nào từ phía người đọc, do đó, các nghiên cứu, đề xuất, thực nghiệmtrong luận án chỉ dựa vào các khảo sát trên ngữ liệu là các văn bản tiếng Việt
đã được xác định độ khó mà không xét đến bất kỳ khía cạnh nào của người
đọc.
1.4 Đóng góp của luận án
Luận án có những đóng góp sau đây cho lý luận và thực tiễn:
+ Luan án là nghiên cứu day đủ và hoàn chỉnh đầu tiên về độ khó văn bản dànhcho tiếng Việt trên phương diện tin học: luận án trình bay rõ rang và đầy đủthé nao là độ khó của văn bản, các khía cạnh liên quan tới độ khó văn bản,các phương pháp tiếp cận, các đặc trưng, các nguồn ngữ liệu để khảo sát và
đánh giá độ khó của văn bản.
Trang 39+ Luận án đã nêu ra được một loạt các yếu tố, đặc trưng được trích xuất từ vănbản (tổng cộng 262 đặc trưng) để khảo sát, đánh giá và xây dựng các côngthức, các mô hình đánh giá độ khó văn bản cho tiếng Việt Các đặc trưng này
đã được luận án công bố trong công trình [CT3]
+ Luận án đã xây dung 2 bộ ngữ liệu độ khó văn bản với kích thước đủ lớn và
tin cậy dé làm cơ sở khảo sát cho luận án cũng như các nghiên cứu sau này:(1) Bộ ngữ liệu 370 văn bản thu thập từ sách giáo khoa tiếng Việt và Ngữvăn dành cho học sinh phổ thông ở Việt Nam (bộ ngữ liệu này đã được luận
án công bố trong công trình [CT6]); và (2) Bộ ngữ liệu 1.825 văn bản thuộclĩnh vực văn học và ngôn ngữ học được thu thập từ nhiều nguồn và đượcđánh giá bởi các chuyên gia ngôn ngữ tiếng Việt Đây là 2 bộ ngữ liệu lớn vàcông khai đầu tiên về độ khó văn bản trong tiếng Việt
+ Luận án đã trình bày lại mô hình đánh giá độ khó văn bản theo hướng tiếpcận thống kê Đây là hướng tiếp cận được nhiều nghiên cứu trên thế giới sửdụng Trong hướng tiếp cận này, luận án đề xuất việc thực hiện phân tích hồiquy trên nhiều đặc trưng hơn: không loại bỏ những đặc trưng có tương quancao với những đặc trưng đã chọn Việc điều chỉnh này đã giúp cải thiện đáng
kế độ tương quan của công thức đánh giá độ khó văn bản xây dựng được so
với các công thức có loại bỏ các đặc trưng tương quan cao với nhau Phương
pháp thực nghiệm này đã được luận án công bồ trong công trình [CT3]
+ Luận án đã đề xuất sử dụng thuật toán feature ranking with Recursive
Feature Elimination and Cross-Validated selection of the best number
of features (viết tắt: RFECV) dé tự động chọn ra các đặc trưng có đóng góptốt vào các mô hình máy học đánh giá độ khó văn bản dùng các thuật toánphân lớp truyền thống RFECV là thuật toán xếp hạng các đặc trưng bằngphương pháp đệ quy loại bỏ lần lượt các đặc trưng đề đánh giá hiệu quả phânlớp thông qua kiểm tra chéo Việc ứng dụng thuật toán này vào bài toán đánhgiá độ khó văn bản giúp tăng đáng kẻ độ chính xác của các mô hình phân lớp
Trang 40văn bản theo độ khĩ Mơ hình này đã được luận án cơng bố trong cơng trình
[CT3].
+ Luận án đã đề xuất một mơ hình đánh giá độ khĩ văn bản theo hướng tiếpcận học sâu, sử dụng mơ hình tiền huấn luyện BERT và mạng LSTM Đây
cĩ thể xem là nghiên cứu đầu tiên trong tiếng Việt nĩi riêng và trên thế giới
nĩi chung sử dụng học sâu trong việc đánh giá độ khĩ văn bản Mơ hình này
đã được luận án cơng bố trong cơng trình nghiên cứu [CT2] Các nghiên cứutrước đây trên thế giới tuy cũng đã cĩ sử dụng học sâu nhưng chủ yếu vẫn là
sử dung các mơ hình ngơn ngữ tiền huấn luyện để trích xuất các đặc trưng
văn bản, sau đĩ thì các thuật tốn phân lớp được sử dụng vẫn là các thuật
tốn phân lớp truyền thống như Support Vector Machine, Nạve Bayes,
K-nearest neighbors, Random Forest
1.5 Bố cục luận án
Luận án được bố cục thành 5 chương với nội dung sau đây:
- 0Trình bày tổng quan về độ khĩ của văn bản, các nghiên cứu về độ khĩ của văn bantrên thế giới và trong tiếng Việt theo từng hướng tiếp cận Kế đĩ, chương này trình
bày mục tiêu và phạm vi thực hiện của luận án.
- CHƯƠNG 2 Trình bày cơ sở lý thuyết về độ khĩ của văn bản, các đặc điểm của độ
khĩ của văn bản Chương này cũng trình bảy vai trị của độ khĩ văn bản trong quá
trình soạn thảo và đọc văn bản cũng như những ứng dụng thực tế của độ khĩ văn bản.Cuối cùng, các yếu tố ngơn ngữ của văn bản cĩ ảnh hưởng đến độ khĩ của văn bảncũng được đề cập trong phần cuối của chương
- CHƯƠNG 3 Giới thiệu các đặc trưng được sử dụng trong luận án để đánh giá độkhĩ của văn bản tiếng Việt, đồng thời đề xuất 3 mơ hình đánh giá độ khĩ của văn bảntiếng Việt theo 3 hướng tiếp cận tương ứng với các nghiên cứu trên thế giới 3 mơhình được đề xuất gồm: (1) mơ hình phân tích tương quan và phân tích hồi quy déxây dựng cơng thức đo độ khĩ của văn bản; (2) mơ hình máy học dé đánh giá độ khĩ