Luận án tiến sĩ Khoa học máy tính: Xây dựng mô hình đánh giá độ khó của văn bản tiếng Việt

Năm 1944, tác giả Irving Lorge [16] đã công bố Chỉ số Lorge Lorge Indexdùng để đánh giá Độ khó của văn bản dựa trên 3 đặc trưng là Độ dài trung bình củacâu tính theo từ, Số lượng các cụm

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LƯƠNG AN VINH

XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ

CUA VĂN BẢN TIENG VIỆT

LUẬN ÁN TIEN SĨ KHOA HOC MAY TÍNH

Trang 2

_ ĐẠI HỌC QUỐC GIA TP.HCM _

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LƯƠNG AN VINH

XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ

CUA VĂN BẢN TIENG VIỆT

Ngành: Khoa học Máy tính

Mã số ngành: 62480101

Phản biện 1: PGS.TS Nguyễn Tuần Đăng

Phản biện 2: PGS.TS Nguyễn Thanh Hiên

Trang 3

LỜI CÁM ƠN

Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS.Dinh Điền, người thay đã chỉ bao và hướng dẫn tận tình cho tôi trong suốt quá trình

nghiên cứu khoa học và thực hiện luận án này.

Tôi xin chân thành cảm ơn sự giúp đỡ và góp ý rất nhiệt tình của tập thé giảng viên,

cán bộ Khoa Công nghệ thông tin và Trung tâm Ngôn ngữ học Tính toán, Trường

Đại hoc Khoa học Tự nhiên — Đại học Quốc gia Tp Hồ Chí Minh

Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè — những người

luôn ở bên tôi những lúc khó khăn nhât, luôn động viên tôi, khuyên khích tôi trong cuộc sông và trong công việc.

Tôi xin chân thành cảm ơn!

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận án này được hoàn thành trên cơ sở nghiên cứu, tông hợp vàphát triển các nghiên cứu đánh giá độ khó của các văn bản trong nước và trên thế giới

do tôi thực hiện đưới sự hướng dẫn của PGS.TS Dinh Điền Tat cả các tài liệu thamkhảo đều được nêu rõ nguồn gốc một cách rõ ràng trong Danh mục tài liệu tham khảo.Các công trình công bồ là trung thực và chưa được ai công bé trong bat kỳ công trình

nào khác.

Ký tên

Lương An Vinh

Trang 5

8/9000 ii080) iii

MUC LUC

DANH MỤC CÁC KY HIỆU, CÁC CHỮ VIET TÁTT s< vii

0 0):0 0090 (0790 viii

DANH MỤC CAC HINH VE, DO THI

TOM TAT LUẬN AN

THESIS SUMMARY

CHUONG 1 TONG QUAN

1.1 Độ khó cua văn bản.

1.2 Các nghiên cứu về độ khó của văn bản

1.2.1 Hướng tiếp cận thống kê 2¿-2++z+222+++ettrvxxrrerrrkerrrrei 91.2.2 Hướng tiếp cận máy học ¿:+++2v++++evvvvrrsrrrsrresrr 19

1.3 Mục tiêu và phạm vi của lUẬH đhH -ccscS«S+SsxskekeeeEerekseekerrrerxee 26

1.3.1 Mục (iÊU - th HH HH HT 26

1.3.2 Đối tượng nghiên cứu -22-:+22222vvvvrrrrtrtrrrtrrrrrrrrrrrrrree 26

1.3.3 Nội dung luận án - ¿+ St k0 012 H00 01 hp 27

1.3.4 Phạm vi nghiên CỨU - - ¿+5 + S*St+t+EEeEertrkrkerrrrrkrkrkrree 28

1.4 Đóng góp của lUẬN đH c-cScSstkTkTếếhhhghTHngrire 28

1.5 BO cục luận đn cccccceS2EEEEtrtthHHHHH ae 30D6 Tig Ket nh 31CHƯƠNG 2 CƠ SỞ LÝ THUYET VE ĐỘ KHO CUA VAN BẢN 33

21 DO KN6 CUA VGN DAN n4 33

2.2 Các yếu tổ ngôn ngữ ảnh hưởng đến độ khó của văn bản 45

2.2.1 Yếu tố từ 2222222222 tt 22rreg 452.2.2 Yếu tổ câu

2.2.3 Yếu tố van bản

Trang 6

2.3.1 Đánh giá độ khó van bản theo hướng tiếp cận thống kê 552.3.2 Đánh giá độ khó theo hướng tiếp cận máy học - 592.4 Tiểu KẾI HH giờ 63CHUONG 3 MÔ HÌNH ĐÁNH GIA ĐỘ KHÓ VAN BẢN TIENG VIỆT 64

BD Các AGC IFƯHg St TH HH ngư 64

3.2 Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận thống kê 66

3.2.1 Phân tích tương quan -.66

3.2.2 Phân tích hdi quy

3.3 Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận máy học, sử dungcác thuật toán phân lớp truyền thống

3.4 Mô hình đánh giá độ khó văn ban sử dụng kỹ thuật học sâu 79

BAL on 83

3.4.2 Tach đoạn văn ban - ¿c2 St *ESEEEvEeEEErrrrrrsesrrrsrrrssre 83

3.4.3 Tinh chỉnh BERT - 5-5522 2t tren 83

3.4.4 Mã hóa các đoạn văn bản - 5+ St ssrerrrrerrrrrrrrrrrree 85

3.4.5 Tổng hợp vector văn bản và phân lớp : - + §6

3.4.6 Tích hợp đặc trưng ngôn ngữ vào mô hình ¿ -«- 87

BS Tiểu kẾ, HH, 87CHUONG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ -. -csssccccssse 89

4.1 Xây dựng ngữ liỆM ST St St SH 89

4.1.1 Thu thập ngữ liệu độ khó văn ban từ sách giáo khoa tiếng Viét 93

4.1.2 Xây dựng ngữ liệu độ khó của các văn bản lĩnh vực văn học và

ngôn ngữ hỌc +: tt 221 121211211111 121212101 11021 H0 re 96

4.1.3 Tiền xử lý va gán nhãn ngữ liệu - -¿52+cz+ccvscceer, 994.1.4 Thống kê và gom nhóm ngữ liệu -zc++ 102

4.2 Rút trích đặc trưng

4.3 Phương pháp đánh giá

4.4 Thực HghiỆMM St ST TT HH TII

Trang 7

4.4.2 Đánh giá độ khó văn bản theo hướng tiếp cận máy học, sử dụng cácthuật toán phân lớp truyền thống -: 2¿¿2222++++vcvvzrrrrrvee 114

4.4.3 Đánh giá độ khó văn bản sử dụng kỹ thuật học sâu 124

4.4.4 So sánh với các nghiên cứu khác - + s es+x+x+x+vzervxexex 127

AS TiGU KE na 133CHƯƠNG 5 KET LUẬN VA HƯỚNG PHAT TRIÊN - 135DANH MỤC CONG TRINH CONG BO CUA TÁC GIẢ 142DANH MUC TAI LIEU THAM KHAO

PHU LUC

Trang 8

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIET TAT

STT Từ viết tắt Tên đầy đủ

1 | SVM Support Vector Machine

2 | TF-IDF Term Frequency - Inverse Document Frequency

3 | CEFR Common European Framework of Reference

9 | RFECV Recursive Feature Elimination with Cross-Validation

10 | BERT Bidirectional Encoder Representations from Transformers

11 | LSTM Long short-term memory

12 | OCR Optical Character Recognition

13 ¡SGK Sách giáo khoa

14 | VH-NNH_| Van học — Ngôn ngữ học

Trang 9

DANH MỤC CÁC BẢNG

Bang 1.1: Các đặc trưng và hệ số tinh Syntactic Density Score - SDS 16Bảng 1.2: Quy đổi từ SDS sang độ khó văn bản - 2 2252: c2222vcccccvserccrr 17Bảng 1.3: Tổng hợp một số nghiên cứu về độ khó văn bản - 25Bảng 2.1: So sánh Khả năng hiểu văn bản và Độ phức tạp của văn bản 34Bảng 4.1: Thống kê ngữ liệu SGK 105Bảng 4.2: Thống kê ngữ liệu SGK (gom nhóm theo 3 cấp học) 06Bang 4.3: Thống kê ngữ liệu VH-NNH 07Bang 4.4: Hệ số tương quan của các đặc trưng với độ khó của van bản 12Bảng 4.5: Hệ số tương quan của các công thức đo độ khó 114Bang 4.6: Các đặc trưng cho kết quả tốt nhất trên bộ ngữ liệu SGK 18Bang 4.7: Các đặc trưng tốt nhất trên ngữ liệu SGK - với đặc trưng độ dài 20Bang 4.8: Kết quả đánh giá trên bộ ngữ liệu SGK -75c5cccc2 20

Bảng 4.9: Danh sách đặc trưng của thuật toán RF - ngữ liệu VH-NNH 23

Bang 4.10: Kết quả đánh giá trên bộ ngữ liệu VH-NNH - 24Bảng 4.11: Thông tin cầu hình của mô hình học sâu - -¿¿5sc+¿ 26Bảng 4.12: Kết quả của mô hình học sâu, so sánh với các mô hình khác 27Bảng 4.13: Hệ số tương quan của các công thức đo độ khó -: 29

Bang 4.14: So sánh các mô hình máy học của luận án với các nghiên cứu khác 133

Trang 10

DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ

Hình 1.1: Ví dụ về văn bản dé và văn bản khó iirrirerrrrrrrrrrrrrereee 6

Hình 1.2: Minh họa sự khác biệt giữa độ khó văn bản và khả năng đọc hiểu 7

Hình 2.1: Ví dụ về tính dé nhìn của văn bản 2-52-5222 ++2Ec2EEEEEerEkerrxerree 36 Hình 2.2: Các hướng nghiên cứu về sự phù hợp giữa văn bản và người đọc 39

Hình 2.3: Khung tham chiếu trình độ ngôn ngữ chung của châu Âu CEER „44

Hình 2.4: Độ khó của văn bản được tích hợp trong công cụ Microsoft Word. Hình 2.5: Minh họa siêu phẳng, margin trong SVM Hình 2.6: Minh họa thuật toán KNN với k đối tượng khác nhau Hình 2.7: Minh họa thuật toán Random Forest „62 Hình 3.1: Hệ số tương quan biểu thị trên đồ thị phân tán Scatter - 68

Hình 3.2: Biểu diễn phương trình hồi quy tuyến "0 70

Hình 3.3: Minh họa các dang hàm hỏi quy phi tuyến -cc+-222cvsve 7I Hình 3.4: Mô hình lựa chọn đặc trưng dựa trên thuật toán RFECV T1 Hình 3.5: Sự khác biệt giữa câu trúc của BERT, OpenAI GPT và ELMo 81

Hình 3.6: Mô hình đánh giá độ khó của văn bản sử dung BERT - 82

Hình 3.7: Mô hình ngôn ngữ mặt nạ của BERÌT -. -5555c+cs<++ 84 Hình 3.8: Vector của token [CLS] được dùng như vector đại diện cho đoạn văn 85

Hình 3.9: Mô hình phân lớp sử dụng LSTM .-. - +22 <+<<+s+<+++c+> §6 Hình 3.10: Mô hình đề xuất, sử dung BERT và tích hợp đặc trưng ngôn ngữ 87

Hình 4.1: Quá trình xây dựng ngữ liệu đánh giá độ khó van bản - 97

Hình 4.2: Thực nghiệm thuật toán RFECV trên bộ ngữ liệu SGK 116

Hình 4.3: Thực nghiệm thuật toán RFECV sử dụng thêm 6 đặc trưng độ dai 119

Hình 4.4: Thực nghiệm thuật toán RFECV trên ngữ liệu VH-NNH 122

Trang 11

TOM TAT LUẬN ÁN

Độ khó của văn bản là hệ thống các yếu tố ngôn ngữ của nội tại văn bản ảnhhướng đến tính dễ đọc hay khó đọc của một văn bản Các nghiên cứu về độ khó đãđược bắt đầu từ lâu, nhưng hau hết các nghiên cứu đó đều được thực hiện trên tiếngAnh và một số ngôn ngữ phô biến trên thế giới Trong tiếng Việt, trước đây chỉ cóhai công trình nghiên cứu về Độ khó của văn bản, thực hiện trên hai bộ ngữ liệu khánhỏ Chính vì thế, rất cần có thêm các công trình nghiên cứu khác về độ khó của vănbản tiếng Việt thực hiện trên các bộ ngữ liệu cập nhật hơn, lớn hơn và trên các đặctrưng sâu hơn của văn bản như vai trò của từ, ngữ, cầu trúc ngữ pháp, ngữ nghĩa của

cau

Luận án đã xây dựng 2 bộ ngữ liệu dùng đề khảo sát và thực nghiệm đánh giá

độ khó văn bản tiếng Việt, gồm: (1) Bộ ngữ liệu 370 văn bản thu thập từ sách giáokhoa tiếng Việt và Ngữ văn; và (2) Bộ ngữ liệu 1.825 văn bản thuộc lĩnh vực văn học

và ngôn ngữ học Đây là 2 bộ ngữ liệu lớn và công khai đầu tiên về độ khó văn bảntrong tiếng Việt Luận án đã khảo sát 262 đặc trưng được trích xuất từ các văn bảnnày để xây dựng các công thức, các mô hình đánh giá độ khó văn bản Các đặc trưngnày được thuộc nhiều cấp độ của văn bản như các đặc trưng ở mức bề mặt (độ dàicâu, độ dài từ, ), các đặc trưng về tần suất từ và tần suất chữ, các đặc trưng ở cấp

độ ngữ pháp mức từ, mức câu, các đặc trưng thuộc về mô hình ngôn ngữ, các đặctrưng đơn giản ở cấp độ ngữ nghĩa và các đặc trưng của riêng tiếng Việt (như tỉ lệ từ

mượn, tỉ lệ phương ngữ).

Luận án cũng đã giới thiệu 3 mô hình đánh giá độ khó văn bản tiếng Việt theotừng hướng tiếp cận: Với hướng tiếp cận thống kê, luận án đã thực hiện phân tíchtương quan dé chọn ra những đặc trưng có tương quan cao nhất với độ khó của vănbản, sau đó thực hiện phân tích hồi quy với một số cải tiến khi thực nghiệm để xâydựng công thức tính độ khó văn bản tiếng Việt Kết quả cho thấy công thức mới đượcxây dựng có độ tương quan với độ khó văn bản vượt trội so với tất cả các nghiên cứu

Trang 12

Với hướng tiếp cận máy học, luận án đã đề xuất sử dụng thuật toán RFECV dé

tự động chọn ra các đặc trưng có đóng góp tốt vào các mô hình máy học đánh giá độkhó văn bản dùng các thuật toán phân lớp truyền thống Nhờ đó, mô hình mà luận án

xây dựng đã đạt độ chính xác cao so với các nghiên cứu trước đây.

Ngoài ra, luận án cũng đề xuất một mô hình học sâu đề phân lớp văn bản theo

độ khó dựa trên mô hình ngôn ngữ tiền huấn luyện BERT và mạng LSTM Độ chínhxác của mô hình có giảm nhẹ so với các mô hình máy học truyền thống nhưng chúng

ta tiết kiệm được chi phí dé gán nhãn và trích xuất đặc trưng từ văn bản Khi tích hợpthêm một số đặc trưng ngôn ngữ trích xuất từ văn bản vào mô hình học sâu, độ chínhxác của mô hình đã được cải thiện và cao hơn so với các mô hình phân lớp truyềnthống

Trang 13

THESIS SUMMARY

Text readability is the system of linguistic factors of the text's internals that

affect the easiness or difficulty of a text Readability studies have been done for a

long time, but most of them are in English and some popular languages In

Vietnamese, there were previously only two studies on text readability, performed on

two relatively small corpora Therefore, it is necessary to have other studies on the

readability of Vietnamese texts on more updated, larger corpora and deeper features

of the text such as the role of words, phrases, grammatical structure, semantics of

sentences

This thesis has built two corpora for examining and experimenting, including:

(1) The corpus of 370 documents collected from textbooks of Vietnamese language

and Literature; and (2) The corpus 1,825 texts in the field of literature and linguistics.

These are the first two large and public corpora for text readability in Vietnamese.

The thesis has examined 262 features extracted from these corpora to build formulas

and models for assessing text readability These features are included at many levels

of the text such as surface-level features (sentence length, word length, etc.), word

and word-frequency features, word and sentence-level grammatical features,

language model features, simple semantic features and Vietnamese-specific features

(such as the ratio of borrowed words, the ratio of dialects).

This thesis has also introduced three models for assessing the readability of

Vietnamese texts according to each approach: With the statistical approach, the thesis

has performed correlation analysis to select the features that have the most significant

correlation with the readability of the text, then performed regression analysis with

some improvements when experimenting to build a formula to calculate the

readability of Vietnamese text The results show that the newly formulated formula

has a superior correlation with text readability compared to all other studies.

With the machine learning approach, the thesis has proposed to implement the

Trang 14

to machine learning models to evaluate text readability using traditional classification

algorithms As a result, the model developed by the thesis has achieved high accuracy

compared to previous studies.

In addition, the thesis also proposes a deep learning model to classify documents

according to difficulty based on BERT pre-training language model and LSTM neural

network The accuracy of the model is slightly reduced compared to traditional

machine learning models, but we save the cost to label and extract features from the

text When integrating some more linguistic features extracted from text into the deep

learning model, the accuracy of the model has been improved and is higher than that

of traditional classification models.

Trang 15

CHUONG 1 TONG QUAN

Chương này trình bày tong quan về độ khó của van bản, các nghiên cứu

về độ khó của văn bản trên thế giới và trong tiếng Việt Kế đó, chương này

trình bày mục tiêu, phạm vi thực hiện và các đóng góp của luận án.

1.1 Độ khó của văn bản

Đọc là một trong các kỹ năng cơ bản của con người trong quá trình tiếp nhận kiếnthức của thế giới Đọc không chỉ là đề thu nhận kiến thức, nó còn giúp chúng ta thưgiãn, phát triển các năng lực ngôn ngữ, năng lực trí tuệ, rèn luyện trí não, hay thậm

chí là giúp làm chậm quá trình lão hóa [1].

Tuy vậy, trong những năm gan đây, cùng với sự phát triển nhanh và mạnh mẽcủa mạng Internet, lượng thông tin bằng văn bản trên mang đang ngày càng bùng nô.Trong số những văn bản đó, có văn bản dé đọc, nhưng cũng có những văn bản khóđọc Chúng ta có thể bắt đầu với một ví dụ thực tế trong tiếng Anh: Trong Hình 1.1

là hai văn bản — hai đoạn tin tức về cùng một nội dung là “Earthquake in Indonesia”(dịch nghĩa: Động dat ở Indonesia”) vào tháng 10/2018 Cả hai đoạn tin tức này được

trích từ trang web “News In Levels” (link: https://www.newsinlevels.com/) — đây là

một trang web chuyên viết các tin tức thời sự theo nhiều mức độ khó khác nhau dé

hỗ trợ học tiếng Anh Mặc dù trình độ tiếng Anh của chúng ta có thể khác nhau,nhưng tat cả chúng ta đều có thé nhận thấy là văn bản a dé đọc hơn văn bản b, haynói cách khác, văn bản a có độ khó thấp hơn văn bản b Trang web “News In Levels”cũng xếp loại văn bản a vào mức độ khó “Level 1” và văn bản b vào mức độ khó

“Level 3” Cơ sở khoa học dé họ phân loại như thế, chính là dựa trên độ khó củachính văn bản đó (readability) Đó cũng chính là chủ đề nghiên cứu của luận án này

Trang 16

Văn bản a

Earthquake in Indonesia — level 1

Sulawesi is an island in Indonesia An earthquake hits near it The earthquake makes a tsunanii It is 3 metres tall.

The tsunami moves into two cities Around 600,000 people live there More

than 832 people die Hospitals, hotels, a shopping centre, and thousands

of homes are destroyed.

Difficult words: earthquake (when the ground moves), tsunami (a big wave started by an earthquake),

destroy (break completely).

- - Văn bản b

Earthquake in Indonesia — level 3

A7.5-magnitude earthquake hit near the Indonesian island of Sulawesi, triggering a 3-metre tsunami, which smashed into two cities on the coast.

Palu and Donggala are the cities affected the worst, and they are home to

over 600,000 people At least 832 people have been confirmed dead,

thousands of homes collapsed, along with hospitals, hotels, and a shopping centre The disaster affected as

many as 1.6 million people, according to Red Cross estimates.

Difficult words: trigger (start), estimate (a careful guess based on data).

Hinh 1.1: Vi du vé van ban dé va van ban kho

Vay độ khó của văn bản là gì? Những yếu tố ngôn ngữ nào ảnh hưởng đến độkhó của văn bản? Từ những yếu t6 đó, chúng ta sẽ xây dựng mô hình máy tính dé tựđộng đánh giá độ khó của văn bản như thế nào? Đó chính là những câu hỏi nghiên

cứu của luận án.

Trên cơ sở tổng hợp các nghiên cứu trước đây trong tiếng Anh, trong khuôn khổcủa luận án này, độ khó của văn bản được chúng tôi định nghĩa như sau: “hệ thôngcác yêu tố ngôn ngữ của nội tại văn bản ảnh hướng đến tính dễ đọc hay khó đọc của

một văn bản”.

Nghiên cứu về Độ khó của văn bản là nghiên cứu các yếu té thuộc về ngôn ngữ

Trang 17

hưởng mức độ như thé nào tới việc đánh giá, xếp loại văn bản đó là dễ đọc hay khóđọc Các yếu tố ngôn ngữ nay là các yếu tố khách quan của văn bản, được hình thành

trong quá trình soạn thảo văn bản, hoàn toàn không chịu sự ảnh hưởng / tác động từ

phía người đọc.

Ở đây, chúng ta cần phân biệt hai khái niệm dễ nhằm lẫn: đó là độ khó văn bản(readability) và khả năng đọc hiểu văn bản (comprehensibility) Trong khi độ khóvăn bản tùy thuộc vào các các yêu tô ngôn ngữ nội tại khách quan của văn ban, thìkhả năng đọc hiéu van bản lại tùy thuộc vào các yếu tố cá nhân mang tính chủ quancủa người đọc Ví dụ: lĩnh vực chuyên môn, trình độ, niềm say mê, sức khỏe, mụctiêu đọc văn bản của người đọc Do đó, sẽ có nhiều trường hợp: cùng một văn bản

A, nhưng với người đọc X sẽ cảm thấy dễ, người đọc Y lại cảm thấy khó Đề dễ hình

dung sự khác nhau giữa hai khái niệm này, chúng ta xem ví dụ trực quan sau: Hình

1.2: đo chiều cao của một bộ bàn - ghế cho học sinh

Độ khó của văn bản Khả năng hiểu văn bản của người đọc

0 # 0

Chiều cao của bàn / ghế Chiều cao của bàn / ghế so với từng học sinh

Anh ơi, bộ ban gl

80cm

60cm el

Hình 1.2: Minh họa sự khác biệt giữa độ khó văn ban và kha năng đọc hiểu

Chiều cao của cái bàn - ghế là một đại lượng khách quan, được đo bằng thang

đo định sẵn (ví dụ như thang đo mét hay inch ) Ví dụ: chiều cao cái bàn A đo được

Trang 18

X ngồi vào bộ bàn ghế đó, sẽ có cảm nhận là bàn này thấp, nhưng người Y ngồi vàolại có cảm nhận cái bàn này cao, điều này tương đương với khả năng đọc hiểu văn

bản của người X và Y khi cùng đọc văn bản A Khả năng này là khác nhau vì tùy

thuộc vào chiều cao, vào cấu tạo cơ thé, vào tư thé ngồi, cua người X và Y Vi

vậy, với một nhóm người có chiều cao xấp xỉ nhau, thì đa số sẽ có cảm nhận về độcao của cái ban gần giống nhau Đây cũng chính là cơ sở để chúng ta đóng bàn ghế

có kích thước phù hợp của các học sinh mỗi cấp Điều này tương tự với cơ sở khoahọc đề chúng ta xây dựng các văn bản có độ khó phù hợp với trình độ chung của đa

số một nhóm người đọc nào đó (hay một cấp học, lớp học nào đó)

Mục tiêu của bài toán đánh giá độ khó của văn bản là căn cứ trên các yếu tô

ngôn ngữ khách quan của văn bản, xác định xem văn bản đó là khó hay dễ, hay cụ

thể hơn là văn bản đó có độ khó như thế nào Dựa trên kết quả đó, chúng ta có thể

xác định được văn bản có phù hợp với một đối tượng người đọc nào đó hay không

Đối tượng người đọc ở đây không phải là một người đọc đơn lẻ, mà là một nhóm

những người đọc có chung một vài đặc điểm nao đó Việc xác định văn bản có phù

hợp với chỉ một người đọc đơn lẻ nào đó hay không sẽ chỉ mang tính chủ quan với

người đọc đó, không phù hợp để ứng dụng vào thực tế Lấy ví dụ: xác định văn bản

V có phù hợp với người đọc A hay không thì chỉ đưa ra được quyết định với ngườiđọc A, đến khi cần xét xem văn bản đó có phù hợp với người đọc B hay không thìphải xem xét lại từ đầu Trong khi đó, nếu ta xác định văn bản A đó phù hợp với cáchọc sinh có trình độ lớp 5 trở lên thì nghĩa là đa số các học sinh đang học lớp 5 hoặchơn có thể đọc hiểu được văn bản đó

Các nghiên cứu về Độ khó đã được bắt đầu từ lâu, nhưng hầu hết các nghiêncứu đó đều được thực hiện trên tiếng Anh và một số ngôn ngữ phé biến trên thế giớinhư tiếng Pháp, tiếng Hoa, tiếng Đức, tiếng Ý, tiếng Bồ Đào Nha Đối với tiếngViệt, trước đây chỉ có hai công trình nghiên cứu về Độ khó của văn bản của cùng một

nhóm tác giả Liem Thanh Nguyen và Alan B Henkin vào năm 1982 [2] và

năm 1985 [3] Cả hai công trình nghiên cứu này đều tập trung vào phân tích các mối

Trang 19

quan hệ giữa các đặc trưng thống kê ở mức nông (như độ dài của từ, độ dài của câu,

độ khó của từ) với Độ khó của văn bản Ngoài ra, cả hai công trình nghiên cứu này

đều đã được thực hiện từ lâu — cách đây hơn 30 năm — dựa trên hai bộ ngữ liệu khánhỏ với chỉ 20 văn bản [2] và 54 văn bản [3] Chính vì thế, rất cần có thêm các côngtrình nghiên cứu khác về Độ khó của văn bản tiếng Việt thực hiện trên các bộ ngữ

liệu cập nhật hơn, lớn hơn và trên các đặc trưng sâu hơn của văn bản như vai trò của

từ, ngữ, cầu trúc ngữ pháp, ngữ nghĩa của câu Việc xây dựng một tập ngữ liệu lớnhơn và tiến hành khảo sát, phân tích các đặc điểm của văn bản tiếng Việt ở các mức

độ sâu hơn (ngữ pháp, ngữ nghĩa ) nhằm rút ra các đặc trưng ảnh hưởng đến Độkhó của văn bản tiếng Việt và xây dựng mô hình hoàn chỉnh đề đánh giá Độ khó củavăn bản tiếng Việt là rất cần thiết

1.2 Các nghiên cứu về độ khó của văn ban

Các nghiên cứu về Độ khó của văn bản được chia thành 2 hướng tiếp cận chính dựatrên các đặc điểm chung của các công trình nghiên cứu thuộc từng hướng tiếp cận:

+ Hướng tiếp cận thống kê

+ Hướng tiếp cận máy học

1.2.1 Hướng tiếp cận thống kê

Các nghiên cứu theo hướng tiếp cận này chủ yếu khảo sát các yếu tố của văn bản ảnhhưởng đến Độ khó của văn bản và xây dựng các công thức tính toán Độ khó dựa trêncác yếu tố đó

Những năm 1880, giáo sư Lucius Adelno Sherman thuộc trường Dai học

Nebraska đã bắt đầu tiến hành dạy học văn học theo quan điểm thống kê Trong côngtrình nghiên cứu của mình vào năm 1893, Sherman đã thực hiện các thống kê trên rấtnhiều tác phẩm văn học tiếng Anh từ cô điền đến cận-hiện đại và nhận thấy rằng độdài của các câu văn đã ngắn đi theo thời gian [4]:

+ Thời kì tiền Elizabeth: trung bình 50 từ/câu

Trang 20

+ Thời kì Elizabeth: trung bình 45 từ/câu

+ Thời kì Victoria: trung bình 29 từ/câu

+ Thời kì của chính tác giả Sherman: trung bình 23 từ/câu.

Trong thời kì hiện nay, độ dài trung bình của câu văn trong các tác phẩm vănhọc tiếng Anh đã giảm xuống còn khoảng 20 từ/câu [5] Nghiên cứu của tác giảSherman đã là tiền đề cho hàng loạt các nghiên cứu khác với các nhận định sau [4]:

+ Văn học cũng là một đối tượng dé phân tích thống kê

+ Câu ngắn gọn và các thuật ngữ súc tích sẽ làm giảm độ khó

+ Ngôn ngữ nói thì hiệu quả hơn ngôn ngữ viết

+ Ngôn ngữ viết càng ngày càng giống với ngôn ngữ nói và do đó trở nên hiệu

quả hơn.

Trong nghiên cứu của mình, tác giả Sherman cũng đồng thời đưa ra hai nhận

định khác:

+ Mỗi tác giả thường viết câu với độ dài trung bình gần như là không đổi

+ Theo thời gian, các câu trong văn bản viết không chỉ ngày càng ngắn hơn mà

còn trở nên đơn giản hơn và bớt trừu tượng hơn.

Bắt đầu từ năm 1911, nhà nghiên cứu Thorndike đã tiền hành thống kê tần sốcủa các từ trong văn bản tiếng Anh Đến năm 1921, ông đã xuất bản cuốn sách “Theteacher’s word book” [6] liệt kê ra 10.000 từ có tần suất sử dụng cao nhất trong tiếngAnh Đến năm 1932, Thorndike tiếp tục với cuốn “A teacher’s word book of 20.000words” [7] và đến năm 1944 là cuốn “The teacher’s word book of 30.000 words” [8]viết chung với Irving Lorge Cho đến trước khi các thống kê trên máy tinh trở nênphổ biến, các cuốn sách của Thorndike đã được sử dụng làm cơ sở cho rất nhiều

nghiên cứu sau này về Độ khó của văn bản.

Cũng trong năm 1921, nhà tâm lý học Harry D Kitson đã xuất bản cuốn sách

“The mind of the Buyer: A Psychology of Selling — Scholar’s Choice Edition” [9].

Trang 21

số tạp chí và tờ báo nổi tiếng như Chicago Evening Post, Chicago American, Century

và American Tác giả cũng đã chỉ ra được nguyên nhân của sự khác biệt là do độ dài

từ và độ dài câu trung bình của các bài báo thuộc các tạp chí này là khác nhau: tờ

Chicago American có độ dài trung bình câu và từ nhỏ hơn so với tờ Chicago Evening

Post, và tạp chí American có phong cách đơn giản hơn so với Century.

Trong một công bố vào năm 1923, nhóm tác giả Bertha A Lively va Sidney L.Pressey [10] đã đề cập tới những khó khăn họ gặp phải khi lựa chọn giáo trình khoahọc cho học sinh phổ thông Họ nhận thấy rằng các giáo trình khoa học chứa khánhiều các từ ngữ / thuật ngữ chuyên môn mới và / hoặc khá khó hiểu đối với học sinhphổ thông Nhóm tác giả đã đề xuất một công thức tính toán Độ khó dựa trên các đặctrưng như số lượng từ khác nhau trong văn bản, số lượng từ không có trong danh sách

10.000 từ của Thorndike [6], vị trí trung vi của các từ có trong danh sách 10.000 từ

của Thorndike Họ nhận thấy rằng, vị trí trung vị của các từ ở trong danh sách củaThorndike đóng vai trò then chốt trong việc xác định từ vựng của văn bản là dễ haykhó: vị trí càng cao thì từ vựng càng dễ và ngược lại

Năm 1928, nhóm tác giả Mabel Vogel và Carleton Washburne [11] đã công bốmột trong những công trình quan trọng nhất về Độ khó của văn bản Lần đầu tiên đặcđiểm cấu trúc của văn bản đã được đưa ra đánh giá xem tác động của nó với Độ khó

và cũng là lần đầu tiên các tiêu chí để xác định Độ khó của văn bản được lựa chọndựa trên các thống kê trên ngữ liệu Mười đặc trưng đã được nhóm tác giả khảo sát,bao gồm cả những đặc trưng mới như loại câu, cụm giới ngữ và cả những đặc trưng

đã từng được khảo sát như độ dài câu, độ dài từ, độ khó của từ Nhóm tác giả đã

lựa chọn ba đặc trưng để xây dựng công thức đo Độ khó của văn bản bao gồm Sốlượng từ khác nhau trong văn bản, Tỉ lệ các từ không xuất hiện trong danh sách 10.000

từ của Thorndike [6] và trọng số trung vị của các từ xuất hiện cũng trong danh sách

đó Nhóm tác giả cũng đã rút ra được kết luận tương tự với kết luận của nhóm Lively

và Pressey [10] là trọng số trung vị đóng vai trò quan trọng nhất

Trang 22

Trong một công bố vào năm 1931, nhóm tác giả W W Patty và W I Painter[12] đã chỉ ra rằng năm học lớp 10 ở Mỹ là năm học nặng nhất của học sinh khi xétđến yếu tố từ vựng Nhóm tác giả cũng đã xây dựng một công thức đo Độ khó củacác bài đọc trong sách giáo khoa ở bậc trung học phổ thông ở sử dụng hai đặc trưng

là tần số trung bình của từ dựa trên danh sách 10.000 từ của Thorndike [6] và số lượng

từ vựng của văn bản.

Năm 1934, trong một công trình nghiên cứu về Độ khó của văn bản đành chongười trưởng thành, tác giả Ralph Ojemann [13] đã đóng góp hai điều cực kì quantrong trong nghiên cứu về Độ khó Thứ nhất, Ojemann là người đầu tiên tiến hànhđánh giá Độ khó của văn bản thông qua các khảo sát trên đối tượng người trưởngthành Dựa trên các khảo sát này, tác giả đã tiến hành đánh giá độ tương quan giữacác yếu tố thuộc về từ vựng và 8 yếu tố thuộc về thành phan và cấu trúc của câu với

Độ khó của văn bản và rút ra được kết luận độ khó của từ theo danh sách củaThorndike [6] là yếu tố từ vựng quan trọng nhất Thứ hai, Ojemann đã dé xuất việcphân loại các văn bản theo Độ khó tương ứng với các lớp học, đồng thời cũng giớithiệu 16 đoạn văn bản tham khảo để so sánh, đánh giá Độ khó của các văn bản khác

Cũng trong năm 1934, cũng đã có một nghiên cứu khác về Độ khó của văn bảndành cho đối tượng người trưởng thành của nhóm tác giả Dale và Tyler [14] Nhómtác giả đã khảo sát 29 yếu tố ảnh hưởng đến Độ khó của văn bản dành cho trẻ em vàrút ra được 10 yếu tố có ảnh hưởng lớn đến Độ khó của văn bản dành cho ngườitrưởng thành, trong đó có ba yếu tố có độ tương quan lớn nhất là số lượng từ vựngchuyên ngành, số lượng từ vựng khó không thuộc chuyên ngành, và số lượng mệnh

dé quan hệ không xác định Dựa trên ba yếu tố này, nhóm tác giả đã xây dựng mộtcông thức dự đoán tỉ lệ số người trưởng thành có thể đọc hiểu văn bản có độ tương

quan 0,511 với Độ khó của các văn bản được khảo sát.

Vào năm 1935, nhóm tác gia Gray va Leary [15] đã xuất bản cuốn sách WhatMakes a Book Readable, trình bày các nghiên cứu về các yếu tố ảnh hưởng đến Độ

Trang 23

giả đã tiến hành khảo sát trên khoảng 1.690 người trưởng thành và xác định được 288yếu tô ảnh hưởng đến Độ khó của văn bản và được chia thành 4 nhóm lớn và đượcsắp xếp theo thứ tự giảm dần về độ quan trọng như sau:

1 Nội dung (Content)

Văn phong (Style)

Định dạng (Format)

- YN Cac dac trung về Tổ chức của văn bản (Organization).

Cũng theo các tác giả, các yếu tố thuộc về Nội dung, Định dạng và Tổ chứckhông thé hoặc khó có thể thống kê khách quan được Trong các yếu tố thuộc về Vanphong, nhóm tác giả đã chọn ra 64 đặc trưng có thể thống kê khách quan để tiếp tục

khảo sát và rút ra được 17 đặc trưng có độ tương quan cao với Độ khó của văn bản

theo thứ tự như sau:

Độ dài trung bình của câu tính theo từ: -0,52

Ti lệ của các từ dé trong văn bản: 0,52

Số lượng từ mà trên 90% học sinh lớp 6 không biết: -0,51

Số lượng từ dễ: 0,51

Số lượng từ khó: -0,50

Độ dài của câu có ít âm tiết nhất: -0,49

Số lượng câu rõ ràng: 0,48

Số lượng đại từ nhân xưng ngôi thứ nhất, nhì và ba: 0,48

= Độ dài trung bình của câu tính theo âm tiết: -0,47

Ti lệ của các từ đơn tiết: 0,43

N - Độ dai trung bình của đoạn văn tính theo câu: 0,43

we Số lượng từ phân biệt (không trùng nhau) mà trên 90% học sinh lớp 6 khôngbiết: -0,40

14 Số lượng câu đơn giản: 0,39

Trang 24

16 Tỉ lệ của các từ đa tiết: -0,38

17 Số lượng các cụm giới ngữ: -0,35

Nhóm tác giả đã sử dụng các đặc trưng thứ 1, 5, 8, 15 và 17 để xây dựng một

công thức xác định Độ khó của văn bản với độ tương quan là 0,645.

Năm 1944, tác giả Irving Lorge [16] đã công bố Chỉ số Lorge (Lorge Index)dùng để đánh giá Độ khó của văn bản dựa trên 3 đặc trưng là Độ dài trung bình củacâu tính theo từ, Số lượng các cụm giới ngữ mỗi 100 từ và Số lượng từ khó (khôngnằm trong danh sách 769 từ dé của Dale) Đến năm 1948, cũng chính tác giả Lorge[17] đã điều chỉnh lại công thức này cho phù hợp hơn va nó đã được sử dụng rat phổbiến kể từ Chiến tranh Thế giới lần II Các nghiên cứu của Lorge đã làm tiền đề chorất nhiều công thức xác định Độ khó của văn bản sau này, trong đó có 2 công thức rấtnổi tiếng là Dale-Chall [18] và Flesch Reading Ease [19]

Tác gia Rudolf Flesch, trong một nghiên cứu vào năm 1946 [20] đã nhận định

rằng tiếng Anh đang học theo tiếng Hoa để trở nên đơn giản hơn bằng cách thay thếcác câu trúc ngữ pháp phức tạp bằng trật tự từ chuẩn: chủ ngữ - động từ - tân ngữ(subject — verb — object) Theo Flesch, tiếng Hoa đơn giản hơn, linh hoạt hơn và thực

tế hơn bat kì ngôn ngữ phương tây nào nhờ đặc điểm là có rat ít biến cách va các cấutrúc bất quy tắc Năm 1948, Flesch đã công bố công thức xác định Độ khó của văn

bản với tên gọi là Flesch Reading Ease [19] như sau:

Score = 206,835 — (1,015 x ASL) — (84,6 x ASW) (1)

với Score chính là Độ khó của văn bản; ASL là độ dài trung bình của câu tính theo

từ; và ASW độ dài trung bình của từ tính theo âm tiết Giá trị của Score nằm trongđoạn từ 0 (khó) đến 100 (dễ) và văn bản có Score khoảng 70 là phù hợp nhất cho đốitượng người trưởng thành Công thức Flesch Reading Ease được sử dụng rất phổ biến

và được tích hợp vào trong chương trình soạn thảo văn ban Microsoft Word ké từphiên bản 2007 dé hỗ trợ người dùng kiểm tra Độ khó của văn ban đang soạn thảo

Trang 25

Năm 1948, nhóm tác giả Edgar Dale va Jeanne S Chall [18] đã khảo sát yếu tố

độ dài của câu và tỉ lệ từ khó trong văn bản đề xây dựng một công thức xác định Độ

khó của văn bản dành cho người đọc có trình độ từ lớp 4 trở lên — công thức

Dale-Chall:

Score = 0,1579PDW + 0,0496ASL + 3,6365 (2)

với Score là Độ khó của văn bản với đơn vị là cấp lớp học trung bình của người đọc;PDW là tỉ lệ phần trăm của các từ khó — từ không nằm trong danh sách 763 từ dochính nhóm tác giả lập ra; và ASL là độ dài trung bình của câu tính theo từ Đến năm

1995, nhóm tác giả đã mở rộng danh sách từ lên thành 3.000 từ, đồng thời chỉnh sửalại công thức để sử dụng được cho các lớp nhỏ hon [21]:

Score = 0,1579PDW + 0,0496ASL (3)

Lúc này, nếu PDW > 5% thì ta cộng thêm một lượng 3,6365 vào Score; ngượclại thì ta giữ nguyên Giá trị cuối cùng của Score chính là cấp lớp học trung bình củangười đọc để có thé đọc hiểu được văn bản

Năm 1969, tác giả G Harry McLaughlin [22] dé xuất một công thức xác định

độ khó của văn ban sử dụng yếu tố từ khó Theo tác giả, một từ được coi là khó nếu

từ đó có từ 3 âm tiết trở lên Công thức được đặt tên là SMOG, cụ thé như sau:

SMOG grading = 3 + J s6 lượng từ khó (4)

Trong đó, số lượng từ khó được đếm từ 10 câu ở phần đầu + 10 câu ở phần giữa+ 10 câu ở phan cuối của văn bản Kết qua đo của công thức SMOG thường lớn hon

khoảng 2 lớp so với công thức Dale-Chall [18].

Năm 1973, quân đội Mỹ giới thiệu công thức FORCAST dé đo độ khó văn bản.Không giống như các công thức đo khác, công thức FORCAST chỉ sử dụng yếu tố từvựng dé đánh giá độ khó của những văn bản quân sự không được viết đầy đủ [23]:

Trang 26

Level = 20 — (N/10) (5)

với Level là độ khó của văn bản; N là sé từ đơn tiết trong một mau 150 từ được trích

từ văn bản.

Năm 1974, nhóm tác giả Golub và Kidder đã công bố công thức đo Điểm mật

độ cú pháp Golub (Syntactic Density Score - SDS), tập trung vào các đặc điểm cú

trích theo các hệ số được trình bày trong Bang 1.1:

pháp của một văn bản Để tính toán cấp độ khó của một văn bản, một mẫu gồm mộtVài trăm từ được lấy Ta từ đoạn văn đó và tính tổng giá trị của các đặc trưng được rút

Đặc trưng Hệ số

Số từ / số T-unit 0,95

Số mệnh đề phụ / số T-unit 0,90

Độ dài trung bình của mệnh đề chính 0,20

Độ dài trung bình của mệnh đề phụ 0,50

Số lượng động từ khiếm khuyết (will, shall, can, may, must, would ) 0,65

Số lượng trợ động từ Be và Have 0,40

Số lượng cụm giới từ 0,75

Số lượng danh từ và đại từ sở hữu 0,70

Số lượng trạng từ thời gian (when, then, once, while ) 0,60

Số lượng danh động từ, phân từ và cụm từ độc lập 0,85

Bảng 1.1: Các đặc trưng và hệ số tinh Syntactic Density Score - SDS

với T-unit là một mệnh đề độc lập và bát kỳ mệnh đề phụ thuộc nào gắn liền với nó.Cuối cùng, Điểm mật độ cú pháp Golub (SDS) sẽ là tổng giá trị của các đặc trưngnày chia cho số lượng T-unit [24] Nhóm tác giả của giới thiệu bảng giá

từ SDS sang độ khó văn bản như sau:

trị quy đổi

Trang 27

SDS | 0,5 | 1,3 | 2,1 | 2,9 | 3,7 | 4,5 | 5,3 | 6,1 | 6,9 | 7,7 | 8,5 | 9,3 | 10,1 | 10,9

Grade} 1 |2 |3 |4|5 |6 |7|8 | 9) 10/11} 12} 13 | 14

Bang 1.2: Quy đổi tir SDS sang độ khó van ban

Trong một nghiên cứu được Hải quân Mỹ ủy thác năm 1975, J Peter Kincaid

và các cộng sự [25] đã tiền hành chỉnh sửa lại công thức Flesch Reading Ease để đưa

ra kết quả đo theo từng cấp lớp học như sau:

GL = (0,39 x ASL) + (11,8 x ASW) — 15,59 (6)

Trong đó, GL là cấp lớp học trung bình của người doc (Grade Level); ASL là

độ dài trung bình của câu tinh theo từ; va ASW là độ dài trung bình của từ tính theo

âm tiết Công thức này được sử dụng khá phổ biến với tên là Công thức

Flesch-Kincaid và cũng được tích hợp vào trong chương trình soạn thảo văn ban Microsoft

Word ké từ phiên bản 2007 dé hỗ trợ người dùng kiểm tra Độ khó của văn bản đang

soạn thảo.

Trong một nghiên cứu năm 2020, nhóm tác gia Bruce W và Jason đã giới thiệu

LXPER Index 2.0 — một công cụ đo độ khó văn bản cho tiếng Hàn [26] Công cụ nàytích hợp các thư viện để hỗ trợ trích xuất các đặc trưng ngôn ngữ từ văn bản như cácđặc trưng về từ, từ loại, đặc trưng về mật độ thực thé (entity density), kênh từ vựng(lexical chain) và các đặc trưng về từ khó Các đặc trưng này cũng được sử dụng đểphân tích tương quan với độ khó của văn bản rồi xây dựng công thức đánh giá độ khócho văn bản tiếng Hàn Các tác giả đã thực nghiệm trên bộ ngữ liệu CoKEC-text —một bộ ngữ liệu hơn 2.700 văn bản từ cấp độ K7 đến K12 dành cho người nước ngoàihọc tiếng Hàn — và các kết quả thực nghiệm cho thay công cụ này giúp cải thiện đáng

kể độ chính xác khi đánh giá độ khó của các tài liệu giảng dạy tiếng Hàn cho người

nước ngoài.

Năm 2021, nhóm tác gia Chakraborty và các cộng sự công bố 1 nghiên cứu về

độ khó của văn bản cho tiếng Bangla (ngôn ngữ của Bangladesh và 1 số vùng ở Ấn

Trang 28

tiếng Bangla bằng cách tích hợp các công thức đo độ khó nồi tiếng trong tiếng Anh

như Automated Readability Index [28], Flesch Reading Ease [19], Flesch-Kincaid

[25] Gunning Fog [29], SMOG [22] và công thức Dale-Chall [18] Các công thức

này đã được điều chỉnh lại trọng số của các đặc trưng theo bộ ngữ liệu các văn bảnđược thu thập từ sách giáo khoa Bên cạnh các công thức đo này, các tác giả cũng déxuất một phương pháp học sâu đề đánh giá độ khó của các câu và công bố một bộngữ liệu hơn 96.000 câu được gan nhãn khó / dé dé làm cơ sở cho các nghiên cứu saunày về độ khó của văn bản trong tiếng Bangla

Ngoài các công trình đã được trình bày ở trên, còn có rất nhiều nghiên cứu về

Độ khó của văn bản theo hướng tiếp cận thống kê như các nghiên cứu của Caylor và

các cộng sự (1973) [23]; Smith va Senter (1967) [28]; Zeno và các cộng sự (1995)

[30]; Lee và Hasebe (2016) [31]; Choi và Crossley (2020) [32]; Ghani và các cộng

sự (2021) [33];

Trong tiếng Việt, không có nhiều các nghiên cứu về Độ khó của văn bản Năm

1982, nhóm tác giả Liem Thanh Nguyen và Alan B Henkin [2] đã khảo sát các yếu

tố của văn bản tiếng Việt và chọn ra 2 yếu tố có độ tương quan cao nhất với Độ khócủa văn bản để xây dựng công thức đầu tiên dùng để đánh giá Độ khó của văn bản

như sau:

RL = (2x WL) + (0,2 x SL) — 6 (7)

Trong đó, RL là Độ khó của văn bản với đơn vi là cắp lớp học trung bình của ngườiđọc; WL là độ dài trung bình của từ tính tính bằng số kí tự; và SL là độ dài trung bìnhcủa các câu tính bằng số từ Đến năm 1985, nhóm tác giả đã tiếp tục cải tiến côngthức bằng cách sử dụng yếu tố độ khó của từ [3], cụ thể như sau:

RL = (0,27 x WD) + (0,13 x SL) + 1,74 (8)

Trong đó, WD là ti lệ số từ ghép Hán Việt có trong văn bản Theo nhóm tác gia, các

từ ghép Hán Việt mặc dù chiếm tỉ lệ lớn trong bộ từ vựng tiếng Việt nhưng chúng

Trang 29

1.2.2 Hướng tiếp cận máy học

Trong những năm gần đây, tận dụng sự phát triển của máy tính, các nghiên cứu về

Độ khó của văn bản cũng phát triển theo Các nghiên cứu thuộc hướng tiếp cận nàyxem các cấp độ khó của văn bản như các phân lớp và tìm cách khai thác các thuậttoán máy học với khả năng tính toán lớn đề giải quyết bài toán thông qua việc xử lý

nhiêu đặc trưng hơn và ở các mức sâu hơn.

Nam 2001, nhóm tác giả Si và Callan [34] đã giới thiệu một phương pháp xác

định Độ khó của văn bản trên web sử dụng Mô hình ngôn ngữ kết hợp với độ dài của

câu Thuật toán Cực đại hóa kỳ vọng (Expectation-Maximization — EM) được các tác

gia sử dung dé dự đoán Độ khó của một số trang web theo 3 cấp độ (Mẫu giáo->Lớp2; Lớp 3->Lớp 5; và Lớp 6->Lớp 8) và đạt được độ chính xác lên đến 75%

Đến năm 2005, nhóm tác giả Collins-Thompson va Callan [35] tiếp tục cải tiến

mô hình ngôn ngữ của Si và Callan Nhóm tác giả đã chuyên sang sử dụng NaiveBayes đề dự đoán cấp độ của các trang web và có độ tương quan khá cao với các cấp

độ do chuyên gia đánh giá.

Cũng trong năm 2005, nhóm tác giả Schwarm và Ostendorf [36] đã khảo sát sự

kết hợp của 12 đặc trưng thuộc về mô hình ngôn ngữ, 4 đặc trưng thuộc về ngữ pháp

và một số đặc trưng truyền thống như độ dài trung bình của câu, độ dài trung bìnhcủa từ để phân lớp các văn bản theo Độ khó của văn bản sử dụng thuật toán SVM(Support Vector Machine) Các kết quả khảo sát cho thấy các đặc trưng thuộc về ngữpháp không đóng góp gì nhiều cho mô hình phân lớp các văn bản khi thực nghiệm

trên bộ ngữ liệu Weekly Reader.

Đến năm 2007, tác giả Heilman và các cộng sự [37] đã tiến hành kiểm chứng

lại vai trò của các đặc trưng ngữ pháp mà nhóm Schwarm và Ostendorf [36] đã đặt ra

nhưng trên các văn bản tiếng Anh dành cho đối tượng là người nước ngoài Kết quảkhảo sát cho thấy rằng các đặc trưng này có thể đóng vai trò quan trọng trong việc

Trang 30

đánh giá Độ khó của các văn bản dành cho người nước ngoài hơn là trong các văn

bản dành cho người bản xứ.

Năm 2008, nhóm tác giả Pitler và Nenkova [38] đã tiến hành một số khảo sátdựa trên việc kết hợp các yếu tô thuộc về từ vựng, ngữ pháp và một số yếu tố diễnngôn đề xác định Độ khó của các văn bản tiếng Anh Các kết quả khảo sát cho thấyrằng các mối quan hệ diễn ngôn có liên hệ chặt chẽ tới khả năng nhận thức được vănbản và là đặc trưng rất tốt để dự đoán và xếp hạng Độ khó của văn bản

Trong một công bố vào năm 2010, tác giả Tanaka-Ishii và các cộng sự [39] đãxem xét van dé đánh giá Độ khó của văn bản dưới góc độ của một bài toán sắp xếp:

thay vì xây dựng một mô hình phân lớp văn bản, nhóm tác giả đã xây dựng một mô

hình so sánh (Comparator) đề đánh giá tương quan Độ khó giữa 2 văn bản bat kì Môhình được huấn luyện dựa trên một số đặc trưng về tần số từ được trích xuất từ cácvăn bản thuộc bộ ngữ liệu chỉ gồm 2 mức Độ khó (Khó và Dễ) sử dụng thuật toánSVM Dựa trên mô hình này, nhóm tác giả có thé sắp xếp tất cả các văn bản dựa theo

Độ khó với độ tin cậy cao và chi phí không quá lớn.

Vào năm 2012, nhóm tác giả Vajjala và Meurers [40] đã tiến hành khảo sát một

số đặc trưng của văn bản dành cho đối tượng người nước ngoài ở mức từ (như mật

độ từ, sự biến đổi danh từ ) và mức ngữ pháp (như độ dài trung bình của mệnh đề,

số lượng mệnh để trung bình của câu ) kết hợp với các đặc trưng truyền thống đềphân loại văn bản Các kết quả thực nghiệm trên bộ ngữ liệu văn bản lấy từ tờ báo'Weekly Reader và website BBC-Bitesize cho thấy rằng việc đánh giá Độ khó của cácvăn bản dành cho người nước ngoài cần sử dụng những đặc trưng riêng và cụ thể hơn

so với dành cho người bản ngữ.

Nam 2013, tác gia Chen va các cộng sự [41] đã tiến hành đánh giá ảnh hưởngcủa các đặc trưng thuộc về kênh từ vung (lexical chain) và thông tin tan số của các từtrong văn bản đến Độ khó Một mô hình phân lớp các văn bản đã được xây dựng bằngthuật toán SVM dé phân lớp các văn bản tiếng Hoa theo Độ khó Kết quả thực nghiệm

Trang 31

kênh từ vựng với các đặc trưng TF-IDE (Term Frequency - Inverse Document

Frequency) thường có kết quả phân lớp với độ chính xác cao

Năm 2014, tác giả Al-Tamimi và các cộng sự [42] đã công bố một phương phápđánh chỉ mục tự động các văn bản tiếng Ả-Rập theo Độ khó Các tác giả đã tiến hànhphân tích hơn 1.000 văn bản được trích xuất từ sách giáo khoa phổ thông ở Jordani

để đánh giá các công thức xác định Độ khó của văn bản đã có và xây dựng mô hìnhđánh giá văn bản sử dụng SVM Các kết quả thực nghiệm đã chỉ ra những hạn chế vàcác kết quả không chính xác của các công thức đó trong tiếng Ả-Rập

Cũng trong năm 2014, tác giả Gang Sun và các cộng sự [43] đã tiến hành khảosát các đặc trưng ảnh hưởng đến Độ khó của các văn bản tiếng Hoa Nhóm tác giả đã

sử dụng một mô hình xếp hạng đặc trưng kết hợp tuyến tính để xếp hạng các đặctrưng phù hợp nhất dé xây dựng mô hình hồi quy tuyến tính Các đặc trưng được lựachọn bao gồm các đặc trưng bề mặt, từ loại, cây cú pháp và đặc trưng entropy Cáckết quả thực nghiệm cho thấy các mô hình đánh giá Độ khó của văn bản được xây

dựng dựa trên các đặc trưng này có độ tin cậy khá cao.

Năm 2015, nhóm tác giả Chen và Daowadung [44] đã xây dựng một mô hình

máy học đề dự đoán Độ khó của các văn bản tiếng Thái bằng SVM Các tác giả đã sửdụng một số tổ hợp đặc trưng bao gồm các đặc trưng về tần số, các đặc trưng nông(như độ dài trung bình của từ, tỉ lệ của một số từ phé biến ) và các đặc trưng thuộc

về mô hình ngôn ngữ đề xây dựng mô hình Các kết quả thực nghiệm trên bộ ngữ liệucác văn bản trích từ giáo khoa tiểu học ở Thái Lan đã cho thấy giá trị của các đặctrưng về tần số trong việc xác định Độ khó của các văn bản tiếng Thái

Cũng trong năm 2015, tác giả Hind Saddiki và các cộng sự [45] đã tiến hànhkhảo sát các đặc trưng ảnh hưởng đến Độ khó của các văn bản tiếng Ả-Rập dành chođối tượng người nước ngoài Nhóm tác giả đã xây dựng một số mô hình đánh giá Độkhó bằng các thuật toán máy học đề làm cơ sở cho các nghiên cứu sau này về Độ khócủa các văn bản dành cho người nước ngoài Các kết quả thực nghiệm cho thấy một

Trang 32

số đặc trưng dễ thống kê như số lượng từ, số lượng ki tự, số lượng từ loại cĩ thểbiểu thị được mức độ khĩ của văn bản.

Nhĩm tác giả M.A Tưrer và R Ozcan [46] đã cĩ một nghiên cứu về việc sửdụng kết quả của các cơng thức xác định Độ khĩ của văn bản cĩ sẵn như là đặc trưng

để xây dựng các mơ hình máy học để phân lớp văn bản Nhĩm tác giả đã sử dụng cácvăn bản được lấy từ sách giáo khoa ở Thổ Nhĩ Kỳ dé huấn luyện các mơ hình thơngqua nhiều phương pháp máy học như Nạve Bayes, Cây quyết định, Random Forest

và Multilayer Perceptron Các kết quả thực nghiệm trên một số văn bản trích xuất từcác website giáo dục ở Thổ Nhĩ Kỳ cho thay đặc trưng kết quả của cơng thức xácđịnh Độ khĩ của văn bản cĩ sử dụng độ khĩ của từ cĩ kết quả tốt hơn so với các cơng

thức khác.

Trong một nghiên cứu được cơng bố vào năm 2016, nhĩm Xia và các cộng sự(2016) [47] đã trình bày các khảo sát trên một số bộ ngữ liệu dành cho người cĩ tiếngAnh là ngơn ngữ mẹ đẻ Các tác giả đã tiền hành một số thực nghiệm bằng các phươngpháp đánh giá độ khĩ của văn bản theo hướng máy học và tìm cách biến đổi cácphương pháp này dé đánh giá các văn bản ding cho người học ngoại ngữ tiếng Anh

— miền văn bản thường cĩ ít ngữ liệu dé khảo sát Các tác giả đã sử dụng phươngpháp EasyAdapt của Daume III giới thiệu năm 2007 [48] để xây dựng mơ hình chuyềnđổi Các kết quả thực nghiệm cho thấy mơ hình chuyên đổi này giúp cải thiện độchính xác của quá trình đánh giá văn bản tiếng Anh cho người học ngoại ngữ so vớiviệc sử dung lại mơ hình được huấn luyện trên ngữ liệu tiếng Anh cho người bản ngữ

Năm 2021, nhĩm tác giả Chatzipanagiotidis và các cộng sự [49] đã cơng bố 1nghiên cứu về độ khĩ của các văn bản tiếng Hy Lạp Trong nghiên cứu này, nhĩmtác giả đã khảo sát tổng cộng 212 đặc trưng ngơn ngữ, bao gồm 67 đặc trưng ở mức

từ, 77 đặc trưng hình thái học, 68 đặc trưng ngữ pháp Ngồi ra, nghiên cứu này cịn

sử dụng thêm 3 đặc trưng là 3 cơng thức đo độ khĩ văn bản là cơng thức FOG, SMOG

một phiên bản cho tiếng Hy Lạp của cơng thức Flesch Reading Ease Nhĩm tác giả

Trang 33

dùng để giảng day tiếng Hy Lạp như một ngôn ngữ thứ hai, gồm nhiều nhóm tuổi vàtrình độ khác nhau Kết quả thực nghiệm bằng các phương pháp máy học truyền thông

(như (Logistic Regression, Multilayer Perceptron, Sequential Minimal Optimization)

cho thấy, tất cả các nhóm đặc trưng ngôn ngữ được sử dụng đều có vai trò quan trọngtrong việc đánh giá độ khó của văn bản tiếng Hy Lạp và độ chính xác cao nhất đạtđược là trên 88%, tốt hơn so với các nghiên cứu trước đây

Cũng trong năm 2021, trong một nghiên cứu về độ khó của văn bản, tác giảImperial [50] đã giới thiệu một phương pháp đánh giá độ khó của văn bản tiếng Anh.Tác giả đã sử dụng các đặc trưng ngôn ngữ được trích xuất từ văn bản như đặc trưng

về từ loại, đặc trưng về cú pháp, các đặc trưng về vai trò ngữ nghĩa, các thực thể vàquan hệ, dé đánh giá Bên cạnh đó, tác giả cũng đề xuất sử dụng thêm đặc trưngđược trích xuất thông qua mô hình ngôn ngữ tiền huấn luyện BERT để thực nghiệm

Các thuật toán phân lớp nồi tiếng như Logistic Regression, SVM, Random Forest đã

được sử dụng để xây dựng các mô hình thực nghiệm Các kết quả cho thấy, việc kết

hợp các đặc trưng ngôn ngữ được trích xuất từ văn bản với đặc trưng được trích xuất

từ BERT đã cải thiện đáng kể độ chính xác của các mô hình khi thực nghiệm trên một

số bộ ngữ liệu tiếng Anh Phương pháp mà tác giả Imperial sử dụng cũng là phươngpháp được Deutsch và các cộng sự giới thiệu trong 1 nghiên cứu trước đó dé thựcnghiệm trên một só bộ ngữ liệu khác trong tiếng Anh [51]

Ngoài các nghiên cứu đã được trình bày ở trên, còn có rất nhiều công bố về Độ

hó của văn bản theo hướng tiếp cận máy học như nghiên cứu của nhóm Frangois vàFairon (2012) [52] cho tiếng Pháp: nhóm Islam và Mehler (2013) [53] trên các vănbản lấy từ trang Wikipedia; nhóm Sinha và Basu (2016) cho tiếng Bangla [54], Cha

và các cộng sự (2017) [55]; Qiu và các cộng sự (2018) [56]; WeiB và Meurers (2018)

[57]; Zhu và các cộng sự (2019) [58] Trong tiếng Việt, chưa có bất kỳ nghiên cứunào về Độ khó của văn bản theo hướng tiếp cận máy học ngoại trừ các công trình đãcông bố của luận án này (công bố [CT6] và [CT7])

Trang 34

Bảng 1.3 tổng hợp thông tin về các ngữ liệu, các đặc trưng, phương pháp và các

ở nước ngoài và Việt Nam.

ết quả đạt được của một số nghiên cứu về độ khó văn bản trong cả 2 hướng tiếp cận

Công bỗ Ngôn ngữ, Ngữ liệu Các đặc trưng Ket quả

Hướng tiếp cận thống kê

G Harry Mc

Laughlin [22]

Tiếng Anh — 390 đoạn văn

trong các bài kiêm tra đọc McCall-Crabbs

Trung bình độ đài của câu;

Trung bình sô lượng âm tiét

Cải thiện độ tương quan lên 0,87 (so

Hasebe [31] g Nhật từ cap độ cơ bản

đến nâng cao và các biên

bản các cuộc họp quốc hội

Nhật Bản, được chia thành 6

cấp độ khó.

cô; Ti lệ động từ; Tỉ lệ trợ động từ

[25] cứ Hải quân ở Mỹ của từ với -0,74 của các

phiên bản cũ)

Jeanne S Tiếng Anh Ti lệ từ khó; Trung bình độ

Chall và đài câu

Edgar Dale

(21)

J.H.Leevà |Tiéng Nhat—Téng hợp các | Trung bình độ dài câu; Ti lệ số | Độ tương quan đạt

Yoichiro ăn ban từ 83 sách giáo khoa | tir Hán-Nhật; Ti lệ sô từ Nhật | 0,896

Hướng tiếp cận máy học

Gang Sun và Tieng Hoa — 637 văn bản từ 76 đặc trưng bề mặt, từ loại, Thuat toán linear

cộng sự [59] LassyKlein các đặc trưng mức sâu

Phương pháp: K-nearest neighbors, Random forest các cộng sự | sách giáo khoa cho học sinh |cây cú pháp va Entropy regression và log-

[43] từ lớp 1 đến lớp 6 ở Trung |Phương pháp: linear linear regression

Quốc đại lục regression và log-linear cho két qua kha

regression quan

Orphée De Tiéng Hà Lan — 105 đoạn Các đặc trưng cơ bản; Các đặc | Độ chính xác cao Clercq và các |văn từ kho ngữ liệu Dutch |trưng mô hình ngôn ngữ; và |nhất đạt trên

77.5% với thuật toán Random forest

Phương pháp: Thuật toán tối

thiểu tuần tự (Sequential

Yaw-Huei Tiéng Thai — 720 van ban Các đặc trưng tan suất từ; Các | Các đặc trưng tần Chen và thuộc 6 môn học trong sách | đặc trưng mức nông; Các đặc suất đóng vai trò Patcharanut _ | giáo khoa tiểu học ở Thái trưng mô hình ngôn ngữ rất quan trọng Độ Daowadung |Lan Phương pháp: SVM chính xác cao nhất

[44] dat 51%

Karin Tiếng Đức - 2.928 bài đọc [Cac đặc trưng mức từ vựng; | Độ chính xác phân

lớp theo từng cặp câp độ độ khó đạt

trên 75%

Trang 35

Các đặc trưng ngữ nghĩa tiềm

an (Latent semantic analysis —

BH với SVM dé au khoa học tự nhiên

Hướng tiếp cận thông kê

khoa cho học sinh sinh viên

người Việt ở Mỹ từ lớp 4

đên cao đăng.

Liem Thanh [20 đoạn văn bản, mỗi đoạn | Trung bình độ dài câu; Trung

Nguyen và có độ dài khoảng 300 từ, bình độ dài từ

Alan B được trích từ các tiéu thuyết,

Henkin [2] các tạp chí v: sách giáo

khoa cho học sinh sinh viên người Việt ở Mỹ từ lớp 4 đên cao dang

Liem Thanh | 54 đoạn văn bản, mỗi đoạn _ | Tỉ lệ từ khó; Trung bình độ Độ tương quan đạt

Nguyen và có độ dài khoảng 300 từ, đài câu 0.922

Alan B được trích từ các tiêu thuyết,

Henkin [3] các tạp chí và các sách giáo

Công trình

công bô [CT5]

của luận án

996 văn bản thuộc các thê

loại như truyện thiêu nhi,

văn mẫu, truyện cổ tích, bài

đọc trong sách giáo khoa,

báo, bài báo khoa học về văn

học và ngôn ngữ học, các văn bản luật,

Trung bình độ đài câu, Trung bình độ dài từ; Ti lệ từ khó

Hướng tiếp cận máy học

Công trình

công bô [CT7]

của luận án

288 văn bản trích xuất từ

sách giáo khoa Tiêng Việt

cho học sinh tiểu học và

sách giáo khoa Ngữ văn cho

học sinh trung học cơ sở ở Việt Nam

Trung bình độ dài câu; Trung bình độ dài từ; Tỉ lệ từ khó;

Độ dải văn bản Phương pháp: SVM

Độ chính xác đạt trên 96% với ngữ

Sách giáo khoa Tiếng Việt _

và Ngữ văn cho học sinh phô

thông ở Việt Nam

Ti lệ từ Hán-Việt; Tỉ lệ từ địa

phương; Tỉ lệ danh từ riêng

Phương pháp: SVM

Độ chính xác đạt trên 85% với ngữ

liệu gom nhóm

theo cấp học

Bang 1.3: Tổng hợp một số nghiên cứu về độ khó văn bản

Nhu vậy, chúng ta có thé thấy, có rất ít nghiên cứu về Độ khó của văn bản trongtiếng Việt — cả ở hướng tiếp cận thống kê và hướng tiếp cận máy học Các nghiên cứu

Trang 36

liệu có kích thước rất nhỏ Rất cần có thêm các công trình nghiên cứu khác về Độkhó của văn bản tiếng Việt thực hiện trên các bộ ngữ liệu cập nhật hơn, lớn hơn và

trên các đặc trưng sâu hơn của văn bản Việc xây dựng một tập ngữ liệu lớn hơn và

tiến hành khảo sát, phân tích các đặc điểm của văn bản tiếng Việt ở các mức độ sâuhơn (ngữ pháp, ngữ nghĩa ) nhằm rút ra các đặc trưng ảnh hưởng đến Độ khó củavăn bản tiếng Việt và xây dựng mô hình hoàn chỉnh để đánh giá Độ khó của văn bảntiếng Việt là rất cần thiết Dé chính là lý do thực hiện của luận án “XÂY DỰNG MOHÌNH DANH GIÁ ĐỘ KHÓ CUA VĂN BẢN TIENG VIỆT”

1.3 Mục tiêu và phạm vi của luận án

1.3.1 Mục tiêu

Mục tiêu của luận án là xây dựng một mô hình đánh giá độ khó của văn bản tiếng'Việt Cụ thé hơn, luận án này sẽ đề xuất và xây dựng phương pháp xác định xem mộtvăn bản (tiếng Việt — đang xét) có độ khó như thé nào Kết quả của luận án có thé ápdụng vào nhiều lĩnh vực quan trọng như hỗ trợ biên soạn sách giáo khoa, giáo trình,viết báo, viết hướng dẫn sử dụng, viết định nghĩa trong từ điền giải thích bằng tiếngViệt; hỗ trợ dạy tiếng Việt cho người nước ngoài

1.3.2 Đối tượng nghiên cứu

Đối tượng nghiên cứu của luận án là các yếu tố ảnh hưởng đến độ khó của văn bản,

cụ thé sẽ là các đối tượng sau:

+ Các văn bản tiếng Việt

+ Các đặc điểm của tiếng Việt: cách sử dụng từ, cách viết câu, tính liên kếttrong văn bản tiếng Việt, cách sử dụng ngôn ngữ địa phương, phong cách họcvăn bản tiếng Việt

+ Các tri thức ngôn ngữ: ranh giới từ, ranh giới ngữ, thông tin từ loại, cầu trúc

cú pháp, ngữ nghĩa của câu.

Trang 37

1.3.3 Nội dung luận án

Luận án nay tập trung nghiên cứu các yếu tô ảnh hưởng tới Độ khó của văn bản vàcác phương pháp để đánh giá Độ khó của văn bản tiếng Việt Nội dung của nghiêncứu sẽ bao gồm các phần sau:

+ Tìm hiểu tổng quan về Độ khó của văn bản: các khái niệm về Độ khó củavăn bản, những tác động của Độ khó văn bản và sự cần thiết của việc xácđịnh Độ khó của văn bản trong quá trình biên tập, xuất bản sách, giáo khoa,

giáo trình hay các văn bản khác.

+ Tim hiểu các kiến thức cơ sở: các phương pháp xây dựng bộ ngữ liệu đánh

giá Độ khó của văn bản, các phương pháp đánh giá Độ khó của văn bản, một

số phương pháp xác định độ chính xác và độ tin cậy của mô hình đánh giá

Độ khó của văn bản.

+ Tìm hiểu các đặc điểm của ngôn ngữ nói chung và các đặc điểm của tiếngViệt nói riêng ảnh hưởng đến Độ khó của văn bản tiếng Việt

+ Xây dựng mô hình đánh giá Độ khó của văn bản tiếng Việt:

— Xây dựng ngữ liệu phục vụ đánh giá Độ khó của văn bản tiếng Việt: thuthập các văn bản tiếng Việt, dự kiến theo 3 cấp độ: Dễ (các mẫu truyệnthiếu nhi, các nội dung sách giáo khoa cấp 1, bách khoa toàn thư cho trẻem ), Trung bình (các tin tức hằng ngày trên các trang báo mạng) và Khó

(các giáo trình, luận văn đại học và sau đại học, các tài liệu lý luận ngôn

ngữ, ).

— Xây dựng mô hình: tiến hành thống kê, phân tích bằng máy tính các yếu

tố ngôn ngữ, các đặc trưng của tiếng Việt tác động đến độ khó của vănbản, như: yếu tố từ vựng, yếu tố cấu trúc, ngữ nghĩa văn bản, Từ đó đềxuất một mô hình máy học dùng để đánh giá Độ khó của văn bảntiếng Việt

+ Đánh giá mô hình: tiến hành các thử nghiệm, thực nghiệm nhằm đánh giátính chính xác, độ tin cậy của mô hình đề xuất

Trang 38

1.3.4 Pham vi nghiên cứu

Luận án này tập trung vào nghiên cứu xây dựng một phương pháp hiệu quả để đánhgiá độ khó của văn bản tiếng Việt:

+ Đối tượng văn bản: Luận án chỉ khảo sát các văn bản viết hoặc văn bản in cóngôn ngữ là tiếng Việt, không xét đến văn bản nói và các văn bản không phải

là tiếng Việt Luận án dự kiến khảo sát và đánh giá trên miền văn bản chủyếu là các văn bản trong lĩnh vực văn học và ngôn ngữ học thuộc chươngtrình giáo dục phô thông và đào tạo sau phổ thông ở Việt Nam Với lĩnh vực

văn học, luận án chỉ sử dụng các văn bản văn xuôi, không sử dụng các văn

bản văn vần (thơ, trường ca, vé, tục ngữ, ca dao, )

+ Độ khó của văn bản: Luận án dự kiến kết quả đánh giá Độ khó của văn bản

là một chỉ số (trên một miền hoặc thang đo định sẵn) hoặc một nhãn phân lớpthể hiện văn bản dễ hay khó ở mức độ / cắp độ nào, văn bản đó phù hợp vớinhóm đối tượng người đọc nào Những chỉ số / nhãn phân lớp này mang tínhkhách quan, được rút ra từ chính bản thân văn bản, không chịu bất cứ sự tácđộng nào từ phía người đọc, do đó, các nghiên cứu, đề xuất, thực nghiệmtrong luận án chỉ dựa vào các khảo sát trên ngữ liệu là các văn bản tiếng Việt

đã được xác định độ khó mà không xét đến bất kỳ khía cạnh nào của người

đọc.

1.4 Đóng góp của luận án

Luận án có những đóng góp sau đây cho lý luận và thực tiễn:

+ Luan án là nghiên cứu day đủ và hoàn chỉnh đầu tiên về độ khó văn bản dànhcho tiếng Việt trên phương diện tin học: luận án trình bay rõ rang và đầy đủthé nao là độ khó của văn bản, các khía cạnh liên quan tới độ khó văn bản,các phương pháp tiếp cận, các đặc trưng, các nguồn ngữ liệu để khảo sát và

đánh giá độ khó của văn bản.

Trang 39

+ Luận án đã nêu ra được một loạt các yếu tố, đặc trưng được trích xuất từ vănbản (tổng cộng 262 đặc trưng) để khảo sát, đánh giá và xây dựng các côngthức, các mô hình đánh giá độ khó văn bản cho tiếng Việt Các đặc trưng này

đã được luận án công bố trong công trình [CT3]

+ Luận án đã xây dung 2 bộ ngữ liệu độ khó văn bản với kích thước đủ lớn và

tin cậy dé làm cơ sở khảo sát cho luận án cũng như các nghiên cứu sau này:(1) Bộ ngữ liệu 370 văn bản thu thập từ sách giáo khoa tiếng Việt và Ngữvăn dành cho học sinh phổ thông ở Việt Nam (bộ ngữ liệu này đã được luận

án công bố trong công trình [CT6]); và (2) Bộ ngữ liệu 1.825 văn bản thuộclĩnh vực văn học và ngôn ngữ học được thu thập từ nhiều nguồn và đượcđánh giá bởi các chuyên gia ngôn ngữ tiếng Việt Đây là 2 bộ ngữ liệu lớn vàcông khai đầu tiên về độ khó văn bản trong tiếng Việt

+ Luận án đã trình bày lại mô hình đánh giá độ khó văn bản theo hướng tiếpcận thống kê Đây là hướng tiếp cận được nhiều nghiên cứu trên thế giới sửdụng Trong hướng tiếp cận này, luận án đề xuất việc thực hiện phân tích hồiquy trên nhiều đặc trưng hơn: không loại bỏ những đặc trưng có tương quancao với những đặc trưng đã chọn Việc điều chỉnh này đã giúp cải thiện đáng

kế độ tương quan của công thức đánh giá độ khó văn bản xây dựng được so

với các công thức có loại bỏ các đặc trưng tương quan cao với nhau Phương

pháp thực nghiệm này đã được luận án công bồ trong công trình [CT3]

+ Luận án đã đề xuất sử dụng thuật toán feature ranking with Recursive

Feature Elimination and Cross-Validated selection of the best number

of features (viết tắt: RFECV) dé tự động chọn ra các đặc trưng có đóng góptốt vào các mô hình máy học đánh giá độ khó văn bản dùng các thuật toánphân lớp truyền thống RFECV là thuật toán xếp hạng các đặc trưng bằngphương pháp đệ quy loại bỏ lần lượt các đặc trưng đề đánh giá hiệu quả phânlớp thông qua kiểm tra chéo Việc ứng dụng thuật toán này vào bài toán đánhgiá độ khó văn bản giúp tăng đáng kẻ độ chính xác của các mô hình phân lớp

Trang 40

văn bản theo độ khĩ Mơ hình này đã được luận án cơng bố trong cơng trình

[CT3].

+ Luận án đã đề xuất một mơ hình đánh giá độ khĩ văn bản theo hướng tiếpcận học sâu, sử dụng mơ hình tiền huấn luyện BERT và mạng LSTM Đây

cĩ thể xem là nghiên cứu đầu tiên trong tiếng Việt nĩi riêng và trên thế giới

nĩi chung sử dụng học sâu trong việc đánh giá độ khĩ văn bản Mơ hình này

đã được luận án cơng bố trong cơng trình nghiên cứu [CT2] Các nghiên cứutrước đây trên thế giới tuy cũng đã cĩ sử dụng học sâu nhưng chủ yếu vẫn là

sử dung các mơ hình ngơn ngữ tiền huấn luyện để trích xuất các đặc trưng

văn bản, sau đĩ thì các thuật tốn phân lớp được sử dụng vẫn là các thuật

tốn phân lớp truyền thống như Support Vector Machine, Nạve Bayes,

K-nearest neighbors, Random Forest

1.5 Bố cục luận án

Luận án được bố cục thành 5 chương với nội dung sau đây:

- 0Trình bày tổng quan về độ khĩ của văn bản, các nghiên cứu về độ khĩ của văn bantrên thế giới và trong tiếng Việt theo từng hướng tiếp cận Kế đĩ, chương này trình

bày mục tiêu và phạm vi thực hiện của luận án.

- CHƯƠNG 2 Trình bày cơ sở lý thuyết về độ khĩ của văn bản, các đặc điểm của độ

khĩ của văn bản Chương này cũng trình bảy vai trị của độ khĩ văn bản trong quá

trình soạn thảo và đọc văn bản cũng như những ứng dụng thực tế của độ khĩ văn bản.Cuối cùng, các yếu tố ngơn ngữ của văn bản cĩ ảnh hưởng đến độ khĩ của văn bảncũng được đề cập trong phần cuối của chương

- CHƯƠNG 3 Giới thiệu các đặc trưng được sử dụng trong luận án để đánh giá độkhĩ của văn bản tiếng Việt, đồng thời đề xuất 3 mơ hình đánh giá độ khĩ của văn bảntiếng Việt theo 3 hướng tiếp cận tương ứng với các nghiên cứu trên thế giới 3 mơhình được đề xuất gồm: (1) mơ hình phân tích tương quan và phân tích hồi quy déxây dựng cơng thức đo độ khĩ của văn bản; (2) mơ hình máy học dé đánh giá độ khĩ

Tiêu đề	Xây dựng mô hình đánh giá độ khó của văn bản tiếng Việt
Tác giả	Lương An Vinh
Người hướng dẫn	PGS.TS. Dinh Điền
Trường học	Trường Đại học Khoa học Tự nhiên
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận án Tiến sĩ
Năm xuất bản	2023
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	176
Dung lượng	23,91 MB