Luận văn tập trung nghiên cứu các giải pháp sử dụng các kỹ thuật xử lý thông tin và xử lý ngôn ngữ tự nhiên để tự động tạo ra các dạng câu hỏi thường dùng trong các bài kiểm tra, cụ thể
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
8 * w_—_.
TRAN ANH TUAN
_ TẠO SINH TỰ DONG CÂU HOI
TỪ VĂN BẢN TIENG ANH VÀ UNG DỤNG
LUẬN VĂN THẠC SĨ
Ngành: Khoa Học Máy Tính
Mã ngành: 8.48.01.01
Trang 2_ ĐẠI HỌC QUOC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
—————Œ##)—————
TRAN ANH TUẦN
TẠO SINH TỰ ĐỘNG CÂU HOI
TU VĂN BẢN TIENG ANH VA UNG DỤNG
LUẬN VĂN THẠC SĨ
Ngành: Khoa Học Máy Tính
Mã ngành: 8.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS NGUYÊN TUẦN ĐĂNG
Trang 3LỜI CÁM ƠN
Tôi xin gửi lời cám ơn chân thành nhất tới PGS.TS Nguyễn Tuấn Đăng, là
người đã đồng hành và hướng dẫn nhiệt tình cho tôi để hoàn thành luận văn thạc sĩ
này Trong thời gian thực hiện luận văn, thay luôn quan tâm, hướng dẫn và luôn động viên tôi để hoàn thành luận văn này.
Tôi xin gửi lời cám ơn chân thành tới các thầy cô trong khoa Khoa học máy
tính, các thầy cô giảng dạy và phụ trách tại phòng Đào tạo Sau Đại học và các bạn
học viên của trường Dai học Công nghệ thông tin — Dai hoc Quốc gia TP Hồ Chí Minh đã luôn tạo điều kiện cho tôi trong quá trình học tập và nghiên cứu tại trường.
TP Hỗ Chí Minh, ngày 10 tháng 06 năm 2023
HỌC VIÊN
TRAN ANH TUẦN
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu mà tôi đã thực hiện của riêng
tôi, tat cả các số liệu, kết quả và ứng dụng được nêu trong luận văn này là trung thực,
Vì vậy, tôi xin chịu mọi trách nhiệm về công trình nghiên cứu và luận văn thạc sĩ của
Trang 51.2 Mục tiêu của luận văn.
Chương 2 CƠ SỞ LÝ THUYẾT -s: sc 2222 22112111111212222212210 1 12 2.1 Giới thiệu về bài toán tạo sinh câu hỏi tu động từ văn bản tiếng Anh TH nên 12 2.2 Hướng tiếp cận giải bài toán 2 cc2222+ccSEEESerrErrserrrrrkeccer 14 2.3 Dang câu hỏi có nhiều đáp án
2.3.1 Tạo sinh dap án sai sử dung WordNet
2.3.2 Tạo sinh dap án sai sử dụng ConceptNet
2.3.3 So sánh WordNet và ConceptNet
2.3.4 Tạo sinh đáp án sai sử dụng Sense:
2.4 Cau hoi dung hoặc sai.
2.4.1 Giới thiệu
2.4.2 Constituency Parsing và OpenAI GPT2.
2.4.3 Tạo sinh câu hỏi sử dụng Constituency Parsing và OpenAI GPT2
2.4.4 Tạo sinh văn ban bằng OpenAI GPT-2
2.5 Tạo sinh câu hỏi có nhiễu đáp án
2.5.1 Str dụng Sentence Transformer:
2.5.2 Sử dụng T5 Transformer
2.6 Tạo dang câu hỏi điền vào chỗ trồng.
2.6.1 Giới thiệu — :
2.6.2 Tạo câu hỏi điện vào chỗ trông từ bat kỳ nội dung na
2.7 Dang câu hoi “chon từ phù hỌp) ”” cty 35
2.8 Kết luận S2 S2 TH HH2 2121 38 Chương 3 TẠO SINH CÂU HOI TỰ DONG TU VĂN BAN TIENG ANH 39
Trang 6Chương 4 XÂY DỰNG HỆ THONG TẠO SINH CÂU HOI TỪ VĂN BẢN TIENG
ANH 50
4.1 — Giới thiệu ĂiceieeiriiererrirrrrrrrrrrrrrrrerroeeÔ0)
42 MG te VON 4.1.0 06 ỐỐ.Ố.ỐỐ 4.3 Chức năng của ứng dung
4.4 Thiết kế ứng dụng.
45 Giao điện người dùng.
4.6 Xây dung ứng dụng
4.6.1 Giao diện của ứng dụng.
4.6.2 Kiêm nghiệm đánh giá ứng dụng.
Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIÊN -.-c-:-z5cccsssccc O2
$1 i
3.2 Hướng phái triển
5.2.1 Hạn chê của luận vai
5.2.2 Hướng phát triển của luận văn -.¿ -¿¿2222+++2222+++t22EE+rezrkkeesrrrkcee 63
PHỤ LỤC
1 Kết quả tạo sinh câu hỏi tự động từ văn bản tiếng Anh : sc¿-+ 65 TÀI LIEU THAM KHẢO 2.-22222c2SS22222EEE2E29E2511222E1112221111222111127211127211 2.111 xe 70
Trang 7DANH MỤC CÁC BANG
Bảng 2.1: Dữ liệu đáp án cho dạng câu hỏi "chọn từ phù hợp"
Bảng 4.1: Kết quả chương trình cho dang câu hỏi Following Question
Bảng 4.2: Kết quả đánh giá dựa trên độ đo BLUE
Bảng 4.3: Kết quả đánh giá dựa trên đữ liệu con người
Bảng 4.4: So sánh giữa các ứng dụng tạo sinh câu hỏi
36
56 57
58 60
Trang 8Hình 2.6: Các bước sử dung Sense2Vec đề xử ly văn bản 21
Hình 2.7: Quá trình tạo ra đáp án sai sử dụng Sense2Vec 22
Hình 2.8: Minh họa quá trình chuyền từ nội dung gốc cho tới tao sinh câu hỏi có
nội dung sai 25 Hình 2.9: Phân tích câu “John bought a book at the bookstore yesterday.” 26 Hinh 2.10: Minh hoa su dung Constituency Parsing (AllenNLP - Demo) 29
Hình 2.11: Các bước xử lý văn bản bang Sentence Transformers 30
Hình 2.12: Các bước xác định keyphrases trong văn bản 34
Hình 3.1: Quá trình tạo sinh dạng câu hỏi “có nhiều đáp án” 40
Hình 3.2: Mô tả quá trình tìm kiếm từ quan trọng trong đoạn văn 4l
Hình 3.3: Mô tả quá trình sử dung T5 SquAD để tao sinh câu hỏi 42 Hình 3.4: Sử dụng mô hình T5 với các thông số dé tạo câu hỏi 42
Hình 3.5: Mô tả quá trình tạo sinh các đáp án sai 43
Hình 3.6: Mô tả quá trình tạo sinh đạng câu hỏi "điền vào chỗ trống" 44
Hình 3.7: Mô tả quá trình tạo sinh câu hỏi "chon từ phù hợp” 46
Hình 3.8: Cấu hình BERT để tạo sinh câu hỏi 47
Hình 3.9: Mô tả quá trình tạo sinh đáp án sai 48
Hình 3.10: Cấu hình mô hình GPT2 49
Hình 4.1: Mô phỏng quá trình xử lý của ứng dụng 51
Trang 9Chương 1 TONG QUAN
1.1 Giới thiệu đề tai
Trong quá trình học tập và đào tạo, việc tạo sinh câu hỏi là một phần không thể thiếu đề kiểm tra việc hiểu biết và đánh giá năng lực của học sinh, sinh viên hoặc
người được kiểm tra Tuy vào mục đích sử dụng khác nhau, việc đặt câu hỏi có những
mục đích khác nhau:
- Kiểm tra kiến thức: Việc tao câu hỏi có thể giúp kiểm tra kiến thức và hiéu
biết của người đọc về một chủ để nào đó Các câu hỏi này thường yêu cầu
người đọc phải trả lời một các chính xác và chỉ tiết.
- _ Khuyến khích suy nghĩ sâu hơn: Các câu hỏi có thê được tạo ra dé khuyến
khích người đọc suy nghĩ sâu hơn về một chủ đề cụ thể Các câu hỏi này thường yêu cầu người đọc đưa ra ý kiến cá nhân hoặc phân tích các khía
cạnh khác nhau của vấn đề được đề cập tới.
- _ Thúc day thảo luận: Việc tạo ra các câu hỏi cũng có thé thúc day thảo luận
và giao tiếp giữa các cá nhân hoặc nhóm người Các câu hỏi này thường
yêu cầu các câu trả lời có tính tranh luận hoặc chứa đựng nhiều quan điểm
khác nhau.
- _ Giúp tìm kiếm thông tin: Các câu hỏi có thê giúp người đọc tìm kiếm thông
tin cụ thể về một chủ đề hoặc vấn đề nào đó Các câu hỏi này thường yêu cầu người đọc đưa ra các từ khóa hoặc chi dẫn dé tìm kiếm thông tin trên Internet hoặc các nguồn tài liệu khác.
Tuy nhiên, việc tạo câu hỏi đòi hỏi sự tốn kém về thời gian và công sức, đặc biệt là khi số lượng kiến thức vô cùng lớn và các câu hỏi cần tạo phải bám sát nội
dung được đề cập Người tạo câu hỏi cần phải có sự hiểu biết sâu rộng về các vấn đề được đề cập, ví dụ như:
- Các khái niệm cơ bản: Người tạo câu hỏi nên có hiểu biết về các khái niệm
cơ bản trong lĩnh vực mà họ đang tạo ra câu hỏi Điều này giúp họ biết được những điểm quan trọng cần đưa vào câu hỏi để kiểm tra kiến thức
của người đọc.
- Các thông tin chỉ tiết: Người tạo câu hỏi cần biết các thông tin chỉ tiết về
lĩnh vực mà họ đang tạo ra câu hỏi, bao gồm các sự kiện, chủ đề hoặc lĩnh
Trang 10- Cac kỹ năng và ứng dụng: Người tạo câu hỏi nên hiểu rõ các kỹ năng và
ứng dụng can thiết trong lĩnh vực đó Điều này giúp họ tạo ra các câu hỏi
có tính thực tiễn và người đọc có thể hiéu được cách sử dụng kiến thức đó.
Bên cạnh những kiến thức liên quan đến chủ dé, người tạo câu hỏi cũng cần
có các kỹ năng tạo phân tích nội dung, đặt câu hỏi và phân tích câu trả lời để đảm bảo tính chính xác của câu hỏi Điều này bao gồm việc biết cách đưa ra câu hỏi rõ ràng,
tránh các câu hỏi đa nghĩa hoặc không rõ ràng, và kiểm tra câu hỏi để đảm bảo tính chính xác của nó Từ đó, luận văn thấy được rằng việc đặt câu hỏi yêu cầu rất nhiều kiến thức khác nhau Luận văn này dé cập các phương pháp tạo sinh câu hỏi từ các
nội dung sẵn có, cách phân tích đoạn văn để tìm ra được nội dung chính Sử dụng nội dung chính đó dé đặt ra các câu hỏi trong tâm, liên quan đến chủ dé của kiến thức cần
kiểm tra Tự động tạo sinh câu hỏi sử dụng các công nghệ trích xuất thông tin và xử
lý ngôn ngữ tự nhiên dé tạo ra câu hỏi từ văn bản Việc này giúp tiết kiệm thời gian
và công sức của người tạo câu hỏi, đồng thời giúp tăng tính đa dạng và sự sáng tạo
trong việc tạo ra câu hỏi.
Trong bối cảnh xu hướng sử dụng trí tuệ nhân tạo và học máy ngày càng phổ
biến, việc tự động tạo sinh câu hỏi không chỉ là một công cụ hữu ích cho giáo dục mà còn là một lĩnh vực nghiên cứu day tiềm năng trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Luận văn tập trung nghiên cứu các giải pháp sử dụng các kỹ thuật xử lý thông tin và
xử lý ngôn ngữ tự nhiên để tự động tạo ra các dạng câu hỏi thường dùng trong các
bài kiểm tra, cụ thể như [1]:
+ Câu hỏi có nhiều đáp án - Multiple Choice Questions (MCQs): là
dạng câu hỏi tìm từ thích hợp trong nhiều đáp án được cho sẵn Các đáp án được cho
có thể là từ gần nghĩa, trái nghĩa nhất với đáp án đúng cho câu hỏi đó.
+ Câu hỏi đúng sai - True or False Questions (Yes/No questions): hay
còn được gọi là câu hỏi yes/no Đây là dạng câu hỏi đưa ra một vấn đề nào đó và cần
xác định tính đúng sai của nội dung dựa theo nội dung được cung cấp.
+ Điền vào chỗ trống - Fill in the Blanks: với nội dung câu hỏi này,
người được kiểm tra sẽ có một đoạn văn bản và một vài phần khiếm khuyết (chỗ
trồng) của đoạn văn đó Với mỗi phần khiếm khuyết, nhiệm vụ của người đọc là phải
lựa chọn đáp án đúng nhất để điền vào chỗ trống phù hợp với nội dung được cung
câp.
Trang 11Trong đó, luận văn tập trung vào ứng dụng các kĩ thuật dé trích xuất thông tin, xác định các thuật toán phù hợp để đưa ra các câu hỏi chất lượng từ văn bản đầu vào Luận văn xây dựng ứng dụng tạo câu hỏi, giúp tiết kiệm thời gian và công sức, đồng
thời tăng tính đa dạng, sự sáng tạo trong việc tạo câu hỏi Nó có thể ứng dụng rộng Tãi trong nhiều lĩnh vực như giáo dục, đào tạo, đánh giá năng lực và kiểm tra sự hiểu biết kiến thức của học sinh, sinh viên, nhân viên hoặc trong các lĩnh vực khác nhau
của đời sống.
1.2 Mục tiêu của luận văn
Luận văn nghiên cứu các phương pháp tạo sinh câu hỏi tự động từ các văn bản
tiếng Anh đầu vào nhằm mục đích xây dựng một hệ thống thử nghiệm đề đánh giá khả năng đọc hiểu của người đọc Trong thời dai quá tai thông tin hiện nay, chìa khóa
để học tập thành công nằm ở việc đặt ra những câu hỏi phù hợp Da số người đọc chỉ tiếp cận thông tin ở mức độ thấp, họ sẽ không nắm rõ vấn đề khi không đặt ra các câu hỏi cho nội dung vừa đọc Nhưng việc đặt câu hỏi ở mức độ như nao, nên nhấn mạnh
vào đâu thì họ không thé xác định được hoặc khó xác định, đòi hỏi phải tốn nhiều
công sức Hơn nữa, việc người đọc tự đặt ra câu hỏi cho chính nội dung họ vừa đọc
sẽ không mang lại giá trị cao Họ cần một người có khả năng đặt câu hỏi, hiểu được nội dung và kiểm duyệt được câu trả lời của họ Vì vậy, luận văn tập trung nghiên cứu phương pháp tạo sinh câu hỏi tự động giúp họ giải quyết được vấn đề trên.
Các dạng câu hỏi được nghiên cứu để tạo sinh câu hỏi tự động bao gồm:
+ Câu hỏi có nhiều đáp án.
+ Câu hỏi đúng sai.
+ Điền vào chỗ trống.
+ Chọn từ phù hợp.
Luận văn tập trung vào các phương pháp đề tạo sinh các dang câu hỏi vừa kể trên Đây là những dạng câu hỏi phổ biết nhất giúp người đọc có thể đọc hiểu được
văn bản hoặc hỗ trợ trong giảng dạy để giáo viên, học sinh hoặc sinh viên có thể tạo
ra các câu hỏi từ một nội dung nào đó Luận văn tập trung nghiên cứu phương pháp
để xác định nội dung trọng tâm của văn bản, các từ mang ý nghĩa trọng tâm của văn bản, những quá trình để xây dựng được một câu hỏi hoàn chỉnh từ nội dung được đề
Trang 12người đọc hiểu sâu hơn về nội dung, cải thiện khả năng phân tích, tư duy logic và sáng tạo Tuy nhiên, việc tạo ra các các đáp án sai có thé rất thủ công và tốn nhiều thời gian Các đáp án sai cần có sự liên kết chặt chẽ với nội dung và câu hỏi kiểm tra,
nó có thể gây ra sự nhiễu ở nhiều mức độ khác nhau cho người kiểm tra và tăng chất
lượng của câu hỏi Vì vậy luận văn còn tập trung nghiên cứu vào việc xây dựng các đáp án sai cho các câu hỏi trên.
Sau khi nghiên cứu được các phương pháp tạo sinh câu hỏi tự động, luận văn
tiếp tục nghiên cứu đề xây dựng một hệ thống thử nghiệm đánh giá khả năng đọc hiéu văn bản Hệ thống thử nghiệm phải phân tích được nội dung văn bản đầu vào, tạo
sinh được bốn dạng câu hỏi mà luận văn đề cập nghiên cứu Hệ thống góp phan vào
việc hỗ trợ khả năng đọc hiểu nội dung cho người sử dụng hệ thống này.
1.3 Nội dung luận văn
Luận văn tập trung nghiên cứu các phương pháp đề tạo sinh câu hỏi Chỉ tiết các bước dé tạo được một câu hỏi từ một nội dung bat ky Cach dé xác định được các
từ mang ý nghĩa trọng tâm của nội dung văn bản được đề cập Trích xuất các đặc
điểm của các dạng câu hỏi.
Như đã đề cập ở trên, các dạng câu hỏi được nghiên cứu trong luận văn này bao gồm:
- Câu hỏi có nhiều đáp án trả lời: yêu cầu người đọc chọn một hoặc nhiều
đáp án đúng trong số các lựa chọn được đưa ra.
- Dạng câu hỏi đúng hoặc sai: yêu cầu người đọc xác định tính đúng hoặc
Sai của một câu khẳng định.
- Dạng câu hỏi điền vào chỗ trống: yêu cầu người đọc điền vào các chỗ trống
trong câu dé hoàn thành câu văn.
- Dạng câu hỏi chon từ phù hợp: yêu cầu người đọc khớp các cặp từ hoặc
cụm từ ở một cột với các từ hoặc cụm từ tương ứng ở cột kia.
Đây là các dạng câu hỏi thường được sử dụng trong các bài kiểm tra trắc
nghiệm hoặc bài tập trắc nghiệm Ngoài việc xác định trọng tâm của câu hỏi, ở dạng câu hỏi trắc nghiệm, các đáp án được sử dụng phải có tính khoa học, chặt chẽ, dé làm
xao nhãng người kiểm tra nếu không có kiến thức vững.
Trang 13[5] Sử dụng những mạng ngữ nghĩa này để có thé phân tích được các từ trong câu và tạo sinh được các đáp án sai có thé gây nhiễu cho người được kiểm tra.
Luận văn nghiên cứu sử dụng các kỹ thuật phân tích cú pháp để phân tích cấu
trúc câu, tách câu, đưa ra các thông tin cần thiết để xây dựng câu mới Các kỹ thuật được nghiên cứu như Constituency Parsing [6], OpenAI GPT-2 [7] dé tạo sinh câu hỏi tự động Nghiên cứu sử dụng một số phương pháp máy học để mã hóa nội dung,
xây dựng các mô hình vector và tính toán mức độ tương đồng giữa các câu với nhau.
Sử dụng các tập dữ liệu khác nhau dé huấn luyện mô hình máy học giúp tạo sinh câu
hỏi có chất lượng Một số mô hình có thể được sử dụng như SquAD [8],MS MARCO
[9], WikiSQL [10],
Luận văn phải xây dựng được hệ thống đánh giá được khả năng đọc hiều tiếng
Anh Giúp ứng dụng được các kiến thức vừa nghiên cứu vào đời sống thực tiễn Hệ thống phải tạo sinh được bốn dạng câu hỏi từ một đoạn văn bản tiếng Anh bất kỳ mà luận văn đã đề cập nghiên cứu Từ đó giúp người sử dụng tiết kiệm được chỉ phí về thời gian, công sức đề nghiên cứu nội dung kiến thức đó, các câu hỏi được tạo ra tăng
mức độ phong phú với nội dung đã đề cập.
Từ đó, luận văn tiền hành đánh giá với một số hệ thống đã và đang phát triển
sử dụng để tao sinh câu hoi So sánh dựa vào một số tiêu chí để thấy được hệ thống
từ luận văn xây dựng đã và đang làm được gì Để tiến hành kế hoạch cho thời gian tiếp theo đề tiếp tục phát triển và hoàn thành ứng dụng, đưa ứng dụng tới nhiều người
sử dụng hơn.
Trang 14Chương 2 CƠ SỞ LÝ THUYET
2.1 _ Giới thiệu về bài toán tạo sinh câu héi tự động từ văn bản tiếng Anh
Bài toán tạo sinh câu hỏi tự động từ văn bản tiếng Anh là một lĩnh vực trong
xử lý ngôn ngữ tự nhiên nhằm tạo ra các câu hỏi dựa trên nội dung của văn bản Mục tiêu của bài toán này là giúp máy tính tự động tạo ra các câu hỏi về một đoạn văn bản
để phục vụ cho các mục đích giáo dục, kiểm tra kiến thức hoặc trích xuất thông tin từ
nội dung văn bản đó.
ải Xác định Xác định
Đoạn văn a oe ie _ nội dung -— -) các nội dung o4
oan văn chinh tạo câu hỏi Ị
: Tìm kiếm
¡— À\ Xae dinh pat câu hỏi âu trả lời đúng \ _ Kết quả
3 dạng câu hỏi các câu
Hình 2.2: Mô tả các bước tạo câu hỏi tự động
Luận văn thấy được việc tạo sinh câu hỏi thủ công rất tốn kém và phức tạp, bắt buộc người tạo câu hỏi phải doc thật hiểu đoạn văn đó dé xác định các nội dung chính của văn bản Từ những nội dung chính họ trích xuất được, người tạo câu hỏi
mới bắt đầu lựa chọn những nội dung họ sẽ tạo câu hỏi Sau đó họ mới đặt câu hỏi từ những nội dung họ đã lựa chọn đó Sau khi tạo được câu hỏi, họ phải suy nghĩ để cho
Trang 15kết quả đã được tạo sinh từ hệ thống Công việc của họ trở nên nhẹ nhàng và đơn giản hơn khi sử dụng hệ thống tao sinh câu hỏi tự động.
Quá trình tạo sinh câu hỏi tự động bao gồm hai bước chính: trích xuất thông
tin và tạo câu hỏi Trong bước trích xuất thông tin, các thông tin quan trọng trong đoạn văn bản được định danh và trích xuất ra dưới dạng câu hoặc cụm từ Sau đó,
trong bước tạo câu hỏi, các câu hỏi được tạo ra dựa trên các thông tin đã được trích
xuất Các câu hỏi này có thé có nhiều dạng khác nhau như câu hỏi có nhiều đáp án đúng, câu hỏi đúng hoặc sai, câu hỏi điền từ vào chỗ trống hoặc các câu hỏi tự do
khác.
Đê làm rõ hơn mục tiêu ở trên, luận văn lây ví dụ đơn giản như sau:
Nôi dung: “The capital of France is Paris It is a beautiful city known for its architecture, culture, and history ”.
Câu hói đầu ra: “What is the capital of France?”
Dap án của câu hỏi:
A Berlin
B Paris (đáp an đúng)
C Seine
D Eiffel
Ở vi dụ trên, bằng cách sử dụng các kỹ thuật xử ly ngôn ngữ tự nhiên và các
thuật toán học máy, luận văn có thể tự động tạo ra câu hỏi từ văn bản đầu vào Cụ thể, câu hỏi được tạo ra bằng cách trích xuất thông tin quan trọng từ văn bản như tên địa điểm và loại thông tin (ở đây thông tin chính được đề cập là “capital” (thủ đô),
“France” (nước Pháp) và “Paris” (Paris là thủ đô của nước Pháp)), sau đó chuyền đổi sang dạng câu hỏi phù hợp với ngữ pháp tiếng Anh Trong ví dụ này, dạng câu hỏi được sinh ra là câu hỏi có nhiều đáp án Vì vậy bước tiếp theo tập trung tìm các từ
liên quan đến Paris, có thể là một thủ đô khác, hoặc một địa danh nồi tiếng nào đó ở Paris hoặc nước Pháp để làm đáp án gây nhiễu cho câu hỏi.
Bên cạnh các phương pháp và công nghệ như đã dé cập, dé tạo ra các câu hỏi
tự động có độ chính xác cao và đáp ứng được nhu cầu thực tế, cần có sự kết hợp giữa
Trang 16Ngoài ra, bài toán tạo sinh câu hỏi vẫn đang gặp nhiều thách thức như độ phứctạp khác nhau của ngôn ngữ tự nhiên, sự mơ hồ trong ý nghĩa của từ, ngữ pháp, cau
trúc câu, và sự khác biệt về văn hóa giữa các nước Do đó, việc giải quyết bài toán
tạo sinh câu hỏi tự động là một thách thức lớn đòi hỏi sự cập nhật kiến thức và kỹ
năng của các chuyên gia xử lý ngôn ngữ và các nhà nghiên cứu liên quan.
Khi xây dựng ứng dụng tạo sinh câu hỏi tự động từ văn bản bất kỳ, chươngtrình này có thé giúp người dùng tăng tốc độ đọc hiểu khi đọc đoạn văn đó Ngườiđọc thường phải dành nhiều thời gian dé hiểu rõ nội dung và chắc chan rằng họ đãhiểu đúng ý của người viết đoạn văn đó Ngoài ra, ứng dụng còn giúp tăng tốc độ đọchiểu bằng cách tạo ra các câu hỏi đòi hỏi người đọc phải chú ý đến các chỉ tiết quan
trọng trong văn bản và đưa ra các câu trả lời chính xác.
Ứng dụng giúp tìm kiếm thông tin nhanh chóng khi đọc một đoạn văn bản dài
Việc tìm kiếm thông tin cần thiết là một thách thức với nhiều người Vì vậy việc sửdụng ứng dụng tạo sinh câu hỏi tự động có thể giúp tìm kiếm thông tin một cáchnhanh chóng và hiệu quả hơn bằng cách tạo ra các câu hỏi liên quan đến các nội dungquan trọng trong văn bản mà người đọc cần tìm kiếm
Ứng dụng còn giúp hỗ trợ trong giáo dục và nghiên cứu Khi tạo câu hỏi tựđộng có thể hỗ trợ trong giáo dục, bao gồm việc tạo ra các bài kiểm tra hoặc đánh giáhiệu quả học tập của học sinh/sinh viên Các câu hỏi được tạo ra có thể giúp giáo viênđánh giá được sự hiểu biết của học sinh/sinh viên về nội dung được giảng dạy Trongnghiên cứu, giúp tạo ra các câu hỏi dé thăm dò ý kiến hoặc đánh giá sự hiểu biết của
những người tham gia nghiên cứu.
2.2 Hướng tiếp cận giải bài toán
Dé giải quyết bài toán tao sinh câu hỏi tự động từ văn bản tiếng Anh, luận văn
sử dụng các thư viện và công cụ của xử lý ngôn ngữ tự nhiên để phân tích văn bảnđầu vào, bao gồm các kỹ thuật tách câu, tách từ, chuyền đôi từ loại, xác định cấu trúccâu, trích xuất thông tin quan trọng và phân tích ngữ nghĩa của các câu trong văn bảnđầu vào Khi xác định được dạng câu hỏi cần tạo, luận văn dựa trên thông tin có sẵntrong văn bản đầu vao, tùy vào nhu cầu của người sử dụng chọn loại câu hỏi cần tạonào, ví dụ như câu hỏi có nhiều đáp án, câu hỏi đúng sai, dé tiép tục xử ly
Các đáp án sai là một thuật ngữ thường được sử dụng trong lĩnh vực giáo dục
và thiết kế bài kiểm tra dé mô tả việc tạo ra các phương án sai hoặc đáp án sai chocâu hỏi hoặc bài kiểm tra Mục đích của việc tạo ra các đáp án sai là dé làm cho câuhỏi hoặc bài kiểm tra trở nên khó hơn, đồng thời giúp đánh giá đúng năng lực và hiểubiết của người học Trong một bài kiểm tra trắc nghiệm, ví dụ như TOEFL, IELTShay các bài kiểm tra tương tự, các đáp án sai là những phương án trả lời sai hoặc
Trang 17Khi người làm bài chọn một phương án sai, điều đó cho thấy họ không hiểu nội dungđược đề cập hoặc không biết đúng câu trả lời, do đó sẽ bị trừ điểm Dé tạo ra các đáp
án sai, người thiết kế bài kiểm tra cần phải có kiến thức sâu rộng về chủ đề của câuhỏi và phải đưa ra các lựa chọn sai có thê gây nhằm lẫn cho người học
Luận văn này tập trung tìm hiểu các dang câu hỏi thường được sử dụng dé
kiểm tra mức độ hiểu biết của người được đánh giá Các phương pháp tao sinh câu
hỏi, cũng như cách để xử lý ngôn ngữ tự nhiên có thể thực hiện một cách tự động từmột nội dung văn bản bất ky dé tao dựng được câu hỏi va giúp cho kết quả tạo ra cómỗi liên hệ chặt chẽ với nội dung đầu vào.
2.3 Dang câu hỏi có nhiêu đáp án
Dạng câu hỏi có nhiều đáp án trả lời trong tiếng Anh thường được gọi là
“Multiple choice questions” hay “MCQs” Đây là dang câu hỏi trắc nghiệm mà ngườitrả lời được cung cấp một câu hỏi và một danh sách các đáp án khả di, trong đó chỉ
có một đáp án đúng (hoặc trong một số trường hợp, có nhiều đáp án đúng), tùy vào
yêu cầu của câu hỏi hoặc ý đồ của người tạo câu hỏi đó Người trả lời phải chọn đáp
Trong vi du trên, câu hỏi la “What is the capital of France?” va có bỗn đáp
án kha di (A, B, C va D) Chi có đáp án “B Paris” là chính xác với kiến thức địa lý
thực tế, vì vậy đó là đáp án đúng
Dạng câu hỏi này thường được sử dụng trong nhiều lĩnh vực khác nhau nhưgiáo dục, dao tao, kiểm tra và đánh giá kết quả học tập, định hướng nghề nghiệp vàcác cuộc thi Trong giáo dục, câu hỏi trắc nghiệp thường được sử dung dé kiểm trakiến thức và kỹ năng của học sinh hoặc sinh viên Trong đảo tạo, câu hỏi trắc nghiệm
có thé được sử dụng dé đánh giá hiệu qua của chương trình đào tạo và giúp người họcđánh giá trình độ của mình Đây là dạng câu hỏi phổ biến nhất trong các bài kiêm trabao gồm các kỳ thi tiếng Anh như TOEFL, IELTS, TOEIC, SAT, GRE, GMAT,
và trong các lớp học tiếng Anh ở các trường học hoặc trung tâm đào tạo Nó được
Trang 18cũng có thê được sử dụng trong các bài kiêm tra định kỳ của công ty hoặc tô chức đê đánh giá hiệu quả làm việc của nhân viên.
Trong phạm vi nay, các câu hỏi được tạo ra từ đoạn văn, đoạn hội thoại hoặc
bat kỳ nội dung văn ban nào Một số phương pháp phổ biến dé tạo ra câu hỏi bao
gồm:
- M6 hình dựa trên quy tắc [12]: Phương pháp này sử dung các quy tắc ngữ
pháp và ngữ nghĩa để tạo ra các câu hỏi từ đoạn văn Một số quy tắc cơ bản
có thể tuân theo như chọn một chủ dé cụ thé trong nội dung van ban, xác
định các từ, cụm từ liên quan đến chủ đề đó ở trong văn ban Vi du: chuyén
cau khang định sang câu hỏi, tìm các dai từ nao được sử dung va chuyển
chúng thành câu hỏi,
- Mô hình dựa trên máy học [4]: Phương pháp nay sử dụng mô hình may
học, chăng hạn như mạng nơ-ron và học sâu dé tạo ra các câu hỏi Mô hình
này học từ các đữ liệu huấn luyện được gán nhãn bao gồm cặp câu hỏi trảlời và câu hỏi tương ứng Sau khi được huấn luyện, mô hình có thé tạo ra
các câu hỏi mới từ đoạn văn.
- _ Kết hợp các phương pháp trên: nhiều phương pháp tạo câu hỏi kết hợp các
quy tac ngữ pháp và ngữ nghĩa cùng với các mô hình máy học dé tạo ra các
câu hỏi từ đoạn văn.
Từ đó luận văn thấy được răng, các yếu tô quyết định trong dạng câu hỏi này
là tạo ra các đáp án sai có mối liên hệ với đáp án đúng Có thé như tìm kiếm các đồngnghĩa, từ đồng dang, từ trái nghĩa, Một sé mang ngữ nghĩa được sử dụng trong cácphương pháp tìm kiếm đáp án sai, trong luận văn này đã sử dụng các mạng ngữ nghĩa
WordNet, ConcepNet.
2.3.1 Tạo sinh đáp án sai sử dụng WordNet
WordNet [3] là một co sử dit liệu từ điển đồng nghĩa (synonym) và tương đồng
(hyponym or hypernym) của tiếng Anh, được sử dụng rộng rãi trong lĩnh vực xử lýngôn ngữ tự nhiên Trong thiết kế bài kiểm tra, WordNet có thê được sử dụng để tạo
ra các đáp án sai cho câu hỏi.
Các bước cơ bản đê tạo ra các đáp án sai sử dụng WordNet như sau:
- _ Xác định từ cần tạo đáp án sai
- Str dụng WordNet dé tìm các từ đồng nghĩa hoặc tương đồng với từ đó
- Chon một hoặc nhiều từ đồng nghĩa hoặc tương đồng dé tạo thành các
Trang 19Nếu câu hỏi là “What is the capital of France?”, tôi có thé sử dung WordNet
để tìm các từ đồng nghĩa hoặc tương đồng với “capital” dé tạo ra các đáp án sai, như
“metropolis” hoặc “center” Tuy nhiên, khi tao các đáp án sai, cần phải dam bảorằng các phương án sai không quá dé hay quá khó, và không gây nhằm lẫn cho người
trả lời câu hỏi.
Ngoài ra, việc sử dụng WordNet dé tạo ra các đáp án sai cũng có thể được kết
hợp với các phương pháp khác, như sử dụng kiến thức chuyên môn, ngữ nghĩa, hoặc
các công cụ phân tích ngôn ngữ tự nhiên khác đề tăng tính đa dạng và khó khăn của
các câu hỏi.
Dé xác định từ cân tạo các đáp án sai trong một đoạn văn, có thê làm theo các bước sau:
- Doc và hiệu nội dung của đoạn văn: Trước khi tạo các đáp án sai, người
đọc cân hiệu rõ nội dung của đoạn văn có thê xác định các từ khóa hoặc những từ chính yêu muôn tạo ra câu hỏi.
- _ Xác định các từ khóa: Tìm các từ quan trọng, có liên quan đên chu đê của
đoạn văn Các từ này thường là những từ có tân suât xuât hiện cao và mang
ý nghĩa quan trọng trong đoạn văn.
- Tim các từ đồng nghĩa hoặc tương đồng: Sử dung các công cụ xử lý ngôn
ngữ tự nhiên hoặc các từ điển đồng nghĩa dé tìm các từ có ý nghĩa tươngđương hoặc liên quan đến từ khóa đã chọn Các từ này có thê được sử dụng
để tạo ra các đáp án sai cho câu hỏi
- Tao các câu hỏi: Dựa trên các từ khóa đã xác định và các từ đông nghĩa
hoặc tương đông đã tìm được, người đọc có thê tạo ra các câu hỏi và các
phương án trả lời, bao gôm một câu hỏi chính và một hoặc nhiêu đáp án
sal.
Lưu ý rằng việc tạo đáp án sai không chi don giản là sử dung từ đồng nghĩahoặc tương đồng, ma còn phải đảm bao rằng các đáp án sai không qua dé hoặc quakhó dé người làm bài có thé phân biệt được
Trong xử lý ngôn ngữ tự nhiên, việc đầu tiên phải phân tích đoạn văn, bao gồmphân tích các câu, từ và từ loại trong đoạn văn Điều này có thé giúp xác định các từ
quan trọng và các từ có thể được sử dụng để tạo ra các đáp án sai Tìm các từ đồng
nghĩa hoặc các từ liên quan đến từ khóa đã chọn Điều này có thé sử dụng dé tạo ra
các đáp án sai cho câu hỏi.
Trang 20Sử dụng phương pháp phân tích ngữ nghĩa và cú pháp dé phân tích cấu trúcngữ pháp và cau trúc câu trong đoạn văn Từ đó, người đọc có thé xác định các từhoặc cấu trúc câu phù hợp để tạo ra các đáp án sai.
Đánh giá tính hợp lý của các đáp án sai: khi đã tạo ra các dap án sai cho câu
hỏi, người đọc cần đánh giá tính hợp lý của chúng Các phương án sai không nên quá
dễ hoặc quá khó dé người làm bài có thé phân biệt được Ngoài ra, các phương án saicũng không nên bị lặp lại hoặc quá giống với phương án đúng
2.3.2 Tao sinh đáp án sai sử dụng ConceptNet
ConceptNet [4] là một dự án mã nguồn mở nhằm xây dựng một cơ sở dữ liệutri thức tự động và tong hợp từ nhiều nguồn khác nhau Nó được phát triển bởi nhómOpen Mind Common Sence tại MIT ConceptNet chứa những tri thức về các mốiquan hệ ngữ nghĩa giữa các khái niệm, bao gồm từ vựng, thành ngữ, động từ, tính từ
và cụm từ Các mối quan hệ này bao gồm đồng nghĩa, trái nghĩa, liên quan đến, đồngloại, phân loại và nhiều hơn nữa
Các ứng dụng của ConceptNet bao gồm xử lý ngôn ngữ tự nhiên, truy vanthông minh và các hệ thống hỗ trợ ra quyết định dựa trên tri thức Các nhà nghiên cứu
và nhà phát triển có thể sử dụng ConceptNet đề phát triển các ứng dụng trí tuệ nhân
tạo.
Là một nguồn tri thức tông hợp về các mối quan hệ ngữ nghĩa giữa các kháiniệm, do đó nó rất hữu ích cho các ứng dụng xử lý ngôn ngữ tự nhiên VớiConceptNet, các nhà phát triển xử lý ngôn ngữ tự nhiên có thé sử dung dit liệu được
cung cấp dé phát triển các thuật toán và mô hình dé giải quyết các van đề xử lý ngôn
ngữ tự nhiên như:
- _ Xác định ý nghĩa cua từ hoặc cụm từ trong văn ban.
- Tu động phân tích cú pháp câu.
- Phan tích cảm xúc của văn bản.
- Tu động dịch văn bản sang ngôn ngữ khác.
- Hỗ trợ chatbot và hệ thống hỏi đáp
ConceptNet cũng có thé được sử dụng dé tạo ra các đáp án sai trong các bài
kiểm tra trắc nghiệm hoặc hệ thống hỏi đáp tự động Việc tạo ra các đáp án sai,
ConceptNet có thé được sử dụng dé tìm kiếm các khái niệm liên quan đến khái niệm
chính đã cho Bằng cách sử dụng các mối quan hệ ngữ nghĩa được cung cấp trong
ConceptNet như từ đồng nghĩa, trái nghĩa, đồng loại, phân loại Người dùng có thể
Trang 21tìm ra các từ hoặc khái niệm liên quan đên từ gôc đê tao ra các phương an sai hợp ly
và gây nhằm lẫn cho người trả lời câu hỏi.
In garage Use patrol
Hình 2.3: ConceptNet có thé tạo ra các từ liên quan đến từ “Car”
Vi dụ, nếu từ gốc là “Car” (xe), ConceptNet có thé được sử dụng dé tìm kiếm
các khái niệm liên quan như “Drive” (lái xe), “Vehicle” (phương tiện giao thông),
“Tire” (lốp xe), “Travel” (du lich), “Use patrol” (sử dụng tuần tra), “In garage” (trongnhà dé xe) dé tao ra các phương an sai như “shift” (đôi chiều), “get direction” (hướng)khi từ “car” có ý nghĩa liên quan đến từ “drive”, hay “mobility” khi từ “car” có ýnghĩa liên quan đến “vehicle”, mà có thé gây nhằm lẫn với đáp án đúng như “car”,
Với sự hỗ trợ từ ConceptNet, người dùng có thé dé dang tạo ra các phương ánsai hợp lý và phù hợp dé tăng tính thử thách và khó khăn của các bài kiểm tra tracnghiệm hoặc hệ thong hỏi đáp tự động
2.3.3 So sánh WordNet và ConceptNet
Ca WordNet [3] và ConceptNet [4] đều có thé được sử dụng dé sinh ra các đáp
an sai trong việc tao câu hỏi trắc nghiệm hoặc bải kiểm tra Khi sử dụng ConceptNet,việc sinh ra các đáp án sai có thể sử dụng các mối quan hệ ngữ nghĩa phức tạp hơn
dé tao ra các từ hay cum tir có liên quan đến từ gốc Vi dụ, nếu từ gốc là “Cat” (con
mẻo), luận văn có thể sử dụng mối quan hệ “đồng loại” dé tạo ra các đáp án sai như
“Dog” (con chó), “Tiger” (con hồ), “Panther” (con báo), Còn muốn mối quan hệ
“trái nghĩa” dé tạo ra các từ đối lập, ta tìm được một số các từ như “Bird” (con chim),
“Mouse” (con chuột), hay “Fish” (con cá).
Trang 22Bird Dog
antonym
-Mouse Tiger
Fish Panther
Hình 2.4: Vi dụ về việc liên hệ từ đồng nghĩa, từ trái nghĩa khi sử dung WordNet
Khi sử dụng WordNet đề sinh ra các đáp án sai, luận văn sử dụng các từ đồngnghĩa và trái nghĩa, cũng như các mối quan hệ liên quan đến từ để tạo ra các đáp án
sai Ví dụ, nếu từ gốc là “apple” (táo), khi sử dụng WordNet, ta tìm được các từ đồng
nghĩa như sau: “fruit” (trái cây), “orchard” (vườn cây), hoặc sử dụng các từ trái nghĩa,
ta tìm được một số kết quả như sau: “orange” (trái cam), “pear” (trái lê), “banana”(trái chuối) để tạo ra các đáp án sai cho câu hỏi
Tuy nhiên, ConceptNet có thể được ưu tiên hơn trong việc sinh ra các đáp ánsai vì nó bao gồm nhiều mối quan hệ ngữ nghĩa phức tạp hơn so với WordNet, do đókhả năng tạo ra các đáp án sai của WordNet trở nên đa dang và phong phú hơn Déminh họa cách sử dụng ConceptNet dùng để tạo ra các đáp án sai từ một đoạn văntiếng Anh, luận văn có thể sử dụng ví dụ sau đây:
,
“Peter is a software engineer who loves to code in Python.’
Trong vi dụ nay, từ gốc mà luận văn muốn tạo ra các đáp án sai là từ “Python”,
Luận văn đã sử dụng ConceptNet dé tìm các từ hay cụm từ liên quan đến “Python”
được đặt trong ngữ cảnh của nội dung câu ở trên Trong đó từ “Python” được hiểu là
một ngôn ngữ lập trình bậc cao ở thời đại hiện nay Vì vậy, ta có thể sử dụng mốiquan hệ “trái nghĩa” để tạo ra các từ trái nghĩa với “Python”, như “Tiger”, “Bird”,
“Fish”, hoặc sử dụng mối quan hệ “đồng loại” để tạo ra các từ đồng loại như
Trang 23Java Anaconda
antonym synonym:
CH y! ynonymy Boa
Cobra Passcal
Hình 2.5: Ví dụ về việc liên hệ từ đồng nghĩa, từ trái nghĩa khi sử dụng ConceptNet
Từ những vi dụ trên, luận văn thay rằng ConceptNet được thiết kế dé giúp máy
tính có thé hiểu và sử dụng ngôn ngữ tự nhiên một cách tự nhiên hơn, được sử dụng
dé tao ra các đáp án sai đa dạng và phong phú từ một từ gốc, giúp cho quá trình tạocâu hỏi trắc nghiệm hoặc bài kiểm tra trở nên dé dàng và đa dạng
2.3.4 Tạo sinh đáp án sai sử dụng Sense2Vec
Sense2Vec [5] được phát triển bởi OpenAI, đây là phương pháp sử dụng phân
tích vectơ ngữ nghĩa để đại diện cho các từ trong một không gian nhiều chiều, giúp
cho việc xử lý ngôn ngữ tự nhiên dễ dàng hơn Sense2Vec sử dụng mô hình vector
đại diện cho từ, trong đó mỗi từ được biển diễn dưới dạng một vectơ số Các từ có ýnghĩa tương đồng có các vectơ tương tự nhau trong không gian vector Sense2Veccải tiến các phương pháp biên diễn từ bằng các tận dụng thông tin về các từ đồng
nghĩa và cách sử dụng các từ.
Cụ thé, thuật toán này sử dụng một số mô hình cấu trúc dữ liệu hiệu qua délưu trữ thông tin từ vựng, giúp cho việc truy xuất các từ đồng nghĩa và cách sử dụng
từ trở nên nhanh chóng và hiệu quả hơn Công cụ này đã được áp dụng trong nhiều
ứng dụng như chatbot, phân tích ngôn ngữ tự nhiên và dịch thuật Sense2Vec sử dụng
một mô hình học máy để tự động tạo dữ liệu từ đoạn văn Quá tình này được thựchiện băng cách đưa đoạn văn vào một mô hình ngôn ngữ để phân tích và trích xuấtthông tin về các từ trong đoạn văn đó
Quá trình này gôm các bước sau:
Tạo các
từ đại diện (word senses)
Biểu diễn
Tiền xử lý từ vựng
Hình 2.6: Các bước sử dụng Sense2Vec đề xử lý văn bản
Trang 241 Tiền xử ly: đoạn văn được tách thành các câu, các từ được chuẩn hóa(ví dụ: đưa về dạng chính tả đúng) và loại bỏ các từ không quan trọng (ví dụ:
giới từ, liên từ, từ dừng).
2 Biểu diễn từ vựng: mỗi từ được biển diễn dưới dạng một vector trongkhông gian nhiều chiều Vector này có thé được tính toán bằng cách sử dụng
một mô hình như Word2Vec hoặc GloVe.
3 Tạo các dai diện từ (word senses): Với mỗi từ, Sense2Vec tạo ra
nhiều đại diện từ (word senses) dé đại diện cho các ý nghĩa khác nhau của từ
đó Vi dụ: từ “Apple” có thé có các đại diện từ “trái táo”, nhưng cũng có thé
đại diện cho công ty Apple,
4 Xây dựng cầu trúc dit liệu: Sense2Vec sử dụng một cấu trúc dữ liệu
đặc biệt (sử dung bang băm va cây phân cap) dé lưu trữ các đại điện từ của các
từ trong đoạn văn bản Cau trúc này giúp cho việc truy xuất các từ và đại điện
từ của chúng trở nên nhanh chóng và hiệu quả hơn.
Kết quả của quá trình này là một bộ từ vựng với các đại diện của các từ, được
lưu trữ trong cấu trúc dữ liệu của Sense2Vec Bộ từ vựng này có thể được sử dụng dé
xử ly ngôn ngữ tự nhiên trong nhiều ứng dụng khác nhau Quá trình tạo ra các đáp án
sai từ Sense2Vec có thé được mô tả như sau:
Tìm kiếm
các từ
tương tự
Tạo ra các đáp án
sai
Phân tích đoạn văn
Tạo các từ đại diện
1 Phân tích đoạn văn: đoạn văn được phân tích để loại bỏ các lỗi sai
về cú pháp, tách đoạn văn thành các câu riêng biệt đề tiến hành tiếp tục xử lý
2 Tạo các đại điện từ: với mỗi câu trong đoạn văn, tiép tục tìm các từ đại điện cho mỗi câu trong đoạn văn đó, Sense2Vec sử dụng các đại diện từ
này dé đại diện cho các ý nghĩa khác nhau cua từ đó.
3 Tìm kiêm các từ tương tu: VỚI mỗi từ trong đoạn văn, Sense2Vec tìm
kiêm các từ có ý nghĩa tương tự trong bộ từ vựng Các từ này được sử dụng đê tạo ra các đáp án sai cho các câu hỏi trong đoạn văn.
Trang 254 Tạo các đáp án sai cho các câu hỏi: các từ tương tự được sử dụng
để tạo ra các đáp án sai cho các câu hỏi trong đoạn văn Các đáp án sai nàyđược tạo ra bằng cách thay thế các từ trong câu hỏi băng các từ tương tự đượctìm thấy trong bộ từ vựng
Kết quả của quá trình này là một danh sách các đáp án sai được tạo ra tự động
cho các câu hỏi trong đoạn văn Các đáp án sai này có thé được sử dụng dé tạo ra các
bài kiểm tra đa dạng và phong phú hơn, giúp đánh giá mức độ hiểu biết của người
học một cách chính xác và đầy đủ hơn Ví dụ sau đây minh họa rõ nét về việc sử dụngSense2Vec dé tạo ra các đáp án sai cho câu hỏi trong đoạn văn:
“To become a_ successful scientist, you need perseverance,
curiosity, and problem-solving skills You also need a solid knowledge in
the field you want to research.
(Dé trở thành một nhà khoa học thành dat, ban cần có sự kiên tri, tò
mò và khả năng giải quyết van dé Bạn cũng cân có kiến thức vững vàng
trong lĩnh vực mà bạn muốn nghiên cứu.).”
Dé tạo các đáp án sai cho câu hỏi "What are the qualities needed to become asuccessful scientist? (Những phẩm chất cần có đề trở thành một nhà khoa học thành
dat là g2) ”, luận văn thực hiện các bước sau:
1 Phân tích đoạn văn: đoạn văn được phân tích thành hai câu và các từ
trong đoạn văn được tách ra.
2 Tạo các đại diện từ: sử dụng Sense2Vec để tạo các đại diện từ cho
các từ trong đoạn van Ví dụ, các đại diện từ cho từ “scientist” có thể bao gồm
“physicists”, “biologist”,
3 Tìm kiếm các từ tương tự: sử dụng Sense2Vec dé tìm kiếm các từ
tương tự cho các từ trong đoạn văn Ví dụ các từ tương tự cho từ
«
persistenf ”,
“hardworking”, Ta có thể tiếp tục tìm kiếm tương tự cho các đại diện từ
khác tìm được từ đoạn văn trên.
consistently”,
4 Tạo các đáp án sai cho câu hoi: sử dung các từ tương tự đã tìm được
để tạo ra các đáp án sai cho câu hỏi Ví dụ: các đáp án sai cho câu hỏi "What
are the qualities needed to become a successful scientist?” có thé bao gồm
“persistence”, “curiosity”, “thinking ability”
Từ đó, luận văn xây dung được câu hỏi hoàn chỉnh như sau:
Trang 26What are the qualities needed to become a successful scientist?
A Persistence
B Curiosity
C Perseverance
D Thinking ability
Dap án dung cho câu hoi trên là dap an C Perseverance
Như vậy, luận văn đã tạo ra các đáp án sai cho câu hỏi trên bang cách sử dung
Sense2Vec Các đáp án sai này giúp cho ngân hàng câu hỏi trở nên phong phú và đa
dang hơn, các bài kiểm tra trở nên đa dang hơn, giúp đánh giá mức độ hiéu biết củangười được kiểm tra một các chính xác và đầy đủ hơn
2.4 Cau hỏi đúng hoặc sai
2.4.1 Giới thiệu
Dạng câu hỏi đúng hoặc sai (True or False) trong tiếng Anh là dạng câu hỏi
mà tạo ra một tuyên bố và yêu cầu người kiểm tra xác định xem câu đó là đúng (true)
hay sai (false) dựa trên thông tin được cung cấp trong một đoạn văn nhất định Dạng
câu hỏi này thường được sử dụng dé kiểm tra kiến thức và khả năng suy luận củangười kiểm tra
Vi dụ: Câu hỏi gốc: “Berlin is the capital of England.” (True or False)
Bang vốn kiến thức tích lũy được, luận văn xác định phát biểu ở trên là SAL
Từ đó kết quả của câu hỏi trên là:
> Câu trả lời: False (Câu trả lời chính xác: “Berlin is the capital of
Germany ”).
Các câu hỏi đúng hoặc sai thường được sử dụng dé kiểm tra các kiến thức cơbản, như định nghĩa thuật ngữ, sự kiện lịch sử hoặc tính chất khoa học của vật liệu.Việc tạo ra các câu hỏi đúng hoặc sai cũng giúp cho người tạo câu hỏi có thé kiểm
tra tính đầy đủ và chính xác của các kiến thức được học Tuy nhiên, cần lưu ý rằng
các câu hỏi đúng hoặc sai có thé bị mất đi tính khách quan nếu chúng không được
xác định đúng hoặc sai hoàn toàn từ nội dung Vì vậy, khi tạo ra các câu hỏi đúng
hoặc sai, cần đảm bảo rằng câu tuyên bố được xác định rõ ràng và không dẫn đến cáchiểu nhằm gây tranh cãi
Dé tao ra các câu hỏi đúng hoặc sai hiệu quả, luận văn đã cân nhac những quy
Trang 27- _ Sử dụng các câu tuyên bố ngắn gon và dễ hiểu.
- Dam bảo răng câu hỏi đưa ra phản ánh chính xác ý nghĩa của câu tuyên bô.
- _ Tránh sử dụng các từ chính trị hoặc độc đáo dé tránh ảnh hưởng đến tính
khách quan của câu hỏi.
- Dam bảo răng các câu hỏi đúng hoặc sai đưa ra là cân băng, tức là sô lượng
câu hỏi đúng hoặc sai trong một đợt kiêm tra luôn ở mức cân băng nhau.
2.4.2 Constituency Parsing và OpenAI GPT2
Kết hợp sử dung Constituency Parsing [6] và OpenAI GPT-2 [7] là mộtphương pháp tạo sinh câu hỏi tự động được áp dụng dé tạo ra các câu hỏi đúng hoặcsai nhằm gây nhầm lẫn cho các đối tượng mục tiêu Constituency Parsing là một kỹthuật phân tích ngữ pháp được sử dụng dé phân tích cấu trúc câu, tách câu thành cácthành phần cú pháp và đưa ra những thông tin cần thiết như câu chủ đề, động từ, tânngữ, Khi áp dụng kỹ thuật này có thê tạo ra một cây phân tích cú pháp, cung cấpcác thông tin về cấu trúc câu
Câu gốc Sử dụng Tách câu Sử dụng Câu sai
dựa trên cấu trúc cú pháp của câu ban đầu Với khả năng sinh văn bản tự động và tự
nhiên của mình, GPT-2 có thể tạo ra các câu hỏi có nội dung sai hoặc nhằm lẫn với
độ chính xác và độ trôi chảy tốt
Phương pháp này được áp dụng trong các bài kiểm tra, trò chơi trí tuệ hoặccác ứng dụng thực tế khác, nơi mà việc tạo sinh các câu hỏi có nội dung sai hoặc gâynhằm lẫn có thé giúp nâng cao tính thử thách và tính hấp dẫn của hoạt động Tuy
nhiên, cần lưu ý rằng các câu hỏi được tạo ra bằng phương pháp này không phải lúc
nào cũng là chính xác, do đó cần được kiểm tra và đánh giá nội dung được tạo ra từphương pháp này trước khi sử dụng trong thực tế vì có một số trường hợp các phát
biểu được tạo ra gây ảnh hưởng tới hoạt động chính trị, tôn giáo, tín ngưỡng
Trang 282.4.2.1 Consitituency Parsing
Consitituency Parsing [6] là quá trình phân tích câu dé xác định cấu trúc câu
dựa trên các phân cấp cú pháp Nói cách khác, quá trình này giúp phân tách câu thành
các thành phần cú pháp, ví dụ như danh từ, động từ, tính từ, chủ ngữ, vị ngữ, đối
tượng, mệnh đề và các mối quan hệ cú pháp giữa chúng Đề thực hiện Constituency
Parsing, luận văn có thể sử dụng các thuật toán như Recursive Descent Parsing,
Top-Down Parsing, Bottom-Up Parsing, Shift-Reduce Parsing, và Chart Parsing.
Các ứng dung của Constituency Parsing có thé bao gồm:
- _ Xác định cau trúc của câu dé giúp cho việc phân tích ngữ nghĩa, dịch thuật
và tự động tóm tắt
- H6 trợ trong việc dự đoán từ khóa trong bai viét dé giúp cho các công cụ
tìm kiêm hiệu rõ hơn vê ý d6 của người dung.
- Hỗ trợ cho các ứng dụng xử lý ngôn ngữ tự nhiên như Chatbot, tự động trả
lời câu hỏi và phân tích ý kiên.
Vị dụ: Cho câu sau đây: “John bought a book at the bookstore yesterday ”.
Quá trình Constituency Parsing đã phân tách câu này thành các thành
Trang 29S: câu chính NP: cụm danh từ
NNP: danh từ riêng
VP: cụm động từ VBD: động từ quá khứ
DT: mạo từ xác định NN: danh từ
PP: cụm giới từ IN: giới từ
Từ phân tích trên, luận văn biết được các thông tin cụ thể như sau:
Chủ ngữ (NP): John
VỊ ngữ (VP): bought a book at the bookstore yesterday.
Tân ngữ (NP): a book at the bookstore 2.4.2.2 OpenAI GPT-2
OpenAI GPT-2 (Generative Pre-trained Transformer 2) [7] la một mô hình
ngôn ngữ tự động học sâu dựa trên kiến trúc Transformer Phuong pháp này đượcphát triển bởi OpenAI và được giới thiệu vào năm 2019 Mô hình GPT-2 được đào
tạo trên một lượng lớn dữ liệu văn bản trên Internet dé tự động hóa việc viết văn bản
một cách tự nhiên, từ đó tạo ra các đoạn văn mô tả, câu chuyện và thậm chí là mở đầucho các bài báo GPT-2 có hơn 1,5 tỉ tham số, là một trong những mô hình ngôn ngữlớn nhất và tốt nhất hiện nay Nó có thể sinh ra những đoạn văn tự nhiên có cau trúc
và ngữ pháp chính xác, đôi khi đầy đủ ý nghĩa và logic, và thậm chí có thé đối đápvới con người một cách khá tự nhiên GPT-2 có nhiều ứng dụng trong các lĩnh vực
như:
- Tạo văn bản tự động: GPT-2 có thể tự động tạo ra các đoạn văn có thể đáp
ứng nhu cầu của nhiều ứng dụng, từ tự động tóm tắt văn bản, tạo nội dung cho website,
cho đến các đoạn truyện ngắn hoặc đoạn hội thoại giả tưởng
- Phân loại văn bản: GPT-2 có thé được sử dụng dé phân loại các đoạn văn
bản theo chủ đề hoặc tinh thần của chúng Điều này có thể hỗ trợ cho các ứng dụng
xử lý ngôn ngữ tự nhiên như chatbot, tự động trả lời câu hỏi và phân tích ý kiến
- Mô hình hóa ngôn ngữ: GPT-2 có thê giúp xây dựng các mô hình học sâu
cho các ứng dụng xử lý ngôn ngữ tự nhiên, bao gồm việc dịch thuật máy, tổng hợp
giọng nói, và chatbot.
Trang 30Một điều đáng lưu ý là GPT-2 đã gặp phải nhiều tranh cãi về độ tin cậy của
nó, vì nó có thê tạo ra các đoạn văn tự nhiên nhưng có thể là sai lầm hoặc chứa thông
tin sai lệch.
2.4.3 Tạo sinh câu hỏi sử dung Constituency Parsing và OpenAI GPT2
Dé tạo câu hỏi đúng hoặc sai từ Constituency Parsing [6] và OpenAI GPT-2
[7], luận văn đã thực hiện các bước như sau:
1 Ap dung Constituency Parsing đê phân tích cú pháp cho một câu văn ban
dau vào Kết quả của quá trình này trả về tập hợp các câu văn bản, bao gôm câu trúc,
phân câp và môi quan hệ giữa các thành phân câu.
2 Sử dụng kết quả phân tích cú pháp dé xác định các thành phan của câu,chăng hạn như chủ ngữ (subject), động từ (verb), tân ngữ (object) và các thông tin
liên quan khác ảnh hưởng tới nội dung của câu đó.
3 Sử dung OpenAI GPT-2 dé tạo ra tập hợp các câu hỏi hoặc tập hợp các câu
khẳng định, phù hợp với nội dung của câu văn bản ban đầu Câu hỏi hoặc câu khang
định này được thiết kế dé có thé trả lời bang DUNG hoặc SAI
4 Sử dụng các thông tin về các thành phần của câu và câu hỏi được tạo ra bởi
OpenAI GPT-2 dé xác định câu trả lời có phải là DUNG hoặc SAI
Ví dụ: Đầu vào: “The cat chased the mouse and caught it”
Kết quả phân tích cú pháp cho câu trên như sau [13]:
(ROOT (S
(NP (DT The) (NN cat))
(VP
(VP (VBD chased) (NP (DT the) (NN mouse)))
(CC and) (VP (VBD caught) (NP (PRP it)))))
Thanh phan trong câu bao gồm:
Trang 31+ Động từ: chased, caught.
+ Tân ngữ: the mouse, it.
Câu hỏi được tạo ra bởi OpenAI GPT-2: “Do the cat catch the
mouse?”
> Câu tra lời: True (đúng).
The cat chased the mouse and caught it
Hình 2.10: Minh họa sử dụng Constituency Parsing (AllenNLP - Demo)
2.4.4 Tạo sinh văn bản bằng OpenAI GPT-2
Khi sử dụng OpenAI GPT-2 [7] dé tạo ra văn bản, luận văn đã sử dụng các thư
viện hoặc công cụ như: OpenAI API, Hugging Face Transformers và TensorFlow.
Các bộ công cụ này được đóng gói dưới dạng các thư viện sử dụng trên ngôn ngữ
Python, vì vậy chỉ cần cài đặt và cau hình các thông số phù hợp theo yêu cầu để tạođược kết quả như mục đích sử dụng Luận văn minh họa việc sử dụng thư việnHugging Face Transformers dé tạo ra một đoạn văn bản ngẫu nhiên như sau:
Tao văn bản mới bat dau băng câu: “The quick brown ƒox ”.
Kết quả có thé là: “The quick brown fox jumps over the lazy dog The dog
barks loudly as the fox disappears into the distance The sun begins to set, casting a
warm orange glow over the landscape.”’
Trong vi dụ trên, luận văn đã sử dung kết hop mô hình GPT-2 va Hugging
Face Transformers để tạo ra một đoạn văn bản mới bắt đầu bang cau “The quick
brown fox” Các tham sô max_length va num_return_sequences ở trong mô hình
Trang 32lượng đoạn văn bản tối đa được tạo ra Kết quả ở trên là kết qua đầu tiên mà mô hìnhGPT-2 đưa ra với độ tin cậy cao nhất.
2.5 Tao sinh câu hỏi có nhiêu đáp án
2.5.1 Sử dụng Sentence Transformers
Sentence Transformers [14] là một phương pháp xây dựng mô hình máy học
được sử dụng dé mã hóa các câu hỏi và văn bản thành các vector có số chiều cao hơn
Điều này cho phép so sánh và tính toán độ tương đồng giữa các câu hoặc văn bản
dưới dạng các phép tính vectơ Để tạo ra các vectơ mã hóa câu, SentenceTransformers sử dụng một mô hình mạng nơ-ron sâu được huấn luyện trên các ví dụ
dự đoán đoạn văn tiếp theo (next sentence prediction) hoặc tương tự như văn bản trên
các bộ dữ liệu hơn như Wikipedia, Reddit hoặc BookCorpus.
Các mô hình Sentence Transformers đang được sử dụng rộng rãi cho nhiều
nhiệm vụ liên quan đến xử lý ngôn ngữ tự nhiên, bao gồm phân loại văn bản, phânđoạn văn bản, trích xuất thông tin, tom tat van ban va dich may Cac mô hình này cóthê được sử dụng đề xây dựng hệ thống hỏi đáp tự động, tìm kiếm thông tin và xử lý
ngôn ngữ tự nhiên trong các ứng dụng thực tế như chatbot, trợ lý ảo và phân tích cảm
XÚC.
Dé tạo ra các đáp án sai cho một câu hỏi dựa trên một đoạn văn bang Sentence
Transformers, luận văn đã thực hiện các bước sau:
Tà : Chọn câu hỏi
Phân tích Biểu diễn Tính toán có độ Tạo ra các
đoạn văn vector độ tương đồng đáp án sai
cho các câu tương đồng cao nhất
Hình 2.11: Các bước xử lý văn bản bằng Sentence Transformers
1 Phân tích cú pháp đoạn văn: Xử lý loại bỏ các lỗi củ pháp trong đoạn văn
bản, tach câu và từ trong đoạn văn sử dụng Spacy hoặc NLTK.
2 Tạo biêu diện vector cho các câu: sử dung mô hình Sentences Transformers
được huân luyện trên bộ đữ liệu lớn đê tạo ra biên diễn vector cho các câu.
3 Tính toán độ tương đồng: sử dụng độ do cosine similarity dé tính toán độ
tương đồng giữa câu hỏi và các câu trong đoạn văn
4 Chọn các câu hỏi có độ tương đồng cao nhát: chọn ra các câu trong đoạn
Trang 335 Tạo ra các đáp án sai: dựa trên các câu được chọn trong bước trước, sử
dụng các phương pháp sinh di liệu như thay đổi từ khóa, thay đối thứ tự các từ, thêmhoặc bớt từ dé tao ra các đáp an sai
Vi du: Cho doan van sau day:
“Machine learning is a subfield of artificial intelligence that focuses on building systems that can learn from and make decisions based on data It is used in
a wide variety of applications such as image recognition, natural language
processing, and autonomous vehicles.” [15]
Va cau hoi: “What is machine learning?”
Qua việc sử dụng phương pháp Sentence Transformers dé tao ra các phương
án sai, ta có kết quả như sau:
- Câu được chon: “Machine learning is a subfield of artificial intelligence that
focuses on building systems that can learn from and make decisions based on data.” 2.5.2 Sử dụng T5 Transformer
T5 Transformer [16] là một kiến trúc mô hình học sâu được phát triển bởiGoogle AI Language T§ viết tắt của Text-to-Text Transfer Transformer, là một môhình dựa trên Transformer cho các nhiệm vụ chuyên đôi văn bản T5 được huấn luyệntrên một tập dữ liệu lớn và đa dang gồm các nhiệm vụ văn bản khác nhau Khác vớicác mô hình dựa trên Transformer khác, T5 được huấn luyện cho tất cả các loại nhiệm
vụ văn bản trong một kiến trúc duy nhất T5 có thể được sử dụng cho nhiều tác vụvăn bản khác nhau, bao gồm:
- Tạo ra câu mô tả sản phâm, tựa đê, mô tả tông quan cho các sản phâm trên
trang web thương mại điện tử.
- Tạo ra câu hỏi va dap án cho bai kiêm tra trac nghiệm hoặc tạo ra câu hỏi va đáp án cho các bài tập lập trình.
- Chuyên đổi ngôn ngữ tự nhiên sang ngôn ngữ khác như dịch văn bản hoặc
phát âm từ văn bản.
- Tao ra tiêu đê cho các bài báo hoặc tóm tat ngăn gon cho các bài báo dai.
- Tạo ra các bình luận tự động cho các bai việt trên mạng xã hội hoặc các bình
luận sản phâm trên các trang web thương mại điện tử.
Trang 34Có thê sử dụng kết hợp với một số công cụ và thư viện như Hugging Face
Transformers đề sử dụng T5 Transformer Đề huấn luyện mô hình tạo câu hỏi sử dụng
T5 Transformer, luận văn đã thực hiện theo các bước sau:
1 Chuẩn bị một tap dit liệu các cặp câu gồm câu nguồn và câu hỏi tương ứng
Có thể sử dụng các tập dữ liệu câu hỏi — câu trả lời có sẵn như SquAD hoặc tự tạo
tập dữ liệu riêng.
2 Tiền xử lý đữ liệu bằng cách mã hóa các câu thành các số và chuỗi mã thông
báo (token) được đưa vào mô hình T5.
3 Xây dựng một mô hình T5 tranformer và huấn luyện mô hình trên tập dữliệu đã chuẩn bị
4 Đánh giá mô hình bằng các phương pháp đánh giá chuân như độ chính xác
và độ lỗi Nếu kết quả đạt được không tốt, điều chính lại các thông số của mô hình vàhuấn luyện lại
5 Sử dụng mô hình huân luyện đê tạo câu hỏi cho các câu đâu vào mới.
Các tập dữ liệu mà luận văn đã tiến hành thử nghiệm dé huấn luyện mô hìnhtạo câu hỏi bao gồm:
1 SQUAD (Stanford Question Answering Dataset) [8]: đây là tập đữ liệu nỗitiếng trong lĩnh vực tạo câu hỏi và trả lời, được sử dụng trong nhiều nghiên cứu và
dé huấn luyện mô hình tạo câu hỏi — trả lời Tập dữ liệu này bao gồm các câu hỏi và
câu trả lời tương ứng, được rút ra từ các đoạn văn tiếng Anh Trong luận văn này đã
sử dụng phiên bản SQuAD 2.0.
2 MS MARCO (Microsoft Machine Reading Comprehension) [9]: day là một
tập dữ liệu lớn về tìm kiếm thông tin, bao gồm các câu hỏi tiếng Anh và các câu trả
lời tương ứng được đánh giá bởi con người, được rút ra từ các trang web thực tế
3 WikiSOL [10]: tập dữ liệu này chứa các câu hỏi liên quan đến cơ sử dữ liệuSQL, được rút ra từ các bài viết trên Wikipedia
Dé minh hoa việc sử dụng T5 Transformer huân luyện một mô hình tao câu hỏi, luận văn đã sử dụng ví dụ như sau:
Gia sử luận văn đã có một tap dữ liệu gôm các câu trả lời vê lịch sử thê giới,
và muôn huân luyện một mô hình đê tạo ra câu hỏi dựa trên các câu trả lời này Đầu tiên, cân chuân bị dữ liệu băng cách chuyên đôi các câu trả lời thành cặp câu “câu hỏi
Trang 35Câu hoi: “When did the French Revolution begin and how long did it last?” Câu trả lời: “The French Revolution began in 1789 and lasted for a decade.”’
Sau khi có được các cặp câu hỏi — câu trả lời, tiến hành tiền xử ly dữ liệu bằngcách áp dụng các kỹ thuật như chuẩn hóa dữ liệu, loại bỏ các kí tự đặc biệt và từ dừng(stopwords), và mã hóa dữ liệu thành dạng SỐ Tiếp theo, tạo ra một mô hình T5Transformer và huấn luyện nó trên tập đữ liệu đã chuẩn bị Quá trình huấn luyện cóthé sử dụng các kỹ thuật như tăng cường dit liệu (data augmentation), kiểm tra và
điều chỉnh các siêu tham số (hyperparrameters), và sử dụng các kỹ thuật giảm nhiễu
với dữ liệu huấn luyện (overfitting)
Sau khi hoàn thành quá trình huấn luyện, luận văn sử dụng mô hình này dé tạo
ra các câu hỏi mới dựa trên các câu trả lời Ví dụ, nếu cung cấp cho mô hình câu trảlời “The American Civil War lasted from 1861 to 1865”, mô hình có thể tạo ra câu
hỏi như sau:
“When did the American Civil War start and end 2”.
“How long did the American Civil War last?”’.
Điều này cho thay răng T5 Transformer là một công cụ hữu ich dé huấn luyện
các mô hình tạo câu hỏi tự động, đặc biệt là khi sử dụng với các tập dữ liệu lớn và đa dạng.
2.6 Tạo dạng câu hỏi điền vào chỗ trống
2.6.1 Giới thiệu
Dang câu hỏi điền vào chỗ trong hay Fill in the Blanks (hay Cloze Test) là
dạng câu hỏi yêu cầu người trả lời điền vào các chỗ trống trong đoạn văn hoặc đoạn
nghe Các chỗ trống thường là các từ, cụm từ hoặc câu bị thiếu trong đoạn văn hoặc
đoạn nghe Người trả lời phải đọc hoặc nghe và điền từ/cụm từ/câu phù hợp vào các
chỗ trống đề hoàn thành bài kiểm tra Dạng câu hỏi này được sử dụng đề kiêm tra khả
năng ngôn ngữ và kiến thức của người trả lời về ngữ pháp, từ vựng hoặc cấu trúc câu
Nó cũng giúp người học tiếng Anh rèn luyện khả năng đọc, nghe hiểu, và giúp caithiện kỹ năng viết và nói của họ
Vi dụ: Doan văn sau đây có một số chỗ trống, hãy điền từ/cụm từ/câu thích
hợp vào chỗ trống dé hoàn thành đoạn văn
John is very busy person He works atq_ (l)_— during the day and
goes to school at night In his free time, he likes to play _(2) and read
Trang 36(3) He also enjoys watching_ (4) — andgoingto_ (53) with his
friends John is avery (6)_— person and he never gets bored.
Trong đoạn van trên, người tra lời phải điền từ/cụm từ/ câu phù hop vào cácchỗ trống dé hoàn thành đoạn văn Ví dụ, chỗ trống số 1 có thé được điền bằng các
từ “company” hoặc “factory”, chỗ trống số 2 có thể được điền bằng các từ “sports”
hoặc “games”,
Dang câu hỏi này thường được sử dung trong các bài kiểm tra tiếng Anh, baogồm các kỳ thi như TOEFL, IELTS, TOEIC và trong các tai liệu tiếng Anh
2.6.2 Tạo câu hỏi điền vào chỗ trống từ bat kỳ nội dung nào
Xác định cụm từ chính (keyphrases) là tập hợp các từ hoặc thuật ngữ được sắp
xếp theo thứ tự đúng để mô tả một chủ đề hoặc nội dung cụ thể Trong tối ưu hóa
công cụ tìm kiếm (SEO), keyphrases được sử dụng dé giúp các trang web xếp hạng
tốt hơn trên kết quả tìm kiếm của các công cụ tìm kiếm, bằng cách giúp họ tối ưu hóa
nội dung trang web của mình dé phù hợp với từ khóa hoặc cụm từ mà người dùng tìmkiếm Keyphrases cũng được sử dụng trong quảng cáo trực tuyến để mục tiêu kháchhàng tiềm năng và tăng tỷ lệ chuyền đôi
Các bước dé xác định keyphrases trong văn bản xử lý ngôn ngữ tự nhiên được
thực hiện như sau:
Loại bỏ các từ Phân tích từ Chức năng Phân tích Trích xuất
Hình 2.12: Các bước xác định keyphrases trong văn bản
1 Tach từ (tokenization): chuyên đôi văn bản thành danh sách các từ riêng lẻ
dé dé dàng xử lý
6699 66
a
2 Loại bỏ stopword: các từ đừng (stopword) là các từ phố biến như “a”, “an”,
“the”, không mang lại nhiều ý nghĩa cho văn bản và thường bị loại bỏ
3 Phân tích từ (Part-of-speech tagging): phân tích cú pháp của các từ để xác
định loại từ và vai trò của từ trong văn ban.
4 Chức năng ngữ nghĩa (sematic role labeling): xác định vai trò của các từ
Trang 375 Phân tích cú pháp (parsing): phân tích câu và xác định các mối quan hệ cú
pháp giữa các từ.
6 Trích xuất cụm từ chính (keyphrases): dựa trên các thông tin thu thập được
từ các bước trên, các cụm từ chính có thê được trích xuất bằng các phương pháp như
TF-IDF (Term Frequncy-Inverse Document Frequency) và TextRank TF-IDF sử
dung tần suất xuất hiện của các từ trong văn bản và tải liệu khác để xác định sự quantrọng của các từ trong văn bản, trong khi TextRank sử dụng mạng lưới các từ để xácđịnh các từ quan trọng dựa trên mối liên kết giữa chúng
Quá trình xác định cụm từ chính có thé được thực hiện bằng cách sử dụng các
thư viện như NLTK [17], SpaCy [14], pke (Python Keyphrase Extraction) [18],
Dé đánh giá độ quan trọng của các cụm từ chính và xếp hạng các từ trong vănbản, luận văn sử dụng một số phương pháp sau:
1 TF-IDF (Term Frequency — Inverse Document Frequency): phương pháp
này đánh giá độ quan trong của một từ bang cách tinh toán tần suất xuất hiện của từ
đó trong văn ban (TF) và trọng số nghịch đảo của tần suất xuất hiện của từ đó trongtoàn bộ các văn bản (IDF) Từ có TF-IDF cao hơn sẽ được coi là quan trọng và có thêxếp hạng cao hơn
2 TextRank: Phương pháp này dựa trên thuật toán PageRank của Google dé
xếp hạng các từ trong văn bản TextRank xem các từ như các nút trong một đồ thị vàtính toán độ quan trọng của từ bằng cách đo độ liên kết giữa các nút (từ) trong đồ thị
Từ có TextRank cao sẽ được coi là quan trọng và có thé xếp hạng cao hơn
3 RAKE (Rapid Automatic Keyword Extraction): Phương pháp này tìm kiếm
các cụm từ có độ tần suất cao và độ phân cực lớn trong văn bản Các cụm từ này được
coi là quan trọng và có thê xếp hạng cao hơn
Sau khi đánh giá và xếp hạng các cụm từ chính Luận văn lựa chọn các từ hoặccụm từ được xếp hạng cao hơn đề tiếp tục xử lý Phương pháp này có thê tạo câu hỏi
điền vào chỗ trống băng cách xóa một số từ hoặc cụm từ này ra đoạn văn dé chúng
trở thành một trong những đáp án của câu hỏi.
2.7 Dạng câu hỏi “chọn từ phù hợp”
Dạng câu hỏi chọn từ phù hợp, trong tiếng Anh gọi là Match the following
question là dạng câu hỏi yêu cầu người đọc hoặc người học kết nối đúng các cặp từ
hoặc ý tương ứng với nhau Thông thường, câu hỏi này yêu cầu người đọc hoặc người
học phải kết nối các từ hoặc các ý liên quan đến nhau theo một quy tắc, một tính chất
Trang 38có kiên thức nhât định đê xác định được các môi quan hệ của các dữ liệu được cho
trong câu hỏi.
Ví dụ: Match the following countries with their corresponding capitals (kết
noi các quốc gia sau với thi đô twong ứng)
Bang 2.1: Dữ liệu dap án cho dang câu hỏi "chon từ phù hop"
Vietnam Vientiane
Thailand Beijing
Laos Bangkok
China Hanoi
Dé tạo ra dang câu hỏi này, phương pháp cần phải thực hiện các bước sau:
1 Trích xuất thông tin từ văn bản
2 Chọn câu giải thích.
3 Tạo câu hỏi kết nối
4 Kiểm tra và cải thiện câu hỏi
5 Định dạng câu hỏi
Đề lấy câu giải thích từ nội dung văn bản, cần áp dụng các phương pháp trích
xuất thông tin và xử lý ngôn ngữ tự nhiên:
1 Sử dụng phương pháp phân tích cú pháp (parsing): phân tích cú pháp giúp
xác định vi trí và chức năng cua từng từ hoặc cụm từ ở trong câu.
2 Sử dụng thuật toán trích xuất thông tin (information extraction): thuật toánnày giúp tìm kiếm các mẫu (patterns) trong văn bản để trích xuất các thông tin cầnthiết
3 Sử dụng mô hình học máy (machine learning models): sử dụng dé phân loại
và trích xuất các câu chứa thông tin định nghĩa hoặc giải thích từ văn bản Các mô
Trang 39Ví dụ: Có đoạn văn bản sau:
“The British Broadcasting Corporation (BBC) is the national broadcaster of
the United Kingdom, based at Broadcasting House in London, England It is the
world's oldest national broadcaster, and the largest broadcaster in the world by
number of employees, employing over 22,000 staff in total, of whom approximately
19,000 are in public-sector broadcasting.
The BBC is established under a royal charter and operates under its
agreement with the Secretary of State for Culture, Media and Sport Its work is funded
principally by an annual television licence fee which is charged to all British
households, companies, and organisations using any type of equipment to receive or
record live television broadcasts or watch using iPlayer The fee is set by the British
Government, agreed by Parliament, and is used to fund the BBC's radio, TV, and
online services covering the nations and regions of the UK Since 1 April 2014, it has
also funded the BBC World Service (launched in 1932 as the BBC Empire Service),
which broadcasts in 28 languages and provides comprehensive TV, radio, and online
services in Arabic and Persian ” [19]
Từ đoạn văn trên, luận văn da trích xuât được các thông tin như sau:
- British Broadcasting Corporation (BBC)
- Broadcasting House, London, England
- Over 22000
- Approximately 19000
- Royal charter
- TV, radio, and online services.
Từ đó, phương pháp đã tạo ra dang câu hỏi chon từ phù hợp với các từ da
được trích xuất ở trên như sau:
Bảng 2.2: Trích xuất thông tin từ đoạn văn
Về trái Về phải
National broadcaster of the UK British Broadcasting Corporation (BBC)
Headquarter of BBC Broadcasting House, London, England
Number of employees at BBC Over 22000
Public-sector employees at BBC Approximately 19000
Trang 40Comprehensive services provided
by BBC World Service in Arabic TV, radio, and online services
and Persian
2.8 Kết luận
Qua quá trình phân tích, nghiên cứu các phương pháp dé tao sinh câu hỏi từnội dung văn bản tiếng Anh bat kỳ, luận văn thấy được rằng có rất nhiều dạng câu
hoi dé kiểm tra một nội dung văn bản bất kỳ nào đó Trong luận văn này chỉ chọn bốn
dạng câu hỏi thường được sử dụng nhiều nhất trong các kỳ thi tiếng Anh để nghiên
cứu các phương pháp tạo sinh câu hỏi.
Có nhiều phương pháp, thuật toán để tạo sinh câu hỏi Mỗi thuật toán có thể
là một bước trong quá trình từ nội dung văn bản dé tạo sinh được một dạng câu hỏinào đó Luận văn này ứng dụng các phương pháp, thuật toán khác nhau, kết hợp
chúng dé xây dựng được một qua trình tao sinh câu hỏi va đưa vao ứng dung thực tế
dé sử dụng
Qua việc giới thiệu các phương pháp ở trên, luận văn thấy được rằng việc tạo
sinh câu hỏi tự động từ một nội dung bất kỳ là khả thi, đã và đang ứng dụng vào thực
tiễn Giúp ích rất nhiều cho con người và xã hội Có thé giúp cho ngân hàng câu hỏitiếng Anh được phong phú, đa dang hơn Bộ tri thức dé ứng dụng vào các nghiên cứu
hoặc phương pháp khác cũng trở nên phong phú hơn khi tri thức được hình thành
ngày càng nhiều dựa vào các phương pháp tạo sinh đã được đề cập ở trong luận văn