1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Tạo sinh tự động câu hỏi từ văn bản Tiếng Anh và ứng dụng

87 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tạo Sinh Tự Động Câu Hỏi Từ Văn Bản Tiếng Anh Và Ứng Dụng
Tác giả Tran Anh Tuan
Người hướng dẫn PGS. TS. Nguyen Tuan Dang
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học Máy Tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 87
Dung lượng 50,16 MB

Nội dung

Luận văn tập trung nghiên cứu các giải pháp sử dụng các kỹ thuật xử lý thông tin và xử lý ngôn ngữ tự nhiên để tự động tạo ra các dạng câu hỏi thường dùng trong các bài kiểm tra, cụ thể

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

8 * w_—_.

TRAN ANH TUAN

_ TẠO SINH TỰ DONG CÂU HOI

TỪ VĂN BẢN TIENG ANH VÀ UNG DỤNG

LUẬN VĂN THẠC SĨ

Ngành: Khoa Học Máy Tính

Mã ngành: 8.48.01.01

Trang 2

_ ĐẠI HỌC QUOC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

—————Œ##)—————

TRAN ANH TUẦN

TẠO SINH TỰ ĐỘNG CÂU HOI

TU VĂN BẢN TIENG ANH VA UNG DỤNG

LUẬN VĂN THẠC SĨ

Ngành: Khoa Học Máy Tính

Mã ngành: 8.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS TS NGUYÊN TUẦN ĐĂNG

Trang 3

LỜI CÁM ƠN

Tôi xin gửi lời cám ơn chân thành nhất tới PGS.TS Nguyễn Tuấn Đăng, là

người đã đồng hành và hướng dẫn nhiệt tình cho tôi để hoàn thành luận văn thạc sĩ

này Trong thời gian thực hiện luận văn, thay luôn quan tâm, hướng dẫn và luôn động viên tôi để hoàn thành luận văn này.

Tôi xin gửi lời cám ơn chân thành tới các thầy cô trong khoa Khoa học máy

tính, các thầy cô giảng dạy và phụ trách tại phòng Đào tạo Sau Đại học và các bạn

học viên của trường Dai học Công nghệ thông tin — Dai hoc Quốc gia TP Hồ Chí Minh đã luôn tạo điều kiện cho tôi trong quá trình học tập và nghiên cứu tại trường.

TP Hỗ Chí Minh, ngày 10 tháng 06 năm 2023

HỌC VIÊN

TRAN ANH TUẦN

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu mà tôi đã thực hiện của riêng

tôi, tat cả các số liệu, kết quả và ứng dụng được nêu trong luận văn này là trung thực,

Vì vậy, tôi xin chịu mọi trách nhiệm về công trình nghiên cứu và luận văn thạc sĩ của

Trang 5

1.2 Mục tiêu của luận văn.

Chương 2 CƠ SỞ LÝ THUYẾT -s: sc 2222 22112111111212222212210 1 12 2.1 Giới thiệu về bài toán tạo sinh câu hỏi tu động từ văn bản tiếng Anh TH nên 12 2.2 Hướng tiếp cận giải bài toán 2 cc2222+ccSEEESerrErrserrrrrkeccer 14 2.3 Dang câu hỏi có nhiều đáp án

2.3.1 Tạo sinh dap án sai sử dung WordNet

2.3.2 Tạo sinh dap án sai sử dụng ConceptNet

2.3.3 So sánh WordNet và ConceptNet

2.3.4 Tạo sinh đáp án sai sử dụng Sense:

2.4 Cau hoi dung hoặc sai.

2.4.1 Giới thiệu

2.4.2 Constituency Parsing và OpenAI GPT2.

2.4.3 Tạo sinh câu hỏi sử dụng Constituency Parsing và OpenAI GPT2

2.4.4 Tạo sinh văn ban bằng OpenAI GPT-2

2.5 Tạo sinh câu hỏi có nhiễu đáp án

2.5.1 Str dụng Sentence Transformer:

2.5.2 Sử dụng T5 Transformer

2.6 Tạo dang câu hỏi điền vào chỗ trồng.

2.6.1 Giới thiệu — :

2.6.2 Tạo câu hỏi điện vào chỗ trông từ bat kỳ nội dung na

2.7 Dang câu hoi “chon từ phù hỌp) ”” cty 35

2.8 Kết luận S2 S2 TH HH2 2121 38 Chương 3 TẠO SINH CÂU HOI TỰ DONG TU VĂN BAN TIENG ANH 39

Trang 6

Chương 4 XÂY DỰNG HỆ THONG TẠO SINH CÂU HOI TỪ VĂN BẢN TIENG

ANH 50

4.1 — Giới thiệu ĂiceieeiriiererrirrrrrrrrrrrrrrrerroeeÔ0)

42 MG te VON 4.1.0 06 ỐỐ.Ố.ỐỐ 4.3 Chức năng của ứng dung

4.4 Thiết kế ứng dụng.

45 Giao điện người dùng.

4.6 Xây dung ứng dụng

4.6.1 Giao diện của ứng dụng.

4.6.2 Kiêm nghiệm đánh giá ứng dụng.

Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIÊN -.-c-:-z5cccsssccc O2

$1 i

3.2 Hướng phái triển

5.2.1 Hạn chê của luận vai

5.2.2 Hướng phát triển của luận văn -.¿ -¿¿2222+++2222+++t22EE+rezrkkeesrrrkcee 63

PHỤ LỤC

1 Kết quả tạo sinh câu hỏi tự động từ văn bản tiếng Anh : sc¿-+ 65 TÀI LIEU THAM KHẢO 2.-22222c2SS22222EEE2E29E2511222E1112221111222111127211127211 2.111 xe 70

Trang 7

DANH MỤC CÁC BANG

Bảng 2.1: Dữ liệu đáp án cho dạng câu hỏi "chọn từ phù hợp"

Bảng 4.1: Kết quả chương trình cho dang câu hỏi Following Question

Bảng 4.2: Kết quả đánh giá dựa trên độ đo BLUE

Bảng 4.3: Kết quả đánh giá dựa trên đữ liệu con người

Bảng 4.4: So sánh giữa các ứng dụng tạo sinh câu hỏi

36

56 57

58 60

Trang 8

Hình 2.6: Các bước sử dung Sense2Vec đề xử ly văn bản 21

Hình 2.7: Quá trình tạo ra đáp án sai sử dụng Sense2Vec 22

Hình 2.8: Minh họa quá trình chuyền từ nội dung gốc cho tới tao sinh câu hỏi có

nội dung sai 25 Hình 2.9: Phân tích câu “John bought a book at the bookstore yesterday.” 26 Hinh 2.10: Minh hoa su dung Constituency Parsing (AllenNLP - Demo) 29

Hình 2.11: Các bước xử lý văn bản bang Sentence Transformers 30

Hình 2.12: Các bước xác định keyphrases trong văn bản 34

Hình 3.1: Quá trình tạo sinh dạng câu hỏi “có nhiều đáp án” 40

Hình 3.2: Mô tả quá trình tìm kiếm từ quan trọng trong đoạn văn 4l

Hình 3.3: Mô tả quá trình sử dung T5 SquAD để tao sinh câu hỏi 42 Hình 3.4: Sử dụng mô hình T5 với các thông số dé tạo câu hỏi 42

Hình 3.5: Mô tả quá trình tạo sinh các đáp án sai 43

Hình 3.6: Mô tả quá trình tạo sinh đạng câu hỏi "điền vào chỗ trống" 44

Hình 3.7: Mô tả quá trình tạo sinh câu hỏi "chon từ phù hợp” 46

Hình 3.8: Cấu hình BERT để tạo sinh câu hỏi 47

Hình 3.9: Mô tả quá trình tạo sinh đáp án sai 48

Hình 3.10: Cấu hình mô hình GPT2 49

Hình 4.1: Mô phỏng quá trình xử lý của ứng dụng 51

Trang 9

Chương 1 TONG QUAN

1.1 Giới thiệu đề tai

Trong quá trình học tập và đào tạo, việc tạo sinh câu hỏi là một phần không thể thiếu đề kiểm tra việc hiểu biết và đánh giá năng lực của học sinh, sinh viên hoặc

người được kiểm tra Tuy vào mục đích sử dụng khác nhau, việc đặt câu hỏi có những

mục đích khác nhau:

- Kiểm tra kiến thức: Việc tao câu hỏi có thể giúp kiểm tra kiến thức và hiéu

biết của người đọc về một chủ để nào đó Các câu hỏi này thường yêu cầu

người đọc phải trả lời một các chính xác và chỉ tiết.

- _ Khuyến khích suy nghĩ sâu hơn: Các câu hỏi có thê được tạo ra dé khuyến

khích người đọc suy nghĩ sâu hơn về một chủ đề cụ thể Các câu hỏi này thường yêu cầu người đọc đưa ra ý kiến cá nhân hoặc phân tích các khía

cạnh khác nhau của vấn đề được đề cập tới.

- _ Thúc day thảo luận: Việc tạo ra các câu hỏi cũng có thé thúc day thảo luận

và giao tiếp giữa các cá nhân hoặc nhóm người Các câu hỏi này thường

yêu cầu các câu trả lời có tính tranh luận hoặc chứa đựng nhiều quan điểm

khác nhau.

- _ Giúp tìm kiếm thông tin: Các câu hỏi có thê giúp người đọc tìm kiếm thông

tin cụ thể về một chủ đề hoặc vấn đề nào đó Các câu hỏi này thường yêu cầu người đọc đưa ra các từ khóa hoặc chi dẫn dé tìm kiếm thông tin trên Internet hoặc các nguồn tài liệu khác.

Tuy nhiên, việc tạo câu hỏi đòi hỏi sự tốn kém về thời gian và công sức, đặc biệt là khi số lượng kiến thức vô cùng lớn và các câu hỏi cần tạo phải bám sát nội

dung được đề cập Người tạo câu hỏi cần phải có sự hiểu biết sâu rộng về các vấn đề được đề cập, ví dụ như:

- Các khái niệm cơ bản: Người tạo câu hỏi nên có hiểu biết về các khái niệm

cơ bản trong lĩnh vực mà họ đang tạo ra câu hỏi Điều này giúp họ biết được những điểm quan trọng cần đưa vào câu hỏi để kiểm tra kiến thức

của người đọc.

- Các thông tin chỉ tiết: Người tạo câu hỏi cần biết các thông tin chỉ tiết về

lĩnh vực mà họ đang tạo ra câu hỏi, bao gồm các sự kiện, chủ đề hoặc lĩnh

Trang 10

- Cac kỹ năng và ứng dụng: Người tạo câu hỏi nên hiểu rõ các kỹ năng và

ứng dụng can thiết trong lĩnh vực đó Điều này giúp họ tạo ra các câu hỏi

có tính thực tiễn và người đọc có thể hiéu được cách sử dụng kiến thức đó.

Bên cạnh những kiến thức liên quan đến chủ dé, người tạo câu hỏi cũng cần

có các kỹ năng tạo phân tích nội dung, đặt câu hỏi và phân tích câu trả lời để đảm bảo tính chính xác của câu hỏi Điều này bao gồm việc biết cách đưa ra câu hỏi rõ ràng,

tránh các câu hỏi đa nghĩa hoặc không rõ ràng, và kiểm tra câu hỏi để đảm bảo tính chính xác của nó Từ đó, luận văn thấy được rằng việc đặt câu hỏi yêu cầu rất nhiều kiến thức khác nhau Luận văn này dé cập các phương pháp tạo sinh câu hỏi từ các

nội dung sẵn có, cách phân tích đoạn văn để tìm ra được nội dung chính Sử dụng nội dung chính đó dé đặt ra các câu hỏi trong tâm, liên quan đến chủ dé của kiến thức cần

kiểm tra Tự động tạo sinh câu hỏi sử dụng các công nghệ trích xuất thông tin và xử

lý ngôn ngữ tự nhiên dé tạo ra câu hỏi từ văn bản Việc này giúp tiết kiệm thời gian

và công sức của người tạo câu hỏi, đồng thời giúp tăng tính đa dạng và sự sáng tạo

trong việc tạo ra câu hỏi.

Trong bối cảnh xu hướng sử dụng trí tuệ nhân tạo và học máy ngày càng phổ

biến, việc tự động tạo sinh câu hỏi không chỉ là một công cụ hữu ích cho giáo dục mà còn là một lĩnh vực nghiên cứu day tiềm năng trong lĩnh vực xử lý ngôn ngữ tự nhiên.

Luận văn tập trung nghiên cứu các giải pháp sử dụng các kỹ thuật xử lý thông tin và

xử lý ngôn ngữ tự nhiên để tự động tạo ra các dạng câu hỏi thường dùng trong các

bài kiểm tra, cụ thể như [1]:

+ Câu hỏi có nhiều đáp án - Multiple Choice Questions (MCQs): là

dạng câu hỏi tìm từ thích hợp trong nhiều đáp án được cho sẵn Các đáp án được cho

có thể là từ gần nghĩa, trái nghĩa nhất với đáp án đúng cho câu hỏi đó.

+ Câu hỏi đúng sai - True or False Questions (Yes/No questions): hay

còn được gọi là câu hỏi yes/no Đây là dạng câu hỏi đưa ra một vấn đề nào đó và cần

xác định tính đúng sai của nội dung dựa theo nội dung được cung cấp.

+ Điền vào chỗ trống - Fill in the Blanks: với nội dung câu hỏi này,

người được kiểm tra sẽ có một đoạn văn bản và một vài phần khiếm khuyết (chỗ

trồng) của đoạn văn đó Với mỗi phần khiếm khuyết, nhiệm vụ của người đọc là phải

lựa chọn đáp án đúng nhất để điền vào chỗ trống phù hợp với nội dung được cung

câp.

Trang 11

Trong đó, luận văn tập trung vào ứng dụng các kĩ thuật dé trích xuất thông tin, xác định các thuật toán phù hợp để đưa ra các câu hỏi chất lượng từ văn bản đầu vào Luận văn xây dựng ứng dụng tạo câu hỏi, giúp tiết kiệm thời gian và công sức, đồng

thời tăng tính đa dạng, sự sáng tạo trong việc tạo câu hỏi Nó có thể ứng dụng rộng Tãi trong nhiều lĩnh vực như giáo dục, đào tạo, đánh giá năng lực và kiểm tra sự hiểu biết kiến thức của học sinh, sinh viên, nhân viên hoặc trong các lĩnh vực khác nhau

của đời sống.

1.2 Mục tiêu của luận văn

Luận văn nghiên cứu các phương pháp tạo sinh câu hỏi tự động từ các văn bản

tiếng Anh đầu vào nhằm mục đích xây dựng một hệ thống thử nghiệm đề đánh giá khả năng đọc hiểu của người đọc Trong thời dai quá tai thông tin hiện nay, chìa khóa

để học tập thành công nằm ở việc đặt ra những câu hỏi phù hợp Da số người đọc chỉ tiếp cận thông tin ở mức độ thấp, họ sẽ không nắm rõ vấn đề khi không đặt ra các câu hỏi cho nội dung vừa đọc Nhưng việc đặt câu hỏi ở mức độ như nao, nên nhấn mạnh

vào đâu thì họ không thé xác định được hoặc khó xác định, đòi hỏi phải tốn nhiều

công sức Hơn nữa, việc người đọc tự đặt ra câu hỏi cho chính nội dung họ vừa đọc

sẽ không mang lại giá trị cao Họ cần một người có khả năng đặt câu hỏi, hiểu được nội dung và kiểm duyệt được câu trả lời của họ Vì vậy, luận văn tập trung nghiên cứu phương pháp tạo sinh câu hỏi tự động giúp họ giải quyết được vấn đề trên.

Các dạng câu hỏi được nghiên cứu để tạo sinh câu hỏi tự động bao gồm:

+ Câu hỏi có nhiều đáp án.

+ Câu hỏi đúng sai.

+ Điền vào chỗ trống.

+ Chọn từ phù hợp.

Luận văn tập trung vào các phương pháp đề tạo sinh các dang câu hỏi vừa kể trên Đây là những dạng câu hỏi phổ biết nhất giúp người đọc có thể đọc hiểu được

văn bản hoặc hỗ trợ trong giảng dạy để giáo viên, học sinh hoặc sinh viên có thể tạo

ra các câu hỏi từ một nội dung nào đó Luận văn tập trung nghiên cứu phương pháp

để xác định nội dung trọng tâm của văn bản, các từ mang ý nghĩa trọng tâm của văn bản, những quá trình để xây dựng được một câu hỏi hoàn chỉnh từ nội dung được đề

Trang 12

người đọc hiểu sâu hơn về nội dung, cải thiện khả năng phân tích, tư duy logic và sáng tạo Tuy nhiên, việc tạo ra các các đáp án sai có thé rất thủ công và tốn nhiều thời gian Các đáp án sai cần có sự liên kết chặt chẽ với nội dung và câu hỏi kiểm tra,

nó có thể gây ra sự nhiễu ở nhiều mức độ khác nhau cho người kiểm tra và tăng chất

lượng của câu hỏi Vì vậy luận văn còn tập trung nghiên cứu vào việc xây dựng các đáp án sai cho các câu hỏi trên.

Sau khi nghiên cứu được các phương pháp tạo sinh câu hỏi tự động, luận văn

tiếp tục nghiên cứu đề xây dựng một hệ thống thử nghiệm đánh giá khả năng đọc hiéu văn bản Hệ thống thử nghiệm phải phân tích được nội dung văn bản đầu vào, tạo

sinh được bốn dạng câu hỏi mà luận văn đề cập nghiên cứu Hệ thống góp phan vào

việc hỗ trợ khả năng đọc hiểu nội dung cho người sử dụng hệ thống này.

1.3 Nội dung luận văn

Luận văn tập trung nghiên cứu các phương pháp đề tạo sinh câu hỏi Chỉ tiết các bước dé tạo được một câu hỏi từ một nội dung bat ky Cach dé xác định được các

từ mang ý nghĩa trọng tâm của nội dung văn bản được đề cập Trích xuất các đặc

điểm của các dạng câu hỏi.

Như đã đề cập ở trên, các dạng câu hỏi được nghiên cứu trong luận văn này bao gồm:

- Câu hỏi có nhiều đáp án trả lời: yêu cầu người đọc chọn một hoặc nhiều

đáp án đúng trong số các lựa chọn được đưa ra.

- Dạng câu hỏi đúng hoặc sai: yêu cầu người đọc xác định tính đúng hoặc

Sai của một câu khẳng định.

- Dạng câu hỏi điền vào chỗ trống: yêu cầu người đọc điền vào các chỗ trống

trong câu dé hoàn thành câu văn.

- Dạng câu hỏi chon từ phù hợp: yêu cầu người đọc khớp các cặp từ hoặc

cụm từ ở một cột với các từ hoặc cụm từ tương ứng ở cột kia.

Đây là các dạng câu hỏi thường được sử dụng trong các bài kiểm tra trắc

nghiệm hoặc bài tập trắc nghiệm Ngoài việc xác định trọng tâm của câu hỏi, ở dạng câu hỏi trắc nghiệm, các đáp án được sử dụng phải có tính khoa học, chặt chẽ, dé làm

xao nhãng người kiểm tra nếu không có kiến thức vững.

Trang 13

[5] Sử dụng những mạng ngữ nghĩa này để có thé phân tích được các từ trong câu và tạo sinh được các đáp án sai có thé gây nhiễu cho người được kiểm tra.

Luận văn nghiên cứu sử dụng các kỹ thuật phân tích cú pháp để phân tích cấu

trúc câu, tách câu, đưa ra các thông tin cần thiết để xây dựng câu mới Các kỹ thuật được nghiên cứu như Constituency Parsing [6], OpenAI GPT-2 [7] dé tạo sinh câu hỏi tự động Nghiên cứu sử dụng một số phương pháp máy học để mã hóa nội dung,

xây dựng các mô hình vector và tính toán mức độ tương đồng giữa các câu với nhau.

Sử dụng các tập dữ liệu khác nhau dé huấn luyện mô hình máy học giúp tạo sinh câu

hỏi có chất lượng Một số mô hình có thể được sử dụng như SquAD [8],MS MARCO

[9], WikiSQL [10],

Luận văn phải xây dựng được hệ thống đánh giá được khả năng đọc hiều tiếng

Anh Giúp ứng dụng được các kiến thức vừa nghiên cứu vào đời sống thực tiễn Hệ thống phải tạo sinh được bốn dạng câu hỏi từ một đoạn văn bản tiếng Anh bất kỳ mà luận văn đã đề cập nghiên cứu Từ đó giúp người sử dụng tiết kiệm được chỉ phí về thời gian, công sức đề nghiên cứu nội dung kiến thức đó, các câu hỏi được tạo ra tăng

mức độ phong phú với nội dung đã đề cập.

Từ đó, luận văn tiền hành đánh giá với một số hệ thống đã và đang phát triển

sử dụng để tao sinh câu hoi So sánh dựa vào một số tiêu chí để thấy được hệ thống

từ luận văn xây dựng đã và đang làm được gì Để tiến hành kế hoạch cho thời gian tiếp theo đề tiếp tục phát triển và hoàn thành ứng dụng, đưa ứng dụng tới nhiều người

sử dụng hơn.

Trang 14

Chương 2 CƠ SỞ LÝ THUYET

2.1 _ Giới thiệu về bài toán tạo sinh câu héi tự động từ văn bản tiếng Anh

Bài toán tạo sinh câu hỏi tự động từ văn bản tiếng Anh là một lĩnh vực trong

xử lý ngôn ngữ tự nhiên nhằm tạo ra các câu hỏi dựa trên nội dung của văn bản Mục tiêu của bài toán này là giúp máy tính tự động tạo ra các câu hỏi về một đoạn văn bản

để phục vụ cho các mục đích giáo dục, kiểm tra kiến thức hoặc trích xuất thông tin từ

nội dung văn bản đó.

ải Xác định Xác định

Đoạn văn a oe ie _ nội dung -— -) các nội dung o4

oan văn chinh tạo câu hỏi Ị

: Tìm kiếm

¡— À\ Xae dinh pat câu hỏi âu trả lời đúng \ _ Kết quả

3 dạng câu hỏi các câu

Hình 2.2: Mô tả các bước tạo câu hỏi tự động

Luận văn thấy được việc tạo sinh câu hỏi thủ công rất tốn kém và phức tạp, bắt buộc người tạo câu hỏi phải doc thật hiểu đoạn văn đó dé xác định các nội dung chính của văn bản Từ những nội dung chính họ trích xuất được, người tạo câu hỏi

mới bắt đầu lựa chọn những nội dung họ sẽ tạo câu hỏi Sau đó họ mới đặt câu hỏi từ những nội dung họ đã lựa chọn đó Sau khi tạo được câu hỏi, họ phải suy nghĩ để cho

Trang 15

kết quả đã được tạo sinh từ hệ thống Công việc của họ trở nên nhẹ nhàng và đơn giản hơn khi sử dụng hệ thống tao sinh câu hỏi tự động.

Quá trình tạo sinh câu hỏi tự động bao gồm hai bước chính: trích xuất thông

tin và tạo câu hỏi Trong bước trích xuất thông tin, các thông tin quan trọng trong đoạn văn bản được định danh và trích xuất ra dưới dạng câu hoặc cụm từ Sau đó,

trong bước tạo câu hỏi, các câu hỏi được tạo ra dựa trên các thông tin đã được trích

xuất Các câu hỏi này có thé có nhiều dạng khác nhau như câu hỏi có nhiều đáp án đúng, câu hỏi đúng hoặc sai, câu hỏi điền từ vào chỗ trống hoặc các câu hỏi tự do

khác.

Đê làm rõ hơn mục tiêu ở trên, luận văn lây ví dụ đơn giản như sau:

Nôi dung: “The capital of France is Paris It is a beautiful city known for its architecture, culture, and history ”.

Câu hói đầu ra: “What is the capital of France?”

Dap án của câu hỏi:

A Berlin

B Paris (đáp an đúng)

C Seine

D Eiffel

Ở vi dụ trên, bằng cách sử dụng các kỹ thuật xử ly ngôn ngữ tự nhiên và các

thuật toán học máy, luận văn có thể tự động tạo ra câu hỏi từ văn bản đầu vào Cụ thể, câu hỏi được tạo ra bằng cách trích xuất thông tin quan trọng từ văn bản như tên địa điểm và loại thông tin (ở đây thông tin chính được đề cập là “capital” (thủ đô),

“France” (nước Pháp) và “Paris” (Paris là thủ đô của nước Pháp)), sau đó chuyền đổi sang dạng câu hỏi phù hợp với ngữ pháp tiếng Anh Trong ví dụ này, dạng câu hỏi được sinh ra là câu hỏi có nhiều đáp án Vì vậy bước tiếp theo tập trung tìm các từ

liên quan đến Paris, có thể là một thủ đô khác, hoặc một địa danh nồi tiếng nào đó ở Paris hoặc nước Pháp để làm đáp án gây nhiễu cho câu hỏi.

Bên cạnh các phương pháp và công nghệ như đã dé cập, dé tạo ra các câu hỏi

tự động có độ chính xác cao và đáp ứng được nhu cầu thực tế, cần có sự kết hợp giữa

Trang 16

Ngoài ra, bài toán tạo sinh câu hỏi vẫn đang gặp nhiều thách thức như độ phứctạp khác nhau của ngôn ngữ tự nhiên, sự mơ hồ trong ý nghĩa của từ, ngữ pháp, cau

trúc câu, và sự khác biệt về văn hóa giữa các nước Do đó, việc giải quyết bài toán

tạo sinh câu hỏi tự động là một thách thức lớn đòi hỏi sự cập nhật kiến thức và kỹ

năng của các chuyên gia xử lý ngôn ngữ và các nhà nghiên cứu liên quan.

Khi xây dựng ứng dụng tạo sinh câu hỏi tự động từ văn bản bất kỳ, chươngtrình này có thé giúp người dùng tăng tốc độ đọc hiểu khi đọc đoạn văn đó Ngườiđọc thường phải dành nhiều thời gian dé hiểu rõ nội dung và chắc chan rằng họ đãhiểu đúng ý của người viết đoạn văn đó Ngoài ra, ứng dụng còn giúp tăng tốc độ đọchiểu bằng cách tạo ra các câu hỏi đòi hỏi người đọc phải chú ý đến các chỉ tiết quan

trọng trong văn bản và đưa ra các câu trả lời chính xác.

Ứng dụng giúp tìm kiếm thông tin nhanh chóng khi đọc một đoạn văn bản dài

Việc tìm kiếm thông tin cần thiết là một thách thức với nhiều người Vì vậy việc sửdụng ứng dụng tạo sinh câu hỏi tự động có thể giúp tìm kiếm thông tin một cáchnhanh chóng và hiệu quả hơn bằng cách tạo ra các câu hỏi liên quan đến các nội dungquan trọng trong văn bản mà người đọc cần tìm kiếm

Ứng dụng còn giúp hỗ trợ trong giáo dục và nghiên cứu Khi tạo câu hỏi tựđộng có thể hỗ trợ trong giáo dục, bao gồm việc tạo ra các bài kiểm tra hoặc đánh giáhiệu quả học tập của học sinh/sinh viên Các câu hỏi được tạo ra có thể giúp giáo viênđánh giá được sự hiểu biết của học sinh/sinh viên về nội dung được giảng dạy Trongnghiên cứu, giúp tạo ra các câu hỏi dé thăm dò ý kiến hoặc đánh giá sự hiểu biết của

những người tham gia nghiên cứu.

2.2 Hướng tiếp cận giải bài toán

Dé giải quyết bài toán tao sinh câu hỏi tự động từ văn bản tiếng Anh, luận văn

sử dụng các thư viện và công cụ của xử lý ngôn ngữ tự nhiên để phân tích văn bảnđầu vào, bao gồm các kỹ thuật tách câu, tách từ, chuyền đôi từ loại, xác định cấu trúccâu, trích xuất thông tin quan trọng và phân tích ngữ nghĩa của các câu trong văn bảnđầu vào Khi xác định được dạng câu hỏi cần tạo, luận văn dựa trên thông tin có sẵntrong văn bản đầu vao, tùy vào nhu cầu của người sử dụng chọn loại câu hỏi cần tạonào, ví dụ như câu hỏi có nhiều đáp án, câu hỏi đúng sai, dé tiép tục xử ly

Các đáp án sai là một thuật ngữ thường được sử dụng trong lĩnh vực giáo dục

và thiết kế bài kiểm tra dé mô tả việc tạo ra các phương án sai hoặc đáp án sai chocâu hỏi hoặc bài kiểm tra Mục đích của việc tạo ra các đáp án sai là dé làm cho câuhỏi hoặc bài kiểm tra trở nên khó hơn, đồng thời giúp đánh giá đúng năng lực và hiểubiết của người học Trong một bài kiểm tra trắc nghiệm, ví dụ như TOEFL, IELTShay các bài kiểm tra tương tự, các đáp án sai là những phương án trả lời sai hoặc

Trang 17

Khi người làm bài chọn một phương án sai, điều đó cho thấy họ không hiểu nội dungđược đề cập hoặc không biết đúng câu trả lời, do đó sẽ bị trừ điểm Dé tạo ra các đáp

án sai, người thiết kế bài kiểm tra cần phải có kiến thức sâu rộng về chủ đề của câuhỏi và phải đưa ra các lựa chọn sai có thê gây nhằm lẫn cho người học

Luận văn này tập trung tìm hiểu các dang câu hỏi thường được sử dụng dé

kiểm tra mức độ hiểu biết của người được đánh giá Các phương pháp tao sinh câu

hỏi, cũng như cách để xử lý ngôn ngữ tự nhiên có thể thực hiện một cách tự động từmột nội dung văn bản bất ky dé tao dựng được câu hỏi va giúp cho kết quả tạo ra cómỗi liên hệ chặt chẽ với nội dung đầu vào.

2.3 Dang câu hỏi có nhiêu đáp án

Dạng câu hỏi có nhiều đáp án trả lời trong tiếng Anh thường được gọi là

“Multiple choice questions” hay “MCQs” Đây là dang câu hỏi trắc nghiệm mà ngườitrả lời được cung cấp một câu hỏi và một danh sách các đáp án khả di, trong đó chỉ

có một đáp án đúng (hoặc trong một số trường hợp, có nhiều đáp án đúng), tùy vào

yêu cầu của câu hỏi hoặc ý đồ của người tạo câu hỏi đó Người trả lời phải chọn đáp

Trong vi du trên, câu hỏi la “What is the capital of France?” va có bỗn đáp

án kha di (A, B, C va D) Chi có đáp án “B Paris” là chính xác với kiến thức địa lý

thực tế, vì vậy đó là đáp án đúng

Dạng câu hỏi này thường được sử dụng trong nhiều lĩnh vực khác nhau nhưgiáo dục, dao tao, kiểm tra và đánh giá kết quả học tập, định hướng nghề nghiệp vàcác cuộc thi Trong giáo dục, câu hỏi trắc nghiệp thường được sử dung dé kiểm trakiến thức và kỹ năng của học sinh hoặc sinh viên Trong đảo tạo, câu hỏi trắc nghiệm

có thé được sử dụng dé đánh giá hiệu qua của chương trình đào tạo và giúp người họcđánh giá trình độ của mình Đây là dạng câu hỏi phổ biến nhất trong các bài kiêm trabao gồm các kỳ thi tiếng Anh như TOEFL, IELTS, TOEIC, SAT, GRE, GMAT,

và trong các lớp học tiếng Anh ở các trường học hoặc trung tâm đào tạo Nó được

Trang 18

cũng có thê được sử dụng trong các bài kiêm tra định kỳ của công ty hoặc tô chức đê đánh giá hiệu quả làm việc của nhân viên.

Trong phạm vi nay, các câu hỏi được tạo ra từ đoạn văn, đoạn hội thoại hoặc

bat kỳ nội dung văn ban nào Một số phương pháp phổ biến dé tạo ra câu hỏi bao

gồm:

- M6 hình dựa trên quy tắc [12]: Phương pháp này sử dung các quy tắc ngữ

pháp và ngữ nghĩa để tạo ra các câu hỏi từ đoạn văn Một số quy tắc cơ bản

có thể tuân theo như chọn một chủ dé cụ thé trong nội dung van ban, xác

định các từ, cụm từ liên quan đến chủ đề đó ở trong văn ban Vi du: chuyén

cau khang định sang câu hỏi, tìm các dai từ nao được sử dung va chuyển

chúng thành câu hỏi,

- Mô hình dựa trên máy học [4]: Phương pháp nay sử dụng mô hình may

học, chăng hạn như mạng nơ-ron và học sâu dé tạo ra các câu hỏi Mô hình

này học từ các đữ liệu huấn luyện được gán nhãn bao gồm cặp câu hỏi trảlời và câu hỏi tương ứng Sau khi được huấn luyện, mô hình có thé tạo ra

các câu hỏi mới từ đoạn văn.

- _ Kết hợp các phương pháp trên: nhiều phương pháp tạo câu hỏi kết hợp các

quy tac ngữ pháp và ngữ nghĩa cùng với các mô hình máy học dé tạo ra các

câu hỏi từ đoạn văn.

Từ đó luận văn thấy được răng, các yếu tô quyết định trong dạng câu hỏi này

là tạo ra các đáp án sai có mối liên hệ với đáp án đúng Có thé như tìm kiếm các đồngnghĩa, từ đồng dang, từ trái nghĩa, Một sé mang ngữ nghĩa được sử dụng trong cácphương pháp tìm kiếm đáp án sai, trong luận văn này đã sử dụng các mạng ngữ nghĩa

WordNet, ConcepNet.

2.3.1 Tạo sinh đáp án sai sử dụng WordNet

WordNet [3] là một co sử dit liệu từ điển đồng nghĩa (synonym) và tương đồng

(hyponym or hypernym) của tiếng Anh, được sử dụng rộng rãi trong lĩnh vực xử lýngôn ngữ tự nhiên Trong thiết kế bài kiểm tra, WordNet có thê được sử dụng để tạo

ra các đáp án sai cho câu hỏi.

Các bước cơ bản đê tạo ra các đáp án sai sử dụng WordNet như sau:

- _ Xác định từ cần tạo đáp án sai

- Str dụng WordNet dé tìm các từ đồng nghĩa hoặc tương đồng với từ đó

- Chon một hoặc nhiều từ đồng nghĩa hoặc tương đồng dé tạo thành các

Trang 19

Nếu câu hỏi là “What is the capital of France?”, tôi có thé sử dung WordNet

để tìm các từ đồng nghĩa hoặc tương đồng với “capital” dé tạo ra các đáp án sai, như

“metropolis” hoặc “center” Tuy nhiên, khi tao các đáp án sai, cần phải dam bảorằng các phương án sai không quá dé hay quá khó, và không gây nhằm lẫn cho người

trả lời câu hỏi.

Ngoài ra, việc sử dụng WordNet dé tạo ra các đáp án sai cũng có thể được kết

hợp với các phương pháp khác, như sử dụng kiến thức chuyên môn, ngữ nghĩa, hoặc

các công cụ phân tích ngôn ngữ tự nhiên khác đề tăng tính đa dạng và khó khăn của

các câu hỏi.

Dé xác định từ cân tạo các đáp án sai trong một đoạn văn, có thê làm theo các bước sau:

- Doc và hiệu nội dung của đoạn văn: Trước khi tạo các đáp án sai, người

đọc cân hiệu rõ nội dung của đoạn văn có thê xác định các từ khóa hoặc những từ chính yêu muôn tạo ra câu hỏi.

- _ Xác định các từ khóa: Tìm các từ quan trọng, có liên quan đên chu đê của

đoạn văn Các từ này thường là những từ có tân suât xuât hiện cao và mang

ý nghĩa quan trọng trong đoạn văn.

- Tim các từ đồng nghĩa hoặc tương đồng: Sử dung các công cụ xử lý ngôn

ngữ tự nhiên hoặc các từ điển đồng nghĩa dé tìm các từ có ý nghĩa tươngđương hoặc liên quan đến từ khóa đã chọn Các từ này có thê được sử dụng

để tạo ra các đáp án sai cho câu hỏi

- Tao các câu hỏi: Dựa trên các từ khóa đã xác định và các từ đông nghĩa

hoặc tương đông đã tìm được, người đọc có thê tạo ra các câu hỏi và các

phương án trả lời, bao gôm một câu hỏi chính và một hoặc nhiêu đáp án

sal.

Lưu ý rằng việc tạo đáp án sai không chi don giản là sử dung từ đồng nghĩahoặc tương đồng, ma còn phải đảm bao rằng các đáp án sai không qua dé hoặc quakhó dé người làm bài có thé phân biệt được

Trong xử lý ngôn ngữ tự nhiên, việc đầu tiên phải phân tích đoạn văn, bao gồmphân tích các câu, từ và từ loại trong đoạn văn Điều này có thé giúp xác định các từ

quan trọng và các từ có thể được sử dụng để tạo ra các đáp án sai Tìm các từ đồng

nghĩa hoặc các từ liên quan đến từ khóa đã chọn Điều này có thé sử dụng dé tạo ra

các đáp án sai cho câu hỏi.

Trang 20

Sử dụng phương pháp phân tích ngữ nghĩa và cú pháp dé phân tích cấu trúcngữ pháp và cau trúc câu trong đoạn văn Từ đó, người đọc có thé xác định các từhoặc cấu trúc câu phù hợp để tạo ra các đáp án sai.

Đánh giá tính hợp lý của các đáp án sai: khi đã tạo ra các dap án sai cho câu

hỏi, người đọc cần đánh giá tính hợp lý của chúng Các phương án sai không nên quá

dễ hoặc quá khó dé người làm bài có thé phân biệt được Ngoài ra, các phương án saicũng không nên bị lặp lại hoặc quá giống với phương án đúng

2.3.2 Tao sinh đáp án sai sử dụng ConceptNet

ConceptNet [4] là một dự án mã nguồn mở nhằm xây dựng một cơ sở dữ liệutri thức tự động và tong hợp từ nhiều nguồn khác nhau Nó được phát triển bởi nhómOpen Mind Common Sence tại MIT ConceptNet chứa những tri thức về các mốiquan hệ ngữ nghĩa giữa các khái niệm, bao gồm từ vựng, thành ngữ, động từ, tính từ

và cụm từ Các mối quan hệ này bao gồm đồng nghĩa, trái nghĩa, liên quan đến, đồngloại, phân loại và nhiều hơn nữa

Các ứng dụng của ConceptNet bao gồm xử lý ngôn ngữ tự nhiên, truy vanthông minh và các hệ thống hỗ trợ ra quyết định dựa trên tri thức Các nhà nghiên cứu

và nhà phát triển có thể sử dụng ConceptNet đề phát triển các ứng dụng trí tuệ nhân

tạo.

Là một nguồn tri thức tông hợp về các mối quan hệ ngữ nghĩa giữa các kháiniệm, do đó nó rất hữu ích cho các ứng dụng xử lý ngôn ngữ tự nhiên VớiConceptNet, các nhà phát triển xử lý ngôn ngữ tự nhiên có thé sử dung dit liệu được

cung cấp dé phát triển các thuật toán và mô hình dé giải quyết các van đề xử lý ngôn

ngữ tự nhiên như:

- _ Xác định ý nghĩa cua từ hoặc cụm từ trong văn ban.

- Tu động phân tích cú pháp câu.

- Phan tích cảm xúc của văn bản.

- Tu động dịch văn bản sang ngôn ngữ khác.

- Hỗ trợ chatbot và hệ thống hỏi đáp

ConceptNet cũng có thé được sử dụng dé tạo ra các đáp án sai trong các bài

kiểm tra trắc nghiệm hoặc hệ thống hỏi đáp tự động Việc tạo ra các đáp án sai,

ConceptNet có thé được sử dụng dé tìm kiếm các khái niệm liên quan đến khái niệm

chính đã cho Bằng cách sử dụng các mối quan hệ ngữ nghĩa được cung cấp trong

ConceptNet như từ đồng nghĩa, trái nghĩa, đồng loại, phân loại Người dùng có thể

Trang 21

tìm ra các từ hoặc khái niệm liên quan đên từ gôc đê tao ra các phương an sai hợp ly

và gây nhằm lẫn cho người trả lời câu hỏi.

In garage Use patrol

Hình 2.3: ConceptNet có thé tạo ra các từ liên quan đến từ “Car”

Vi dụ, nếu từ gốc là “Car” (xe), ConceptNet có thé được sử dụng dé tìm kiếm

các khái niệm liên quan như “Drive” (lái xe), “Vehicle” (phương tiện giao thông),

“Tire” (lốp xe), “Travel” (du lich), “Use patrol” (sử dụng tuần tra), “In garage” (trongnhà dé xe) dé tao ra các phương an sai như “shift” (đôi chiều), “get direction” (hướng)khi từ “car” có ý nghĩa liên quan đến từ “drive”, hay “mobility” khi từ “car” có ýnghĩa liên quan đến “vehicle”, mà có thé gây nhằm lẫn với đáp án đúng như “car”,

Với sự hỗ trợ từ ConceptNet, người dùng có thé dé dang tạo ra các phương ánsai hợp lý và phù hợp dé tăng tính thử thách và khó khăn của các bài kiểm tra tracnghiệm hoặc hệ thong hỏi đáp tự động

2.3.3 So sánh WordNet và ConceptNet

Ca WordNet [3] và ConceptNet [4] đều có thé được sử dụng dé sinh ra các đáp

an sai trong việc tao câu hỏi trắc nghiệm hoặc bải kiểm tra Khi sử dụng ConceptNet,việc sinh ra các đáp án sai có thể sử dụng các mối quan hệ ngữ nghĩa phức tạp hơn

dé tao ra các từ hay cum tir có liên quan đến từ gốc Vi dụ, nếu từ gốc là “Cat” (con

mẻo), luận văn có thể sử dụng mối quan hệ “đồng loại” dé tạo ra các đáp án sai như

“Dog” (con chó), “Tiger” (con hồ), “Panther” (con báo), Còn muốn mối quan hệ

“trái nghĩa” dé tạo ra các từ đối lập, ta tìm được một số các từ như “Bird” (con chim),

“Mouse” (con chuột), hay “Fish” (con cá).

Trang 22

Bird Dog

antonym

-Mouse Tiger

Fish Panther

Hình 2.4: Vi dụ về việc liên hệ từ đồng nghĩa, từ trái nghĩa khi sử dung WordNet

Khi sử dụng WordNet đề sinh ra các đáp án sai, luận văn sử dụng các từ đồngnghĩa và trái nghĩa, cũng như các mối quan hệ liên quan đến từ để tạo ra các đáp án

sai Ví dụ, nếu từ gốc là “apple” (táo), khi sử dụng WordNet, ta tìm được các từ đồng

nghĩa như sau: “fruit” (trái cây), “orchard” (vườn cây), hoặc sử dụng các từ trái nghĩa,

ta tìm được một số kết quả như sau: “orange” (trái cam), “pear” (trái lê), “banana”(trái chuối) để tạo ra các đáp án sai cho câu hỏi

Tuy nhiên, ConceptNet có thể được ưu tiên hơn trong việc sinh ra các đáp ánsai vì nó bao gồm nhiều mối quan hệ ngữ nghĩa phức tạp hơn so với WordNet, do đókhả năng tạo ra các đáp án sai của WordNet trở nên đa dang và phong phú hơn Déminh họa cách sử dụng ConceptNet dùng để tạo ra các đáp án sai từ một đoạn văntiếng Anh, luận văn có thể sử dụng ví dụ sau đây:

,

“Peter is a software engineer who loves to code in Python.’

Trong vi dụ nay, từ gốc mà luận văn muốn tạo ra các đáp án sai là từ “Python”,

Luận văn đã sử dụng ConceptNet dé tìm các từ hay cụm từ liên quan đến “Python”

được đặt trong ngữ cảnh của nội dung câu ở trên Trong đó từ “Python” được hiểu là

một ngôn ngữ lập trình bậc cao ở thời đại hiện nay Vì vậy, ta có thể sử dụng mốiquan hệ “trái nghĩa” để tạo ra các từ trái nghĩa với “Python”, như “Tiger”, “Bird”,

“Fish”, hoặc sử dụng mối quan hệ “đồng loại” để tạo ra các từ đồng loại như

Trang 23

Java Anaconda

antonym synonym:

CH y! ynonymy Boa

Cobra Passcal

Hình 2.5: Ví dụ về việc liên hệ từ đồng nghĩa, từ trái nghĩa khi sử dụng ConceptNet

Từ những vi dụ trên, luận văn thay rằng ConceptNet được thiết kế dé giúp máy

tính có thé hiểu và sử dụng ngôn ngữ tự nhiên một cách tự nhiên hơn, được sử dụng

dé tao ra các đáp án sai đa dạng và phong phú từ một từ gốc, giúp cho quá trình tạocâu hỏi trắc nghiệm hoặc bài kiểm tra trở nên dé dàng và đa dạng

2.3.4 Tạo sinh đáp án sai sử dụng Sense2Vec

Sense2Vec [5] được phát triển bởi OpenAI, đây là phương pháp sử dụng phân

tích vectơ ngữ nghĩa để đại diện cho các từ trong một không gian nhiều chiều, giúp

cho việc xử lý ngôn ngữ tự nhiên dễ dàng hơn Sense2Vec sử dụng mô hình vector

đại diện cho từ, trong đó mỗi từ được biển diễn dưới dạng một vectơ số Các từ có ýnghĩa tương đồng có các vectơ tương tự nhau trong không gian vector Sense2Veccải tiến các phương pháp biên diễn từ bằng các tận dụng thông tin về các từ đồng

nghĩa và cách sử dụng các từ.

Cụ thé, thuật toán này sử dụng một số mô hình cấu trúc dữ liệu hiệu qua délưu trữ thông tin từ vựng, giúp cho việc truy xuất các từ đồng nghĩa và cách sử dụng

từ trở nên nhanh chóng và hiệu quả hơn Công cụ này đã được áp dụng trong nhiều

ứng dụng như chatbot, phân tích ngôn ngữ tự nhiên và dịch thuật Sense2Vec sử dụng

một mô hình học máy để tự động tạo dữ liệu từ đoạn văn Quá tình này được thựchiện băng cách đưa đoạn văn vào một mô hình ngôn ngữ để phân tích và trích xuấtthông tin về các từ trong đoạn văn đó

Quá trình này gôm các bước sau:

Tạo các

từ đại diện (word senses)

Biểu diễn

Tiền xử lý từ vựng

Hình 2.6: Các bước sử dụng Sense2Vec đề xử lý văn bản

Trang 24

1 Tiền xử ly: đoạn văn được tách thành các câu, các từ được chuẩn hóa(ví dụ: đưa về dạng chính tả đúng) và loại bỏ các từ không quan trọng (ví dụ:

giới từ, liên từ, từ dừng).

2 Biểu diễn từ vựng: mỗi từ được biển diễn dưới dạng một vector trongkhông gian nhiều chiều Vector này có thé được tính toán bằng cách sử dụng

một mô hình như Word2Vec hoặc GloVe.

3 Tạo các dai diện từ (word senses): Với mỗi từ, Sense2Vec tạo ra

nhiều đại diện từ (word senses) dé đại diện cho các ý nghĩa khác nhau của từ

đó Vi dụ: từ “Apple” có thé có các đại diện từ “trái táo”, nhưng cũng có thé

đại diện cho công ty Apple,

4 Xây dựng cầu trúc dit liệu: Sense2Vec sử dụng một cấu trúc dữ liệu

đặc biệt (sử dung bang băm va cây phân cap) dé lưu trữ các đại điện từ của các

từ trong đoạn văn bản Cau trúc này giúp cho việc truy xuất các từ và đại điện

từ của chúng trở nên nhanh chóng và hiệu quả hơn.

Kết quả của quá trình này là một bộ từ vựng với các đại diện của các từ, được

lưu trữ trong cấu trúc dữ liệu của Sense2Vec Bộ từ vựng này có thể được sử dụng dé

xử ly ngôn ngữ tự nhiên trong nhiều ứng dụng khác nhau Quá trình tạo ra các đáp án

sai từ Sense2Vec có thé được mô tả như sau:

Tìm kiếm

các từ

tương tự

Tạo ra các đáp án

sai

Phân tích đoạn văn

Tạo các từ đại diện

1 Phân tích đoạn văn: đoạn văn được phân tích để loại bỏ các lỗi sai

về cú pháp, tách đoạn văn thành các câu riêng biệt đề tiến hành tiếp tục xử lý

2 Tạo các đại điện từ: với mỗi câu trong đoạn văn, tiép tục tìm các từ đại điện cho mỗi câu trong đoạn văn đó, Sense2Vec sử dụng các đại diện từ

này dé đại diện cho các ý nghĩa khác nhau cua từ đó.

3 Tìm kiêm các từ tương tu: VỚI mỗi từ trong đoạn văn, Sense2Vec tìm

kiêm các từ có ý nghĩa tương tự trong bộ từ vựng Các từ này được sử dụng đê tạo ra các đáp án sai cho các câu hỏi trong đoạn văn.

Trang 25

4 Tạo các đáp án sai cho các câu hỏi: các từ tương tự được sử dụng

để tạo ra các đáp án sai cho các câu hỏi trong đoạn văn Các đáp án sai nàyđược tạo ra bằng cách thay thế các từ trong câu hỏi băng các từ tương tự đượctìm thấy trong bộ từ vựng

Kết quả của quá trình này là một danh sách các đáp án sai được tạo ra tự động

cho các câu hỏi trong đoạn văn Các đáp án sai này có thé được sử dụng dé tạo ra các

bài kiểm tra đa dạng và phong phú hơn, giúp đánh giá mức độ hiểu biết của người

học một cách chính xác và đầy đủ hơn Ví dụ sau đây minh họa rõ nét về việc sử dụngSense2Vec dé tạo ra các đáp án sai cho câu hỏi trong đoạn văn:

“To become a_ successful scientist, you need perseverance,

curiosity, and problem-solving skills You also need a solid knowledge in

the field you want to research.

(Dé trở thành một nhà khoa học thành dat, ban cần có sự kiên tri, tò

mò và khả năng giải quyết van dé Bạn cũng cân có kiến thức vững vàng

trong lĩnh vực mà bạn muốn nghiên cứu.).”

Dé tạo các đáp án sai cho câu hỏi "What are the qualities needed to become asuccessful scientist? (Những phẩm chất cần có đề trở thành một nhà khoa học thành

dat là g2) ”, luận văn thực hiện các bước sau:

1 Phân tích đoạn văn: đoạn văn được phân tích thành hai câu và các từ

trong đoạn văn được tách ra.

2 Tạo các đại diện từ: sử dụng Sense2Vec để tạo các đại diện từ cho

các từ trong đoạn van Ví dụ, các đại diện từ cho từ “scientist” có thể bao gồm

“physicists”, “biologist”,

3 Tìm kiếm các từ tương tự: sử dụng Sense2Vec dé tìm kiếm các từ

tương tự cho các từ trong đoạn văn Ví dụ các từ tương tự cho từ

«

persistenf ”,

“hardworking”, Ta có thể tiếp tục tìm kiếm tương tự cho các đại diện từ

khác tìm được từ đoạn văn trên.

consistently”,

4 Tạo các đáp án sai cho câu hoi: sử dung các từ tương tự đã tìm được

để tạo ra các đáp án sai cho câu hỏi Ví dụ: các đáp án sai cho câu hỏi "What

are the qualities needed to become a successful scientist?” có thé bao gồm

“persistence”, “curiosity”, “thinking ability”

Từ đó, luận văn xây dung được câu hỏi hoàn chỉnh như sau:

Trang 26

What are the qualities needed to become a successful scientist?

A Persistence

B Curiosity

C Perseverance

D Thinking ability

Dap án dung cho câu hoi trên là dap an C Perseverance

Như vậy, luận văn đã tạo ra các đáp án sai cho câu hỏi trên bang cách sử dung

Sense2Vec Các đáp án sai này giúp cho ngân hàng câu hỏi trở nên phong phú và đa

dang hơn, các bài kiểm tra trở nên đa dang hơn, giúp đánh giá mức độ hiéu biết củangười được kiểm tra một các chính xác và đầy đủ hơn

2.4 Cau hỏi đúng hoặc sai

2.4.1 Giới thiệu

Dạng câu hỏi đúng hoặc sai (True or False) trong tiếng Anh là dạng câu hỏi

mà tạo ra một tuyên bố và yêu cầu người kiểm tra xác định xem câu đó là đúng (true)

hay sai (false) dựa trên thông tin được cung cấp trong một đoạn văn nhất định Dạng

câu hỏi này thường được sử dụng dé kiểm tra kiến thức và khả năng suy luận củangười kiểm tra

Vi dụ: Câu hỏi gốc: “Berlin is the capital of England.” (True or False)

Bang vốn kiến thức tích lũy được, luận văn xác định phát biểu ở trên là SAL

Từ đó kết quả của câu hỏi trên là:

> Câu trả lời: False (Câu trả lời chính xác: “Berlin is the capital of

Germany ”).

Các câu hỏi đúng hoặc sai thường được sử dụng dé kiểm tra các kiến thức cơbản, như định nghĩa thuật ngữ, sự kiện lịch sử hoặc tính chất khoa học của vật liệu.Việc tạo ra các câu hỏi đúng hoặc sai cũng giúp cho người tạo câu hỏi có thé kiểm

tra tính đầy đủ và chính xác của các kiến thức được học Tuy nhiên, cần lưu ý rằng

các câu hỏi đúng hoặc sai có thé bị mất đi tính khách quan nếu chúng không được

xác định đúng hoặc sai hoàn toàn từ nội dung Vì vậy, khi tạo ra các câu hỏi đúng

hoặc sai, cần đảm bảo rằng câu tuyên bố được xác định rõ ràng và không dẫn đến cáchiểu nhằm gây tranh cãi

Dé tao ra các câu hỏi đúng hoặc sai hiệu quả, luận văn đã cân nhac những quy

Trang 27

- _ Sử dụng các câu tuyên bố ngắn gon và dễ hiểu.

- Dam bảo răng câu hỏi đưa ra phản ánh chính xác ý nghĩa của câu tuyên bô.

- _ Tránh sử dụng các từ chính trị hoặc độc đáo dé tránh ảnh hưởng đến tính

khách quan của câu hỏi.

- Dam bảo răng các câu hỏi đúng hoặc sai đưa ra là cân băng, tức là sô lượng

câu hỏi đúng hoặc sai trong một đợt kiêm tra luôn ở mức cân băng nhau.

2.4.2 Constituency Parsing và OpenAI GPT2

Kết hợp sử dung Constituency Parsing [6] và OpenAI GPT-2 [7] là mộtphương pháp tạo sinh câu hỏi tự động được áp dụng dé tạo ra các câu hỏi đúng hoặcsai nhằm gây nhầm lẫn cho các đối tượng mục tiêu Constituency Parsing là một kỹthuật phân tích ngữ pháp được sử dụng dé phân tích cấu trúc câu, tách câu thành cácthành phần cú pháp và đưa ra những thông tin cần thiết như câu chủ đề, động từ, tânngữ, Khi áp dụng kỹ thuật này có thê tạo ra một cây phân tích cú pháp, cung cấpcác thông tin về cấu trúc câu

Câu gốc Sử dụng Tách câu Sử dụng Câu sai

dựa trên cấu trúc cú pháp của câu ban đầu Với khả năng sinh văn bản tự động và tự

nhiên của mình, GPT-2 có thể tạo ra các câu hỏi có nội dung sai hoặc nhằm lẫn với

độ chính xác và độ trôi chảy tốt

Phương pháp này được áp dụng trong các bài kiểm tra, trò chơi trí tuệ hoặccác ứng dụng thực tế khác, nơi mà việc tạo sinh các câu hỏi có nội dung sai hoặc gâynhằm lẫn có thé giúp nâng cao tính thử thách và tính hấp dẫn của hoạt động Tuy

nhiên, cần lưu ý rằng các câu hỏi được tạo ra bằng phương pháp này không phải lúc

nào cũng là chính xác, do đó cần được kiểm tra và đánh giá nội dung được tạo ra từphương pháp này trước khi sử dụng trong thực tế vì có một số trường hợp các phát

biểu được tạo ra gây ảnh hưởng tới hoạt động chính trị, tôn giáo, tín ngưỡng

Trang 28

2.4.2.1 Consitituency Parsing

Consitituency Parsing [6] là quá trình phân tích câu dé xác định cấu trúc câu

dựa trên các phân cấp cú pháp Nói cách khác, quá trình này giúp phân tách câu thành

các thành phần cú pháp, ví dụ như danh từ, động từ, tính từ, chủ ngữ, vị ngữ, đối

tượng, mệnh đề và các mối quan hệ cú pháp giữa chúng Đề thực hiện Constituency

Parsing, luận văn có thể sử dụng các thuật toán như Recursive Descent Parsing,

Top-Down Parsing, Bottom-Up Parsing, Shift-Reduce Parsing, và Chart Parsing.

Các ứng dung của Constituency Parsing có thé bao gồm:

- _ Xác định cau trúc của câu dé giúp cho việc phân tích ngữ nghĩa, dịch thuật

và tự động tóm tắt

- H6 trợ trong việc dự đoán từ khóa trong bai viét dé giúp cho các công cụ

tìm kiêm hiệu rõ hơn vê ý d6 của người dung.

- Hỗ trợ cho các ứng dụng xử lý ngôn ngữ tự nhiên như Chatbot, tự động trả

lời câu hỏi và phân tích ý kiên.

Vị dụ: Cho câu sau đây: “John bought a book at the bookstore yesterday ”.

Quá trình Constituency Parsing đã phân tách câu này thành các thành

Trang 29

S: câu chính NP: cụm danh từ

NNP: danh từ riêng

VP: cụm động từ VBD: động từ quá khứ

DT: mạo từ xác định NN: danh từ

PP: cụm giới từ IN: giới từ

Từ phân tích trên, luận văn biết được các thông tin cụ thể như sau:

Chủ ngữ (NP): John

VỊ ngữ (VP): bought a book at the bookstore yesterday.

Tân ngữ (NP): a book at the bookstore 2.4.2.2 OpenAI GPT-2

OpenAI GPT-2 (Generative Pre-trained Transformer 2) [7] la một mô hình

ngôn ngữ tự động học sâu dựa trên kiến trúc Transformer Phuong pháp này đượcphát triển bởi OpenAI và được giới thiệu vào năm 2019 Mô hình GPT-2 được đào

tạo trên một lượng lớn dữ liệu văn bản trên Internet dé tự động hóa việc viết văn bản

một cách tự nhiên, từ đó tạo ra các đoạn văn mô tả, câu chuyện và thậm chí là mở đầucho các bài báo GPT-2 có hơn 1,5 tỉ tham số, là một trong những mô hình ngôn ngữlớn nhất và tốt nhất hiện nay Nó có thể sinh ra những đoạn văn tự nhiên có cau trúc

và ngữ pháp chính xác, đôi khi đầy đủ ý nghĩa và logic, và thậm chí có thé đối đápvới con người một cách khá tự nhiên GPT-2 có nhiều ứng dụng trong các lĩnh vực

như:

- Tạo văn bản tự động: GPT-2 có thể tự động tạo ra các đoạn văn có thể đáp

ứng nhu cầu của nhiều ứng dụng, từ tự động tóm tắt văn bản, tạo nội dung cho website,

cho đến các đoạn truyện ngắn hoặc đoạn hội thoại giả tưởng

- Phân loại văn bản: GPT-2 có thé được sử dụng dé phân loại các đoạn văn

bản theo chủ đề hoặc tinh thần của chúng Điều này có thể hỗ trợ cho các ứng dụng

xử lý ngôn ngữ tự nhiên như chatbot, tự động trả lời câu hỏi và phân tích ý kiến

- Mô hình hóa ngôn ngữ: GPT-2 có thê giúp xây dựng các mô hình học sâu

cho các ứng dụng xử lý ngôn ngữ tự nhiên, bao gồm việc dịch thuật máy, tổng hợp

giọng nói, và chatbot.

Trang 30

Một điều đáng lưu ý là GPT-2 đã gặp phải nhiều tranh cãi về độ tin cậy của

nó, vì nó có thê tạo ra các đoạn văn tự nhiên nhưng có thể là sai lầm hoặc chứa thông

tin sai lệch.

2.4.3 Tạo sinh câu hỏi sử dung Constituency Parsing và OpenAI GPT2

Dé tạo câu hỏi đúng hoặc sai từ Constituency Parsing [6] và OpenAI GPT-2

[7], luận văn đã thực hiện các bước như sau:

1 Ap dung Constituency Parsing đê phân tích cú pháp cho một câu văn ban

dau vào Kết quả của quá trình này trả về tập hợp các câu văn bản, bao gôm câu trúc,

phân câp và môi quan hệ giữa các thành phân câu.

2 Sử dụng kết quả phân tích cú pháp dé xác định các thành phan của câu,chăng hạn như chủ ngữ (subject), động từ (verb), tân ngữ (object) và các thông tin

liên quan khác ảnh hưởng tới nội dung của câu đó.

3 Sử dung OpenAI GPT-2 dé tạo ra tập hợp các câu hỏi hoặc tập hợp các câu

khẳng định, phù hợp với nội dung của câu văn bản ban đầu Câu hỏi hoặc câu khang

định này được thiết kế dé có thé trả lời bang DUNG hoặc SAI

4 Sử dụng các thông tin về các thành phần của câu và câu hỏi được tạo ra bởi

OpenAI GPT-2 dé xác định câu trả lời có phải là DUNG hoặc SAI

Ví dụ: Đầu vào: “The cat chased the mouse and caught it”

Kết quả phân tích cú pháp cho câu trên như sau [13]:

(ROOT (S

(NP (DT The) (NN cat))

(VP

(VP (VBD chased) (NP (DT the) (NN mouse)))

(CC and) (VP (VBD caught) (NP (PRP it)))))

Thanh phan trong câu bao gồm:

Trang 31

+ Động từ: chased, caught.

+ Tân ngữ: the mouse, it.

Câu hỏi được tạo ra bởi OpenAI GPT-2: “Do the cat catch the

mouse?”

> Câu tra lời: True (đúng).

The cat chased the mouse and caught it

Hình 2.10: Minh họa sử dụng Constituency Parsing (AllenNLP - Demo)

2.4.4 Tạo sinh văn bản bằng OpenAI GPT-2

Khi sử dụng OpenAI GPT-2 [7] dé tạo ra văn bản, luận văn đã sử dụng các thư

viện hoặc công cụ như: OpenAI API, Hugging Face Transformers và TensorFlow.

Các bộ công cụ này được đóng gói dưới dạng các thư viện sử dụng trên ngôn ngữ

Python, vì vậy chỉ cần cài đặt và cau hình các thông số phù hợp theo yêu cầu để tạođược kết quả như mục đích sử dụng Luận văn minh họa việc sử dụng thư việnHugging Face Transformers dé tạo ra một đoạn văn bản ngẫu nhiên như sau:

Tao văn bản mới bat dau băng câu: “The quick brown ƒox ”.

Kết quả có thé là: “The quick brown fox jumps over the lazy dog The dog

barks loudly as the fox disappears into the distance The sun begins to set, casting a

warm orange glow over the landscape.”’

Trong vi dụ trên, luận văn đã sử dung kết hop mô hình GPT-2 va Hugging

Face Transformers để tạo ra một đoạn văn bản mới bắt đầu bang cau “The quick

brown fox” Các tham sô max_length va num_return_sequences ở trong mô hình

Trang 32

lượng đoạn văn bản tối đa được tạo ra Kết quả ở trên là kết qua đầu tiên mà mô hìnhGPT-2 đưa ra với độ tin cậy cao nhất.

2.5 Tao sinh câu hỏi có nhiêu đáp án

2.5.1 Sử dụng Sentence Transformers

Sentence Transformers [14] là một phương pháp xây dựng mô hình máy học

được sử dụng dé mã hóa các câu hỏi và văn bản thành các vector có số chiều cao hơn

Điều này cho phép so sánh và tính toán độ tương đồng giữa các câu hoặc văn bản

dưới dạng các phép tính vectơ Để tạo ra các vectơ mã hóa câu, SentenceTransformers sử dụng một mô hình mạng nơ-ron sâu được huấn luyện trên các ví dụ

dự đoán đoạn văn tiếp theo (next sentence prediction) hoặc tương tự như văn bản trên

các bộ dữ liệu hơn như Wikipedia, Reddit hoặc BookCorpus.

Các mô hình Sentence Transformers đang được sử dụng rộng rãi cho nhiều

nhiệm vụ liên quan đến xử lý ngôn ngữ tự nhiên, bao gồm phân loại văn bản, phânđoạn văn bản, trích xuất thông tin, tom tat van ban va dich may Cac mô hình này cóthê được sử dụng đề xây dựng hệ thống hỏi đáp tự động, tìm kiếm thông tin và xử lý

ngôn ngữ tự nhiên trong các ứng dụng thực tế như chatbot, trợ lý ảo và phân tích cảm

XÚC.

Dé tạo ra các đáp án sai cho một câu hỏi dựa trên một đoạn văn bang Sentence

Transformers, luận văn đã thực hiện các bước sau:

Tà : Chọn câu hỏi

Phân tích Biểu diễn Tính toán có độ Tạo ra các

đoạn văn vector độ tương đồng đáp án sai

cho các câu tương đồng cao nhất

Hình 2.11: Các bước xử lý văn bản bằng Sentence Transformers

1 Phân tích cú pháp đoạn văn: Xử lý loại bỏ các lỗi củ pháp trong đoạn văn

bản, tach câu và từ trong đoạn văn sử dụng Spacy hoặc NLTK.

2 Tạo biêu diện vector cho các câu: sử dung mô hình Sentences Transformers

được huân luyện trên bộ đữ liệu lớn đê tạo ra biên diễn vector cho các câu.

3 Tính toán độ tương đồng: sử dụng độ do cosine similarity dé tính toán độ

tương đồng giữa câu hỏi và các câu trong đoạn văn

4 Chọn các câu hỏi có độ tương đồng cao nhát: chọn ra các câu trong đoạn

Trang 33

5 Tạo ra các đáp án sai: dựa trên các câu được chọn trong bước trước, sử

dụng các phương pháp sinh di liệu như thay đổi từ khóa, thay đối thứ tự các từ, thêmhoặc bớt từ dé tao ra các đáp an sai

Vi du: Cho doan van sau day:

“Machine learning is a subfield of artificial intelligence that focuses on building systems that can learn from and make decisions based on data It is used in

a wide variety of applications such as image recognition, natural language

processing, and autonomous vehicles.” [15]

Va cau hoi: “What is machine learning?”

Qua việc sử dụng phương pháp Sentence Transformers dé tao ra các phương

án sai, ta có kết quả như sau:

- Câu được chon: “Machine learning is a subfield of artificial intelligence that

focuses on building systems that can learn from and make decisions based on data.” 2.5.2 Sử dụng T5 Transformer

T5 Transformer [16] là một kiến trúc mô hình học sâu được phát triển bởiGoogle AI Language T§ viết tắt của Text-to-Text Transfer Transformer, là một môhình dựa trên Transformer cho các nhiệm vụ chuyên đôi văn bản T5 được huấn luyệntrên một tập dữ liệu lớn và đa dang gồm các nhiệm vụ văn bản khác nhau Khác vớicác mô hình dựa trên Transformer khác, T5 được huấn luyện cho tất cả các loại nhiệm

vụ văn bản trong một kiến trúc duy nhất T5 có thể được sử dụng cho nhiều tác vụvăn bản khác nhau, bao gồm:

- Tạo ra câu mô tả sản phâm, tựa đê, mô tả tông quan cho các sản phâm trên

trang web thương mại điện tử.

- Tạo ra câu hỏi va dap án cho bai kiêm tra trac nghiệm hoặc tạo ra câu hỏi va đáp án cho các bài tập lập trình.

- Chuyên đổi ngôn ngữ tự nhiên sang ngôn ngữ khác như dịch văn bản hoặc

phát âm từ văn bản.

- Tao ra tiêu đê cho các bài báo hoặc tóm tat ngăn gon cho các bài báo dai.

- Tạo ra các bình luận tự động cho các bai việt trên mạng xã hội hoặc các bình

luận sản phâm trên các trang web thương mại điện tử.

Trang 34

Có thê sử dụng kết hợp với một số công cụ và thư viện như Hugging Face

Transformers đề sử dụng T5 Transformer Đề huấn luyện mô hình tạo câu hỏi sử dụng

T5 Transformer, luận văn đã thực hiện theo các bước sau:

1 Chuẩn bị một tap dit liệu các cặp câu gồm câu nguồn và câu hỏi tương ứng

Có thể sử dụng các tập dữ liệu câu hỏi — câu trả lời có sẵn như SquAD hoặc tự tạo

tập dữ liệu riêng.

2 Tiền xử lý đữ liệu bằng cách mã hóa các câu thành các số và chuỗi mã thông

báo (token) được đưa vào mô hình T5.

3 Xây dựng một mô hình T5 tranformer và huấn luyện mô hình trên tập dữliệu đã chuẩn bị

4 Đánh giá mô hình bằng các phương pháp đánh giá chuân như độ chính xác

và độ lỗi Nếu kết quả đạt được không tốt, điều chính lại các thông số của mô hình vàhuấn luyện lại

5 Sử dụng mô hình huân luyện đê tạo câu hỏi cho các câu đâu vào mới.

Các tập dữ liệu mà luận văn đã tiến hành thử nghiệm dé huấn luyện mô hìnhtạo câu hỏi bao gồm:

1 SQUAD (Stanford Question Answering Dataset) [8]: đây là tập đữ liệu nỗitiếng trong lĩnh vực tạo câu hỏi và trả lời, được sử dụng trong nhiều nghiên cứu và

dé huấn luyện mô hình tạo câu hỏi — trả lời Tập dữ liệu này bao gồm các câu hỏi và

câu trả lời tương ứng, được rút ra từ các đoạn văn tiếng Anh Trong luận văn này đã

sử dụng phiên bản SQuAD 2.0.

2 MS MARCO (Microsoft Machine Reading Comprehension) [9]: day là một

tập dữ liệu lớn về tìm kiếm thông tin, bao gồm các câu hỏi tiếng Anh và các câu trả

lời tương ứng được đánh giá bởi con người, được rút ra từ các trang web thực tế

3 WikiSOL [10]: tập dữ liệu này chứa các câu hỏi liên quan đến cơ sử dữ liệuSQL, được rút ra từ các bài viết trên Wikipedia

Dé minh hoa việc sử dụng T5 Transformer huân luyện một mô hình tao câu hỏi, luận văn đã sử dụng ví dụ như sau:

Gia sử luận văn đã có một tap dữ liệu gôm các câu trả lời vê lịch sử thê giới,

và muôn huân luyện một mô hình đê tạo ra câu hỏi dựa trên các câu trả lời này Đầu tiên, cân chuân bị dữ liệu băng cách chuyên đôi các câu trả lời thành cặp câu “câu hỏi

Trang 35

Câu hoi: “When did the French Revolution begin and how long did it last?” Câu trả lời: “The French Revolution began in 1789 and lasted for a decade.”’

Sau khi có được các cặp câu hỏi — câu trả lời, tiến hành tiền xử ly dữ liệu bằngcách áp dụng các kỹ thuật như chuẩn hóa dữ liệu, loại bỏ các kí tự đặc biệt và từ dừng(stopwords), và mã hóa dữ liệu thành dạng SỐ Tiếp theo, tạo ra một mô hình T5Transformer và huấn luyện nó trên tập đữ liệu đã chuẩn bị Quá trình huấn luyện cóthé sử dụng các kỹ thuật như tăng cường dit liệu (data augmentation), kiểm tra và

điều chỉnh các siêu tham số (hyperparrameters), và sử dụng các kỹ thuật giảm nhiễu

với dữ liệu huấn luyện (overfitting)

Sau khi hoàn thành quá trình huấn luyện, luận văn sử dụng mô hình này dé tạo

ra các câu hỏi mới dựa trên các câu trả lời Ví dụ, nếu cung cấp cho mô hình câu trảlời “The American Civil War lasted from 1861 to 1865”, mô hình có thể tạo ra câu

hỏi như sau:

“When did the American Civil War start and end 2”.

“How long did the American Civil War last?”’.

Điều này cho thay răng T5 Transformer là một công cụ hữu ich dé huấn luyện

các mô hình tạo câu hỏi tự động, đặc biệt là khi sử dụng với các tập dữ liệu lớn và đa dạng.

2.6 Tạo dạng câu hỏi điền vào chỗ trống

2.6.1 Giới thiệu

Dang câu hỏi điền vào chỗ trong hay Fill in the Blanks (hay Cloze Test) là

dạng câu hỏi yêu cầu người trả lời điền vào các chỗ trống trong đoạn văn hoặc đoạn

nghe Các chỗ trống thường là các từ, cụm từ hoặc câu bị thiếu trong đoạn văn hoặc

đoạn nghe Người trả lời phải đọc hoặc nghe và điền từ/cụm từ/câu phù hợp vào các

chỗ trống đề hoàn thành bài kiểm tra Dạng câu hỏi này được sử dụng đề kiêm tra khả

năng ngôn ngữ và kiến thức của người trả lời về ngữ pháp, từ vựng hoặc cấu trúc câu

Nó cũng giúp người học tiếng Anh rèn luyện khả năng đọc, nghe hiểu, và giúp caithiện kỹ năng viết và nói của họ

Vi dụ: Doan văn sau đây có một số chỗ trống, hãy điền từ/cụm từ/câu thích

hợp vào chỗ trống dé hoàn thành đoạn văn

John is very busy person He works atq_ (l)_— during the day and

goes to school at night In his free time, he likes to play _(2) and read

Trang 36

(3) He also enjoys watching_ (4) — andgoingto_ (53) with his

friends John is avery (6)_— person and he never gets bored.

Trong đoạn van trên, người tra lời phải điền từ/cụm từ/ câu phù hop vào cácchỗ trống dé hoàn thành đoạn văn Ví dụ, chỗ trống số 1 có thé được điền bằng các

từ “company” hoặc “factory”, chỗ trống số 2 có thể được điền bằng các từ “sports”

hoặc “games”,

Dang câu hỏi này thường được sử dung trong các bài kiểm tra tiếng Anh, baogồm các kỳ thi như TOEFL, IELTS, TOEIC và trong các tai liệu tiếng Anh

2.6.2 Tạo câu hỏi điền vào chỗ trống từ bat kỳ nội dung nào

Xác định cụm từ chính (keyphrases) là tập hợp các từ hoặc thuật ngữ được sắp

xếp theo thứ tự đúng để mô tả một chủ đề hoặc nội dung cụ thể Trong tối ưu hóa

công cụ tìm kiếm (SEO), keyphrases được sử dụng dé giúp các trang web xếp hạng

tốt hơn trên kết quả tìm kiếm của các công cụ tìm kiếm, bằng cách giúp họ tối ưu hóa

nội dung trang web của mình dé phù hợp với từ khóa hoặc cụm từ mà người dùng tìmkiếm Keyphrases cũng được sử dụng trong quảng cáo trực tuyến để mục tiêu kháchhàng tiềm năng và tăng tỷ lệ chuyền đôi

Các bước dé xác định keyphrases trong văn bản xử lý ngôn ngữ tự nhiên được

thực hiện như sau:

Loại bỏ các từ Phân tích từ Chức năng Phân tích Trích xuất

Hình 2.12: Các bước xác định keyphrases trong văn bản

1 Tach từ (tokenization): chuyên đôi văn bản thành danh sách các từ riêng lẻ

dé dé dàng xử lý

6699 66

a

2 Loại bỏ stopword: các từ đừng (stopword) là các từ phố biến như “a”, “an”,

“the”, không mang lại nhiều ý nghĩa cho văn bản và thường bị loại bỏ

3 Phân tích từ (Part-of-speech tagging): phân tích cú pháp của các từ để xác

định loại từ và vai trò của từ trong văn ban.

4 Chức năng ngữ nghĩa (sematic role labeling): xác định vai trò của các từ

Trang 37

5 Phân tích cú pháp (parsing): phân tích câu và xác định các mối quan hệ cú

pháp giữa các từ.

6 Trích xuất cụm từ chính (keyphrases): dựa trên các thông tin thu thập được

từ các bước trên, các cụm từ chính có thê được trích xuất bằng các phương pháp như

TF-IDF (Term Frequncy-Inverse Document Frequency) và TextRank TF-IDF sử

dung tần suất xuất hiện của các từ trong văn bản và tải liệu khác để xác định sự quantrọng của các từ trong văn bản, trong khi TextRank sử dụng mạng lưới các từ để xácđịnh các từ quan trọng dựa trên mối liên kết giữa chúng

Quá trình xác định cụm từ chính có thé được thực hiện bằng cách sử dụng các

thư viện như NLTK [17], SpaCy [14], pke (Python Keyphrase Extraction) [18],

Dé đánh giá độ quan trọng của các cụm từ chính và xếp hạng các từ trong vănbản, luận văn sử dụng một số phương pháp sau:

1 TF-IDF (Term Frequency — Inverse Document Frequency): phương pháp

này đánh giá độ quan trong của một từ bang cách tinh toán tần suất xuất hiện của từ

đó trong văn ban (TF) và trọng số nghịch đảo của tần suất xuất hiện của từ đó trongtoàn bộ các văn bản (IDF) Từ có TF-IDF cao hơn sẽ được coi là quan trọng và có thêxếp hạng cao hơn

2 TextRank: Phương pháp này dựa trên thuật toán PageRank của Google dé

xếp hạng các từ trong văn bản TextRank xem các từ như các nút trong một đồ thị vàtính toán độ quan trọng của từ bằng cách đo độ liên kết giữa các nút (từ) trong đồ thị

Từ có TextRank cao sẽ được coi là quan trọng và có thé xếp hạng cao hơn

3 RAKE (Rapid Automatic Keyword Extraction): Phương pháp này tìm kiếm

các cụm từ có độ tần suất cao và độ phân cực lớn trong văn bản Các cụm từ này được

coi là quan trọng và có thê xếp hạng cao hơn

Sau khi đánh giá và xếp hạng các cụm từ chính Luận văn lựa chọn các từ hoặccụm từ được xếp hạng cao hơn đề tiếp tục xử lý Phương pháp này có thê tạo câu hỏi

điền vào chỗ trống băng cách xóa một số từ hoặc cụm từ này ra đoạn văn dé chúng

trở thành một trong những đáp án của câu hỏi.

2.7 Dạng câu hỏi “chọn từ phù hợp”

Dạng câu hỏi chọn từ phù hợp, trong tiếng Anh gọi là Match the following

question là dạng câu hỏi yêu cầu người đọc hoặc người học kết nối đúng các cặp từ

hoặc ý tương ứng với nhau Thông thường, câu hỏi này yêu cầu người đọc hoặc người

học phải kết nối các từ hoặc các ý liên quan đến nhau theo một quy tắc, một tính chất

Trang 38

có kiên thức nhât định đê xác định được các môi quan hệ của các dữ liệu được cho

trong câu hỏi.

Ví dụ: Match the following countries with their corresponding capitals (kết

noi các quốc gia sau với thi đô twong ứng)

Bang 2.1: Dữ liệu dap án cho dang câu hỏi "chon từ phù hop"

Vietnam Vientiane

Thailand Beijing

Laos Bangkok

China Hanoi

Dé tạo ra dang câu hỏi này, phương pháp cần phải thực hiện các bước sau:

1 Trích xuất thông tin từ văn bản

2 Chọn câu giải thích.

3 Tạo câu hỏi kết nối

4 Kiểm tra và cải thiện câu hỏi

5 Định dạng câu hỏi

Đề lấy câu giải thích từ nội dung văn bản, cần áp dụng các phương pháp trích

xuất thông tin và xử lý ngôn ngữ tự nhiên:

1 Sử dụng phương pháp phân tích cú pháp (parsing): phân tích cú pháp giúp

xác định vi trí và chức năng cua từng từ hoặc cụm từ ở trong câu.

2 Sử dụng thuật toán trích xuất thông tin (information extraction): thuật toánnày giúp tìm kiếm các mẫu (patterns) trong văn bản để trích xuất các thông tin cầnthiết

3 Sử dụng mô hình học máy (machine learning models): sử dụng dé phân loại

và trích xuất các câu chứa thông tin định nghĩa hoặc giải thích từ văn bản Các mô

Trang 39

Ví dụ: Có đoạn văn bản sau:

“The British Broadcasting Corporation (BBC) is the national broadcaster of

the United Kingdom, based at Broadcasting House in London, England It is the

world's oldest national broadcaster, and the largest broadcaster in the world by

number of employees, employing over 22,000 staff in total, of whom approximately

19,000 are in public-sector broadcasting.

The BBC is established under a royal charter and operates under its

agreement with the Secretary of State for Culture, Media and Sport Its work is funded

principally by an annual television licence fee which is charged to all British

households, companies, and organisations using any type of equipment to receive or

record live television broadcasts or watch using iPlayer The fee is set by the British

Government, agreed by Parliament, and is used to fund the BBC's radio, TV, and

online services covering the nations and regions of the UK Since 1 April 2014, it has

also funded the BBC World Service (launched in 1932 as the BBC Empire Service),

which broadcasts in 28 languages and provides comprehensive TV, radio, and online

services in Arabic and Persian ” [19]

Từ đoạn văn trên, luận văn da trích xuât được các thông tin như sau:

- British Broadcasting Corporation (BBC)

- Broadcasting House, London, England

- Over 22000

- Approximately 19000

- Royal charter

- TV, radio, and online services.

Từ đó, phương pháp đã tạo ra dang câu hỏi chon từ phù hợp với các từ da

được trích xuất ở trên như sau:

Bảng 2.2: Trích xuất thông tin từ đoạn văn

Về trái Về phải

National broadcaster of the UK British Broadcasting Corporation (BBC)

Headquarter of BBC Broadcasting House, London, England

Number of employees at BBC Over 22000

Public-sector employees at BBC Approximately 19000

Trang 40

Comprehensive services provided

by BBC World Service in Arabic TV, radio, and online services

and Persian

2.8 Kết luận

Qua quá trình phân tích, nghiên cứu các phương pháp dé tao sinh câu hỏi từnội dung văn bản tiếng Anh bat kỳ, luận văn thấy được rằng có rất nhiều dạng câu

hoi dé kiểm tra một nội dung văn bản bất kỳ nào đó Trong luận văn này chỉ chọn bốn

dạng câu hỏi thường được sử dụng nhiều nhất trong các kỳ thi tiếng Anh để nghiên

cứu các phương pháp tạo sinh câu hỏi.

Có nhiều phương pháp, thuật toán để tạo sinh câu hỏi Mỗi thuật toán có thể

là một bước trong quá trình từ nội dung văn bản dé tạo sinh được một dạng câu hỏinào đó Luận văn này ứng dụng các phương pháp, thuật toán khác nhau, kết hợp

chúng dé xây dựng được một qua trình tao sinh câu hỏi va đưa vao ứng dung thực tế

dé sử dụng

Qua việc giới thiệu các phương pháp ở trên, luận văn thấy được rằng việc tạo

sinh câu hỏi tự động từ một nội dung bất kỳ là khả thi, đã và đang ứng dụng vào thực

tiễn Giúp ích rất nhiều cho con người và xã hội Có thé giúp cho ngân hàng câu hỏitiếng Anh được phong phú, đa dang hơn Bộ tri thức dé ứng dụng vào các nghiên cứu

hoặc phương pháp khác cũng trở nên phong phú hơn khi tri thức được hình thành

ngày càng nhiều dựa vào các phương pháp tạo sinh đã được đề cập ở trong luận văn

Ngày đăng: 08/11/2024, 17:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w