1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Xây dựng hệ thống hỏi đáp tiếng Việt dựa trên các mô hình sinh ngôn ngữ

68 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng hệ thống hỏi đáp tiếng Việt dựa trên các mô hình sinh ngôn ngữ
Tác giả Nguyễn Thị Nguyễn Diệu, Nguyễn Trường Giang
Người hướng dẫn ThS. Nguyễn Văn Kiệt, TS. Nguyễn Lưu Thùy Ngân
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 68
Dung lượng 30,93 MB

Nội dung

MỞ ĐẦUĐặt vấn đềHỏi - Đáp là một lĩnh vực đang được khai thác và triển khai rộng rãi, chính vì lẽ đó mà đã nhận được chú ý và tìm hiểu của tập thé cộng đồng xử lý ngôn ngữ tự nhiêntrên t

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

NGUYÊN THỊ NGUYÊN DIỆU - 19521361

NGUYÊN TRƯỜNG GIANG - 19521448

KHÓA LUẬN TÓT NGHIỆP

XÂY DỰNG HE THONG HOI ĐÁP TIENG VIỆT DỰA TREN CÁC MÔ HÌNH

SINH NGÔN NGỮ

Building Vietnamese Question Answering Based on Generative Language Models

GIẢNG VIÊN HƯỚNG DẪN ThS NGUYEN VĂN KIỆT

TS NGUYÊN LƯU THÙY NGÂN

TP HÒ CHÍ MINH, Tháng 7 năm 2023

Trang 2

LỜI CẢM ƠN

Lời đầu, nhóm xin gởi lời cảm ơn và lòng biết ơn đến thầy Nguyễn Văn Kiệt đã chỉ

dẫn và theo dõi, quan tâm nhóm chúng em trong cả hành trình thưc hiện môn học

khóa luận tốt nghiệp Nhờ có sự quan tâm, lo lắng và chỉ dẫn của thay mà nhóm

chúng em đã có thể hoàn thành được một công trình khóa luận tốt Ngoài ra thầy cũng

là người đã tạo cơ hội và truyền động lực nhiệt huyết cho chúng em có đầy đủ tự tin

và quyết tắm hoàn thành khóa luận đến cuối cùng.

Tiếp theo, em xin gởi lời cảm ơn đến các quý thầy cô trường đại học Công nghệ thông

tin nói chung và các thầy cô Khoa Khoa học và Kỹ Thuật Thông Tin nói riêng đã

tuyển đạt, cung cấp những giá trị về kiến thức thật đáng giá trong suốt chặn đường

học tập và rèn luyện tại trường Những kiến thức quý giá, bổ ích đó chúng em đã được

tích lũy từ các thầy cô đã giúp chúng em rat nhiều trong chặn đường thực hiện khóa

luận.

Cuối cùng, chúng em xin gởi lời cảm ơn đến tất cả mọi người gia đình và các bạn bè

đã luôn động viên, khuyến khích và hỗ trợ và tạo cơ hội cho nhóm chúng em hoàn

thành khóa luận tốt nghiệp.

Chúng em xin chân thành cảm ơn!

Nhóm tác giả Nguyễn Thị Nguyên Diệu

Nguyễn Trường Giang

Trang 3

DANH MỤC HÌNH ẢNH.

DANH MỤC BẢNG

DANH MỤC TỪ VIET TAT

TOM TAT KHÓA LUẬN 22222++222EEE2++++222222E3122+22222231122 222221112 xrrrrrrkx 1

IN, (OY 0 ::::-ậg 2

CHƯƠNG 1: TONG QUAN -22222222222222222222222222122221111111111 ccerrrrrrrre 7

1.1 Phát biểu bài toàn Hỏi - Dap

2.2.2 1

2.2 ậ ll

CHƯƠNG 3: XU LÝ DU LIỆU 22¿©22222222EE2222221222223111222211222211 2212 3

BL BO di LGU 13 3 3.2 Điểm vượt trội của bộ dữ LGU ooeeccecesscsseesssssseessosssecsssstescsssseescessseesssseeeeesseeeees 4 3.3 Phan tích đặc điểm bộ dữ liệu -¿-22+¿+222+++t2222E2t2EEAerrrrrkrrrrrrk 5 3.4 Thống kê phân tích bộ dữ liệu

3.5 Phan tích dự trên phương diện từ vựng

3.6 Kết luận 222222 2222112222112 2211111222 E1 ecre 23

CHƯƠNG 4: HỆ THONG MBARTQA -2-22-22222222222222222122212222221112 2.2 24

4.1 Tách từ: HH He 25

Trang 4

4.2 Tiền huấn luyện:

TT» AÂ Ò 40 CHƯƠNG 6: CAI ĐẶT, KET QUA VÀ ĐÁNH GIÁ

6.1 Tiền xử lý dữ liệu.

6.2 Cài đặt thử nghiệm

6.3 Phương pháp đánh gi:

6.3.1 FI-SCOTE: ieee 6 /ê ` hố K 45

6.3.2 Exact MafCh: Q G Q.1 1g 111 1841031 £e 46

6.4 Kết quả: em SS Ế cơ 47

CHƯƠNG 7: KET LUẬN VÀ HƯỚNG PHAT TRIỂN 22c¿52c2scccccces 49

7.1 Kết luận: 22 22222222222 EE.E.2.1111 E21 crrree 49

7.2 Hạn chế: -2222+222212122211112222111222111122711122111122.111 E1 re 49

7.3 Hướng phát triỂn: -. -¿-+222222222+t2222EEEEEtEEEEEEEEEErrrrrrrrrrrrrrrrr 50

TÀI LIỆU THAM KHẢO.

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1.1 Ví dụ về hệ thống hỏi đáp 2¿-222++z+22EEE+etzErxrrrrrrreccee 7

Hình 3.1: Phân chia bộ dữ liệu theo tập Train, Dev, Test - 16 Hình 3.2: Phân đồ độ dài đoạn văn ở trap Train -:-sc++ccssce2 18 Hình 3.3: Phân đó độ dài đoạn văn ở trp Dev -:©cccc+ccxe+ 19 Hình 3.4: Phân đó độ dài đoạn văn ở trập Test :¿©s2:z+ccxs+ 19

Hình 3.5: WordCloud thé hiện tần suất xuất hiện từ vựng trên tập câu hỏi 20 Hình 3.6: WordCloud thé hiện tần suất xuất hiện từ vựng trên tập Trả lời 21 Hình 3.7: WordCloud thé hiện tần suất xuất hiện từ vựng trên tập đoạn văn 22 Hình 4.1 Mô hình hệ thống -:2¿©222222++++22222ES2zrrrrrtrrxvrrrrcee 24

Hình 4.2: Cấu trúc mBart 2 22-©22+22EE22EEEE22E111221122112721271122221e E2 27 Hình 4.3: Kiến trúc mô hình của Bert cccccccttttttrrtttriiirrrree 28 Hình 4.4: Kiến trúc của GPT -cccvxkvvrtrrrrtrrrrrrrr ket 29 Hình 5.1 Cấu trúc của mô hình Bart cccccccccccccttttEtttttttrtrrrerree 31 Hình 5.2: Mô hình tự nhiễu của Bart ceccceccsssescsesssesssesssesssecssesssesssessessseessees 33 Hình 5.3 Token masKking - - + + tt SEExsEE+kEEerkkekrkekrkrkrrkerrkrkrkek 33 Hình 5.4 Token deletio - - ¿5222 S2 *£2E2E2EEEEEErrkrkrkrrerrrkrrre 34 Hình 5.6 Text infillinng + tt St ng HH ri 34 Hình 5.7 Sentence permufatiOII ¿- + SE *k*EEEEEEEEEkekEkekrkrkrkek 35

Trang 6

Hình 5.8 Document Rotation - 2c E2 22011111 11153111111 118311 1111k 35

Hình 5.9: Kết quả đánh giá của non-seg BART trên tập dev . 37

Hình 5.10: Kết quả đánh giá của seg BART trên tập dev - 37

Hình 5.11: Kết quả đánh giá của seg mBART trên tập đev - 38

Hình 5.12: Tác vụ chuyền văn bản sang văn bản của T5 - +: 39

Hình 5.13 Thư viện transformers huggingface - - -cssccsssssssexsseesee 40 00) i0 .iác 1 41

Hình 6.1: Công thức tính F Í-COF€ ¿(622331 * 2E ESEESEEesrkeererrsserrke 45

Hình 6.3: Công thức tinh Recall - - - +22 *+23£+£+tE+eEEseeserrsseeersserrke 46

Hình PL:1 Hình anh logo thư viện StreamLLIY 5+5 s++<++ex+e+sx2 55

Hình PL 2: câu lệnh khởi chạy ứng dụng thử nghiệm - 5-55: 56

Hình PL 3: Đặt câu hỏi liên quan đến đoạn văn - s txeE+xerxerxerees 57 Hình PL 4: Đưa ra kết quả đáp án 2 2+2<+EE+EE£EE£EEEEEEEEEEEEEEerkrrkrred 58 Hình PL 5: Hình ảnh minh hoa Ì - .- ¿55 222 *E E22 E+e+zzeeeeeezzsz 59

Hình PL 6: Hình ảnh minh họa 2 - ©5252 2 222 ***22EE£++EEezeeeeeszeeres 59

Hình PL 7: Hình ảnh minh họa 3 - c5 22223 2*222 E22 ESseekeseeeres 60

Hình PL 8: Hình ảnh minh hoa 4 - - 5 255 2222 * 3+ +22 £++eEEezeeeeeezeees 60

Trang 7

DANH MỤC BANG

Bảng 0.1: Ví dụ về cặp câu hỏi - trà lời trong bộ dữ liệu -¿ 5+ 3Bảng 3.1: Ví dụ về câu hỏi và câu trả lời được dẫn ra từ đoạn văn mẫu 14Bảng 3.2: Phân bố độ dài của tập câu hỏi - 2-2: ©5¿+2x+2E22£Et£EczEerxrrresred 17Bang 3.3: Phân bố độ dài của tập câu trả lời 2- + s+cs+zxezxerxerxersered 17

Bảng 3.4: Phân bố độ dài của tập đoạn văn - c + 3+2 vtvsireserree 18

Bảng 6.1: Kết quả của các mô hình trên các tập dựa theo F1, EM 47Bảng 6.2: Đánh giá thủ CONG - - G11 911211 1911 11511 11111 1 1 1 ng ny rưy 47

Trang 8

DANH MỤC TU VIET TAT

No | Từ viết tat Giải thích

I | BART Bidirectional Auto-Regressive Transformers

2 |mBART Multilingual Bidirectional Auto-Regressive Transformers

Trang 9

TÓM TAT KHÓA LUẬNBồi cảnh hiện giờ, hệ thống Hỏi — Đáp trên các trang mạng và diễn đàn đang là một

lĩnh vực mở rộng cho các người nghiên cứu Là công cụ hỗ trợ phân tích, vấn đề hỗ trợgiải đáp thắc mắc, đưa ra câu hỏi, những tình huống trường hợp khó giải quyết, dé rồinhận lại đáp án là lời khuyên, cách thức giải quyết vấn đề Đi cùng với sự phát triển

hàng loạt như thế giới, xã hội, con người đó là những van đề những thắc mắc nghi van

về tất cả các lĩnh vực được đặt ra và cần giải đáp một cách chính xác và cụ thé, cuối

cùng tích lũy càng nhiều dữ liệu dé tạo nên kho tàng dữ liệu về tất cả thông tin ở đa

lĩnh vực Tận dụng vào việc đó chúng ta có thể tìm hiểu và nghién cứu về một hệ thốnghỏi đáp Giải quyết được mọi vấn đề về thắc mắc tiết kiệm thời gian Là một hệ thốngđược săn đón nhiều nhất gần đây trong lĩnh vực xử lý Ngôn ngữ tự nhiên, mô hình hỏiđáp này có thể thực hiện nhiều tác vụ đặt biệt là trích xuất câu trả lời dựa trên bộ đữ

liệu đã cho trước chính xác và nhanh chóng Điều cần thiết nhất là cần tạo được một bộ

dữ liệu chất lượng về độ chính xác và nghiên cứu mô hình tốt dé giải quyết chức năng

bài toán.

Trang 10

MỞ ĐẦUĐặt vấn đề

Hỏi - Đáp là một lĩnh vực đang được khai thác và triển khai rộng rãi, chính vì lẽ đó

mà đã nhận được chú ý và tìm hiểu của tập thé cộng đồng xử lý ngôn ngữ tự nhiêntrên toàn thế giới, đi kèm với sự quan tâm đó thì lĩnh vực hỏi đáp này đã có các

công trình nghiên cứu đạt được các thành tựu đáng ngưỡng mộ Hệ thống mang lạinhững hữu ích thiết thực cho khoa học, y học, giáo dục, tạo nên kho kiến thức tolớn cho sự hiểu biết của con người Và dẫn đến nhiều phát triển ứng dụng lĩnh vực

hệ thống vào các công nghệ khác nhau

Nhóm chúng tôi đã tìm hiệu và thay được tam quan trọng và theo đuôi kip sức ảnhhưởng của các hệ thống hỏi đáp đối với con người Nhưng, lĩnh vực này có quá trẻ

ở Việt Nam ,vì vậy những cộng đồng nghiên cứu sinh xử lý ngôn ngữ tự nhiên ở

Việt Nam vẫn chưa có nhiều thành tựu vượt bậc Việc thực hiện đề tài này chắc

chăn sẽ gặp phải rất nhiều khó khăn và trở ngại thách thức, chính vì lẽ đó chúng tôi

nô lực không ngừng thực hiện đề tài với mục tiêu tạo ra một hệ thống hỏi đáp Bài

toán thuộc dạng tri thức opened domain, vi dụ như dia lý, lich sử, sức khỏe,

Hầu hết, chúng tôi thấy rằng các nghiên cứu sinh đa phần tập trung vào bộ dữ liệu

có kích thước lớn và chất lượng tốt cụ thê là tiếng Anh như SQuAD [3], Trivia [4],tiếng Trung CMRC [5] hay tiếng Nga SberQuAD [6] Với mong muốn thực hiện

nghiên cứu và cuối cùng tạo ra hệ thống hỏi đáp trên bộ dit liệu tiếng Việt, quan tâmđến sự hiểu biết và thắc mắc của người Việt, và muốn nghiên cứu một công trình dé

có thể ứng dụng tạo nên tính thực tế cho người Việt Do đó, chúng tôi đã đề ra mụctiêu định hướng và cố gắng thực hiện bài toán Hỏi — Dap bằng ngôn ngữ Tiếng Việt

Bài toán trong khóa luận của nhóm được mô tả như sau:

Trang 11

> Đâu vào: câu hoi băng tiêng Việt ở bat kì lĩnh vực và một đoạn văn liên

quan dén câu hỏi.

> Đâu ra: Một câu trả lời (evidence document) và câu trả lời dang

span-based được tìm thấy trong văn bản này

Ví dụ về một câu hỏi trả lời và đoạn văn trong tập dữ liệu

Đoạn văn

Bang 0.1: Vi dụ vé cặp câu hỏi - tra loi trong bộ dữ liệu

sông, và là trung tâm của một vùng nông nghiệp giàu có Vào thế kỷ 10, Paris đã là

một trong những thành phố chính của Pháp cùng các cung điện hoàng gia, các tu

viện và nhà thờ Từ thế kỷ 12, Paris trở thành một trong những trung tâm của châu

Âu về giáo dục và nghệ thuật Thế kỷ 14, Paris là thành phố quan trọng bậc nhất

của Cơ Đốc giáo và trong các thế kỷ 16, 17, đây là nơi diễn ra Cách mạng Pháp

cùng nhiều sự kiện lịch sử quan trọng của Pháp và châu Âu Đến thế ky 19 và 20,

thành phố trở thành một trong những trung tâm văn hóa của thế giới, thủ đô của

nghệ thuật và giải trí.

Câu hồi

Điều gì đã nói lên Paris là thành phó lý tưởng đề khách du lịch?

Trang 12

Câu trả lời

Mục tiêu của khóa luận tốt nghiệp:

Đề đạt kết quả như mong muốn trong khóa luận này chúng tôi đã đề ra mục tiêu như

sau: là tìm hiểu nghiên cứu về bài toán Hệ thống Hỏi — Đáp với hai mô hình Bart và T5cho ngôn ngữ Tiếng Việt

Chúng tôi đã lựa chọn ngôn ngữ Tiếng Việt, về miền đữ liệu chúng tôi lựa chọn đa lĩnhvực dé tạo nên kho kiến thức thúc day phát triển cho người Việt

Đề ra mục tiêu hệ thống Hỏi đáp đa lĩnh vực tốt nhất , chúng tôi đã tiến hành nghiên

cứu các phương pháp và nhiều loại mô hình dé phân tích kết quả dựa vào đó so sánh

và đánh giá các mô hình trên cùng một bài toán.

Dé dat được điều đó, sau khi đánh giá kết quả chúng tôi rút ra những đánh giá và rút ra

kinh nghiệm , tiến hành đưa ra định hướng cho việc nghiên cứu phát triển cho bài toánnày với các mô hình tiếp theo Ngoài ra chúng tôi tạo nên ứng dụng dé trải nghiệm kết

quả cuôi cùng đưa ra đánh giá và cái nhìn chung của mô hình sau khi nghiên cứu.

Về đôi tượng : bài toán nghiên cứu về hệ thông Hỏi — đáp dựa trên mô hình sinh ngôn ngữ về tiêng Việt.

Về phạm vỉ nghiên cứu: bài toán được nghiên cứu dựa vào bộ dữ liệu bao gôm văn

bản, câu hỏi va câu trả lời bang tiêng Việt Đông thời chúng tôi nghiên cứu các mô hình

liên quan dé đánh giá phù hợp và đưa ra mô hình đạt hiểu quả cao

Kết quả nghiên cứu:

Trang 13

Sau khi nghiên cứu bài toán hỏi-đáp, chúng tôi đã có được kết quả dưới đây:

“ Chúng tôi đề xuất mô hình dang sinh non-seg_mBART được tiền huấn luyện trên bộ

dữ liệu UIT-ViQuAD2.0 Thông qua quá trình tìm hiểu và tiền huấn luyện các loại

mô hình dạng sinh khác nhau, chúng tôi đã huấn luyện được mô hình

mBART có F1-score đạt được 53.8% cùng với 35.93% EM Ngoài mô hình

non-seg-mBART chúng tôi còn tìm hiểu những mô hình khác như BART, T5

“ Ngoài việc tìm hiểu các mô hình dang sinh, chúng tôi còn tìm hiéu tác động của kỹ

thuật tách từ đối với hiệu suất của mô hình dang sinh trong phạm vi bài toán

hỏi-đáp Và chúng tôi thấy được kỹ thuật tách từ có ảnh hưởng không tuyến tính đối với

mô hình dạng sinh mà chúng tôi đã tìm hiểu sau khi có kết quả thực nghiệm

“ Sau quá trình tìm hiểu và tiền huấn luyện các mô hình, chúng tôi chọn ra mô hình có

kết quả thực nghiệm tốt nhất non-seg-mBART (mô hình mbART không áp dụng kỹthuật tách từ) làm baseline kết hợp với framework streamlist dé tao một công cu trực

quan cho việc kiêm chứng hiệu suât của mô hình đê xuât.

Trang 14

Cấu trúc nội dung của khóa luận:

Chương 1: Tổng quan

Giới thiệu khái quát về bài toán , nêu ra tính đứng dụng và những van đề thách thức

phải gặp khi nghiên cứu bai toán Ho1-Dap.

Chương 2: Các công trình nghiên cứu liên quan

Trinh bày giới thiệu về những công trình liên quan và nồi tiếng về lĩnh vực đang

nghiên cứu và rút ra kết luận bài học kinh nghiệm

Chương 5: Phương pháp tiếp cận khác

Chúng tôi tìm hiểu và trình bày một số mô hình, phường pháp tiếp cận bài toán bang

cách khác và so sánh đánh gia.

Chương 6: Kiểm tra, đánh giá và so sánh

Chương này, chúng tôi trình bày quy trình và các giai đoạn từ xử lý đữ liệu đến cài đặt

mô hình, huấn luyện , kết quả và đưa ra nhận xét đánh giá

Chương 7: Kết Luận và hướng phát triển

Cuôi cùng, từ nhận xét và đánh giá trên tìm ra được ưu diém va hạn chê đê đưa ra

Trang 15

CHƯƠNG 1: TỎNG QUAN1.1 Phat biểu bài toán Hỏi - Đáp

Question Answering System là một hệ thống Hỏi — Đáp được thiết kế dựa vào các mô

hình thuộc lĩnh vực xử lý ngôn ngữ tự nhiên huấn luyện dé có thé hiểu được và có thé

trả lời được tất cả câu hỏi do người dùng đặt ra, hệ thống Hỏi — Dap sẽ được tiếp cận

bởi nhiều cách khác nhau dé hiểu và từ đó tạo ra câu trả lời chính xác từ kho thông tinnhất định Nhằm hướng vấn đề khoảng cách giữa ngôn ngữ con người và sự hiểu biết

của máy thì hệ thống cho phép được sử dụng nhiều chức năng, tác vụ như hỗ trợ tìm

kiếm thông tin và cung cấp lời khuyên, kiến thức,

Đối với khóa luận chúng tôi đã tiến hành nghiên cứu, xử dụng bộ đữ liệu đa lĩnh vực

dé tiếp cận và nghiên cứu hệ thông Hỏi — Đáp, lợi ích hệ thống mang lại cho con người

về kiến thức ở mọi lĩnh vực dé dang xử lý mọi vấn đề Cũng giúp cho con người rút

ngắn thời lượng tìm kiếm thông tin Ngoài ra, còn giúp học sinh, sinh viên giải đáp một

sô thắc mac vân đê nghiên cứu học tập.

Câu hỏi

hiện nay?

Câu trả lời Tăng quan hệ đối tác thi có khả nang giảm quan hệ đối tượng.

Trang 16

Ngoài ra việc giới hạn về mặt chỉ phí huấn luyện các mô hình cũng tạo cho chúng tôi

không ít khó khăn bởi những mô hình chúng tôi lựa chọn cho phạm vi khóa luận này

đều có kích thước cấu trúc lớn đòi hỏi phải có lượng ram cũng như dung lượng bộ nhớkhá lớn (RAM: ~40GB) dé có thể ghi lại tat cả các kết quả trong quá trình huấn luyện

Chiếm nhiều thời gian trong việc thực hiện khóa luận này là giai đoạn chúng tôi phải

tìm kiếm và thử nghiệm các mô hình vừa phù hợp bài toán đồng thời cũng phải phù

hợp với bộ dữ liệu và hỗ trợ ngôn ngữ tiếng Việt Bên cạnh đó dé có thé đánh giá so

sánh chuân xác nhất và đưa ra kết quả phù hợp chúng tôi phải xử lí về đặc điểm của

tiếng Việt

1.3 Ứng dụng

Một hệ thông mang lại tinh ứng dụng cho cộng đồng Nó mang lại hữu ích về tìm kiếm

những thông tin ở những lĩnh vực đặc thù chuyên ngành, tìm các đữ liệu liên quan đến

y học pháp luật và lịch sử, Hỗ trợ tài nguyên tài liệu cho các nghiên cứu sinh học tập

cũng như có thê đưa ra thông tin cụ thể về một thắc mắc mà người dùng đang nghiên

cưu.

Bên cạnh việc thực thi bài toán đưa ra đánh giá thì chúng tôi đã triển khai thêm hệ

thong ứng dụng giúp người dùng sử dụng và thao tác thuận lợi hơn Hỗ trợ hỏi đáp, tưvân, tra cứu, chăm sóc khách hàng, đưa lời khuyên.

Trang 17

1.44 Kết luận

Trở thành hệ thống được chào đón và phát triển mở rộng toàn thế giới, và đang trở

thành xu hướng của một số quốc gia công nghệ, bởi lẽ đó dé nghiên cứu thành công hệthong Hỏi-Đáp, chúng tôi đã phát huy tối đa mô hình va dữ liệu, kế đến chúng tôi đã

thực hiện đánh giá mô hình bài toán và đưa ra hướng kết quả tìm ra hướng phát triển

cải thiện đổi mới mở rộng hệ thống hỏi — đáp ở Việt Nam Dong góp những tìm hiểu vàkết quả thành công trong việc phát triển công nghệ nước nhà nói chung và lĩnh vực

Hỏi-Đáp nói riêng.

Trang 18

CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1 Cac công trình

2.1.1 Phát biểu bài toàn Hỏi - Đáp

Cùng với lợi ích và sự phát triển tiếp cận nhanh mà hệ thống Hỏi — Dap mang lại cho

cộng đồng nghiên cứu hiện nay thì, sự phô biến và nồi tiếng với các công trình đã đạt

một số thành tưu là điều đáng ké

Nắm giữ vị trí có được sự quan tâm đông đảo và quan trong đối với việc phát triển xã

hội và thế giới nên hệ thống Hoi-Dap luôn là một trong những chủ đề luôn được chú ýhàng đầu đối với cộng đồng nghiên cứu sinh xử lí ngôn ngữ tự nhiên Có nhiều công

trình tiêu biểu nghiên cứu về hệ thống trên đã được công bố qua từng năm và đã manglại dong góp to lớn trong việc phát triển hệ thống hỏi đáp trên nhiều loại ngôn ngữ khácnhau Đầu tiên đó là những kết quả của các nghiên cứu trên bộ đữ liệu Natural

Questions (NQ) [2] Day là một bộ dữ liệu gồm 307,373 mau cho việc training, 7,830

mẫu cho việc development và 7,842 mẫu cho việc test Mỗi một mẫu như vậy sẽ gồm

có một câu hỏi được lay từ Google.com, trang Wikipedia trả lời câu hỏi, và câu trả lời

ở dang dài (long answer) và câu trả lời dang ngắn (short answer) được đánh dấu trongtrang Wikipedia đó Có thé có trường hợp không có câu trả lời (dang dài hoặc dạng

ngắn)." Attention Is All You Need" (Vaswani et al., 2017): đây là một trong những côngtrình dùng dé giới thiếu mô hình Transformer, sử dụng cơ chế tự chủ của kiến trúc

mạng nơ -ron và đã tạo nên kết quả đầy ấn tượng với nhiều tác vụ khác nhau bao gồm

cả QA."BERT: Pre-training of Deep Bidirectional Transformers for Language

Understanding" (Devlin et al., 2018) Electra: Pre-training Text Encoders as

Discriminators Rather Than Generators" (Clark et al., 2020) "UnifiedQA: Crossing

Format Boundaries With a Single QA System" (Khashabi et al., 2020) giới thiệu mô

Trang 19

hình UnifiedQA mộ mô hình QA đa nhiệm có thê xử lý tât cả các định dạng về câu hỏi

dau vao là câu nôi giữa các định dạng câu hỏi khác nhau đã tạo nên kết quả xuât sac.

Về bộ dữ liệu, hiện tại trên thế gidi CÓ rất nhiều bộ dữ liệu khác nhau, nhưng theo đánhgiá gần đây đầu tiên phải nhắc đến đó là một bộ dit liệu đầy thách thức chưa hớn 650

nghìn bộ ba câu hỏi câu trả lời và dẫn chứng Ngoài ra còn có một bộ dữ liệu khác cũng

đáng được chú ý là MRQA[3] được tông hợp từ nhiều bộ dữ liệu tiếng anh nồi tiếng

khác nhau (SQuAD, TriviaQA, ) được chia thành 3 nhóm: nhóm 1 — chỉ gồm các

mẫu thực thi việc huấn luyện mô hình và phát triển mô hình, nhóm 2 — chỉ gồm các

mau dùng cho việc phát triển, đánh giá mô hình, nhóm 3 — chỉ gồm các mẫu dành choviệc đánh giá đưa ra kết quả hiệu suất của mô hình Các công trình nghiên cứu được

đánh giá cao không chỉ được thực thi huấn luyện trên bộ dữ liệu tiếng anh mà còn đượcthực hiện trên các bộ dữ liệu đa ngôn ngữ như bộ đữ liệu MLQA[4] (gồm có tiếng Anh,tiếng A Rap, tiếng Đức, ), TyDi QA[5] (gồm 200,000 cặp câu hỏi — đáp từ 11 loại

ngôn ngữ).

2.2.2 Các công trình trong nước

Các công trình trong nước thì vẫn còn hạn chế và chưa có nhiều các nghiên cứu được

thực hiện trên bộ dữ liệu tiếng Việt mà nỏi tiếng nhất có thé ké đến là bộ 3 VIMMRC

[6], ViQuAD2.0 [7] và ViNewsQA [8] Trong nó nổi bật nhất là bộ đữ liệu

UIT-ViQuAD2.0 với 35.990 cặp câu hỏi — câu trả lời Thời điểm bộ dit liệu UIT-ViQuAD

lần đầu tiên được công bồ thì nó gồm 23,074 cặp câu hỏi được tạo ra dựa trên 5,109

đoạn văn từ 174 bài báo tiếng Việt trên Wikipedia Và mô hình chạy tốt nhất trên bộ ditliệu này vào thời điểm được công bố là X-LMRLarge [9] với độ đo EM là 68,98% và độ

đo F1 là 87,02%.

2.2 Kếtluận

11

Trang 20

Được đón nhận bởi sự quan tâm và chú ý của toàn thể nghiên cứu sinh trên Thế Giới,bên cạnh đó lĩnh vực Xử lý ngôn ngữ tự nhiên về hệ thống hỏi đáp là một trong nhữnglĩnh vực còn một sô hạn chê:

- _ Hiệu suất và độ chính xác: tuy có nhiều cải tiến trong quá trình xử lý ngôn ngữ

tự nhiên và phát triển hệ thống Hỏi — Đáp, tuy nhiên độ chính xác còn hạn chếkhi tiếp xúc với những ngôn ngữ có tính phức tạp, đa ngữ nghĩa và có nhiều cau

trúc phức tạp.

- _ Thiếu dit liệu: đây là một hạn chế đáng chú ý Đặc biệt là trên ngôn ngữ Tiếng

Việt, không những thế hầu hết các tài liệu, tài nguyên tiếng Việt hầu như rất ít,

gây khó khăn và can trở trong việc nghiên cứu.

Tuy nhiên những điềm hạn chế trên lại là cơ hội phát triển dé chúng ta nghiên cứutiếp tục phát huy và mở rộng, góp phan phát triển và cải thiện dé cộng đồng nghiêncứu Việt Nam có thể tiếp cận được nhiều hơn Bằng việc tập trung cải thiện hiệu

suất, độ chính xác và mở rộng tập dữ liệu nghiên cứu bằng tiếng Việt, chúng tôi

mong răng với sự nỗ lực nghiên cứu sẽ đóng góp vào sự phát triển và mở rộng củalĩnh vực Xử lý ngôn ngữ tự nhiên và hệ thống Hỏi — Đáp trong tương lai

Trang 21

CHUONG 3: XỬ LY DU LIEU

3.1 Bộ dữ liệu

Sau khi nghiên cứu về dé tài bài toán kèm theo tự tìm hiéu một sô công trình liên quan

thì chúng tôi đã định hướng đối với bộ đữ liệu mà chúng tôi hướng đến

Nhóm đã hướng đến những tiêu chí về bộ dữ liệu phải là bộ đữ liệu đa lĩnh vực bằngTiếng Việt Trong bộ đữ liệu cần có những bộ câu hỏi, câu trả lời và đoạn văn liên

quan Trong đó câu hỏi được đặt ra phải là câu có liên quan đến đoạn văn cùng với bộ

đữ liệu và câu trả lời sẽ là được rút trích từ đoạn văn trên.

Vi dụ:

Đoạn văn

Nôi tiếng với tên gọi Kinh đô ánh sáng, Paris là một trung tâm văn hóa lớn của thế giới

và cũng là một trong những thành phó du lịch thu hút nhất Sự nhộn nhịp, các công

trình kiến trúc và không khí nghệ sĩ đã giúp Paris mỗi năm có đến 30 triệu khách nước

ngoài Thành phố còn được xem như kinh đô của thời trang cao cấp với nhiều khu phố

xa xi cùng các trung tâm thương mại lớn Là nơi đặt trụ sở chính của các tô chức quốc

tế như OECD, UNESCO cộng với những hoạt động đa dạng về tài chính, kinh

doanh, chính trị và du lịch đã khiến Paris trở thành một trong những trung tâm trung

cùng với New York, Luân Đôn và Tokyo.

13

Trang 22

question_lenght, context_lenght, context_sentence.

3.2 Điểm vượt trội của bộ dữ liệu

Quá trình nghiên cứu về bài toán Hỏi — đáp nói riêng và các nghiên cứu khác về Xử lýngôn ngữ tự nhiên nói chung thì Bộ dữ liệu giữ vi trí quan trọng trong việc xây dựng,

đánh giá và tìm ra hướng phát triên cho mô hình.

Một sô điêm vượt trội của bộ dữ liệu cân có là:

Chât lượng câu hỏi, câu trả lời và đoạn văn: Bộ dữ liệu phải có độ chât lượng về các

tập câu mới có thê huân luyện mô hình chính xác hơn.

Tùy vào định dạng và tác vụ mà bài toán nghiên cứu thì độ đa dang của dữ liệu khác

Trang 23

Độ phân phôi công băng đê đảo dam tính công băng đôi với nhiêu quan diém ngữ

nghĩa, bộ dữ liệu cân bao gôm các câu hỏi và các câu trả lời được nhìn ở nhiêu khía

cạnh và nhiêu nguôn khác nhau.

Về chất lượng: dé đạt được mô hình tốt và hiệu quả cao thì việc cần thiết đó là đánh giá

và đo lường hiệu suât bộ dữ liệu.

Cuôi cùng điêu quan trọng là đảm bảo cho sự phát triên và cải tiên cho tương lai nhắm

mở rộng cho nghiên cứu thì bộ dữ liệu cân cập nhật và nâng cap.

Đối với bài toán này hầu như bộ dữ liệu UIT-ViQuAD2.0 đáp ứng gần như đầy đủ cáctiêu chí trên, bộ dữ liệu được xây dựng trên ngôn ngữ tiếng Việt, với tính đa dạng về

lĩnh vực và só lượng tập câu hỏi và trả lời 35.990.

3.3 Phân tích đặc điểm bộ dữ liệu

UIT-ViQuA2.0 là bộ dữ liệu Tiếng Việt là một tập dữ liệu trong lĩnh vực hỏi đáp Trong

đó bao gồm phân loại câu hỏi, trích xuất đáp án và tạo ra câu hỏi dựa trên đoạn văn bảncho trước Kích thước: UIT-ViQuAD2.0 gồm tổng cộng 35.990 cặp câu hỏi và trả lời

được thu thập từ 13 chủ đề khác nhau Mỗi bộ câu hỏi duoc chia thành cấu trúc 3 phầnsau: (a) đoạn văn bản nguồn, (b) câu hỏi và (c) đáp án Chủ dé trong bộ dữ liệu bao

gồm lĩnh vực về khoa học, vật ly, dia ly, công nghê thông tin,

15

Trang 24

Distribution of Train, Dev, and Test Sets

Hình 3.1: Phân chia bộ dit liệu theo tập Train, Dev, Test

3.4 Thống kê phân tích bộ dữ liệu

Thực hiện tiến hành thống kê cơ bản về độ dài của câu hỏi và câu trả lời Độ dài của

từng cặp câu của bài toán mà chúng tôi nghiên cứu còn phụ thuộc vao độ dài của văn

bản mà chúng tôi đã cung cấp đề đặt câu hỏi và tạo câu trả lời Với bài toán của chúng

tôi thì câu hỏi sẽ dựa vào văn bản ma đưa ra đáp án phù hop với câu hỏi.

Sau khi kiểm tra tính toán và thống kê một vài số liệu, thì sau đây là bảng chỉ tiết phân

bô độ dai của tập câu hỏi, câu trả lời và đoạn văn và kết quả lân lượt ở các bảng.

Trang 25

Bảng 3.2: Phân bố độ dài của tập câu hỏi

Độ dài Question

Train Dev Test Total 50-200 74.484165 74.009966 66.00 74.402077 200-500 0.003515 0.026226 0.00 0.006180

>500 25.512320 25.963808 34.00 25.591743

Theo quan sát bang 3.2 thì phan lớn độ dài của câu hỏi tập trung ở khoảng 50-200 tỉ lệ

rat cao Chứng tỏ người dùng mô tả chi tiét vê những gì có liên quan đên van đê cân

hỏi Với mong muốn nhận lại câu trả lời phù hợp

Bảng 3.3: Phân bo độ dài của tập câu trả lời

17

Trang 26

Bảng 3.4: Phân bố độ dài của tập đoạn văn

Độ dài Context

Train Dev Test Total

100-500 1.402510 1.363756 2.00 1.399790 500-1000 77.271609 80.514031 95.00 77.708423

>1000 21.325881 18.122213 3.00 20.891787

Bang 3.4 day là bảng phân bố độ dai của tập đoạn văn nên có thé thay răng độ dai đoạnvăn tập trung ở khoảng 500-1000 tỷ lệ cao nhất, tiếp đến là khoảng >1000 Những đoạnvăn với độ dài lớn là do mỗi câu hỏi và câu trả lời đều dựa vào đoạn văn trên dé trích

xuất, bên cạnh đó với một đoạn văn thì có rất nhiều câu hỏi và câu trả lời được trích

Trang 27

Hình 3.3: Phân đồ độ dài đoạn van ở trập Dev

Context's length in Test Set

Trang 28

Quan sát hình 3.2, hình 3.3, hình 3.4 chúng ta thấy được số lượng các đoạn đoạn vănđược tập trung ở khoảng 500-100 chiếm số lượng lớn, kế đến là những đoạn văn có sốlượng >1000, cuối cùng là những đoạn văn chiếm số lượng ít nhất trập trung ở khoảng

<500 Cả 3 tập Train, Dev, Test mang lại tỉ lệ độ dài với sé lượng khác nhau, tuy nhiênđây lại là điều phù hợp với bài toán

3.5 Phan tích dựa trên phương diện từ vung

những người er rr

vai tro La Ma , ‘i nam nao

điêu? B1 kG thế giới VAO nam

_- gian nào °° cho ảnh hưởng

‘a thể ke \OXây dựng nào được “ÍỦ

2» Hs ngén ng? >

Ms Ệ

khử Sa sự kiên Sẽ

0 1 nào Tại a ộc chiến nào trong

inh Ai a là người ối vớ

i G nào đã > nea 1a bao

ae quốc thời gian Vì: sao Trung Quốc

3 tO bn thi”) ja ni, xf Số, lượng

E -CO¿àm Bì = ` châu Âu

đầu Tà qymn ^ ƠI mục đích

Hình 3.5: WordCloud thể hiện tan suất xuất hiện từ vựng trên tập câu hỏi

Trang 29

Sau khi tiếng hành phân tích kết quả thì tuần suất của từ vựng xuất hiện trên tập câu

hỏi thì tìm ra đặt trừng rằng, các từng vựng ở tất cả lĩnh vực khác nhau điều xuất hiện,

và có thé thay rõ hơn nữa các từ vựng có tân suât xuât hiện phô biên là các từng dé hỏi:

và có nhiêu thac mặc về các lĩnh vực khác nhau.

châu Âu Đại nọc trên Oo

việc 429,98 quân đội

hoac người xã hội oe

với cắc một gan sự Đế quốc

2sy2 Việt Nam chink" eet thé gidi

Ä te tháng nămš al Nga vin

kinh té meee về 3 CỪn om —

la Cộng hòa, ` sản ga iis moi Thad, on ba

được '*' trở thành# hoạt động CHO1®#Ẻ

Trang 30

Ở hình 3.6 thé hiện tần suất xuất hiện từ vựng được nhìn thấy rõ hơn ở các từ: “Ngày

tháng”, “Năm”, “chiến tranh”, “chính phủ”, “tổ chức” Dé phù hợp và chính xác với

câu hỏi câu hỏi thì đồng thời câu trả lời phải có tính da dang tương tự hoặc cao hơn dé

có thê diễn giải và giải dap các van đê một cách chính xác va cụ thê hon.

trong khi § ` van hoa

trộn es; khU vực

trở thành 5 as > hành tính, 2

có thé er rane, a, Chính phủ

ets une một số"»st động lực lương"

„ lãnh đạo quan trong’ lổn nhất >

‘ sử dung vom Tuy nhién =.

oper Việt: Nai

t0 - 80 và»fEÄ(u ki VỚI Cac

esc a the Tỷ 2 trong do F trung tam

Ue xã hội sau khi 5

=Cĩ À vua đặc biệt Để, quốc F

me bà Hoa Kỳ Công-sẽf ego dai đọc

lợn Công hoa Quốc hôi dân tộc 1

“5 ĐỘ One THẾ ni Quốc hội aly nay bắt đầu

£5 c= những người sản xuất the gidi

E

ry dau tiện lẻ : { :

5s 0 Đào Nha à: mộ phát “triển

3 ' ngôn ngữ i i a fo chién t anh,„

cua Ong từ nam es

Hình 3.7: WordCloud thé hiện tan suất xuất hiện từ vựng trên tập đoạn văn

Trang 31

Cuôi cùng ở hình 3.7 là tập hợp tân suât xuât hiện từ vựng của tập câu hỏi và câu trả

lời, vì là nơi được trích xuât câu hỏi và câu trả lời một các cụ thê và chi tiêt kèm theo

việc ở một đoạn văn có thê trích xuât được nhiêu câu hỏi và câu trả lời, dân đên tính đa

dang và phô biên của từ vựng ở mức độ cao, thê hiện rõ tính đa lĩnh vực của bộ dữ liệu.

Đối với khóa luận này thực hiện bài toán đa lĩnh vực, kèm theo việc bộ dữ liệu không

chỉ ở đa dạng ở rất nhiều lĩnh vực khác nhau, tần xuất xuất hiện những từ vựng của cácchuyên ngành là rât ít, ngược lại các từ đê hỏi và các từ thông dụng thì có tân suât xuât hiện khá cao.

3.6 Kết luận

Tổng kết lại quả trình tìm hiểu và thực hiện các nghiên cứu va huấn luyện bộ dữ liệu

phù hợp với mô hình và đề tài cũng như phù hợp với mục dich đặt ra của khóa luận tốtnghiệp, nhóm đã tiến hành thao tác bộ dir liệu UIT-ViQuAD2.0 Đây là bộ dữ liệu tiếngViệt và chứa nhiều lĩnh vực khác nhau cùng với mô hình mà nhóm đã tìm hiểu sẽ manglại một hệ thống Hỏi — Đáp ở đa lĩnh vực quan trọng góp phan giúp ích cho nghiên cứu

Trang 32

CHƯƠNG 4: HỆ THÓNG MBARTQA

Đề đề xuất được mô hình dạng sinh đạt kết quả cao trong bài toán Hỏi-Đáp, chúng tôi

đã thực hiện 2 giai đoạn thử nghiệm với 2 phương pháp khác nhau:

- Huấn luyện mô hình mà không sử dụng kỹ thuật tách từ

- Huan luyện mô hình có sử dung kỹ thuật tach từ

(learning rate, weight_decay)

Chọn ra phiên bản có

hiệu suất tốt nhất làm

base_line cho hệ thống

Hình 4.1 Mô hình hệ thống

Trang 33

4.1 Tach từ:

Khác với tiếng anh, 1 token của tiếng việt có thé gồm nhiều chữ Trường hợp từ đó

xuất hiện không có nghĩa có thể xảy ra khi chỉ đơn thuần sử dụng tokenizer như trong

tiếng anh

Trong nghiên cứu của mBART cũng chỉ ra, trước khi thực hiện tiền huấn luyện trên

một ngôn ngữ nào khác mà một từ có nghĩa của nó có thé gồm nhiều chữ thì sẽ phải

thực hiện bước tách từ (đề xuất sử dụng Sentencepiece) Trong phạm vi tiếng việt,

chúng tôi đã quyết định sử dụng thư viện py_vncorenlp cho bước tách từ này bởi độ

chính xác của nó lên đên 96%.

Sau khi thực hiện tách từ, chúng tôi phải cập nhật lại tham SỐ answer_start trong câu trảlời bởi vì câu trả lời có thé sẽ có vị trí không khớp so với vị trí trong văn ban sau khi

thực hiện tách từ.

Đương nhiên trong quá trình cập nhật lại giá trị của tham số answer_start van sẽ có

trường hợp không chính xác Cụ thể: trong 1 đoạn ngữ liệu, câu trả lời là “Paris” và từ

này xuất hiện trên 1 lần trong đoạn ngữ liệu dẫn đến việc cập nhật bị nhầm lẫn Chúng

tôi xem những trường hợp này là nhiễu và vẫn thực hiện huấn luyện ngay trên cả bộ dit

liệu có chứa những trường hợp nhiêu vừa được nêu ra ở trên.

Do thời gian nghiên cứu có hạn, nên trước mắt đó là giải pháp tạm thời của chúng tôi

Chúng tôi sẽ xem đây là một điểm hạn chế ảnh hưởng tới hiệu suất của mô hình và

trong tương lai sẽ có biện pháp cải thiện.

4.2 Tiền huấn luyện:

25

Trang 34

Dé có thé đê xuât được phiên ban có kêt quả tot vê hiệu suât của mô hình trong giới

hạn phạm vi khóa luận, chúng tôi đã thực hiện tiên huân luyện nhiêu lân với các lựa

chọn khác nhau về giá trị tham số của AdamW optimizer Cu thé:

- learning rate: thử nghiệm với các lựa chon như: le-5, 2e-5, 5e-5

- weight decay: thử nghiệm với 2 lựa chon: 0.01 va 0.1.

Với nhiều lần thực nghiệm nhóm chúng tôi đã nhận thấy ở phạm vi bộ dữ liệu

UIT-ViQuAD2.0 thì tham số weight decay = 0.01 sẽ đem lại hiệu suất (F1-score và EM)

cao hơn.

4.43 mBART:

mBART (Multilingual Denoising Autoencoder for Pretraining) là một kiến trúc mô

hình học sâu được nghiên cứu và phát hành bởi Facebook AT Research (FAIR).

mBART là là một ban mở rộng BART (Bidirectional and Auto-Regressive

Transformers) nhằm mục đích hỗ trợ đa ngôn ngữ

mBART được đảo tạo trên nhiều miền ngôn ngữ khác nhau, cung cấp một tập hợp

tham số có thé được điều chỉnh lại cho bat kỳ ngôn ngữ nào Chính vì thế không cầnphải sửa đổi bat kỳ cấu trúc hay phương án huấn luyện cho một ngôn ngữ cụ thé trongmột bài toán cụ thé Chúng ta chỉ cần tiền huấn luyện lại mô hình trên tập dữ liệu củabài toán nhất định thì vẫn đạt được hiệu suất cao trên một ngôn ngữ bat kỳ (tiếng việt,tiếng A Rập )

mBART được tiền huấn luyện trên các tập dữ liệu không 16 thuộc các nhiều ngôn ngữ

khác nhau Cụ thể, trong tiếng việt, nBART đã được tiền huyến luyện trên bộ dir liệu

có kích thước 137.3GB.

mBART là một trong số phương pháp đầu tiên tiến hành đào tạo một mô hình toàn bộvăn bản theo trình tự bằng cách khử nhiễu toàn bộ các ngôn ngữ, thay vì chỉ tập trung

Ngày đăng: 02/10/2024, 04:51

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w