Từ đó nhóm đã chọn hướngtiếp cận chính là kết hợp Xử lý ngôn ngữ tự nhiên và Học sâu, đồng thời tìm hiểu một số mô hình tiêu biểu được đưa ra dé giải quyết bai toán và chọn ra một mô hìn
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG DAI HỌC CÔNG NGHỆ THONG TIN
KHOA HỆ THÓNG THÔNG TIN
NGUYEN ĐÌNH NGOC - 16520829
NGUYEN THỊ LAN VY - 16521474
KHOA LUAN TOT NGHIEP
UNG DUNG MO HINH XLNET DE XAY DUNG
HE THONG HOI DAP
Applying XLNET model to build Question Answering System
KY SU NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN
TS CAO THI NHAN
TP HO CHi MINH, 2021
Trang 2THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
Ti8ầy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
Trang 3LỜI CẢM ƠN
Nhóm thực hiện xin gửi lời cảm ơn chân thành nhất đến TS Cao Thị Nhạn
đã tận tình hướng dẫn, giúp đỡ, góp ý nhóm thực hiện trong quá trình nghiên cứu
dé có điều kiện bồ sung, hoàn thiện bài khóa luận cũng như trau dồi vốn kiến thức
của bản thân.
Xin chân thành cảm ơn!
Thành phó Hồ Chi Minh, tháng 12 năm 2020
Nhóm thực hiện Nguyễn Đình Ngọc
Nguyễn Thị Lan Vy
Trang 4MỤC LỤC
Chương 1 GIỚI THIỆU DE TÀ IL 2- 2-22 5£ se s£Ss£ss£s2£s£sessesseszes 2
1.1 _ Lý do chọn đề tài c5: 22t S221 21212121112112121121 21111 111cc 21.2 _ Hệ thống hỏi đáp ¿5c tt 22t 2212121211211 111cc re 21.3 Động lực thực hiện đề tài - - 2-5252 22222222323 2EEExerrrrrkrred 41.4 _ Phạm vi thực hiện và mục tiêu nghiên cứu Cn ác ccn sen nrererererseg 6
Chương 2 CÁC HE THONG HOI ĐÁPP - 5° 5£ s s2 se seEsessessesses 7
2.1 _ Các dạng hệ thống Hỏi- Đáp 5-5252 t2 E2 2EEE121E2121 211.2 cree 7
2.1.1 Phân loại theo miền thông tỉn - ¿2 + + 2+E+E+E££E+EeEeEzkrrersrsee 72.1.2 Phân loại theo cách tiếp can > 7
"5N ong 8 n,šän ,ÔỎ 9
2.4 Mô hình học sâu với bài toán Hỏi-Đáp - 5 3S *++sk+sexssrees 16
2.4.2 Kếtluận erriierrrreririririiirrrrreried 21
Chương 3 CƠ SỞ LÝ THUYẾT 5-5 << s2 se se s£ssessessEsersessessese 22
3.1 | Convolutional neural network (CNN&) ccccS S2 22
3.1.2 Kiến trúc của CNNov seecseesseesseesseesneesneesneesssesnnecsneesneesneesneesneeeneenees 23
3.2 Recurrent Neural Network (RNN§S) -LQQQ HH HHs nhe 23
3.3 Long Short Term Memory (LSTM) Ăn key 24
3.4.1 Mô hình Sequence-To-Sequence (Seq2§Segq) cày 28
Trang 53.5 Ky thuật Self-A({entiOn - c1 11 vn vn nen 31
3.6 Ki thuật Self-Atenttion mã hóa VỊ Trí Tương Đối (Self- Atenttion with
Relative Position EnCOdITðS) - 1111313311111 11 1111 1g ng key 33
3.7 _ Transfer learning va Pre-trained ModelL - -s«++scxsseeersseke 36
3.8.1 Tensorflow 2.Ũ cv và 38
3.8.2 TensorboardX cư 38
Chương 4 MÔ HÌNH XLNET - 2 << s2 ©s£ se s£ssessessssersessessese 39
4.1 _ Tổng quan mô hình XLUNet :- + 2 5 2 S£+E+E££E£E+E£E£EzEerererxereree 39
4.2 _ Kiến trúc mô hình XLNet ooececceccccescccssccsesessesceseseesesecsesscsesscsessssesssseeeeees 44
4.2.1 Huấn luyện SentencePiece Model ¿25+ x+c++z++x++x+zxz 44
4.2.2 Tiền xử lý dữ liệu -©+Sk+2ESEESEEEEEEErkerkererrrrrrei 44
4.2.3 Huấn luyện mô hình - ¿2 + ©E+E+E£EE£E+E£EEEE+EvEeEEzEerererererri 50
Trang 65.2.4 _ Các lớp EnCO(eT Gv SH HH thư 72
5.2.5 Dự đốn xác suất vị trí bắt đầu và kết thúc của câu trả lời 74
5.3 Cơng đoạn huấn luyỆn -+- 2+ 2+E9SE+E£EEEEEEEEEEEEEEEEEEErErrkrrerrrei 755.4 _ Cơng đoạn kiểm thử ¿+ 2+E+SE+E£EE2EEEEEEEEEEEEEEEEEEEEEErkrrrrerrrei 76
5.4.1 Cơng đoạn valÏidatIOI c 133131 v1 9 1 vn ng vn 76
5.4.2 Cơng đoạn €vaÏUa(€ -.c 1k1 1 SH TT TH ng kg vn rưy 71
5.5 Tổ chức cấu trúc mã nguƯn 5 2+2 E+E£EE+E+E£EE+EEEeErErEerererrses 77
5.6 _ Thực nghiỆm Ăn TH nh rry 80
5.6.1 _ Tiền xử lí đữ liệu -:- 2 ©E+EE+ESEE2EEE2 E212 211tr 805.6.2 _ Kết quả quá trình huấn luyện, kiểm thử 2-2 2 s+sz+s+++‡ 80
Chương 6 KET LUẬN VA HƯỚNG PHAT TRIEN -5- 5° se 98
6.1 Kết quả đạt được 7c t cty 98
62 Hạnchế©t UID os @7 / 986.3 Hướng phát triỂn :- +52 SE E21 21111211 re 98
Trang 7DANH MỤC HÌNH
Hình 1.1: Sơ đồ đơn giản của hệ thống hỏi đáp - 5 25s +££+zx+£z£zxzxecez 3Hình 1.2: Ví dụ hệ thông Hỏi-Đáp - - 25 S2 SE2E‡EEEEEE2EEEEEEEEEEEEEEEEErrkrkrrrree 4Hình 1.3: Ví dụ về Google Search -+- + 2+5£+x2x‡EE2EE2EE2EEEerxerxerrrrrkrree 5Hình 2.1: Cau trúc dit liệu file JSON - ¿2-5 ©E+S£+E‡E2E£EE2EeEErErrkrrerkrree 13Hình 3.1: Ví dụ về convolutiOI - ¿c5 Ext SE SE EEEEEEESESESESEEEEEEEEErErkrkrkrkrerres 22Hình 3.2: Kiến trúc của CNN c:-2++ctt tr hư 23
Igiii]if 6i) /108:ïii18.37000— 24
i06 ga 2y081 000,118 26
Hình 3.7: Kiểm tra thông tin lưu vào Cell state trong LSTM - 26
Hình 3.8: Kiểm tra thông tin lưu vào Cell state trong LSTM -. - 27
Hình 3.9: Cập nhật output LSTÌM Gv 27
Hình 3.10: Ví dụ về cau trúc encoder — decoders cho dịch máy - 28
Hình 4.1: Minh họa cho Permutation Language Model « -++<««s<++ 41
Hình 4.2: Minh hoa cho Two-Stream Se]lf- Atfen(fion -c << << << <<<<<<5 43
Hình 4.5: Cắt chuỗi input đafa - ¿2E S2SE2E9EEE2E9EEEE2121112121 121211 te 41
Hình 4.6: Chia chuỗi input thành các segmen( - + + 2 252 +s+*+x+x+xexvxezezs 48 Hình 4.7: Mask chuỗi input ¿552222352 2E2E£EEE2EeEEEEEESErEkrvererrrxrrerrrrrrea 49
Hình 4.9: Minh hoạ mô hình Transformer truyền thống 2- 2 s2 2s 5+2 53Hình 5.1: Kiến trúc mô hình bài toán Hỏi-Đáp -2- 5-52-5522 +cs+Ee£xzEerxecez 56Hình 5.2: Kiến trúc mô hình bài toán Hỏi-Đáp - 2-5: 2-5 52s+S++£c£xzzczxscez 57
Trang 8Minh họa về các mẫu dữ liệu sau khi phân rã tập dữ liệu 58
Minh họa cho tokenization và vector hóa đoạn văn va câu hỏi 60
Minh họa cho ghép nối đoạn văn và câu hỏi 5 s55z+5z55+¿ 62Minh họa cho ghép nối đoạn văn và câu hỏi (tiếp theo) -. 63
Lưu lại chỉ số kí tự bắt đầu và kết thúc trong chuỗi gốc của mỗi token 65
Hình 5.9: Lưu lại chỉ số kí tự bắt đầu và kết thúc trong chuỗi gốc của mỗi token
(tIẾP théeO) G2211 E21 1221111211112111211 1121111 01111011110111111211121101 110111 grre 66
Hình 5.11: Minh hoa cho attention_mask cccccccccccccccceeceeeeeeeeesaessseaeeseseseeees 68
Hình 5.12: Minh hoa lưu lại chi số token [CLS_ID] c.ccececscescsesesseseseesesseseeseeeeees 68
Hình 5.13: Minh hoa sinh chuỗi p_mask ccccccccccscesesesceseseseesesesestesesesteseseseeeees 69
Hình 5.15: Tổ chức cau trúc mã nguỒn ¿2 + 52+ E+E+E££E+E+E£EE+E+EeEzEzEersrxee 78Hình 5.16: Sơ đồ Use Case hệ thống Hỏi - Đáp -¿- 5 2 52+S+£££zzE+£zzzzxez 87Hình 5.17: Trang bat đầu - ¿c5 2-52 Sc t2 222 2E EEEEEkerkerkrrkrrrrree 91
Hình 5.20: Giao diện thử nghiệm đoạn văn 1 (Độ khó: Trung Bình) 94
Hình 5.25: Trang EÁO - - LH HH kh 96
Hình 5.27: Trang lịch sử tìm kiẾm + - 2E +2 SE+E+E£EEEE+EEEEEEEEEEEEErErrrrrreeg 97
Trang 9DANH MUC BANG
Các loại câu tra lời của dataset SQuAlD ccccccSSS++SSSSsxs 10
Phân loại 192 ví dụ vào một hoặc nhiều nhóm ¿-¿ + + +s+xzxzs2 lãiThống kê trên tập SQUAD V1.1 và SQUAD v2.0 2c cs+s2 14Thông số hai mô hình XLNET_Base và XLNET_ Large 51
Số lượng mẫu dữ liệu - 2 + 2+2 E£EE£E+E£EEEEEEEEEEEEEEErrkrkrrrree 80Bang so sánh kết quả quá trình Validation va Evaluate -. 81
Ví dụ một số câu trả lời của mô hình Hỏi-Đáp - - 5-5 2252 82
Đặc tả Use Case Hỏi - Đáp - - - HS ng ng ve 87 Dac ta Use-Case Xem lịch sử câu hỏi c5 5 55555 << << << <<s<<+ 88
Trang 10DANH MỤC TU VIET TAT
Tir Tiéng Anh Tiéng Viét
SQuAD | Stanford Question Answering Bộ đữ liệu Hỏi Dap cua Stanford
Dataset
NPL Natural Language Processing Xử lí ngôn ngữ tự nhiên
RC Reading Comprehension Doc hiéu
QA Question Answering Hoi Dap
BiDAF | Bidirectional Attention Flow Luong chú ý hai chiều
CNN Convolutional Nerual Network Mang than kinh tich chap
RNN Recurrent Neural Network Mang thần kinh hồi quy
LSTM | Long Short Term Memory Bộ nhớ dai — ngắn hạn
Trang 11TOM TAT KHÓA LUẬN
Xử lý ngôn ngữ tự nhiên theo đà phát triển của công nghệ đang chiếm một vaitrò cực kỳ quan trọng trong nhiều lĩnh vực Đối với lĩnh vực này, ngày càng có nhiều
nghiên cứu được đưa ra nhăm mục đích tối đa hóa hiệu suất của Khoa học máy tính
đối với việc xử lý và các bài toán liên quan đến ngôn ngữ tự nhiên vào đời sống Cùngvới đó là sự phát triển vượt bậc của Trí tuệ nhân tạo làm thúc đây sự phát triển củacác nhiệm vụ Xử lý ngôn ngữ tự nhiên khi được kết hợp với Máy học, Học sâu Mộttrong rất nhiều nhiệm vụ của lĩnh vực này đó là Đọc hiểu Trong luận văn này nhóm
sẽ tập trung vào việc tìm hiểu và giải quyết bài toán Hỏi-Đáp đối với tiếng Anh
Đề bắt đầu nhóm thực hiện đã khảo sát những nghiên cứu về cách phân loạicũng như những hướng tiếp cận chính đối với bài toán Từ đó nhóm đã chọn hướngtiếp cận chính là kết hợp Xử lý ngôn ngữ tự nhiên và Học sâu, đồng thời tìm hiểu một
số mô hình tiêu biểu được đưa ra dé giải quyết bai toán và chọn ra một mô hình thíchhợp làm nền tảng Ngoài ra việc khảo sát về những tập dữ liệu huấn luyện cũng rấtquan trọng vì dữ liệu là nhân tổ tiên quyết đối với bài toán này Nhóm đã khảo sát và
chọn tập dữ liệu SQUAD được công bồ với hai bài báo chính là "SQuAD: 100,000+
Questions for Machine Comprehension of Text" "Know What You Don’t Know:
Unanswerable Questions for SQUAD" Báo cáo khóa luận gồm những chương sau:
Chương 1: Giới thiệu đề tài: Giới thiệu một cách tong quan nhất về dé tài, động lựcthực hiện và đề ra những mục tiêu cần hoàn thành
Chương 2: Các hệ thống Hỏi — Dap: Tóm tắt những kiến thức khảo sát đối với bàitoán Hỏi-Đáp, nguồn dữ liệu và cách đánh giá
Chương 3: Cơ sở lý thuyết: Tóm tắt những kiến thức nên tảng
Chương 4: Mô hình XLNET: Giới thiệu mô hình nền tảng cho bài toán Hỏi-Đáp —
XLNet.
Chương 5: Hiện thực mô hình: Phân tích cach thức hiện thực mô hình, thực nghiệm
và kết quả
Chương 6: Kết luận và hướng phát triển: Tổng kết kết quả đạt được, hạn chế và
hướng phát triển trong tương lai
Trang 12Chương 1 GIỚI THIỆU ĐÈ TÀI
1.1 Lý do chọn đề tài
Hiện nay trên thế giới, các hệ thống Hỏi-Đáp đã nồi lên như một hệ thống mạnh
mẽ dé tự động trả lời các câu hỏi của con người dưới dạng ngôn ngữ tự nhiên bằng
cách sử dụng những bộ dữ liệu có cấu trúc hoặc những bộ dữ liệu ngôn ngữ tự nhiênđược thu thập Các hệ thống này mang lại lợi ích ứng dụng một cách rõ rệt bang cachcho phép đặt câu hỏi va đưa ra câu trả lời một cách dé dang bang ngôn ngữ tự nhiên,
do vậy có thé xem những hệ thống Hỏi-Đáp là một dạng cao cấp hơn của việc trích
xuất thông tin Và càng ngày theo sự phát triển của công nghệ thì nhu cầu về một hệthong Hoi-Dap càng lớn bởi nó cung cấp câu trả lời một cách ngắn gon và cụ thé chotừng câu hỏi thay thé cho con người và những hạn chế của con người về mặt sức lực
cũng như độ chính xác.
Dựa trên điều kiện thực tế và những kiến thức và nghiên cứu có sẵn trên thế giới
và mong muốn nghiên cứu và xây dựng một hệ thống Hoi-Dap, nhóm thực hiện quyếtđịnh chọn dé tài Xây dựng hệ thống Hỏi-Đáp làm đề tài nghiên cứu cho luận văn tốtnghiệp dé hiện thực mô hình Hỏi-Đáp cho tiếng Anh Nhóm cũng hi vọng sẽ đónggóp như một tài liệu tham khảo đầy đủ chỉ tiết dành cho mọi đối tượng muốn nghiên
cứu về bài toán Hỏi-Đáp này
1.2 Hệ thống hỏi đáp
Đối với mỗi chúng ta, nhu cầu cần đặt câu hỏi là một khía cạnh thiết yếu để có
thê mở mang tri thức và tiềm lực của mình Tuy nhiên, việc tìm được câu trả lời chính
xác cho câu hỏi mình muốn có thể sẽ tiêu tốn rất nhiều thời gian cũng như công sức,bởi vi dit liệu kiến thức được tích lũy gần như là quá lớn đối với con người Do vậy,một hệ thống giúp chúng ta đặt câu hỏi và tìm được câu trả lời với độ tin cậy cao
trong thời gian ngăn hoàn toàn phù hợp đề đáp ứng nhu cầu trên Ví dụ, khi một người
muôn biét ngày và gid chính xác của một sự kiện lich sử, thay vì tiêu tôn nhiêu thời
Trang 13gian dé tìm trong những quyên sách dày cộm thì họ chi cần hỏi “Sự kiện A diễn ra
vào lúc nao?” và nhận được câu tra lời chuân xác ngay lập tức từ hệ thông Hoi-Dap.
Hệ thống Hỏi-Đáp lấy ý tưởng từ việc đọc hiểu của con người, khi chúng ta
nhận lấy một mẫu thông tin với độ dài nhất định thì ta hầu như luôn có thể hiểu vàchat lọc những thông tin then chốt dé giải đáp cho thắc mắc của mình Tương tự đốivới hệ thống Hỏi-Đáp, khi ta đưa vào một dữ liệu nào đó và một câu hỏi dưới dangngôn ngữ tự nhiên, hệ thống cần phải tìm kiếm và trích xuất được câu trả lời từ dữliệu đó Dưới đây là mô tả đơn giản cách thức làm việc của hệ thong Hoi-Dap
Hệ thống Hỏi — Đáp Câu trả lời
(QA System) (Answer)
Hình 1.1: Sơ đồ đơn giản của hệ thống hỏi đápThông thường khi ta muốn tìm hiểu cho một vấn đề nào đó chưa biết hoặc mơ
hồ, ta sẽ có những dạng câu hỏi đặc trưng như Khi nao, Ở đâu, Ai, Cái gi, Tại sao,
Dé trả lời cho chúng thi ta cần phải trải qua một quá trình tìm hiểu thông qua nhữngkiến thức đã tồn tại Nhưng đôi khi việc tìm kiếm sẽ tùy thuộc vào kiến thức có sẵn,
có thé lâu cũng có thé rất nhanh, có thé đúng và cũng có thể có sai sót Hệ thống Đáp sẽ giúp chúng ta thực hiện công việc đọc hiểu và tìm kiếm câu trả lời cần thiết.Trong phạm vi dé tài mà nhóm thực hiện thực hiện, bài toán chính sẽ là đưa vào mộtđoạn văn bản với số lượng từ giới hạn và một câu hói về một chỉ tiết trong đoạnvăn đó, đầu ra ta sẽ được một câu trả lời với kết quả có độ chính xác cao Với
Hoi-một ví dụ đơn giản sau sẽ giúp chúng ta có cái nhìn hình dung về hệ thống Hoi-Dap
Trang 14Doan văn ngữ cảnh: Viet Nam is the easternmost country on the Southeast
Asian Indochinese Peninsula Its capital city is Ha Noi, while its most
populous city is Ho Chi Minh City, also known by its former name of Saigon.
Câu trả lời: Ha Noi
Hình 1.2: Ví dụ hệ thống Hỏi-Đáp1.3 Động lực thực hiện đề tài
Với sự phát triển mang tính cách mạng của Trí tuệ nhân tạo, các lĩnh vực liênquan đến ngành này cũng phát triển nhanh chóng Trong đó, phạm vi đề tài mà nhómthực hiện muốn đề cập ở đây là Xử lý ngôn ngữ tự nhiên (Natural Language
Processing - NLP).
Xử ly ngôn ngữ tự nhiên là sự kết hợp giữa Khoa học máy tính và Ngôn ngữhọc nhằm mục đính làm sao dé cho máy tính có thé hiểu và thực hiện những côngviệc liên quan đến xử lý ngôn ngữ tự nhiên Tuy nhiên điều này không hề dễ dàng.Máy tính có thể làm việc hiệu quả trên dữ liệu được tô chức có cau trúc nhưng ngônngữ tự nhiên thì không hoàn toàn như vậy Rất nhiều thông tin tồn tại dưới dạngkhông hề có cấu trúc như câu văn, giọng nói, và những thông tin này lại vô cùngquan trọng trong quá trình phát triển của Trí tuệ nhân tạo vào đời sống Và trong lĩnhvực nay dé tài nhóm thực hiện chọn dé nghiên cứu và thực hiện đó là hệ thống Hoi-Đáp phục vụ vấn đề máy đọc hiểu (Machine Reading Comprehension)
Tuy nhiên việc đọc hiểu tiếng Anh khá phức tạp, ngoài ngữ pháp thì nó còn có
rất nhiều tiếng lóng, từ đồng nghĩa hoặc những cụm từ mang ý nghĩa riêng biệt trong
mỗi ngữ cảnh riêng biệt Đề giải quyết được vấn đề này thì đòi hỏi chúng ta phải cómột quy trình phức tạp gồm nhiều bài toán con Chúng ta sẽ phải giải quyết từng bài
toán con một đê giải quyết bai toán ban đâu với mục tiêu giúp máy có thê hiéu được
Trang 15ngôn ngữ tự nhiên của con người và phục vụ được mong đợi của từng bài toán riêng
biệt Một số bài toán con có thé kế đến như:
¢ Sentence segmentation
¢ Tokenization
* Parts of Speech Tagging
° Named Entity Recognition
¢ Sentiment Analysis
* Categorization va Classification
Những bài toán về Hỏi-Đáp đã có rất nhiều nghiên cứu va phương pháp thực
hiện trên thê giới, đây cũng là nguôn động lực và tiép sức rat lớn cho việc nghiên cứu
đê tài của nhóm thực hiện Động lực chính mà nhóm mong muôn thực hiện chính là
tính ứng dụng thực tiễn vào nhiều lĩnh vực trong đời sống mà đề tài mang lại Việctruy xuất thông tin nhanh chóng và chính xác giúp ta tiết kiệm rất nhiều thời gian vàđồng thời cũng bớt đi rất nhiều thông tin dư thừa trong quá trình tìm kiếm Chang hannhư công cụ tìm kiếm của Google, thay vì kết quả cho câu hỏi là hàng loạt bài viết có
liên quan thì nó sẽ có câu trả lời chính xác nhat cho điêu mà chúng ta thắc mặc Tuy
nhiên với dé tài này phạm vi sẽ không được rộng cũng như tiện lợi khi so sánh với Google.
Google who is the first vietnamese to fly into space x fir) $ Q
Khoảng 87.300.000 kết quả (0,46 giâ)
Phạm Tuân
Pham Tuân, (born Feb 14, 1947, Quôc Tuân, Viet.), Vietnamese pilot and cosmonaut, the first Vietnamese citizen in space.
www.britannica.com › Science › Astronomy ¥
Pham Tuan | Vietnamese pilot and cosmonaut | Britannica
Pham Tuan <
Phi công
Pham Tuân là phi công, phi hành gia người Việt Ông là người đầu
tiên của Việt Nam và châu Á bay lên vũ trụ vào năm 1980 trong.
chương trình Interkosmos của Liên Xô Wikipedia
Hình 1.3: Ví dụ về Google Search!
! https://www.google.com/
Trang 16Một ứng dụng khác mà tính thực tiễn cũng rất cao đó là dựa vào hệ thống
Hỏi-Đáp ta có thé xây dựng một con chatbot cho các trang web Chang hạn như trongdoanh nghiệp, chatbot này sẽ giúp hỗ trợ người dùng trong vấn đề tìm hiểu sản phẩmhoặc giúp nhân viên tìm hiểu về các quy định của doanh nghiệp, Một ví dụ nữa chotính ứng dụng thực tiễn của hệ thống Hỏi-Đáp đó là mô hình giảng day ảo, hệ thống
sẽ đóng vai trò như một giáo viên để trả lời các câu hỏi cho học sinh Điều này sẽgiúp chúng ta giảm thiểu tối đa thời gian và đồng thời tránh đi những sai sót trong
quá trình tìm hiệu với lượng nội dung lớn.
1.4 Phạm vi thực hiện và mục tiêu nghiên cứu đề tài
Cuối cùng với hi vọng đề tài cùng với bài báo cáo này sẽ là tài liệu tham khảo
cho những cá nhân, tập thể mong muốn tham khảo, tiếp cận và giải quyết bài toán
Hoi-Dap.
Day là một dé tài rat thú vị va mang tính ứng dụng thực tiễn rất cao và rất dadạng Như đã nói ở trên, nhóm thực hiện muốn xây dựng một hệ thống Hỏi-Đáp mà
ở đó ta có thê tiết kiệm được thời gian dé có thé có được những câu trả lời cho câu
hỏi của mình Cụ thê đôi với đê tài, nhiệm vụ trong quá trình thực hiện luận văn gôm:
e = Thứ nhất, khảo sát những hướng tiếp cận đối với bài toán, và chọn ra một
cách tiếp cận phù hợp nhất với bài toán mà đề tài đặt ra Từ đó, nhóm sẽ khảosát và lựa chọn bộ dit liệu và cách đánh giá phù hợp đối với đề tài đưa ra Cuốicùng sẽ là việc phân tích tìm hiểu một số mô hình tiêu biéu dé chọn ra được
mô hình nền tảng
e = Thứ hai, phân tích mô hình nền tảng đã chọn và hiện thực nó
e Thi ba, đưa ra những thực nghiệm và kết quả của mô hình đã hiện thực Đồng
thời xây dựng giao diện ứng dụng Hoi-Dap.
Trang 17Chuong 2 CAC HỆ THONG HOI ĐÁP
2.1 Các dạng hệ thống Hỏi- Đáp
Đối với những hệ thống Hỏi-Đáp, tùy thuộc vào cách phân loại mà ta có những
kiểu hệ thống Hỏi-Đáp khác nhau Cụ thể ta có thê có những cách phân loại hệ thống
Hỏi-Đáp như sau”:
2.1.1 Phan loại theo miền thông tin:
Ở phần này ta sẽ có hai loại hệ thống:
e Open-domain Question Answering system: cung cấp câu trả lời cho bat kỳ loại
câu hỏi nào.
e_ Close-domain Question Answering system: cung cấp câu trả lời trong những
miền với chủ đề cụ thể, ví dụ như: Bóng đá, Động vật, Đặc điểm của loại
nay đó là thông tin bị hạn chế Nhiều hệ thống miền đóng có thé kết hợp chúnglại với nhau để tạo thành một hệ thống miền mở
2.1.2 Phân loại theo cách tiếp cận:
e Information Retrieval based (IR-based) Question Answering System: hệ thong
này dựa vào kích thước không lồ của thong tin được truy cập trên các Web haytrên các ontology Cụ thé, cau trúc của hệ thống này có thé được phân tích như
sau:
o Đâu tiên, xử lý câu hỏi đê nhận diện được loại câu trả lời được đưa ra,
từ đó có thê tìm ra được loại thực thê mà câu trả lời chứa (người, địa
điểm hoặc thời gian, )
o Sau đó, từ những thông tin được trích xuất ở câu hỏi, hệ thống sẽ tạo ra
các truy van đề tiến hành tìm kiếm thông tin
? http://ai.stanford.edu/blog/answering-complex-questions/
Trang 18o Công cụ tìm kiêm sé đưa ra các kêt quả và xêp hạng các câu tra lời nay
đê chọn ra câu trả lời chính xác nhât.
e Knowledge based Question Answering: Phuong thức này có sự phụ thuộc lớn
vào kích thước văn bản trên Web Một số ontology thông dụng cho hệ thốngnày là DBpedia hoặc Freebase được trích xuất từ các hộp thông tin trên
Wikipedia hoặc những dữ liệu có cau trúc trên một số bài viết của Wiki Hệthống dạng này đưa ra câu trả lời cho các câu hỏi bằng cách ánh xạ những câuhỏi này tới một truy van qua một ontology Bat kỳ hình thức logic nào có
nguồn sốc từ ánh xạ, đều được sử dụng thông tin xác thực từ cơ sở dữ liệu
Nguồn dữ liệu có thể là bất kỳ cau trúc phúc tạp nào, ví dụ như các sự kiệnkhoa học hoặc các bài đọc không gian địa lý, đòi hỏi các truy van phức tạp
hoặc các truy van SQL Một truy van được người dùng hỏi được ánh xạ đến
một dạng giống như truy vấn logic được thực hiện bởi các trình phân tích cúpháp ngữ nghĩa Một số phương pháp được dùng dé phân tích cú pháp ngữ
nghĩa như sau:
o The Rule-Based method: tập trung vào việc phát triển các quy tắc được
tạo thủ công đề trích xuất các liên kết thường xuyên xảy ra từ các truy
vân.
o Supervised methods: huấn luyện một mô hình để tạo ánh xạ từ các cặp
câu hỏi thành dạng logic tương ứng.
e Natural Language Processing Question Answering: Phương thức tiếp cận này
dựa trên việc sử dụng trực giác ngôn ngữ (linguistic intuitions) va các phương
pháp Máy học (Machine Learning) dé trích xuất câu tra lời từ đoạn văn tríchdẫn Với cách tiếp cận bằng ngôn ngữ, ta có thé phân tích cú pháp day đủ củamột bộ dữ liệu trên một ngôn ngữ nhất định với các kỹ thuật như gán nhãn từ
vựng (Part of Speech Tagging, token hóa các câu (Tokenization), phân tích cú
pháp (Parsing) Điều này giúp ta có thé dé dàng kết hợp giữa May hoc
(Machine Learning) và Xử lý ngôn ngữ tự nhiên (NLP).