1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Hệ thống thông tin: Ứng dụng mô hình XLNET để xây dựng hệ thống hỏi đáp

36 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng mô hình XLNET để xây dựng hệ thống hỏi đáp
Tác giả Nguyễn Đình Ngọc, Nguyễn Thị Lan Vy
Người hướng dẫn TS. Cao Thị Nhạn
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Hệ thống Thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 36
Dung lượng 17,64 MB

Nội dung

Từ đó nhóm đã chọn hướngtiếp cận chính là kết hợp Xử lý ngôn ngữ tự nhiên và Học sâu, đồng thời tìm hiểu một số mô hình tiêu biểu được đưa ra dé giải quyết bai toán và chọn ra một mô hìn

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG DAI HỌC CÔNG NGHỆ THONG TIN

KHOA HỆ THÓNG THÔNG TIN

NGUYEN ĐÌNH NGOC - 16520829

NGUYEN THỊ LAN VY - 16521474

KHOA LUAN TOT NGHIEP

UNG DUNG MO HINH XLNET DE XAY DUNG

HE THONG HOI DAP

Applying XLNET model to build Question Answering System

KY SU NGANH HE THONG THONG TIN

GIANG VIEN HUONG DAN

TS CAO THI NHAN

TP HO CHi MINH, 2021

Trang 2

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

Ti8ầy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

Trang 3

LỜI CẢM ƠN

Nhóm thực hiện xin gửi lời cảm ơn chân thành nhất đến TS Cao Thị Nhạn

đã tận tình hướng dẫn, giúp đỡ, góp ý nhóm thực hiện trong quá trình nghiên cứu

dé có điều kiện bồ sung, hoàn thiện bài khóa luận cũng như trau dồi vốn kiến thức

của bản thân.

Xin chân thành cảm ơn!

Thành phó Hồ Chi Minh, tháng 12 năm 2020

Nhóm thực hiện Nguyễn Đình Ngọc

Nguyễn Thị Lan Vy

Trang 4

MỤC LỤC

Chương 1 GIỚI THIỆU DE TÀ IL 2- 2-22 5£ se s£Ss£ss£s2£s£sessesseszes 2

1.1 _ Lý do chọn đề tài c5: 22t S221 21212121112112121121 21111 111cc 21.2 _ Hệ thống hỏi đáp ¿5c tt 22t 2212121211211 111cc re 21.3 Động lực thực hiện đề tài - - 2-5252 22222222323 2EEExerrrrrkrred 41.4 _ Phạm vi thực hiện và mục tiêu nghiên cứu Cn ác ccn sen nrererererseg 6

Chương 2 CÁC HE THONG HOI ĐÁPP - 5° 5£ s s2 se seEsessessesses 7

2.1 _ Các dạng hệ thống Hỏi- Đáp 5-5252 t2 E2 2EEE121E2121 211.2 cree 7

2.1.1 Phân loại theo miền thông tỉn - ¿2 + + 2+E+E+E££E+EeEeEzkrrersrsee 72.1.2 Phân loại theo cách tiếp can > 7

"5N ong 8 n,šän ,ÔỎ 9

2.4 Mô hình học sâu với bài toán Hỏi-Đáp - 5 3S *++sk+sexssrees 16

2.4.2 Kếtluận erriierrrreririririiirrrrreried 21

Chương 3 CƠ SỞ LÝ THUYẾT 5-5 << s2 se se s£ssessessEsersessessese 22

3.1 | Convolutional neural network (CNN&) ccccS S2 22

3.1.2 Kiến trúc của CNNov seecseesseesseesseesneesneesneesssesnnecsneesneesneesneesneeeneenees 23

3.2 Recurrent Neural Network (RNN§S) -LQQQ HH HHs nhe 23

3.3 Long Short Term Memory (LSTM) Ăn key 24

3.4.1 Mô hình Sequence-To-Sequence (Seq2§Segq) cày 28

Trang 5

3.5 Ky thuật Self-A({entiOn - c1 11 vn vn nen 31

3.6 Ki thuật Self-Atenttion mã hóa VỊ Trí Tương Đối (Self- Atenttion with

Relative Position EnCOdITðS) - 1111313311111 11 1111 1g ng key 33

3.7 _ Transfer learning va Pre-trained ModelL - -s«++scxsseeersseke 36

3.8.1 Tensorflow 2.Ũ cv và 38

3.8.2 TensorboardX cư 38

Chương 4 MÔ HÌNH XLNET - 2 << s2 ©s£ se s£ssessessssersessessese 39

4.1 _ Tổng quan mô hình XLUNet :- + 2 5 2 S£+E+E££E£E+E£E£EzEerererxereree 39

4.2 _ Kiến trúc mô hình XLNet ooececceccccescccssccsesessesceseseesesecsesscsesscsessssesssseeeeees 44

4.2.1 Huấn luyện SentencePiece Model ¿25+ x+c++z++x++x+zxz 44

4.2.2 Tiền xử lý dữ liệu -©+Sk+2ESEESEEEEEEErkerkererrrrrrei 44

4.2.3 Huấn luyện mô hình - ¿2 + ©E+E+E£EE£E+E£EEEE+EvEeEEzEerererererri 50

Trang 6

5.2.4 _ Các lớp EnCO(eT Gv SH HH thư 72

5.2.5 Dự đốn xác suất vị trí bắt đầu và kết thúc của câu trả lời 74

5.3 Cơng đoạn huấn luyỆn -+- 2+ 2+E9SE+E£EEEEEEEEEEEEEEEEEEErErrkrrerrrei 755.4 _ Cơng đoạn kiểm thử ¿+ 2+E+SE+E£EE2EEEEEEEEEEEEEEEEEEEEEErkrrrrerrrei 76

5.4.1 Cơng đoạn valÏidatIOI c 133131 v1 9 1 vn ng vn 76

5.4.2 Cơng đoạn €vaÏUa(€ -.c 1k1 1 SH TT TH ng kg vn rưy 71

5.5 Tổ chức cấu trúc mã nguƯn 5 2+2 E+E£EE+E+E£EE+EEEeErErEerererrses 77

5.6 _ Thực nghiỆm Ăn TH nh rry 80

5.6.1 _ Tiền xử lí đữ liệu -:- 2 ©E+EE+ESEE2EEE2 E212 211tr 805.6.2 _ Kết quả quá trình huấn luyện, kiểm thử 2-2 2 s+sz+s+++‡ 80

Chương 6 KET LUẬN VA HƯỚNG PHAT TRIEN -5- 5° se 98

6.1 Kết quả đạt được 7c t cty 98

62 Hạnchế©t UID os @7 / 986.3 Hướng phát triỂn :- +52 SE E21 21111211 re 98

Trang 7

DANH MỤC HÌNH

Hình 1.1: Sơ đồ đơn giản của hệ thống hỏi đáp - 5 25s +££+zx+£z£zxzxecez 3Hình 1.2: Ví dụ hệ thông Hỏi-Đáp - - 25 S2 SE2E‡EEEEEE2EEEEEEEEEEEEEEEEErrkrkrrrree 4Hình 1.3: Ví dụ về Google Search -+- + 2+5£+x2x‡EE2EE2EE2EEEerxerxerrrrrkrree 5Hình 2.1: Cau trúc dit liệu file JSON - ¿2-5 ©E+S£+E‡E2E£EE2EeEErErrkrrerkrree 13Hình 3.1: Ví dụ về convolutiOI - ¿c5 Ext SE SE EEEEEEESESESESEEEEEEEEErErkrkrkrkrerres 22Hình 3.2: Kiến trúc của CNN c:-2++ctt tr hư 23

Igiii]if 6i) /108:ïii18.37000— 24

i06 ga 2y081 000,118 26

Hình 3.7: Kiểm tra thông tin lưu vào Cell state trong LSTM - 26

Hình 3.8: Kiểm tra thông tin lưu vào Cell state trong LSTM -. - 27

Hình 3.9: Cập nhật output LSTÌM Gv 27

Hình 3.10: Ví dụ về cau trúc encoder — decoders cho dịch máy - 28

Hình 4.1: Minh họa cho Permutation Language Model « -++<««s<++ 41

Hình 4.2: Minh hoa cho Two-Stream Se]lf- Atfen(fion -c << << << <<<<<<5 43

Hình 4.5: Cắt chuỗi input đafa - ¿2E S2SE2E9EEE2E9EEEE2121112121 121211 te 41

Hình 4.6: Chia chuỗi input thành các segmen( - + + 2 252 +s+*+x+x+xexvxezezs 48 Hình 4.7: Mask chuỗi input ¿552222352 2E2E£EEE2EeEEEEEESErEkrvererrrxrrerrrrrrea 49

Hình 4.9: Minh hoạ mô hình Transformer truyền thống 2- 2 s2 2s 5+2 53Hình 5.1: Kiến trúc mô hình bài toán Hỏi-Đáp -2- 5-52-5522 +cs+Ee£xzEerxecez 56Hình 5.2: Kiến trúc mô hình bài toán Hỏi-Đáp - 2-5: 2-5 52s+S++£c£xzzczxscez 57

Trang 8

Minh họa về các mẫu dữ liệu sau khi phân rã tập dữ liệu 58

Minh họa cho tokenization và vector hóa đoạn văn va câu hỏi 60

Minh họa cho ghép nối đoạn văn và câu hỏi 5 s55z+5z55+¿ 62Minh họa cho ghép nối đoạn văn và câu hỏi (tiếp theo) -. 63

Lưu lại chỉ số kí tự bắt đầu và kết thúc trong chuỗi gốc của mỗi token 65

Hình 5.9: Lưu lại chỉ số kí tự bắt đầu và kết thúc trong chuỗi gốc của mỗi token

(tIẾP théeO) G2211 E21 1221111211112111211 1121111 01111011110111111211121101 110111 grre 66

Hình 5.11: Minh hoa cho attention_mask cccccccccccccccceeceeeeeeeeesaessseaeeseseseeees 68

Hình 5.12: Minh hoa lưu lại chi số token [CLS_ID] c.ccececscescsesesseseseesesseseeseeeeees 68

Hình 5.13: Minh hoa sinh chuỗi p_mask ccccccccccscesesesceseseseesesesestesesesteseseseeeees 69

Hình 5.15: Tổ chức cau trúc mã nguỒn ¿2 + 52+ E+E+E££E+E+E£EE+E+EeEzEzEersrxee 78Hình 5.16: Sơ đồ Use Case hệ thống Hỏi - Đáp -¿- 5 2 52+S+£££zzE+£zzzzxez 87Hình 5.17: Trang bat đầu - ¿c5 2-52 Sc t2 222 2E EEEEEkerkerkrrkrrrrree 91

Hình 5.20: Giao diện thử nghiệm đoạn văn 1 (Độ khó: Trung Bình) 94

Hình 5.25: Trang EÁO - - LH HH kh 96

Hình 5.27: Trang lịch sử tìm kiẾm + - 2E +2 SE+E+E£EEEE+EEEEEEEEEEEEErErrrrrreeg 97

Trang 9

DANH MUC BANG

Các loại câu tra lời của dataset SQuAlD ccccccSSS++SSSSsxs 10

Phân loại 192 ví dụ vào một hoặc nhiều nhóm ¿-¿ + + +s+xzxzs2 lãiThống kê trên tập SQUAD V1.1 và SQUAD v2.0 2c cs+s2 14Thông số hai mô hình XLNET_Base và XLNET_ Large 51

Số lượng mẫu dữ liệu - 2 + 2+2 E£EE£E+E£EEEEEEEEEEEEEEErrkrkrrrree 80Bang so sánh kết quả quá trình Validation va Evaluate -. 81

Ví dụ một số câu trả lời của mô hình Hỏi-Đáp - - 5-5 2252 82

Đặc tả Use Case Hỏi - Đáp - - - HS ng ng ve 87 Dac ta Use-Case Xem lịch sử câu hỏi c5 5 55555 << << << <<s<<+ 88

Trang 10

DANH MỤC TU VIET TAT

Tir Tiéng Anh Tiéng Viét

SQuAD | Stanford Question Answering Bộ đữ liệu Hỏi Dap cua Stanford

Dataset

NPL Natural Language Processing Xử lí ngôn ngữ tự nhiên

RC Reading Comprehension Doc hiéu

QA Question Answering Hoi Dap

BiDAF | Bidirectional Attention Flow Luong chú ý hai chiều

CNN Convolutional Nerual Network Mang than kinh tich chap

RNN Recurrent Neural Network Mang thần kinh hồi quy

LSTM | Long Short Term Memory Bộ nhớ dai — ngắn hạn

Trang 11

TOM TAT KHÓA LUẬN

Xử lý ngôn ngữ tự nhiên theo đà phát triển của công nghệ đang chiếm một vaitrò cực kỳ quan trọng trong nhiều lĩnh vực Đối với lĩnh vực này, ngày càng có nhiều

nghiên cứu được đưa ra nhăm mục đích tối đa hóa hiệu suất của Khoa học máy tính

đối với việc xử lý và các bài toán liên quan đến ngôn ngữ tự nhiên vào đời sống Cùngvới đó là sự phát triển vượt bậc của Trí tuệ nhân tạo làm thúc đây sự phát triển củacác nhiệm vụ Xử lý ngôn ngữ tự nhiên khi được kết hợp với Máy học, Học sâu Mộttrong rất nhiều nhiệm vụ của lĩnh vực này đó là Đọc hiểu Trong luận văn này nhóm

sẽ tập trung vào việc tìm hiểu và giải quyết bài toán Hỏi-Đáp đối với tiếng Anh

Đề bắt đầu nhóm thực hiện đã khảo sát những nghiên cứu về cách phân loạicũng như những hướng tiếp cận chính đối với bài toán Từ đó nhóm đã chọn hướngtiếp cận chính là kết hợp Xử lý ngôn ngữ tự nhiên và Học sâu, đồng thời tìm hiểu một

số mô hình tiêu biểu được đưa ra dé giải quyết bai toán và chọn ra một mô hình thíchhợp làm nền tảng Ngoài ra việc khảo sát về những tập dữ liệu huấn luyện cũng rấtquan trọng vì dữ liệu là nhân tổ tiên quyết đối với bài toán này Nhóm đã khảo sát và

chọn tập dữ liệu SQUAD được công bồ với hai bài báo chính là "SQuAD: 100,000+

Questions for Machine Comprehension of Text" "Know What You Don’t Know:

Unanswerable Questions for SQUAD" Báo cáo khóa luận gồm những chương sau:

Chương 1: Giới thiệu đề tài: Giới thiệu một cách tong quan nhất về dé tài, động lựcthực hiện và đề ra những mục tiêu cần hoàn thành

Chương 2: Các hệ thống Hỏi — Dap: Tóm tắt những kiến thức khảo sát đối với bàitoán Hỏi-Đáp, nguồn dữ liệu và cách đánh giá

Chương 3: Cơ sở lý thuyết: Tóm tắt những kiến thức nên tảng

Chương 4: Mô hình XLNET: Giới thiệu mô hình nền tảng cho bài toán Hỏi-Đáp —

XLNet.

Chương 5: Hiện thực mô hình: Phân tích cach thức hiện thực mô hình, thực nghiệm

và kết quả

Chương 6: Kết luận và hướng phát triển: Tổng kết kết quả đạt được, hạn chế và

hướng phát triển trong tương lai

Trang 12

Chương 1 GIỚI THIỆU ĐÈ TÀI

1.1 Lý do chọn đề tài

Hiện nay trên thế giới, các hệ thống Hỏi-Đáp đã nồi lên như một hệ thống mạnh

mẽ dé tự động trả lời các câu hỏi của con người dưới dạng ngôn ngữ tự nhiên bằng

cách sử dụng những bộ dữ liệu có cấu trúc hoặc những bộ dữ liệu ngôn ngữ tự nhiênđược thu thập Các hệ thống này mang lại lợi ích ứng dụng một cách rõ rệt bang cachcho phép đặt câu hỏi va đưa ra câu trả lời một cách dé dang bang ngôn ngữ tự nhiên,

do vậy có thé xem những hệ thống Hỏi-Đáp là một dạng cao cấp hơn của việc trích

xuất thông tin Và càng ngày theo sự phát triển của công nghệ thì nhu cầu về một hệthong Hoi-Dap càng lớn bởi nó cung cấp câu trả lời một cách ngắn gon và cụ thé chotừng câu hỏi thay thé cho con người và những hạn chế của con người về mặt sức lực

cũng như độ chính xác.

Dựa trên điều kiện thực tế và những kiến thức và nghiên cứu có sẵn trên thế giới

và mong muốn nghiên cứu và xây dựng một hệ thống Hoi-Dap, nhóm thực hiện quyếtđịnh chọn dé tài Xây dựng hệ thống Hỏi-Đáp làm đề tài nghiên cứu cho luận văn tốtnghiệp dé hiện thực mô hình Hỏi-Đáp cho tiếng Anh Nhóm cũng hi vọng sẽ đónggóp như một tài liệu tham khảo đầy đủ chỉ tiết dành cho mọi đối tượng muốn nghiên

cứu về bài toán Hỏi-Đáp này

1.2 Hệ thống hỏi đáp

Đối với mỗi chúng ta, nhu cầu cần đặt câu hỏi là một khía cạnh thiết yếu để có

thê mở mang tri thức và tiềm lực của mình Tuy nhiên, việc tìm được câu trả lời chính

xác cho câu hỏi mình muốn có thể sẽ tiêu tốn rất nhiều thời gian cũng như công sức,bởi vi dit liệu kiến thức được tích lũy gần như là quá lớn đối với con người Do vậy,một hệ thống giúp chúng ta đặt câu hỏi và tìm được câu trả lời với độ tin cậy cao

trong thời gian ngăn hoàn toàn phù hợp đề đáp ứng nhu cầu trên Ví dụ, khi một người

muôn biét ngày và gid chính xác của một sự kiện lich sử, thay vì tiêu tôn nhiêu thời

Trang 13

gian dé tìm trong những quyên sách dày cộm thì họ chi cần hỏi “Sự kiện A diễn ra

vào lúc nao?” và nhận được câu tra lời chuân xác ngay lập tức từ hệ thông Hoi-Dap.

Hệ thống Hỏi-Đáp lấy ý tưởng từ việc đọc hiểu của con người, khi chúng ta

nhận lấy một mẫu thông tin với độ dài nhất định thì ta hầu như luôn có thể hiểu vàchat lọc những thông tin then chốt dé giải đáp cho thắc mắc của mình Tương tự đốivới hệ thống Hỏi-Đáp, khi ta đưa vào một dữ liệu nào đó và một câu hỏi dưới dangngôn ngữ tự nhiên, hệ thống cần phải tìm kiếm và trích xuất được câu trả lời từ dữliệu đó Dưới đây là mô tả đơn giản cách thức làm việc của hệ thong Hoi-Dap

Hệ thống Hỏi — Đáp Câu trả lời

(QA System) (Answer)

Hình 1.1: Sơ đồ đơn giản của hệ thống hỏi đápThông thường khi ta muốn tìm hiểu cho một vấn đề nào đó chưa biết hoặc mơ

hồ, ta sẽ có những dạng câu hỏi đặc trưng như Khi nao, Ở đâu, Ai, Cái gi, Tại sao,

Dé trả lời cho chúng thi ta cần phải trải qua một quá trình tìm hiểu thông qua nhữngkiến thức đã tồn tại Nhưng đôi khi việc tìm kiếm sẽ tùy thuộc vào kiến thức có sẵn,

có thé lâu cũng có thé rất nhanh, có thé đúng và cũng có thể có sai sót Hệ thống Đáp sẽ giúp chúng ta thực hiện công việc đọc hiểu và tìm kiếm câu trả lời cần thiết.Trong phạm vi dé tài mà nhóm thực hiện thực hiện, bài toán chính sẽ là đưa vào mộtđoạn văn bản với số lượng từ giới hạn và một câu hói về một chỉ tiết trong đoạnvăn đó, đầu ra ta sẽ được một câu trả lời với kết quả có độ chính xác cao Với

Hoi-một ví dụ đơn giản sau sẽ giúp chúng ta có cái nhìn hình dung về hệ thống Hoi-Dap

Trang 14

Doan văn ngữ cảnh: Viet Nam is the easternmost country on the Southeast

Asian Indochinese Peninsula Its capital city is Ha Noi, while its most

populous city is Ho Chi Minh City, also known by its former name of Saigon.

Câu trả lời: Ha Noi

Hình 1.2: Ví dụ hệ thống Hỏi-Đáp1.3 Động lực thực hiện đề tài

Với sự phát triển mang tính cách mạng của Trí tuệ nhân tạo, các lĩnh vực liênquan đến ngành này cũng phát triển nhanh chóng Trong đó, phạm vi đề tài mà nhómthực hiện muốn đề cập ở đây là Xử lý ngôn ngữ tự nhiên (Natural Language

Processing - NLP).

Xử ly ngôn ngữ tự nhiên là sự kết hợp giữa Khoa học máy tính và Ngôn ngữhọc nhằm mục đính làm sao dé cho máy tính có thé hiểu và thực hiện những côngviệc liên quan đến xử lý ngôn ngữ tự nhiên Tuy nhiên điều này không hề dễ dàng.Máy tính có thể làm việc hiệu quả trên dữ liệu được tô chức có cau trúc nhưng ngônngữ tự nhiên thì không hoàn toàn như vậy Rất nhiều thông tin tồn tại dưới dạngkhông hề có cấu trúc như câu văn, giọng nói, và những thông tin này lại vô cùngquan trọng trong quá trình phát triển của Trí tuệ nhân tạo vào đời sống Và trong lĩnhvực nay dé tài nhóm thực hiện chọn dé nghiên cứu và thực hiện đó là hệ thống Hoi-Đáp phục vụ vấn đề máy đọc hiểu (Machine Reading Comprehension)

Tuy nhiên việc đọc hiểu tiếng Anh khá phức tạp, ngoài ngữ pháp thì nó còn có

rất nhiều tiếng lóng, từ đồng nghĩa hoặc những cụm từ mang ý nghĩa riêng biệt trong

mỗi ngữ cảnh riêng biệt Đề giải quyết được vấn đề này thì đòi hỏi chúng ta phải cómột quy trình phức tạp gồm nhiều bài toán con Chúng ta sẽ phải giải quyết từng bài

toán con một đê giải quyết bai toán ban đâu với mục tiêu giúp máy có thê hiéu được

Trang 15

ngôn ngữ tự nhiên của con người và phục vụ được mong đợi của từng bài toán riêng

biệt Một số bài toán con có thé kế đến như:

¢ Sentence segmentation

¢ Tokenization

* Parts of Speech Tagging

° Named Entity Recognition

¢ Sentiment Analysis

* Categorization va Classification

Những bài toán về Hỏi-Đáp đã có rất nhiều nghiên cứu va phương pháp thực

hiện trên thê giới, đây cũng là nguôn động lực và tiép sức rat lớn cho việc nghiên cứu

đê tài của nhóm thực hiện Động lực chính mà nhóm mong muôn thực hiện chính là

tính ứng dụng thực tiễn vào nhiều lĩnh vực trong đời sống mà đề tài mang lại Việctruy xuất thông tin nhanh chóng và chính xác giúp ta tiết kiệm rất nhiều thời gian vàđồng thời cũng bớt đi rất nhiều thông tin dư thừa trong quá trình tìm kiếm Chang hannhư công cụ tìm kiếm của Google, thay vì kết quả cho câu hỏi là hàng loạt bài viết có

liên quan thì nó sẽ có câu trả lời chính xác nhat cho điêu mà chúng ta thắc mặc Tuy

nhiên với dé tài này phạm vi sẽ không được rộng cũng như tiện lợi khi so sánh với Google.

Google who is the first vietnamese to fly into space x fir) $ Q

Khoảng 87.300.000 kết quả (0,46 giâ)

Phạm Tuân

Pham Tuân, (born Feb 14, 1947, Quôc Tuân, Viet.), Vietnamese pilot and cosmonaut, the first Vietnamese citizen in space.

www.britannica.com › Science › Astronomy ¥

Pham Tuan | Vietnamese pilot and cosmonaut | Britannica

Pham Tuan <

Phi công

Pham Tuân là phi công, phi hành gia người Việt Ông là người đầu

tiên của Việt Nam và châu Á bay lên vũ trụ vào năm 1980 trong.

chương trình Interkosmos của Liên Xô Wikipedia

Hình 1.3: Ví dụ về Google Search!

! https://www.google.com/

Trang 16

Một ứng dụng khác mà tính thực tiễn cũng rất cao đó là dựa vào hệ thống

Hỏi-Đáp ta có thé xây dựng một con chatbot cho các trang web Chang hạn như trongdoanh nghiệp, chatbot này sẽ giúp hỗ trợ người dùng trong vấn đề tìm hiểu sản phẩmhoặc giúp nhân viên tìm hiểu về các quy định của doanh nghiệp, Một ví dụ nữa chotính ứng dụng thực tiễn của hệ thống Hỏi-Đáp đó là mô hình giảng day ảo, hệ thống

sẽ đóng vai trò như một giáo viên để trả lời các câu hỏi cho học sinh Điều này sẽgiúp chúng ta giảm thiểu tối đa thời gian và đồng thời tránh đi những sai sót trong

quá trình tìm hiệu với lượng nội dung lớn.

1.4 Phạm vi thực hiện và mục tiêu nghiên cứu đề tài

Cuối cùng với hi vọng đề tài cùng với bài báo cáo này sẽ là tài liệu tham khảo

cho những cá nhân, tập thể mong muốn tham khảo, tiếp cận và giải quyết bài toán

Hoi-Dap.

Day là một dé tài rat thú vị va mang tính ứng dụng thực tiễn rất cao và rất dadạng Như đã nói ở trên, nhóm thực hiện muốn xây dựng một hệ thống Hỏi-Đáp mà

ở đó ta có thê tiết kiệm được thời gian dé có thé có được những câu trả lời cho câu

hỏi của mình Cụ thê đôi với đê tài, nhiệm vụ trong quá trình thực hiện luận văn gôm:

e = Thứ nhất, khảo sát những hướng tiếp cận đối với bài toán, và chọn ra một

cách tiếp cận phù hợp nhất với bài toán mà đề tài đặt ra Từ đó, nhóm sẽ khảosát và lựa chọn bộ dit liệu và cách đánh giá phù hợp đối với đề tài đưa ra Cuốicùng sẽ là việc phân tích tìm hiểu một số mô hình tiêu biéu dé chọn ra được

mô hình nền tảng

e = Thứ hai, phân tích mô hình nền tảng đã chọn và hiện thực nó

e Thi ba, đưa ra những thực nghiệm và kết quả của mô hình đã hiện thực Đồng

thời xây dựng giao diện ứng dụng Hoi-Dap.

Trang 17

Chuong 2 CAC HỆ THONG HOI ĐÁP

2.1 Các dạng hệ thống Hỏi- Đáp

Đối với những hệ thống Hỏi-Đáp, tùy thuộc vào cách phân loại mà ta có những

kiểu hệ thống Hỏi-Đáp khác nhau Cụ thể ta có thê có những cách phân loại hệ thống

Hỏi-Đáp như sau”:

2.1.1 Phan loại theo miền thông tin:

Ở phần này ta sẽ có hai loại hệ thống:

e Open-domain Question Answering system: cung cấp câu trả lời cho bat kỳ loại

câu hỏi nào.

e_ Close-domain Question Answering system: cung cấp câu trả lời trong những

miền với chủ đề cụ thể, ví dụ như: Bóng đá, Động vật, Đặc điểm của loại

nay đó là thông tin bị hạn chế Nhiều hệ thống miền đóng có thé kết hợp chúnglại với nhau để tạo thành một hệ thống miền mở

2.1.2 Phân loại theo cách tiếp cận:

e Information Retrieval based (IR-based) Question Answering System: hệ thong

này dựa vào kích thước không lồ của thong tin được truy cập trên các Web haytrên các ontology Cụ thé, cau trúc của hệ thống này có thé được phân tích như

sau:

o Đâu tiên, xử lý câu hỏi đê nhận diện được loại câu trả lời được đưa ra,

từ đó có thê tìm ra được loại thực thê mà câu trả lời chứa (người, địa

điểm hoặc thời gian, )

o Sau đó, từ những thông tin được trích xuất ở câu hỏi, hệ thống sẽ tạo ra

các truy van đề tiến hành tìm kiếm thông tin

? http://ai.stanford.edu/blog/answering-complex-questions/

Trang 18

o Công cụ tìm kiêm sé đưa ra các kêt quả và xêp hạng các câu tra lời nay

đê chọn ra câu trả lời chính xác nhât.

e Knowledge based Question Answering: Phuong thức này có sự phụ thuộc lớn

vào kích thước văn bản trên Web Một số ontology thông dụng cho hệ thốngnày là DBpedia hoặc Freebase được trích xuất từ các hộp thông tin trên

Wikipedia hoặc những dữ liệu có cau trúc trên một số bài viết của Wiki Hệthống dạng này đưa ra câu trả lời cho các câu hỏi bằng cách ánh xạ những câuhỏi này tới một truy van qua một ontology Bat kỳ hình thức logic nào có

nguồn sốc từ ánh xạ, đều được sử dụng thông tin xác thực từ cơ sở dữ liệu

Nguồn dữ liệu có thể là bất kỳ cau trúc phúc tạp nào, ví dụ như các sự kiệnkhoa học hoặc các bài đọc không gian địa lý, đòi hỏi các truy van phức tạp

hoặc các truy van SQL Một truy van được người dùng hỏi được ánh xạ đến

một dạng giống như truy vấn logic được thực hiện bởi các trình phân tích cúpháp ngữ nghĩa Một số phương pháp được dùng dé phân tích cú pháp ngữ

nghĩa như sau:

o The Rule-Based method: tập trung vào việc phát triển các quy tắc được

tạo thủ công đề trích xuất các liên kết thường xuyên xảy ra từ các truy

vân.

o Supervised methods: huấn luyện một mô hình để tạo ánh xạ từ các cặp

câu hỏi thành dạng logic tương ứng.

e Natural Language Processing Question Answering: Phương thức tiếp cận này

dựa trên việc sử dụng trực giác ngôn ngữ (linguistic intuitions) va các phương

pháp Máy học (Machine Learning) dé trích xuất câu tra lời từ đoạn văn tríchdẫn Với cách tiếp cận bằng ngôn ngữ, ta có thé phân tích cú pháp day đủ củamột bộ dữ liệu trên một ngôn ngữ nhất định với các kỹ thuật như gán nhãn từ

vựng (Part of Speech Tagging, token hóa các câu (Tokenization), phân tích cú

pháp (Parsing) Điều này giúp ta có thé dé dàng kết hợp giữa May hoc

(Machine Learning) và Xử lý ngôn ngữ tự nhiên (NLP).

Ngày đăng: 02/10/2024, 03:03

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w