HỌC VIEN CÔNG NGHẸ BƯU CHÍNH VIỄN THONG KHOA CÔNG NGHẸ THÔNG TIN
PGE Geog
Đề tài: TRÍCH RÚT THỰC THỂ TIẾNG VIẸT
SỬ DỤNG MÔ HÌNH SEQ2SEQ
HÀ NỌI, THÁNG 12/2023
Trang 2LỜI CÁM ƠN
Lời đầu tiên, em xin phép được bày tỏ lòng biết ơn sâu sắc đến người thầy hướng dẫn của em: thay PGS.TS Ngô Xuân Bách — người đã luôn tận tình hướng dẫn, chỉ bảo em trong suốt quá trình học tập va làm đồ tại Học viện Công nghệ Bưu chính Viễn thông Cảm on thay vì trong suốt thời gian vừa qua đã luôn chỉ bảo, nhắc nhở và hướng dẫn em tận tình dé hoàn thành đồ án này.
Em xin gửi lời cảm ơn tới toàn bộ các quý thầy cô, giảng viên tại Học viện Công nghệ Bưu chính Viễn thông đã tận tình giảng dạy, truyền đạt những kiến thức quý báu cho em trong những năm tháng học tập tại trường Em cũng xin được gửi lời cảm ơn sâu sắc tới các thầy cô trong Khoa Công nghệ Thông tin 1 đã luôn tận tình dạy dé, chỉ bao và tao điều kiện tốt nhất cho chúng em trong những năm tháng học tập tại Học viện Những kiến thức bé ích, quý giá này sẽ là hành trang đi cùng em trong những năm tháng sau
`này.
Cuối cùng, em cũng xin gửi lời cảm on tới gia đình, bạn bè, các anh chi em — những
người đã cùng đông hành, quan tâm và ủng hộ em trong suôt quá trình học tập và nghiêncứu đô án.
Trong quá trình thực hiện đồ án không khỏi còn nhiều điều thiếu sót, em mong nhận được những ý kiến đóng góp của các thầy cô và bạn bé dé có thê hoàn thành tốt đồ án.
Em xin chân thành cảm on!
Hà Nội, tháng 12 năm 2023Sinh viên thực hiện
Nguyễn Thị Uyên
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan những khảo sát, nghiên cứu là do tôi thực hiện và tìm hiểu dưới sự hướng dẫn của thầy PGS.TS Ngô Xuân Bách Tắt cả bài báo, tài liệu, công cụ, mã nguồn của các tác giả khác được sử dụng ở trong đồ án đều được trích dẫn tường minh về nguồn và nhóm tác giả trong phần danh sách tài liệu tham khảo.
Hà Nội, tháng 12 năm 2023Sinh viên thực hiện
Nguyễn Thị Uyên
Trang 4NHAN XÉT, ĐÁNH GIÁ VÀ CHO DIEM
(Của giảng viên hướng dẫn)
Hà Nội, tháng 01 năm 2024
Giảng viên hướng dẫn
PGS.TS Ngô Xuân Bách
Trang 6TÓM TAT
Bài toán trích rút thực thể là là một trong những bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên Trích rút thực thé giúp xác định và phân loại các thực thé quan trọng như tên người, tên tô chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, số lượng, ngày tháng và nhiều thông tin cụ thể khác từ văn bản Những thực thê được trích rút ra được sẽ được sử dụng để giải quyết các bài toán phức tạp hơn như Chatbot, Question Answering, Search, v.v Nhờ vậy mà trích rút thé trở thành một phan quan trọng giúp máy tính tiễn gần hơn đến việc hiểu được ngôn ngữ tự nhiên (Nature language
Trong phạm vi đồ án tập trung vào việc trích rút thực thể tiếng Việt sử dụng phương pháp seq2seq Đồ án sẽ trình bày những kiến thức cơ bản liên quan đến phương pháp seq2seq dé trích rút thực thé tiếng Việt và 2 mô hình NER-Biaffine và BARTNER chính là mô hình được xây dựng dựa trên phương pháp seq2seq, những kiến thức liên quan đến mô hình này sẽ được trình bày trong chương 2 của đồ án.
Bộ dit liệu tiếng Việt dé thực nghiệm cho bài toán trích rút thực thé là bộ dữ liệu tiếng Việt mới nhất dành cho trích rút thực thé (NER) của VLSP sử dụng cho challenge của họ vào năm 2021 Kết quả thực nghiệm tốt nhất đạt 73,58% trên tập thử nghiệm của VLSP sử dụng mô hình NER-Biaffine cao hơn kết quả thực nghiệm trên bộ dữ liệu được công bố trước đó (đạt được 62,71% [1]), cao hơn khoảng 10,87%, cho thấy mô hình đã hoạt động hiệu quả Chỉ tiết kết về kết quả sẽ được trình bày trong chương 3 của đồ án.
Từ khóa: Trích rút thực thể, nhận dạng thực thé, phuong phap seq2seq, NER-Biaffine,
BARTNER.
Trang 7DANH MỤC THUẬT NGỮ
Các thuật ngữ viết tắt
STT Tiếng Anh Tiếng Việt/ Giải thích
Deep learning Hoc sau
NLP Natural Xu lý ngôn ngữ tự nhiên
Trang 8Association for cho cuộc thi của VLSP vào năm 2021 đầu đến cuối và cung cấp một giải pháp
chức năng hoan chỉnh, thường là không
Trang 9Recurrent Neural | Mạng nơ-ron hồi quy
Các thuật ngữ không có từ viết tắt
Tiếng Anh Tiếng Việt/ Giải thích
Finetuned model | Mô hình dựa trên pretrained model dé tiến hành huấn luyện
thêm trên tập dữ liệu mới hay đơn giản là thêm hoặc đóng
Trang 1010
Trang 11DANH SÁCH HÌNH VE
Hình 2.1 Kiến trúc LSTM (Nguồn: ResearchGafe) 2-2 s+Sx+£EtzEeE2EEEzEcrxrrrred 26 Hình 2.2 Kiến trúc 1 cell state trong LSTM (Nguồn: ResearehGate) 5-2 ¿ 26 Hình 2.3 Công quên trong LSTM (Nguồn: ResearchGate) - + 2 +sss+s+xszszxzz 27 Hình 2.4 Sự kết hợp giữa input gate và hidden state và hàm tanh trong LSTM 27 Hình 2.5 Cập nhật cell state trong LSTM (Nguồn: ResearchGate) -252-5¿ 28 0000054000 1e) 28 Hình 2.7 Kiến trúc BiLSTM (Nguồn: ResearchGate) -2- 222 s+E2EvEs£zzEzEerszxez 29 Hình 2.8 Biểu diễn đầu vào của BERT [4] - - + 5 SE‡EEEEEEEEEEEEEEEEEEEEEEEEEEkrkrkrre 31 Hình 2.9 Các biến đổi gây nhiễu đầu vào - ¿2 t+SE2SE+ESEE£EEEEE2E2EEEEEEEEEEEEErrkee 32
Hình 2.10 Hình minh họa char-cnn [ 8] - ¿c2 2c 3332213321 32£2E22EE2EEEeeckkeeeses 33
Hình 2.11 Hình anh minh họa về cách hoạt động của CNN (Nguồn: ResearchGate) 34
Hình 2.12 Hình minh họa lớp tích chập - G6 2c 3321132113213 xke 34
Hình 2.13 Minh họa việc tính toán trên lớp Max Pooling (Nguồn: ResearchGate) 36 Hình 2.14 Kiến trúc Biaffine [9] -¿- + + ềEEE11111E711111111111111E1111 11x cre 36 Hình 2.15 Chuyén tiếp bộ mã hóa (Encoder) và bộ giải mã (Decoder) [11] - 38
Hình 2.16 Bộ mã hóa (Encoder) và bộ giải mã (Decoder) [] Ï ] -«+<++<<<+++ 38
Hình 2.17 Hình minh hoa đầu vào dau ra của encoder [12] - s2 ++se+xerzrszz 40 Hình 2.18 Hình minh họa đầu vào đầu ra của decoder [ 12] -2 2 s+s+zx+zs+s4 41 Hình 2.19 Kiến trúc mô hình NER-Biaffine 0 cccccccscsssesssesssessesssessessecssessecssessesseaeeees 42
Hình 2.20 Mô hình char-cnn mã hóa ký tự [I3 ] . S211 * + EEsseersseeererse 44
Hình 2.21 Kiến trúc của BARTNER [ 14] 2-2: ©S2E2E2EEEEEEEEEEEEEEEEE221221211 2E xe, 45 Hình 2.22 Giải thuật biến đổi chuỗi thực thé tuần tự thành các thực thé spans [14] 46 Hình 2.23 Ba cách biêu diễn thực thé của phương pháp BARTNER [14] - 47
Hình 3.1 Minh hoa tập dữ liệu được sử dụng - 5 5 +2 3231123111211 sreree 50
Hình 3.2 Hình minh họa đầu vào của BARTNER ccccccrtiirrrrrrrrrrrrirrrree 51 Hình 3.3 Hình minh hoa json đầu vào của NER-Biaffine 0 cccceccecescesseseesessesesseeeeseeees 51 Hình 3.4 Hình minh họa file lưu trữ dữ liệu đầu vào của NER-Biaffine 51 Hình 3.5 Minh hoa thông số môi trường ¿- 2 2 2+s+SE+EE£EE+EEE+E£EEEEEEEEEEEEEEErrkrkes 52
Trang 12Hình 3.6 Các thư viện được phục vụ cho NER-Biaffine - - cà SSs+sssseerres 53Hình 3.7 Cac thư viện được phục vụ cho BARTNER - - SG 1n se, 54
Hình 3.8 Hình anh mô ta confusion matrix [ Í Ó] c5 2c 322221332 E32EEE++zeveexseesees 56Hình 3.9 Hình anh mô ta confusion matrix khi được normalize [ L7 ] -‹‹ - 56
Hình 3.10 Hình ảnh kết quả Fl-score trên tập test của NER-Biaffine (BiLSTM không sử
Hình A.1 Hình ảnh khi người dùng truy cập vào trang Web cee eeceeeseeeeeneeeeeneeeeeneees 65
Hình A.2 Hình anh người dùng nhập văn bản đầu Va0 ccececccscessessessessesssessssesssseeseeeees 65 Hình A.3 Hình ảnh kết quả trả về sau khi thực hiện trích rút thực thê -. - 66
12
Trang 13DANH SÁCH BANG
Bảng 1.1 Kết quả mô hình tốt nhất tính đến hiện tại trên tập dữ liệu VLSP 2021 [1] 23 Bảng 3.1 Bảng thông tin về nhãn thực thé của VLSP 2021 dành cho nhiệm vụ NER 49 Bang 3.2 Bang thống kê của tap dit liệu VLSP 2021 ¿2-5 +S2+E+E+£££EzEzEerszxereree 50 Bang 3.3 Bang thông tin tham số thực nghiệm 2- 2 2S +2 EE+E+E£E£EEzEzEerszEerree 55 Bảng 3.4 Bảng kết quả thực nghiệm so sánh giữa kết quả nghiên cứu tốt nhất được công
bồ và kết quả của phương pháp sử dụng trong đỗ án 2-52 + 2sc2£E2E£E£EEzEzEerrxzea 59 Bang 3.5 Bang kết qua so sánh kết quả giữa việc sử dụng PhoBERT làm embedding với
sử dụng cả PhoBERT và charcnn làm embedding - 5c + *++++eexeexeereeeres 60
Bang 3.6 Bảng kết quả thực nghiệm giữa BiLSTM và BiGRU 25+s=s25+2 60 Bảng A.1 Các công cụ sử dụng xây dựng hệ thống 2 + ©22E+££+E2+E+£EcEerxzEerree 64
13
Trang 14MỤC LỤC
CHUONG 1 GIỚI THIEU BÀI TOÁN TRÍCH RUT THỰC THE TIENG VIỆT 18 1.1 Giới thiệu bài toán trích rút thực thỂ ¿- 22c 18 1.2 Một số ứng dụng của bài toán trích rút thực thỂ St TT rrưyt 19 1.3 Mô hình trích rút thực thé đã được nghiÊn CỨU - 5 + Sc se s+kssrseereree 21
1.3.1 Mô hình dựa trên luật va từ điển (Dictionary and Rule-based Models) 22 1.3.2 Mô hình học máy dựa trên thống kê (Statistical Machine Learning) 22
1.3.3 Mô hình sử dụng các phương pháp học sâu - ¿5c + + +22 *+++sss+ss 22
1.3.4 Mô hình được sử dụng cho bộ dữ liệu NER của VLSP 2021 221.4 Phạm vi nghiÊn CỨU - - G13 115111911 E910 91119 TH HH ng kp 23
1.5 Đóng góp của đỗ án 2-5 St Ss E2 E2EEE152121121121271211211211121111211 11111 E1xe 23 1.6 Kết luận chương 2-25 +t‡EE9EE2E12EE21571221211217171117111110111 110111 y0 24
CHUONG 2 TRÍCH RUT THUC THẺ TIENG VIET SU DỤNG MÔ HÌNH
5239723390077 25
2.1 Các kiến thie CƠ SỞ - 2.2 St S31 11 515151 515151511111515111111511 1111511111515 111 1x1 c2 25
2.1.1 Mang nơ-ron sử dụng bộ nhớ ngắn hạn dài (LSTM) và mạng no-ron hồi tiếp
(GRU) 25
2.1.2 Mạng ron sử dụng bộ nhớ ngắn hạn dài hai chiều (BILSTM) và mạng nơ-ron hồi tiếp hai chiều (BiGRU) - 2-5 ©52+22£SE9EE9EEEEEE2E21122122121212171 2111 e0 29 2.1.3 Mô hình ngôn ngữ BERT và các biến thể 2-52 2+S2+EvEzE+EzEzxzxrrs 30 2.1.4 Mô hình ngôn ngữ BART và các biến thể 2 2 2+2z+£Eerxerxcrrzreee 32
2.1.5 _ Lớp tích chập ở mức ký tu (Character level CNN) <ccse- 33
2.1.6 BIaffine LcQ HS key 36
2.1.7 Mô hình chuỗi đến chuỗi (Seq2seq) - 2-52 2 x+EE£EE£Et£E2EzEerxersee 37
Trang 152.2 Mô hình NER-Biaffine LL CC Q11 1111111195351 1 11K kg Tnhh 412.3 Mô hình BARTNER 2-22: 22222S221221127121127112112211271121121211 21 E1 tre 44
2.3.1 BART EncOder - - - - 1 131122222011 1v ng 1 1 1 nu 45
"IV /NN:? ion ae 45
2.4 Kết luận chương - ¿5222221 E921211211211211117111111111 1111111 re 47 CHUONG 3 THỰC NGHIEM VÀ ĐÁNH GIÁ 5-5 5< sssessesessesesse 48
3.1 Tập dit liệu -© +7k222222122127122122112112112111211211211111121212 re 48
3.1.1 Bộ dữ liệu ban đầu 2¿-5++22122222122212711271 2211271211211 1.1.1 re 48 3.1.2 Tiền lý dữ liệu +-©5-22<2E12E12212212112112112112110111121211 1 re 49
3.2 Các mô hình thực nghiỆm ¿2 3213223331832 E25EE£2EEEEEEEEEEEErrkrerreere 52
3.3 Thiết lập thực nghiệm -¿- 2 sSt9EE92E2E12E122127171711211211211 111111111 52 3.3.1 Môi trường, công cụ thực nghiỆm - c2 321112511121 11E12 E11 xrres 52
3.3.2 Chỉ tiết thực nghiệm - 2-52 +sSESEEEEE2E2E221215212121217111 111121 1x6 54
3.3.3 Damh gid 0i an€£ 55
3.4 Kết quả thực mghim c.cceccccccscessessesssssessessessessesssesssssessessssesussessssessssssesneaeesees 58 3.4.1 So sánh kết quả so với kết quả tốt nhất đã được công bố - 59 3.4.2 So sánh kết quả giữa việc sử dụng thêm embedding char-cnn và không sử
Aung Char-Crt 000277 59
3.4.3 So sánh kết quả giữa BiGRU và BiLSTM trong mô hình NER-Biaffine 60
3.4.4, Phân tích lỗi sai 5:25: 22222 122121221 2121121211212112121121211 11211 ce 60
3.5 Kết luận chương :- 2 2+SStEEE9E12E121212712112112171112111111111112 211012 re 62
Trang 16A.2_ Một số hình ảnh của hệ thống "
TÀI LIỆU THAM KHẢO
16
Trang 17LỜI NÓI ĐẦU
Trong những năm gần đây, trước sự phát triển không ngừng của công nghệ thông tin, nhu cầu về tìm kiếm, khai thác và xử lý thông tin tiếng Việt ngày càng cao, các vấn đề về xử lý tiếng Việt trở lên quan trọng, được nhiều sự quan tâm từ cộng đồng nghiên cứu ở trong và ngoài nước Trích rút thực thé là một trong những nhiệm vụ quan trọng trong việc xử lý ngôn ngữ tiếng Việt, giúp xác định và phân loại các thực thể quan trọng như tên người, tên tô chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, số lượng, ngày tháng và nhiều thông tin cụ thể khác từ văn bản Những thực thé được trích rút ra được sẽ được sử dụng dé giải quyết các bài toán phức tạp hơn như Chatbot, Question Answering,
Search, v.v Nhờ vậy, mà trích rút thực thể giúp máy tính tiễn gần hơn đến việc hiểu được
ngôn ngữ tự nhiên (Nature language understanding).
Dé giải quyết bài toán này, các nhà nghiên cứu đã đưa ra rất nhiều phương pháp dé nghiên cứu và ứng dụng Một số phương pháp phô biến được sử dụng dé giải quyết bài toán trích rút thực thể là mô hình dựa trên chuỗi (sequence-based models) như CRF, LSTM, BERT và các biến thể của nó, v.v Trong phạm vi đồ án sẽ sử dụng phương pháp seq2seq, đây là một phương pháp học sâu xuất hiện sau không thường được sử dụng cho bài toán trích rút thực thé mà thường được áp dung để giải quyết các bài toán về dịch máy, tóm tắt văn bản, chuyền đổi giọng nói thành văn bản, tạo ra văn bản, v.v Dé án này sử dụng phương pháp seq2seq trong nhiệm vụ trích rút thực thể với mong muốn có thể có sử dung ưu thé của phương pháp seq2seq như xử lý chuỗi dai, học các đặc điểm phức tap và ngữ cảnh của văn bản, đầu ra tùy chỉnh vào trong trích rút thực thé tiếng Việt có thé dem lại kết quả tốt Phần chính của đồ án là trình bày 2 mô hình NER-Biaffine và BARTNER (đây là 2 mô hình sử dụng phương pháp seq2seq) dé trích rút các thực thé tiếng Việt.
Lần lượt qua các chương, thì đồ án sẽ trình bày từ tổng quan về bài toán trích rút thực thé tiéng Việt đến việc áp dụng phương pháp seq2seq vào trong trích rút thực thê tiếng Việt và trình bày chi tiết mô hình trích rút thực thé tiếng Việt: NER-Biaffine và BARTNER, ở phan cuối sẽ trình bày các kết quả và nhận xét thu được sau quá trình thực nghiệm mô hình giải quyết bài toán trích rút thực thể
17
Trang 18Đồ án được chia làm 3 chương với nội dung chính như sau: Chương 1: Giới thiệu về bài toán trích rút thực thể
Chương này sẽ giới thiệu tổng quan về bài toán trích rút thực thể, những ứng dụng của bài toán trích rút thực thể Đồng thời, nêu nên những mô hình được sử dụng cho trích rút thực thể trước đây.
Chương 2: Trích rút thực thể tiếng Việt sử dụng mô hình seq2seq
Chương 2 sẽ trình bày chỉ tiết hơn về bài toán trích rút thực thể, đi sâu vào 2 mô hình được sử đụng dé giải quyết bài toán trong đồ án là NER-Biaffine và BARTNER, đồng thời nêu lên những thuật toán, mô hình liên quan trên để làm nền tảng giải quyết bài toán băng NER-Biaffine và BARTNER.
Chương 3 Thực nghiệm và đánh giá
Chương 3 sẽ giới thiệu về tập dữ liệu tiếng Việt VLSP 2021 sử dụng cho bài toán trích rút thực thê và trình bày thực nghiệm với những mô hình đã nêu ở chương 2 trên tập dữ liệu VLSP 2021, đồng thời đưa ra các đánh giá và so sánh phương pháp, chỉ ra các lỗi sai và hướng khắc phục.
18
Trang 19CHƯƠNG 1 GIỚI THIỆU BÀI TOÁN TRÍCH RÚT THỰC THÊ
TIENG VIỆT
Trong chương 1 sẽ trình bày một cách tổng quan về bài toán trích rút thực thé trong xử lý ngôn ngữ tự nhiên, ứng dụng của trích rút thực thể trong thực tế hiện nay và trình bày phạm vi nghiên cứu, đóng góp của dé án.
1.1 Giới thiệu bài toán trích rút thực thể
Nhận dạng thực thể hay nhận dạng thực thể (Named Entity Recognition, được viết tat
la NER) là một tac vu trong lĩnh vực xử ly ngôn ngữ tự nhiên (NLP) Vai trò chính củanhiệm vụ nay là nhận dạng các cụm từ trong văn ban và phân loại chúng vào trong các
nhóm đã được định trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, nay thang và nhiều thông tin cụ thể khác từ văn bản Từ kết quả của nhiệm vụ trích rút thực thé (NER) có thé xử lý cho nhiều bài toán phức tạp hơn như Chatbot, Question
Answering, Search, v.v [2]
Ví dụ với một câu: “Sau đó đến tháng 9/2016 cô được luân chuyên về Trường tiểu học & THCS Thị trấn Mù Cang Chải” có 3 thực thể được xác định ở đây là “tháng 9/2016” (là ngày tháng — nhãn DATE viết tat là DAT), “Trường tiểu học & THCS Thị tran Mù Cang Chai” (là tên tổ chức — nhãn ORGANIZATION viết tắt là ORG) và “Mù Cang Chải” (là tên địa điểm — nhãn LOCATION viết tắt là LOC) Trong ví dụ trên thì các thực thể có thể lồng nhau như thực thể “Mù Cang Chải” vừa là thực thể có nhãn là ORGANIZATION, vừa là thực thể có nhãn là LOCATION Như vậy dé thuận tiện cho việc lưu trữ thì nhãn thực thé sẽ được lưu đưới dạng là 1 danh sách [tên thực thực thể, vị trí bắt dau, vị trí kết thúc] Mô hình trích rút thực thé sẽ nhận đầu vào là một câu gồm các từ XixX; X;y và thực hiện trích rút để được 1 chuỗi các thực thé
Sị,Ø1,fi,S2,€2,t;, ,S,,€¿,t¿ (Trong đó $,:€,.f, lần lượt là vị trí bắt đầu, vị trí kết thúc và nhãn của thực thé i.
Tổng quát lại bài toán nhận dạng thực thể sẽ có đầu vào là một chuỗi và đầu ra sẽ là một chuỗi các thực thê (NE) trong câu đó.
19
Trang 201.2 Một số ứng dụng của bài toán trích rút thực thể
Mục đích chính của bài toán trích rút thực thể là trích rút thực thể trong câu một cách
tự động Những thực thé này sẽ được sử dụng như là đầu vào dé xử lý các bài toán phức
tạp hơn như Chatbot, Question Answering, Search, v.v như đã nêu ở trên Hiện nay, việc
trích rút thực thể trong câu đã được áp dụng vào trong thực tế và trở thành một trong những nhiệm vụ quan trọng cho các công ty Sau đây là một số ứng dụng của trích rút thực thể được ứng dụng ở thực tế trong từng lĩnh vực:
Trong lĩnh vực công nghệ và truyền thông:
Công ty công nghệ lớn như Google, Amazon, Facebook sử dụng trích rút thực
thể trong các sản phẩm tìm kiếm, trợ lý ảo, và xử lý ngôn ngữ.
Các công ty truyền thông sử dụng trích rút thực thể để phân tích và tô chức
thông tin từ các nguôn tin tức và mạng xã hội.
Trong lĩnh vực tài chính và ngân hàng:
Ngân hang và tổ chức tài chính sử dụng trích rút thực thé dé phân tích các báo cáo tài chính, tài liệu pháp lý, và dé theo dõi giao dich dé phát hiện gian lận.
Các công ty quản lý quỹ đầu tư sử dung công nghệ này dé phân tích thông tin từ
các báo cáo thị trường và tin tức kinh doanh.
Trong lĩnh vực y tế và được phẩm:
Trong lĩnh vực y tế, trích rút thực thé được sử dung dé phân tích hồ sơ bệnh án, nghiên cứu lâm sàng và tài liệu y tế.
Các công ty dược phẩm sử dụng trích rút thực thé dé phân tích các nghiên cứu
khoa học và dữ liệu lâm sàng.
Trong lĩnh vực pháp luật và chính phủ:
Các cơ quan chính phủ và tô chức pháp luật sử dụng trích rút thực thé dé phân
tích tài liệu pháp lý và tài liệu chính sách.
Các tô chức giám sát và thực thi pháp luật sử dụng công nghệ này đề theo dõi và phân tích dữ liệu từ các nguồn thông tin khác nhau.
Trong việc ban lẻ va dich vụ khách hàng:
Các công ty bán lẻ sử dụng trích rút thực thé dé phân tích đánh giá và phản hồi
của khách hàng.
20
Trang 21e Trong dịch vụ khách hàng, trích rút thực thé giúp tự động hóa việc xử lý yêu cầu
và phản hồi của khách hàng.
Nhờ việc áp dụng trích rút thực thể vào trong thực tẾ, các công ty này đã cải thiện được
hiệu quả quy trình làm việc, phân tích dữ liệu nhanh chóng, và giảm bớt nhân sự làmcác công việc nảy.
Trong thực tế, trích rút thực thể được ứng dụng trong rất nhiều bai toán như:
e Phan tích cảm xúc (Sentiment Analysis): Trích rút thực thé sẽ trích rút ra các NE
cụ thé (như tên người; cảm xúc: vui, buôn, ghét, thích, v.v; địa điểm; v.v) tùy
vào yêu cầu của bài toán, sau đó các thực thé này sẽ được sử dụng dé phân tích, đánh giá Từ đó có thê đưa ra nhận xét, kết luận về cảm xúc liên quan.
se Tóm tắt và phân loại tài liệu: Việc tìm, đọc và lọc các tài liệu vẫn luôn rất tốn sức và thời gian cho nên việc áp dụng trí tuệ nhân tạo (AI) vào để giải quyết vấn dé này luôn được quan tâm Trích rút thực thé sẽ giúp trích rút các thực thé (NE) chính, các thực thể này sẽ được sử dụng làm đầu vào cho các bài toán phân loại, tóm tắt giúp nâng cao tỷ lệ chính xác hơn khi mà cho tài liệu trực tiếp vào dé
phân loại
e Hệ thống gợi ý (Recommendation Systems): Hiện nay việc tim kiếm và đề xuất tự động như: đề xuất phim trên Netflix, bài báo, hay trên sàn thương mai trực tuyến thì việc đề xuất các sản phẩm mà người dùng có thé có nhu cầu mua đang được áp dung hàng ngày Trích rút thực thé sẽ được ứng dụng vào đây giúp trích rút các thực thể liên quan từ lịch sử tìm kiếm, mua hàng, những bộ phim, cuốn sách đã xem, đã đọc v.v và đồng thời trích rút thực thé trong các tài liệu, sách, phim, sản phẩm từ những sản phẩm hiện có dé đưa ra các đề xuất tương ứng.
e Phat hiện các giao dich bất thường từ đó phòng chống gian lận, lừa đảo: Trong lĩnh vực tài chính ngân hàng, việc trích rút các thực thể như: tên nguoi, số tài khoản, địa điểm, số tiền giao dịch, v.v được áp dụng để phát hiện những sự kiện “bat thuong” nhu tron thuế, lừa đảo, v.v.
s® Hỗ trợra quyết định và kinh doanh: Trích rút ra các thực thê để lay được các dữ
liệu thị trường, báo cáo tài chính hoặc bình luận của khách hàng giúp doanh
21
Trang 22nghiệp hiểu rõ hơn về nhu cầu của khách hàng, thị trường và từ đó đưa ra các
quyết định kinh doanh tương ứng.
e Tìm kiếm và trích xuất thông tin: Trích rút thực thé sẽ giúp trích rút các thực thé
chính trong dữ liệu lớn một cách nhanh chóng hơn việc sử dụng nhân lực, từ đó
đưa ra các tài liệu liên quan (đây được ứng dụng nhiều vào hệ thống gợi ý).
© Chatbots và trợ lý ảo, voicebot: Voicebot sẽ chuyên giọng nói thành văn ban, những văn bản, đoạn chat của người dùng sẽ được sử dụng để trích rút thực thể
(Ví dụ: một chatbot tư vẫn sản phâm bán hàng, khi người dùng hỏi về “giá tiền của sản phẩm A7 thì hệ thống sẽ thực hiện trích rút các thực thé trong đó như “giá tiền”: “money”, “A”: “product name” các thực thé như “money”, “product name” sẽ được sử dụng để nhận diện ý định (intent) và từ đó đưa ra câu trả lời tương ứng) Một ví dụ nổi bật của chatbots hiện nay là chatgpt Các thực thể
được trích rút ra sử dụng trong trợ lý ảo, nhà thông minh, robot, v.v.
e Phan tích và giám sát mang xã hội: các thực thể được trích rút ra để đưa ra xu hướng hiện tại và các quan điểm, chủ đề nóng trên mạng xã hội
® Nghiên cứu y tế và dược phẩm: trích rút ra các thực thể về bệnh án, triệu chứng và các tài liệu liên quan dé đưa ra các thông tin như bệnh lý, thuốc, liều lượng.
1.3 Mô hình trích rút thực thể đã được nghiên cứu
Các thuật toán được sử dụng cho trích rút thực thể được phát triển dần từ thô sơ đến đơn giản rồi phức tạp Thuật toán đầu tiên xuất hiện là những thuật toán dựa trên luật (tập luật mà do kinh nghiệm con người sau quá trình quan sát, phân tích, thử nghiệm dé đúc rút ra), sau đó đến những thuật toán sử dụng mô hình học máy cô điển (traditional machine learning) và những thuật toán học sâu (deep learning) được vận dụng đến ngày nay v.v.
Sau đây là một số mô hình trích rút thực thé đã được nghiên cứu và những ưu điểm, nhược điểm của chúng
1.3.1 Mô hình dựa trên luật và từ điển (Dictionary and Rule-based Models)
Phương pháp này sẽ sử dụng một bộ luật và từ điển cụ thé được xác định trước dé trích xuất thông tin trong câu và ngữ cảnh tương ứng.
Vì Rule-base Models sử dụng bộ luật, từ điển được xây dựng bằng tay nên nó thường it linh hoạt và khó mở rộng, khó bảo trì và thích ứng với miền ngôn ngữ mới Nhưng vì là
22
Trang 23tập luật và từ điển được xây dựng cụ thể nên nó sẽ có thể có hiệu quả trong | mién cu thé như: xử ly những nhiệm vụ có ngôn ngữ va cấu trúc đữ liệu tương đối có định và có thé dự đoán (tài liệu pháp lý, tài chính, y tế, v.v), xử lý tài liệu có cấu trúc rõ ràng (bảng biểu, mẫu đơn, tài liệu quan lý, v.v), bộ dit liệu có số lượng mau rất nhỏ chưa có mô hình deep learning có sẵn dé tiến hành fintune, v.v.
1.3.2 Mô hình học máy dựa trên thống kê (Statistical Machine Learning)
Các phương pháp dựa trên thống kê như SVM, HMM, cây quyết định hay CRF tính toán dựa trên cả ngữ cảnh của từ tốt hơn SVM sẽ sử dụng thống kê để tính toán.
Vì sử dụng thống kê cho nên nó có tính khái quát tốt hơn các phương pháp trước đó nhưng vi dùng thống kê và xác suất nên nó yêu cầu về khả năng xác định và biéu diễn hay trích rút ra các đặc trưng (features) và yêu cầu khả năng tính toán được mở rộng.
1.3.3 Mô hình sử dụng các phương pháp học sâu
LSTM, RNN, GRU đều là những phương pháp phù hợp với dữ liệu tuần tự, giúp “hiểu” được ngữ cảnh, các phần phụ thuộc trong đữ liệu văn bản.
Tuy nhiên vì nó tính toán cả ngữ cảnh nên sẽ yêu cầu bộ nhớ lớn đề lưu trữ và ghi nhớ thông tin của đầu vào từ đầu tới cuối (đối với RNN) gây mat độ dốc (vanishing gradient: đạo hàm rất nhỏ xấp xi 0 và bị về 0) hay LSTM, BiLSTM, GRU thì cũng yêu cầu kha
năng tính toán lớn, chi phí cao.
1.3.4 Mô hình được sử dụng cho bộ dữ liệu NER của VLSP 2021
Trong những năm gan đây, việc tìm ra phương pháp để giải quyết bài toán trích rút thực thê cho tiếng Việt để áp dụng vào trong thực tế vẫn đang diễn ra Các mô hình trích
rút thực thé cần bộ dit liệu NER dành cho tiếng Việt được gán nhãn thực thể trước dé làm
“tài liệu” cho máy học VLSP đã đưa ra bộ dữ liệu trích rút thực thê dành cho tiếng Việt là NER 2021 tạo ra cơ hội để giải quyết những nhiệm vụ liên quan đến NER Trước đó
VSLP đã đưa ra 2 bộ dataset để sử dụng cho nhiệm vụ NER vào năm 2016 và 2018 và gần đây nhất là bộ dữ liệu dành cho NER vào năm 2021.
Trong đồ án này thì sử dụng bộ đữ liệu dành cho nhiệm vụ trích rút thực thé NER năm 2021 nên sẽ chỉ nêu nên kết quả của mô hình tốt nhất tính đến thời điểm hiện tại cho bộ
23
Trang 24dữ liệu VSLP 2021 Sau đây là kết quả tốt nhất của mô hình hiện nay trên bộ dữ liệu
VLSP 2021:
Bảng 1.1 Kết quả mô hình tốt nhất tính đến hiện tại trên tập dữ liệu VLSP 2021 [1]
Model Fl-score
Two Stage Model for Nested Named Entity Recognition | 62.71 %
Kết quả trên của nhóm tac giả Quan Chu Quoc va Vi Ngo Van đến từ trường dai học
VNU thử nghiệm với bộ dữ liệu dành cho NER sử dung mô hình 2 giai đoạn cho NER
lồng nhau Kết quả tốt nhất ở trên của nhóm tác giả đến từ VNU được thử nghiệm và công bố vào năm 2022.
1.4 Phạm vỉ nghiên cứu
Có nhiều phương pháp hay thuật toán được áp dụng vào để giải quyết bài toán trích rút thực thể (NER task) như Rule-base system, CRF, SVM, CNN, v.v được nêu ở trên nhưng ở trong phạm vi đồ án chỉ tập trung vào khảo sát, nghiên cứu bai toán trích rút thực thé tiếng Việt sử dụng phương pháp seq2seq.
Bộ dữ liệu được sử dụng cho đồ án là bộ đữ liệu dành cho NER của VLSP năm 2021.
Trong thực tế, một văn bản có nhiều câu và cần trích rút thực thé trong cả văn bản thì trong đồ án chỉ khảo sát tập trung vào tập dữ liệu các câu đơn duy nhất chứ không sử dụng cả văn bản Những dữ liệu là văn bản sẽ được tách ra thành các câu để sử dụng.
1.5 Đóng góp của đồ án
Đồ án có những đóng góp cơ bản sau:
s® - Giới thiệu bài toán trích rút thực thé.
© Cac kiến thức, khái niệm làm nền tảng cho phương pháp giải quyết bài toán
e Khảo sát các kiến trúc mô hình khác nhau nhăm giải quyết bài toán trích rút thực thể
e Thực nghiệm các kiến trúc trích rút thực thé trong câu tiếng Việt sử dụng phương pháp seq2seq Từ đó đưa ra đánh giá, nhận xét về kết quả đạt được, hướng cải tiến cho bài toán.
24
Trang 251.6 Kết luận chương
Chương 1 giới thiệu về bài toán trích rút thực thể, tiếp theo là các ứng dung của bài toán này vào trong thực tế Chương 1 cũng nêu nên các nghiên cứu liên quan đến bài toán được áp dụng cho bài toán trích rút thực thể Chương 2 sẽ nêu nên các kiến thức cơ sở được sử dụng trong các kiến trúc do đồ án đề xuất và đi sâu vào mô tả kiến trúc, mô hình được sử dụng trong đồ án dé áp dụng vào giải quyết nhiệm vụ trích rút thực thé (NER).
25
Trang 26CHƯƠNG 2 TRÍCH RUT THỰC THE TIENG VIỆT SỬ DỤNG
MÔ HÌNH SEQ2SEQ
Trong chương 2 sẽ trình bay cụ thé về phương pháp trích rút thực thê tiếng việt sử dụng mô hình seq2seq Ở phần đầu tiên thì sẽ nêu nên những kiến thức cơ sở sẽ được sử dụng cho 2 mô hình thực nghiệm của đồ án Tiếp đó, đồ án sẽ đi vào chỉ tiết vào đầu vào đầu ra, kién trúc của từng mô hình thực nghiệm NER-Biaffine và BARTNER.
2.1 Các kiến thức cơ sở
2.1.1 Mang nơ-ron sử dụng bộ nhớ ngắn hạn dài (LSTM) và mạng nơ-ron hồi tiếp
Như đã trình bày ở phần 1 thì RNN, LSTM, GRU đều là những một mạng hoạt động tốt với đữ liệu tuần tự Về lý thuyết, thi mạng nơ-ron hồi quy (RNN) có thé hoạt động với một chỗi có độ dài bât kì, nhưng trên thực tế trong nhiều nghiên cứu đã chỉ ra mặt hạn chế của RNN đó là sự biến mất đạo hàm (vanishing gradient), nguồn từ việc phụ thuộc dài (long-term dependency) Khi đầu vào là một chuỗi quá dài RNN không thé “nhớ” được thông tin tại các thời điểm cách xa tính toán hiện tại, việc này trong tính toán của RNN thì đạo ham (gradient) tại các thời điểm cách xa này đã trở nên quá nhỏ không còn chứa nhưng thông tin hữu ích cho bước tính toán hiện tại Hạn chế này khiến RNN không hiệu quả đối với các bài toán cần xử lý dữ liệu theo thời gian dài đòi hỏi trạng thái nhớ trung gian.
Vi vậy LSTM, GRU ra đời nhằm tận dụng ưu điểm của RNN là ghi nhớ được đầu vào trước đó, xem xét cả đầu vào hiện tại và đầu ra trước đó và mong muốn khắc phục nhược điểm đạo hàm bị triệt tiêu (đạo hàm bị triệt tiêu có tên tiếng anh là vanishing gradient).
a) Mạng LSTM
Mạng LSTM (Long Short-Term Memory): Mạng nơ-ron sử dụng bộ nhớ ngắn hạn dài là một kiến trúc được ra đời nhằm tận dụng những lợi thế mà RNN có và khắc phục những nhược điểm của nó Khác với RNN thay vì “nhớ hết tất cả” thì LSTM có công quên (forget gate) nhằm “lựa chọn” những thông tin sẽ bị “quên đi” và thông tin nào sẽ
được giữ lại.
26
Trang 27Sau đây là kiến trúc tổng quát của LSTM:
Hình 2.1 Kiến trúc LSTM (Nguôn: ResearchGate)
Trong đó trạng thái nhớ (cell state) là thông tin xuyên suốt trong bài toán (Cell state
chính là đường kẻ ngang trong hình đưới đây)
Hình 2.2 Kiến trúc 1 cell state trong LSTM (Nguôn: ResearchGate)
Vector nhớ C, ¡ được đưa vào trong 1 ống nhớ (memory pipe) qua một công gọi là cổng quên vừa được nhắc ở phía trên (forget gate), công quên sẽ quyết định xem cần lay bao nhiêu từ cell state, thực chất là một toán hạng nhân ma trận (element-wise multiplication operation) C,_; sẽ được nhân với 1 vector, nếu kết qua là gần 0 thì kết quả nhớ C, ¡ sẽ bị “quên: và ngược lại nếu kết quả là 1 thì C, ¡ sẽ được đi tiếp.
Cu thé hoạt động như sau: LSTM sé quyết định thông tin nao sẽ bị loại bỏ khỏi cell state Quá trình này được quyết định bởi 1 lớp sigmoid thực hiện Cổng quên lấy đầu vào
27
Trang 28là h,_; và x, dé có được đầu ra là một giá trị nằm trong khoảng [0,1] cho cell state C, ¡.
Công thức của sĩ Id:Ø=T———ông thức của sigmoi +e")
ti ỡ (Wop: [ted Ey) +† hụ \
Hình 2.3 Cổng quên trong LSTM (Nguồn: ResearchGate)
LSTM sẽ quyết định thông tin mới sẽ được lưu lại tai cell state như nào LSTM sé sử dụng hidden state h,_ ở trạng thái trước đó và đầu vào x, đi qua sigmoid dé quyết định giá
trị sẽ được cập nhật, lớp tanh tạo ra 1 vector giá tri mới C, mà có thể thêm được vào cell
Trang thái cũ C,_,; sẽ được cập nhật thành cell state mới C, Trạng thai cũ C,_¡ sẽ được
nhân với giá trị kết qua của cổng quên f, (forget gate) dé thực hiện quyết định lấy bao nhiêu thông tin từ cell state trước và nhờ cổng input gate sẽ quyết định lấy bao nhiêu
thông tin từ input của state và hidden layer của layer trước i,xÓ,.
28
Trang 29if Tr Cr= fet CriticeC
Hình 2.5 Cập nhật cell state trong LSTM (Nguôn: ResearchGate)
b) Mạng GRU
GRU (Gated Recurrent Unit) được giới thiệu bởi Kyunghyun Cho và cộng sự vào năm
2014 [3] Về cơ bản thì GRU giống với LSTM tuy nhiên GRU có ít tham số hơn LSTM F,: vector công đặt lại
W,U,b: là ma trận và vector tham số
ơ: ham sigmoid
29
Trang 302.1.2 Mạng ron sử dụng bộ nhớ ngắn hạn dài hai chiều (BiLSTM) va mạng nơ-ron hồi tiếp hai chiều (BiGRU)
Như đã trình bày ở phía trên thì dé dàng nhận thấy LSTM truyền thống với 1 lớp duy nhất chỉ có thể tính toán cell state của từ hiện tại dựa trên thông tin phía trước của từ đang xét mà chưa lấy được thông tin các từ phía sau BiLSTM ra đời nhằm mục đích “tận dụng” cả thông tin của từ phía sau, nó là sự kết hợp 2 mạng LSTM đơn được sử dụng đồng thời và đọc lập để mô hình hóa chuỗi đầu vào theo 2 hướng: từ trái qua phải (Forward LSTM), từ phải qua trái (Backward LSTM) Điều này cho phép BiLSTM nắm bắt thông tin từ cả 2 hướng trong chuỗi dữ liệu.
Việc sử dụng BiLSTM có lợi thế so với LSTM là nó dựa trên cả thông tin theo chiều từ
phải qua trái nhờ Backward LSTM đã nêu ở trên Nhưng việc sử dụng BILSTM là có
thêm 1 LSTM truyền thống để lan truyền ngược lại cho thấy rõ việc nó sẽ yêu cầu tính toán phức tap hơn, cần nhiều tài nguyên về bộ nhớ và tài nguyên tính toán hơn nhưng bi lại thì nó sẽ cung cấp thông tin “đầy đủ” hơn và ngữ cảnh đặc biệt đối với nhiệm vụ trích rút thực thê cần xem xét ngữ cảnh của toàn bộ câu chứ không phải là chỉ lấy thông tin
30
Trang 31phía bên trái của từ hiện tại, thông thường BiLSTM sẽ có hiệu suất tốt hơn LSTM Đây là lý do tại sao BiLSTM được sử dung trong đồ án.
Đối với BiGRU thì BiGRU cũng có cách hoạt động tương tự BiLSTM tuy nhiên thay vì dùng LSTM thì lớp LSTM sẽ được thay thế bằng lớp GRU.
2.1.3 Mô hình ngôn ngữ BERT và các biến thể
a) BERT (Bidirectional Encoder Representations from Transformers)
Đúng như tên gọi của nó, BERT gồm nhiều lớp mã hóa Transformers 2 chiều (bidirectional transformers encoder) được lấy từ kiến trúc nguyên bản Transformers [4]
BERT là một mô hình ngôn ngữ mạnh mẽ được huấn luyện trên một lượng lớn dữ liệu
qua 2 nhiệm vụ chính là:
® MLM (Masked Language Model): là mô hình học không giám sát (unsupervised
text) dé học bối cảnh của câu vào từ cả 2 phía trái và phải nhờ việc nhận đầu vào là các tokens câu Dữ liệu đầu vào sẽ được chọn một số lượng nhỏ từ trong câu (khoảng 15%) để thay thế bằng token [MASK] và đưa qua mô hình để học
những ngữ cảnh xung quanh từ những từ không bi [MASK] và từ đó dự đoán
được từ bi [MASK].
® NSP (Next Sentence Prediction): là mô hình nhận đầu vào là 2 câu A và B Hai câu này sẽ được nối với nhau và thêm mã phân loại đặc biệt [CLS] vào đầu câu đồng thời thêm mã [SEP] vào giữa 2 câu dé phân biệt được token nào thuộc câu A và token nào thuộc câu B Khi huấn luyện thì 50% câu ngẫu nhiên từ văn bản sẽ được gan nhãn là NotNext va 50% câu sẽ là câu B sẽ được chọn là câu tiếp
theo của câu A, nhãn là IsNext Mô hình sẽ thực hiện dự đoán nhãn là NotNext
hay IsNext.
Đề phục vụ cho quá trình biểu dién thì đầu vào của BERT như sau:
31
Trang 32mới (es) re) Ls Nee Lee eNews Hoe)
Hình 2.8 Biểu diễn đầu vào của BERT [4]
Với Token Embeddings, Segment, Embeddings, Position Embeddings mã hóa và kết hợp (concatenate) lại thành thành đầu vào hoàn chỉnh để đưa vào huấn luyện BERT BERT sau khi đã được huấn luyện sé được tinh chỉnh cho các tác vụ NLP khác nhau, việc tinh chỉnh BERT thường cũng tương đối đơn giản, chi bằng việc thêm các một vài lớp
mạng nơ-ron đơn giản phía trên BERT tùy vào các tác vụ cụ thê.
Dựa trên 3 tham số L: số lượng các block sub-layers trong transformer, H: kích thước của embedding véc tơ (hay còn gọi là hidden size), A: Số lượng head trong multi-head
layer, mỗi một head sẽ thực hiện một self-attention BERT được chia làm 2 phiên bản sau:
e BERTBASE (L=12, H=768, A=12): Tổng tham số 110 triệu.
e BERTLARGE (L=24, H=1024, A=16): Tổng tham số 340 triệu.
b) PhoBERT
PhoBERT [5] ra đời như một mô hình ngôn ngữ BERT dành cho tiếng Việt được phát triển bởi nhóm nghiên cứu AI của VinAI Research.
PhoBERT được huấn luyện trên khoảng 20GB dữ liệu bao gồm khoảng 1GB từ Wikipedia tiếng Việt và 19GB còn lại lấy từ các bài báo, tin tức băng tiếng Việt Trước khi huấn luyện thì PhoBERT sử dụng RDRSegmenter của VnCoreNLP [6] dé tách từ cho dữ liệu đầu vào trước khi qua BPE encoder.
PhoBERT giúp mã hóa các câu tiếng Việt thành embedding, cũng giống với BERT phobert chia làm 2 loại là PhoBERT-base và PhoBERT-large PhoBERT-base gồm 12 layer còn PhoBERT-large gồm 24 layer [5] Trong đồ án, sử dụng PhoBERT-Base và dé trích xuất đặc trưng của layer 12.
32
Trang 332.1.4 Mô hình ngôn ngữ BART và các biến thé
a) BART
BART là một bộ mã hóa khử nhiễu tự động (denoising auto encoder) trên kiến trúc
seq2seq (sequence-to-sequence).
Giống như các mô hình Transformer, BART gồm 2 phan là encoder va decoder Encoder hoạt động giống như BERT (được nêu ở phan trước) Decoder lại giống như GPT được sử dụng dé tái tạo lại đầu vào bị nhiễu, mặc dù vậy các từ chỉ có thể sinh từ bên trái, mô hình không thể học được tương tắc 2 chiều, hàm kích hoạt GeLU được sử dụng thay thế cho ReLU.
DE.ABC C.DE.AB
Token Masking Sentence Permutation Document Rotation
Token Deletion Text Infilling
Hình 2.9 Các biến đổi gây nhiễu dau vào
Trong đó:
Token Masking (giống BERT): lấy ngẫu nhiên các token trong mẫu và thay thế nó bằng [MASK]
Token Deletion: lấy ngẫu nhiên các token và xóa nó khỏi đầu vào
Text Infilling: Một vài đoạn văn bản ngẫu nhiên sẽ được thay thế bang [MASK] (đoạn văn ban này có thé là rỗng)
Sentence Permutation: Văn bản chia thành các câu, và các câu này được xáo
trộn ngẫu nhiên
Document Rotation: chọn một token ngẫu nhiên trong văn bản và xoay văn bản
dé cho nó bắt đầu với token (Điều này giúp cho văn ban học được đâu là điểm
bat dau của văn ban)
Với những đặc điểm nêu trên thi BART là mô hình kết hop những ưu điểm của BERT
và GPT BART cũng có 2 phiên bản là 12 lớp (layer) (6 lớp encoder và 6 lớp decoder) và24 layer (12 layer encoder và 12 layer decoder)
33
Trang 34b) BARTpho
BARTpho [7] ra đời giống như mô hình BART dành cho tiếng Việt, cả BARTpho,„„„ va
BARTpho, „„„ đều sử dụng kiến trúc “large” với 12 lớp encoder và 12 lớp decoder.
Giống với PhoBERT thì BARTpho cũng được huấn luyện trên khoảng 20GB dữ liệu bao gồm khoảng 1GB từ Wikipedia tiếng Việt và 19GB còn lại lấy từ các bài báo, tin tức bằng tiếng Việt.
2.1.5 Lớp tích chập ở mức ký tự (Character level CNN)
Phương pháp CNN là một trong những phương pháp phổ biến được sử dụng nhiều
trong lĩnh vực xử lý ảnh dùng để trích rút đặc trưng của ảnh Việc sử dụng CNN cho xử lý
ngôn ngữ tự nhiên nghe có vẻ lạ nhưng nó đã được áp dụng bởi nhóm tác giả XiangZhang, Junbo Zhao, Yann LeCun vào năm 2016 [8] Tuy nhiên mang Convolution Neural
Networks dựa trên tinh chất chia sẻ tham số và kết nối dia phương tới các vùng ảnh dé tìm ra các đặc trưng chính của dữ liệu nhằm phân loại chúng Đối với văn bản, ta cũng hoàn toàn có thé dựa vào những ý nghĩa thé hiện qua những từ ngữ hoặc câu văn dé trích lọc đặc trưng Rõ ràng, ý tưởng kết chia sẻ tham số và kết nối địa phương cũng rất phù hợp đối với dữ liệu văn bản, không chỉ riêng hình ảnh.
Việc sử dụng character embedding (embedding ở mức kí tự) góp phần mã hóa câu đa dang hơn Nó dựa trên các ki tự chữ cai, chữ số và dấu câu thay vì từ vựng Sau đây là một ví dụ cho việc sử dụng char-cnn cho bai toán trích rút thực thé:
Convolutions Max-pooling Conv and Pool layers Fully-connected
Figure |: Illustration of our model
Hinh 2.10 Hinh minh hoa char-cnn [8]
CNN gồm 3 lớp chính là lớp tích chap (Convolutional layer), lớp pooling (Pooling layer), lớp kết nối toàn bộ (Fully-connected layer) Sau đây là một số thông tin về CNN:
34