Trong phạm vi đồ án sẽ sử dụng phương phápseq2seq, đây là một phương pháp học sâu xuất hiện sau không thường được sử dụng cho bài toán trích rút thực thé mà thường được áp dung để giải q
Trang 1HỌC VIEN CÔNG NGHẸ BƯU CHÍNH VIỄN THONG
KHOA CÔNG NGHẸ THÔNG TIN
PGE Geog
Đề tài: TRÍCH RÚT THỰC THỂ TIẾNG VIẸT
SỬ DỤNG MÔ HÌNH SEQ2SEQ
HÀ NỌI, THÁNG 12/2023
Trang 2LỜI CÁM ƠN
Lời đầu tiên, em xin phép được bày tỏ lòng biết ơn sâu sắc đến người thầy hướng dẫncủa em: thay PGS.TS Ngô Xuân Bách — người đã luôn tận tình hướng dẫn, chỉ bảo emtrong suốt quá trình học tập va làm đồ tại Học viện Công nghệ Bưu chính Viễn thông.Cảm on thay vì trong suốt thời gian vừa qua đã luôn chỉ bảo, nhắc nhở và hướng dẫn emtận tình dé hoàn thành đồ án này
Em xin gửi lời cảm ơn tới toàn bộ các quý thầy cô, giảng viên tại Học viện Công nghệBưu chính Viễn thông đã tận tình giảng dạy, truyền đạt những kiến thức quý báu cho emtrong những năm tháng học tập tại trường Em cũng xin được gửi lời cảm ơn sâu sắc tớicác thầy cô trong Khoa Công nghệ Thông tin 1 đã luôn tận tình dạy dé, chỉ bao và tao điều kiện tốt nhất cho chúng em trong những năm tháng học tập tại Học viện Nhữngkiến thức bé ích, quý giá này sẽ là hành trang đi cùng em trong những năm tháng sau
`
này.
Cuối cùng, em cũng xin gửi lời cảm on tới gia đình, bạn bè, các anh chi em — những
người đã cùng đông hành, quan tâm và ủng hộ em trong suôt quá trình học tập và nghiên cứu đô án.
Trong quá trình thực hiện đồ án không khỏi còn nhiều điều thiếu sót, em mong nhậnđược những ý kiến đóng góp của các thầy cô và bạn bé dé có thê hoàn thành tốt đồ án
Em xin chân thành cảm on!
Hà Nội, tháng 12 năm 2023
Sinh viên thực hiện
Nguyễn Thị Uyên
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan những khảo sát, nghiên cứu là do tôi thực hiện và tìm hiểu dưới sựhướng dẫn của thầy PGS.TS Ngô Xuân Bách Tắt cả bài báo, tài liệu, công cụ, mã nguồncủa các tác giả khác được sử dụng ở trong đồ án đều được trích dẫn tường minh về nguồn
và nhóm tác giả trong phần danh sách tài liệu tham khảo
Hà Nội, tháng 12 năm 2023
Sinh viên thực hiện
Nguyễn Thị Uyên
Trang 4NHAN XÉT, ĐÁNH GIÁ VÀ CHO DIEM
(Của giảng viên hướng dẫn)
Hà Nội, tháng 01 năm 2024
Giảng viên hướng dẫn
PGS.TS Ngô Xuân Bách
Trang 6TÓM TAT
Bài toán trích rút thực thể là là một trong những bài toán quan trọng trong lĩnh vực xử
lý ngôn ngữ tự nhiên Trích rút thực thé giúp xác định và phân loại các thực thé quantrọng như tên người, tên tô chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, số lượng,ngày tháng và nhiều thông tin cụ thể khác từ văn bản Những thực thê được trích rút rađược sẽ được sử dụng để giải quyết các bài toán phức tạp hơn như Chatbot, QuestionAnswering, Search, v.v Nhờ vậy mà trích rút thé trở thành một phan quan trọng giúpmáy tính tiễn gần hơn đến việc hiểu được ngôn ngữ tự nhiên (Nature language
understanding).
Trong phạm vi đồ án tập trung vào việc trích rút thực thể tiếng Việt sử dụng phươngpháp seq2seq Đồ án sẽ trình bày những kiến thức cơ bản liên quan đến phương phápseq2seq dé trích rút thực thé tiếng Việt và 2 mô hình NER-Biaffine và BARTNER chính
là mô hình được xây dựng dựa trên phương pháp seq2seq, những kiến thức liên quan đến
mô hình này sẽ được trình bày trong chương 2 của đồ án
Bộ dit liệu tiếng Việt dé thực nghiệm cho bài toán trích rút thực thé là bộ dữ liệu tiếngViệt mới nhất dành cho trích rút thực thé (NER) của VLSP sử dụng cho challenge của họvào năm 2021 Kết quả thực nghiệm tốt nhất đạt 73,58% trên tập thử nghiệm của VLSP
sử dụng mô hình NER-Biaffine cao hơn kết quả thực nghiệm trên bộ dữ liệu được công
bố trước đó (đạt được 62,71% [1]), cao hơn khoảng 10,87%, cho thấy mô hình đã hoạt động hiệu quả Chỉ tiết kết về kết quả sẽ được trình bày trong chương 3 của đồ án.
Từ khóa: Trích rút thực thể, nhận dạng thực thé, phuong phap seq2seq, NER-Biaffine,
BARTNER.
Trang 7DANH MỤC THUẬT NGỮ
Các thuật ngữ viết tắt
STT Tiếng Anh Tiếng Việt/ Giải thích
Deep learning Hoc sau
NLP Natural Xu lý ngôn ngữ tự nhiên
Trang 8Association for cho cuộc thi của VLSP vào năm 2021 Vietnamese
Language and Speech
Processing 2021
11 End-to-end End-to-end Quy trình đầu cuối: mô tả quy trình mà
một hệ thống hoặc dịch vụ hoạt động từđầu đến cuối và cung cấp một giải pháp
chức năng hoan chỉnh, thường là không
Trang 9Recurrent Neural | Mạng nơ-ron hồi quy
Các thuật ngữ không có từ viết tắt
Tiếng Anh Tiếng Việt/ Giải thích
sẵn
Finetuned model | Mô hình dựa trên pretrained model dé tiến hành huấn luyện
thêm trên tập dữ liệu mới hay đơn giản là thêm hoặc đóng
Trang 1010
Trang 11DANH SÁCH HÌNH VE
Hình 2.1 Kiến trúc LSTM (Nguồn: ResearchGafe) 2-2 s+Sx+£EtzEeE2EEEzEcrxrrrred 26Hình 2.2 Kiến trúc 1 cell state trong LSTM (Nguồn: ResearehGate) 5-2 ¿ 26Hình 2.3 Công quên trong LSTM (Nguồn: ResearchGate) - + 2 +sss+s+xszszxzz 27Hình 2.4 Sự kết hợp giữa input gate và hidden state và hàm tanh trong LSTM 27Hình 2.5 Cập nhật cell state trong LSTM (Nguồn: ResearchGate) -252-5¿ 28
0000054000 1e) 28Hình 2.7 Kiến trúc BiLSTM (Nguồn: ResearchGate) -2- 222 s+E2EvEs£zzEzEerszxez 29Hình 2.8 Biểu diễn đầu vào của BERT [4] - - + 5 SE‡EEEEEEEEEEEEEEEEEEEEEEEEEEkrkrkrre 31Hình 2.9 Các biến đổi gây nhiễu đầu vào - ¿2 t+SE2SE+ESEE£EEEEE2E2EEEEEEEEEEEEErrkee 32
Hình 2.10 Hình minh họa char-cnn [ 8] - ¿c2 2c 3332213321 32£2E22EE2EEEeeckkeeeses 33
Hình 2.11 Hình anh minh họa về cách hoạt động của CNN (Nguồn: ResearchGate) 34
Hình 2.12 Hình minh họa lớp tích chập - G6 2c 3321132113213 xke 34
Hình 2.13 Minh họa việc tính toán trên lớp Max Pooling (Nguồn: ResearchGate) 36Hình 2.14 Kiến trúc Biaffine [9] -¿- + + ềEEE11111E711111111111111E1111 11x cre 36Hình 2.15 Chuyén tiếp bộ mã hóa (Encoder) và bộ giải mã (Decoder) [11] - 38
Hình 2.16 Bộ mã hóa (Encoder) và bộ giải mã (Decoder) [] Ï ] -«+<++<<<+++ 38
Hình 2.17 Hình minh hoa đầu vào dau ra của encoder [12] - s2 ++se+xerzrszz 40Hình 2.18 Hình minh họa đầu vào đầu ra của decoder [ 12] -2 2 s+s+zx+zs+s4 41Hình 2.19 Kiến trúc mô hình NER-Biaffine 0 cccccccscsssesssesssessesssessessecssessecssessesseaeeees 42
Hình 2.20 Mô hình char-cnn mã hóa ký tự [I3 ] . S211 * + EEsseersseeererse 44
Hình 2.21 Kiến trúc của BARTNER [ 14] 2-2: ©S2E2E2EEEEEEEEEEEEEEEEE221221211 2E xe, 45Hình 2.22 Giải thuật biến đổi chuỗi thực thé tuần tự thành các thực thé spans [14] 46Hình 2.23 Ba cách biêu diễn thực thé của phương pháp BARTNER [14] - 47
Hình 3.1 Minh hoa tập dữ liệu được sử dụng - 5 5 +2 3231123111211 sreree 50
Hình 3.2 Hình minh họa đầu vào của BARTNER ccccccrtiirrrrrrrrrrrrirrrree 51Hình 3.3 Hình minh hoa json đầu vào của NER-Biaffine 0 cccceccecescesseseesessesesseeeeseeees 51Hình 3.4 Hình minh họa file lưu trữ dữ liệu đầu vào của NER-Biaffine 51Hình 3.5 Minh hoa thông số môi trường ¿- 2 2 2+s+SE+EE£EE+EEE+E£EEEEEEEEEEEEEEErrkrkes 52
Trang 12Hình 3.6 Các thư viện được phục vụ cho NER-Biaffine - - cà SSs+sssseerres 53 Hình 3.7 Cac thư viện được phục vụ cho BARTNER - - SG 1n se, 54
Hình 3.8 Hình anh mô ta confusion matrix [ Í Ó] c5 2c 322221332 E32EEE++zeveexseesees 56 Hình 3.9 Hình anh mô ta confusion matrix khi được normalize [ L7 ] -‹‹ - 56
Hình 3.10 Hình ảnh kết quả Fl-score trên tập test của NER-Biaffine (BiLSTM không sử
Hình A.1 Hình ảnh khi người dùng truy cập vào trang Web cee eeceeeseeeeeneeeeeneeeeeneees 65
Hình A.2 Hình anh người dùng nhập văn bản đầu Va0 ccececccscessessessessesssessssesssseeseeeees 65Hình A.3 Hình ảnh kết quả trả về sau khi thực hiện trích rút thực thê -. - 66
12
Trang 13DANH SÁCH BANG
Bảng 1.1 Kết quả mô hình tốt nhất tính đến hiện tại trên tập dữ liệu VLSP 2021 [1] 23Bảng 3.1 Bảng thông tin về nhãn thực thé của VLSP 2021 dành cho nhiệm vụ NER 49Bang 3.2 Bang thống kê của tap dit liệu VLSP 2021 ¿2-5 +S2+E+E+£££EzEzEerszxereree 50Bang 3.3 Bang thông tin tham số thực nghiệm 2- 2 2S +2 EE+E+E£E£EEzEzEerszEerree 55Bảng 3.4 Bảng kết quả thực nghiệm so sánh giữa kết quả nghiên cứu tốt nhất được công
bồ và kết quả của phương pháp sử dụng trong đỗ án 2-52 + 2sc2£E2E£E£EEzEzEerrxzea 59Bang 3.5 Bang kết qua so sánh kết quả giữa việc sử dụng PhoBERT làm embedding với
sử dụng cả PhoBERT và charcnn làm embedding - 5c + *++++eexeexeereeeres 60
Bang 3.6 Bảng kết quả thực nghiệm giữa BiLSTM và BiGRU 25+s=s25+2 60Bảng A.1 Các công cụ sử dụng xây dựng hệ thống 2 + ©22E+££+E2+E+£EcEerxzEerree 64
13
Trang 14MỤC LỤC
CHUONG 1 GIỚI THIEU BÀI TOÁN TRÍCH RUT THỰC THE TIENG VIỆT 18
1.1 Giới thiệu bài toán trích rút thực thỂ ¿- 22c 181.2 Một số ứng dụng của bài toán trích rút thực thỂ St TT rrưyt 191.3 Mô hình trích rút thực thé đã được nghiÊn CỨU - 5 + Sc se s+kssrseereree 21
1.3.1 Mô hình dựa trên luật va từ điển (Dictionary and Rule-based Models) 221.3.2 Mô hình học máy dựa trên thống kê (Statistical Machine Learning) 22
1.3.3 Mô hình sử dụng các phương pháp học sâu - ¿5c + + +22 *+++sss+ss 22
1.3.4 Mô hình được sử dụng cho bộ dữ liệu NER của VLSP 2021 22 1.4 Phạm vi nghiÊn CỨU - - G13 115111911 E910 91119 TH HH ng kp 23
1.5 Đóng góp của đỗ án 2-5 St Ss E2 E2EEE152121121121271211211211121111211 11111 E1xe 231.6 Kết luận chương 2-25 +t‡EE9EE2E12EE21571221211217171117111110111 110111 y0 24
CHUONG 2 TRÍCH RUT THUC THẺ TIENG VIET SU DỤNG MÔ HÌNH
5239723390077 25
2.1 Các kiến thie CƠ SỞ - 2.2 St S31 11 515151 515151511111515111111511 1111511111515 111 1x1 c2 25
2.1.1 Mang nơ-ron sử dụng bộ nhớ ngắn hạn dài (LSTM) và mạng no-ron hồi tiếp
(GRU) 25
2.1.2 Mạng ron sử dụng bộ nhớ ngắn hạn dài hai chiều (BILSTM) và mạng ron hồi tiếp hai chiều (BiGRU) - 2-5 ©52+22£SE9EE9EEEEEE2E21122122121212171 2111 e0 292.1.3 Mô hình ngôn ngữ BERT và các biến thể 2-52 2+S2+EvEzE+EzEzxzxrrs 302.1.4 Mô hình ngôn ngữ BART và các biến thể 2 2 2+2z+£Eerxerxcrrzreee 32
nơ-2.1.5 _ Lớp tích chập ở mức ký tu (Character level CNN) <ccse- 33
2.1.6 BIaffine LcQ HS key 36
2.1.7 Mô hình chuỗi đến chuỗi (Seq2seq) - 2-52 2 x+EE£EE£Et£E2EzEerxersee 37
Trang 152.2 Mô hình NER-Biaffine LL CC Q11 1111111195351 1 11K kg Tnhh 41 2.3 Mô hình BARTNER 2-22: 22222S221221127121127112112211271121121211 21 E1 tre 44
3.2 Các mô hình thực nghiỆm ¿2 3213223331832 E25EE£2EEEEEEEEEEEErrkrerreere 52
3.3 Thiết lập thực nghiệm -¿- 2 sSt9EE92E2E12E122127171711211211211 111111111 52
3.3.1 Môi trường, công cụ thực nghiỆm - c2 321112511121 11E12 E11 xrres 52
3.3.2 Chỉ tiết thực nghiệm - 2-52 +sSESEEEEE2E2E221215212121217111 111121 1x6 54
3.3.3 Damh gid 0i an€£ 55
3.4 Kết quả thực mghim c.cceccccccscessessesssssessessessessesssesssssessessssesussessssessssssesneaeesees 58
3.4.1 So sánh kết quả so với kết quả tốt nhất đã được công bố - 593.4.2 So sánh kết quả giữa việc sử dụng thêm embedding char-cnn và không sử
Aung Char-Crt 000277 59
3.4.3 So sánh kết quả giữa BiGRU và BiLSTM trong mô hình NER-Biaffine 60
3.4.4, Phân tích lỗi sai 5:25: 22222 122121221 2121121211212112121121211 11211 ce 60
3.5 Kết luận chương :- 2 2+SStEEE9E12E121212712112112171112111111111112 211012 re 62
00000075775 63PHU LUC A Hệ thống trích rút ý định thực thễ 2-5 5s s2 se =sessesese 64
0-1000, 21077 64
A.I Tổng quan hệ thống 2-2 +S2E22EE9E12E1EE1711211211211211717171121 11111 re 64
Trang 16A.2_ Một số hình ảnh của hệ thống "
TÀI LIỆU THAM KHẢO
16
Trang 17LỜI NÓI ĐẦU
Trong những năm gần đây, trước sự phát triển không ngừng của công nghệ thông tin,nhu cầu về tìm kiếm, khai thác và xử lý thông tin tiếng Việt ngày càng cao, các vấn đề về
xử lý tiếng Việt trở lên quan trọng, được nhiều sự quan tâm từ cộng đồng nghiên cứu ởtrong và ngoài nước Trích rút thực thé là một trong những nhiệm vụ quan trọng trongviệc xử lý ngôn ngữ tiếng Việt, giúp xác định và phân loại các thực thể quan trọng nhưtên người, tên tô chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, số lượng, ngàytháng và nhiều thông tin cụ thể khác từ văn bản Những thực thé được trích rút ra được sẽđược sử dụng dé giải quyết các bài toán phức tạp hơn như Chatbot, Question Answering,Search, v.v Nhờ vậy, mà trích rút thực thể giúp máy tính tiễn gần hơn đến việc hiểu được
ngôn ngữ tự nhiên (Nature language understanding).
Dé giải quyết bài toán này, các nhà nghiên cứu đã đưa ra rất nhiều phương pháp dénghiên cứu và ứng dụng Một số phương pháp phô biến được sử dụng dé giải quyết bàitoán trích rút thực thể là mô hình dựa trên chuỗi (sequence-based models) như CRF,LSTM, BERT và các biến thể của nó, v.v Trong phạm vi đồ án sẽ sử dụng phương phápseq2seq, đây là một phương pháp học sâu xuất hiện sau không thường được sử dụng cho bài toán trích rút thực thé mà thường được áp dung để giải quyết các bài toán về dịch máy, tóm tắt văn bản, chuyền đổi giọng nói thành văn bản, tạo ra văn bản, v.v Dé án này
sử dụng phương pháp seq2seq trong nhiệm vụ trích rút thực thể với mong muốn có thể có
sử dung ưu thé của phương pháp seq2seq như xử lý chuỗi dai, học các đặc điểm phức tap
và ngữ cảnh của văn bản, đầu ra tùy chỉnh vào trong trích rút thực thé tiếng Việt có thédem lại kết quả tốt Phần chính của đồ án là trình bày 2 mô hình NER-Biaffine vàBARTNER (đây là 2 mô hình sử dụng phương pháp seq2seq) dé trích rút các thực thétiếng Việt
Lần lượt qua các chương, thì đồ án sẽ trình bày từ tổng quan về bài toán trích rút thựcthé tiéng Việt đến việc áp dụng phương pháp seq2seq vào trong trích rút thực thê tiếngViệt và trình bày chi tiết mô hình trích rút thực thé tiếng Việt: NER-Biaffine vàBARTNER, ở phan cuối sẽ trình bày các kết quả và nhận xét thu được sau quá trình thựcnghiệm mô hình giải quyết bài toán trích rút thực thể
17
Trang 18Đồ án được chia làm 3 chương với nội dung chính như sau:
Chương 1: Giới thiệu về bài toán trích rút thực thể
Chương này sẽ giới thiệu tổng quan về bài toán trích rút thực thể, những ứng dụng củabài toán trích rút thực thể Đồng thời, nêu nên những mô hình được sử dụng cho trích rútthực thể trước đây
Chương 2: Trích rút thực thể tiếng Việt sử dụng mô hình seq2seq
Chương 2 sẽ trình bày chỉ tiết hơn về bài toán trích rút thực thể, đi sâu vào 2 mô hìnhđược sử đụng dé giải quyết bài toán trong đồ án là NER-Biaffine và BARTNER, đồngthời nêu lên những thuật toán, mô hình liên quan trên để làm nền tảng giải quyết bài toánbăng NER-Biaffine và BARTNER
Chương 3 Thực nghiệm và đánh giá
Chương 3 sẽ giới thiệu về tập dữ liệu tiếng Việt VLSP 2021 sử dụng cho bài toán tríchrút thực thê và trình bày thực nghiệm với những mô hình đã nêu ở chương 2 trên tập dữliệu VLSP 2021, đồng thời đưa ra các đánh giá và so sánh phương pháp, chỉ ra các lỗi sai
và hướng khắc phục.
18
Trang 19CHƯƠNG 1 GIỚI THIỆU BÀI TOÁN TRÍCH RÚT THỰC THÊ
TIENG VIỆT
Trong chương 1 sẽ trình bày một cách tổng quan về bài toán trích rút thực thé trong xử
lý ngôn ngữ tự nhiên, ứng dụng của trích rút thực thể trong thực tế hiện nay và trình bàyphạm vi nghiên cứu, đóng góp của dé án
1.1 Giới thiệu bài toán trích rút thực thể
Nhận dạng thực thể hay nhận dạng thực thể (Named Entity Recognition, được viết tat
la NER) là một tac vu trong lĩnh vực xử ly ngôn ngữ tự nhiên (NLP) Vai trò chính của nhiệm vụ nay là nhận dạng các cụm từ trong văn ban và phân loại chúng vào trong các
nhóm đã được định trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm, nhãnhiệu, nay thang và nhiều thông tin cụ thể khác từ văn bản Từ kết quả của nhiệm vụ tríchrút thực thé (NER) có thé xử lý cho nhiều bài toán phức tạp hơn như Chatbot, Question
Answering, Search, v.v [2]
Ví dụ với một câu: “Sau đó đến tháng 9/2016 cô được luân chuyên về Trường tiểuhọc & THCS Thị trấn Mù Cang Chải” có 3 thực thể được xác định ở đây là “tháng9/2016” (là ngày tháng — nhãn DATE viết tat là DAT), “Trường tiểu học & THCS Thịtran Mù Cang Chai” (là tên tổ chức — nhãn ORGANIZATION viết tắt là ORG) và “Mù Cang Chải” (là tên địa điểm — nhãn LOCATION viết tắt là LOC) Trong ví dụ trên thì các thực thể có thể lồng nhau như thực thể “Mù Cang Chải” vừa là thực thể có nhãn làORGANIZATION, vừa là thực thể có nhãn là LOCATION Như vậy dé thuận tiện choviệc lưu trữ thì nhãn thực thé sẽ được lưu đưới dạng là 1 danh sách [tên thực thực thể, vịtrí bắt dau, vị trí kết thúc] Mô hình trích rút thực thé sẽ nhận đầu vào là một câu gồm các
từ XixX; X;y và thực hiện trích rút để được 1 chuỗi các thực théSị,Ø1,fi,S2,€2,t;, ,S,,€¿,t¿ (Trong đó $,:€,.f, lần lượt là vị trí bắt đầu, vị trí kết thúc vànhãn của thực thé i
Tổng quát lại bài toán nhận dạng thực thể sẽ có đầu vào là một chuỗi và đầu ra sẽ làmột chuỗi các thực thê (NE) trong câu đó
19
Trang 201.2 Một số ứng dụng của bài toán trích rút thực thể
Mục đích chính của bài toán trích rút thực thể là trích rút thực thể trong câu một cách
tự động Những thực thé này sẽ được sử dụng như là đầu vào dé xử lý các bài toán phức
tạp hơn như Chatbot, Question Answering, Search, v.v như đã nêu ở trên Hiện nay, việc
trích rút thực thể trong câu đã được áp dụng vào trong thực tế và trở thành một trongnhững nhiệm vụ quan trọng cho các công ty Sau đây là một số ứng dụng của trích rút thựcthể được ứng dụng ở thực tế trong từng lĩnh vực:
Trong lĩnh vực công nghệ và truyền thông:
Công ty công nghệ lớn như Google, Amazon, Facebook sử dụng trích rút thực
thể trong các sản phẩm tìm kiếm, trợ lý ảo, và xử lý ngôn ngữ
Các công ty truyền thông sử dụng trích rút thực thể để phân tích và tô chức
thông tin từ các nguôn tin tức và mạng xã hội.
Trong lĩnh vực tài chính và ngân hàng:
Ngân hang và tổ chức tài chính sử dụng trích rút thực thé dé phân tích các báo cáo tài chính, tài liệu pháp lý, và dé theo dõi giao dich dé phát hiện gian lận.
Các công ty quản lý quỹ đầu tư sử dung công nghệ này dé phân tích thông tin từ
các báo cáo thị trường và tin tức kinh doanh.
Trong lĩnh vực y tế và được phẩm:
Trong lĩnh vực y tế, trích rút thực thé được sử dung dé phân tích hồ sơ bệnh án,nghiên cứu lâm sàng và tài liệu y tế
Các công ty dược phẩm sử dụng trích rút thực thé dé phân tích các nghiên cứu
khoa học và dữ liệu lâm sàng.
Trong lĩnh vực pháp luật và chính phủ:
Các cơ quan chính phủ và tô chức pháp luật sử dụng trích rút thực thé dé phân
tích tài liệu pháp lý và tài liệu chính sách.
Các tô chức giám sát và thực thi pháp luật sử dụng công nghệ này đề theo dõi vàphân tích dữ liệu từ các nguồn thông tin khác nhau
Trong việc ban lẻ va dich vụ khách hàng:
Các công ty bán lẻ sử dụng trích rút thực thé dé phân tích đánh giá và phản hồi
của khách hàng.
20
Trang 21e Trong dịch vụ khách hàng, trích rút thực thé giúp tự động hóa việc xử lý yêu cầu
và phản hồi của khách hàng.
Nhờ việc áp dụng trích rút thực thể vào trong thực tẾ, các công ty này đã cải thiện được
hiệu quả quy trình làm việc, phân tích dữ liệu nhanh chóng, và giảm bớt nhân sự làm các công việc nảy.
Trong thực tế, trích rút thực thể được ứng dụng trong rất nhiều bai toán như:
e Phan tích cảm xúc (Sentiment Analysis): Trích rút thực thé sẽ trích rút ra các NE
cụ thé (như tên người; cảm xúc: vui, buôn, ghét, thích, v.v; địa điểm; v.v) tùy
vào yêu cầu của bài toán, sau đó các thực thé này sẽ được sử dụng dé phân tích,đánh giá Từ đó có thê đưa ra nhận xét, kết luận về cảm xúc liên quan
se Tóm tắt và phân loại tài liệu: Việc tìm, đọc và lọc các tài liệu vẫn luôn rất tốn
sức và thời gian cho nên việc áp dụng trí tuệ nhân tạo (AI) vào để giải quyết vấn
dé này luôn được quan tâm Trích rút thực thé sẽ giúp trích rút các thực thé (NE) chính, các thực thể này sẽ được sử dụng làm đầu vào cho các bài toán phân loại,tóm tắt giúp nâng cao tỷ lệ chính xác hơn khi mà cho tài liệu trực tiếp vào dé
phân loại
e Hệ thống gợi ý (Recommendation Systems): Hiện nay việc tim kiếm và đề xuất
tự động như: đề xuất phim trên Netflix, bài báo, hay trên sàn thương mai trực tuyến thì việc đề xuất các sản phẩm mà người dùng có thé có nhu cầu mua đangđược áp dung hàng ngày Trích rút thực thé sẽ được ứng dụng vào đây giúp tríchrút các thực thể liên quan từ lịch sử tìm kiếm, mua hàng, những bộ phim, cuốn sách đã xem, đã đọc v.v và đồng thời trích rút thực thé trong các tài liệu, sách,phim, sản phẩm từ những sản phẩm hiện có dé đưa ra các đề xuất tương ứng
e Phat hiện các giao dich bất thường từ đó phòng chống gian lận, lừa đảo: Trong
lĩnh vực tài chính ngân hàng, việc trích rút các thực thể như: tên nguoi, số tàikhoản, địa điểm, số tiền giao dịch, v.v được áp dụng để phát hiện những sự kiện
“bat thuong” nhu tron thuế, lừa đảo, v.v
s® Hỗ trợra quyết định và kinh doanh: Trích rút ra các thực thê để lay được các dữ
liệu thị trường, báo cáo tài chính hoặc bình luận của khách hàng giúp doanh
21
Trang 22nghiệp hiểu rõ hơn về nhu cầu của khách hàng, thị trường và từ đó đưa ra các
quyết định kinh doanh tương ứng.
e Tìm kiếm và trích xuất thông tin: Trích rút thực thé sẽ giúp trích rút các thực thé
chính trong dữ liệu lớn một cách nhanh chóng hơn việc sử dụng nhân lực, từ đó
đưa ra các tài liệu liên quan (đây được ứng dụng nhiều vào hệ thống gợi ý).
© Chatbots và trợ lý ảo, voicebot: Voicebot sẽ chuyên giọng nói thành văn ban,
những văn bản, đoạn chat của người dùng sẽ được sử dụng để trích rút thực thể(Ví dụ: một chatbot tư vẫn sản phâm bán hàng, khi người dùng hỏi về “giá tiềncủa sản phẩm A7 thì hệ thống sẽ thực hiện trích rút các thực thé trong đó như
“giá tiền”: “money”, “A”: “product name” các thực thé như “money”, “productname” sẽ được sử dụng để nhận diện ý định (intent) và từ đó đưa ra câu trả lờitương ứng) Một ví dụ nổi bật của chatbots hiện nay là chatgpt Các thực thể
được trích rút ra sử dụng trong trợ lý ảo, nhà thông minh, robot, v.v.
e Phan tích và giám sát mang xã hội: các thực thể được trích rút ra để đưa ra xu
hướng hiện tại và các quan điểm, chủ đề nóng trên mạng xã hội
® Nghiên cứu y tế và dược phẩm: trích rút ra các thực thể về bệnh án, triệu chứng
và các tài liệu liên quan dé đưa ra các thông tin như bệnh lý, thuốc, liều lượng
1.3 Mô hình trích rút thực thể đã được nghiên cứu
Các thuật toán được sử dụng cho trích rút thực thể được phát triển dần từ thô sơ đếnđơn giản rồi phức tạp Thuật toán đầu tiên xuất hiện là những thuật toán dựa trên luật (tậpluật mà do kinh nghiệm con người sau quá trình quan sát, phân tích, thử nghiệm dé đúc rútra), sau đó đến những thuật toán sử dụng mô hình học máy cô điển (traditional machinelearning) và những thuật toán học sâu (deep learning) được vận dụng đến ngày nay v.v
Sau đây là một số mô hình trích rút thực thé đã được nghiên cứu và những ưu điểm,nhược điểm của chúng
1.3.1 Mô hình dựa trên luật và từ điển (Dictionary and Rule-based Models)
Phương pháp này sẽ sử dụng một bộ luật và từ điển cụ thé được xác định trước détrích xuất thông tin trong câu và ngữ cảnh tương ứng.
Vì Rule-base Models sử dụng bộ luật, từ điển được xây dựng bằng tay nên nó thường
it linh hoạt và khó mở rộng, khó bảo trì và thích ứng với miền ngôn ngữ mới Nhưng vì là
22
Trang 23tập luật và từ điển được xây dựng cụ thể nên nó sẽ có thể có hiệu quả trong | mién cu thénhư: xử ly những nhiệm vụ có ngôn ngữ va cấu trúc đữ liệu tương đối có định và có thé
dự đoán (tài liệu pháp lý, tài chính, y tế, v.v), xử lý tài liệu có cấu trúc rõ ràng (bảng biểu,mẫu đơn, tài liệu quan lý, v.v), bộ dit liệu có số lượng mau rất nhỏ chưa có mô hình deeplearning có sẵn dé tiến hành fintune, v.v
1.3.2 Mô hình học máy dựa trên thống kê (Statistical Machine Learning)
Các phương pháp dựa trên thống kê như SVM, HMM, cây quyết định hay CRF tínhtoán dựa trên cả ngữ cảnh của từ tốt hơn SVM sẽ sử dụng thống kê để tính toán
Vì sử dụng thống kê cho nên nó có tính khái quát tốt hơn các phương pháp trước đónhưng vi dùng thống kê và xác suất nên nó yêu cầu về khả năng xác định và biéu diễn haytrích rút ra các đặc trưng (features) và yêu cầu khả năng tính toán được mở rộng
1.3.3 Mô hình sử dụng các phương pháp học sâu
LSTM, RNN, GRU đều là những phương pháp phù hợp với dữ liệu tuần tự, giúp
“hiểu” được ngữ cảnh, các phần phụ thuộc trong đữ liệu văn bản.
Tuy nhiên vì nó tính toán cả ngữ cảnh nên sẽ yêu cầu bộ nhớ lớn đề lưu trữ và ghi nhớthông tin của đầu vào từ đầu tới cuối (đối với RNN) gây mat độ dốc (vanishing gradient:đạo hàm rất nhỏ xấp xi 0 và bị về 0) hay LSTM, BiLSTM, GRU thì cũng yêu cầu kha
năng tính toán lớn, chi phí cao.
1.3.4 Mô hình được sử dụng cho bộ dữ liệu NER của VLSP 2021
Trong những năm gan đây, việc tìm ra phương pháp để giải quyết bài toán trích rútthực thê cho tiếng Việt để áp dụng vào trong thực tế vẫn đang diễn ra Các mô hình trích
rút thực thé cần bộ dit liệu NER dành cho tiếng Việt được gán nhãn thực thể trước dé làm
“tài liệu” cho máy học VLSP đã đưa ra bộ dữ liệu trích rút thực thê dành cho tiếng Việt làNER 2021 tạo ra cơ hội để giải quyết những nhiệm vụ liên quan đến NER Trước đóVSLP đã đưa ra 2 bộ dataset để sử dụng cho nhiệm vụ NER vào năm 2016 và 2018 vàgần đây nhất là bộ dữ liệu dành cho NER vào năm 2021.
Trong đồ án này thì sử dụng bộ đữ liệu dành cho nhiệm vụ trích rút thực thé NER năm
2021 nên sẽ chỉ nêu nên kết quả của mô hình tốt nhất tính đến thời điểm hiện tại cho bộ
23
Trang 24dữ liệu VSLP 2021 Sau đây là kết quả tốt nhất của mô hình hiện nay trên bộ dữ liệu
VLSP 2021:
Bảng 1.1 Kết quả mô hình tốt nhất tính đến hiện tại trên tập dữ liệu VLSP 2021 [1]
Model Fl-score
Two Stage Model for Nested Named Entity Recognition | 62.71 %
Kết quả trên của nhóm tac giả Quan Chu Quoc va Vi Ngo Van đến từ trường dai học
VNU thử nghiệm với bộ dữ liệu dành cho NER sử dung mô hình 2 giai đoạn cho NER
lồng nhau Kết quả tốt nhất ở trên của nhóm tác giả đến từ VNU được thử nghiệm vàcông bố vào năm 2022.
Bộ dữ liệu được sử dụng cho đồ án là bộ đữ liệu dành cho NER của VLSP năm 2021
Trong thực tế, một văn bản có nhiều câu và cần trích rút thực thé trong cả văn bản thìtrong đồ án chỉ khảo sát tập trung vào tập dữ liệu các câu đơn duy nhất chứ không sửdụng cả văn bản Những dữ liệu là văn bản sẽ được tách ra thành các câu để sử dụng
1.5 Đóng góp của đồ án
Đồ án có những đóng góp cơ bản sau:
s® - Giới thiệu bài toán trích rút thực thé
© Cac kiến thức, khái niệm làm nền tảng cho phương pháp giải quyết bài toán
e Khảo sát các kiến trúc mô hình khác nhau nhăm giải quyết bài toán trích rút
thực thể
e Thực nghiệm các kiến trúc trích rút thực thé trong câu tiếng Việt sử dụng
phương pháp seq2seq Từ đó đưa ra đánh giá, nhận xét về kết quả đạt được, hướng cải tiến cho bài toán.
24
Trang 251.6 Kết luận chương
Chương 1 giới thiệu về bài toán trích rút thực thể, tiếp theo là các ứng dung của bàitoán này vào trong thực tế Chương 1 cũng nêu nên các nghiên cứu liên quan đến bài toánđược áp dụng cho bài toán trích rút thực thể Chương 2 sẽ nêu nên các kiến thức cơ sởđược sử dụng trong các kiến trúc do đồ án đề xuất và đi sâu vào mô tả kiến trúc, mô hình được sử dụng trong đồ án dé áp dụng vào giải quyết nhiệm vụ trích rút thực thé (NER).
25
Trang 26CHƯƠNG 2 TRÍCH RUT THỰC THE TIENG VIỆT SỬ DỤNG
MÔ HÌNH SEQ2SEQ
Trong chương 2 sẽ trình bay cụ thé về phương pháp trích rút thực thê tiếng việt sử dụng
mô hình seq2seq Ở phần đầu tiên thì sẽ nêu nên những kiến thức cơ sở sẽ được sử dụngcho 2 mô hình thực nghiệm của đồ án Tiếp đó, đồ án sẽ đi vào chỉ tiết vào đầu vào đầu
ra, kién trúc của từng mô hình thực nghiệm NER-Biaffine và BARTNER
2.1 Các kiến thức cơ sở
2.1.1 Mang nơ-ron sử dụng bộ nhớ ngắn hạn dài (LSTM) và mạng nơ-ron hồi tiếp
(GRU)Như đã trình bày ở phần 1 thì RNN, LSTM, GRU đều là những một mạng hoạt động tốt với đữ liệu tuần tự Về lý thuyết, thi mạng nơ-ron hồi quy (RNN) có thé hoạt động với một chỗi có độ dài bât kì, nhưng trên thực tế trong nhiều nghiên cứu đã chỉ ra mặt hạn chế của RNN đó là sự biến mất đạo hàm (vanishing gradient), nguồn từ việc phụ thuộc dài (long-term dependency) Khi đầu vào là một chuỗi quá dài RNN không thé “nhớ” đượcthông tin tại các thời điểm cách xa tính toán hiện tại, việc này trong tính toán của RNN thìđạo ham (gradient) tại các thời điểm cách xa này đã trở nên quá nhỏ không còn chứanhưng thông tin hữu ích cho bước tính toán hiện tại Hạn chế này khiến RNN không hiệuquả đối với các bài toán cần xử lý dữ liệu theo thời gian dài đòi hỏi trạng thái nhớ trunggian.
Vi vậy LSTM, GRU ra đời nhằm tận dụng ưu điểm của RNN là ghi nhớ được đầu vàotrước đó, xem xét cả đầu vào hiện tại và đầu ra trước đó và mong muốn khắc phục nhượcđiểm đạo hàm bị triệt tiêu (đạo hàm bị triệt tiêu có tên tiếng anh là vanishing gradient)
a) Mạng LSTM
Mạng LSTM (Long Short-Term Memory): Mạng nơ-ron sử dụng bộ nhớ ngắn hạn dài
là một kiến trúc được ra đời nhằm tận dụng những lợi thế mà RNN có và khắc phục những nhược điểm của nó Khác với RNN thay vì “nhớ hết tất cả” thì LSTM có công quên (forget gate) nhằm “lựa chọn” những thông tin sẽ bị “quên đi” và thông tin nào sẽ
được giữ lại.
26
Trang 27Sau đây là kiến trúc tổng quát của LSTM:
&)
Hình 2.1 Kiến trúc LSTM (Nguôn: ResearchGate)
Trong đó trạng thái nhớ (cell state) là thông tin xuyên suốt trong bài toán (Cell state
chính là đường kẻ ngang trong hình đưới đây)
Hình 2.2 Kiến trúc 1 cell state trong LSTM (Nguôn: ResearchGate)
Vector nhớ C, ¡ được đưa vào trong 1 ống nhớ (memory pipe) qua một công gọi làcổng quên vừa được nhắc ở phía trên (forget gate), công quên sẽ quyết định xem cần laybao nhiêu từ cell state, thực chất là một toán hạng nhân ma trận (element-wisemultiplication operation) C,_; sẽ được nhân với 1 vector, nếu kết qua là gần 0 thì kết quảnhớ C, ¡ sẽ bị “quên: và ngược lại nếu kết quả là 1 thì C, ¡ sẽ được đi tiếp
Cu thé hoạt động như sau: LSTM sé quyết định thông tin nao sẽ bị loại bỏ khỏi cellstate Quá trình này được quyết định bởi 1 lớp sigmoid thực hiện Cổng quên lấy đầu vào
27
Trang 28là h,_; và x, dé có được đầu ra là một giá trị nằm trong khoảng [0,1] cho cell state C, ¡.
Công thức của sĩ Id:Ø=T——— ông thức của sigmoi +e")
ti ỡ (Wop: [ted Ey) +† hụ \
Hình 2.3 Cổng quên trong LSTM (Nguồn: ResearchGate)
LSTM sẽ quyết định thông tin mới sẽ được lưu lại tai cell state như nào LSTM sé sửdụng hidden state h,_ ở trạng thái trước đó và đầu vào x, đi qua sigmoid dé quyết định giá
trị sẽ được cập nhật, lớp tanh tạo ra 1 vector giá tri mới C, mà có thể thêm được vào cell
Trang thái cũ C,_,; sẽ được cập nhật thành cell state mới C, Trạng thai cũ C,_¡ sẽ được
nhân với giá trị kết qua của cổng quên f, (forget gate) dé thực hiện quyết định lấy baonhiêu thông tin từ cell state trước và nhờ cổng input gate sẽ quyết định lấy bao nhiêu
thông tin từ input của state và hidden layer của layer trước i,xÓ,.
28
Trang 29if Tr Cr= fet CriticeC
Hình 2.5 Cập nhật cell state trong LSTM (Nguôn: ResearchGate)
b) Mạng GRU
GRU (Gated Recurrent Unit) được giới thiệu bởi Kyunghyun Cho và cộng sự vào năm
2014 [3] Về cơ bản thì GRU giống với LSTM tuy nhiên GRU có ít tham số hơn LSTM
W,U,b: là ma trận và vector tham số
ơ: ham sigmoid
29
Trang 302.1.2 Mạng ron sử dụng bộ nhớ ngắn hạn dài hai chiều (BiLSTM) va mạng
nơ-ron hồi tiếp hai chiều (BiGRU)Như đã trình bày ở phía trên thì dé dàng nhận thấy LSTM truyền thống với 1 lớp duynhất chỉ có thể tính toán cell state của từ hiện tại dựa trên thông tin phía trước của từ đangxét mà chưa lấy được thông tin các từ phía sau BiLSTM ra đời nhằm mục đích “tận dụng” cả thông tin của từ phía sau, nó là sự kết hợp 2 mạng LSTM đơn được sử dụng đồng thời và đọc lập để mô hình hóa chuỗi đầu vào theo 2 hướng: từ trái qua phải (Forward LSTM), từ phải qua trái (Backward LSTM) Điều này cho phép BiLSTM nắm bắt thông tin từ cả 2 hướng trong chuỗi dữ liệu.
Bidirectional
Layer
Việc sử dụng BiLSTM có lợi thế so với LSTM là nó dựa trên cả thông tin theo chiều từ
phải qua trái nhờ Backward LSTM đã nêu ở trên Nhưng việc sử dụng BILSTM là có
thêm 1 LSTM truyền thống để lan truyền ngược lại cho thấy rõ việc nó sẽ yêu cầu tínhtoán phức tap hơn, cần nhiều tài nguyên về bộ nhớ và tài nguyên tính toán hơn nhưng bilại thì nó sẽ cung cấp thông tin “đầy đủ” hơn và ngữ cảnh đặc biệt đối với nhiệm vụ tríchrút thực thê cần xem xét ngữ cảnh của toàn bộ câu chứ không phải là chỉ lấy thông tin
30
Trang 31phía bên trái của từ hiện tại, thông thường BiLSTM sẽ có hiệu suất tốt hơn LSTM Đây là
lý do tại sao BiLSTM được sử dung trong đồ án.
Đối với BiGRU thì BiGRU cũng có cách hoạt động tương tự BiLSTM tuy nhiên thay
vì dùng LSTM thì lớp LSTM sẽ được thay thế bằng lớp GRU
2.1.3 Mô hình ngôn ngữ BERT và các biến thể
a) BERT (Bidirectional Encoder Representations from Transformers)
Đúng như tên gọi của nó, BERT gồm nhiều lớp mã hóa Transformers 2 chiều(bidirectional transformers encoder) được lấy từ kiến trúc nguyên bản Transformers [4]
BERT là một mô hình ngôn ngữ mạnh mẽ được huấn luyện trên một lượng lớn dữ liệu
qua 2 nhiệm vụ chính là:
® MLM (Masked Language Model): là mô hình học không giám sát (unsupervised
text) dé học bối cảnh của câu vào từ cả 2 phía trái và phải nhờ việc nhận đầu vào
là các tokens câu Dữ liệu đầu vào sẽ được chọn một số lượng nhỏ từ trong câu(khoảng 15%) để thay thế bằng token [MASK] và đưa qua mô hình để học
những ngữ cảnh xung quanh từ những từ không bi [MASK] và từ đó dự đoán
được từ bi [MASK].
® NSP (Next Sentence Prediction): là mô hình nhận đầu vào là 2 câu A và B Hai
câu này sẽ được nối với nhau và thêm mã phân loại đặc biệt [CLS] vào đầu câuđồng thời thêm mã [SEP] vào giữa 2 câu dé phân biệt được token nào thuộc câu
A và token nào thuộc câu B Khi huấn luyện thì 50% câu ngẫu nhiên từ văn bản
sẽ được gan nhãn là NotNext va 50% câu sẽ là câu B sẽ được chọn là câu tiếp
theo của câu A, nhãn là IsNext Mô hình sẽ thực hiện dự đoán nhãn là NotNext
hay IsNext.
Đề phục vụ cho quá trình biểu dién thì đầu vào của BERT như sau:
31
Trang 32mới (es) re) Ls Nee Lee eNews Hoe)
Hình 2.8 Biểu diễn đầu vào của BERT [4]
Với Token Embeddings, Segment, Embeddings, Position Embeddings mã hóa và kếthợp (concatenate) lại thành thành đầu vào hoàn chỉnh để đưa vào huấn luyện BERT.BERT sau khi đã được huấn luyện sé được tinh chỉnh cho các tác vụ NLP khác nhau, việctinh chỉnh BERT thường cũng tương đối đơn giản, chi bằng việc thêm các một vài lớp
mạng nơ-ron đơn giản phía trên BERT tùy vào các tác vụ cụ thê.
Dựa trên 3 tham số L: số lượng các block sub-layers trong transformer, H: kích thước của embedding véc tơ (hay còn gọi là hidden size), A: Số lượng head trong multi-head
layer, mỗi một head sẽ thực hiện một self-attention BERT được chia làm 2 phiên bản sau:
e BERTBASE (L=12, H=768, A=12): Tổng tham số 110 triệu
e BERTLARGE (L=24, H=1024, A=16): Tổng tham số 340 triệu
dữ liệu đầu vào trước khi qua BPE encoder.
PhoBERT giúp mã hóa các câu tiếng Việt thành embedding, cũng giống với BERTphobert chia làm 2 loại là PhoBERT-base và PhoBERT-large PhoBERT-base gồm 12layer còn PhoBERT-large gồm 24 layer [5] Trong đồ án, sử dụng PhoBERT-Base và détrích xuất đặc trưng của layer 12
32
Trang 332.1.4 Mô hình ngôn ngữ BART và các biến thé
DE.ABC C.DE.AB
Token Masking Sentence Permutation Document Rotation
Token Deletion Text Infilling
Hình 2.9 Các biến đổi gây nhiễu dau vào
Sentence Permutation: Văn bản chia thành các câu, và các câu này được xáo
trộn ngẫu nhiên
Document Rotation: chọn một token ngẫu nhiên trong văn bản và xoay văn bản
dé cho nó bắt đầu với token (Điều này giúp cho văn ban học được đâu là điểm
bat dau của văn ban)
Với những đặc điểm nêu trên thi BART là mô hình kết hop những ưu điểm của BERT
và GPT BART cũng có 2 phiên bản là 12 lớp (layer) (6 lớp encoder và 6 lớp decoder) và
24 layer (12 layer encoder và 12 layer decoder)
33
Trang 34b) BARTpho
BARTpho [7] ra đời giống như mô hình BART dành cho tiếng Việt, cả BARTpho,„„„ va
BARTpho, „„„ đều sử dụng kiến trúc “large” với 12 lớp encoder và 12 lớp decoder.
Giống với PhoBERT thì BARTpho cũng được huấn luyện trên khoảng 20GB dữ liệubao gồm khoảng 1GB từ Wikipedia tiếng Việt và 19GB còn lại lấy từ các bài báo, tintức bằng tiếng Việt.
2.1.5 Lớp tích chập ở mức ký tự (Character level CNN)
Phương pháp CNN là một trong những phương pháp phổ biến được sử dụng nhiều
trong lĩnh vực xử lý ảnh dùng để trích rút đặc trưng của ảnh Việc sử dụng CNN cho xử lý
ngôn ngữ tự nhiên nghe có vẻ lạ nhưng nó đã được áp dụng bởi nhóm tác giả Xiang Zhang, Junbo Zhao, Yann LeCun vào năm 2016 [8] Tuy nhiên mang Convolution Neural
Networks dựa trên tinh chất chia sẻ tham số và kết nối dia phương tới các vùng ảnh dé tìm ra các đặc trưng chính của dữ liệu nhằm phân loại chúng Đối với văn bản, ta cũng hoàn toàn có thé dựa vào những ý nghĩa thé hiện qua những từ ngữ hoặc câu văn dé trích lọc đặc trưng Rõ ràng, ý tưởng kết chia sẻ tham số và kết nối địa phương cũng rất phù hợp đối với dữ liệu văn bản, không chỉ riêng hình ảnh.
Việc sử dụng character embedding (embedding ở mức kí tự) góp phần mã hóa câu đadang hơn Nó dựa trên các ki tự chữ cai, chữ số và dấu câu thay vì từ vựng Sau đây làmột ví dụ cho việc sử dụng char-cnn cho bai toán trích rút thực thé:
Convolutions Max-pooling Conv and Pool layers Fully-connected
Figure |: Illustration of our model
Hinh 2.10 Hinh minh hoa char-cnn [8]
CNN gồm 3 lớp chính là lớp tích chap (Convolutional layer), lớp pooling (Poolinglayer), lớp kết nối toàn bộ (Fully-connected layer) Sau đây là một số thông tin về CNN:
34