Dé giải quyết van đề trên, khóa luận này sẽ trình bay các phương pháp tiếp cậntruy xuất thông tin trong văn bản pháp luật sử dụng các kỹ thuật học sâu hiện đại và cách cải thiện các phươ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
PHAM NHAT MINH
KHOA LUAN TOT NGHIEP
DUNG HOC SAU
VIETNAMESE LEGAL TEXT RETRIEVAL USING DEEP
LEARNING
CU NHAN NGANH CONG NGHE THONG TIN
TP HO CHi MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
PHAM NHẬT MINH - 18520102
KHÓA LUẬN TÓT NGHIỆP
TRUY XUẤT VAN BẢN PHÁP LUẬT TIENG VIỆT SỬ
DỤNG HỌC SÂU
VIETNAMESE LEGAL TEXT RETRIEVAL USING DEEP
LEARNING
CU NHÂN NGANH CÔNG NGHỆ THONG TIN
GIANG VIEN HUONG DAN
TS DO TRONG HOP
THS TA THU THUY
TP HO CHi MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn hai giảng viên hướng dẫn là thầy Đỗ Trọng Hợp và cô
Tạ Thu Thủy cũng như các thầy cô trường Đại học Công nghệ Thông tin đã cung cấp
các kiến thức nền tang dé tôi có thé tiếp cận dé hơn đến các kiến thức áp dụng trongkhóa luận tốt nghiệp
Bên cạnh đó tôi muốn gửi lời cảm ơn đặc biệt tới Tiến sĩ Nguyễn Hà Thanh hiệnđang là nhà khoa học ở Viện Tin học Quốc gia Nhật Bản (NII) và anh Nguyễn NgọcCường hiện đang là nghiên cứu sinh tiến sĩ tại Dai học Quốc tế Florida (FIU) đã giúp
đỡ tôi rất nhiều về mặt kiến thức chuyên môn cũng như giúp đỡ tôi mở rộng nghiêncứu.
Cuôi cùng tôi cũng xin được cảm ơn các người ban đã giúp đỡ tôi vê các vân đê
liên quan cũng như động viên tinh thân tôi trong quá trình hoàn thành khóa luận tot
nghiệp.
Do kinh nghiệm nghiên cứu vẫn còn nhiều hạn chế và lĩnh vực nghiên cứu cũngđang ở bước đầu tại Việt Nam nên tôi sẽ khó có thể tránh khỏi những sai sót Tôi rất
mong các thầy cô góp ý dé hoàn thiện khóa luận cũng như phát triển hướng nghiên
Cứu sau này.
Trân trọng.
Trang 51.4 Các công trình liên Quañ - - - s5 1111910 19930 191 vn ng 5
1.4.1 Các phương pháp truyền thống cho truy xuất thông tỉin - 5
1.4.2 — Attentive CNN SĂ ST S SH HH HH HH HH Hit 5
1.4.3 Các hướng tiếp cận transformer crOss-encOder - + 61.4.4 Các hướng tiếp cận transformer bi-eneoder -s: 6
1.5 Các vấn đề còn tỒn tại cho SE 21811511 11511115115111 51111112 rrke 8
1.6 MU na 8
In e0 nn 81.6.2 — Đối tượng t2 111211211111 1xx crrrec 81.6.3 PHVB 1 SRR 9
1.6.4 Phurong phap eceecceccceseesceeseeseeeseceseceseceesseseseceeeeaeenseeesessaeeseeeseenees 9
1.7 Cấu trúc khóa Wann eesecesseeessseeecssseecsssecssseeeesseecessneessneeessneeesssneeesaneeessey 10
Chương2 | PHƯƠNG PHÁP VÀ KỸ THUẬT LIEN QUAN - 11
2.1 Các phương pháp truyền thống cho truy xuất thông tin - 11
QLD TRG eee eececeececeeseeseesecsecsecsecsecseceeeaeesesseesecaessesaeseeseeseeeeeeeaeeaees 11
2.1.3 BM25Plus G HhHHHHnHHnHnHHHnHgh ghghrư 13
2.2.1 Mạng nơ-ron tuyến tuyến tính 2-5 ©2+2+e+£xe£xzE+zxerxersez 13
Trang 62.2.2 Perceptron da lỚp + c Sn St SH HH ng giết 15
2.2.3 Transfer Ïearning c sgk 162.3 Một số mô hình ngôn ngữ được tiền huấn luyện .: : 17
2.3.1 BERT Ăn HH HH HH HH HH r 17
2.3.1.1 Biểu diễn đầu vào của BERT cccccccrrrrrrrerrrrree 18
2.3.1.2 Mô hình ngôn ngữ có mặt nạ .- 5 Ăn re, 19
2.3.1.3 Dự đoán câu kế tiẾp 2-©52 22 E22 2222171212211 EEcrkee 20
PIN (va 4 20
2.3.3 RoBERÏTa Ăn HH HH ng nh như 20
2.3.3.1 Che mặt nạ tinh va che mặt nạ linh hoạt - 5-5 <=+ 21 2.3.3.2 Không còn sử dung dự đoán Cau SaU 5 5+5 <<++<s++ss+ 21 2.3.4 PhoBERT SẶ SH SH HH TH TH HH HH hư 21 2.4 Sentence 0i nh ốc ẽ 22 2.5 Siamese neural I€fWOTK - - - + 1111 vn ngư 22
2.5.1 Tống quan về siamese neural netwOrk -s- 22s s+zs+zs+ss2 222.5.2 Comtrastive ÏOSS Ăn HS ng iệt 232.5.3 Áp dụng SNN vào bài toán tìm kiếm ngữ nghĩa . 242.6 Hướng tiếp cận transformer bi-encoder cho tìm kiếm ngữ nghĩa 25
2.6.1 Transformer CTOSS-€TCO(€T -.- SE sssiEsrerkrsree 25 2.6.2 S€nf€TC€-fTATISÏOTTT€T - 2G (0019319911910 93 9v ng ng nến 26 2.7 COT€TS€T - SG Gv HT TH HH TH HH nhiệt 28
2.7.1 Hạn chế của các mô hình dựa theo kiến trúc transformer 282.7.2 Tóm tắt về Condenser 2¿©22 ++2x+2E+2E++EEeExerxtzrxerxerxerree 28
2.8 BO dit án 29
Chương 3 PHƯƠNG PHÁP TIEN HANH 2-2 ++x++E++E++Exerxcrez 30
Trang 73.1 Pipeline tổng quan :- 2 2+5<+SE+EEEEEEEEEEEEEEE112112112112121 11111 303.2 Tiền xử lý và phân tích tổng quan bộ dit liệu 2 ¿5 s2 +2 +2 32
3.2.1 Kiểm tra và làm sạch bộ dit liệu -¿- 2 s+x+zx++z+zx+rxersez 323.2.2 Thống kê bộ ngữ liệu văn bản pháp luật 2-2 s52 323.2.3 Thống kê bộ dữ liệu hỏi đáp -2-©¿©c<+cx+cxczxzresrxerxersee 343.3 Tiến hành thực nghiệm -¿- ¿+ ++++x++EE+2E+tEE+SEESExrrkrerkrerkrrrrees 38
3.3.1 Huấn luyện mô hình BM25Plus - 2 2 2 £+xe+x+£xerxerszsez 38
3.3.2 _ Tinh chỉnh PhoBERT, ViBERT 2-2-s+cs+cx++z+zxerxersee 39 3.3.3 Tinh chỉnh Condenser (<< 55333322211 E1 vrseeesse 403.3.4 Cách thức chọn các cặp câu cho việc huấn luyện 403.3.5 Huấn luyện senfence-trafiSfOTIN€T 6 +5 + £+sksessersserees 413.3.6 Kết hợp các mô hình thành hệ thống truy xuất thong tin 423.3.7 Các độ đo đánh giá mô hình - 2-2-2 s+x+zxzx+z+zxerxersee 43Chương4 THỰC NGHIỆM, NHẬN XÉT VÀ ĐÁNH GIA KET QUẢ 44
4.1 Môi trường thực nghiỆm c c1 1191119111111 11 ng 444.2 Cách chọn ra các điều luật để đánh giá trên 2 độ đo - 5: 2¿ 444.3 Kết quả BM25Plus - St St 2E 3 1217171111111211 212111111 444.4 Kết quả sau vòng hai huấn luyên sentence-transfOrmer - 45
4.5 Kết quả sau vòng ba huấn luyện sentence-transformer -: 474.6 So sánh với một số mô hình trong quá khứ - ¿222 s2=s+zxzsz 48
4.7 Phân tích hậu thực nghiỆm 5 5 2131 2111911 911191 9 11 key 50
4.7.1 Phân tích điểm số trên từng lớp truy vấn . -: -: -:-: 504.7.2 Các yếu tô của dữ liệu gây khó khăn cho mô hình - 51Chương 5 TÔNG KẾT - 252 SESESEEEEEEEEEEEEE21121 7121212 xe 54
Trang 85.1 KẾT Quả S5- 2< 2k SE 2112112111121121121111.211211 01111111 Eeree 545.2 4 sẽ ẽ Ả ÔỒÔỖỒÔÔ 54
5.3 Kết luận -c-+c.22kE k2 2 2212210211211211211211211 21111 eree 54
5.4 Hướng phat triỂn 2+ +2 2+EE£EEEEE2E12E127171121121171 71.211 211T1cxeeU 55
TÀI LIEU THAM KHẢO -¿- 2-52 55£2S£2SE‡EEEEE2EE2EEEEEEEEEEEESEEEEEErkrrrrerrerkrree 56
DANH MỤC CÔNG TRÌNH TÁC GIA - 2-2 2©522++£++£EtzEzEeerxerxeres 59
Isi0850 0 60
Trang 9DANH MỤC HÌNH
Hình 1-1 Đầu vào và đầu ra cho bài toán truy xuất văn bản pháp luật 3Hình 1-2 Minh hoa transformer crOSS-enCOđ€T 2+ ***++++++s#eeeeeeezss 6 Hình 1-3 Minh họa sentence-franSfOFIN€T - << SE 333222 EEEeezseeeeeezes 7Hình 2-1 Cau trúc n-TON - 2 +5 ©+£+E£+EE£EE£EEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrrkerkrrei 14Hình 2-2 Biéu diễn mô hình hồi quy tuyến tính . -2- 5¿csz+z+>s+ec++ 14Hình 2-3 Perceptron có hai lớp ẩn 2-2: 2© £+£+EE+EE+EE££EE+EEtEEtrEEzEkrrxrrrrrex 15Hình 2-4 Mô tả kiến trúc BERT - -2+2+++ctEEkttEEEkttttrkrrrttrrrrrrirrrrririie 17Hình 2-5 Cách BERT được áp dụng cho các tác VỤ cscssseseseeesrs 18Hình 2-6 Biểu diễn đầu vào của BERT -.-: cccccctttitrtrirrrtrirrrrrirrrrrrres 19Hình 2-7 SNN với 2 Mang COI - . c6 2 3313831118311 9E ESEESEkrerseerreeereere 23Hình 2-8 Phân loại cặp câu bằng BERT -22- +©x+2E++EE+EE+EEerEerrxerxerkerex 26
Hình 2-9 Cách SBERToase tính độ tương đồng cosine giữa hai câu - 27
Hình 3-1 Pipeline tổng quan -. 2 22 2 £+E£EE£EE£EEEEEEEEEEEEEEEEEEEErkerkerkerkrree 31Hình 3-2 Biéu diễn văn ban pháp luật trong bộ ngữ liệu . 5: 5552552 33Hình 3-3 Biểu diễn từ, cụm từ của câu hỏi theo WordCloud .- c5 sss5s 35Hình 3-4 Phân phối điều luật liên quan mỗi câu hỏi trong bộ dữ huấn luyện 37Hình 3-5 Phân phối điều luật liên quan mỗi câu hỏi trong bộ dit kiểm tra 38Hình 4-1 F2 theo lượng điều luật liên quan đến truy vấn -5z=s+ 50Hình 4-2 recall@20 theo lượng điều luật liên quan đến truy vấn 50
Trang 11DANH MỤC TỪ VIET TAT
ConPBB ConPBL
Sentence- ViBERT
Trang 12TOM TAT KHÓA LUẬN
Trong những năm gần đây, nhờ những đột phá trong kỹ thuật mạng nơ-ron đặc
biệt là các mô hình ngôn ngữ sử dụng transformer, việc xử lý ngôn ngữ tự nhiên đãđạt được nhiều thành tựu ấn tượng Lượng dữ liệu ngày càng nhiều đặc biệt là dữ liệu
về văn bản dẫn đến nhu cầu truy xuất thông tin văn bản là cấp thiết Truy van văn bảnpháp luật là một nhánh của truy xuất thông tin Qua nhiều sự kiện nóng những năm
qua như nghệ sĩ từ thiện, các quy định mới về covid nhu cầu tìm kiếm đúng vănbản pháp luật cần thiết là vô cùng thiết yếu với người dân Tuy nhiên, truy vấn văn
bản pháp luật vẫn là một nhánh khó của xử lý ngôn ngữ tự nhiên Các câu luật thường
dài, chưa các thuật ngữ pháp lý phức tạp Các mô hình hoạt động tốt trên các bản
khác vẫn gặp thách thức trong việc xử lý văn bản bản pháp luật.
Dé giải quyết van đề trên, khóa luận này sẽ trình bay các phương pháp tiếp cậntruy xuất thông tin trong văn bản pháp luật sử dụng các kỹ thuật học sâu hiện đại và
cách cải thiện các phương pháp này Dense retrieval dựa trên sentence-transformer là
nền tảng chính của khóa luận này Tôi đã sử dụng một số pre-trained model cho tiếngViệt như PhoBERT, ViBERT cũng như huấn luyện mô hình chuyên dụng cho denseretrieval dựa trên các pre-trained model như Condenser Ngoài ra, việc tao pipeline,
so sánh kết qua các mô hình cũng như chọn diém đánh giá (ranking score) cũng sẽ
được trình bày.
Trang 13Chương 1 TONG QUAN DE TÀI
1.1 Ly do lựa chọn đề tài
Tại thế kỷ 21, với sự bùng nỗ của Internet đã dẫn đến nhiều hệ quả cho xã hội,
ở Việt Nam đã có nhiều sự thay đổi để đáp ứng lại những hệ quả này tiêu biéu là luật
an ninh mạng Hơn thế nữa, những năm gần đây do đại dịch Covid, nhiều điều luậtcũng được ban hành dé thích ứng với đại dịch Cùng với đó các lùm xùm liên quanđến những nghệ sĩ và các quy định xử phạt cũng nhận được sự quan tâm cực kỳ đôngđảo của nhân dân Việt Nam Vì các lý do trên cùng với sự gia tăng không 16 về sốlượng cũng như các thay đôi dé phù hợp với nhu cầu xã hội hiện nay, việc tạo ra một
hệ thống truy xuất thông tin văn bản pháp luật có độ chính xác cao là vấn đề không
chỉ quan trọng mà còn rât câp thiết.
Với xã hội, xử lý ngôn ngữ tự nhiên mới đạt được những kết quả đáng kể trongnhững năm gần đây, trong khi luật là lĩnh vực đã gắn bó với con người hàng thế kỷ
từ khi hình thành các quốc gia Học chuyên tiếp (transfer learning) và các mô hìnhtiền huấn luyện (pre-trained language model) là các cách tiếp cận mạnh mẽ và đạt
hiệu quả cao trong các tác vụ Tuy nhiên, trong một lĩnh vực chuyên biệt như luật,
đặc biệt pháp luật Việt Nam có rất ít bài báo chứng minh được hiệu quả của nhữngcách tiếp cận này Do đó một khóa luận chỉ tiết về các phương pháp áp dụng học sâu
vào xử lý văn bản pháp luật là thông tin hữu ích cho sự phát triển của lĩnh vực này
1.2 Giới thiệu bài toán
Theo như cuốn “Introduction to Information Retrieval” [1], định nghĩa về truy
xuất thông tin có thể dịch ra như sau: “Truy xuất thông tin là tìm vật liệu! (thường làtài liệu) của đặc tính phi cau trúc? (thường là văn bản) phù hợp với thông tin cần thiết
từ bộ sưu tập lớn (thường được lưu trong máy tính)” Tại Việt Nam, truy xuất thông
! Tài liệu gốc là material
? Tài liệu gốc là unstructed nature
Trang 14tin còn có thé được gọi với một số tên gọi khác như truy hôi thông tin hay truy vanthông tin.
Trong những năm gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên đã có nhiều bước
tiến đáng kế với sự ra đời của cơ chế chú ý (attention mechanism); các tập dữ liệungày càng lớn hơn, chất lượng hơn và phần cứng ngày càng mạnh mẽ Với sự phát
triển các công cụ tìm kiếm mà phổ biến nhất là Google, chúng ta sẽ kiếm được thông
tin không những nhanh chóng, chính xác mà còn được cập nhật liên tục Việc mỗi
người sử dụng các công cụ tìm kiếm như Google cũng chính là đang thực hiện truyxuất thông tin một cách tự động
Xét trên khía cạnh lĩnh vực có nhiều lĩnh vực cần được truy xuất thông tin như:sức khỏe, làm đẹp, Trong đó bài toán truy xuất văn bản pháp luật (legal textretrieval) rat quan trọng và có nhiều ý nghĩa trong thực tiễn Tuy nhiên, bài toán này
rất khó giải quyết bởi nhiều yếu tố: các văn bản luật thường dài, từ chuyên ngànhnhiều với độ khó cao Có rất nhiều câu hỏi có thể làm khó cả chuyên gia trong lĩnh
vực pháp luật đề tìm chính xác tất cả các điều khoản có thê giải đáp câu hỏi
Hình 1-1 minh họa một ví dụ của bài toán Tổng quan bài toán như sau:
- Dau vào: Một truy van? (câu hỏi) liên quan đến pháp luật
- aura: Danh sách một hoặc nhiêu điêu luật có thê được sử dụng dé trả lời cho
truy vấn (có thé gọi ngắn lại là điều luật liên quan)
Hình 1-1 Đầu vào và dau ra cho bài toán truy xuất văn bản pháp luật
3 Trong khóa luận này, truy van và câu hỏi được dùng với ý nghĩa giống nhau, có thé thay thé cho nhau
Trang 151.3 Thách thức
Không giống với các bài toán truy vấn tin tức, bài toán truy vấn văn bản pháp
luật gặp rất nhiều khó khăn Trong đó, có thé kê đến đó là văn bản luật thường dài và
có cau trúc ngữ nghĩa phức tạp, câu trả lời có thé chỉ là một câu nhỏ trong một điềuluật dài, câu hỏi dùng văn nói nhưng câu trả lời dùng các từ chuẩn ngành luật, các từ
ngữ cấu thành cho câu trả lời năm rải rác ở trong một điều luật rất dài Một ví dụcho khó khăn trong truy xuất thông tin cho văn bản pháp luật cho các khó khăn trên:
- _ Câu hỏi: Đi xe máy bốc dau bị phạt bao nhiêu ?
- Câu trả lời: Điều 6, Nghị định 100/2019/NĐ-CP
- _ Trích nội dung câu trả lời:
o Điêu 6 Xử phạt người điêu khiên xe mô tô, xe gan máy (kê cả xe máy
điện), các loại xe tương tự xe mô tô và các loại xe tương tự xe gan máy
vi phạm quy tắc giao thông đường bộ
= 8.Phạt tiền từ 6.000.000 đồng đến 8.000.000 đồng đối với người
điều khiến xe thực hiện một trong các hành vi vi phạm sau đây:
e _ c) Điều khién xe chạy bằng một bánh đối với xe hai bánh,
chạy bằng hai bánh đối với xe ba bánh;
Tai ví dụ trên, chúng ta thay dé có thé truy xuất được thông tin phù hợp đầu tiênphải truy xuất ngữ cảnh tổng quát ( điều luật cho xe máy), tiếp đến là hiểu về tiền
phạt và phải hiểu được bốc đốc là hành vi chạy xe một bánh với xe hai bánh hoặc haibánh với xe ba bánh Đây thực sự là một vấn đề rất phức tạp và mắt thời gian Ngoài
ra, có thé có nhiều hơn một điều luật chứa câu trả lời cho câu hỏi, việc này càng làm
gia tăng khó khăn trong việc lựa chọn các điều luật chính xác
Trang 16Ngoài những van dé kể trên thì việc thu thập dữ liệu pháp luật cũng là một van
dé rất phức tạp Việc thu thập cơ sở dữ liệu có thé đơn giản do giờ đây đã có cácnguồn như thuvienphapluat.vn, vbpl.vn Tuy nhiên, cấu trúc của các nguồn nàykhác nhau, việc cào các dữ liệu đặc biệt là dữ liệu dài rất dễ dẫn đến việc trùng lặpvăn bản, thu thập phần mục lục thay cho phần nội dung Về việc thu thập bộ dữ liệu
hoi-dap thì vẫn chưa có nhiều chuyên gia tham gia các diễn đàn miễn phí Lượng câu
hỏi có câu trả lời đầy đủ từ chuyên gia trên các diễn đàn như hoidapphapluat.net,hethongphapluat.com vẫn còn nhiều hạn chế và lỗi thời Hơn nữa, nhiều điều luậtthay đôi theo từng năm dẫn đến việc thu thập một bộ dữ liệu tốt càng khó khăn
1.4 Các công trình liên quan
1.4.1 Cac phương pháp truyền thống cho truy xuất thông tin
Các phương pháp này, không sử dụng mạng nơ ron (neural networks), chủ yếuxác định mức độ liên quan dựa trên sự xuất hiện và tần suất của các thuật ngữ trongtruy vấn và tài liệu Tuy nhiên, các phương pháp này vẫn cần thiết cho các hệ thốngtruy xuất thông tin hiện đại với mô hình phổ biến nhất là tf-idf và BM25
1.4.2 Attentive CNN
Cơ chế chú ý (attention mechanism) khiến cho mô hình có khả năng chú ýnhiều hơn vào các từ khóa hoặc các câu chứa nhiều thông tin giá trị và quan trọng.Kiên và các cộng sự [2] đã sử dụng mạng tích chập (CNN) kết hợp với cơ chế chú
ý đơn giản cho truy xuất văn bản tiếng Việt dé tạo ra mô hình được gọi với tên làAttentive CNN.
Kiến trúc CNN kết hợp với co chế chú ý được sử dung dé giúp nắm bat đượcngữ cảnh cục bộ (local) và tổng quát (global) dé xây dựng các vector biểu diễn cho
truy vấn và điều luật Mô hình này đã được áp dụng vào truy xuất văn bản phápluật tiếng Việt và đạt được độ hiệu quả cao Hệ thống truy xuất kết hợp giữa
Attentive CNN và các mô hình máy học truyền thống để tạo ra mô hình kết hợpcũng đã đem đến hiệu quả tốt hơn từng mô hình đơn lẻ Hiện tại, theo như hiểu biết
Trang 17tốt nhất của tôi, mô hình kết hợp này đang là mô hình tốt nhất có công trình nghiêncứu được công bồ cho truy xuất văn bản pháp luật tiếng Việt.
1.4.3 Các hướng tiếp cận transformer cross-encoder
BERT [3] đã mang đến bước đột phá trong NLP BERT cross-encoder làphương pháp áp dụng rộng rãi BERT cho truy xuất thông tin đầu tiên Trong
phương pháp này, cả truy vấn và văn bản được đưa nối tiếp vào trong BERT
Nhẫn
Hình 1-2 Minh hoa transformer cross-encoder.
Hình 1-2 mô tả một cách đơn giản transformer cross-encoder Truy van và
tài liệu vào làm đầu vào cho transformer-based rồi thực hiện tác vụ phân loại
Hướng đi này đã có nhiều sự phát triển và đạt được nhiều kết quả tốt trong lĩnh vựctruy xuất thông tin nói chung như Birch [4] cũng như truy van văn bản pháp luậtnói riêng như BERT-PLI [5] Tuy nhiên, điểm hạn chế của hướng tiếp cận này làtốn nhiều thời gian và tài nguyên tính toán
1.4.4 Các hướng tiếp cận transformer bi-encoder
Reimers và cộng sự tạo ra SBERT [6] đưới sự thúc đây về vấn đề tiêu tốn
thời gian huấn luyện và tài nguyên tính toán của phương pháp transformer encoder.
Trang 18cross-SBERT sử dụng siamese network làm kiến trúc để cung cấp hai câu làm đầuvào Hai câu này sau đó sẽ được đưa vào BERT và lớp Pooling dé tạo embedding.Sau đó sử dụng cặp embedding này đề tính độ tương đồng cosine giữa hai câu Từ
điểm cosine được tính ra, có thé xác định được nhãn của hai câu Hiện tại các mô
hình dựa theo transformer khác như RoBERTa cũng có thể áp dụng Các mô hình
này được gọi là transformer Việc sử dụng các mô hình
sentence-transformer được gọi là hướng tiếp cận sentence-transformer bi-encoder Hình 1-3 minh họađơn giản vê sentence-transformer.
ry 4
Cau 1 Cau 2
Hinh 1-3 Minh hoa sentence-transformer
SBERT và các nghiên cứu được phát triển từ nó như đã đạt hiệu suất tốt trong
các lĩnh vực truy xuất thông tin Với tiếng Việt, theo những kiến thức tốt nhất của tôichỉ có bài báo của Hà và các cộng sự [7] áp dụng SBERT Theo nghiên cứu cua Gao
và Callan [8] thì các mô hình ngôn ngữ ngôn ngữ dựa theo transformer chưa có cấu
trúc chú ý nội bộ (internal attention) sẵn sàng cho bộ mã hóa dày đặc (dense
encoders) Các tác giả này giới thiệu một kiến trúc transformer mới, condenser nhưphương án cải thiện cho hướng tiếp cận transformer-based model bi-encoder
Trang 191.5 Cac van dé còn tôn tai
Từ các công trình nghiên cứu có liên quan, tôi có một sô nhận xét vê những van
đê còn tôn tại với đê tài nghiên cứu như sau:
- Huong nghiên cứu về truy xuât văn bản pháp luật tiêng Việt còn rat mới chưa
có nhiều công trình
- _ Hướng nghiên cứu sentence-transformer cho tiếng Việt cũng không có nhiều
công trình dù có tiềm năng to lớn bởi những kết quả đã được chứng minh trêncác ngôn ngữ khác.
Từ hai điều trên, van đề mà đề tài cần tập trung nghiên cứu giải quyết là:
- Ap dụng hướng nghiên cứu sentence-transformer cho truy xuất văn bản pháp
luật tiếng Việt dé đánh giá độ hiệu quả
- Str dụng nhiều mô hình khác nhau dé có thé chon ra những mô hình tốt nhất
cho các thang đo.
1.6 Mục tiêu
1.6.1 Các tiêu chí
- _ Xây dựng các hệ thông đạt hiệu quả cao hơn so với các nghiên cứu trước vê
truy xuất văn bản pháp luật tiếng Việt
- Phan tích được các yếu tô ảnh hưởng đến kết quả của hệ thống truy xuất như
điểm xếp hạng câu, từ ngữ và âm tiết tiếng Việt khi sử dụng dé huấn luyện,
Trang 20Các mô hình sentence-transformer.
Các diém đánh giá văn bản của hệ thông truy xuât.
Các câu hỏi về pháp luật Việt Nam
Mô hình BM25Plus trong package rank_bm25.
Mô hình sentece-transformers từ các mô hình tiền huấn luyện: PhoBERT,
ViBERT.
Từ ngữ và tiếng trong tiếng Việt được sử dung dé huấn luyện mô hình
Hai điểm kết hợp cho hệ thong truy xuất: bm25_score*cos_sim,sqrt(bm25_score)*cos_sim.
1.6.4 Phương pháp
Tìm hiểu, kiểm tra và làm sạch dataset cho truy xuất văn bản pháp luật tiếngViệt,
Tiền xử lý các bộ dữ liệu con sau khi kiểm tra và làm sạch
Tìm hiểu về các mô hình học máy cho truy xuất văn bản
Tìm hiểu các mô hình ngôn ngữ được huấn luyện trước cho tiếng Việt
Sử dụng phương pháp sentence-transformer cho các mô hình ngôn ngữ được
huấn luyện trước
Đánh giá các yếu tố có thể ảnh hưởng lên hệ thống truy xuất thông tin nhưđiểm đánh giá, huấn luyện bằng từ ngữ và tiếng
Trang 21- Phan tích các lỗi làm hệ thống hoạt động chưa tốt, đưa ra giải pháp tương lai.
1.7 Cấu trúc khóa luận
- _ Chương | - Tổng quan đề tài
- Chuong 2 - Phương pháp và kỹ thuật liên quan.
- _ Chương 3 - Phương pháp tiến hành
- _ Chương 4 - Thực nghiệm, nhận xét và đánh giá kết quả
- Chương 5- Tổng kết
10
Trang 22Chương 2. PHƯƠNG PHÁP VÀ KỸ THUẬT LIÊN QUAN
2.1 Các phương pháp truyền thống cho truy xuất thông tin
2.1.1 TÍ-idf
Tf-idf (Term Frequency - Inverse Document Frequency) là một thước đo thống
kê đánh giá mức độ liên quan của một từ với một tài liệu (văn bản) trong kho ngữ
liệu Tf-idf gồm 2 thành phần chính là tf và idf Tuy nhiên khi áp dụng vào truyxuất thông tin có một số điểm khác biệt do cần phải đánh giá từng từ trong truy vấntrên tài liệu.
tf,a dạng thô (raw term frequency) chưa phải giải pháp hữu hiệu vì:
= Tài liệu với /= 10 tuy có thé liên quan đến từ t hơn tai liệu có
tf = 1 nhưng không phải gap 10 lần.
“_ Sự liên quan không tăng tương ứng theo tỷ lệ với số lần xuất
Trang 23= Score = 0 nêu không có từ nào trong truy vân xuât hiện trong
văn bản.
- Idf (inverse document frequency):
o Idf dùng dé ước lượng độ quan trọng của từ Các từ như từ nối, giới từ
thường được sử dụng nhiều nhưng không quan trọng dé thé hiện ý nghĩavăn bản.
o_ đ#(document frequency of ?): là số văn bản có chứa từ í
A , P Tổng số văn bản trong kho ngữ liệu
o_ Công thức tính: idf,p = l0 —
Số văn bản có chứa từ t
- Trọng số tf-idf của từ t được tính từ 2 trọng số tf và idf của từ ¢ đó:
©_ #ˆidfap = (1 + log ff,a)* idft.p
- _ Cách tính cho 1 văn bản đ theo 1 truy vấn ø với / là từ trong truy vấn 4:
o Score(q,d) = 3 ;eazxj tf-idfi,d,p
2.1.2 BM25
BM25 là một phương pháp được phổ biến trong truy xuất thông tin Trong timkiếm web, BM25 này được sử dụng tích hợp đề đánh giá xếp hạng các trang web
từ truy vân của người dùng.
BM25 cải thiện dựa trên tf-idf nhờ việc dùng mức độ liên quan với bài toán
xác suât BM25 đưa ra điêm liên quan, xác định một truy vân liên quan ra sao với tài liệu Sau đó xêp hạng các mức liên quan của từng tài liệu đê đưa ra danh sách
tài liệu phù hợp nhất với truy vấn
Trang 24= N: tong số tài liệu.
= Lda độ dài (theo từ) của tài liệu.
= Lavg là độ dài trung bình của tat cả tài liệu
" fftd và dftd tương tự trong tf-idf đã được giải thích trong tf-idf 2.1.3 BM25Plus
BM25Plus là mô hình cải tiến từ BM25 được Lv&Zhai [9] đưa ra Điều thayđổi của mô hình này so với BM25 là trước khi thực hiện phép tính nhân thành phần
có chứa tf sẽ được cộng thêm một hằng số ở Công thức tinh BM25Plus:
2.2.1 Mang nơ-ron tuyến tuyến tính
Khoảng hơn 10 năm trở về trước, học sâu là một lĩnh vực không được nhận
quá nhiều sự quan tâm bởi cả những nhà nghiên cứu cũng như các kỹ sư bởi vì các
hạn chế về mặt phần cứng không cho phép họ có thể xây dựng các ứng dụng vượt
trội với hướng tiếp cận này Tuy nhiên, gần đây, học sâu trở thành công cụ mạnhcũng như được biết đến rộng rãi nhất trong các lĩnh vực liên quan đến trí tuệ nhântạo, thị giác máy tính cũng như xử lý ngôn ngữ tự nhiên Khóa luận này tập trung
vào nghiên cứu và áp dụng các nhánh tiép cận nhỏ và hiện dai hơn của học sâu cho
13
Trang 25truy xuât như các mô hình ngôn ngữ tiên huân luyện, sentence-transformer Vì lý
do này, tôi quyêt định nói sơ bộ về học sâu cũng như các ý tưởng cơ bản của nó.
Điều cuối sợi trục
Té bảo Schwann
Hình 2-1 Cấu trúc nơ-ron
Lớp đầu ra
Lớp đầu vào
Hình 2-2 Biéu diễn mô hình hồi quy tuyến tính
Học sâu là kỹ thuật sử dụng mạng nơ-ron nhân tạo được lấy cảm hướng từ mạng
thần kinh của các loài động vật Hình 2-1 mô ta cau trúc thực của 1 nơ-ron và Hình2-2 biêu diễn mô hình hồi quy tuyến tính Một nơ-ron nhận tính hiệu của các nơ-ronkhác như đầu vào và sau đó tính tín hiệu của chính nó Đáp ứng theo các điều kiệnnhât định, tín hiệu này sẽ được chuyên đên một nơ-ron khác.
Gọi x;¿, , x„ là tín hiệu dau vào; w;, , wg là trọng sô và b là hệ sô điêu chỉnh
của mô hình Giá trị được dự đoán có thé tính theo công thức sau:
? =x,w¡+ +x„wa+b
*
https://www.vinmec.com/vi/tin-tuc/thong-tin-suc-khoe/suc-khoe-tong-quat/neuron-kinh-la-gi-chuc-nang-phan-loai-cau-truc/
14
Trang 26Với x là vector đâu vào, w là vector trọng sô, công thức rút gọn là:
và được cho là mô hình học sâu đầu tiên MLP hay mô hình học sâu đơn giản cần có
ít nhất 1 lớp an (hidden layer) ở giữa đầu vào và dau ra
Hình 2-3 Perceptron có hai lớp an
Hình 2-3 Perceptron có hai lớp 4n minh họa MLP 2 lớp ấn, trong đó mỗi nút
trong lớp ân và lớp đầu ra:
15
Trang 27- Liên két với tat cả các nút ở lớp trước với trọng sô w riêng.
- - Mỗi nút có một hệ số bias b riêng.
- Được tính toán bởi 2 bước: tính tổng tuyến tính và áp dụng hàm kích hoạt
Đầu vào của lớp ân được ký hiệu là z, đầu ra thường được kí hiệu là a (thé
hiện hàm kích hoạt - activation function) Nút thứ 7 tại lớp / được sẽ có đầu ra a
và hệ số bias bY Gia sử lớp (1-1) có n nút thì giá tri tai một nút j thuộc lớp / được
tính như sau:
- Tinh tông cua tat cả các nút trong lớp trước nhân với trọng sô w tương ứng roi
cộng bias: 2) = ry al? * wi? +b
- Ap dung ham kich hoat: a2 gue
- _ Chú ý hàm kích hoạt cần là hàm phi tuyến Nếu sử dụng hàm tuyến tính thì
chúng ta sẽ chỉ thu được một hàm tuyến tính điều này không giúp cải thiện
được mô hình hoc sâu Một số hàm kích hoạt phố biến hiện nay là sigmoid,
ReLU
2.2.3 Transfer learning
Hiện nay, dưới sự bùng nô của các các mô hình được nghiên cứu về trí tuệ
nhân tạo, các mô hình tiền huấn luyện (được đào tạo trước) ngày càng có chất lượng
tốt và đạt những kết quả tuyệt vời trên nhiều loại cũng như miền dữ liệu khác nhau.Transfer learning là phương pháp cho phép tận dụng các mô hình này dé giải quyếtcác van bài toán khác có liên quan Hiện nay, transfer learning là cách tiếp cận phổbiến nhất trong học sâu Sử dụng phương pháp transfer learning dé xây dựng môhình mới sẽ gia tăng hiệu quả cũng như giảm thiêu chỉ phí, thời gian và tài nguyên
tính toán Tóm tắt về phương pháp:
- M6 hình tiền huấn luyện được dao tạo trước trên một bộ dữ liệu khác (hiệu
quả thường tăng với theo kích thước bộ dữ liệu) cho một nhiệm vụ hoặc bài
16
Trang 28toán cu thé, khi đó mô hình có thé sử dụng lại tùy thuộc theo bài toán cũngnhư các nhiệm vụ khác nhau.
- M6 hình mới sẽ sử dụng một phân hoặc toàn bộ mô hình tiên huân luyện đê
giải quyết một nhiệm vụ tương tự
2.3 Một số mô hình ngôn ngữ được tiền huấn luyện
2.3.1 BERT
BERT (the Bidirectional Encoder Representations from Transformers) [3] sử
dụng bộ mã hóa của Transformer được tiền huấn luyện Các token được biểu diễndựa trên ngữ cảnh 2 chiều Hình 2-4 mô tả kiến trúc tổng quá của BERT BERT có
2 phiên bản: BERTbase và BERTlarge Điểm khác biệt chỉ là số bộ mã hóa
(BERTbase chứa 12 bộ mã hóa còn BERTlarge có 24 bộ mã hóa).
Hình 2-5 mô tả việc áp dụng BERT cho các tác vụ phía sau (downstream
task) BERT có 1 tầng kiến trúc thay đổi tối thiểu dé thay đổi phù hợp với tác
vụ.Toàn bộ tham số tiền huấn luyện đều được tinh chỉnh cho phù hợp, trong khi
tầng dau ra bố sung được đào tạo lại từ đầu.
12 bộ mã hóa với BERT-base
24 bộ mã hóa với BERT-large
Hình 2-4 Mô tả kiến trúc BERT.
17
Trang 29Hình 2-5 Cách BERT được áp dung cho các tác vụ.
2.3.1.1 Biểu diễn đầu vào của BERT
Chuỗi đầu vào BERT với văn bản đơn ghép nối của [CLS], token chuỗivăn bản đơn, [SEP] Ở đây [CLS] là token phân loại còn [SEP] là token phântách các câu BERT mã hóa tối đa 512 token cho bat cứ câu nào được đưa vào.Nếu câu nhiều hơn 512 token sẽ bị cắt bớt
Bộ mã hóa transformer được áp dụng cho kiến trúc hai chiều của BERT.Trong bộ mã hóa của transformer nguyên bản, thông thường Sự cải tiễn ởBERT là sử dụng các embedding vi trí có thé học được Theo Hình 2-6, chuỗiđầu vào BERT là tổng các embedding của token, embedding đoạn vàembedding vi trí.
18
Trang 30Đầào <cls> ngồi nhà rất đẹp <sep> tôi thíh nó <sep»
Khi biêu diễn môi token, đê mã hóa ngữ cảnh hai chiêu, BERT che mặt
nạ các token một cách ngẫu nhiên Tác vụ tiên huân luyện có tên là mô hình
ngôn ngữ có mặt nạ (masked language modeling).
15% token được chọn ngẫu nhiên đề che mặt nạ Đề dự đoán token mặt
nạ không dùng nhãn, hướng tiếp cận đơn giản là luôn thay nó bằng [MASK]
trong chuỗi đầu vào [MASK] sẽ không có mặt khi tinh chỉnh Nhằm hạn chế
sự bat đồng giữa tiền huấn luyện và tinh chỉnh, nếu một token mặt nạ đượcche dé dự đoán (ví dụ, từ “đẹp” được lay dé che và đoán trong đoạn “ngôi nhàthật đẹp”), trong đầu vào nó sẽ được thay bằng:
[MASK], chiếm 80% số lần ( ví dụ, “ngôi nhà thật đẹp” sang “ngôi nhà thật[MASK]);
10% số lần là các token ngẫu nhiên ( vi dụ, “ngôi nhà thật dep” thành “ngôi
nhà thật lớn”), việc sử dụng các token ngẫu nhiên sẽ giúp khuynh hướng của
BERT phía token bị che giảm;
sử dụng chính nó, chiếm 10% số lần ( giữ nguyên đoạn “ngôi nhà thật đẹp”)
19
Trang 312.3.1.3 Dự đoán câu kế tiếp
Mô hình ngôn ngữ có mặt nạ không thé mô hình hóa các mối quan hệ logicgiữa các cặp văn bản một cách rõ ràng.
Dé giải quyết vấn dé này, tác vụ dự đoán câu kế tiếp (next sentenceprediction) được áp dụng khi tiền huấn luyện Quá trình này sẽ sinh các cặpcâu khác nhau 50% trong số cặp là các 2 câu liên tiếp được gán nhãn đúng
50% còn lại được lây ngẫu nhiên từ kho ngữ liệu và được gán nhãn sai
2.3.2 ViBERT
Mô hình mBERT (Multilingual BERT) về cơ bản giống BERT theo mô tatrong phan trước, áp dụng cho kho ngữ liệu đa ngôn ngữ bao gồm khoảng 100 ngônngữ ViBERT [10] được huấn luyện tiếp từ checkpoint của mBERT Dung lượng
dữ liệu tiếng Việt được sử dụng là 10 GB (ở mức độ tiếng) Hiện tại, nhóm tác giảmới chỉ cho ra một phiên ban là VIBERTbase VIBERT hỗ trợ mã hóa tối đa 512
token cho câu đâu vào.
Tại thời điểm ra mắt, ViBERT đã đạt được các kết quả tốt trên các bộ dữ liệucho tiếng Việt thuộc các tác vụ như nhận dạng thực thể (NER), gán nhãn từ loại(POS tagging ).
2.3.3 RoBERTa
RoBERTa(A Robustly Optimized BERT Pretraining Approach) [11] là một
nghiên cứu nhân rộng từ BERT nhăm mục đích đo lường can than tác động củanhiều siêu tham số chính và kích thước dữ liệu đào tạo Giống BERT, RoBERTacũng mã hóa tối đa 512 token cho câu đầu vào Sau đây là tóm tắt về các thay đổicủa RoBERTa so với BERT, một số chỉ tiết hơn được đề cập phía sau:
- RoBERTa được đào tạo lâu hơn với batch_ size lớn hon va nhiều dữ liệu hơn
- Không còn sử dụng dự đoán câu sau.
20
Trang 32- Chuỗi dai hơn được dùng trong dao tạo (longer sequences).
- Sử dụng che mặt nạ linh hoạt thay cho che mặt nạ tinh.
2.3.3.1 Che mặt nạ tinh và che mặt nạ linh hoạt
- BERT thực hiện che mặt nạ một lần khi tiền xử lý dữ liệu điều này dẫn đến
mặt nạ tĩnh duy nhất được dùng
- Voi che mặt nạ linh hoạt được sử dụng trong RoBERTa, phần được che sẽ
thay đổi mỗi khi một chuỗi mới được đưa vào mô hình
2.3.3.2 Không còn sử dụng dự đoán câu sau
- BERT quan sát hai phân đoạn tài liệu được nối với nhau trong cùng một tài
liệu hoặc từ hai tài liệu khác nhau BERT được dao tạo dé dự đoán đoạn tài
liệu từ cùng một tài liệu hay hai tài liệu riêng biệt thông qua hàm mất mát củatác vụ dự đoán câu kế tiếp
- Trong RoBERTa, mỗi một đầu vào được đóng gói với các câu đầy đủ được
lay mẫu liền nhau từ một tài liệu Vì lý do này, tác vụ dự đoán câu sau không
còn được sử dụng nữa.
2.3.4 PhoBERT
PhoBERT [12] là mô hình ngôn ngữ tiền huấn luyện dành riêng cho tiếng Việt
phô biến nhất Phương pháp tiếp cận của PhoBERT dựa trên RoBERTa Mô hìnhnày có 2 phiên bản PhoBERThase và PhoBERTiarge tương tự như BERT PhoBERT
được đào tạo với khoảng 20GB dữ liệu tiếng Việt Trước khi huấn luyện,VNCoreNLP được sử dụng để tách từ cho toàn bộ bộ đữ liệu trước khi đưa vàoBPE encoder PhoBERT mã hóa tối đa 256 token cho câu đầu vào cả hai phiên bản
Tại thời điểm ra mắt, từng phiên bản trong mô hình này đã dẫn đầu các bộ dữ
liệu tiếng Việt trên cả bốn nhiệm vụ nhận dạng thực thé, gan nhãn từ loại, suy luận
ngôn ngữ (NLD và phân tích sự phụ thuộc cú pháp (dependency parsing).
21
Trang 33embedding sẽ gặp nhiều khó khăn.
Kỹ thuật sentence embedding từ đó được ra đời Kỹ thuật này biểu thị toàn bộcâu và thông tin ngữ nghĩa của chúng dưới dạng vector Điều này giúp máy hiểu rõ
hơn về ngữ cảnh và các sắc thái trong toàn bộ văn bản.
2.5 Siamese neural network
2.5.1 Tong quan về siamese neural network
Siamese network chứa hai hoặc nhiều mô hình giống nhau, trong đó (thường)hai mô hình chia sẻ hoặc có cùng trọng SỐ (weight), tham số (parameter) Hai môhình con được cập nhật tham số đồng thời Siamese network được sử dụng nhiều
nhất trong việc tính toán điểm số tương đồng của đầu vào vì thế chúng có nhiều
ứng dụng khác nhau Sử dụng các mạng nơ-ron con để tạo siamese network sẽ cóđược siamese neural network (SNN).
SNN có thé giảm thiểu thời gian và cũng như chi phi dao tao mô hình với tại
bài toán phân lớp Giả sử, một mô hình học sâu được huấn luyện bằng một bộ dữliệu thuộc bài toán phân lớp, nếu muốn thay đôi số lượng các lớp đi thì phải cập
nhật lai mạng no-ron cũ bằng cả dit liệu cũ và mới SNN giải quyết van dé nàybằng việc học cách tìm được sự giống nhau giữa các dữ liệu đầu vào Bằng cáchnày, mô hình có thé phân loại dit liệu mới mà không cần mất thời gian huấn luyện
lại Hình 2-7 minh họa SNN với 2 mạng con.
22
Trang 34Contrastive loss [13] ban đầu kết hợp với SNN dé giải quyết bài toán giảm
chiều dữ liệu Nó được dùng dé học bộ trọng số W của mô hình G,, mục dich dé
những vector giống nhau thì khoảng cách của chúng sẽ được giảm thiểu, nhữngvector khác nhau thì sẽ bi gia tang khoảng cách.
Gia sử có hai đầu vào là Xi và Xa, đặt X; và X; là 2 vector cho cặp đầu vào.
Đặt Y là nhãn cho cặp vector trên, Y = 0 nếu hai vector này tương đồng (cặp dương)
và Y=1 nếu hai cặp vector này không tương đồng (cặp âm) Dé có thé tính được
contrastive loss cho cặp dau vao này, ta thực hiện các bước sau:
- Tinh khoảng cách Euclidean D,, cho mỗi cặp:
Dy (X7,X2) = ||G„(X/)— G„:)|L
o Với Gy là đầu ra của SNN cho mỗi đầu vào
- Dé giải thích ngắn gọn hơn D,, (x, 1X5 ) được viết tắt là D„ Công thức tinh
hàm mat mát với mỗi cặp i trong bộ dữ liệu là:
23
Trang 35L(W, (Y.X¡,X) )= (-Y)1yÐ,, + LoD
— —Ï _ Lệ
o Trong đó: (P X71, X;) là nhãn của cặp mau thứ i, Ls là hàm mat mát áp
dụng cho đầu ra nếu cặp mẫu tương đồng, Lp là hàm mat mát đáp dụngcho đầu ra nếu cặp mẫu không tương đồng
- Ls và Lp được thiết kế dé tối thiểu L giúp để có W sao cho D„ thấp cho các
cặp không tương đồng và D„ cao cho các cặp không tương đồng vi vậy
contrastive loss cho mỗi cặp thực sự là:
L(W, (r.37.52))= (1-Y)- ; (Dị, ) + (Y)- s {max(0, m-D‡,)}
o Trong đó m > 0 là là bán kính xung quanh Gw(X ) Các cặp âm đóng
góp cho hàm mat mát chỉ khi khoảng cách của chúng nhỏ hơn m
- Tir đó có công thức contrastive loss cho toàn bộ P cặp dau vào:
L@Y)=X}\L(W, (Y, X;, X2) )
2.5.3 Áp dụng SNN vào bài toán tìm kiếm ngữ nghĩa
Với bài toán tìm kiếm ngữ nghĩa hay còn gọi là truy xuất thông tin theo ngữnghĩa, Siamese neural network được áp dụng cho việc học hàm tương đồng(similarity function), kí hiệu là Similarity như sau:
- Ham Similarity nhận tham số là câu 1 và câu 2, Mã hóa câu 1 thành vector A,
câu 2 thành vector B Đặt Ai,Bi là các thành phần của vector A,B tương ứng
và Ø là góc tạo bởi 2 vector A, B Độ tương đồng cosine cos(6) giữa A và Bđược tính theo tích vô hướng như sau:
SLAB —
Tati fora? fares
o cos_sim(A,B) = cos(@) =
24