1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Truy xuất văn bản pháp luật tiếng Việt sử dụng học sâu

71 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Truy Xuất Văn Bản Pháp Luật Tiếng Việt Sử Dụng Học Sâu
Tác giả Phạm Nhật Minh
Người hướng dẫn TS. Đỗ Trọng Hợp, THS. Tạ Thu Thủy
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 71
Dung lượng 33,06 MB

Nội dung

Dé giải quyết van đề trên, khóa luận này sẽ trình bay các phương pháp tiếp cậntruy xuất thông tin trong văn bản pháp luật sử dụng các kỹ thuật học sâu hiện đại và cách cải thiện các phươ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

PHAM NHAT MINH

KHOA LUAN TOT NGHIEP

DUNG HOC SAU

VIETNAMESE LEGAL TEXT RETRIEVAL USING DEEP

LEARNING

CU NHAN NGANH CONG NGHE THONG TIN

TP HO CHi MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

PHAM NHẬT MINH - 18520102

KHÓA LUẬN TÓT NGHIỆP

TRUY XUẤT VAN BẢN PHÁP LUẬT TIENG VIỆT SỬ

DỤNG HỌC SÂU

VIETNAMESE LEGAL TEXT RETRIEVAL USING DEEP

LEARNING

CU NHÂN NGANH CÔNG NGHỆ THONG TIN

GIANG VIEN HUONG DAN

TS DO TRONG HOP

THS TA THU THUY

TP HO CHi MINH, 2022

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn hai giảng viên hướng dẫn là thầy Đỗ Trọng Hợp và cô

Tạ Thu Thủy cũng như các thầy cô trường Đại học Công nghệ Thông tin đã cung cấp

các kiến thức nền tang dé tôi có thé tiếp cận dé hơn đến các kiến thức áp dụng trongkhóa luận tốt nghiệp

Bên cạnh đó tôi muốn gửi lời cảm ơn đặc biệt tới Tiến sĩ Nguyễn Hà Thanh hiệnđang là nhà khoa học ở Viện Tin học Quốc gia Nhật Bản (NII) và anh Nguyễn NgọcCường hiện đang là nghiên cứu sinh tiến sĩ tại Dai học Quốc tế Florida (FIU) đã giúp

đỡ tôi rất nhiều về mặt kiến thức chuyên môn cũng như giúp đỡ tôi mở rộng nghiêncứu.

Cuôi cùng tôi cũng xin được cảm ơn các người ban đã giúp đỡ tôi vê các vân đê

liên quan cũng như động viên tinh thân tôi trong quá trình hoàn thành khóa luận tot

nghiệp.

Do kinh nghiệm nghiên cứu vẫn còn nhiều hạn chế và lĩnh vực nghiên cứu cũngđang ở bước đầu tại Việt Nam nên tôi sẽ khó có thể tránh khỏi những sai sót Tôi rất

mong các thầy cô góp ý dé hoàn thiện khóa luận cũng như phát triển hướng nghiên

Cứu sau này.

Trân trọng.

Trang 5

1.4 Các công trình liên Quañ - - - s5 1111910 19930 191 vn ng 5

1.4.1 Các phương pháp truyền thống cho truy xuất thông tỉin - 5

1.4.2 — Attentive CNN SĂ ST S SH HH HH HH HH Hit 5

1.4.3 Các hướng tiếp cận transformer crOss-encOder - + 61.4.4 Các hướng tiếp cận transformer bi-eneoder -s: 6

1.5 Các vấn đề còn tỒn tại cho SE 21811511 11511115115111 51111112 rrke 8

1.6 MU na 8

In e0 nn 81.6.2 — Đối tượng t2 111211211111 1xx crrrec 81.6.3 PHVB 1 SRR 9

1.6.4 Phurong phap eceecceccceseesceeseeseeeseceseceseceesseseseceeeeaeenseeesessaeeseeeseenees 9

1.7 Cấu trúc khóa Wann eesecesseeessseeecssseecsssecssseeeesseecessneessneeessneeesssneeesaneeessey 10

Chương2 | PHƯƠNG PHÁP VÀ KỸ THUẬT LIEN QUAN - 11

2.1 Các phương pháp truyền thống cho truy xuất thông tin - 11

QLD TRG eee eececeececeeseeseesecsecsecsecsecseceeeaeesesseesecaessesaeseeseeseeeeeeeaeeaees 11

2.1.3 BM25Plus G HhHHHHnHHnHnHHHnHgh ghghrư 13

2.2.1 Mạng nơ-ron tuyến tuyến tính 2-5 ©2+2+e+£xe£xzE+zxerxersez 13

Trang 6

2.2.2 Perceptron da lỚp + c Sn St SH HH ng giết 15

2.2.3 Transfer Ïearning c sgk 162.3 Một số mô hình ngôn ngữ được tiền huấn luyện .: : 17

2.3.1 BERT Ăn HH HH HH HH HH r 17

2.3.1.1 Biểu diễn đầu vào của BERT cccccccrrrrrrrerrrrree 18

2.3.1.2 Mô hình ngôn ngữ có mặt nạ .- 5 Ăn re, 19

2.3.1.3 Dự đoán câu kế tiẾp 2-©52 22 E22 2222171212211 EEcrkee 20

PIN (va 4 20

2.3.3 RoBERÏTa Ăn HH HH ng nh như 20

2.3.3.1 Che mặt nạ tinh va che mặt nạ linh hoạt - 5-5 <=+ 21 2.3.3.2 Không còn sử dung dự đoán Cau SaU 5 5+5 <<++<s++ss+ 21 2.3.4 PhoBERT SẶ SH SH HH TH TH HH HH hư 21 2.4 Sentence 0i nh ốc ẽ 22 2.5 Siamese neural I€fWOTK - - - + 1111 vn ngư 22

2.5.1 Tống quan về siamese neural netwOrk -s- 22s s+zs+zs+ss2 222.5.2 Comtrastive ÏOSS Ăn HS ng iệt 232.5.3 Áp dụng SNN vào bài toán tìm kiếm ngữ nghĩa . 242.6 Hướng tiếp cận transformer bi-encoder cho tìm kiếm ngữ nghĩa 25

2.6.1 Transformer CTOSS-€TCO(€T -.- SE sssiEsrerkrsree 25 2.6.2 S€nf€TC€-fTATISÏOTTT€T - 2G (0019319911910 93 9v ng ng nến 26 2.7 COT€TS€T - SG Gv HT TH HH TH HH nhiệt 28

2.7.1 Hạn chế của các mô hình dựa theo kiến trúc transformer 282.7.2 Tóm tắt về Condenser 2¿©22 ++2x+2E+2E++EEeExerxtzrxerxerxerree 28

2.8 BO dit án 29

Chương 3 PHƯƠNG PHÁP TIEN HANH 2-2 ++x++E++E++Exerxcrez 30

Trang 7

3.1 Pipeline tổng quan :- 2 2+5<+SE+EEEEEEEEEEEEEEE112112112112121 11111 303.2 Tiền xử lý và phân tích tổng quan bộ dit liệu 2 ¿5 s2 +2 +2 32

3.2.1 Kiểm tra và làm sạch bộ dit liệu -¿- 2 s+x+zx++z+zx+rxersez 323.2.2 Thống kê bộ ngữ liệu văn bản pháp luật 2-2 s52 323.2.3 Thống kê bộ dữ liệu hỏi đáp -2-©¿©c<+cx+cxczxzresrxerxersee 343.3 Tiến hành thực nghiệm -¿- ¿+ ++++x++EE+2E+tEE+SEESExrrkrerkrerkrrrrees 38

3.3.1 Huấn luyện mô hình BM25Plus - 2 2 2 £+xe+x+£xerxerszsez 38

3.3.2 _ Tinh chỉnh PhoBERT, ViBERT 2-2-s+cs+cx++z+zxerxersee 39 3.3.3 Tinh chỉnh Condenser (<< 55333322211 E1 vrseeesse 403.3.4 Cách thức chọn các cặp câu cho việc huấn luyện 403.3.5 Huấn luyện senfence-trafiSfOTIN€T 6 +5 + £+sksessersserees 413.3.6 Kết hợp các mô hình thành hệ thống truy xuất thong tin 423.3.7 Các độ đo đánh giá mô hình - 2-2-2 s+x+zxzx+z+zxerxersee 43Chương4 THỰC NGHIỆM, NHẬN XÉT VÀ ĐÁNH GIA KET QUẢ 44

4.1 Môi trường thực nghiỆm c c1 1191119111111 11 ng 444.2 Cách chọn ra các điều luật để đánh giá trên 2 độ đo - 5: 2¿ 444.3 Kết quả BM25Plus - St St 2E 3 1217171111111211 212111111 444.4 Kết quả sau vòng hai huấn luyên sentence-transfOrmer - 45

4.5 Kết quả sau vòng ba huấn luyện sentence-transformer -: 474.6 So sánh với một số mô hình trong quá khứ - ¿222 s2=s+zxzsz 48

4.7 Phân tích hậu thực nghiỆm 5 5 2131 2111911 911191 9 11 key 50

4.7.1 Phân tích điểm số trên từng lớp truy vấn . -: -: -:-: 504.7.2 Các yếu tô của dữ liệu gây khó khăn cho mô hình - 51Chương 5 TÔNG KẾT - 252 SESESEEEEEEEEEEEEE21121 7121212 xe 54

Trang 8

5.1 KẾT Quả S5- 2< 2k SE 2112112111121121121111.211211 01111111 Eeree 545.2 4 sẽ ẽ Ả ÔỒÔỖỒÔÔ 54

5.3 Kết luận -c-+c.22kE k2 2 2212210211211211211211211 21111 eree 54

5.4 Hướng phat triỂn 2+ +2 2+EE£EEEEE2E12E127171121121171 71.211 211T1cxeeU 55

TÀI LIEU THAM KHẢO -¿- 2-52 55£2S£2SE‡EEEEE2EE2EEEEEEEEEEEESEEEEEErkrrrrerrerkrree 56

DANH MỤC CÔNG TRÌNH TÁC GIA - 2-2 2©522++£++£EtzEzEeerxerxeres 59

Isi0850 0 60

Trang 9

DANH MỤC HÌNH

Hình 1-1 Đầu vào và đầu ra cho bài toán truy xuất văn bản pháp luật 3Hình 1-2 Minh hoa transformer crOSS-enCOđ€T 2+ ***++++++s#eeeeeeezss 6 Hình 1-3 Minh họa sentence-franSfOFIN€T - << SE 333222 EEEeezseeeeeezes 7Hình 2-1 Cau trúc n-TON - 2 +5 ©+£+E£+EE£EE£EEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrrkerkrrei 14Hình 2-2 Biéu diễn mô hình hồi quy tuyến tính . -2- 5¿csz+z+>s+ec++ 14Hình 2-3 Perceptron có hai lớp ẩn 2-2: 2© £+£+EE+EE+EE££EE+EEtEEtrEEzEkrrxrrrrrex 15Hình 2-4 Mô tả kiến trúc BERT - -2+2+++ctEEkttEEEkttttrkrrrttrrrrrrirrrrririie 17Hình 2-5 Cách BERT được áp dụng cho các tác VỤ cscssseseseeesrs 18Hình 2-6 Biểu diễn đầu vào của BERT -.-: cccccctttitrtrirrrtrirrrrrirrrrrrres 19Hình 2-7 SNN với 2 Mang COI - . c6 2 3313831118311 9E ESEESEkrerseerreeereere 23Hình 2-8 Phân loại cặp câu bằng BERT -22- +©x+2E++EE+EE+EEerEerrxerxerkerex 26

Hình 2-9 Cách SBERToase tính độ tương đồng cosine giữa hai câu - 27

Hình 3-1 Pipeline tổng quan -. 2 22 2 £+E£EE£EE£EEEEEEEEEEEEEEEEEEEErkerkerkerkrree 31Hình 3-2 Biéu diễn văn ban pháp luật trong bộ ngữ liệu . 5: 5552552 33Hình 3-3 Biểu diễn từ, cụm từ của câu hỏi theo WordCloud .- c5 sss5s 35Hình 3-4 Phân phối điều luật liên quan mỗi câu hỏi trong bộ dữ huấn luyện 37Hình 3-5 Phân phối điều luật liên quan mỗi câu hỏi trong bộ dit kiểm tra 38Hình 4-1 F2 theo lượng điều luật liên quan đến truy vấn -5z=s+ 50Hình 4-2 recall@20 theo lượng điều luật liên quan đến truy vấn 50

Trang 11

DANH MỤC TỪ VIET TAT

ConPBB ConPBL

Sentence- ViBERT

Trang 12

TOM TAT KHÓA LUẬN

Trong những năm gần đây, nhờ những đột phá trong kỹ thuật mạng nơ-ron đặc

biệt là các mô hình ngôn ngữ sử dụng transformer, việc xử lý ngôn ngữ tự nhiên đãđạt được nhiều thành tựu ấn tượng Lượng dữ liệu ngày càng nhiều đặc biệt là dữ liệu

về văn bản dẫn đến nhu cầu truy xuất thông tin văn bản là cấp thiết Truy van văn bảnpháp luật là một nhánh của truy xuất thông tin Qua nhiều sự kiện nóng những năm

qua như nghệ sĩ từ thiện, các quy định mới về covid nhu cầu tìm kiếm đúng vănbản pháp luật cần thiết là vô cùng thiết yếu với người dân Tuy nhiên, truy vấn văn

bản pháp luật vẫn là một nhánh khó của xử lý ngôn ngữ tự nhiên Các câu luật thường

dài, chưa các thuật ngữ pháp lý phức tạp Các mô hình hoạt động tốt trên các bản

khác vẫn gặp thách thức trong việc xử lý văn bản bản pháp luật.

Dé giải quyết van đề trên, khóa luận này sẽ trình bay các phương pháp tiếp cậntruy xuất thông tin trong văn bản pháp luật sử dụng các kỹ thuật học sâu hiện đại và

cách cải thiện các phương pháp này Dense retrieval dựa trên sentence-transformer là

nền tảng chính của khóa luận này Tôi đã sử dụng một số pre-trained model cho tiếngViệt như PhoBERT, ViBERT cũng như huấn luyện mô hình chuyên dụng cho denseretrieval dựa trên các pre-trained model như Condenser Ngoài ra, việc tao pipeline,

so sánh kết qua các mô hình cũng như chọn diém đánh giá (ranking score) cũng sẽ

được trình bày.

Trang 13

Chương 1 TONG QUAN DE TÀI

1.1 Ly do lựa chọn đề tài

Tại thế kỷ 21, với sự bùng nỗ của Internet đã dẫn đến nhiều hệ quả cho xã hội,

ở Việt Nam đã có nhiều sự thay đổi để đáp ứng lại những hệ quả này tiêu biéu là luật

an ninh mạng Hơn thế nữa, những năm gần đây do đại dịch Covid, nhiều điều luậtcũng được ban hành dé thích ứng với đại dịch Cùng với đó các lùm xùm liên quanđến những nghệ sĩ và các quy định xử phạt cũng nhận được sự quan tâm cực kỳ đôngđảo của nhân dân Việt Nam Vì các lý do trên cùng với sự gia tăng không 16 về sốlượng cũng như các thay đôi dé phù hợp với nhu cầu xã hội hiện nay, việc tạo ra một

hệ thống truy xuất thông tin văn bản pháp luật có độ chính xác cao là vấn đề không

chỉ quan trọng mà còn rât câp thiết.

Với xã hội, xử lý ngôn ngữ tự nhiên mới đạt được những kết quả đáng kể trongnhững năm gần đây, trong khi luật là lĩnh vực đã gắn bó với con người hàng thế kỷ

từ khi hình thành các quốc gia Học chuyên tiếp (transfer learning) và các mô hìnhtiền huấn luyện (pre-trained language model) là các cách tiếp cận mạnh mẽ và đạt

hiệu quả cao trong các tác vụ Tuy nhiên, trong một lĩnh vực chuyên biệt như luật,

đặc biệt pháp luật Việt Nam có rất ít bài báo chứng minh được hiệu quả của nhữngcách tiếp cận này Do đó một khóa luận chỉ tiết về các phương pháp áp dụng học sâu

vào xử lý văn bản pháp luật là thông tin hữu ích cho sự phát triển của lĩnh vực này

1.2 Giới thiệu bài toán

Theo như cuốn “Introduction to Information Retrieval” [1], định nghĩa về truy

xuất thông tin có thể dịch ra như sau: “Truy xuất thông tin là tìm vật liệu! (thường làtài liệu) của đặc tính phi cau trúc? (thường là văn bản) phù hợp với thông tin cần thiết

từ bộ sưu tập lớn (thường được lưu trong máy tính)” Tại Việt Nam, truy xuất thông

! Tài liệu gốc là material

? Tài liệu gốc là unstructed nature

Trang 14

tin còn có thé được gọi với một số tên gọi khác như truy hôi thông tin hay truy vanthông tin.

Trong những năm gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên đã có nhiều bước

tiến đáng kế với sự ra đời của cơ chế chú ý (attention mechanism); các tập dữ liệungày càng lớn hơn, chất lượng hơn và phần cứng ngày càng mạnh mẽ Với sự phát

triển các công cụ tìm kiếm mà phổ biến nhất là Google, chúng ta sẽ kiếm được thông

tin không những nhanh chóng, chính xác mà còn được cập nhật liên tục Việc mỗi

người sử dụng các công cụ tìm kiếm như Google cũng chính là đang thực hiện truyxuất thông tin một cách tự động

Xét trên khía cạnh lĩnh vực có nhiều lĩnh vực cần được truy xuất thông tin như:sức khỏe, làm đẹp, Trong đó bài toán truy xuất văn bản pháp luật (legal textretrieval) rat quan trọng và có nhiều ý nghĩa trong thực tiễn Tuy nhiên, bài toán này

rất khó giải quyết bởi nhiều yếu tố: các văn bản luật thường dài, từ chuyên ngànhnhiều với độ khó cao Có rất nhiều câu hỏi có thể làm khó cả chuyên gia trong lĩnh

vực pháp luật đề tìm chính xác tất cả các điều khoản có thê giải đáp câu hỏi

Hình 1-1 minh họa một ví dụ của bài toán Tổng quan bài toán như sau:

- Dau vào: Một truy van? (câu hỏi) liên quan đến pháp luật

- aura: Danh sách một hoặc nhiêu điêu luật có thê được sử dụng dé trả lời cho

truy vấn (có thé gọi ngắn lại là điều luật liên quan)

Hình 1-1 Đầu vào và dau ra cho bài toán truy xuất văn bản pháp luật

3 Trong khóa luận này, truy van và câu hỏi được dùng với ý nghĩa giống nhau, có thé thay thé cho nhau

Trang 15

1.3 Thách thức

Không giống với các bài toán truy vấn tin tức, bài toán truy vấn văn bản pháp

luật gặp rất nhiều khó khăn Trong đó, có thé kê đến đó là văn bản luật thường dài và

có cau trúc ngữ nghĩa phức tạp, câu trả lời có thé chỉ là một câu nhỏ trong một điềuluật dài, câu hỏi dùng văn nói nhưng câu trả lời dùng các từ chuẩn ngành luật, các từ

ngữ cấu thành cho câu trả lời năm rải rác ở trong một điều luật rất dài Một ví dụcho khó khăn trong truy xuất thông tin cho văn bản pháp luật cho các khó khăn trên:

- _ Câu hỏi: Đi xe máy bốc dau bị phạt bao nhiêu ?

- Câu trả lời: Điều 6, Nghị định 100/2019/NĐ-CP

- _ Trích nội dung câu trả lời:

o Điêu 6 Xử phạt người điêu khiên xe mô tô, xe gan máy (kê cả xe máy

điện), các loại xe tương tự xe mô tô và các loại xe tương tự xe gan máy

vi phạm quy tắc giao thông đường bộ

= 8.Phạt tiền từ 6.000.000 đồng đến 8.000.000 đồng đối với người

điều khiến xe thực hiện một trong các hành vi vi phạm sau đây:

e _ c) Điều khién xe chạy bằng một bánh đối với xe hai bánh,

chạy bằng hai bánh đối với xe ba bánh;

Tai ví dụ trên, chúng ta thay dé có thé truy xuất được thông tin phù hợp đầu tiênphải truy xuất ngữ cảnh tổng quát ( điều luật cho xe máy), tiếp đến là hiểu về tiền

phạt và phải hiểu được bốc đốc là hành vi chạy xe một bánh với xe hai bánh hoặc haibánh với xe ba bánh Đây thực sự là một vấn đề rất phức tạp và mắt thời gian Ngoài

ra, có thé có nhiều hơn một điều luật chứa câu trả lời cho câu hỏi, việc này càng làm

gia tăng khó khăn trong việc lựa chọn các điều luật chính xác

Trang 16

Ngoài những van dé kể trên thì việc thu thập dữ liệu pháp luật cũng là một van

dé rất phức tạp Việc thu thập cơ sở dữ liệu có thé đơn giản do giờ đây đã có cácnguồn như thuvienphapluat.vn, vbpl.vn Tuy nhiên, cấu trúc của các nguồn nàykhác nhau, việc cào các dữ liệu đặc biệt là dữ liệu dài rất dễ dẫn đến việc trùng lặpvăn bản, thu thập phần mục lục thay cho phần nội dung Về việc thu thập bộ dữ liệu

hoi-dap thì vẫn chưa có nhiều chuyên gia tham gia các diễn đàn miễn phí Lượng câu

hỏi có câu trả lời đầy đủ từ chuyên gia trên các diễn đàn như hoidapphapluat.net,hethongphapluat.com vẫn còn nhiều hạn chế và lỗi thời Hơn nữa, nhiều điều luậtthay đôi theo từng năm dẫn đến việc thu thập một bộ dữ liệu tốt càng khó khăn

1.4 Các công trình liên quan

1.4.1 Cac phương pháp truyền thống cho truy xuất thông tin

Các phương pháp này, không sử dụng mạng nơ ron (neural networks), chủ yếuxác định mức độ liên quan dựa trên sự xuất hiện và tần suất của các thuật ngữ trongtruy vấn và tài liệu Tuy nhiên, các phương pháp này vẫn cần thiết cho các hệ thốngtruy xuất thông tin hiện đại với mô hình phổ biến nhất là tf-idf và BM25

1.4.2 Attentive CNN

Cơ chế chú ý (attention mechanism) khiến cho mô hình có khả năng chú ýnhiều hơn vào các từ khóa hoặc các câu chứa nhiều thông tin giá trị và quan trọng.Kiên và các cộng sự [2] đã sử dụng mạng tích chập (CNN) kết hợp với cơ chế chú

ý đơn giản cho truy xuất văn bản tiếng Việt dé tạo ra mô hình được gọi với tên làAttentive CNN.

Kiến trúc CNN kết hợp với co chế chú ý được sử dung dé giúp nắm bat đượcngữ cảnh cục bộ (local) và tổng quát (global) dé xây dựng các vector biểu diễn cho

truy vấn và điều luật Mô hình này đã được áp dụng vào truy xuất văn bản phápluật tiếng Việt và đạt được độ hiệu quả cao Hệ thống truy xuất kết hợp giữa

Attentive CNN và các mô hình máy học truyền thống để tạo ra mô hình kết hợpcũng đã đem đến hiệu quả tốt hơn từng mô hình đơn lẻ Hiện tại, theo như hiểu biết

Trang 17

tốt nhất của tôi, mô hình kết hợp này đang là mô hình tốt nhất có công trình nghiêncứu được công bồ cho truy xuất văn bản pháp luật tiếng Việt.

1.4.3 Các hướng tiếp cận transformer cross-encoder

BERT [3] đã mang đến bước đột phá trong NLP BERT cross-encoder làphương pháp áp dụng rộng rãi BERT cho truy xuất thông tin đầu tiên Trong

phương pháp này, cả truy vấn và văn bản được đưa nối tiếp vào trong BERT

Nhẫn

Hình 1-2 Minh hoa transformer cross-encoder.

Hình 1-2 mô tả một cách đơn giản transformer cross-encoder Truy van và

tài liệu vào làm đầu vào cho transformer-based rồi thực hiện tác vụ phân loại

Hướng đi này đã có nhiều sự phát triển và đạt được nhiều kết quả tốt trong lĩnh vựctruy xuất thông tin nói chung như Birch [4] cũng như truy van văn bản pháp luậtnói riêng như BERT-PLI [5] Tuy nhiên, điểm hạn chế của hướng tiếp cận này làtốn nhiều thời gian và tài nguyên tính toán

1.4.4 Các hướng tiếp cận transformer bi-encoder

Reimers và cộng sự tạo ra SBERT [6] đưới sự thúc đây về vấn đề tiêu tốn

thời gian huấn luyện và tài nguyên tính toán của phương pháp transformer encoder.

Trang 18

cross-SBERT sử dụng siamese network làm kiến trúc để cung cấp hai câu làm đầuvào Hai câu này sau đó sẽ được đưa vào BERT và lớp Pooling dé tạo embedding.Sau đó sử dụng cặp embedding này đề tính độ tương đồng cosine giữa hai câu Từ

điểm cosine được tính ra, có thé xác định được nhãn của hai câu Hiện tại các mô

hình dựa theo transformer khác như RoBERTa cũng có thể áp dụng Các mô hình

này được gọi là transformer Việc sử dụng các mô hình

sentence-transformer được gọi là hướng tiếp cận sentence-transformer bi-encoder Hình 1-3 minh họađơn giản vê sentence-transformer.

ry 4

Cau 1 Cau 2

Hinh 1-3 Minh hoa sentence-transformer

SBERT và các nghiên cứu được phát triển từ nó như đã đạt hiệu suất tốt trong

các lĩnh vực truy xuất thông tin Với tiếng Việt, theo những kiến thức tốt nhất của tôichỉ có bài báo của Hà và các cộng sự [7] áp dụng SBERT Theo nghiên cứu cua Gao

và Callan [8] thì các mô hình ngôn ngữ ngôn ngữ dựa theo transformer chưa có cấu

trúc chú ý nội bộ (internal attention) sẵn sàng cho bộ mã hóa dày đặc (dense

encoders) Các tác giả này giới thiệu một kiến trúc transformer mới, condenser nhưphương án cải thiện cho hướng tiếp cận transformer-based model bi-encoder

Trang 19

1.5 Cac van dé còn tôn tai

Từ các công trình nghiên cứu có liên quan, tôi có một sô nhận xét vê những van

đê còn tôn tại với đê tài nghiên cứu như sau:

- Huong nghiên cứu về truy xuât văn bản pháp luật tiêng Việt còn rat mới chưa

có nhiều công trình

- _ Hướng nghiên cứu sentence-transformer cho tiếng Việt cũng không có nhiều

công trình dù có tiềm năng to lớn bởi những kết quả đã được chứng minh trêncác ngôn ngữ khác.

Từ hai điều trên, van đề mà đề tài cần tập trung nghiên cứu giải quyết là:

- Ap dụng hướng nghiên cứu sentence-transformer cho truy xuất văn bản pháp

luật tiếng Việt dé đánh giá độ hiệu quả

- Str dụng nhiều mô hình khác nhau dé có thé chon ra những mô hình tốt nhất

cho các thang đo.

1.6 Mục tiêu

1.6.1 Các tiêu chí

- _ Xây dựng các hệ thông đạt hiệu quả cao hơn so với các nghiên cứu trước vê

truy xuất văn bản pháp luật tiếng Việt

- Phan tích được các yếu tô ảnh hưởng đến kết quả của hệ thống truy xuất như

điểm xếp hạng câu, từ ngữ và âm tiết tiếng Việt khi sử dụng dé huấn luyện,

Trang 20

Các mô hình sentence-transformer.

Các diém đánh giá văn bản của hệ thông truy xuât.

Các câu hỏi về pháp luật Việt Nam

Mô hình BM25Plus trong package rank_bm25.

Mô hình sentece-transformers từ các mô hình tiền huấn luyện: PhoBERT,

ViBERT.

Từ ngữ và tiếng trong tiếng Việt được sử dung dé huấn luyện mô hình

Hai điểm kết hợp cho hệ thong truy xuất: bm25_score*cos_sim,sqrt(bm25_score)*cos_sim.

1.6.4 Phương pháp

Tìm hiểu, kiểm tra và làm sạch dataset cho truy xuất văn bản pháp luật tiếngViệt,

Tiền xử lý các bộ dữ liệu con sau khi kiểm tra và làm sạch

Tìm hiểu về các mô hình học máy cho truy xuất văn bản

Tìm hiểu các mô hình ngôn ngữ được huấn luyện trước cho tiếng Việt

Sử dụng phương pháp sentence-transformer cho các mô hình ngôn ngữ được

huấn luyện trước

Đánh giá các yếu tố có thể ảnh hưởng lên hệ thống truy xuất thông tin nhưđiểm đánh giá, huấn luyện bằng từ ngữ và tiếng

Trang 21

- Phan tích các lỗi làm hệ thống hoạt động chưa tốt, đưa ra giải pháp tương lai.

1.7 Cấu trúc khóa luận

- _ Chương | - Tổng quan đề tài

- Chuong 2 - Phương pháp và kỹ thuật liên quan.

- _ Chương 3 - Phương pháp tiến hành

- _ Chương 4 - Thực nghiệm, nhận xét và đánh giá kết quả

- Chương 5- Tổng kết

10

Trang 22

Chương 2. PHƯƠNG PHÁP VÀ KỸ THUẬT LIÊN QUAN

2.1 Các phương pháp truyền thống cho truy xuất thông tin

2.1.1 TÍ-idf

Tf-idf (Term Frequency - Inverse Document Frequency) là một thước đo thống

kê đánh giá mức độ liên quan của một từ với một tài liệu (văn bản) trong kho ngữ

liệu Tf-idf gồm 2 thành phần chính là tf và idf Tuy nhiên khi áp dụng vào truyxuất thông tin có một số điểm khác biệt do cần phải đánh giá từng từ trong truy vấntrên tài liệu.

tf,a dạng thô (raw term frequency) chưa phải giải pháp hữu hiệu vì:

= Tài liệu với /= 10 tuy có thé liên quan đến từ t hơn tai liệu có

tf = 1 nhưng không phải gap 10 lần.

“_ Sự liên quan không tăng tương ứng theo tỷ lệ với số lần xuất

Trang 23

= Score = 0 nêu không có từ nào trong truy vân xuât hiện trong

văn bản.

- Idf (inverse document frequency):

o Idf dùng dé ước lượng độ quan trọng của từ Các từ như từ nối, giới từ

thường được sử dụng nhiều nhưng không quan trọng dé thé hiện ý nghĩavăn bản.

o_ đ#(document frequency of ?): là số văn bản có chứa từ í

A , P Tổng số văn bản trong kho ngữ liệu

o_ Công thức tính: idf,p = l0 —

Số văn bản có chứa từ t

- Trọng số tf-idf của từ t được tính từ 2 trọng số tf và idf của từ ¢ đó:

©_ #ˆidfap = (1 + log ff,a)* idft.p

- _ Cách tính cho 1 văn bản đ theo 1 truy vấn ø với / là từ trong truy vấn 4:

o Score(q,d) = 3 ;eazxj tf-idfi,d,p

2.1.2 BM25

BM25 là một phương pháp được phổ biến trong truy xuất thông tin Trong timkiếm web, BM25 này được sử dụng tích hợp đề đánh giá xếp hạng các trang web

từ truy vân của người dùng.

BM25 cải thiện dựa trên tf-idf nhờ việc dùng mức độ liên quan với bài toán

xác suât BM25 đưa ra điêm liên quan, xác định một truy vân liên quan ra sao với tài liệu Sau đó xêp hạng các mức liên quan của từng tài liệu đê đưa ra danh sách

tài liệu phù hợp nhất với truy vấn

Trang 24

= N: tong số tài liệu.

= Lda độ dài (theo từ) của tài liệu.

= Lavg là độ dài trung bình của tat cả tài liệu

" fftd và dftd tương tự trong tf-idf đã được giải thích trong tf-idf 2.1.3 BM25Plus

BM25Plus là mô hình cải tiến từ BM25 được Lv&Zhai [9] đưa ra Điều thayđổi của mô hình này so với BM25 là trước khi thực hiện phép tính nhân thành phần

có chứa tf sẽ được cộng thêm một hằng số ở Công thức tinh BM25Plus:

2.2.1 Mang nơ-ron tuyến tuyến tính

Khoảng hơn 10 năm trở về trước, học sâu là một lĩnh vực không được nhận

quá nhiều sự quan tâm bởi cả những nhà nghiên cứu cũng như các kỹ sư bởi vì các

hạn chế về mặt phần cứng không cho phép họ có thể xây dựng các ứng dụng vượt

trội với hướng tiếp cận này Tuy nhiên, gần đây, học sâu trở thành công cụ mạnhcũng như được biết đến rộng rãi nhất trong các lĩnh vực liên quan đến trí tuệ nhântạo, thị giác máy tính cũng như xử lý ngôn ngữ tự nhiên Khóa luận này tập trung

vào nghiên cứu và áp dụng các nhánh tiép cận nhỏ và hiện dai hơn của học sâu cho

13

Trang 25

truy xuât như các mô hình ngôn ngữ tiên huân luyện, sentence-transformer Vì lý

do này, tôi quyêt định nói sơ bộ về học sâu cũng như các ý tưởng cơ bản của nó.

Điều cuối sợi trục

Té bảo Schwann

Hình 2-1 Cấu trúc nơ-ron

Lớp đầu ra

Lớp đầu vào

Hình 2-2 Biéu diễn mô hình hồi quy tuyến tính

Học sâu là kỹ thuật sử dụng mạng nơ-ron nhân tạo được lấy cảm hướng từ mạng

thần kinh của các loài động vật Hình 2-1 mô ta cau trúc thực của 1 nơ-ron và Hình2-2 biêu diễn mô hình hồi quy tuyến tính Một nơ-ron nhận tính hiệu của các nơ-ronkhác như đầu vào và sau đó tính tín hiệu của chính nó Đáp ứng theo các điều kiệnnhât định, tín hiệu này sẽ được chuyên đên một nơ-ron khác.

Gọi x;¿, , x„ là tín hiệu dau vào; w;, , wg là trọng sô và b là hệ sô điêu chỉnh

của mô hình Giá trị được dự đoán có thé tính theo công thức sau:

? =x,w¡+ +x„wa+b

*

https://www.vinmec.com/vi/tin-tuc/thong-tin-suc-khoe/suc-khoe-tong-quat/neuron-kinh-la-gi-chuc-nang-phan-loai-cau-truc/

14

Trang 26

Với x là vector đâu vào, w là vector trọng sô, công thức rút gọn là:

và được cho là mô hình học sâu đầu tiên MLP hay mô hình học sâu đơn giản cần có

ít nhất 1 lớp an (hidden layer) ở giữa đầu vào và dau ra

Hình 2-3 Perceptron có hai lớp an

Hình 2-3 Perceptron có hai lớp 4n minh họa MLP 2 lớp ấn, trong đó mỗi nút

trong lớp ân và lớp đầu ra:

15

Trang 27

- Liên két với tat cả các nút ở lớp trước với trọng sô w riêng.

- - Mỗi nút có một hệ số bias b riêng.

- Được tính toán bởi 2 bước: tính tổng tuyến tính và áp dụng hàm kích hoạt

Đầu vào của lớp ân được ký hiệu là z, đầu ra thường được kí hiệu là a (thé

hiện hàm kích hoạt - activation function) Nút thứ 7 tại lớp / được sẽ có đầu ra a

và hệ số bias bY Gia sử lớp (1-1) có n nút thì giá tri tai một nút j thuộc lớp / được

tính như sau:

- Tinh tông cua tat cả các nút trong lớp trước nhân với trọng sô w tương ứng roi

cộng bias: 2) = ry al? * wi? +b

- Ap dung ham kich hoat: a2 gue

- _ Chú ý hàm kích hoạt cần là hàm phi tuyến Nếu sử dụng hàm tuyến tính thì

chúng ta sẽ chỉ thu được một hàm tuyến tính điều này không giúp cải thiện

được mô hình hoc sâu Một số hàm kích hoạt phố biến hiện nay là sigmoid,

ReLU

2.2.3 Transfer learning

Hiện nay, dưới sự bùng nô của các các mô hình được nghiên cứu về trí tuệ

nhân tạo, các mô hình tiền huấn luyện (được đào tạo trước) ngày càng có chất lượng

tốt và đạt những kết quả tuyệt vời trên nhiều loại cũng như miền dữ liệu khác nhau.Transfer learning là phương pháp cho phép tận dụng các mô hình này dé giải quyếtcác van bài toán khác có liên quan Hiện nay, transfer learning là cách tiếp cận phổbiến nhất trong học sâu Sử dụng phương pháp transfer learning dé xây dựng môhình mới sẽ gia tăng hiệu quả cũng như giảm thiêu chỉ phí, thời gian và tài nguyên

tính toán Tóm tắt về phương pháp:

- M6 hình tiền huấn luyện được dao tạo trước trên một bộ dữ liệu khác (hiệu

quả thường tăng với theo kích thước bộ dữ liệu) cho một nhiệm vụ hoặc bài

16

Trang 28

toán cu thé, khi đó mô hình có thé sử dụng lại tùy thuộc theo bài toán cũngnhư các nhiệm vụ khác nhau.

- M6 hình mới sẽ sử dụng một phân hoặc toàn bộ mô hình tiên huân luyện đê

giải quyết một nhiệm vụ tương tự

2.3 Một số mô hình ngôn ngữ được tiền huấn luyện

2.3.1 BERT

BERT (the Bidirectional Encoder Representations from Transformers) [3] sử

dụng bộ mã hóa của Transformer được tiền huấn luyện Các token được biểu diễndựa trên ngữ cảnh 2 chiều Hình 2-4 mô tả kiến trúc tổng quá của BERT BERT có

2 phiên bản: BERTbase và BERTlarge Điểm khác biệt chỉ là số bộ mã hóa

(BERTbase chứa 12 bộ mã hóa còn BERTlarge có 24 bộ mã hóa).

Hình 2-5 mô tả việc áp dụng BERT cho các tác vụ phía sau (downstream

task) BERT có 1 tầng kiến trúc thay đổi tối thiểu dé thay đổi phù hợp với tác

vụ.Toàn bộ tham số tiền huấn luyện đều được tinh chỉnh cho phù hợp, trong khi

tầng dau ra bố sung được đào tạo lại từ đầu.

12 bộ mã hóa với BERT-base

24 bộ mã hóa với BERT-large

Hình 2-4 Mô tả kiến trúc BERT.

17

Trang 29

Hình 2-5 Cách BERT được áp dung cho các tác vụ.

2.3.1.1 Biểu diễn đầu vào của BERT

Chuỗi đầu vào BERT với văn bản đơn ghép nối của [CLS], token chuỗivăn bản đơn, [SEP] Ở đây [CLS] là token phân loại còn [SEP] là token phântách các câu BERT mã hóa tối đa 512 token cho bat cứ câu nào được đưa vào.Nếu câu nhiều hơn 512 token sẽ bị cắt bớt

Bộ mã hóa transformer được áp dụng cho kiến trúc hai chiều của BERT.Trong bộ mã hóa của transformer nguyên bản, thông thường Sự cải tiễn ởBERT là sử dụng các embedding vi trí có thé học được Theo Hình 2-6, chuỗiđầu vào BERT là tổng các embedding của token, embedding đoạn vàembedding vi trí.

18

Trang 30

Đầào <cls> ngồi nhà rất đẹp <sep> tôi thíh nó <sep»

Khi biêu diễn môi token, đê mã hóa ngữ cảnh hai chiêu, BERT che mặt

nạ các token một cách ngẫu nhiên Tác vụ tiên huân luyện có tên là mô hình

ngôn ngữ có mặt nạ (masked language modeling).

15% token được chọn ngẫu nhiên đề che mặt nạ Đề dự đoán token mặt

nạ không dùng nhãn, hướng tiếp cận đơn giản là luôn thay nó bằng [MASK]

trong chuỗi đầu vào [MASK] sẽ không có mặt khi tinh chỉnh Nhằm hạn chế

sự bat đồng giữa tiền huấn luyện và tinh chỉnh, nếu một token mặt nạ đượcche dé dự đoán (ví dụ, từ “đẹp” được lay dé che và đoán trong đoạn “ngôi nhàthật đẹp”), trong đầu vào nó sẽ được thay bằng:

[MASK], chiếm 80% số lần ( ví dụ, “ngôi nhà thật đẹp” sang “ngôi nhà thật[MASK]);

10% số lần là các token ngẫu nhiên ( vi dụ, “ngôi nhà thật dep” thành “ngôi

nhà thật lớn”), việc sử dụng các token ngẫu nhiên sẽ giúp khuynh hướng của

BERT phía token bị che giảm;

sử dụng chính nó, chiếm 10% số lần ( giữ nguyên đoạn “ngôi nhà thật đẹp”)

19

Trang 31

2.3.1.3 Dự đoán câu kế tiếp

Mô hình ngôn ngữ có mặt nạ không thé mô hình hóa các mối quan hệ logicgiữa các cặp văn bản một cách rõ ràng.

Dé giải quyết vấn dé này, tác vụ dự đoán câu kế tiếp (next sentenceprediction) được áp dụng khi tiền huấn luyện Quá trình này sẽ sinh các cặpcâu khác nhau 50% trong số cặp là các 2 câu liên tiếp được gán nhãn đúng

50% còn lại được lây ngẫu nhiên từ kho ngữ liệu và được gán nhãn sai

2.3.2 ViBERT

Mô hình mBERT (Multilingual BERT) về cơ bản giống BERT theo mô tatrong phan trước, áp dụng cho kho ngữ liệu đa ngôn ngữ bao gồm khoảng 100 ngônngữ ViBERT [10] được huấn luyện tiếp từ checkpoint của mBERT Dung lượng

dữ liệu tiếng Việt được sử dụng là 10 GB (ở mức độ tiếng) Hiện tại, nhóm tác giảmới chỉ cho ra một phiên ban là VIBERTbase VIBERT hỗ trợ mã hóa tối đa 512

token cho câu đâu vào.

Tại thời điểm ra mắt, ViBERT đã đạt được các kết quả tốt trên các bộ dữ liệucho tiếng Việt thuộc các tác vụ như nhận dạng thực thể (NER), gán nhãn từ loại(POS tagging ).

2.3.3 RoBERTa

RoBERTa(A Robustly Optimized BERT Pretraining Approach) [11] là một

nghiên cứu nhân rộng từ BERT nhăm mục đích đo lường can than tác động củanhiều siêu tham số chính và kích thước dữ liệu đào tạo Giống BERT, RoBERTacũng mã hóa tối đa 512 token cho câu đầu vào Sau đây là tóm tắt về các thay đổicủa RoBERTa so với BERT, một số chỉ tiết hơn được đề cập phía sau:

- RoBERTa được đào tạo lâu hơn với batch_ size lớn hon va nhiều dữ liệu hơn

- Không còn sử dụng dự đoán câu sau.

20

Trang 32

- Chuỗi dai hơn được dùng trong dao tạo (longer sequences).

- Sử dụng che mặt nạ linh hoạt thay cho che mặt nạ tinh.

2.3.3.1 Che mặt nạ tinh và che mặt nạ linh hoạt

- BERT thực hiện che mặt nạ một lần khi tiền xử lý dữ liệu điều này dẫn đến

mặt nạ tĩnh duy nhất được dùng

- Voi che mặt nạ linh hoạt được sử dụng trong RoBERTa, phần được che sẽ

thay đổi mỗi khi một chuỗi mới được đưa vào mô hình

2.3.3.2 Không còn sử dụng dự đoán câu sau

- BERT quan sát hai phân đoạn tài liệu được nối với nhau trong cùng một tài

liệu hoặc từ hai tài liệu khác nhau BERT được dao tạo dé dự đoán đoạn tài

liệu từ cùng một tài liệu hay hai tài liệu riêng biệt thông qua hàm mất mát củatác vụ dự đoán câu kế tiếp

- Trong RoBERTa, mỗi một đầu vào được đóng gói với các câu đầy đủ được

lay mẫu liền nhau từ một tài liệu Vì lý do này, tác vụ dự đoán câu sau không

còn được sử dụng nữa.

2.3.4 PhoBERT

PhoBERT [12] là mô hình ngôn ngữ tiền huấn luyện dành riêng cho tiếng Việt

phô biến nhất Phương pháp tiếp cận của PhoBERT dựa trên RoBERTa Mô hìnhnày có 2 phiên bản PhoBERThase và PhoBERTiarge tương tự như BERT PhoBERT

được đào tạo với khoảng 20GB dữ liệu tiếng Việt Trước khi huấn luyện,VNCoreNLP được sử dụng để tách từ cho toàn bộ bộ đữ liệu trước khi đưa vàoBPE encoder PhoBERT mã hóa tối đa 256 token cho câu đầu vào cả hai phiên bản

Tại thời điểm ra mắt, từng phiên bản trong mô hình này đã dẫn đầu các bộ dữ

liệu tiếng Việt trên cả bốn nhiệm vụ nhận dạng thực thé, gan nhãn từ loại, suy luận

ngôn ngữ (NLD và phân tích sự phụ thuộc cú pháp (dependency parsing).

21

Trang 33

embedding sẽ gặp nhiều khó khăn.

Kỹ thuật sentence embedding từ đó được ra đời Kỹ thuật này biểu thị toàn bộcâu và thông tin ngữ nghĩa của chúng dưới dạng vector Điều này giúp máy hiểu rõ

hơn về ngữ cảnh và các sắc thái trong toàn bộ văn bản.

2.5 Siamese neural network

2.5.1 Tong quan về siamese neural network

Siamese network chứa hai hoặc nhiều mô hình giống nhau, trong đó (thường)hai mô hình chia sẻ hoặc có cùng trọng SỐ (weight), tham số (parameter) Hai môhình con được cập nhật tham số đồng thời Siamese network được sử dụng nhiều

nhất trong việc tính toán điểm số tương đồng của đầu vào vì thế chúng có nhiều

ứng dụng khác nhau Sử dụng các mạng nơ-ron con để tạo siamese network sẽ cóđược siamese neural network (SNN).

SNN có thé giảm thiểu thời gian và cũng như chi phi dao tao mô hình với tại

bài toán phân lớp Giả sử, một mô hình học sâu được huấn luyện bằng một bộ dữliệu thuộc bài toán phân lớp, nếu muốn thay đôi số lượng các lớp đi thì phải cập

nhật lai mạng no-ron cũ bằng cả dit liệu cũ và mới SNN giải quyết van dé nàybằng việc học cách tìm được sự giống nhau giữa các dữ liệu đầu vào Bằng cáchnày, mô hình có thé phân loại dit liệu mới mà không cần mất thời gian huấn luyện

lại Hình 2-7 minh họa SNN với 2 mạng con.

22

Trang 34

Contrastive loss [13] ban đầu kết hợp với SNN dé giải quyết bài toán giảm

chiều dữ liệu Nó được dùng dé học bộ trọng số W của mô hình G,, mục dich dé

những vector giống nhau thì khoảng cách của chúng sẽ được giảm thiểu, nhữngvector khác nhau thì sẽ bi gia tang khoảng cách.

Gia sử có hai đầu vào là Xi và Xa, đặt X; và X; là 2 vector cho cặp đầu vào.

Đặt Y là nhãn cho cặp vector trên, Y = 0 nếu hai vector này tương đồng (cặp dương)

và Y=1 nếu hai cặp vector này không tương đồng (cặp âm) Dé có thé tính được

contrastive loss cho cặp dau vao này, ta thực hiện các bước sau:

- Tinh khoảng cách Euclidean D,, cho mỗi cặp:

Dy (X7,X2) = ||G„(X/)— G„:)|L

o Với Gy là đầu ra của SNN cho mỗi đầu vào

- Dé giải thích ngắn gọn hơn D,, (x, 1X5 ) được viết tắt là D„ Công thức tinh

hàm mat mát với mỗi cặp i trong bộ dữ liệu là:

23

Trang 35

L(W, (Y.X¡,X) )= (-Y)1yÐ,, + LoD

— —Ï _ Lệ

o Trong đó: (P X71, X;) là nhãn của cặp mau thứ i, Ls là hàm mat mát áp

dụng cho đầu ra nếu cặp mẫu tương đồng, Lp là hàm mat mát đáp dụngcho đầu ra nếu cặp mẫu không tương đồng

- Ls và Lp được thiết kế dé tối thiểu L giúp để có W sao cho D„ thấp cho các

cặp không tương đồng và D„ cao cho các cặp không tương đồng vi vậy

contrastive loss cho mỗi cặp thực sự là:

L(W, (r.37.52))= (1-Y)- ; (Dị, ) + (Y)- s {max(0, m-D‡,)}

o Trong đó m > 0 là là bán kính xung quanh Gw(X ) Các cặp âm đóng

góp cho hàm mat mát chỉ khi khoảng cách của chúng nhỏ hơn m

- Tir đó có công thức contrastive loss cho toàn bộ P cặp dau vào:

L@Y)=X}\L(W, (Y, X;, X2) )

2.5.3 Áp dụng SNN vào bài toán tìm kiếm ngữ nghĩa

Với bài toán tìm kiếm ngữ nghĩa hay còn gọi là truy xuất thông tin theo ngữnghĩa, Siamese neural network được áp dụng cho việc học hàm tương đồng(similarity function), kí hiệu là Similarity như sau:

- Ham Similarity nhận tham số là câu 1 và câu 2, Mã hóa câu 1 thành vector A,

câu 2 thành vector B Đặt Ai,Bi là các thành phần của vector A,B tương ứng

và Ø là góc tạo bởi 2 vector A, B Độ tương đồng cosine cos(6) giữa A và Bđược tính theo tích vô hướng như sau:

SLAB —

Tati fora? fares

o cos_sim(A,B) = cos(@) =

24

Ngày đăng: 08/11/2024, 16:59