HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA AN TOÀN THÔNG TIN ĐỎ ÁN TÓT NGHIỆP CÁN NGỌC BÌNH Hà Nội, 1-2024 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA AN TOÀN THÔNG TIN ĐỎ ÁN TÓT NGHIỆP Giảng viên hướng dẫn PGS TS Hoàng Xuân Dậu Sinh viên thực hiện Cần Ngọc Bình Lớp DI9CQAT0I1-B Khóa 2019 - 2024 Hệ đào tạo Đại học chính quy Hà Nội, 1-2024 NHAN XÉT, ĐÁNH GIA, CHO DIEM (Của giảng viên hướng dẫn) Điểm: (băng chữ: ) Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm tốt nghiệp ¬— ,ngày tháng năm 20 GIẢNG VIÊN HUONG DAN NHẬN XÉT, ĐÁNH GIÁ, CHO DIEM (Của giảng viên phản biện) Đồng ý/ Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm tốt nghiệp ¬— ,ngày tháng năm 20 GIẢNG VIÊN PHAN BIEN LOT CAM ƠNN .- MỤC LỤC rea 1 25552222222 222211 22221 22T 2 DANH MỤC HÌNH ẢNH 5 5 121121121121y1u 2 /,0/0782.100000n0n0n8n8n8Ẻ858 4 CHUONG 1: TONG QUAN VE PHAT HIEN TUƠNG ĐÔNG VĂN BẢN 5 1.1 Giới thiệu đề tài và đối twong nghiên CUPL.ces e ses ees eseee 5 1.2 Đặc điểm của văn bản tiếng 72 6 1.2.1 Đặc điỂm 5c.S H H.H n g - 6 1.2.2 Cấu tạo tiếng Việt 52 5 E 2 2.2 -5x2e 6 1.2.3 Từ đồng nghữa 2 2 .2 t òẶS 7 1.2.4 Đặc điểm chính tả 5 S E .t 1 1 2 t.r y.e 7 1.3 Tổng quan vé bài toán do độ tương đồng văn ĐẲH .c.à & 1.3.1 Khái niệm về độ tương AONccc cescesesces esses ees ess esesseseeees 8 1.3.2 Độ tương đồng cÂu .5c.S.E E 2.2.2 r-e- ọ 1.3.3 Ug dụng Ă .n r e ọ 1.3.4 Một số phương pháp tính độ tương đồng dựa trên vectơ biểu diễn 9 1.3.4.1 Độ tương AON €OSine .-55 Set 9 1.3.4.2 Khoảng cách EWCÏid S.c SS.c S 2 +s.v.vv.ss.r.ee.xe.s-es 10 1.3.4.1 Khoảng cách ManhqffđH -.c.5.c 3 E +.V.EE.+s.ee.ess.re.ee.es.es 11 1.3.4.3 Chỉ mục JACCArEA ieee ccc ccccccceecee ccc cccccceesessssseeeeccecesceeseneneees 12 1.3.5 Một số phương pháp biểu diễn vectơ văn bản - 12 1.3.5.1 Khải HIỆM Ă n g h e 13 1.3.5.2 Phương pháp TIF-IDI .v n k h e 13 1.3.5.3 Phương pháp IWfOrd2V6C .5.55.5.S.S.Ss.‡.s.sv.k.s.se.e-s-s 14 1.3.5.4 Phương pháp Doc2ÏG -c c 3 E.+E.E+.se.Ek.+s.re.ee.se.s 17 1.4 Một số nghiên cứu có liÊH qHAH 5.25 sc.c.EE.Ee.E.Et.r.tr.re.r.re-t 19 1.4.1 Nghiên cứu về độ chính xác của các thuật toán so sảnh tương MONG VAN DAN cc cccccccccces cesses he he 19 1.4.2 Nghiên cứu tong quan về sự phát triển của các phương pháp do lường tương đồng văn bảH 2252 5225212212112 ree 20 1.5 Ket ChưƠơng T H .H.H t r .rĂuĂg 22 CHƯƠNG 2: PHAT HIEN ĐỘ TƯƠNG ĐÔNG VAN BẢN SỬ DỤNG HOC đÂUU, 0 55225 2122222222 1221211111 re 23 2.1 Tổng quan về học máy và học sÂM .- cty 23 2.1.1 Khái quát về học Háị 555.2.5.S S E r.r.rr.r5e-re-g23 2.1.2 Khái quát về học sâu . ©52S52SE E222 errreg 25 2.1.3 Một số thuật toán học sÂu .5.-.5.5 Tn.EE.EE.t r e 26 2.1.3.1 Mô hình TraHSƒOTIHCF S.2 S E VE.E.Ss.ik.k.es.r.ke.s 26 2.1.3.2 Mô hình BERT .5 c 5c 2.2 22.22.22.11.2 21 er.r.e 33 2.1.3.3 Mô hình RoBERTi 5.s 5S.S E - 39 2.2 Xây dựng mô hình phát hiện twong dong văn bản sử dụng học sâu .41 2.2.1 Mô tả mô hình phát hiện tương đồng van bản sử dụng học sâu .41 2.2.1.1 Quá trình huấn luyện - -55ScccSEeEEEerrerrerrerrerrrrei 41 2.2.1.2 Quá trình so sánh tương đông văn bản -5-5ccccccssa 4] 2.2.2 Giới thiệu mô hình PhoBET c.à s.hh.i.sh.ih.hi.h.ke.re.y 42 2.2.3 So sinh PhoBERT với một số mô hình khác -sccsccec: 46 2.2.4 Thu thập dit liỆU nhe 47 2.2.5, Tiền xử lý dữ liệu 5.S E 2.11.2.21.2.21.2.2.2 e.r.r-rr-r-d 49 2.2.6 Huấn luyện mô hình 5 TS E 1 E.n.r.e r.y.e- 5I 2.3 Kết chương .s 5 H.H.2 2 1 2 2 k 52 CHUONG 3: CAI DAT VA TRIEN KHALI.0.0 cccccsccsccssscsscessessvessesseessessessessen 53 3.1 Cài đặt và triển khai 5.5.ess.es.ee.s e.ese.ese.es.ess.ess.es.see.ses.se.sse.sse.es.eee.es 53 3.1.1 Các công cụ và nền tảng sử dUNG cccccccccccccccescscesesseeseseeeeseseeees 53 3.1.1.1 Google COÏQP SG S E S e t 53 "Z“x.° ăứM ồồ 53 LUNN/, 9) //xAmV 1áá 34 3.1.1.4 Pylorch và PyTorch LIghfHÌHg cssscssssckesssevesseexs 35 3.1.2 Giới thiệu một số mô dun chương trình - sec 56 BD Thứ nghiệm 55.5c.c 2.22.211.1 E.22.1 r e - 59 3.2.1 Tập dữ liệu thứ HgÌhiỆM S.cS.S i n h .he.k.y 59 3.2.2 Kết quả kiểm thử mô hình phát hién 0 0 0.0.cccccccccccceceseeeeceeeee 60 3.2.3 Xây dựng mô dun phát hiện độ trong đồng giữa các đoạn văn bản 62 3.3 (CoA 211| SE HH HH 1121k 63 KET LUẬNN 55-55 5 E2 2212212222221 1212121212 rr1rd2g 64 TÀI LIEU THAM KHAO ccccccccsccscesccssessessessessessessessessessessessessessessesseessseees 65 Đồ án tốt nghiệp LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành tới quý thay, cô và các cán bộ trường Học viện Công nghệ Bưu chính Viễn thông và đặc biệt quý thầy, cô khoa An Toàn Thông Tin Thay, cô đã mang tat cả những kiến thức cùng sự nhiệt huyết của mình truyền đạt cho em những kiến thức quý báu, cùng những kinh nghiệm, kỹ năng sống một cách ân cần, chu đáo nhất Những điều đó là nền tảng vững chắc cho bản thân em thực hiện đồ án tốt nghiệp này và cuộc sống mai sau Em biết ơn sâu sắc tới thầy — PGS TS Hoàng Xuân Dậu, người đã cho em cơ hội làm việc với thay, thay tận tình hướng dẫn và hỗ trợ em rất nhiều trong quá trình thực hiện đồ án tốt nghiệp Và cuối cùng em xin cảm ơn gia đình và bạn bè, đã luôn ủng hộ và hỗ trợ nhiệt tình trong suốt quá trình em học tập tại Học viện Công nghệ Bưu chính Viễn thông, tạo điều kiện cho em có được chỗ dựa tinh thần vững chắc dé hoàn thành đồ án một cách trọn vẹn Em xin chân thành cảm on! Hà Nội, ngày 2 tháng 01 năm 2024 Sinh viên Cấn Ngọc Bình Cần Ngọc Bình — B19DCATO13 Trang 1 Đồ án tốt nghiệp DANH MỤC HÌNH ẢNH Hình 1.1: Mô hình phương pháp Skip-gram -. -.-.¿+.+.+.s*.*+.+s.se.x+.se.ee.rx.ss 15 Hình 1.2: Mô ta quá trình sinh ra các từ xung quanh cua mô hình Skip-gram 16 Hình 1.3: Mô tả mô hình PV-DMM - 6 t k n g H H ư-ệp 18 Hình 1.4 Mô tả mô hình PV-DBOW S .S.H.HH.H.H H.H H.H H.H HệL, 18 Hình 1.5 Các nhóm thuật toán so sánh tương đồng .2.-5 2 s.5-:- 19 Hình 1.6 Kết quả đo lường độ tương đồng văn bản của một số thuật toán 20 Hình 1.7 Tổng quan về các phương pháp so sánh độ 2.-2.-.2 + s-5-221 Hình 2.1 Kiến trúc mô hình Transformet c cscceccesesscesesessessessessesseeesseeesseeeees 27 Hình 2.2 Mô tả quá trình Positional Encoding ‹ s++-ss+s++ses+++2 28 Hình 2.3 Sơ đồ ham Attention trong mô hình Transformer - 2-s-: 29 Hình 2.4 Mô tả quá trình Self-Atf€nfIOH -c-.c.6 + 1 n .-r-e 29 Hình 2.5 Mô tả quá trình tính toán Attention V€cfOT 55.5.5.«+.+.+s.s+.+.s+.2 3l Hình 2.6 Qua trình Multi-head Atfention -.-.5 c.1 3.+ +2.1.1.1.1 x.x-x- 32 Hình 2.7 Sơ đồ quá trình giải mã trong mô hình Transfomer - 33 Hình 2.8 Quá trình pre-train mô hình BERT . 55.+ ++.s*.++.£+.ee.x+.se.xs.sx-z 35 Hình 2.9 Quá trình NSP trong mô hình BERT -.-.5.52.5.5 *+.+.*s.++.*s.e.ee.ss-s 37 Hình 2.10 Sơ đồ quá trình Fine-Tuning mô hình BERT 2-25+-¿ 38 I§0):020000/193010):04U>35)41-YYYaaa 40 Hình 2.12 Quá trình huấn luyện mô hình sử dụng PhoBERT . - 4I Hình 2.13 Quá trình phát hiện tương đồng văn bản -.5 z+-s-+c-z-zs-242 Hình 2.14 Các bai toán thử nghiệm trong mô hình PhoBERT -.-.- 43 Hình 2.15 Hiệu suất (dưới dạng %) trên các mô hình đối với bài toán gán nhãn từ loại (POS tagging) và phân tích phụ thuộc (Dependency parsing) "Acc.", "LAS" và "UAS" lần lượt là viết tắt của Accuracy, Labeled Attachment Score và Unlabeled Attachment SCOTC - - c.1 192.118.951.115.1 1 1.1 11.11 111.n.g n.g rrg44 Hình 2.16 Kết quả thử nghiệm mô hình PhoBERT với bài toán NER và NLI .44 Hình 2.18 Code thu thập dữ liệuHình 2.19 Code thu thập dữ liệu 48 Hình 2.20 Dữ liệu sau khi thu thập .-. .5 5c 3+.S+.E*.++*.EE.Ex.+se.ee.rrr.ee.err.es-es 49 Hình 2.21 Code mô tả quá trình tiền xử lý đữ liệu 2.-2 5.2-s 5-2- 50 Hình 2.22 Dữ liệu sau khi tiền xử lý ¿5-.55.52.2E.2EE.ES.E2E.EE.EEE.EE.Err.re.rkr-ei 51 Cần Ngoc Bình — B19DCATO13 Trang 2 Đồ án tốt nghiệp Hình 3.1 Mô ta quá trình tách từ sử dụng VnCoreNLP -