Các mô hình này đã được huấn luyện với lượng đữ liệukhống 16 làm tăng kha năng hiểu cách biểu diễn từ và ngữ cảnh, từ đó dé dàng nhậndiện thực thể có tên trong văn bản.. e Thử nghiệm hướ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
NGUYEN VIET ANH
KHOA LUAN TOT NGHIEP
HÌNH NGON NGU LON
Named entity recognition based on large language models
CU NHAN NGANH CONG NGHE THONG TIN
TP HO CHÍ MINH, 2024
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN
NGUYEN VIỆT ANH - 19521204
KHÓA LUẬN TÓT NGHIỆP
NHAN DẠNG THUC THẺ CÓ TÊN DỰA TREN MÔ
HÌNH NGÔN NGỮ LỚN
Named entity recognition based on large language models
CU NHAN NGANH CONG NGHE THONG TIN
GIANG VIEN HUONG DAN
PGS.TS NGUYEN LUU THUY NGAN
ThS DANG VAN THIN
TP HO CHÍ MINH, 2024
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số TI8ẦY của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Với tất cả lòng kính trọng và biết ơn, sinh viên gửi lời tri ân đến người Thầy đãhướng dẫn sinh viên trong quá trình thực hiện Khóa luận tốt nghiệp này: ThầyĐặng Văn Thìn, đến từ Phong Thí nghiệm Truyền thông Da phương tiện (PTNTTĐPT) đã đồng hành với sinh viên trong quá trình thực hiện khóa luận; Cô
Nguyễn Lưu Thùy Ngân, Phó Giáo sư — Tiến sĩ tại Đại hoc Công nghệ thông tin,
đã truyền cảm hứng và hỗ trợ sinh viên trong các nghiên cứu về nhận diện thựcthé có tên; và tất cả các Thầy Cô đã giúp đỡ sinh viên trong suốt quá trình học tập
và làm việc tại Trường Đại học Công nghệ Thông tin.
Bên cạnh đó, sinh viên gửi lời cảm ơn đặc biệt đến khoa Khoa học và Kỹ thuậtThông tin, và PTN TTĐPT đã tạo điều kiện và cung cấp một môi trường làm việc
phù hợp để sinh viên thực hiện đề tài này
Sinh viên cũng không quên gửi lời cảm ơn đến bạn bè, đặc biệt là các bạn sinhviên mà sinh viên có cơ hội gặp gỡ và làm việc tại PTN TTĐPT, cũng như tất cả
mọi người, dù cách này hay cách khác, đã đồng hành với sinh viên trong suốt
quãng thời gian vừa qua.
Cuôi cùng, sinh viên xin gửi lời cảm ơn đên gia đình, đã nuôi dưỡng và luôn luôn ủng hộ sinh viên băng tình yêu thương đê sinh viên trưởng thành và phát triên trên con đường mà sinh viên đã chọn, cụ thê hóa băng luận văn mà sinh viên đã hoàn thành hôm nay.
Sinh viên
Nguyễn Việt Anh
Trang 5MỤC LỤC
Chương 1 TONG QUAN - 2-52 SE E2 2E12112112112112112112112111121 111 te 3
1.1 - Giới thiệu để tài 25: 5c 21 2 22221 2112212712121 errrree 3
1.1.1 - Đặt vẫn đề c 2k 2t H222 ke 31.1.2 Cac công trình liên quañ - + Sc + Sxk*ESEESSkErkrrsrrsrerxee 5
1.1.2.1 Công trình nước ngoOàải - - 52c St Ssskrsrrrrrerrrrrrke 5 1.1.2.2 Công trình trong nue + Sc S+S*+sissrererreree 6 1.1.3 Mục tiêu nghiên CỨU - c1 2c 1221112111 1111 11181118111 rệt 71.1.4 Phạm vi, đối tượng nghiên Cứu 2 s+2+£+Ez+£x+£E++Exerxerreerxees 71.2 Cu trúc khóa luận tốt nghiệp - 2-2 2 £+EE+E2E+E2EE2ErErrervee 12Chương 2 KIÊN THỨC NÊN TẢNG -2-©22+2<+2E+2E2EE+EECEEEerkerkerrkerxee 13
2.1 Xử lý ngôn ngữ tự nhiÊn c2 3211121113 1191511511 Eerkre 13
2.1.1 Khái ni m.ưac ve ớ Í 4 13
2.1.2 Cacia toan,., ST đ€Ố“ 14
2.1.3 Ung dụng Ă 5 ST HE HH 1212111 ray 15
2.2 Nhận dạng thực thé CO tÊN is tt E1 E911 E151115151111517111111151Ee1xEcE 16
2.2.1 Khái niệm 2: 5c 22221221 2122122121122 11c rcrk 16 2.2.2 Các kỹ thudt occ eeccccccccsccssessessessesssessessessessessssssessessuessessesssesseeseeeseess 18
2.2.3 Ứng durngeeeccecccccceccsccccsssssessessesssessessssssessesssessessusssessesssessessnsasessesasesseess 20
Chương 3 _ PHƯƠNG PHAP, KET QUA VÀ ĐÁNH GIA - 23
3.1 Mô hình BERT 2: 5¿+2<+EES2E2E12212112717121121111121111 21 Ecxe 24
3.1.1 Tổng quan -5E2E+2EEEEE2E1271211221271211211 2121 re 243.1.2 Thiết lập c- tt TT E1 11211 2112112112101 re 263.1.3 Kết quả, đánh giá c-Ss TT E212, 27
Trang 63.1.3.1 BO PhoNER_COVIDI9 cấp độ tiếng - 2 2©cz+cz2cce: 273.1.3.2 BO PhoNER_COVIDI9 cấp độ từ ©22- cccccsrxsrxerres 30
3.2 Mô hình ngôn ngữ lớn ¿- 2¿+¿+2++2EE+2EE+EEEE2EE22E227122712221 222 zrxe+ 32
3.2.1 Tổng quan - k+Eke kề EEEE1E1121121121121111121121121 211 c0 323.2.2 Thiết lập 2k 2k2 2 112212211211211211211 1.1 re 333.2.3 Kết quả đánh giá c-csc TETE E1121121121121211 1e 383.3 Split-NER 22H HH H122 errerre Al
3.3.1 Tổng quan oeccecceccecccccssessessessessessessessessessessessessessessessessessessssssaseaeaseavens 413.3.2 Thiết ap veccecceccececcccccscescesecsessessessessessessessessessessessessessessesssssssseaeseeasees 42
6.1 Kết Quan occ ceccccecccccesssssessssessecssesssesssessusssssssusssesssesssecsuessuessussssessesesesssecsses 61
6.2 Hạn chế 22.2 t2 111111215111151111111111111111111111111111 E11 xe 62
Trang 7DANH MỤC HÌNH
Hình 1 Ví dụ về bộ dữ liệu PhoNER_COVID10 2 2¿22++2x+£xz+zxezxzrxrrxee 11 Hình 2 Một vi du về cuộc trò chuyện với ELIZA - - ¿+ +c+*+sseessereeeres 13 Hình 3 So sánh cau trúc mô hình BERT của Google AI . -z- s52 24 Hình 4 Sơ đồ mô hình BERT cho NER 2: 2¿©<2x+2££2EE+£E++EzExezxzzzxerxee 25 Hình 5 mô phỏng đầu vào của mô hình BERT [25] - 2 2 z+sz+sz+sz+s++2 27 Hình 6 Kết quả F1-micro, F1-macro va mat mát của giai đoạn phát triển với mỗi
epoch trên cấp độ tiẾng -:- 2 2 ©£+SE9EE2E12E12E12E1211211221211211211211211211 21.1 xe, 27 Hình 7 Biéu diễn sự mat mát của mô hình PhoBERT-large trong huấn luyện va
đánh giá qua từng ©pOCHh «+ + x11 vn HH Hà Hà Hà Hà HH HT TT 29 Hình 8 Kết quả Fl-micro, F1-macro và mat mát của giai đoạn phát triển với mỗi
epoch trên cấp độ tỪ -¿- s52 cc 2121111111112112112112 1211211211111 211 111.11 30
Hình 9 Ví dụ về lỗi có thé xảy ra trong quá trình mã hóa .: 5¿ 5255522 35 Hình 10 Sơ đồ minh hoa các module -:+¿+22v+++trEtxvrrrrrrrerrrrrrrkrrrree 36
Hình 11 Mô phỏng ba giai đoạn trong cuộc thi học thuật SOMD 2024 [35] 42
Hình 12 Mô phỏng hệ thống Split-NER cho bài toán PhoNER_COVIDI9 43
Hình 13 Bảng giải thích các nhãn lỗi - 5:52 S2 SE+E£E£E‡E£E2EeEerxrxerrxzrrrs 48 Hình 14 Thống kê lỗi của mô hình XLM-R-base trên bộ dữ liệu tiếng ¬ 49 Hình 15 Thống kê lỗi trên mô hình Bloomz-7b với bộ dit liệu tiếng 52
Hình 16 Bang thống kê nhãn lỗi của XLM-R trên bộ dit liệu từ . - 54
Hình 17 Thống kê nhãn lỗi của mô hình Bloomz-7b trên bộ dữ liệu từ 54
Hình 18 Thống kê lỗi của XLM-R-base của giai đoạn 1 trên bộ dit liệu tiéng 55
Hình 19 Thống kê lỗi của giai đoạn hai trên bộ dữ liệu tiếng - 56 Hình 20 Thống kê lỗi của giai đoạn hai trên bộ dữ liệu từ -. 2-2-2: 56
Hình 21 Hình ảnh giao diện của Ứng dụng - cty 58 Hình 22 Tao Space với IÖOCK€T - ¿2 22c 33211831119 E851 Exre 59 Hình 23 Giao diện ứng dụng trên huggingface Space ¿5c sScssssssrssxes 60
Trang 8DANH MỤC BANG
Bang 1-1 Hướng dẫn gan nhãn . 2-2-2 £+E9SE+E££E£EE£E£EEEEEEEEEEEEEEEEEEEErkerkrei 8Bang 1-2 Thống kê nhãn trong bộ dit liệu PhoNER_COVIDI9 . -2¿ 9Bảng 2-1 Ví dụ về định dang CoNLLL - 2-2: ©222S£+2E£2EE£2EE£2EE£2EEzzxrzrxerrree 17Bang 3-1 Bảng kết quả mô hình XLM-R của sinh viên và tác giả bộ dit liệu
'0)15)00969409ãE5077577 28
Bang 3-2 Kết quả F1 của các biến thể BERT trên tập test của cấp độ tiếng 28Bảng 3-3 Kết quả PhoBERT của sinh viên và của tác giả PhoNERCOVIDI9 [31]30Bảng 3-4 Kết quả của các biến thé BERT trên bộ dit liệu từ -:- 31Bảng 3-5 Lời nhắc cho tác vụ nhận điện thực thé cho bộ PhoNER_COVID19 33Bang 3-6 Các thiết lập LORA - 2-52 Sc S129 12 12E121121121121121121121121111 21.111 37
Bảng 3-7 Thiết lập siêu tham $6 cc ccccsssessssssessesssesseessessecsesssessesssessessecssessecsseaseeees 37
Bảng 3-8 So sánh sơ bộ các mô hình ngôn ngữ lớn trong khóa luận tốt nghiệp .38Bảng 3-9 Kết quả của mô hình mô hình ngôn ngữ lớn trên bộ tiếng - 39Bảng 3-10 Kết quả của các mô hình ngôn ngữ lớn trên bộ từ . . - 40Bang 3-11 Kết quả phát hiện thực thê - 2: 2-52 8+S£2EE2EE2EE2EE2EE2EE2EEzEErrerreee 44Bảng 3-12 Kết quả zero shot của Bloomz 7b] trên bộ dit liệu tiếng - 44 Bảng 3-13 Kết quả zero shot của mô hình Bloomz-7b1 trên bộ dữ liệu từ 45Bảng 3-14 Kết quả cả hai giai đoạn trên bộ dit liệu tiếng -2- 2-2 25z+s+ 46Bang 3-15 Kết quả của hai giai đoạn với bộ dit liệu từ ¿2 z+5zccc: 47
Bảng 4-1 Ví dụ sự lỗi vị trí của mô hình XLM-R-base trong dự đoán LOC 49
Bang 4-2 Nhằm lẫn nhãn LOC và ORG của XLM-R-base trên bộ đữ liệu tiếng 50Bang 4-3 Nhằm lẫn giữa các thực thể AGE, PAT và DA TE -. :- 552 51 Bảng 4-4 Ví dụ lỗi Sai vị trí của mô hình Bloomz-7b trên bộ dữ liệu tiếng 52
Bảng 4-5 Ví dụ các mã lỗi sai vị tri của SYM với mô hình Bloomz 53
Bang 4-6 Một số ví dụ bị bỏ lỡ ¿- ¿525222 EE2E12E121121121121121121121 11.11 1ee 55Bang 4-7 Mot số ví dụ về dự đoán nhằm lẫn nhãn . -¿- - 2+2 +EE+E+EeExzEezs 57
Trang 9DANH MỤC TU VIET TAT
Từ viết tắt | Tiếng Anh Nghĩa tiếng Việt
NER Named-Entity Recognition Nhận dạng thực thê có tên
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
BERT Bidirectional Encoder Biéu diễn thé hiện mã hóa hai
Representations from Transformers | chiều từ Transformer
GPT Generative Pre-trained Transformers | Transformer tạo sinh đã huấn
luyện LLM Large Language Models Mô hình ngôn ngữ lon
LoRA Low-Rank Adaptation
QLoRA Quantized Low-Ranking Adaptation
PEFT Parameter Efficient Fine Tuning Tinh chỉnh thông số hiệu quaHMM Hidden Markov Model Mô hình Markov ân
CRF Conditional Random Fields Trường ngẫu nhiên có điều
kiệnRNN Recurrent Neural Network Mang nơ-ron hồi quy
CNN Convolutional Neural Network Mang no-ron tich chap
POS Part-of-Speech Từ loại
mBERT Bert-base-multilingual-cased Mô hình mBERT
XLM-R XLM-RoBERTa Mô hình XLM-R
MTF Multitask Prompted Finetuning
CONLL Conference on Natural Language
Learning
Trang 10POS Part-of-Speech Tagging Phân tích từ loại
SA Sentiment Analysis Phan tich tinh cam
MLP Multilayer Perceptron mang no ron nhân tạo
Trang 11TÓM TẮT KHÓA LUẬN
Nhận diện thực thé có tên (NER) là một nhiệm vụ rất quan trọng trong lĩnh vực xử lýngôn ngữ tự nhiên (NLP) Mục tiêu của NER là xác định và phân loại các thực thể cótên (tên người, địa điểm, tổ chức, thời gian, số lượng, ) trong văn bản để hỗ trợ cácnhiệm vụ khác Ví dụ, trong câu "Nguyễn Việt Anh sinh ra ở TP Hồ Chí Minh, ViệtNam", NER sẽ xác định "Nguyễn Việt Anh" là tên người, "TP Hồ Chí Minh" là địađiểm và "Việt Nam" là địa điểm
Nghiên cứu nhiệm vụ NER gần đây đã có nhiều tiến bộ vượt trội nhờ các mô hìnhBiểu diễn thể hiện mã hóa hai chiều từ Transformer (BERT) hay Transformer tạosinh đã huấn luyện (GPT) Các mô hình này đã được huấn luyện với lượng đữ liệukhống 16 làm tăng kha năng hiểu cách biểu diễn từ và ngữ cảnh, từ đó dé dàng nhậndiện thực thể có tên trong văn bản
Bên cạnh có những tiến bộ, vẫn còn những khó khăn và thách thức trong nhiệm vụnhận diện thực thể như ngữ nghĩa mơ hồ hay sự phức tạp của thực thể Ví dụ nhưtrong thực thé tổ chức (ORGANIZATION) "Đại học Quốc gia Hà Nội" có chứa thựcthé địa điểm (LOCATION) "Hà Nội " Hay một số thực thể có ranh giới không rõràng như trong câu "Tôi thích ăn phở cuốn ở quán gan nhà", ở đây không rõ "quángần nhà" là một thực thé địa điểm hay chỉ là một cách diễn đạt chung chung Đặc biệtnhất vẫn là thiếu dữ liệu có nhãn Đối với các ngôn ngữ ít phổ biến, việc xây dựng
tập dir liệu chất lượng cao cho NER là một quá trình tốn kém và mất thời gian, đòi
hỏi có sự tham gia của các chuyên gia ngôn ngữ hoặc các chuyên gia trong các lĩnh
vực.
Trong đề tài này tập chung vào nghiên cứu phương pháp sử dụng mô hình ngôn ngữlớn để giải quyết bài toán NER Hơn nữa, khóa luận cũng đề xuất hướng giải quyếttrong trường hợp đặc thù ít dé liệu huấn luyện của nhiệm vụ NER Cụ thé, đóng góp
của khóa luận này như sau:
e Nghiên cứu, đề xuất mô hình BERT hay các biến thé của mô hình BERT cho
các bài toán NER.
Trang 12e Nghiên cứu, đề xuất mô hình ngôn ngữ lớn cho các bài toán NER bằng cách
điều chỉnh lời nhắc (Prompt) và fine-tuning mô hình ngôn ngữ lớn với kỹ thuật
Low-Rank Adaptation (LoRA), Quantized Low-Ranking Adaptation(QLoRA) va Parameter Efficient Fine Tuning (PEFT) để tiếp cận mô hìnhngôn ngữ lớn với nguồn tài nguyên thấp
e Thử nghiệm hướng tiếp cận phương pháp Split-NER cho các bài toán NER
nhằm đơn giản hóa nhiệm vụ NER bằng cách chia bài toán thành hai giai đoạnđộc lập gồm: Xác định vị trí thực thể và phân loại thực thể dựa trên mô hìnhngôn ngữ lớn với phương pháp zero shot từ đó tối ưu thời gian huấn luyện các
mô hình.
Sinh viên tiến hành thực nghiệm đánh giá độ chính xác bằng thang đo F1 trên tập ditliệu PhoNER_COVIDI9.
Trang 13Chương 1 TONG QUAN
1.1 Giới thiệu đề tài
Trong kỷ nguyên thông tin bùng nỗ, dữ liệu văn ban trở thành một kho tang vô giá,
chứa đựng những hiểu biết sâu sắc về thế giới xung quanh Tuy nhiên, phần lớn dữliệu này tồn tại dưới dạng phi cấu trúc, gây khó khăn cho việc phân tích và khai thác
triệt dé, đây chính là lúc nhiệm vụ NER thé hiện vai trò quan trọng của mình NER
là một nhánh của lĩnh vực NLP, tập trung vào việc xác định và phân loại các thực thể
có tên trong văn bản Các thực thé này có thể là tên người, địa danh, tổ chức, ngàytháng, sản phẩm, hoặc bat kỳ khái niệm nao có ý nghĩa cụ thể.
Ví dụ về bài toán NER:
Đầu vào: “Emily lives in United States”
Đầu ra: “B-PERSON O O B-LOCATION I-LOCATION”
Trong ví dụ trên, ta có thể thấy, NER giúp chúng ta nhận biết được Emily là tênngười (PERSON) và “United States” được gan là địa điểm (LOCATION) Các nhiệm
vu NER thường được sử dụng các cấu trúc khác nhau nhằm bổ xung thông tin, mốiquan hệ của từng từ trong thực thé Như “United” là ‘B-LOCATION?” thé hiện đây làbắt đầu (Begin hay B) của nhãn địa điểm và “States” là từ bên trong thực thé (Insidehay I), các từ còn lại gan nhãn “O” là bên ngoài thực thé (Outside) nghĩa là khôngthuộc trong nhóm thực thê liên quan Ngoài ra còn có các nhãn khác như “E” (End)chỉ kết thúc thực thé, “S” (Single) chỉ thực thể don, Tùy vào độ phức tạp của thực
thé mà có sự phân chia nhãn cụ thé hơn nhằm biểu thị rõ mối quan hệ của từ trong
thực thé, hay mối quan hệ của thực thé trong béi canh do.
Trang 14Vấn đề đầu tiên nhất của NER là sự mơ hồ của các thực thể Sự mơ hồ của thực thể
bị ảnh hưởng bởi ngữ cảnh của nó trong đoạn văn Ví dụ, “Apple” có thể hiểu đó làtên một công ty hoặc đó là tên của loài trái cây dựa vào ngữ cảnh mà nó được đề cậptrong văn bản Tiếp đến, sự mơ hồ của thực thể còn là sự khó khăn trong việc xácđịnh chính xác ranh giới thực thé, đặc biệt là với các thực thé phức tạp như địa chỉhoặc tên tổ chức Như trong câu “Tôi thích quán ăn gần nhà tôi” và cụm từ “gần nhàtôi” liệu đó là nói đến quán ăn có địa điểm gần nhà hay là cách nói chung chung nhằmthê hiện sự thích thú với các quán ăn gân nhà.
Van đề thứ hai khi đối mặt với bài toán NER là sự đa dạng và biến đổi của ngônngữ Thường gặp nhất là biến thé về chính tả, các tên riêng, tên địa danh hay tên tổ
chức thường có nhiều cách viết khác nhau như tên đầy đủ, tên viết tắt, tên gọi cũ, biệt
danh hay là các lỗi chính tả trong khi nhập liệu Ví dụ như “Thành phô Hồ Chi Minh”,trong nhiều trường hợp nó được viết tắt thành “TP Hồ Chí Minh” hay “TP HCM”hay gọi ngắn gọn là “Hồ Chí Minh”, “HCM”; bên cạnh đó còn có tên gọi cũ như ““SàiGòn” Nhất là trong các bình luận trên mạng xã hội nói riêng hay các văn bản khôngchính thống nói riêng, việc sử dụng tiếng lóng, từ viết tắt và các từ mới xuất hiệnkhiến cho việc nhận dạng thực thể trở lên khó khăn hơn Ngoài ra, còn ảnh hưởng bởimiền dữ liệu như từ “BA” là từ viết tắt phô biến của từ “Business Analyst”, tuy nhiên
nó còn thê hiện các từ khác như “Bachelor of Arts” đề cập tới học vị nghề nghiệp hay
“British Airways” tên một hãng máy bay của Mỹ,
Van đề thứ ba là việc thiếu dữ liệu huấn luyện chất lượng cao làm hạn chế hiệu suấtcủa các mô hình NER, đặc biệt với các miền hẹp, các ngôn ngữ ít phổ biến hoặc liênquan tới van đề về quyền riêng tư Dé tạo ra các bộ dữ liệu huấn luyện chất lượng caođòi hỏi rất nhiều công sức và thời gian, không những vậy mà yêu cầu có chuyên gia
có chuyên môn trong lĩnh vực đó như y tế, luật pháp, Để có thể tạo ra bộ dữ liệulớn, còn yêu cầu cần nhiều chi phí dé thuê người gan nhãn, nhưng vẫn phải đảm bảotính nhất quán trong việc gan nhãn, tránh nhằm lẫn
Trang 15Van đê thứ tư là vân dé vê hiệu suat của mô hình Việc cân băng hiệu suat g1ữa toc
độ và độ chính xác của mô hình cũng là điêu đáng quan tâm Khi mà các mô hình có
độ chính xác cao thì lại hạn chê vê mặt tôc độ, ngược lại các mô hình có độ chính xácchưa cao bằng thì lại mang tốc độ huấn luyện nhanh
1.1.2 Các công trình liên quan
1.1.2.1 Công trình nước ngoài
Vào năm 2018, dé giải quyết sự đa nghĩa của từ trong các bài toán, Peters và cộng sự
đã đề xuất sử dụng mô hình Embeddings from Language Models [1] (Elmo) Mô hìnhnay là một mô hình nhúng từ ngữ mạnh mẽ hơn phương pháp nhúng từ truyền thống
(như Word2Vec hay GloVe) Vì Elmo tạo ra vector dựa trên ngữ cảnh trong câu mà
từ đó xuất hiện Cấu trúc Elmo được xây dựng trên kiến trúc BiLSTM, nhằm tìm ramối quan hệ của từ thông qua hai lớp LSTM Tác giả Siniosoglou sử dụng CRF, Elmo
và LSTM trong việc nhận diện thực thé nâng cao dé bảo vệ quyền riêng tư và thayrằng Elmo và LSTM đạt hiệu quả cao hon so với CRF [2] Một số nghiên cứu khác
sử dụng phương pháp học máy mới dé liên kết thực thé với Wikipedia [3] [4], sửdụng các đặc trưng ngữ cảnh đa dạng và một mô hình phân loại để xác định thực thểWikipedia phù hợp nhất cho một cum từ dé cập trong văn bản Mặc dù mang lại hiệusuất vượt trội hơn các phương pháp trước đó trên các bộ dữ liệu chuẩn nhờ vào khả
năng khái quát hóa của Wikipedia Nhưng phương pháp nay quá phụ thuộc vào
Wikipedia, khi mà liên kết thực thể với nguồn tri thức khác rất khó khăn hay các ngônngữ không có nguồn Wikipedia phong phú, đa dạng Năm 2009, Ratinov và Rothcũng đã sử dụng nguồn tri thức bên ngoài dé giải quyết sự mơ hồ của thực thé [5].Việc tận dụng các cơ sở tri thức bên ngoài (như Wikipedia, các co sở dir liệu báchkhoa, hoặc các tài nguyên ngôn ngữ khác) cung cấp một lượng lớn thông tin có thểgiúp hệ thống NER giải quyết sự mơ hồ Những cơ sở dit liệu này cung cấp bối cảnh
bổ sung và thông tin chỉ tiết giúp hệ thống xác định chính xác các thực thê Tiếp theo
đó, Hoffart và cộng sự đã đề xuất đồ thị ngữ nghĩa nhăm giải quyết sự mơ hồ của ngữnghĩa [6] Phương pháp này không chỉ giải quyết mà còn hạn chế sự mơ hồ băng cách
Trang 16sử dụng một lượng lớn thông tin ngữ cảnh và các liên kết giữa các thực thể Đồ thịngữ nghĩa giúp hệ thống có cái nhìn toàn diện về mối quan hệ giữa các thực thé, từ
đó giảm thiểu khả năng nhằm lẫn Tuy nhiên dé xây dựng và duy trì đồ thị ngữ nghĩađòi hỏi tài nguyên tính toán lớn, đặc biệt trong khi xử lý văn bản ở mức độ tài liệu.Bên cạnh đó, mang lại thách thức về nguồn dữ liệu chất lượng cao dé xay dung cac
đồ thi tri thức
1.1.2.2 Công trình trong nước
Các mô hình ngôn ngữ tiếng Anh đã chứng tỏ hiệu quả đáng ké khi được áp dụng cho
bài toán nhận diện thực thể tiếng Việt Cụ thé, các kiến trúc như BiLSTM và BiLSTM
CNN CRF đã đạt được kết quả ấn tượng trên tập dir liệu VLSP2016 [7] Đặc biệt,PhoBERT [8], một mô hình được tinh chỉnh từ RoBERTa [9], đã thiết lập một tiêuchuẩn mới về hiệu suất Với điểm số F1 đạt 93.6% (PhoBERT base) và 94.7%(PhoBERT large) trên tập VLSP2016, PhoBERT đã vượt trội so với các mô hình tiền
nhiệm như BiLSTM CNN CRF, VnCoreNLP-NER [10] và VNER [11].
Sự thành công của PhoBERT cho thấy tiềm năng to lớn của việc chuyên giao kiếnthức từ các mô hình ngôn ngữ tiếng Anh sang tiếng Việt Việc tinh chỉnh một môhình đã được huấn luyện trước trên một lượng lớn dir liệu tiếng Anh có thể giúp tậndụng các biểu dién ngôn ngữ phong phú và kiến thức ngữ nghĩa đã được học, từ đó
cải thiện đáng kê hiệu suat trên các tác vụ tiéng Việt.
Ngoài PhoBERT, một nghiên cứu khác của Oanh và cộng sự đã chứng minh rằngvELECTRA [12], một biến thé của ELECTRA, cũng mang lại những cải tiến đáng
kể so với viBERT và mBERT trên cả hai tập dữ liệu VLSP2016 và VLSP2018 Thậmchí, VELECTRA còn đạt điểm F1 nhinh hơn một chút so với PhoBERT base Điềunay cho thấy răng việc áp dụng các kỹ thuật học biéu diễn tự giám sát tiên tiến, nhưcách tiếp cận của ELECTRA, có thé là một hướng đi đầy hứa hen dé nâng cao hơnnữa hiệu suât của các mô hình nhận diện thực thê tiêng Việt.
Trang 17Tóm lại, những kết quả này cho thấy sự phát triển nhanh chóng và đầy tiềm năng củalĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt Việc áp dụng các kiến trúc và kỹ thuậthọc chuyên giao từ các mô hình ngôn ngữ tiếng Anh đã mang lại những bước tiếnđáng kẻ Tuy nhiên, vẫn còn nhiều cơ hội để khám phá và cải tiễn, đặc biệt là trongviệc phát triển các mô hình chuyên biệt cho tiếng Việt và tận dụng các nguồn đữ liệu
đa dạng và phong phú của ngôn ngữ này.
1.1.3 Mục tiêu nghiên cứu
Trong khóa luận tốt nghiệp này, sinh viên đặt ra các mục tiêu nghiên cứu sau:
e Khao sát các phương pháp tiếp cận truyền thống và hiện đại trong NER, bao
gồm các kỹ thuật dựa trên quy tắc, mô hình thống kê như: Hidden Markov
Model (HMM), Conditional Random Fields (CRF), các mô hình học sâu
như: BERT, mạng nơ-ron tích chập (CNN), mạng nơ-ron hồi quy (RNN) kếthợp với BERT và đặc biệt nhất là LLM.
e Tiến hành tinh chỉnh (fine-tuning) các mô hình ngôn ngữ BERT và các biến
thể của nó trên tập đữ liệu tiếng Việt
e_ Tiến hành tinh chỉnh mô hình ngôn ngữ lớn (LLM) áp dung các kỹ thuật
QLoRA, LoRA và PEFT dé tinh chỉnh trong việc giải quyết bài toán NERtiếng Việt với tài nguyên thấp
e Thử nghiệm phương pháp Split-NER, bang cách kết hợp mô hình
XLM-R-base ở giai đoạn một với mô hình ngôn ngữ Bloomz-7b1 sử dụng phương
pháp zero shot ở giai đoạn hai nhằm tăng tốc độ huấn luyện
e Đánh giá hiệu suất của các phương pháp và mô hình được thử nghiệm trên
các tập dữ liệu sử dụng độ đo F1.
1.1.4 Pham vi, đối tượng nghiên cứu
Trong đề tài này, tập trung nghiên cứu trên bộ dữ liệu PhoNER_COVIDI9 củaVịnAIResearch.
Trang 18Vào thời điểm năm 2021, dịch bệnh COVID-19 đã và đang hoành hành khắp thế giớivới hơn 50 triệu ca nhiễm bệnh Bệnh dịch đã mang đến bao mắt mát từ kinh tế, xãhội nói chung hay sức khỏe, tỉnh thần của mỗi cá nhân nói riêng Để có thể phòngchống bệnh dịch COVID-19, cần phải tìm ra được các nơi người bệnh đi qua, nhữngngười đã tiếp xúc với người bệnh, Tại thời điểm đó, các bộ đữ liệu cho COVID-19hầu hết có trên ngôn ngữ tiếng Anh, tác giả Thịnh và các cộng sự đã xây dựng bộ dữliệu nhận diện thực thé COVID-19 — PhoNER_COVID19, nhằm hỗ trợ nghiên cứucác công cụ tìm kiếm, trích xuất đữ liệu liên quan tới bệnh dịch đề hỗ trợ phòng chốnglại dịch bệnh COVID-19 ở Việt Nam.
Bộ dữ liệu được lay từ các bài báo trực tuyến có các từ khóa như “COVID-19” hoặc
“COVID” ở Việt Nam từ các nguồn như VnExpress, ZingNews, BaoMoi vàThanhNien Thời gian các bài báo được viết từ tháng 2 năm 2020 đến tháng 8 năm
2020.
Bảng 1-1 Hướng dan gan nhãn.
Nhãn Định nghĩa
PATIENT_ID Mã định danh cua bệnh nhân COVID-19 tại Việt
Nam PATIENT ID được gan nhãn trên X, với y nghĩa bệnh nhân thứ X mặc COVID-19 tại Việt
Trang 19LOCATION Địa điểm mà bệnh nhân đã từng đến.
ORGANIZATION Các tô chức liên quan đến bệnh nhân, ví dụ: công
ty, tô chức chính phủ hoặc tương tự, có cấu trúc
và chức năng riêng.
SYMPTOM_AND DISEASE Các triệu chứng mà bệnh nhân gặp phải và các
bệnh mà bệnh nhân mắc phải trước khi mắc bệnhCOVID-19 hoặc các biến chứng thường xuấthiện trong báo cáo tử vong.
TRANSPORTATION Phương tiện vận chuyền mà bệnh nhân sử dụng.
Chỉ gắn thẻ số nhận dạng cụ thể của phương tiện,
ví dụ: sô chuyên bay và biên sô xe buýt/ô tô.
DATE Bắt kỳ ngày nào xuất hiện trong câu
Bộ dit liệu gồm 2 cấp độ: có tách từ (bộ dữ liệu từ) và không có tách từ (bộ dữ liệutiếng) Bộ đữ liệu từ được phân từ công cụ RDRSegmenter từ VnCoreNLP Tác giả
còn sử dụng công cụ BM25Plus nhằm hỗ trợ việc gán nhãn hiệu quả hơn trong quá
33 66
trình gán nhãn cho các từ phô biến như “các trường hợp đã được xác nhận”, “nghi
ngờ”, “đã hồi phục” hoặc “tử vong” cũng như “lịch sử du lịch” hoặc “vi trí của các
trường hợp” Sau khi gán nhãn xong, Thịnh và các cộng sự đã thu được bộ đữ liệugồm 10 nhãn được định nghĩa qua Bang 1-1 Và số lượng nhãn được thống kê như
sau:
Bảng 1-2 Thống kê nhãn trong bộ dữ liệu PhoNER_COVID19.
NHÂN HUẦN PHÁT KIEM TONG
LUYỆN TRIÊN TRA CỘNG
PATIENT ID 3240 1276 2005 6521
NAME 349 188 318 855
AGE 682 361 582 1625
Trang 20Dữ liệu được lưu với định dang Conference on Natural Language Learning (CONLL)
theo dang cột với đuôi “.coll” hoặc dang bảng ghi trong tệp json, mỗi từ cách nhau
một khoảng trắng và nhãn được gán dựa trên định dạng Inside-Outside-Begin (IOB)
Trong đề tài nghiên cứu này sử dụng tệp có định dạng json
Đâu vào: Một văn bản.
Đầu ra: Thực thê và nhãn thực thê tương ứng
10
Trang 221.2 Cấu trúc khóa luận tốt nghiệp
Cấu trúc khóa luận tốt nghiệp của đề tài nghiên cứu gồm các nội dung như sau:
Chương 1: TÔNG QUAN
Trong chương này sinh viên giới thiệu về NER, các vấn đề trong NER từ đó khảo sát
các công trình liên quan trong và ngoài nước Nêu rõ mục tiêu của đê tài nghiên cứu
và đối tượng nghiên cứu và cau trúc khóa luận
Chương 2: KIÊN THỨC NEN TANG
Giới thiệu sơ lược qua về NLP, từ đó cho thấy tầm quan trọng của nhiệm vụ NER
trong NLP Tiếp theo nêu rõ khái nệm NER, tổng hợp các kỹ thuật được áp dụngtrong NER và ứng dụng của NER.
Chương 3: PHƯƠNG PHÁP, KÉT QUẢ VÀ ĐÁNH GIÁ
Sơ lược về các mô hình BERT, cách thiết lập các biến thê của BERT và kết quả trên
bộ dit liệu PhoNER_COVIDI9 với Độ đo FI Tiếp theo là sơ lược về Split-NER,cách thiết lập mô hình và kết quả trên bộ dit liệu PhoNER_COVIDI9 với độ đo FI.Cuối cùng là sơ lược qua về các mô hình ngôn ngữ lớn, các thiết lập và kết quả trên
bộ dữ liệu PhoNER_COVIDI9 với độ đo F1.
Chương 4: PHAN TÍCH LOI
Chương nay phân tích các kết qua thu được ở Chương 3 từ dé so sánh, đánh giá hiệuqua của các mô hình dé đề xuất mô hình tốt nhất
Chương 5: XÂY DỰNG ỨNG DỤNG
Sử dụng các mô hình đã có được từ Chương 3 xây dựng một ứng dụng dé minh họacác kết quả của khóa luận tốt nghiệp
Chương 6: KET LUẬN VÀ HƯỚNG PHÁT TRIÊN
Chương này nói về kết quả thu được của khóa luận tốt nghiệp, các hạn chế từ đó đề
ra hướng phát triển trong tương lai
12
Trang 23Chương2 KIÊN THỨC NEN TANG
2.1 Xử lý ngôn ngữ tự nhiên
2.1.1 Khái niệm
Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực của trí tuệ nhân tạo (AI) Lĩnh vựcnày tập trung vào việc dé cho máy tính có thể hiểu được con người thông nghiên cứu
và phát triển các thuật toán, mô hình và từ đó ứng dụng vào thực tế dé diễn giải ngôn
ngữ và tạo ra ngôn ngữ tự nhiên như con người Nói đơn giản hơn, NLP giúp cho
máy tính có khả năng giao tiếp với con người một cách tự nhiên nhất thông qua vănbản hoặc giọng nói.
O giai đoạn sơ khai của lĩnh vực này, các nhà nghiên cứu đã cô găng tập trung nghiên
cứu vào dịch máy nhăm tạo ra cầu nối giữa hai ngôn ngữ khác nhau Nhưng các nỗ
lực này gặp nhiêu khó khăn vì sự phức tạp của các ngôn ngữ tự nhiên Tuy nhiên, sự
ra đời của là một chương trình đáng chú ý khi mà mô phỏng một nhà trị liệu tâm lý.
Hình 2 Một ví dụ về cuộc trò chuyện với ELIZA.!
Giai đoạn tiếp theo, các nhà nghiên cứu chuyền sang sử dụng quy tắc ngôn ngữ học
dé phát triển hệ thống NLP Các hệ thống này dựa trên quy tắc ngữ pháp và từ vựng
dé phân tích và hiểu ngôn ngữ Hệ thống này van rất khó dé thực hiện vì các quy tắckhông thể bao quát được các trường hợp có thê xảy ra
! A conversation with the ELIZA chatbot Nguồn: https://en.wikipedia.org/wiki/ELIZA
13
Trang 24Với sự phát triển của toán học, thuật toán và khả năng xử lý dữ liệu lớn Các nhànghiên cứu đã sử dụng các mô hình thống kê, học máy đề học và tìm ra các quy luậtcủa ngôn ngữ Tuy nhiên, vẫn chưa thê giải quyết được các từ có ý nghĩa phức tạpnhư đa nghĩa hoặc nghĩa bóng.
Tới nay, các mô hình học sâu đã và đang ngày càng đạt nhiều thành tựu lớn trong lĩnh
vực NLP Các mô hình này có khả năng biểu diễn sự phức tạp của ngôn ngữ từ dữliệu thô mà không cần các đặc trưng thiết kế thủ công Có thé kê tên một số cột mốcnhư sự ra đời của cấu trúc BERT do Google AI, hay mới đây nhất là GPT do OpenAIphát triển
2.1.2 Cac bài toán
Có rất nhiều bài toán trong lĩnh vực NLP, tuy nhiên trong khóa luận này sẽ đề cậpmột vài bài toán tiêu biéu và phô biến nhất
s* Các bài toán cơ bản:
e Phân tích từ loại (POS): là quá trình gan thẻ một từ trong văn ban Cac thẻ
này cho biết vai trò của từ trong câu, chăng hạn như danh từ, động từ, tính từ,trạng từ, Gan thẻ POS là một bước cơ bản trong NLP vi nó giúp máy hiểucấu trúc cú pháp và ý nghĩa của văn bản, giải quyết được sự mơ hỗ trong vănbản Ví dụ như, từ “book” trong câu “I have a book” (Tôi có một cuốn sách)
là một danh từ nhưng trong câu “I want to book a flight” (Tôi muốn đặt một
chuyến bay) thì từ “book” lại là động từ Và tuy vào vị trí POS mà nó thể hiện
một ý nghĩa khác nhau, là sách hay là động từ đặt chỗ.
e Phân (ích tình cảm (Sentiment Analysis): Phân tích tinh cam là nhiệm vu
phân loại tính phân cực của một văn bản nhất định? Ví dụ: một ý kiến dựa trênvăn bản có thể được phân loại thành "tích cực", "tiêu cực" hoặc "trung tính".Với văn bản và các nhãn đi kèm, một mô hình có thé được đào tạo dé du đoáncảm xúc chính xác Các kỹ thuật phân tích tình cảm có thé được phân loại
2 Sentiment Analysis Nguồn: https://paperswithcode.com/task/sentiment-analysis
14
Trang 25thành các phương pháp học máy, các phương pháp dựa trên từ vựng và thậmchí cả các phương pháp kết hợp Một số tiểu thể loại nghiên cứu trong phântích tình cảm bao gồm: phân tích tình cảm đa phương thức, phân tích tình cảmdựa trên khía cạnh, phân tích ý kiến chỉ tiết, phân tích tình cảm cụ thể theo
ngôn ngữ.
Vi dụ: Tôi thích coi phim này (Tích cực)
>
o> ° Cac bài toán nâng cao:
e Tóm tắt văn bản (Text Summarization): là một tác vụ cô đọng một tài liệu
văn bản dài thành một phiên bản ngắn hơn, gọn hơn trong khi vẫn giữ đượcthông tin và ý nghĩa quan trọng nhất.3 Mục đích là tạo ra một bản tóm tắt thểhiện chính xác nội dung của văn bản gốc dưới dạng ngăn gọn Có nhiều cáchtiếp cận khác nhau dé tóm tắt văn bản, bao gồm các phương pháp trích xuất déxác định và trích xuất các câu hoặc cụm từ quan trọng từ văn bản và cácphương pháp trừu tượng tạo ra văn bản mới dựa trên nội dung của văn bảngốc
e Dich máy (Machine Translation): Dịch tự động văn ban từ ngôn ngữ nay
sang ngôn ngữ khác mà không làm thay đôi ngữ nghĩa muốn truyền đạt
Ví dụ: I want to sleep (Tôi muốn ngủ.)
e Hỏi đáp (Question Answering): là một nhiệm vụ yêu cầu trả lời các câu hỏi
dựa trên thông tin từ văn bản hoặc cơ sở dữ liệu kiến thức
Vị dụ: Tôi nên làm gì dé có một cơ thé khỏe mạnh? (Bạn nên ăn uống lànhmạnh, ngủ đủ giấc không nên thức khuya.)
e Sinh văn bản (Text Generation): là một nhiệm vu nhằm sinh ra văn bản tự
nhiên như con người.
Trang 26nhau như trong truyền thông, giải trí, kinh doanh, tiếp thị, giáo dục, y tế, luật, Có
thể ké tên một số ứng dụng tiêu biểu thường gặp nhất là dịch tự động các văn bản,tong hợp tin tức thông qua các mô hình tạo văn bản như Chat-GPT, Gemini, Bên
cạnh đó, còn tích hợp NLP vào trong trợ lý, chatbot hỗ trợ khách hàng trong các mảng
tiếp thị, kinh tế hoặc các sản phẩm thương mại, điển hình như điện thoại di động vớitrợ lý ảo (Siri, Google Assistant), mang lại những tiện lợi trong đời sống như phânloại tin rác, Đây chỉ là một số ví dụ điển hình về ứng dụng của NLP trong đời sống.Với sự phát triển không ngừng của công nghệ, NLP hứa hẹn sẽ mang lại nhiều giá trihơn nữa trong tương lai, nhất là trong lĩnh vực tạo văn bản tự nhiên như con người.2.2 Nhận dạng thực thể có tên
2.2.1 Khái niệm
Nhận dạng thực thể có tên là một nhiệm vụ phụ trong lĩnh vực NLP Nhận dạng thựcthê có tên có nhiệm vụ trích xuất thông tin, trong đó tìm kiếm và phân loại các thànhphần nguyên tử trong văn bản vào những loại xác định trước như là tên người, tổ
chức, địa điểm, thời gian, sé luong, gia tri tién té, phan tram va nhiéu loai gia tri
khác!.
e Tên người: Nguyễn Việt Anh
e Tên tổ chức: Trường đại học CNTT - Đại học Quốc gia TP Hồ Chí Minh
e_ Dia điểm: TP Hồ Chí Minh
e Thời gian: 16 tháng 06 năm 2024, Chủ Nhat
Đầu vào: Thường là văn bản thô, có thể là một câu, một đoạn văn hay một bài báohay một tài liệu văn bản bat kỳ nào đó Bên cạnh đó có thé thêm một số thông tin nhưloại từ (POS Tag), hình thái từ và thông tin từ điển (các diễn giải trí thực liên quantới thực thê)
Đầu ra: Thường là các thực thé tương ứng với từ ở đầu vào hoặc là từ với loại thựcthé hoặc là vị trí thực thé và loại thực thé
* Named Entity Recognition (NER) Nguồn: https://paperswithcode.com/task/named-entity-recognition-ner
16
Trang 27Các tập dữ liệu thường được định dạng theo:
MUC (Message Understanding Conference): là một định dạng đánh dấu(markup) được sử dụng dé chú thích các thực thé có tên (Named Entities)trong văn ban Dinh dạng MUC sử dụng các thẻ XML dé xác định các thựcthể và loại của chúng Vi dụ: “<ENAMEX TYPE="PERSON">BarackObama</ENAMEX> đã đến thăm <ENAMEX TYPE="LOCATION">HàNội</ENAMEX>.”
CoNLL (Conference on Natural Language Learning): là một định dạngbảng phổ biến dé biểu diễn dữ liệu được chú thích tuần tự, chang hạn như cáctác vụ gan thẻ phan của câu (POS Tag) hoặc nhận dạng thực thể có tên (NER)
Mỗi dòng trong tệp CoNLL đại diện cho một từ hoặc token, và các cột đại
diện cho các tính năng khác nhau (ví dụ: từ, POS Tag, NER Tag) Ví dụ:
Ha B-LOC
Nội I-LOC
O
Một số tập dữ liệu phố biến trong tiếng Anh:
Bộ dữ liệu CoNLL-2003 được sử dụng rộng rãi trong nghiên cứu NER, baogồm các loại thực thể: Tên người (Person), Địa điểm (Location), Tổ chức(Organization), và Khác (Miscellaneous) Dữ liệu được lấy từ các bài báo củaReuters và được chia thành các tap huấn luyện, kiểm tra và đánh giá
17
Trang 28e Bộ dữ liệu OntoNotes 5.0 bao gồm nhiều loại thực thể hơn như: Sản phẩm
(Product), Sự kiện (Event), và Ngày thang (Date) Nó được tổng hợp từ các
nguồn dữ liệu khác nhau như tin tức, hội thoại và dữ liệu trực tuyến.
e WNUT-17 là bộ dữ liệu cho nhiệm vụ WNUT 2017 được lay từ các văn bản
sinh ra từ người dùng trên mạng xã hội, được chú thích cho các thực thé mớinồi và hiếm
*
+» Một số tập dữ liệu phé biến trong tiếng Việt:
e Bộ dữ liệu VLSP 2016 và 2018 được tạo ra cho các hội thảo VLSP và bao
gồm các thực thể: Người (Person), Tổ chức (Organization), Địa điểm(Location) và Khác (Miscellaneous) Dữ liệu được lấy từ các bài báo tiếngViệt gồm 16,858 câu được gan nhãn trong đó có 14,918 thực thé
e_ Bộ dữ liệu VLSP 2021 bao gồm một tập hop rộng hon với 14 loại thực thé
chính và 26 loại thực thể con, bao gồm các thực thể như: Loại người(PersonType), Sự kiện (Event), Sản pham (Product), Kỹ năng (Skill) và nhiềuhơn nữa.
e Bộ dữ liệu NER cho COVID-19 tiếng Việt tập trung vào các thực thể liên quan
đến đại dich COVID-19 như: Mã bệnh nhân (Patient ID), Triệu chứng & Bệnh(Symptom & Disease), Tuổi (Age), Giới tính (Gender), Nghề nghiệp(Occupation), Địa điểm (Location) và nhiều hơn nữa
2.2.2 Các kỹ thuật
Vì sự phát triển của các mô hình học sâu, mô hình ngôn ngữ lớn trong lĩnh vực NLP
và liên quan tới các mô hình trong khóa luận tốt nghiệp Sinh viên sẽ trình bày các
công trình liên quan tới BERT, LLM và Split-NER.
Năm 2021, Wang và cộng sự đã cho ra đời công trình ACE [14], với khả năng tự
động kết hợp các mô hình Embeddings mãnh mẽ như BERT, Elmo, GloVe và fastText cùng với BiLSTM-CRF hoặc BiLSTM-Biaffine đưa vào trong bộ điều khiển.Kết quả của công trình đã được cải thiện với 94.6% ở độ đo F1 trên bộ CoNLL-2003
18
Trang 29Và phương pháp này cho thấy sự hữu hiệu hơn trên 21 bộ dữ liệu, đạt hiệu suất vượttrội trên 19 bộ trong tổng số 21 bộ thử nghiệm.
Mô hình Transformer là mô hình nổi bật trong nhiệm vụ NER Nó giải quyết triệt dé
các thách thức mà mạng nơ-ron hồi quy (RNN) gặp phải như tốc độ huấn luyện mô
hình hay hiện tượng biến mắt độ đốc do các chuỗi quá dài từ đó làm biến mắt sự phụthuộc giữa các từ so với các từ ở xa nó Các mô hình Transformer xử lý chuỗi songSong các phần tử trong chuỗi, do vậy tốc độ huấn luyện có thé được cải thiện bằngkhả năng tính toán song song của GPU Kiến trúc nổi tiếng hiện nay là kiến trúcBERT, thông qua công trình nghiên cứu về kiến trúc BERT [15] cho thấy, vì BERT
sử dụng cơ chế tự chú ý (self-attention) trong kiến trúc của mình giúp encoder nhìn
vào các từ khác trong lúc mã hóa một từ cụ thé; vì vậy, BERT có thé hiểu được sựliên quan giữa các từ trong một câu, ké cả khi chúng có khoảng cách xa Các decodercũng có kiến trúc giống như vậy nhưng giữa chúng có một lớp attention dé nó có thétập trung vào các phan liên quan của đầu vào Bằng việc hiểu ý nghĩa của từ trongcâu, giúp cho mô hình nắm rõ ràng thực thé trong ngữ cảnh của văn bản đó Vi dụnhư “Apple sắp ra mắt Iphone 15” vậy “Apple” ở đây sẽ hiểu là một công ty thay vì
là quả táo Và nhiều công trình sử dụng BERT [15], [16], [17] và đạt kết quả cao trêncác bộ dữ liệu như OntoNotes v5 (English) [18], WNUT 17 [19],
Ngoài ra, có công trình biến nhiệm vụ NER thành hai nhiệm vụ đơn giản độc lập [20]gồm một nhiệm xác định vị trí thực thể và sau đó phân loại thực thể thông qua phươngpháp trả lời câu hỏi Trong đó, mô hình xác định vi trí thực thể sẽ nhận đầu vào gồm
câu hoi “Extract important entity spans from the following text” và văn ban (“Emily
lives in United States”) và đưa ra chính xác đầu ra là các từ đã được đánh dấu dựatrên cấu trúc BIOE (“Emily” và “United States” là các thực thé cần tìm) Sau đó, kếtqua của mô hình đầu tiên, sẽ được biến thành câu hỏi (“What is Emily?”, “What isUnited States?”) và ghép vào với văn bản ban đầu dé trở thành đầu vào Kết qua của
mô hình thứ hai là loại thực thể của các thực thể đã đề cập trong câu hỏi Cuối cùng,kết hợp cấu trúc BIOE và loại thực thể ta thu được kết quả của nhiệm vụ NER Bởi
vì khi huấn luyện hệ thống Split-NER này, cả hai mô hình này là độc lập nên mang
19
Trang 30lại tốc độ huấn luyện nhanh hơn so với phương pháp truyền thống mà vẫn giữ đượckết quả tốt.
Hiện nay, các mô hình ngôn ngữ lớn với kích thước tham số lớn và được huấn luyệntrên một tập đữ liệu văn bản lớn giúp cho các mô hình có khả năng hiểu đặc trưng về
ngữ nghĩa, cú pháp của các ngôn ngữ như GPT3 [21], Bloom [22] va Llama 2 [23].
Mặc dù mô hình lớn có nhiều ưu điểm về kiến thức nhưng song lại thiếu tính chuyên
môn cho các nhiệm vu NER, dé giải quyết điều đó, công trình đã kết hợp các mô hìnhtinh chỉnh nhỏ với LLM (LinkNER [24]) để kiếm tra sự chắc chắn và đã đạt được kếtquả vượt qua cả các mô hình SOTA trong bài kiểm tra độ bền (robustness tests)
Trong những năm gần đây, nhiệm vụ NER đang từng ngày phát triển vượt bậc và đạtđược kết quả ấn tượng, nhờ sự ra đời của mô hình BERT [25], GPT và các biến thểcủa chúng Bên cạnh đó với sự kết hợp biểu diễn sinh học và ngữ pháp đã cải thiệnkhả năng hiểu ngữ cảnh và mối quan hệ giữa các thực thé trong văn bản Do đó NERđược ứng dụng sâu rộng trong nhiều lĩnh vực cụ thê như y học (BioNER [26]), tàichính dé xử lý thông tin chuyên ngành và đưa ra quyết định chính xác dựa trên ngữcảnh.
Mặc dù đã đạt nhiều tiến bộ, nhưng vẫn tồn tại một số thách thức khi triển khai vàphát triển hệ thống NER như dữ liệu bị thiếu và có sự chênh lệch các thực thé khiếncho các thực thé hiếm gặp khó xác định Bên cạnh đó, dù việc hiểu văn bản đã đượccải thiện nhờ tích hợp các phương pháp tiễn bộ, nhưng mối quan hệ giữa các thực thểthường phức tạp và đa dạng Một số tình huống đặc biệt cần phải hiểu sâu sắc về ngônngữ và kiến thức chuyên ngành như trong y khoa, từ “MRI” có thé hiểu theo 2 nghĩa
“Magnetic Resonance Imaging” hay “Magnetic Resonance Angiography” Đề biếtchính xác “MRI” được hiểu theo nghĩa nào thì đòi hỏi mô hình phải hiểu sâu sắc vềngôn ngữ và kiến thức chuyên ngành
2.2.3 Ung dung
NER có nhiều ứng dụng thiết thực trong cả lĩnh vực công nghệ va đời sống hang ngày
gôm:
20
Trang 31e Trích xuất thông tin: NER giúp trích xuất thông tin quan trong từ lượng lớn
văn bản phi cấu trúc, chăng hạn như tin tức, báo cáo, tài liệu pháp lý, hồ sơ ytế, Thông tin này có thé được sử dụng dé xây dựng cơ sở dit liệu, hỗ trợ raquyết định, hoặc cung cấp thông tin cho người dùng
e Phân (ích quan điểm: NER giúp xác định các thực thé được nhắc đến trong
các bài đánh giá, bình luận, từ đó phân tích quan điểm của người dùng về sản
phẩm, dich vụ, thương hiệu,
e Tóm tắt văn ban: NER giúp xác định các thực thé quan trong trong văn bản,
từ đó tạo ra các bản tóm tắt ngăn gọn và chính xác, giúp người dùng tiết kiệmthời gian và công sức.
e Dịch may: NER giúp xác định va dịch chính xác các tên riêng, thuật ngữ
chuyên ngành, từ đó cải thiện chất lượng dịch thuật
e_ Hỏi đáp tự động: NER giúp hệ thống hỏi đáp tự động hiểu rõ câu hỏi của
người dùng, đặc biệt là các câu hỏi liên quan đến thực thé cụ thé, từ đó cungcấp câu trả lời chính xác và nhanh chóng
e Phan tích mang xã hội: NER giúp phân tích các bài đăng trên mang xã hội,
xác định các chủ đề, xu hướng, và thực thé được nhắc đến nhiều nhất, từ đó
hỗ trợ các hoạt động quảng cáo, quản lý thương hiệu, và nghiên cứu thị trường.
Ví dụ khi ta tìm kiếm thông tin, các công cụ tìm kiếm sử dụng NER dé hiểu rõ ý địnhtìm kiếm của người dùng, từ đó đưa ra kết quả phù hợp hơn [27] Ví dụ, khi tìm kiếm
"nhà hàng ở Hà Nội," NER giúp công cụ tìm kiếm xác định rằng chúng ta đang tìmkiếm thông tin về thực thé "nhà hang" tai địa điểm "Hà Nội Hay NER được ứng dụngtrong trợ lý ảo nhằm tìm ra đúng các tác vụ, hành động từ đó thực thi Ví dụ như, khi
ta nói "Hey Siri, đặt báo thức lúc 6 giờ sáng mai", Siri [28] sẽ xác định thực thé "6giờ sáng mai" là thời gian và thực hiện hành động đặt báo thức Bên cạnh đó còn giúptạo ra các chatbot trong các nganh dịch vu nhăm hỗ trợ trả lời những câu hỏi dựa trêncác mục định sẵn Đặc biệt trong ngành y tế, str dụng NER nhằm trích xuất thông tin
21
Trang 32triệu chứng, bệnh va thuôc từ các hô sơ bệnh án điện tử như Amazon Comprehend Medical.
22
Trang 33Chương 3 PHƯƠNG PHÁP, KET QUA VÀ ĐÁNH GIÁ
Trong chương nay, sinh viên sẽ trình bay các phương pháp mà sinh viên sử dụng
trong quá trình thực nghiệm trên bộ dữ liệu PhoNER_COVID19 và nhiệm vụ 1 của
SOMD2024 Theo những gi tìm hiểu và khảo sát được, sinh viên thay các bài toán về
NER thường được sử dụng các mô hình BERT và biến thé của BERT và van đạt kết
quả tốt, chính vì thế ở phần đầu khóa luận nghiên cứu sẽ tiếp cận bài toán NER bằngcác mô hình như mBERT, PhoBERT và XLM-RoBERTa.
Ở phan tiếp theo, sinh viên sẽ thử nghiệm phương pháp Split-NER cho bài toán NER.Trong đó, sinh viên sẽ chia ra làm các giai đoạn khác nhau như sau:
Với PhoNER-COVID19 gồm 3 giai đoạn:
— Huấn luyện mô hình xác định vi trí thực thé bang các mô hình mBERT,
PhoBERT và XLM-RoBERTa Trong giai đoạn này đữ liệu nhãn sẽ bị ândưới thực thể X
— Huấn luyện mô hình phân loại thực thể băng các mô hình mBERT,
PhoBERT và XLM-RoBERTa nhằm tìm hiểu nhãn X là gì
— Kết hợp mô hình ở giai đoạn | và giai đoạn 2 dé phuc vu cho nhiém vu
NER.
“ Voi nhiệm vu | của SOMD2024 gồm 3 giai đoạn:
— Huan luyện mô hình xác định vi tri thực thể bang các mô hình MBERT,
PhoBERT và XLM-RoBERTa Trong giai đoạn nay dit liệu nhãn sẽ bị ândưới thực thể X
— Huấn luyện mô hình phân loại thực thé bang các mô hình MBERT,
PhoBERT và XLM-RoBERTa nhằm tìm hiểu nhãn X là gi
— Huấn luyện mô hình nhị phân nhằm kiểm tra xem câu có thực thể hay
không Sau đó kết hợp với mô hình ở giai đoạn 1 và giai đoạn 2 dé phục
vụ cho nhiệm vụ NER.
Phần cuối của khóa luận này sử dụng mô hình LLM như Bloomz, Bloom, Llamanhằm giải quyết nhiệm vụ NER Bên cạnh đó, trong phần này còn sử dụng các kỹ
23
Trang 34thuật như: Peft, QLoRa hoặc LoRa để giảm thiểu tài nguyên sử dụng và chỉnh sửa lờinhắc cho phủ hợp với bài toán.
3.1 Mô hình BERT
3.1.1 Tổng quan
BERT (Biểu diễn thé hiện mã hóa hai chiều từ Transformer) là một mô hình ngônngữ được phát triển bởi Google do Jacob Devlin và cộng sự từ Google đã tạo ra vàcông bố vào năm 2018 [25] [29] BERT ra đời trong bối cảnh dựa trên yêu cầu biểudiễn theo ngữ cảnh trước khi dao tạo và cũng là mô hình đầu tiên có thé biểu diễn
ngôn ngữ hai chiều sâu, không giám sát với kho văn bản đơn giản Wikipedia so với
các mô hình trước đó như Semi-supervised Sequence Learning [30] hay Elmo [1].
Các biểu diễn trước khi đào tạo lúc đó bao gồm biéu diễn không ngữ cảnh (như
Word2Vec hay GloVe), một chiều hoặc hai chiều Với các biểu diễn không ngữ cảnh,
vi dụ như từ “bank” trong cum từ “bank account” hay “bank of the river” thì déu duochiểu giống nhau Còn với biểu dién đơn hướng thì từ “bank” sẽ được dựa phan phía
trước cua từ, như trong câu “I accessed the bank account” thi “bank” có thể dựa vàophan “I accessed the” mà không có “account” trong đó Tuy nhiên với BERT, thì
“bank” sẽ được hiểu dựa trên “I accessed the account”, cho nên mô hình có théhiệu sâu được ngữ cảnh của từ hơn so với các cách biêu diễn trước đó.
5 What Makes BERT Different? Nguồn:
https://research.google/blog/open-sourcing-bert-state-of-the-art-pre-training-for-natural-language-processing/
24
Trang 35Hình 4 Sơ đồ mô hình BERT cho NER.
Các biến thé của mô hình BERT được sử dung trong bài khóa luận bao gồm:
- mBERT: là một mô hình đa ngôn ngữ dựa trên BERT [25] đã được huấn luyện
trên 104 ngôn ngữ khác nhau bao gồm tiếng Việt với kho dit liệu Wikipedia
- PhoBERT [8]: là mô hình được dựa trên mô hình RoBERTa được tùy chỉnh
sao cho phù hợp với ngôn ngữ tiếng Việt Mô hình này cũng đạt được hiệusuất vượt trội hơn các mô hình đơn ngôn ngữ và đa ngôn ngữ cho nhiệm vụNER tiếng Việt.
- XLM-RoBERTa (XLM-R): là mô hình đa ngôn ngữ của RoBERTa [9] đã
được huấn luyện trước trên 2,5TB dữ liệu CommonCrawl được lọc chứa 100ngôn ngữ trong đó có tiếng Việt
25
Trang 363.1.2 Thiết lập
Đâu tiên, sinh viên sẽ xử lý dữ liệu từ chữ sang các vector đê phù hợp với mô
hình mBERT, PhoBERT và XLM-RoBERTa.
Giả sử đữ liệu huấn luyện gồm S câu với 5; là một câu s thứ j tương ứng có L chuỗinhãn với L; là một chuỗi nhãn / thứ 7 như sau:
Trong đó, các E; là ma trận Embeddings gồm Token Embeddings, Segmentembeddings va Position embeddings như Hình 5.
26
Trang 37Input <CLS> bệnh nhân 6 ghé qua T ##op h ##oá Ph ##ượng | § <SEP>
Hình 5 mô phỏng dau vào của mô hình BERT [25]
Đầu vào sau khi xử lý sẽ như sau:
Eị, =e ={et,©;,en, ,€y } uớin <k = max_length
Các siêu tham số trong phần này được thiết lập như sau:
Epochs = 5, Batch size = 8, Learning rate = 2e — 5
xlm-roberta-large — xlm-roberte-base — xIm-roberta-large =
Hình 6 Kết quả F1-micro, Fl-macro và mat mát của giai đoạn phát triển với mỗi
epoch trên câp độ tiêng.
Dựa trên Hình 6 có thê thấy được các mô hình đều dừng học sau tầm 5 epochs Các
mô hình trong epochs đầu tiên cũng đã đạt kết qua khá cao (hơn 0,91 ở độ đo F1Micro và 0,82 ở độ đo F1 Macro) Và tốt nhất là PhoBERT-large, đạt hiểu quả nhất
27
Trang 38ở epoch đầu tiên Tuy nhiên nếu xét trong quá trình thì XLM-R, có hiệu quả học tốt
và đều đặn mặc dù khởi đầu có độ đo F1 thấp với mất mát cao nhất
Bảng 3-1 Bảng kết quả mô hình XLM-R của sinh viên và tác giả bộ đữ liệu
PhoNER_COVID19 [31].
XLM-R-BASE XLM-R-LARGE XLM-R- XLM-R-LARGE
(SINH VIÊN) (SINH VIÊN) BASE
Dựa trên Bảng 3-1, kết quả mô hình XLM-R của đề tài tốt hơn so với mô hình của
tác giả một chút Điều này có thé do sự khác nhau trong quá trình xử lý đầu vào và
các thiệt lập siêu tham sô.
Bảng 3-2 Kết quả F1 của các biến thể BERT trên tập test của cấp độ tiếng
MBERT PHOBERT- PHOBERT- PHOBERT-
XLM-R-BASE XLM-R-BASE-V2 LARGE XLM-R-BASE LARGE
AGE 0.9613 0.9344 0.9192 0.9275 0.9623 0.9734
DATE 0.9889 0.9856 0.9865 0.9868 0.9837 0.9885
GEN 0.9675 0.9419 0.9480 0.9484 0.9659 0.9795
28