Công cụ này có thể tạo tóm tắt cho các bài báo nghiên cứukhoa học dựa trên đầu vào là một danh sách các bài nghiên cứu có cùng chuyên ngành.Công cụ này có thê tiết kiệm nhiều thời gian c
Trang 1TÔ QUOC HUY
TOM TAT TỰ DONG DA VĂN BAN TIENG VIET THEO
CÁCH TIẾP CAN DỰA TREN MÔ HÌNH BERT
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 8.48.01.01
TP HO CHÍ MINH - 2022
Trang 2TOM TAT TU DONG DA VAN BAN TIENG VIET THEO
CÁCH TIẾP CAN DỰA TREN MÔ HÌNH BERT
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 8.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS NGUYÊN LƯU THÙY NGÂN
TP HO CHÍ MINH - 2022
Trang 3may mắn nhận được sự hỗ trợ từ Nhà Trường, Thầy Cô và Gia đình.
Học viên xin gửi lời cảm ơn chân thành đến Khoa Khoa học Máy tính, PhòngĐào Tạo Sau Đại Học, trường Đại học Công Nghệ Thông Tin đã hỗ trợ và tạo điều
kiện, giúp đỡ học viên trong suốt quá trình học (huắn luyện) và nghiên cứu tại trường
Học viên xin được gửi lời tri ân sâu sắc đến người hướng dẫn khoa học - TS.Nguyễn Lưu Thùy Ngân vì sự hướng dẫn, chỉ bảo tận tình của Cô
Học viên cũng xin gửi lời cảm ơn đến TS Nguyễn Gia Tuấn Anh, NCS.Nguyễn Văn Kiệt là những người thầy luôn theo sát, quan tâm và hỗ trợ, quý Thay,
Cô, anh chị, bạn bè đồng nghiệp tại Khoa Khoa học và Kỹ thuật Thông tin đã giúp
đỡ và chia sẻ kiến thức chuyên môn trong suốt quá trình thực hiện Luận văn
Xin gửi lời cảm ơn đến gia đình là nguồn động viên to lớn và chỗ dựa vữngchắc cho học viên vượt qua khó khăn đê hoàn thành Luận văn
Tp Hồ Chí Minh, tháng 12 năm 2022
Học viên
Tô Quốc Huy
Trang 4VAN BẢN TIENG VIET THEO CÁCH TIẾP CAN DỰA TREN MÔ HÌNH BERT”
là công trình nghiên cứu của tôi, dưới sự hướng dẫn của TS Nguyễn Lưu Thùy Ngân.
Các trích dẫn, tham khảo trong quá trình nghiên cứu đều được trích dẫn đầy
đủ, ghi rõ nguồn gốc
Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ sao chép không hợp lệ, vi
phạm quy chế đảo tạo
Người thực hiện
Tô Quốc Huy
Trang 513 Ý nghĩa của luận văn
1.4 Các đóng góp chính của luận văn
1.5 Cấu trúc luận văn
CHƯƠNG 2 CƠ SỞ LÝ THUYET
2.1 Tóm tắt da văn bản và các công trình liên quan
2.1.1 Tóm tắt đa văn bản
2.1.2 Các nghiên cứu liên quan
2.2 Giới thiệu về BERT
2.2.1 Khái niệm về ngữ cảnh và vai trò trong Xử lý ngôn ngữ tự nhién 9
2.2.2 Học sâu
2.2.3 Phân loại học sâu
2.2.4 Mạng thần kinh hồi quy Recurrent Neural Network (RNN)
2.2.5 Các loại mạng RNN
2.2.6 Sequence-to-sequence
Trang 62.2.7 Cơ chế attention
2.2.8 Transformer
2.2.9 Kiến trúc BERT
CHƯƠNG 3 CÁC MÔ HÌNH DỰA TRÊN BERT
3.1 Mô hình BERT đa ngôn ngữ
3.1.1 m-BERT (BERT multilingual)
4.1 Thuật toán gom cụm K-means
4.1.1 Phương pháp khuỷu tay
5.2.2 Phân tích sử anh hưởng của tách tt
5.2.3 So sánh kết quả hiện tại với các công trình trước đó
Trang 7CHƯƠNG 6 KET LUẬN VÀ HƯỚNG PHAT TRIEN
6.1 Kết quả dat được
6.2 Hướng phát triên
TÀI LIEU THAM KHẢO
PHU LUC 1 DANH MỤC CÁC CONG BO KHOA HOC
Hội nghị quốc tế
PHU LUC 2 DANH MỤC CAC HO SƠ LIÊN QUAN
Trang 8DANH MỤC CÁC BẢNG BIÊU
Bang 2.1 So sánh giữa phương pháp học có giám sát và học không giám sát 2
Bảng 2.2 Phân loại cấu trúc RNN
Bang 4.1 Tông quan về bộ dữ liệu VietnameseMDS
Bảng 4.2 So sánh giữa hai mẫu tóm tắt
Bảng 4.3 So sánh hai mô hình BERT trên các chỉ sô k
Bảng 5.1 So sánh hiệu năng các mô hình BERT
Bảng 5.2 Kết quả của các mô hình BERT khi sử dụng tài liệu đã được tách từ 56
Bang 5.3 So sánh hiệu suất của mô hình BERT và các mô hình khác
Bảng 5.4 So sánh hai mô hình có hiệu suất cao nhất với các hệ thống tóm tắt văn bản
tiếng Việt khác
Trang 9DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ
Hình 2.1 Mô hình kiến trúc máy học truyền thống và kiến trúc học sâu
Hình 2.4 Mô hình bộ encoder và decoder đơn giản.
Hình 2.5 Mô hình encoder-decoder của kiến trúc Transformer [29]
Hình 2.6 So sánh cấu trúc của BERTbase và BERTlarge
Hình 2.7 Quá trình nhúng từ theo ngữ cảnh
Hình 2.8 Biểu diễn đầu vào của mô hình BERT Các kết quả nhúng dau vào là tong
các token embedding, các segmentation embedding và các position embedding [30].
Hình 2.10 Các bước tao đầu vào trong bài toán NSP [30]
Hình 2.11 Các bước tạo đầu ra[30]
Hình 3.1 Sự gia tăng kích thước của tập dữ liệu CommonCrawl trên Wikipedia cho
mỗi ngôn ngữ [32]
Hình 3.2 So sánh mô hình BERT truyền thống và mô hình DistiIBERT
Hình 3.3 Mô hình mạng Siamese
Hình 3.4 Mô hình SBERT khi suy luận
Hình 4.1 Khởi tạo các centroid
Hình 4.2 Ví dụ về tính khoảng cách giữa các điểm tới các centroid
Hình 4.3 Phân cụm theo centroid
Hình 4.4 Khởi tạo lại các điểm centroid 45Hình 4.5 Biểu đồ của một ví dụ về phương pháp đánh giá khuyu tay 46
Hình 4.6 Kết quả của một thí nghiệm sử dụng phân tích Sihouette với k lần lượt bằng
2,3 và 4.
Trang 10Hình 4.7 Mỗi câu được mã hóa bởi các mô hình BERT sau đó xếp hạng và lựa chọn
để ra tóm tắt cuối cùng Độ dai của bản tóm tắt có thể được xác định bằng thuật toán
K-means
Hình 4.8 So sánh hiệu quả của hai mô hình BERT trên các chỉ số k
Hình 5.1 Tương quan giữa chiều dai văn bản đầu vào (chia theo token) đầu vào và
kết quả của mô hình
Hình 5.2 Số lượng diém dữ liệu chia theo độ dài của sI
Trang 11TOM TAT
Các nghiên cứu gan đây đã chứng minh rằng các mô hình BERT cho thấy tiềm năngtrong rất nhiều nhiệm vụ thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Nó được sử dụngnhư một bộ mã hóa cho nhiều hệ thống tóm tắt tự động hiện đại, đạt được hiệu suấtrất cao Tuy nhiên, cho đến nay, các nghiên cứu cho bài toán tóm tắt đa văn bản vẫnchưa có nhiều cho tiếng Việt Luận văn giới thiệu cách triển khai BERT để tóm tắtvăn bản theo hướng rút trích cho nhiều văn bản tiếng Việt Học viên mô tả các sosánh giữa các mô hình BERT đa ngôn ngữ và đơn ngôn ngữ khác nhau Kết quả thửnghiệm chỉ ra rằng các mô hình đơn ngôn ngữ cho kết quả nhỉnh hơn so với các môhình đa ngôn ngữ khác cũng như so với các mô hình tóm tắt văn ban trước đây chotiếng Việt
Trang 12CHƯƠNG 1 GIỚI THIỆU TÓNG QUAN
1.1 Đặt vấn đề
Tự động tóm tắt văn bản là một trong những nhiệm vụ khó của xử lý ngôn ngữ
tự nhiên (NLP) Tác vụ này yêu cầu máy tạo một đoạn văn bản là phiên bản ngắn hơncủa một hoặc nhiêu tài liệu đầu vào Cụ thé là, đầu ra của công cụ tóm tắt văn ban tựđộng phải được cô đọng thành thông tin trong khi vẫn bảo toàn kiến thức cơ bản của
các tài liệu đã cho.
Các ứng dụng cho bài toán này được phổ biến rộng rãi Một ví dụ đơn giản làcông cụ tóm tắt tự động Công cụ này có thể tạo tóm tắt cho các bài báo nghiên cứukhoa học dựa trên đầu vào là một danh sách các bài nghiên cứu có cùng chuyên ngành.Công cụ này có thê tiết kiệm nhiều thời gian cho các nhà nghiên cứu và cả độc giả.Mặc dù thực tế rằng phần tóm tắt (abstract) chỉ là một bản tóm tắt của một bài báonghiên cứu, nó vẫn tốn nhiều thời gian cho các nhà nghiên cứu dé đọc hết bài viết vàviết lại thành một đoạn văn ngắn gọn
Mặc dù phần lớn các nghiên cứu tóm tắt văn bản trên tiếng Anh đã đạt đượcnhững thành tựu dang kể, chúng ta vẫn chưa có nhiều nghiên cứu được thực hiện trêntiếng Việt Trong những năm gan đây, việc nghiên cứu các thuật toán tóm tắt văn bảntiếng Việt chủ yếu dựa vào xếp hạng đặc trưng [1], [2] và hệ thống dựa trên toán đòthị [3] Trong khi đó, mô hình Biểu diễn mã hóa hai chiều được huấn luyện sẵn (Pre-training of Deep Bidirectional Transformers - BERT) đã cho thấy những lợi thế đáng
kể của nó trong nhiều nhiệm vụ NLP bằng tiếng Việt như phân loại văn ban [4], [5]
và đọc hiểu máy [6] Ngoài ra, một số nghiên cứu thử nghiệm về học sâu cho bài toán
này trên bộ dit liệu tiếng 'Việt cũng cho thấy kết quả vượt trội so với các thuật toán
truyền thống [7]
Có hai loại mô hình BERT được giới thiệu và sử dụng trong các nghiên cứu là
mô hình BERT đa ngôn ngữ và mô hình BERT đơn ngôn ngữ BERT đa ngôn ngữ là
các mô hình dưa trên BERT đã được huấn luyện sẵn trên nhiều ngôn ngữ khác nhau
Do đó, các mô hình loại này có thể được áp dụng cho các bài toán Xử lý ngôn ngữ tựnhiên trên nhiều thứ tiếng Ngược lại, mô hình BERT đơn ngôn ngữ là những mô
Trang 13hình chỉ được huấn luyện sẵn trên một ngôn ngữ duy nhất Thông thường, có mô hình
BERT đơn ngôn ngữ này được cấu hình tối ưu cho đặc tính và ngữ pháp của từngngôn ngữ riêng Vì vậy, trên một số bai toán mô hình BERT đơn ngôn ngữ có kết quả
tốt hơn các mô hình BERT đa ngôn ngữ
Các mô hình BERT nói trên đã được thử nghiệm và đánh giá hiệu quả trên
nhiều bài toán, tuy nhiên, vẫn còn khá ít các công trình nghiên cứu bài toán tóm tắtvăn bản bằng tiếng Việt mà ứng dụng các mô hình dựa trên BERT
1.2 Mục tiêu và phạm vi nghiên cứu
1.2.1 Mục tiêu
Mục tiêu của đề tài là đưa ra một các tiếp cận mới cho bài toán tóm tat đa văn
bản tiếng Việt Cách tiếp cận này áp dụng các mô hình được huấn luyện sẵn
dựa trên cấu trúc của mô hình BERT Ưu điểm vượt trội của BERT trên cácvăn bản tiếng Việt là khả năng tạo các biéu diễn theo ngữ cảnh dựa trên các từtrước và sau đó Do đó, mô hình có thé biểu diễn các từ và câu với ngữ nghĩachính xác hơn Mặt khác, các mô hình dựa vào BERT đơn thuần không đạt kếtquả mong đợi [8], do đó trong nghiên cứu này cũng kết hop BERT với một số
kỹ thuật tóm tắt văn bản khác dé tối ưu kết quả
Trong luận văn này, học viên xem xét hiệu suất của một số mô hình dựa trênBERT đối với việc tóm tắt văn bản theo hướng rút trích trên các văn bản tiếngViệt Học viên tiền hành thử nghiệm đồng thời trên cả hai loại mô hình BERTđơn ngôn ngữ và đa ngôn ngữ để so sánh hiệu suất của cả hai mô hình trong
bài toán này.
Ngoài ra, các bộ dữ liệu sử dụng cho bài toán tóm tắt văn bản tiếng Việt hiệnnay như VietnameseMDS! đều có kích thước nhỏ Trong khi đó, các mô hình
dựa trên BERT đã chứng minh hiệu quả trên các bộ dữ liệu có kích thước vừa
và nhỏ trên các bài toán xử lý ngôn ngữ tự nhiên khác trên tiếng Việt Nghiêncứu không chỉ giải đáp thắc mắc về hiệu năng thực tế của một mô hình pre-train nỗi bật hiện nay là BERT vào bai toán tom tắt văn bản tiếng Việt, mà còn
Trang 14đối chiếu và so sánh lẫn nhau các phương pháp dựa trên BERT và với các
phương pháp đã có khác.
Tóm lại, những mục tiêu chính của luận văn bao gồm:
1 Đánh giá hiệu quả của các mô hình theo cách tiếp cận dựa trên BERT
và thuật toán gom cụm K-Means trong bài toán tóm tắt đa văn bản tiếng
Việt tự động.
2 So sánh và phân tích hiệu quả của mô hình BERT đa ngôn ngữ và BERT
đơn ngôn ngữ cho bài toán tóm tắt đa văn bản tiếng Việt tự động
3 So sánh và đánh giá mô hình đề xuất với các mô hình không dựa trên
BERT khác trên cùng một bộ dữ liệu.
1.2.2 Pham vi nghiên cứu
Luận văn này tập trung nghiên cứu vào hai loại mô hình chính là mô hình BERT
đơn ngôn ngữ và BERT đa ngôn ngữ dé tóm tắt các văn bản tiếng Việt theokiểu rút trích
Dữ liệu được sử dụng trong luận văn là các dữ liệu dạng văn bản tin tức được
rút trích từ một trang báo điện tử tiếng Việt
1.3 Ý nghĩa của luận văn
Bài toán tóm tắt văn bản đặc biệt là tóm tắt đa văn bản đã được nghiên cứurộng rãi trên toàn thé giới Như đã đề cập, bài toán nay đã được nghiên cứu rất chuyênsâu trên các văn bản tiếng Anh, nhưng vẫn chưa xuất hiện nhiều công trình nghiêncứu trên tiếng Việt Trong khi đó, các nội dung văn bản tiếng Việt ngày càng được
đa dạng hóa trên các trang tin tức điện tử cũng như các trang mạng xã hội Con người
hiện nay có rất it thời gian cho việc cập nhật tin tức Vì vậy, việc có một hệ thống có
thể tóm tắt các ý chính hoặc nội dung nôi bật từ nhiều văn bản và nhiều nguồn là cần
thiết Nó có thé giúp cho con người tiết kiệm được thời gian dé có thé nắm bắt các
thông tin quan trọng.
Do đó về mặt khoa học, luận văn đã đề xuất được một cách tiếp cận mới cho.bài toán tóm tắt đa văn bản tiếng Việt tự động Trong các tiếp cận này, học viên đã
ứng dụng nhiều loại mô hình dựa trên BERT kết hợp với phương pháp gom cụm
Trang 15k-means Dựa vào kết quả thự nghiệm, luận văn đã chứng minh được hiệu quả của mô
hình dựa trên BERT và phương pháp gom cụm k-means.
Ngoài ra, dựa vào kết quả khả quan của cách tiếp cận mới này, các trang báo
điện có thể ứng dụng để xây dựng các hệ thống tóm tắt tin tức tự động Ứng dụng của
các tiếp cận do học viên đề xuất có thể là phần mềm tạo tiêu để tự động hoặc tạo trang
"bản tin nỗi bật" tự động Từ đó, người đọc có thể năm bắt thông tin nhanh, cụ thể và
16 ràng hơn khi đọc các trang tin tức.
1.4 Các đóng góp chính của luận văn
Các đóng góp chính của luận văn như sau:
© Dé xuất một cách tiếp cận mới cho tóm tắt đa văn bản tiếng Việt dựa trên
các mô hình dựa trên BERT tiên tiến Cách tiếp cận này đạt hiệu suất tối
ưu nhất trong việt rút trích câu từ các đoạn văn bản tiêng Việt và cấu tạothành một đoạn tóm tắt duy nhất
© Đề xuất thử nghiệm và so sánh lẫn nhau giữa các mô hình mới dựa trên
BERT và các phương pháp đã có khác.
e Luận văn đã nghiên cứu và công bố một bài báo khoa học được đăng ký
kỷ yếu tại hội nghị PACLIC2021 (xem Phụ lục 1)
1.5 Cấu trúc luận văn
Luận văn “Tóm tắt tự động đa văn bản tiếng Việt theo cách tiếp cận dựa trên
mô hình BERT” bao gồm 6 chương Nội dung từng chương như sau:
© Chương 1: TONG QUAN Chương bao gồm các nội dung: Đặt vấn dé,Mục tiêu của luận văn, Phạm vi nghiên cứu của luận văn và cuối cùng là
ý nghĩa của luận văn.
e _ Chương2: CƠ SỞ LÝ THUYET Chương này trình bày các cơ sở lý thuyết
của các thuật toán xếp hạng, gom nhóm câu và các mô hình BERT được
thử nghiệm trong luận văn.
Trang 16Chương 3: CÁC MÔ HÌNH DỰA TRÊN BERT Chương mô tả chỉ tiết
các mô hình dựa trên BERT thuộc hai nhóm là đơn ngôn ngữ và đa ngữ.
Chương 4: PHƯƠNG PHÁP Chương này trình bày phương pháp đề xuất
của luận văn.
Chương 5: KET QUA VA PHAN TÍCH Chương này mô tả các thử
nghiệm, thống kê các kết quả đạt được và so sánh các kết quả với nhau
cũng như với các kết quả của các công trình khác
Chương 6: KET LUẬN VÀ HƯỚNG PHÁT TRIEN Trong chương cuốicùng, học viên tóm tắt lại các đề xuất và kết quả đạt được; và mô tả hướngphát triển tiếp theo
Trang 17CHUONG2 CƠSỞLÝ THUYETChương 2 giới thiệu các kiến thức về mô hình BERT, Transformer, tiếp cận
nông/sâu, học sâu, các thuật toán xếp hạng và gom nhóm câu để tạo đoạn văn bảntóm tắt được sử dụng trong luận văn Một số nghiên cứu đã có cùng các hướng tiếpcận liên quan dé này cũng được dé cập và khảo sát
2.1 Tóm tắt đa văn bản và các công trình liên quan
2.1.1 Tóm tắt da văn bản
Các kỹ thuật để tóm tat văn bản được chia thành hai loại: rút trích và tom lượchóa Tóm tắt rút trích là sự kết hợp của các câu được rút trích từ văn bản gốc Các câunày được tính toán để mang nội dung chính của tài liệu Ngược lại, tóm tắt tóm lược
là một kỹ thuật sử dụng tài liệu gốc để tạo ra một văn bản mới Nói cách khác, phươngpháp này tạo ra những câu mới dựa trên những thông tin quan trọng nhất của bản gốc.Mặc dù mọi người thường sử dụng các cách tóm lược đê tạo một bản tóm tắt, nhưngcác phương pháp tóm tắt rút trích được chú ý nhiều hơn trong các nghiên cứu gần đây[9] Hiệu suất của hệ thống tóm tắt rút trích thường tốt hơn hệ thông tóm tắt tóm lược
[10].
Ngoài ra, có hai cách tiếp cận cho các nhiệm vụ đó: thuật toán học có giám sát
và không giám sát Trong các phương pháp tiếp cận có giám sát, bộ phân loại đượchuấn luyện bằng cách sử dụng dữ liệu được gán nhãn Bộ phân loại này xác định câunào được đưa vào tóm tắt và câu nào không Trong giai đoạn huấn luyện các phương
pháp được giám sát, các tính năng rút trích từ dữ éu huấn luyện được cung cấp chocác mô hình Sau đó, trong các giai đoạn xác thực (validation phase) và kiểm tra(testing phase), các mô hình được huấn luyện có thé dự đoán kết qua bằng cách sửdung dé liệu mới[11], [12] Cách tiếp cận này tạo cơ hội cho các nhà nghiên cứu sửađổi các mô hình dựa trên kết quả thử nghiệm trong các giai đoạn xác thực Tuy nhiên,điều kiện tiên quyết của cách tiếp cận này là các đặc trưng được gán nhãn và xác định
trước để sử dụng cho giai đoạn huấn luyện Nó vẫn là một thách thức chưa được giải
quyết đối với một ngôn ngữ ít phổ biến như tiếng Việt Do đó, các công bé trước đây
Trang 18về tóm tắt văn bản bằng tiếng Việt đều tập trung vào thuật toán không giám sát Ưu
điểm chính của phương pháp nay là dữ liệu gan nhãn là không bắt buộc [13], [14]
Riêng về tóm tắt đa văn ban, đây là một nhiệm vụ phức tạp và thách thức trong
lĩnh vực xử lý ngôn ngử tự nhiên Trong một khảo sát của Das và Martins [15], các
nhà nghiên cứu đã chỉ ra rằng nhiệm vụ chính của hệ thống tóm tắt đa văn bản khongchỉ là chọn lọc thông tin quan trọng Nhiệm vụ này yêu cầu hệ thống phải xử lý nhiềunguồn thông tin mà trong đó các thông tin bị trùng lắp, đối lập hoặc bé trợ lẫn nhau
Vì vậy, nếu hệ thống chỉ rút trích các thông tin quan trọng thì có thé dẫn đến việc bản
tóm tắt chứa các thông tin giống nhau Hệ thống cần phải tổng hợp, phân loại, loại bỏtrùng lặp và đảm bảo tính liền mạch của văn bản tóm tắt cuối cùng
Như đã nói ở trên, đa phần các hệ thống tóm tắt văn bản hiện nay cho tiếng'Việt tập trung chủ yếu sử dụng phương pháp rút trích (extractive) hơn là phương pháptóm lược (abstractive) Điều này một phần là do trong phương pháp tóm lược, hệthống cần sử dụng thêm một phương pháp đó là tạo sinh văn bản (text generation) dé
có thể sinh ra một đoạn tóm tắt hoàn toàn mới so với các văn bản gốc Đây cũng là
một nhiệm vụ phức tạp và do đó, trong các nghiên cứu trước đây, các hệ thống thường
cho kết quả không cao
Ứng dụng của tom tắt đa văn bản được sử dụng rộng rãi trong nhiều lĩnh vực,bao gồm: tóm tắt tin tức [16], bài báo khoa học [17], thư điện tử (email) [18], tài liệu
y khoa [19], phản hồi của giảng viên [20], Gan đây, do sự bùng nổ của các hệ thong
và dữ liệu số đã dẫn đến sự cần thiết cao của hệ thống tóm tắt đa văn bản Một ví dụmới nhất là Xiaomingbot [21], một ứng dụng báo cáo tin tức được phát triển dé tạo
ra một bản tin tức được rút trích từ nhiều nguồn khác nhau
2.1.2 Cac nghiên cứu liên quan
Phương pháp học không giám sát để tóm tắt văn bản theo hướng rút trích đã
có một lịch sử lâu đời Trong hầu hết các nghiên cứu, thuật toán chính áp dụng trong
học (huấn luyện) không giám sát là thu được các câu có điểm xếp hang cao nhất.Phương pháp này tính điểm cho mỗi câu của tài liệu đầu vào dựa trên một số
điểm như độ dai câu [11], TF-IDF [22], dựa trên đồ thị [22], vi tri câu [12] Đề xuất
ic
Trang 19tóm tắt văn bản bằng tiếng Việt cũng tập trung vào xếp hạng câu Ví dụ, Dinh và
Nguyen [23] trình bày cách biểu diễn các câu dưới dạng các nút trong biểu đồ Cáctác giả đã sử dụng thuật toán Xếp hạng trang (PageRank) dé đánh giá tầm quan trong
của các câu và nó dẫn đến hiệu suất tốt đáng kẻ trên cả tài liệu dai và ngắn
Mặt khác, Liu và Lapata [8] đã đề xuất một cách tiếp cận mới cho cả tóm tắttóm lược và rút trích bằng cách sử dụng BERT Các thử nghiệm được thực hiện trêncác tập dữ liệu nồi tiếng là CNN / Daily Mail, NYT và XSum Các tác giả đã áp dụng
BERT như một bộ mã hóa ở cấp độ tài liệu trong nghiên cứu của họ Nghiên cứu đã
chứng minh rằng BERT đã đạt được kết quả hiện đại so với cả các công cụ tóm tắt tự
động khác và đánh giá dựa trên con người Xu và cộng sự [24] cải thiện hơn nữa mô
hình BERT cơ sở đề loại bỏ các cụm từ lặp lại và không chứa thông tin trong bản tómtắt cuối cùng Nghiên cứu của họ đã giới thiệu mô hình BERT nhận biết diễn ngôn(DISCOBERT) tập trung vào các đơn vị diễn ngôn thay vi câu.
Trong nghiên cứu của Ernst và các cộng sự[25], các mô hình BERT khi kếthợp với phương pháp xác định vi trí câu đã cho kết quả rat tốt Họ đã thử nghiệm trên
cả hai hướng tiếp cận là rút trích và tóm lược cho bài toán tóm tắt đa văn bản trên bộ
dữ liệu DUC 2004 và TAC 2001 Mô hình đề xuất của các tác giả đã cao hơn khoảng
1% so với các phương pháp học sâu.
Năm 2021, tác giả Hu và các cộng sự [26] đã thử nghiệm kết hợp mô hìnhBERT và phương pháp gom cụm K-means trên bài toán tóm tắt đa văn bản Trong.nghiên cứu này, các tác giả đã sử dụng bộ dữ liệu Baidu dùng cho tiếng Trung Quốc.Kết quả cho thấy sự vượt trội của mô hình hình này so với các phương pháp học sâu
và gom cụm khác Học viên cũng đã dựa vào phương pháp của nghiên cứu này dé ápdụng cho bài toán tóm tắt đa văn bản tiếng Việt
Các phương pháp sử dụng mô hình BERT cũng đã xuất hiện trên một số nghiêncứu cho bài toán tóm tắt văn bản tiếng Việt [27], [28] Tuy nhiên, các nghiên cứu nàychỉ tập trung giải quyết bài toán tóm tắt đơn văn bản Các bộ dữ liệu được sử dụngcũng không được công khai Nó đặt ra một câu hỏi lớn về việc BERT khi kết hợp vớicác phương pháp khác (ví dụ như phương pháp gom cụm) có thé thực hiện hiệu qua
Trang 20như thế nào trong việc tóm tắt; cũng như liệu BERT đơn ngôn ngữ có đạt được kết
quả tốt hơn BERT đa ngôn ngữ trong các tài liệu tiếng Việt, đặc biệt là khi gặp nhiềutài liệu hay không Đề giải quyết cho bài toán đó, trong luận văn này, học viên thựchiện một nghiên cứu thử nghiệm trên nhiều mô hình dựa trên BERT Học viên kếthợp BERT làm bộ mã hóa và phân cụm K-means như một thuật toán xếp hạng câu
Cách tiếp cận của học viên được mô tả kỹ hơn trong phần tiếp theo
2.2 Giới thiệu về BERT
2.2.1 Khái niệm về ngữ cảnh và vai trò trong Xử lý ngôn ngữ tự nhiên
Trong ngôn ngữ, ngữ cảnh là bối cảnh của ngôn ngữ xuất hiện trong cả văn
bản hoặc giao tiếp Vì các câu văn được cấu thành từ chuỗi các từ hoặc cụm
từ, vậy nên ngữ cảnh quan trọng bởi lẽ con người xác định rõ bối cảnh của
ngôn ngử (từ, cụm từ) dé có thé hiểu được ý nghĩa của câu hoặc văn Hiệu quả
biểu thị nội dung và truyền đạt ý nghĩa lớn hơn so với từng từ đứng độc lập.Ngoài ra, ngữ cảnh chính là chìa khóa dé con người có thé hiểu đúng ý nghĩa
của một từ trong câu Do đó, khi xây dựng các thuật toán hoặc mô hình ngôn
ngữ tiên tiến (ví dụ như BERT), các nhà nghiên cứu làm sao cho mô hình cóthể hiểu được ngữ cảnh của toàn câu thay vì chỉ một từ đơn lẻ
Phương pháp nhúng từ (word embedding) có thê được chưa thành các loại như
Sau:
© Non-context (không bối cảnh): Đây là loại nhúng từ bỏ qua ngử cảnh
của câu Thuật toán này là loại xuất hiện đầu tiên trong các nghiên cứu
thuộc lĩnh vực NLP Một số ví dụ như word2vec, fasttext hay GloVechỉ biểu diễn các từ thành các vectơ từ đơn lẻ Do đó, nghĩa của từkhông chính xác trong một số trường hợp như:
Câu 1: Cô ấy là một người hướng /ngoại)
Câu 2: Bà /ngoai] của tôi đã 80 tuôi.
Trong ví dụ trên, từ /ngoai] có hai ý nghĩa khác nhau và chúng nên
được biểu diễn với hai loại vectơ từ khác nhau Tuy nhiên, các thuậttoán thuộc loại "không bối cảnh" thì không thể làm điều nay
Trang 21© Uni-directional (một chiều): Đây là các thuật toán nhúng từ tiên tiến
hơn khi đã có sự tác động của bối cảnh Các thuật toán nhúng từ dựa
trên mạng RNN được phân loại là thuật toán nhúng từ một chiều Trongcác thuật toán này, từ đã được nhúng có bối cảnh, tuy nhiên, chỉ có theo
một chiều Một chiều ở đây mang ý nghĩa là từ được nhúng theo bối
cảnh từ phải qua trái hoặc từ trái qua phải Xét ví dụ sau:
Câu 1: Hôm nay tôi /đ¡7 học.
Câu D: Hôm nay tôi /đi}
Trong ví dụ trên, vecto từ /di] được xác định dựa trên các từ bên trái.
Nhung nếu chi xem xét các từ phía trước trong câu như "H6m nay tôi "thì có rất nhiều từ phù hợp khác như là ngu, uống, ăn
Ta có thể thay nếu nhúng từ mà chỉ dựa vào ngữ cảnh của các từ bên trái hoặcbên phải gặp rất nhiều sai sót Vì vậy, hiện nay các thuật toán nhúng từ thường
được sử dụng nhiều nhát là nhúng từ hai ¢
¢ Bi-directional (hai chiều): Day là loại nhúng từ ma trong đó từ được
nhúng dựa trên ngữ cảnh của toàn câu Các phương pháp nhúng từ hai
chiều xem xét ngữ cảnh cả bên trái và bên phải của từ đượx xét Cácthuật toán sử dụng phương pháp nhúng từ hai chiều đã chứng minhđược độ hiệu quả trong rất nhiều bài toán thuộc lĩnh vực NLP như
BERT, ULMFit, GPT
2.2.2 Học sâu
Hoc sâu là một tập hợp con của học may nhằm mục đích tái tạo cách con người
học từ dữ liệu không quen thuộc Nó hoạt động dựa trên một loạt các thuật toán được
gọi là mạng thần kinh nhân tạo (ANN) - hệ thống máy tính được mô phỏng theo các
mạng sinh học thực tế của não người Tương tự như các tế bào thần kinh tạo nên bộ
não của chúng ta, ANN bao gồm các nút kết nối, còn được gọi là tế bào thần kinh
nhân tạo.
Sự tương đồng hấp dẫn giữa các hệ thống nhân tạo này và hệ thống não sinhhọc của chúng ta cho phép máy móc kích thích các mô hình học (huấn luyện) của con
Trang 22người Lý do tại sao nó được gọi là học “sâu” là nó sử dụng mạng nơ-ron có
ba lớp trở lên Các lớp an bổ sung giúp các mô hình học sâu đạt được mức độ chính
xác đáng kinh ngạc, thậm chí có lúc còn vượt trội hơn con người.
Mặc dù học sâu, học máy và trí tuệ nhân tạo chồng chéo lên nhau, nhưng vẫn
có những điểm khác biệt quan trọng cần thực hiện để hiểu rõ hơn về từng lĩnh vực
này.
Một điểm quan trọng trong việc so sánh học sâu và học máy là cách làm việcvới dữ liệu Các thuật toán học máy (ML) hoạt động với các tập dữ liệu có tô chức,
có cấu trúc trong đó các tinh năng cụ thé trong dit liệu đã được xác định Trong khi
đó, các thuật toán học sâu có thé xử ly dit liệu thô, không có cấu trúc và tự động hóa
việc rút trích tính năng, loại bỏ bớt sự can thiệp của con người.
Máy học truyền thống
Gm li: - Pea
Đầu vào Rút trích đặc trưng Phân loại Đầu ra
Đầu vào Rút trích đặc trưng + Phân loại Đầu ra
Hình 2.1 Mô hình kiến trúc máy học truyền thông và kiến trúc học sâu
2.2.3 Phân loại học sâu
Dựa theo hình thức huấn luyện học sâu có thể chia thành 3 loại: học khônggiám sát, học có giám sát và kết hợp cả học không giám sát, có giám sát
Học không giám sát (unsupervised learning) là một kỹ thuật học máy trong đó
người dùng không cần giám sát mô hình Thay vào đó, nó cho phép mô hình tự hoạt
Trang 23động dé phát hiện ra các mẫu và thông tin mà trước đây chưa được phát hiện Nó chủyếu giải quyết các dữ liệu không có nhãn.
Thuật toán học không giám sát là thuật toán thường dùng dé xử lý các bài toán
có độ phức tạo cao hơn so với phương pháp học có giám sát Các thuật toán học (huấnluyện) không giám sát bao gồm phân cụm, phát hiện bắt thường, mạng nơ-ron,
Học có giám sát (supervised learning) là phương pháp máy học thường dùng
trong các bài toán phân loại hoặc dự đoán kết quả với đầu vào là các dữ liệu đã đượcgán nhãn sẵn Trong quy trình của học có giám sát, hệ thống tự động điều chỉnh thông
số kỹ thuật cho phù hợp đề tối ưu kết quả, thông thường chúng ta biết đến quy trình
này là quy trình xác nhận chéo Các ứng dụng hiện nay đã áp dụng phương pháp học
có giám sát này một cách rộng rãi Một ứng dụng nồi bật đó là ứng dụng phân loại
thư rác.
Phương pháp học có giám sát dùng một tập dữ liệu (thường được gọi là tập
train) để tiến hành học mà tỉnh chỉnh Thông qua việc canh chỉnh kết quả dự đoánthông qua các đữ liệu đã được gán nhãn, mô hình dần đưa ra được kết quả giống vớikết quả thực tế Thuật toán được dùng trong phương pháp học có giám sát dé đo độchính xác là hàm mắt mát Hàm này tinh chỉnh đầu ra của phương pháp dé sai số củakết quả được đưa về mức thấp nhất
Bảng 2.1 So sánh giữa phương pháp học có giám sát và học không giám sát.
Thông số Học có giám sát Học không giám sát
Dữ liệu đầu vào Gan nhãn Không được gán nhãn
Độ phức tạp Độ phức tạp vừa phải Độ phức tạp rất cao
Độ chính xác Độ chính xác cao Độ chính xác khá thấp
Học bán giám sát — kết hợp hai cách học ở trên (semi-supervised learning):
Một lượng lớn dit liệu lớn nhưng trong đó chi một phần được gán nhãn phân loại thì
bài toán để giải quyết chúng được gọi là học bán giám sát Các bài toán ở nhóm nàynằm giữa hai nhóm kẻ trên Ví dụ nồi bật ở cách học nay là một phần văn bản hayhình ảnh được gán nhãn như ảnh về con người, động vật hay các văn bản báo chí,
Trang 24khoa học, kể cả các văn bản hay hình ảnh nào khác chưa được gán nhãn được thuthập trên mạng Trong thực tế các bài toán dạng này rất phô biến vì nếu thu nhập dữliệu có gán nhãn tốn nhiều thời gian và chỉ phí Thậm chí nhiều loại dữ liệu cần được
các chuyên gia đúng chuyên ngành gán nhãn mới đáng tin cậy (lĩnh vực y tế, y khoa)
Vì thế, có thể suy luận đữ liệu mà chưa được gán nhãn có thể thu thập dé dang, khong
tốn kém chi phí từ các nguồn trên mạng
2.2.4 Mạng thần kinh hồi quy Recurrent Neural Network (RNN)
Mạng thần kinh hồi quy (RNN) là một thuật toán mà trong đó dir liệu đượcđưa vào là đữ liệu mang tính liên tục (hoặc là đữ liệu chuỗi thời gian) Với tính chấtđầu vào là các dữ liệu có tính tuần tự, các thuật toán dựa theo mạng RNN thườngđược áp dụng để xử lý các bài toán thuộc lĩnh vực NLP như dịch máy, chú thích ảnhhoặc nhận dạng giọng nói Trên thế giới, các ứng dụng mà áp dụng thuật toán này cóthé kế đến như Siri, Google Dich, Alexa Với phương pháp tương tự với mạng norontruyền xuôi (feedforward) và tích chập (CNN), mạng RNN cũng là phương pháp cầncác dữ liệu được gán nhãn đê học Dữ liệu đầu vào được đưa vào và phân biệt thôngqua "bộ nhớ" Các thông tin phía trước được tác động đến các thông tin phía sau, đâycũng là điểm khác biệt khi so sánh với các mạng thần kinh khác Điểm yếu cảnh mangRNN là không thé sử dụng các thông tin phía sau trong dữ liệu tuần tự để làm thông
tin hữu ích trong khi xác định thông tin trước đó.
a 8S
Hình 2.2 So sánh giữa mạng RNN (bên trái) và mang thân kinh truyền xuôi (bên phải)
Hãy lấy một thành ngữ, chẳng hạn như "gần mực thì đen", thường được sửdụng khi nói về một người/vật chịu ảnh hưởng từ người/vật khác, để giải thích về
Trang 25RNN Đề thành ngữ có ý nghĩa, nó cần được diễn đạt theo thứ tự cụ thể đó Do đó,
các mạng RNN xác định vị trí của các từ trong câu và sử dụng thông tin đó để dựđoán từ tiếp theo trong chuỗi
Hình 2.3 mô tả mô hình tóm gọn (rolled) cách hoạt động của RNN đại diện
cho toàn bộ mạng thần kinh, hay đúng hơn là toàn bộ cụm từ được dự đoán, như "gần
mực thì đen." Mô hình chỉ tiết "unrolled" mô tả cho các lớp riêng lẻ, hoặc các bước
thời gian, của mạng thần kinh Mỗi lớp ánh xạ đến một từ duy nhất trong cụm từ đó,
chẳng hạn như từ “đen” Các đầu vào trước đó, chăng hạn như “gần” và “mực”, được
biểu diễn dưới dang trạng thái ân trong bước thời gian thứ ba để dự đoán đầu ra trong
Ngoài ra, có một sự khác nhau trong cách tính trọng số của mạng RNN và các
mạng thần kinh truyền xuôi Thông số của mạng RNN được chia sẻ trên toàn mạng,
trong khi đó, mỗi lớp của mạng thần kinh truyền xuôi có trọng số khác nhau Việcthiết kế như vậy tạo điều kiện dé tỉnh chỉnh vì các trọng số có thể được tinh chỉnhtrong quá trình truyền ngược của mạng RNN
Khác với phương pháp lan truyền ngược truyền thống, mạng RNN sử dụng
c BPTT là
thuật toán BPTT (lan truyền ngược theo thời gian) dé tính toán độ
phương pháp mà khi tính toán độ dốc, nó tính xuyên suốt từ đầu vào đến đầu ra Nhờ
Trang 26đó, BPTT giúp người sử dụng mô hình điều chỉnh thông số hợp lý hơn Ngoài ra,
phương pháp tính lỗi này cũng sử dụng lỗi ở mỗi bước theo thời gian, khác vớiphuobng pháp tính lỗi khác là tính tổng lỗi Lý do là vì RNN chia sẻ trọng số trênmỗi lớp.
Thông qua quá trình này, RNN có xu hướng gặp phải hai vấn đề là gradient
biến mắt va gradient bùng nổ Những vấn dé này được xác định bởi kích thước của
gradient, là độ dốc của hàm mắt mát dọc theo đường cong lỗi Khi gradient quá nhỏ,
nó tiếp tục nhỏ hơn, cập nhật các thông số trọng lượng cho đến khi chúng trở nên
không đáng kể — tức là 0 Khi điều đó xảy ra, thuật toán không còn học nữa Gradient
bùng né xảy ra khi gradient quá lớn, tạo ra một mô hình không ồn định Trong trườnghợp này, trọng số của mô hình phát triển quá lớn và cuối cùng chúng được biều diễn
dưới dạng NaN Phương pháp đề giải quyết là giảm số lượng lớp ẩn trong mạng than
kinh, loại bỏ một số độ phúc tạp trong mô hình RNN
2.2.5 Các loại mạng RNN
Các mạng truyền xuôi ánh xạ một đầu vào đến một đầu ra, tuy nhiên trong các
mạng thần kinh hồi quy trong sơ dé trên, chúng không có ràng buộc này Thay vào
đó, các loại mạng RNN khác nhau về độ dai và chúng cũng được áp dụng đê giải
quyết các bài toán khác nhau, chẳng hạn như tạo sinh văn bản, dịch máy, phân loạicảm xúc Các loại RNN khác nhau được mô tả trong bảng 2.3.
Trang 27Phân loại RNN Cấu trúc
Trang 28Bang 2.2 Phân loại cầu trúc RNN
Một số biến thé của mạng RNN có thé kể đến như:
© Mạng thần kinh hồi quy hai chiều (Bidirectional recurrent neural
networks - BRNN): Mạng hai chiều RNN cải thiện độ chính xác so với
RNN một chiều vì RNN chỉ có thé sử dung từ phía trước dé dự đoán từ
sau Ví dụ như câu “gần mực thì đen” trước đó này, mô hình có thể biết
được từ “mực” là từ thứ hai nếu mô hình được cho biết từ cuối trong
câu là “đen” Ngược lại, nếu từ cuối là từ "sáng" thi từ thứ hai có thé dự
đoán được là từ "đèn".
e Long short-term memory (LSTM): Mô hình này là mô hình dita trên
RNN được sử dụng rộng rãi trong các bai toán NLP dé làm giảm
gradient Mô hình RNN giảm hiệu quả khi các thông tin trong các lớp
trước không quá liên qua đến thông tin được dự đoán Giả sử chúng tamuốn mô hình RNN đoán từ (bo đậu phông) trong câu, “Adam bị dị
Trang 29ứng với các loại hạt Anh ấy không thé ăn bo đậu phông." Trong câu
này, cụm từ "các loại hạt" chính là bối cảnh giúp dự đoán từ Tuy nhiên,bối cảnh lại nằm ở quá xa từ cần dự đoán, vì vậy mạng RNN thông
thường khó mà lấy được thông tin Mạng LSTM chính là giải pháp khi
có "nhân" (cell) được an Ngoai ra cac cổng là cổng đầu vào, đầu ra,cổng quên (forget) cũng giúp dự đoán từ Trong một ví dụ, một đại từ
giới tính, ví dụ như “anh dy”, đã xuất hiện nhiều lần trong các câu trước
đó, LSTM có thể loại bỏ ra khỏi mạng
¢ Gated recurrent units (GRU): Đây là một biến thể tương tự như LSTMcủa mạng RNN khi nó cũng có thể giải quyết bài toán ô nhớ ngắn hạn.Thay vì sử dụng thông tin để tỉnh chỉnh “trạng thái ô”, mô hình sử dụngcác trang thái ấn Ngoài ra, GRU chỉ có hai công bao gồm công reset
và một công update Chúng hoạt động như mạng LSTM khi giúp cập
nhật thông tin chính xác hơn.
2.2.6 Sequence-to-sequence
Mô hình Sequence to Sequence (thường được viết tắt là seq2seq) là một lớp
đặc biệt của kiến trúc Mạng thần kinh hồi quy mà chúng ta thường sử dụng (nhưngkhông bị hạn chế) dé giải quyết các vấn đề ngôn ngữ phức tạp như Dịch máy, Trảlời câu hỏi, tạo Chatbots, Tóm tắt văn bản, v.v
Mô hình Seq2Seq điển hình có hai phần - bộ mã hóa (encoder) và bộ giải mã(decoder) Cả hai phần trên thực tế là hai mô hình mạng thần kinh khác nhau được
kết hợp thành một mạng khổng lồ
Trang 30XI
Encoder
Hình 2.4 Mô hình bộ encoder và decoder đơn giản.
Nói một cách khái quác, nhiệm vụ của mạng bộ mã hóa là hiểu trình tự đầuvào và tạo ra một biểu diễn chiều nhỏ hơn của nó Biểu diễn này sau đó được chuyển
tiếp đến mạng bộ giải mã tạo ra một chuỗi của chính nó đại diện cho đầu ra
2.2.7 Cơ chế attention
Khi một người cố gắng hiêu một bức ảnh, họ tập trung vào các phần cụ thểcủa bức ảnh để có được toàn bộ bản chất của bức ảnh Theo cách tương tự, chúng ta
có thể huấn luyện một hệ thống máy học tập trung vào các yếu tố cụ thể của hình ảnh
để có được toàn bộ “bức tranh” Đây thực chất là cách hoạt động của cơ chế attention
Thay vì chú ý đến trạng thái cuối cùng của bộ mã hóa như thường làm với
RNN, trong mỗi bước của bộ giải mã, mô hình xem xét tất cả các trạng thái của bộ
mã hóa, có thé truy cập thông tin về tat cả các phan tử của chuỗi đầu vào Day là
những gì cơ chế attention thực hiện, nó rút trích thông tin từ toàn bộ chuỗi, một tong
trọng số của tất cả các trạng thái bộ mã hóa trong quá khứ Điều này cho phép bộ giải
mã gán trọng số hoặc tầm quan trọng lớn hơn cho một phần tử nhất định của đầu vàocho mỗi phần tử của đầu ra Học trong từng bước để tập trung vào đúng yếu tố đầuvào đề dự đoán yếu tố đầu ra tiếp theo
Trang 312.2.8 Transformer
Kiến trúc Transformer tuân theo cấu trúc bộ mã hóa-giải mã (encoder-decoder)nhưng không dựa vào sự hồi quy (recurrence) và tích chập (convolutions) dé tạo rađầu ra
Hình 2.5 Mô hình encoder-decoder của kiến trúc Transformer [29]
Nói một cách ngắn gọn, nhiệm vụ của bộ mã hóa, ở nửa bên trái của kiến trúcTransformer, là ánh xạ chuỗi đầu vào thành một chuỗi các biểu diễn liên tục, sau đó
được đưa vào bộ giải mã.
Bộ mã hóa, ở nửa bên phải của kiến trúc, nhận đầu ra của bộ mã hóa cùng vớiđầu ra của bộ giải mã ở bước thời gian trước đó đề tạo ra một chuỗi đầu ra
Trang 322.2.8.1 Encoder (Bộ mã hóa)
Bộ mã hóa bao gồm một chồng N = 6 lớp giống nhau, trong đó mỗi lớp baogồm hai lớp con:
® Lớpcon đầu tiên thực hiện cơ chế tự chú ý nhiều đầu Cơ chế nhiều đầu
(head) thực hiện các đầu h nhận một phiên bản được chiếu tuyến tính
(khác) của các truy vấn, khóa và giá trị, mỗi truy vấn tạo ra h đầu rasong song sau đó được sử dụng đề tạo ra kết quả cuối cùng
© Lớp con thứ hai là một mạng chuyển tiếp được kết nối đầy đủ bao gồmhai phép biến đổi tuyến tính có kích hoạt Rectified Linear Unit (ReLU)
¢ Lớp con đầu tiên nhận đầu ra trước đó của ngăn xép bộ giải mã, tăng cường
nó với thông tin vị trí và thực hiện tự chú ý nhiều đầu trên nó Trong khi bộ
mã hóa được thiết kế để tham gia vào tat cả các từ trong chuỗi đầu vào bất kể
vị trí của chúng trong chuỗi, bộ giải mã được sửa đổi để chỉ tham gia vào các
từ trước đó Do đó, dự đoán cho một từ chỉ có thé phụ thuộc vào kết quả đầu
ra đã biết cho các từ đứng trước nó trong chuỗi
¢ Lớp thứ hai thực hiện cơ chế self-attention nhiều đầu (multi-head) tương tự
như cơ chế được triển khai trong lớp con đầu tiên của bộ mã hóa Về phía bộgiải mã, cơ chế nhiều đầu này nhận các truy vấn từ lớp con bộ giải mã trước
đó và các khóa và giá trị từ đầu ra của bộ mã hóa Điều này cho phép bộ giải
mã tham gia vào tắt cả các từ trong chuỗi đầu vào
Trang 33e_ Lớp thứ ba triển khai mạng chuyển tiếp nguồn được kết nối day đủ, tương tựnhư mạng được triển khai trong lớp con thứ hai của bộ mã hóa.
2.2.8.3 Cơ chế self-attention
Cơ chế co bản của kiến trúc transformer là cơ chế self-attention
Self-attention là một cơ chế Seq2Seq: một chuỗi các vectơ đi vào và một chuỗi các
vecto đi ra Gọi các vectơ đầu vào xi,x¿, X: và các vectơ đầu ra tương ứng
yi,y›, y Các vectơ đều có k thứ nguyên (dimension) Dé tạo ra vecto dau ra yi,
phép toán self-attention chi cần lấy giá trị trung bình có trọng số trên tat cả các
y¡ = » WijXj
i
Trong đó, j là chỉ mục trên toàn bộ chuỗi va tat cả các trọng sé tổng thành
vectơ đầu vào.
một trên tat cả j Trọng số w; ij không phải là một tham số như trong mạng thần kinhthông thường, mà nó được suy ra từ một hàm trên x; và x; Hàm này được tính bằng
tích vô hướng:
Wi = xix;
Tích số vô hướng ra một giá trị ở bat kỳ từ giữa âm đến đương vô cùng, vìvay chúng ta áp dung ham softmax dé ánh xạ các giá trị thành [0,1] và dé dam bảorằng chúng tổng bằng | trên toàn bộ chuỗi:
exp Wij
Dj exp Wi;
Day là nguyên tắc cơ bản của cơ chế self-attention
Vi dụ, mô hình Transfomer phải xử lý với một chuỗi các từ Để áp dụng cơchế self-attention, mô hình chỉ cần gán cho mỗi từ trong bộ từ vựng thành một vectơnhúng v; Đây là lớp được gọi là lớp nhúng trong mô hình trình tự Nó biến chuỗi
"hom, nay, tôi, đi, học” thành chuỗi vectơ
Vrom Pnay› Veoir Vai học
Nếu chúng ta đưa chuỗi này vào một self-attention, đầu ra là một chuỗi vecto
khác
Trang 34hôm» Ynay› Ytôi› Vai» học
Trong đó, y;ạ¡ là tong các trọng số của tắt cả các vectơ nhing trong chuỗi đầutiên, được tính trọng số bởi tích vô hướng của chúng với 1;ại
Trong hầu hết các trường hợp, mạo từ hoặc từ ghép không liên quan nhiềuđến việc giải thích các từ khác trong câu; do đó, chúng có tích vô hướng thấp hoặc
âm với tất cả các từ khác, ví dụ như nay Mặt khác, để giải thích ý nghĩa của việc
di học trong câu này, việc tìm ra ai đang đi học rất hữu ích Hành động này có thểđược thể hiện bằng một danh từ, vì vay đối với các danh từ như ứôi và động từ như
di, các vectơ như 1ạ¡, Va; có tích vô hướng cao, và dương.
2.2.9 Kiến trúc BERT
BERT về cơ bản là lớp mã hóa của kiến trúc Transformer
Mô hình BERT có rất nhiều phiên bản khác nhau Các mô hình dựa trên BERTkhác nhau có các thông số khác nhau, trong đó có 3 thông số được thay đồ chính:
e _L: là số khối các tầng con trong cấu trúc Transformer.
e _H: là kích thước của vectơ nhúng (hay được gọi là kích thước an)
© A: là số lượng đầu (head) trong lớp multi-head, trong đó mỗi head thực hiện
cơ chế self-attention
Có hai phiên bản: base có 12 lớp trong Bộ mã hóa trong khi
BERT-large có 24 lớp trong Bộ mã hóa Đây là lớn hơn so với kiến trúc Transformer đượctrình bày trong [29](6 lớp bộ mã hóa) Kiến trúc BERT (BASE và LARGE) cũng có
mạng truyền thing lớn hon (feed-forward network) (768 va 1024 don vị an tuong
ứng) và nhiều dau attention hơn (12 va 16 tương ứng) so với kiến trac Transformerban đầu (chứa 512 đơn vị ẩn va 8 dau attention) BERT-base chứa 110 triệu tham sốtrong khi BERT-large có 340 triệu tham só[30]
Trang 35Hình 2.6 So sánh cấu trúc của BERTbase và BERTlarge
Mô hình này lấy token CLS làm đầu vào (input), sau đó là một chuỗi các từ
làm đầu vào Ở đây, CLS là một loại token phân loại Sau đó, nó chuyển input chocác lớp trên Mỗi lớp áp dụng tinh năng self-attention, nghĩa là chuyền kết quả theodang mạng chuyền tiếp (feed-forward) sau đó chuyên giao cho bộ mã hóa tiếp theo
Mô hình xuất ra một vectơ có kích thước an (768 đối với BERTbase) Nếu chúng tamuốn xuất bộ phân loại (classifier) từ mô hình này, chúng ta có thé lấy đầu ra tương.ứng với token CLS Sau khi có được kết quả, các vecto này có thé được sử dụng déthực hiện một số tác vụ như phân loại, dịch
BERT nói chung có thê sử dụng làm một công cụ nhúng từ (word embedding)
rất tốt Về cơ bản, nhúng từ cho một từ là phép chiếu của một từ lên một vectơ có giátrị số dựa trên ý nghĩa của nó Có rất nhiều phương pháp nhúng từ như Word2vec,
GloVe,
Năm 2018, Peters và các cộng sự giới thiệu phương pháp embedding từ các
mô hình ngôn ngữ (ELMo) [31] ELMo khác với những cách nhúng trước đó vì nó
cho phép nhúng vào một từ dựa trên ngữ cảnh của nó, tức là từ được ngữ cảnh hóa.
Để tạo nhúng một từ, ELMo xem xét toàn bộ câu thay vì nhúng cố định cho một từ.ELMo sử dụng cấu trúc LSTM hai chiều được huấn luyện cho nhiệm vụ cụ thé dé cóthé tao các nhúng từ
Trang 36Phương pháp ELMo giúp máy học hiểu được ngôn ngữ nhờ được huấn luyện
đê dự đoán từ tiếp theo trong một chuỗi các từ Điều này rất tiện lợi vì chúng ta có
một lượng lớn dữ liệu văn bản mà một mô hình như vậy có thể học mà không cần
gán nhãn.
Vi mục tiêu của BERT là tao mô hình biểu diễn ngôn ngữ, nên nó chỉ cần phần
bộ mã hóa Đầu vào cho bộ mã hóa cho BERT là một chuỗi các token, đầu tiên được
chuyền đổi thành vectơ và sau đó được xử lý trong mạng thần kinh Nhưng trước khi
quá trình xử lý có thé bắt đầu, BERT cần đầu vào được tinh chỉnh bằng một số dữ
Quá trình nhúng từ theo ngữ cảnh
Encoder
liệu bổ sung bao gồm:
e Nhung token (token embedding): Token [CLS] được thêm vào token của từ ở
đầu câu đầu tiên va token [SEP] được chèn vào cuối mỗi câu
e - Nhúng phân đoạn (segmentation embedding): Một điểm đánh dấu cho biết Câu
A hoặc Câu B được thêm vào mỗi token Điều này cho phép bộ mã hóa phân
biệt giữa các câu.
Trang 37¢ Nhúng theo vi trí (positional embedding): Nhúng theo vị trí được thêm vào.
mỗi mã thông báo đê chỉ ra vị trí của nó trong câu.
Inout isi |Í my |[ dog |[ is |[ cute |[ tsem |[ he |[ tikes |[ play |[ ##ing |[ teen)
Embeddings E ILE: |[E; JLEs |[E¿ J[ E; JL E; JLE || Ee || E; || Eso
Hình 2.8 Biểu diễn đầu vào của mô hình BERT Các kết quả nhúng đầu vào là tổng các
token embedding, các segmentation embedding và các position embedding [30].
2.2.9.1 Mô hình BERT tinh chỉnh
Mô hình BERT đặc biệt hon các mô hình trước đây nhờ vào việc kết quả hudnluyện có thể được tỉnh chỉnh Theo như các tác giả [30], chúng ta có thêm một lớpđầu ra vào kiến trúc mô hình để tinh chỉnh nhiệm vụ huấn luyện
Hình 2.9 Mô hình pre-train và fine-tune của BERT cho các tác vụ khác nhau [30]
Mô hình BERT có thể được điều chỉnh tham số sao cho phù hợp với từng bàitoán khác nhau Nhờ đó, mô hình BERT có thể đáp ứng được cho nhiều bài toán
Tắt cả thông số của lớp chuyền tiếp được tỉnh chỉnh trong quá trình điều chỉnh
mô hình Đối với các tác vụ sử dụng chuỗi cặp (pair-sequence) làm đầu vào chẳng
Trang 38hạn như cặp câu hỏi và câu trả lời, mô hình thêm token khởi tạo [CLS] ở đầu câu và
token [SEP] ở cuối các câu
Trong nghiên cứu, tác giả mô tả quá trình tỉnh chỉnh như sau [30]:
1 Mô hình nhúng tất cả các token của cặp câu bằng các embedding vectơ, trong
đó bao gồm cả 2 token [CLS] dé đánh dấu đầu đoạn và token [SEP] để tách
câu Các token này được dùng để dự báo ở đầu ra của decoder và xác địnhphần bắt đầu và kết thúc của câu đầu ra
2 Các embedding vectơ được truyền vào mô hình multi-head self-attention (số
lượng block code tùy thuộc vào độ lớn của mô hình, có thé dao động từ 6 tới
24 khối) Kết quả thu được là 1 vectơ đầu ra tại encoder.
3 Ở mỗi khoảng thời gian, mô hình truyền vectơ đầu ra tạ encoder vào decoder
để dự đoán phân phối xác suất cho các từ cụ thể tại decoder.
4 Trong kết quả đầu ra của decoder, chúng ta có câu hỏi trùng với câu hỏi đầuvào và các vị trí còn lại là phần mở rộng và kết thúc tương úng với câu trả lờitìm được từ câu đầu vào
Để huấn luyện mô hình BERT, chúng ta có một số cách thức sau:
2.2.9.2 Masked Language Model (MLM)
Ý tưởng ban đầu: Che (masked) ngẫu nhiên 15% các từ trong dau vào - thay
thé chúng bằng token [MASK] - chạy toàn bộ chuỗi thông qua bộ mã hóa dựa trên
attention của BERT và sau đó chỉ dự đoán các từ được che Kết quả phải dựa trênngữ cảnh được cung cấp bởi các từ không bị che từ trong chuỗi Tuy nhiên, có mộtvấn đề với phương pháp che này - mô hình chỉ cố gắng dự đoán khi nào token[MASK] có mặt trong đầu vào, trong khi chúng ta muốn mô hình có gắng dự đoán
đúng token bất kể token nào hiện diện trong đầu vào Đề giải quyết vấn dé này, 15%
token trong đầu vào được chọn đề che
Cụ thể là:
e_ Các token đầu vào bi che bở [MASK], tỷ lệ này chiếm khoảng 15% Sau đó
các token được đưa vào mô hình và các từ bị che được dự đoán dựa vào các từ
không bị che Ngoài ra ngữ cảnh cũng đóng vai trò trong việc dự đoán từ Sốlượng bị che chỉ chiến tỷ lệ rât thấp (15%) nên không ảnh hưởng đến kết quả
Trang 39¢ BERT là mô hình dự trên kiến trúc seq2seq Trong đó, BERT có bộ mã hóahai chiều và bộ giải mã giúp nhúng từ và tìm các từ đầu ra dự vào phân phối
xác suất Để làm được việc đó, bộ mã hóa của Transformer được giữ lại khi
xử lý tác vụ này Sau khi BERT thực hiện cơ chế self-attention và chuyền tiếp,
chúng ta nhận được các vectơ nhúng làm đầu ra
e Đểtìmđầura dựa vào phân phối xác suất, BERT thêm một lớp fully connected
sau mỗi bộ giải mã của kiến trúc Transformer Hàm softmax được sử dụng détính toán phân phối xác suất Lớp fully connectd có số lượng phải bằng kíchthước của từ điển
© Sau cùng, BERT cho ra vectơ nhúng của mỗi từ đã bị đồi thành [MASK], đây
là vectơ nhúng đã giảm số chiều của vectơ đã đi qua lớp fully connected
2.2.9.3 Next Sentence Prediction (NSP)
Để hiểu mối quan hệ giữa hai câu, quá trình huấn luyện BERT cũng sử dụng
dự đoán câu tiếp theo Một mô hình được huấn luyện trước với kiểu này phù hợp vớicác nhiệm vụ như trả lời câu hỏi Trong quá trình huấn luyện, mô hình nhận được cáccặp câu đầu vào và nó học cách dự đoán xem câu thứ hai có phải là câu tiếp theotrong văn bản gốc hay không
Như đã mô tả trước đó, BERT phân tách các câu bằng một token [SEP] đặc
biệt Trong quá trình huấn luyện, mô hình được cung cấp hai câu đầu vào cùng một
lúc sao cho:
¢ 50% thời gian thì câu thứ hai đến sau câu thứ nhất
e 50% thời gian thì một câu ngẫu nhiên từ bộ ngữ liệu
BERT sau đó được yêu cầu để dự đoán liệu câu thứ hai có phải là ngẫu nhiên
hay không, với giả định rằng câu ngẫu nhiên bị ngắt khỏi câu đầu tiên Cụ thể như
Trang 402 Mỗi câu được thêm một vectơ, quy trình này là sentence embedding dé ghim
số thứ tự của câu
3 Các từ trong câu được ghép thêm một vecto mã hóa vị trí position embedding.
4 Đưa chuỗi vào mạng thần kinh Lấy vectơ đầu ra tại vị trí mã [CLS] được biến
đổi thành một vectơ có dang [cl c2]
5 Tinh hàm softmax trên vecto đó va đầu ra là khả năng của việc gin nhãnIsNext Đề định tính xem câu thứ hai có liên quan đến câu thứ nhất hay không,
cist |Í my |[ dog |[ is |[ cute |[ tsem |[ he |[ tikes |[ play |[ ##ing |[ teen:
Eras || Emy || Ea || Fs || Fore | | Esen || Ene || Eines | | Esay | | Essig | | Eesza