Trong đề tài này, nhóm đã sung vào bộ dữ liệu Tiếng Việt một tập dữ liệuphục vụ cho bài toán nàytrích xuất quan hệ có kích thước trên 10000 câu, cùng đa dạng các nhãn quan hệ hơn 19 nhãn
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
NGUYEN HÙNG TRUNG HIẾU — 20521323
TRINH THE HIẾN - 20521310
KHÓA LUẬN TÓT NGHIỆP
TRÍCH XUAT QUAN HE TREN TIENG VIET SỬ DỤNG
NHIEU CACH TIEP CAN TRONG VIEC BIEU DIEN
DUONG DI PHU THUỘC NGAN NHAT GIỮA CAC
THUC THE
Vietnamese Relation Extraction using Many Approaches of
Representing the Shortest Path Dependency between Entities
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
DO TRONG HOP
TP HO CHi MINH, 2024
Trang 2THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 3LỜI CẢM ƠN
Đề hoàn thành được bài khóa luận tốt nghiệp này, bên cạnh những có gắng, nỗ
lực đã bỏ ra trong suốt quá trình hoàn thiện, nhóm chúng em không thể không
kế đến sự giúp đỡ của quý Thay/Cé trường Dai học Công Nghệ Thông Tin
ĐHQG-HCM.
Lời đầu tiên, em xin trân trọng cảm ơn và bày tỏ lòng biết ơn sâu sắc đến TS
Đỗ Trọng Hợp và TS Trần Văn Thành, cũng như là ThS Tô Quốc Huy là cán
bộ phản biện của nhóm, là những người đã hướng dẫn tận tình, hỗ trợ và động
viên nhóm chúng em trong thời gian học tập, tìm hiểu và hoàn thiện bài khóa
luận tốt nghiệp này
Em cũng xin được gửi lời cảm ơn đến các quý thầy cô trường Đại học Công
Nghệ Thông Tin, đặc biệt là với các thầy cô thuộc khoa Khoa học và Kỹ thuật
thông tin Mọi người đã giúp nhóm chúng em học được nhiều kiến thức quý
báu, đồng thời tạo dựng một môi trường học tập linh hoạt và thoải mái cùng cácđồng đội trong lớp Khoa học dit liệu 2020 Đó là những bước đệm vững chắc
giúp nhóm chúng em hoàn thành tốt khóa luận tốt nghiệp
Cuối cùng, chúng em xin chân thành cảm ơn gia đình, bạn bè và các anh chị đã tiếpthêm động lực thúc đây và mang đến sự hỗ trợ cần thiết; điều này đã giúp chúng em
có thé hoàn thiện bài khóa luận tốt nghiệp này một cách tốt nhất
Mặc dù đã dành nhiều thời gian và nỗ lực trong quá trình thực hiện, chúng em
nhận thức được rằng có thé có những sai sót khó tránh khỏi vì sự hạn chế về
kiến thức và kinh nghiệm của nhóm chúng em Vì vậy chúng em mong nhận
được sự đóng góp ý kiến từ phía quý thầy, cô Những ý kiến này không chỉ giúpchúng em hoàn thiện kiến thức mà còn nâng cao kỹ năng dé áp dụng trong công
việc tương lai.
Trang 4Chương 1 MỞ ĐẦU 22 - SE SE 911211211 215211111117111111E 11111111111 c0 2
IIRACiuiii án 2
1.2 Mục tiêu và phạm vi nghiÊn CỨU <5 + + + E+kEEeeeeeeerereeeeeeee 2Chương 2 CÁC NGHIÊN CỨU LIEN QUAN -¿- 2+s+£xz£x++xzrserxee 6Chương 3 CƠ SỞ LÝ THUYÊT - 2-22 +¿22++2E++EE++EE2EEtEE+erxesrxrrrreee 10
3.1 Biểu diễn từ (Word embedding) - - s seSx+E++E+EEzEerEerkerkerkerkerkee 10
3.1.1 Ma hóa One-ho( Gv HS ng nhớt 103.1.2 Phương pháp đếm 2-©2¿+22+EE+EEEEEEEEEEEEEEEEEEEEEErkerkerree 11
3.1.3 Biểu diễn phân tán (Distributed represenftations) -. - 123.1.4 PhoBERT: Mô hình ngôn ngữ cho Tiếng Việt - 14
3.2 Phân tích cú pháp phụ thuộc (Dependency parsing) -«« «+ 18
3.3 Mạng Nơ-ron hồi quy (RNN)) c.sssssesssesssssssessssssesssessecssecssscssssseessecssseseeasecs 213.4 Mạng trí nhớ ngắn hạn định hướng dài hạn (LSTM) - 23Chương 4 BỘ DU LIEU TIENG VIỆT DE XUẤTT - 2 2 2 +cs+cs+zsz +2 27
4.1 Bo dữ liệu sốc: SemEval-2010 Task 8 - 5 +++2<<scc+++sseeeeces 27
4.2 Quy trình dịch và sửa 0 31
Chương 5 CÁC PHƯƠNG PHÁP TIẾP CẬN - 2 2 ++£x+2EzEzrxerxcrez 37
5.1 Chuỗi lưu vị trí của đường đi phụ thuộc nhắn nhất . - 37
Trang 56.1 Đánh giá về bộ dữ liệu -¿- 5¿©2+£22++2E+2EE2EEEEEESEEEEkrrkrerkrerkrrrres 416.2 Đánh giá kết quả mô hình 2: 5c £2++x+2E++EE++EE+2Exzxxerkesrxrrrrees 48
x00 D A.AA' ' 53
Chương 7 KET LUAN.ioeccececcsccsccssssssssescsscssessessesscseesscsvssessessessssucsessessessessessesnease 55
Chương 8 HƯỚNG PHAT TRIEN.Aww.ccceccsscsscsssessessesssessessesseessessessessessesseeseeseees 56
Trang 6DANH MỤC HÌNH
Hình 1.1: Minh họa đường đi phụ thuộc ngắn nhất trên Tiếng Anh 3Hình 1.2: Sơ đồ tổng quát các bước thực hiện trong bài toán -s-: 5Hình 2.1: Mô hình BERT-based đề xuất của nhóm tác giả -: - 6Hình 3.1: Minh họa cho One-hot encoding trong biểu diễn từ . 10
Hình 3.12: Lớp cong quên và công thức tính toán liên quan -:-:- 25
Hình 3.13: Lớp công vào và công thức tính toán liên quan của tế bào LSTM 25Hình 3.14: Cập nhật thông tin trên trạng thái tế bào và công thức tính toán liên quan
của tế bào LTSM cà 222 12200 HH HH re 26
Hình 3.15: Lớp cong xuất và công thức tính toán liên quan của tế bào LSTM 26
Hình 4.1: Thống kê lỗi thuộc nhóm ảnh hưởng đến đánh dấu thực thể 32
Hình 4.2: Thống kê lỗi ảnh hưởng tới ngữ nghĩa câu -2- 2 c5 5scs+zszse2 34
Hình 5.1: Minh hoạ cây cú pháp phụ thuộc và đường đi phụ thuộc ngắn nhất giữa
Trang 7DANH MỤC BANG
Bang 4.1: Bang thé hiện một số số liệu thống kê và tập nhãn của bộ dữ liệu ở bộ dit
liệu SemEval-2010 Task § 2- 22 ©S£©SE2EE£EEESEEEEE2EE12712221211711 2712112 cre 30
Bảng 6.1: Số điểm dữ liệu ở mỗi nhãn quan hệ ở bộ dữ liệu trước và sau khi chỉnh
Bảng 6.2: So sánh kết quả từ mỗi phương pháp huấn luyện trên dữ liệu dich tự động
và dữ liệu được chỉnh SỬa - <2 1E 111231111111 8531111 119993 1kg key 49 Bang 6.3: Độ đo F1 của từng nhãn quan hệ ở dữ liệu trước và sau khi được chỉnh
sửa từ phường pháp ImỘI - «11x HH HT TH HH HH 51
Bảng 6.4: Ma trận nhằm lẫn thu được của phương pháp một trên bộ dữ liệu sau khi
chỉnh sửa từ phương pháp ImỘI - - + 22212 E911 E951 kEEkErerrkrrrerree 51 Bảng 6.5: So sánh hiệu quả của mô hình trên từng tập thuộc tính 52
Trang 8DANH MỤC TỪ VIET TAT
Từ được viết tắt Từ viết tắt
BERT Bidirectional Encoder
Representations from Transformersand
GRU Gated recurrent unit
LSTM Long Short-Term Memory
RE Relation extraction
RNN Recurrent Neural Networks SDP Shortest path dependency
Trang 9TOM TAT KHÓA LUẬN
Trích xuất quan hệ có nhiều ứng dụng trong thực tế như tối ưu tìm kiếm thông tin,
xây dựng sơ đồ tri thức cũng như hỗ trợ cho các tác vụ khác trong xử lý ngôn ngữ
tự nhiên Trong đề tài này, nhóm đã sung vào bộ dữ liệu Tiếng Việt một tập dữ liệuphục vụ cho bài toán nàytrích xuất quan hệ có kích thước trên 10000 câu, cùng đa
dạng các nhãn quan hệ hơn (19 nhãn) so với các bộ đữ liệu tiếng việt hiện tại Với
hy vọng tac vụ này sẽ được nghiên cứu rộng rãi hơn, khác với các bai toán được
quan tâm nhiều, đã có đữ liệu và nghiên cứu áp dụng cho Tiếng Việt như nhận diệncảm xúc, nhận diện bình luận tiêu cực , thì bài toán trích xuất quan hệ vẫn chưa
được nhiêu cộng đông quan tâm.
Bộ dữ liệu được tạo ra bằng phương pháp dịch thuật từ nguồn dữ liệu Tiếng Anh, là
bộ SemEval 2010 Task 8 — một bộ dữ liệu nỗi tiêng và phô biến đối với bài toán
trích xuất quan hệ ở quốc tế Với cách tiếp cận này, nhóm sẽ có cơ sở dé so sánh vớicác phương pháp đã có của tiếng anh Trong quá trình việt hóa, nhóm cũng đã xây
dựng các quy trình kiểm và sửa lỗi rõ ràng, thống kê và so sánh ảnh hưởng tới mô
hình với các sửa đôi dữ liệu.
Đối với các phương pháp tiếp cận, cách tiếp cận chính trong bài là phương pháp
feature-based, kết hợp các yếu tố, đặc trưng của ngôn ngữ và các mô hình học sâu
hiện đại Nhóm cũng đã áp dụng PhoBERT — một mô hình ngôn ngữ tiên tiến trongtiếng việt dé tăng hiệu quả hiểu từ ngữ của mô hình Nhận thấy việc xác định quan
hệ giữa hai thực hệ trên câu không nhất thiết phải sử dụng toàn bộ các thông tin trêncâu, mà chỉ cần tập trung vào một số từ nhất định và cốt lõi mà xác định quan hệ,
được gọi là đường đi phụ thuộc ngắn nhất, nhưng chưa có nghiên cứu nao tập trungvào cách triển khai đặc trưng này lên mô hình, cũng như là, phương pháp này cũng
chưa được thực hiện trên tiếng việt mà hầu như chỉ có có trên tiếng anh Vì vậy,
nhóm cũng đã dé cập và so sánh nhiều phương pháp biểu diễn đường đi phụ thuộc
ngắn nhất khác nhau Kết quả thu được cao nhất là 0.8 trên độ đo macro F1 trong số
nhiều phương pháp trình bày
Trang 10Chương 1 MỞ ĐẦU
1.1 Giới thiệu bài toán
Trích xuất quan hệ (relation extraction) đóng vai trò quan trọng trong việc trích xuất
thông tin có cấu trúc từ các nguồn không có cấu trúc như văn bản thô Bài toán này
vai trò quan trọng trong việc xây dựng sơ đồ tri thức (knowledge graph) — một hệ
thống kết nối tất cả thông tin từ nhiều nguồn lại với nhau một cách có ý nghĩa, được
thé hiện bang các thực thé (entity) như khái niệm, đối tượng, sự kiện Chăng hạn
như Google Knowledge Graph ra mắt vào năm 2012 và tới giờ đã có trên 500 tỷ sự
kiện về 5 tỷ thực thé khác nhau, giúp cung cấp thông tin chính xác nhất tới người
dùng khi từ khóa được truy vấn
Các ví dụ về cơ sở dit liệu tri thức rất đa dạng từ các mối quan hệ gia đình, sự liên
kết trong xã hội tới các lĩnh vực đặc biệt như y tế, với các bài toán như phân tích
quan hệ giữa các thành phần đinh dưỡng, yếu tố sinh học, vi khuẩn và các biéu hiệnsức khoẻ Điều này giúp chúng ta tìm kiếm thông tin một cách nhanh chóng và hiệuquả trong việc nghiên cứu, quản lý thông tin, hoặc hỗ trợ quyết định
Ngoài ra, bài toán trích xuất quan hệ còn hỗ trợ cho các tác vụ hỏi đáp
(question-answering) Băng cách trích xuất các quan hệ từ văn bản và kết hợp với các công cụ
và mô hình hỏi đáp, ta có thé tìm kiếm và trả lời câu hỏi của người dùng dựa trên
thông tin quan hệ trong văn bản Ví dụ, nếu một câu hỏi yêu cầu "Thủ đô của Pháp
là gì?", một hệ thống trích xuất mối quan hệ có thé xác định thực thé "Pháp" là mộtđất nước và mối quan hệ "thủ đô của" trong một đoạn văn, từ đó có thể sử dụng détrả lời câu hỏi Điều này cung cấp một phương pháp mạnh mẽ dé truy xuất thông tin
cụ thê và chính xác.
1.2 Mục tiêu và phạm vi nghiên cứu
Trong lĩnh vực xử lý ngôn ngữ tự nhiên ở Tiêng Việt, khác với các bai toán được
quan tâm nhiêu, đã có di liệu và nghiên cứu áp dụng cho Tiêng Việt như nhận diện cảm xúc, nhận diện bình luận tiêu cực , thì bài toán trích xuât quan hệ vẫn chưa
Trang 11được nhiều cộng đồng quan tâm Đầu tiên, chỉ có một bộ dữ liệu phục vụ cho bài
toán này từ tổ chức cuộc thi VLSP 2020, tuy nhiên, tập dữ liệu này khá ít, các nhãn
quan hệ vẫn tương đối đơn giản và không đa dạng
Vì vậy, mục tiêu đầu tiên của nhóm là bé sung vào tập dữ liệu Tiếng Việt một
nguồn dữ liệu phục vụ cho bài toán trích xuất quan hệ có kích thước tương đối
(10000 câu) và đa dạng các nhãn quan hệ hơn (19 nhãn) với hy vọng tác vụ này sẽ
được nghiên cứu rộng rãi hơn.
Hiện nay đã có nhiều công trình khoa học nghiên cứu bài toán này Trong đó
phương pháp sử dung dependency parsing (phân tích phụ thuộc), cụ thé là các từ
trong câu sẽ xem như một cấu trúc cây, đường đi có hướng giữa các nót chính là
quan hệ ngữ pháp phụ thuộc giữa chúng Trên thực tế, để đánh giá mối quan hệ giữa
hai thực thê trong câu, ta không cần tất cả các từ trong câu mà chỉ cần một số lượng
từ nhất định là cốt lõi và liên quan đến quan hệ đó Vận dụng phương pháp nói trên,dependency parsing được phát triển thành shortest dependency parsing, chính là
đường đi ngắn nhất xét trên cây ngữ pháp giữa hai thực thể đã cho, ta sẽ đùng
những từ trên đường đi dé đánh giá quan hệ
poured
”~ %
gallons have been into
ON \trillion of [region],
Trang 12Mặc dù đã có nhiều công trình khai thác phương pháp trên, cùng với những mô hình
học sâu tiên tiến, nhưng dé biéu diễn, đánh dau phần đường đi ngắn nhất nói trên,
vẫn chưa được nhiều bài báo so sánh Với chúng tôi, dé cho ra được một kết quả với
độ chính xác tốt, những mô hình học phức tạp là cần thiết, nhưng phan biéu diễn dữliệu (data representation) lại thường bị ngó lơ Và biểu diễn các đặc trưng dữ liệu
tốt, thì mới có thể khai thác tối ưu được mô hình học phía sau Ngoài ra, các dự án,
nghiên cứu tác vụ trích xuất quan hệ trên tiếng việt hầu như tập trung xoay quanh
việc áp dụng một hoặc nhiều các mô hình ngôn ngữ hiện đại cho Tiếng Việt như
PhoBERT, XLM-RoBERTa (XLM-R), mà chưa đầu tư vào các yếu tô bản chất của
của ngôn ngữ như ngữ pháp, từ loại
Như vậy, mục tiêu thứ hai của nhóm là xây dựng mô hình thực nghiệm, tiếp cận
theo phương pháp featured-based, kết hợp các đặc điểm ngôn ngữ lại với nhau
Trong đó, tập trung vào yếu tô tìm ra các thông tin trên câu có ảnh hưởng nhiều
nhất đến mỗi quan hệ cần xác định bằng các quan hệ ngữ pháp giữa từ với từ Đồngthời, đề ra nhiều cách tiếp cận về mặt xử lí, biêu diễn dữ liệu cho cùng một ý tưởng
trên, cũng như so sánh hiệu năng mô hình trên tập dữ liệu mới Ba phương pháp
nhóm sẽ sử dụng trong bài và sẽ được trình bày chỉ tiết ở sau là:
- _ Chuỗi lưu vị trí của đường đi phụ thuộc nhắn nhất
- Don vị phụ thuộc
- Cây LSTM
Trang 131 Đánh dau sai e1
2 Đánh dau sai e2
3 Đảo trật tự e1 va e2
Bộ dữ liệu Kiem lỗi va phân loại
SemEval- 1 Thiếu tir
Hình 1.2: Sơ đồ tong quát các bước thực hiện trong bài toán
Tông quát, bài toán sẽ nhận đâu vao va dau ra cụ thê như sau:
- Pau vào: Một câu Tiếng Việt bất kỳ, có đánh dấu sẵn hai thực thể cần xác
định quan hệ
- Pau ra: Quan hệ ngữ nghĩa dựa hai thực thé đã được dé cập dựa trên tập
quan hệ đã được huân luyện, cũng như chiêu của quan hệ.
Trang 14Chương2 CÁC NGHIÊN CỨU LIÊN QUAN
Đối với bối cảnh tiếng việt, như chúng tôi đã trình bày chỉ có 1 nguồn dữ liệu đángtin cậy là từ tô chức cuộc thi VLSP 2020 Bộ dữ liệu này được thu thập từ các trangbáo điện tử, bao gồm có 3 quan hệ có chiều (LOCATED, PART-WHOLE,
ORGANIZATION-AFFILIATION) và một quan hệ không chiều
(PERSONAL-SOCIAL) Theo nhóm đạt kết quả cao nhất trong cuộc thi (Thuat Nguyen va Hieu
Man Duc Trong, 2020) [1], các phương pháp được sử dụng xoay quanh việc thử
nghiệm mô hình ngôn ngữ BERT Cụ thể, theo hình 2.1, nhóm tác giả đã sử dụng
hai mô hình BERT-based hỗ trợ tiếng việt là PhoBERT [2] và XLM-RoBER Ta
(XLMR) [3] dé sinh ra vector nhúng (embedding vector) cho mỗi cặp thực thé trên
từng câu, riêng đối với PhoBERT base đã được fine-tuned với thông số learning
rate là E-05 Sau đó kết hợp các vector đó lại (sử dung pooling, element-wise) thành
một vector nhúng tông hợp duy nhất, sau đó được đưa vào một mạng neuron gồm
nhiều lớp với 7 units (số nhãn cần phân loại) và hàm softmax activation ở lớp cuốicùng Kiến trúc được thê hiện như hình bên dưới Kết quả thu được là 72.06 trên độ
đo micro-averaged F1-score.
=) (8) (%)J sJ Ie Lš)J L-) GIGI &J (⁄) & le
Hình 2.1: Mô hình BERT-based đề xuất của nhóm tác giả
Trang 15Đối với bối cảnh tiếng anh, các phương pháp học giám sát được chứng minh là có
hiệu quả hơn trong việc phát hiện quan hệ so với phương pháp học không giám sát,
tuy nhiên, hiệu qua còn phụ thuộc vào chất lượng của các đặc trưng được thiết kế.
Các phương pháp trích xuất các đặc trưng phức tạp được chia làm 2 nhóm tiếp cận:feature-based và kernel-based.
Đối với phương pháp feature-based, các yếu tô phân loại như chuỗi từ, cây ngữ
pháp, từ loại được chuyên thành các vector thuộc tính (Kambhatla, 2004;
Suchanek et al., 2006) Zhou và các cộng sự (2005) [6]) xây dựng một tập hợp các
đặc trưng được tạo ra với mỗi mối quan hệ trong dữ liệu dùng dé huấn luyện, và
một bộ phân loại sẽ trích xuất một quan hệ Kambhatla (2004) [7] đã xây dựng môhình Maximum Entropy với các đặc trưng được lay từ các từ ngữ (word), loại thực
thé (entity type), mức đề cập (mention level), sự chồng chéo (overlap), cây phụ
thuộc (dependency tree) và cây phân tích cú pháp (parse tree) Mô hình đã đạt được
52.8 điểm F1 trên 24 ACE relation subtypes Tuy nhiên phương pháp này đòi hỏi
các nghiên cứu chuyên môn về lĩnh vực ngôn ngữ khi tìm kiếm các tập đặc trưng tối
ưu, cũng như tính hiệu quả của cách biéu diễn chúng khi chuyền thành các vector
z
LỆ
SO.
Còn đối với kernel-based, phương pháp này giảm gánh nặng cho phan xử lý thuộc
tính (feature-engineering) có cau trúc với KNN (K-Nearest neighbor) và SVM
(Support-vector machine) là hai vi dụ phổ biến Băng cách tính toán sự tương đồnggiữa hai đối tượng, kernel methods triển khai các thuật toán quy hoạch động
(dynamic programming) có thé học được những đặc trưng ngầm trên không gian
vector lớn hơn Điều này giúp giảm thiêu số lượng đặc trưng cần được tạo ra một
cách rõ ràng và tốn kém Theo Aron Culotta, Jeffrey Sorensen [4], nghiên cứu đã
xây dựng một mạng SVM cho bài toán, sau đó định nghĩa một tree-kernel cho cây
phân tích cú pháp phụ thuộc tăng cường, kết hợp với mô hình SVM để trích xuất
quan hệ Cách tiếp cận tree-kernel đã vượt trội so với bag-of-word kernel, suy ra
Trang 16phương pháp biêu diễn có câu trúc nay trên câu hiệu quả hơn trong bài toán xác
định và phân biệt các môi quan hệ.
mm “Troops advanced near Tikrit.”
-Word troops -Word near -Word Tikrit
d-POS NNS d-POS IN d-POS NP
g-POS noun g-POS preposition g-POS noun
Chunk-Type NP | Chunk-Type | PP 5 Chunk-Type NP
Entity-Type person _ Entity-Type _—— Entity-Type | geo-political
Entity-Level name Entity-Level ` a Entity-Level name
WordNet 77? | WordNet - ` WordNet ???
Relation-arg ARG | Relation-arg - Ả Relation-arg ARG_B
Hình 2.2: Cay phân tích cú pháp phụ thuộc tang cường
Với sự nồi lên của các phương pháp học sâu (deep learning), các nghiên cứu gần
đây cũng tập trung huấn luyện các mạng nơ ron để học đặc trưng Mạng tích chập
(CNNs) và mạng thần kinh hồi quy (RNNs) đã được sử dụng rộng rãi trong trích
xuất mối quan hệ Với mạng tích chập, Liu và các cộng sự (2013) [12] với mô hìnhdựa trên CNN đã đạt được kết qua 83.8% điểm F1 trên bộ dữ liệu ACE Hay Zeng
cùng các cộng sự (2014) [13] đề xuất một mô hình dựa trên CNN đã vượt qua SVM
và mô hình dựa trên Max Entropy với 82.7% điểm F1 trên bộ dit liệu
SemEval-2010 Task 8 Với mạng thần kinh hồi quy, Zhang va Wang (2015) [14] đã trình bay
mô hình dựa trên RNN kết hợp với chỉ số về vị trí thực thé (entity position
indicators) và được thực nghiệm trên hai bộ đữ liệu là SemEval-2010 Task 8 với kết
quả tốt nhất là 79.6% điểm F1 và KBP37 với kết quả tốt nhất là 58.8% điểm F1, cao
hơn so với mô hình dựa trên CNN từ 1-2% trên bộ dữ liệu SemEval-2010 Task 8 và
3-7% trên bộ dữ liệu KBP37 Ngoài ra còn có Zhu và các đồng nghiệp (2019) [15]
Trang 17với mô hình dựa trên Graph Convolutional Network (GCNs) được dé xuất và thé
hiện kết quả tốt hơn so với các mô hình dựa trên CNN và RNN Gần đây, Amir DN
Cohen, Shachar Rosenman và Yoav Goldberg (2021) đã đề xuất hệ thống two-way
span-prediction với kết quả trên bộ dữ liệu SemEval Task 8 2010 cao nhất đạt 91.9
Trang 18Chương 3 CƠ SỞ LÝ THUYET
3.1 Biểu diễn từ (Word embedding)
Các mạng nơ-ron và các mô hình tính toán khác hoạt động chủ yếu với dữ liệu
sé Trong lĩnh vực Thị giác máy tinh (Computer Vision), chăng hạn như nhận diện
đối tượng (object detection) va phân loại (classification), thông tin trong hình anh
thường được biểu diễn chi tiết và đầy đủ thông qua các pixel Chúng ta có thé đưa
hình anh qua các mạng nơ-ron tích chập (CNN) dé trích xuất thông tin từ hình ảnh
đó Tuy nhiên, đối với đữ liệu văn bản, thông tin không chỉ chứa trong các pixel màcòn liên quan đến ý nghĩa ngữ nghĩa giữa các từ Vì vậy, chúng ta cần một cách dé
biểu diễn dữ liệu văn bản về các con số một cách hiệu quả
3.1.1 Mã hóa One-hot
Ý tưởng đầu tiên là ta có thé sử dung biéu diễn one-hot (one-hot encoding) Dé
đại diện cho mỗi từ, ta sẽ tạo một vector có độ dài bằng số lượng từ vựng và tất
cả các phan tử trong vector đó sẽ có giá trị bang 0, sau đó gan giá trị 1 cho vị trị
tương ứng với từ đó trong vector one-hot này.
One-het encoding
Hình 3.1: Minh họa cho One-hot encoding trong biểu diễn từ
Quan sát bảng trên, ta nhận thấy có 3 vấn đề khi biểu diễn dữ liệu dạng văn bản
dưới dạng one-hot encoding:
- Chi phí tính toán lớn: Khi dữ liệu có sỐ lượng từ lớn, độ dài của vector hot ngày càng tăng Trong thực tế, dit liệu văn bản có thể chứa hàng triệu từ, gây
one-khó khăn cho tính toán và lưu trữ.
10
Trang 19- Thiếu giá tri thông tin: Các vector one-hot chủ yếu chứa giá trị 0, và chỉ cómột vị trí duy nhất mang giá trị 1 Trái lại, thong tin trong dữ liệu văn bảnthường nằm trong mối quan hệ giữa các từ và ý nghĩa của chúng One-hot vectorkhông thể biéu diễn được mối quan hệ này, vì nó chỉ đánh chỉ mục theo thứ tự từđiển mà không chứa thông tin về vị trí hay ngữ nghĩa trong một ngữ cảnh cụ thê.
Đề khắc phục điều này, thường sử dụng mô hình như RNN hoặc LSTM để trích
xuất thông tin về vị trí từ Cách tiếp cận khác là sử dụng mô hình transformer,loại bỏ hoàn toàn lớp word embedding hay RNN và thêm positional encoding và
self-attention.
- Độ khái quát yếu: Ví dụ, ta có ba từ cùng chỉ một khái niệm "người mẹ”:
"mẹ", "má", "bam" Tuy nhiên, từ "bam" thường xuất hiện hiếm trong tiếngViệt Khi sử dụng one-hot encoding, khi đưa vào mô hình huấn luyện, từ "bằm"
có thể bị phân vào các class khác nhau do cách biểu diễn khác nhau của nó
Trong khi đó, khi sử dụng word embedding, với khả năng biểu diễn vị trí và ngữ
nghĩa, từ "bam" sẽ có vị trí gần với hai từ còn lại Điều này phù hợp với mụctiêu của embedding, giúp mô hình hiêu được mối quan hệ giữa từng từ
3.1.2 Phương pháp đếm
Phương pháp này được sử dụng dé tính toán mức đồng xuất hiện giữa các từ, từ
đó đo lường mức độ liên quan ngữ nghĩa Bằng cách thống kê số lần hai từ xuấthiện cùng nhau, ta xây dựng một ma trận đồng xuất hiện Ví dụ, trong ma trận
đồng xuat hiện, từ "cơm" và "cá" có xuất hiện cùng nhau nhiều lần, cho thay
chúng có ý nghĩa tương đồng và sẽ được đặt gần nhau trong không gian vector
biểu diễn
Tuy nhiên, phương pháp này đối mặt với một nhược điểm khi dữ liệu quá lớn
Một số từ có tần suất xuất hiện cao nhưng lại không mang nhiều thông tin (ví
dụ: "a", "an", "the" trong tiếng Anh) Nếu ta thống kê cả số lượng dữ liệu này,
tần suất của những từ này sẽ làm mờ giá trị của những từ mang nhiều thông tin
nhưng xuất hiện ít hơn
11
Trang 20Đề giải quyết van đề này, có một giải pháp là điều chỉnh lại trọng số của dữ liệu
dé phù hợp với bài toán cụ thé Một thuật toán phô biến được sử dụng dé giải
quyết van dé này là TF-IDF Trong thuật toán này, TF (tần suất xuất hiện của
một từ trong tài liệu) va IDF (hệ sỐ nghịch đảo tần suất xuất hiện trong các tài
liệu) được kết hợp dé giảm trọng số của những từ xuất hiện nhiều nhưng khôngmang nhiều thông tin
3.1.3 Biểu diễn phân tán (Distributed representations)
Phương pháp này được phát triển dé vượt qua những hạn chế của các phương
pháp tiếp cận trước đó Phương pháp này sử dụng một mạng neural network cómột hoặc nhiều layer để tính toán sự tương đồng ngữ nghĩa giữa các từ và dự
đoán từ tiếp theo dựa trên các từ xung quanh (context word) Một context word
có thé là một hoặc nhiều từ Mikolov đã giới thiệu phương pháp này vào năm
2013 Trong bài báo đầu tiên, tác giả đã giới thiệu 2 kiến trúc mạng để học ma
trận nhúng từ Đặc diém của hai kiến trúc mạng này là chi phí tính toán sẽ thấp
hơn so với NNLM Trong bài báo thứ hai, tác giả đã đưa ra các giải pháp dé cải
thiện tốc độ huấn luyện và độ chính xác của mô hình Hai cấu trúc được giới
thiệu:
- Continuous Bag-Of-Words (CBOW)
Phương pháp CBOW sử dung ngữ cảnh của mỗi từ lam đầu vào và có gang
dự đoán từ tương ứng với ngữ cảnh Vi dụ, với câu "Hôm nay tôi di hoc",
phương pháp CBOW sẽ sử dụng duy nhất từ "học" làm ngữ cảnh đầu vào và
cố gang dự đoán từ "đi" Cu thé hon, CBOW sử dụng mã hóa one-hot của tu
đầu vào và đo lỗi đầu ra của mạng nơ ron đối với mã hóa one-hot của từ mục
tiêu ("di").
Ngoài ra, chúng ta có thể xây dựng các kiến trúc dự đoán một từ băng nhiều
từ xung quanh Trong quá trình dự đoán từ mục tiêu, mô hình sẽ học được
12
Trang 21cách biêu diễn vectơ của từ mục tiêu.
Mô hình Skip-gram một phương pháp học nhúng từ dao ngược của mô hình
CBOW Cho trước một vị trí ngữ cảnh, mô hình Skip-gram sẽ đưa ra phân bố
xác suất của mỗi từ ở vị trí đó Trong cả hai trường hợp, mạng sử dụng lan
truyền ngược dé học cách biéu diễn vecto của từ
Theo Mikolov, tác gia của word2vec, cả hai phương pháp CBOW và
Skip-gram đều có những ưu điểm và nhược điểm riêng Skip-Skip-gram hoạt động tốtvới lượng dữ liệu nhỏ và có thể hoạt động với tập từ vựng có chứa các từhiếm Mặt khác, CBOW có thé học trong thời gian ngăn và cho ra các biểudiễn tốt hơn cho các từ thông dụng
13
Trang 223.1.4 PhoBERT: Mô hình ngôn ngữ cho Tiếng Việt
PhoBERT là mô hình ngôn ngữ được huấn luyện sẵn dành riêng cho tiếng Việt
đầu tiên Từ “Pho” trong cái tên “PhoBERT” là tên của một món ăn phô biến ở
Việt Nam Mô hình được xây dựng trong giai đọan mô hình ngôn ngữ được
huấn luyện sẵn BERT trở nên vô cùng phô biến cùng các biến thê đa dạng của
nó góp phần phát triển hiệu suất của các mô hình trong lĩnh vực xử lý ngôn ngữ
tự nhiên Tuy nhiên, BERT và các biến thể của nó phần lớn đã bị giới hạn trong
tiếng Anh và sẽ không đạt được kết quả tốt tương tự đối với các ngôn ngữ khác
Dé giải quyết van dé nay, ta có thé áp dung một trong hai cách: cách một là huấnluyện lại một mô hình mang kiến trúc BERT với dữ liệu dành riêng cho ngôn
ngữ đó; cách hai là sử dụng một mô hình ngôn ngữ multilingual dựa trên BERT
đã được huấn luyện sẵn PhoBERT được xây dựng theo cách đầu tiên
14
Trang 23Tương tự như BERT, PhoBERT cũng được giới thiệu với hai phiên ban:
PhoBERTbase với 12 transformers block và PhoBERTbase với 24
btransformers block Cả hai đều có cùng kiến trúc với BERTbase va BERTlarge
và cách tiếp cận pre-training tương tự với RoBERTa, một mô hình cải tiến của
BERT, nhằm tối ưu quy trình pre-training và dat được hiệu suất mạnh mẽ hơn
Về van dé dữ liệu dùng dé huấn luyện, trước khi PhoBERT xuất hiện, các mô
hình ngôn ngữ được huấn luyện trên tiếng Việt đã gặp hai thách thức sau:
- Wikipedia tiếng Việt là bộ dữ liệu duy nhất được dùng dé huấn luyện, và nó
cũng là bộ dữ liệu tiếng Việt duy nhất có mặt trong pretraining data (dữ liệuđược sử dụng dé huấn luyện một mô hình ngôn ngữ lớn chưa được huấn
luyện trước đó) được sử dụng bởi tất cả các mô hình ngôn ngữ đa ngôn ngữngoại trừ XLM-R Tuy nhiên bộ dữ liệu tiếng Việt này có kích thước khánhỏ (khoảng 1GB khi chưa nén), trong khi các mô hình ngôn ngữ được huấn
luyện sẵn có thể tiếp tục được cải thiện thêm một cách đáng kế băng cáchcung cấp thêm nhiều pretraining data hơn
- Moi mô hình ngôn ngữ monolingual va multilingual dựa trên BERT thường
không nhận ra được sự khác biệt giữa các âm tiết và các word tokens trong
tiếng Việt Giải thích cho việc này là vì khi các từ được tạo thành từ nhiều
âm tiết, ví dụ như “tên lửa”, thì khoảng cách sẽ được dùng để phân tách các
âm tiết đó ra Đây là sự khác biệt trong cách sắp xếp các âm tiết trong từ củatiếng Việt Xem xét đoạn văn có 6 âm tiết sau: “Tôi là một nghiên cứu viên”
có thé tạo thành 4 từ: “Tôi là một nghiên cứu viên”
Đề giải quyết van đề đầu tiên, PhoBERT đã được huấn luyện với một bộ dit liệupre-training có kích thước 20GB Bộ dữ liệu này là sự kết hợp của hai corpus:
đầu tiên là Vietnamese Wikipedia Corpus với kích thước khoảng 1GB, và bộ thứ
hai được lấy từ Vietnamese News Corpus sau khi trải qua quá trình sàng lọc
nhằm loại bỏ các bài viết có nội dung tương tự nhau hoặc cái bai viết bị trùng
lặp Bộ thứ hai sau khi được sàng lọc có kích thước khoảng 19GB Để giải
15
Trang 24quyết vấn đề thứ hai, nhóm nghiên cứu đã áp dụng RDRSegmenter từ thư viện
VnCoreNLP để thực hiện phân đoạn xử lý tách từ và câu trên bộ dữ liệu
pre-training Kết quả là 145 triệu câu đã được tách từ (gần 3 tỷ word tokens) Tuy
nhiên, khác với mô hình RoBERTa, fastBPE được áp dụng dé phan doan cac
câu văn thành các Subword Units, sử dụng bộ từ vựng gồm 64.000 loại
subwords Trung bình sẽ có khoảng 24,4 subword token cho mỗi câu.
Về mặt tối ưu hóa mô hình PhoBERT, RoBERTa đã được sử dụng thông qua
thư viện fairseq Độ dài tối đa (maximum length) đã được thiết lập là 256
subword token, từ đó tạo ra khoảng 145M x 24.4 / 256 = 13.8 triệu “sentence
block” Thuật toán tối ưu Adam cũng đã được áp dụng cho PhoBERT Các
thông số khác như batch size, learning rate đã được thiết lập phù hợp dé chạy
trên 4 GPU V100 (mỗi GPU khoảng 16GB) Mô hình chạy trong 40 epochs với
thông số learning rate tăng dan mỗi 2 epochs) Mô hình PhoBERTbase đã được
huấn luyện trong 3 tuần và sau đó là PhoBERTlarge trong 5 tuần
Sau khi hoàn thành mô hình, các thử nghiệm đánh giá khả năng và hiệu suất của
PhoBERT đã được thực hiện ở các nhiệm vụ thuộc lĩnh vực xử ly ngôn ngữ tự
nhiên đối với tiếng Việt như: gán nhãn từ loại (Part-of-speech tagging), phân
tích sự phụ thuộc về cú pháp (Dependency parsing), nhận dạng thực thé trong
câu (Named-entity recognition), suy luận ngôn ngữ tự nhiên (Natural language
inference) Ở đây mô hình PhoBERT đã được tinh chỉnh (fine-tuned) sao cho
phù hợp với mỗi nhiệm vụ khác nhau.
16
Trang 25POS tagging (word-level) Dependency parsing (word-level)
Model Acc | Model LAS/UAS
XLM-Roase 96.2 | Biaffine w/ XLM-Rpase 76.46 / 83.10
XLM-Riarge 96.3 | Biaffine w/ XLM-Riarge 75.87 / 82.70
PhoBERTpase 96.7 | Biaffine w/ PhoBERThase 78.77 / 85.22
PhoBERTiarge 96.8 | Biaffine w/ PhoBERTiarge 77.85 / 84.32
NER (word-level) NLI (syllable- or word-level)
VnCoreNLP-NER 88.6 | BiLSTM-max 66.4
VNER 89.6 | mBiLSTM 72.0
BiLSTM-CNN-CRF + ETNLP 91.1 | multilingual BERT 69.5
VnCoreNLP-NER + ETNLP 91.3 | XLMwumetum 76.6
XLM-Roase 92.0 | XLM-Rbase 75.4
XLM-Riarge 92.8 | XLM-Riarge 79.7
PhoBERTnase 93.6 | PhoBERT›a;e 78.5
PhoBERTiarge 94.7 | PhoBERTiarge 80.0
Hình 3.4: Độ chính xác của PhoBERT với tác vụ phổ biến
Tùy vào các nhiệm vụ mà hiệu suất của mô hình được đánh giá bằng các chỉ số
khác nhau: với nhiệm vụ Gán nhãn từ loại và Suy luận ngôn ngữ tự nhiên thì chỉ
sé Accuracy được áp dung; nhiệm vu NER phù hop với chi số F1 score; riéng
nhiệm vu Dependency parsing được áp dung hai chỉ số là LAS (Labelled
Attachment Score) va UAS (Unlabelled Attachment Score) Chi số UAS là tỷ lệphan trăm các từ trong câu được gan đúng quan hệ mà không cần đúng nhãn củaquan hệ đó Còn chỉ số LAS là tỷ lệ phần trăm các từ trong câu được gán đúng
cả quan hệ và nhãn của quan hệ đó.
Bảng được thé hiện trong hình so sánh các chỉ số đánh giá hiệu suất, độ chính
xác của PhoBERT với các mô hình đã từng cho ra kết quả tốt nhất từng được
báo cáo trước đó Rõ ràng rằng PhoBERT đã cho thấy chỉ số đánh giá hiệu suất
cao hơn trên cả 4 nhiệm vụ:
17
Trang 26e Với nhiệm vu gan nhãn từ loại (POS tagging): PhoBERT đã đạt được độ
chính xác cao hơn hắn 0.8% hơn hai mô hình SOTA trước đó từng đạt được
khoảng 96%.
e Với nhiệm vụ phân tích sự phụ thuộc về cú pháp (Dependency parsing):
PhoBERT đã cải thiện sức mạnh của mô hình Biaffine parser va đạt được chỉ
số UAS và LAS cao hơn khoảng 4%
e Với nhiệm vụ nhận dạng thực thé trong câu (Named-entity recognition): cả
hai phiên ban của PhoBERT đều đạt được chỉ số F1 score cao hơn hai mô
hình SOTA trước đó có cơ sở dựa trên đặc trưng và mạng thần kinh nhân tạo(neuron network) là VnCoreNLP-NER và BiLSTM-CNN-CRF.
e V6i nhiệm vụ suy luận ngôn ngữ tự nhiên (Natural language inference):
PhoBERT đã thể hiện vượt trội hơn cả mô hình đa ngôn ngữ được huấnluyện sẵn XLM-R trong khi sử dụng ít thông số hơn rất nhiều: 135 triệu
(PhoBERToase) so với 250 triệu (XLM-Roase); 370 triệu (PhoBERTiarge) SO với
560 triệu (XLM-Riarge).
Qua các thực nghiệm trên, chúng ta thấy được sự khả dụng của PhoBERT khi
mô hình này hoạt động tốt hơn mô hình đa ngôn ngữ tốt nhất vào thời điểm đó làXLM-R Chúng tôi tin rằng PhoBERT sẽ hỗ trợ chúng tôi rất nhiều trong bài
nghiên cứu của mình.
3.2 Phan tích cú pháp phụ thuộc (Dependency parsing)
Trong việc xử lý ngôn ngữ tự nhiên, phân tích mối quan hệ giữa các từ trong một
câu là một khía cạnh cực kỳ quan trọng Điều này có thê được áp dụng trong nhiềuvan đề khác nhau dé giúp máy tính hiéu ngôn ngữ tự nhiên một cách tốt nhất Khi
chúng ta đọc một câu, chúng ta có thê nhận ra rang các từ trong câu thường có môi
quan hệ phụ thuộc vào nhau Ví dụ, trong câu:
Anh ay đang viết báo cáo rất chăm chỉ
18
Trang 27Chúng ta có thé nhìn thay động từ chính của câu là "đi", và người thực hiện hành
động đó là "Anh ấy", từ "báo cáo" cũng là một bổ ngữ cho động từ "viết", và từ "rấtchăm chỉ" cũng là một bé ngữ cho động từ "viết" Mối quan hệ phụ thuộc giữa các
từ trong câu được gọi là quan hệ ngữ pháp, một lĩnh vực quan trọng và cực kỳ quan
trọng trong Xử lý Ngôn ngữ Tự nhiên (NLP).
Trong quan hệ ngữ pháp, luôn có một động từ được chọn làm trung tâm của câu.
Tất cả các từ khác trong câu sẽ kết nối trực tiếp hoặc gián tiếp với động từ trung tâm
này Cấu trúc này có thể được biéu diễn dưới dang cây phân tích cú pháp, trong đó
động từ trung tâm được chọn làm gốc
Bo da ăn cái bánh ở công viên
Hình 3.5: Minh họa phân tích cú pháp phụ thuộc trên câu Tiếng Việt
Một quan hệ phụ thuộc thể hiện bằng 1 mũi tên có hướng Theo quy ước phổ biến
trong các tài liệu về cú pháp phụ thuộc thì có quy định các thông tin như sau:
- head: đầu không có mũi tên, là từ được bỗ nghĩa
- dependent: đầu có mũi tên, là từ bổ nghĩa
- label: quan hệ phụ thuộc giữa 2 từ này.
Một số nhãn ngữ pháp phụ thuộc phổ biến là:
- nsubj (Nominal subject): chủ ngữ, chủ thé
- dobj (Direct object): tan ngữ trực tiếp
- nmod (Nominal modifier): danh từ bổ nghĩa
19
Trang 28- amod (Adjectival modifier): tinh từ bổ nghĩa
- nummod (Numeric modifier): số từ bố nghĩa
- ccomp (Clausal component): Mệnh dé thanh phan
- xcomp (Open clausal component): Mệnh đề thành phan mở rộng
- aux (Auxiliary): phụ từ, trợ động từ
Đề biểu diễn các mối quan hệ phụ thuộc trong một câu, phương pháp thông dụng là
sử dụng biéu diễn của các cặp từ trong câu Một công cụ phân tích cú pháp phụ
thuộc phổ biến 1a Stanford Parser Đối với cộng đồng tiếng Việt, có nhiều công cụ
hỗ trợ, phố biến nhất là vncorenlp và underthesea.Đồ thị cú pháp phụ thuộc sẽ có
các tính chât sau:
- _ Liên thông yếu (có xét hướng)
- _ Mỗi mục từ có chính xác một cạnh đi vào (trừ root là không có cạnh di vào)
- _ Không có chu trình
- _ Nếu có nmục từ trong câu (ké cả root) thì đồ thị có chính xác (n-1) cạnh
Nhờ cách mô hình hóa như vậy, phân tích cú pháp phụ thuộc có thé biéu diễn được
những ngôn ngữ có trật tự từ tự do Điều này làm cho phân tích cú pháp cấu trúc
cụm trở nên không phù hợp với những ngôn ngữ có nhiều quy tắc chặt chẽ trong
cấu trúc câu Tuy nhiên, điều đó không có nghĩa là chỉ cần sử dụng cấu trúc cụm
cho phân tích ngôn ngữ có trật tự từ xác định hoặc chỉ sử dụng cấu trúc phụ thuộc
cho phân tích ngôn ngữ có trật tự từ tự do.
Ngoài việc áp dụng trong bài toán trích xuất quan hệ như đã trình bày, phân tích cú
pháp phụ thuộc còn có các ứng dụng khác, ví dụ như trong dịch máy (machine
translation), giúp đảm bảo cấu trúc ngữ pháp và trật tự từ chính xác khi dịch giữa
20
Trang 29các ngôn ngữ.
She has a gray cat Cô_ ấy có một con_ mèo xám
has có
g Ss, geensubj dobj nsubj dobj
“ N ——> sB„ `
She cat Cô ấy con _mèo
il » yf Nw
a gray một xám
Hình 3.3: Cây phân tích cú pháp phụ thuộc trong dịch thuật
She has a gray cat Cô_ ấy có một con_ mèo xám
has có
SN, “A Emnsubj dobj nsubj dobj
⁄ GY g-— xShe cat Cô ây con_ mèo
il ay, /
a gray một xám
Hình 3.6: Cây phân tích cú pháp phụ thuộc trong dịch thuật
3.3 Mạng Nơ-ron hồi quy (RNN)
Mạng nơ-ron hồi quy, có nguồn gốc từ mạng nơ-ron truyền thang, là một ý tưởng về
một phiên bản cải tiến của mạng nơ-ron như một giải pháp nhằm xử lý dữ liệu mang
tính trình tự - một van đề của mạng nơ-ron bình thường Như đã biết, mạng nơ-ron
bao gồm 3 lớp chính là: input layer, hidden layer, output layer; đặc biệt đầu vào vàđầu ra của mô hình độc lập với nhau Vì vậy, mô hình sẽ không phù hợp với những
bài toán dạng chuỗi như hoàn thành cau, vì để có thé dự đoán từ tiếp theo trong
câu thì sẽ kết quả sẽ phụ thuộc vào vị trí của từ đó trong câu và những từ đằng trước
nó Qua đó, RNN ra đời với đề xuất về việc sử dụng bộ nhớ thông qua trạng thái an
(hidden state) nhằm lưu lại thông tin từ dữ liệu đã được xử lý trước đó, mô hình sẽ
21
Trang 30dựa vào đó đê có thê đưa ra các dự đoán chính xác nhât cho đên bước dự đoán hiện
tại.
Vệ mặt câu trúc, RNN là một dạng mạng nơ-ron sử dụng trạng thái ân và cho phép
dau ra ở bước trước đó được dùng làm đâu vào ở bước tiép theo Cau trúc của nó
được thể hiện ở hình dưới:
Nếu như với mạng no-ron nhận đữ liệu x qua input layer va đi qua hidden layer h
và cho ra kết quả ở output layer là y thì với RNN, ở mỗi bước £ các input xếf” sẽ
<t-1> ở bước trước đó là (£ — 1) bằng hàm g, déđược kết hợp với hidden layer là a
tính toán ra hidden layer a!> ở bước hiện tại t và output là y<* sẽ được tính toán
từ a“f; W là các tập trọng số Như vậy kết qua từ các bước tính toán trước đã được
“shi nhớ” bằng cách kết hợp thêm a<°~!> dé tính ra a“f” nhằm làm tăng độ chính
xác cho những dự đoán ở bước hiện tại.
Quá trình tính toán cụ thể có thể được trình bày dưới công thức toán học như sau:
ast? = g,(a<t->, x<) =, (W,„a<t~1> + „xế? + ba)
<t> _ <t>
yr" =W› (Wyaa + by)
với 3 hệ số mới là Wigs Way, Mùa Đối với mạng nơ-ron chỉ sử dụng một ma trận
trọng số W duy nhất thì RNN lại sử dụng 3 ma trận trọng số cho hai quá trình tính
toán: WZ„„ kết hợp với “bộ nhớ trước”, hay hiddent state ở bước trước đó, là h*t"1>;
W,x kết hợp với dữ liệu xế?” dé tính toán trạng thái ân của bước hiện tại là h“f, từ
22
Trang 31đó kết hợp với W,q đề tính ra y< Các ham gy, g2 là các hàm kích hoạt như
sigmoid, tanh, relu Quá trình tính toán được thé hiện qua hình ảnh dưới
Hình 3.§: Giao tiếp giữa các công trong câu trúc tế bào RNN
RNN đã cho thay ưu điểm của nó khi có thê xử lý dữ liệu có tính tuần tự một cách
hiệu quả như văn bản, giọng nói và dữ liệu theo thời gian Nó có thé chia sẻ và thayđổi trong số sao cho phù hợp qua các bước chạy, qua đó nâng cao hiệu quả huấn
luyện mô hình Đồng thời RNN có thê xử lý dữ liệu đầu vào có độ dài bất kỳ, một
điều không thể đối với mạng nơ-ron truyền thăng Tuy nhiên, tốc độ tính toán của
RNN cũng sẽ chậm hơn nhiều so với các mô hình mạng nơ-ron khác, làm tăng thêmthời gian huấn luyện Nó cũng dễ gặp tình trạng vanishing/exploding gradient, dẫnđến hiện tượng mat mát thông tin đã học được ở các bước trước đó và làm cản trở
quá trình huấn luyện mô hình
3.4 Mạng bộ nhớ dài-ngắn (LSTM)
Một điểm nổi bật ở RNN là ý tưởng của nó về việc “ghi nhớ” thông tin học được
trước đó dé dự đoán cho hiện tại Tuy nhiên chúng không phải lúc nào cũng đáp
ứng được điều đó Ví dụ cho câu: “các toa nhà trong thành pho” thì khi đọc tới
“các tòa nhà trong thành” là đủ dé đoán được từ tiếp theo là “pho” mà không cần
23
Trang 32thêm thông tin từ các câu văn trước đó Trong tình huống này khoảng cách tới thông
tin cần dé dự đoán là rất ngắn nên RNN có thé học được Tuy nhiên trong nhiều tình
huống ta sẽ cần nhiều ngữ cảnh hơn để suy ra Ví dụ: dự đoán từ cuối trong câu “tôi
sinh ra ở Hải Phòng Tôi nói giọng Bắc” Rõ ràng rằng không có ngữ cảnh
“sinh ra ở Hải Phòng” ta không thé đoán ra được giọng trong câu sẽ là giọng nào
Thực tế đã cho thấy, khi khoảng cách với thông tin cần thiết càng xa thì RNN càng
khó nhớ và không học được nữa.
Mạng trí nhớ ngắn hạn định hướng dài hạn — mạng LSTM - là một dạng đặc biệt
của RNN, được dé xuất dé giải quyết van đề phụ thuộc xa (long-term dependency)
mà RNN không thé vượt qua Ưu điểm của nó là khả năng ghi nhớ thông tin trong
thời gian dài là đặc tính mặc định của nó mà không cần trải qua huấn luyện.
LSTM có cấu trúc tương tự như RNN, điểm khác biệt cũng chính là ý tưởng của
LSTM, đó là trạng thái tế bào (cell state), cũng là bộ nhớ thông tin của nó Chúng
chạy xuyên suốt mô hình và ít tương tác tuyến tính nên thông tin có thé được truyền
đi mà không lo bị thay đổi Các cổng là nơi duy nhất có thê thêm, bớt thông tin
trong trang thái tế bào LSTM có 3 cổng như vậy đề duy trì và kiểm soát trạng thái
tê bào.
Hình 3.9: Trạng thái tế bào trong tế bào LSTM
Bước đầu tiên được thực hiện của LSTM là quyết định xem thông tin nào trong
trang thái tế bào cần phải bị loại bỏ Quyết định nay được đưa ra bởi tang cổng quên(forget gate layer) Nó sẽ lay đầu vào là trạng thái ân ở bước trước đó là h,_; va dit
24
Trang 33liệu đầu vào ở bước t là x¡ Và trả về kết quả là một số năm trong khoảng [0,1] cho
mỗi số trong trạng thái tế bào là Œ;_¡ Dau ra là 1 cho thấy thông tin sẽ được giữ lại,
còn kết quả là 0 thì thông tin sẽ bị xóa bỏ
Hình 3.10: Lop cổng quên và công thức tính toán liên quan
Bước tiếp theo là quyết định xem thông tin mới nào sẽ được lưu vào trạng thái tế
bào Đầu tiên thông tin sẽ được đưa vào tang cong vào (input gate layer) dé quyết
định thông tin nào được cập nhật Tiếp theo là hàm tanh tạo ra một vec-tơ cho thông
tin mới là C, dé thêm vào trạng thái tế bào.
ip = 0 (Wj-[he_1, 2%] + b,)
C; = tanh(We-|h¿T-i,+¿| + be)
Hình 3.11: Lớp công vào và công thức tính toán liên quan của tế bào LSTM
Sau đó là lúc cập nhật trạng thái tế bào cũ là C,_, vào trạng thái mới Œ¿ Ta sẽ nhân
trang thái cũ với f, , kết quả từ cổng quên, dé bỏ đi thông tin được quyết định là cần
quên đi trước đó Sau đó là thêm i, + C, dé cập nhật thông tin mới vào trạng thái tếbào.
25
Trang 34bào cần được xuất ra Sau đó ta nhân nó với trạng thái tế bào đã qua hàm tanh đề có
được giá trị đầu ra mong muôn.