STEP STACK BUFFER OPERATOR LABEL
Minh 2.13: Sự kế ng chưa, fen và khung hoàn thiện thích hợp để tạo thành
3.2 Thăm dò đặc trưng ngôn ngữ (Probing)
Các mô hình PLM cho phép chúng ta sử dụng học chuyển tiếp (transfer learning) cho các tác
vụ cụ thể mà không cần dùng đến một lượng lớn dữ liệu cho quá trình huấn luyện nhờ vào các thông tin ngôn ngữ được biểu diễn được tạo ra bởi các mô hình PLM như BERT nhờ vào sự
mã hóa thông tin, vậy câu hỏi đặt ra là,
Kiến thức ngôn ngữ nào được mã hóa vào BERT?
Dán nhãn tự động
Để trả lời cho câu hỏi này, một số nghiên cứu đang cố gắng để thăm dò loại kiến thức ngôn ngữ nào chứa trong các lớp mang neural [7; 26; 27; 66; 67]. Chủ đề chung xoay quanh các phương pháp khác nhau có thể được gom lại dưới dang "probes"(hoặc các probes classifier, phân loại chan đoán, các tác vụ dự đoán phụ), mà trước đó được sử dụng để khám phá cách
mà mạng neural xử lý các tác vụ ngôn ngữ phụ (hoặc các tác vụ probe, hoặc các tác vụ bổ sung).
i Layer ns
Asean Tak H Layer 4, m2
rostwma | 2 Layers
pean | Coneterence a ayer 2
Sem= | tet
| Embeasing Layer
3.2.1.1 Probii
Y tưởng sử dụng các LP đã được đề xuất bởi một nhóm các nhà nghiên cứu
tại Google trong một bài báo năm 2018 có tiêu đề "Assessing the Ability of LSTMs to Learn
Syntax-Sensitive Dependencies". Các tác giả Emma Strubell, Patrick Verga, Daniel Andor,
David Weiss va Andrew McCallum, đã giới thiệu khái niệm thăm dd như một cách để đánh giá chất lượng của các biểu diễn ẩn được học bởi một mô hình ngôn ngữ được đào tạo trước. Kể
từ đó, việc sử dụng thăm dò đã trở thành một kỹ thuật phổ biến trong cộng đồng nghiên cứu NLP để phân tích và cải thiện hiệu suất của các mô hình ngôn ngữ.
"Probes" là các mạng neural nông (thường chỉ gồm một lớp phân loại), được thêm vào trên các lớp trung gian hoặc các "attention heads"của mạng neural được huấn luyện cho một tác
vụ chính. Mục đích của các probes là để khảo sát thông tin nào được lưu giữ bởi các lớp khác nhau hoặc các "attention heads". Dé xác định liệu các thông tin có được lưu giữ, các probes được huấn luyện và kiểm tra bằng cách sử dụng các tác vụ phụ.
Hình 3.2 chỉ ra rằng các probe classifiers có thể được chèn vào trên các lớp hoặc attention heads
41
Phân loại Probing
khác nhau, để khám phá thông tin được mã hóa liên quan đến các tác vụ phụ bởi các lớp và
attention heads khác nhau.
Vi dụ, nếu chúng ta muốn thăm dò liệu các biểu dién ngôn ngữ được mã hóa từ mô hình BERT
có chứa thông tin ngôn ngữ như xác định một động từ có phải là động từ bổ trợ cho động từ chính hay một cụm danh từ có phải là chủ ngữ hay không, chúng ta có thể đưa ra các nhiệm
vụ này dưới dang "các nhiệm vụ phụ"cho các mẫu. Ví du, trong câu "Toi đi học bài.", "hoc"
là động từ bổ trợ cho động từ chính, "đi" là động từ chính, "Tôi" là chủ ngữ, và "bài" là danh
từ tân ngữ.
Nếu một probe classifier khong thể làm tốt trên tác vụ phụ về thông tin ngôn ngữ, điều đó có nghĩa là thông tin đó không được mã hóa trong biểu diễn nội bộ của một mô hình, cũng có thể
là vì nó có thể không cần thiết để giải quyết mục tiêu chính của mô hình.
3.2.2. Phân loại Probin
Những probing classifier, Coe i quan hệ mang nơron mà
chúng dang sử dung đi A ky éu là
pha xem có hiện fon ngữ trong các mẫu attention weights khong.
3.2.2.1 Tham dò theo hướng Internal Representations
Có nhiều kỹ thuật được sử dung để điều tra lượng kiến thức ngôn ngữ được mã hóa trong các biểu điễn nội tại của các mô hình như BERT ở các tầng khác nhau. Một trong số đó là Edge Probing, được giới thiệu bởi Tenney et al. Mục đích của kỹ thuật này là để xác định kiến thức ngôn ngữ được mã hóa trong các biểu diễn có bồi cảnh của mô hình.
Edge probing hoạt động bằng cách chia nhỏ các tác vụ dự đoán cấu trúc (ví dụ như tác vụ phan tích cú pháp (syntax parsing) để xác định các thành phan câu như từ loại, phân cấp câu, quan hệ phụ thuộc giữa các từ, hay tác vụ xác định trọng số câu (sentence weighting)
để phát hiện sự chú ý của người đọc tới các thành phần quan trọng của câu) thành một định
dang chung. Với phương pháp này, một bộ phân loại sẽ nhận được một đoạn văn bản (hoặc
Internal Representations based “Probes”
hai đoạn) từ câu và phải dự đoán một nhãn như thành phan hoặc loại mối quan hệ, từ các vector biểu diễn cho các từ trong các đoạn văn bản đó. Hiệu suất của các biểu diễn có ngữ
cảnh của các mô hình như BERT, GPT, ELMO va CoVe đã được so sánh cho các tác vụ phụ như Part-of-Speech, Constituents, Dependencies, Entities, Semantic Role Labelling, Semantic Proto Roles va Coreference resolutions.
Giá trị trung bình của hiệu suất (The macro average of performance) cho tất cả các tác vụ
phụ đối với mô hình BERT-Large được báo cáo bởi Tenney et al là 87.3, trong khi phương pháp
cơ sở sử dụng biểu diễn không ngữ cảnh chi đạt được 75.2. Vi vậy, khoảng 20% kiến thức ngôn ngữ bổ sung đã được tích hợp như một phần của ngữ cảnh.
Một phân tích khác được thực hiện bởi Tenney et al. về nguồn gốc của kiến thức ngôn ngữ.
Họ giới thiệu các khái niệm về "trọng tam"va "tầng kỳ vong"dé giải thích cách kiến thức ngôn ngữ được tao ra trong m6 hình BERT. Trọng tâm là trung bình có trọng số của các biểu diễn nội tại ở các tầng khác nhau, dùng để tính toán tích vô hướng (dot produet). Với mỗi tác vụ, trọng tâm càng cao thì mô g tin tit các tầng cao hơn dé đáp ứng yêu cầu của tác
Tang kỳ vọng là kỳ vo ủ h trên méi\tang. Bofphan loại Probe được huấn
luyện từ layers 0 i” v@imiilaic u LA được huấn luyện từ layers 0 đến layer
i-1. Lớp (layer) qua mỗi lớp.
F1 Scores Expected layer 8. center-of-gravity
t0 †=240 2 4 6 8 10 12 14 16
In Tri nnn on nvHinn
POS 88.5 96.7 3.39 Consts. 73.6 87.0 3.79
[ese
Entities 90.6 96.1 4.64 SRL 81.3 91.4 6.
Coref. 80.5 91.9 9.47
SPR 777 s37 | se]
Relations 60.7 84.2 9.40
Tình 3.3: Hiệu suất đánh giá và đóng góp của các tầng cho các tác vụ phụ (Tenney et al. [5])
‘a giá trị trung bình của hiệu suất đo lường trên từng lớp riêng biệt trong một bài toán phân loại đa lớp.
Nó được tính bằng cách lấy tổng giá trị hiệu suất của từng lớp và chia cho số lớp trong bài toán.
43
Attention weights based “Probes”
Hình 3.3 ở cột đầu tiên là các tác vụ phụ để thăm dò kiến thức ngôn ngữ. Độ do F1 cho các bộ han loại thăm dò cho mỗi tác vụ được đề cập trong hai cột đầu tiên, trong đó 1=0, thể hiện hiệu suất các tác vụ phụ trợ trên các biểu diễn không ngữ cảnh, và 1=24 thể hiện hiệu suất các
ác vụ phụ trợ bằng cách trộn các biểu diễn ngữ cảnh từ tất cả 24 lớp của mô hình BERT. Các
ớp kì vọng được hiển thị bằng màu tím (và trọng tâm được hiển thị bằng màu xanh đậm).
Tầng kì vọng là nơi mà kiến thức ngôn ngữ bổ sung tối đa đến từ đó. Và có thể thấy rằng kiến thức ngữ pháp (syntatic) được thu thập ở các lớp ban đầu, và cho các tác vụ ngữ nghĩa
sematic) được thu thập ở các lớp sau.
3.2.2.2 Thăm dò theo hướng Attention weights
Trong bài báo “What Does BERT Look At? An Analysis of BERT’s Attention,” Clark et al.[7]
dùng phương pháp probe attention weights để thăm dò kiến thức ngôn ngữ trong BERT. Điều thú vị để chú ý là những head hê ác hiện tượng ngôn ngữ, và các
kết hợp head attention dự
thể so sánh với hiệu su:
Specific Attenti
Các attention head é a Al. apr <7, Brie tượng ngôn ngữ cụ thể, trong đó một
token tập trung Yio mối quan hệ ngôn ngữ được biểu thị bởi
attention head.
Attention weights based “Probes”
Head 8-10
- Direct objects attend to their verbs
- 86.8% accuracy at the dobj relation
Head 8-11
- Noun modifiers (e.g., determiners) attend
to their noun
- 94.3% accuracy at the det relation
[CLS] [CLS] [CLS] [CLS]
It It It It [CLs] [CLS]
. : The The
goes _ goes declined declined [CLS] [CLS] 45-year-old 45-year-old
on -on to to The The fi
h h mplicated -- complicated omer Ung
to to discuss¢ y discuss bag ian add Da rgiodE General General
plug plug its ú its 9 PA in guag Electric Electric
ae a plans -plans the Cory Wy CO
tow few fore for fuaé executive, \ executive
g figuress\ \) figures
diversified, diversified upgrading upgrading fe it it
Fidelity Fidelity its, its ee willy will
funds: funds current: \ current died be be
by: by product, \\ product the _~ ơ
6 R i i i
name name line< line fight time time