Đầu rvào rcĩ rthể rlà rbiểu rdiễn rcủa rmột rcâu rvăn rbản rđơn rhoặc rmột rcặp rcâu rvăn
Chuỗi đầu vào BERT biểu diễn một cách tường minh cả văn bản đơn và cặp văn bản. Với văn bản đơn, chuỗi đầu vào BERT là sự ghép nối của token phân loại đặc biệt “<cls>”, token của chuỗi văn bản, và token phân tách đặc biệt “<sep>”. Với cặp văn bản, chuỗi đầu vào BERT là sự ghép nối của “<cls>”, token của chuỗi văn bản đầu, “<sep>”, token của chuỗi văn bản thứ hai, và “<sep>”. Ta sẽ phân biệt nhất quán thuật ngữ “chuỗi đầu vào BERT” với các kiểu “chuỗi” khác. Chẳng hạn, một chuỗi đầu vào BERT cĩ thể bao gồm cả một chuỗi văn bản hoặc hai chuỗi văn bản.
Khi rcĩ rmột rchuỗi rđầu rvào rcụ rthể, rbiểu rdiễn rđầu rvào rđược rxây rdựng rbằng rcách
rtính rtổng rcác rtoken rđĩ rvới rvector rphân rđoạn rvà rvị rtrí rtương rứng rcủa rcác rtừ rtrong
rchuỗi.
Cho rdễ rhình rdung, rbiểu rdiễn rđầu rvào rđược rtrực rquan rhĩa rtrong rhình rdưới rđây:
Hình 2-9 Mơ hình đại diện đầu vào của BERT [26].
Token rđầu rtiên rcho rmỗi rchuỗi rđược rmặc rđịnh rlà rmột rtoken rđặc rbiệt rcĩ rgiá rtrị
rlà r[CLS]. rĐầu rra rcủa rTransformer r(hidden rstate rcuối rcùng) rtương rứng rvới rtoken rnày
rsẽ rđược rsử rdụng rđể rđại rdiện rcho rcả rcâu rtrong rcác rnhiệm rvụ rphân rloại. rNếu rkhơng
rtrong rcác rnhiệm rvụ rphân rloại, rvector rnày rđược rbỏ rqua.
Trong rtrường rhợp rcác rcặp rcâu rđược rgộp rlại rvới rnhau rthành rmột rchuỗi rduy
rnhất, rchúng rta rphân rbiệt rcác rcâu rtheo r2 rcách. rĐầu rtiên, rchúng rta rtách rchúng rbởi rmột
rtoken rđặc rbiệt r[SEP]. rThứ rhai, rchúng rta rthêm rmột rsegment rembedding rcho rcâu rA rvà
Khi rchỉ rcĩ r1 rcâu rđơn rduy rnhất, rsegment rembedding rchỉ rcĩ rcho rcâu rA.
Kiến trúc hai chiều của BERT là bộ mã hĩa Transformer. Thơng thường trong bộ mã hĩa Transformer, các embedding vị trí được cộng vào mỗi vị trí của chuỗi đầu vào BERT. Tuy nhiên, khác với bộ mã hĩa Transformer nguyên bản, BERT sử dụng các embedding vị trí cĩ thể học được cho thấy các embedding của chuỗi đầu vào BERT là tổng các embedding của token, embedding đoạn và embedding vị trí.