BERT ra đời và sự trở lại của hệ thống pipeline

Một phần của tài liệu Ứng dụng học sâu vào xây dựng mô hình rút trích thông tin (Trang 40 - 43)

Chương 3 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.3. BERT ra đời và sự trở lại của hệ thống pipeline

Từ khi cơng trình của Lee [1] ra đời, xu hướng sử dụngspanđể biểu diễn một thực thể trở nên ngày càng phổ biến, cùng với đó là các phương pháp sử sử dụng mơ hình end-to-end cho bài tốn rút trích thơng tin. Song về cuối cùng thì mục tiêu chính vẫn là tìm cách để biểu diễnspanmột cách tốt nhất, chứa đầy đủ thông tin nhất. Các phương pháp chuyển đổi từ câu thành vector:word2vec[16],GloVe[17] kết hợp BiLSTM, đồng thời bổ sung các thay đổi về cấu trúc mơ hình như dyGIE [15], hoặc tận dụng ngữ nghĩa câu spTree [18] đã góp phần cải thiện đáng kể hiệu suất của các mơ hình. Cho

đến khi BERT [10] ra đời, rất nhiều các bài toán trong NLP đạt được hiệu suất tốt hơn khi dùng BERT thay cho tầngembeddingcủa mơ hình cũ.

Bài tốn rút trích thực thể và quan hệ cũng không ngoại lệ, hàng loạt công trình ra đời và đạt SOTA trên nhiều dataset như SpERT [2], PURE [19], PL-Marker [20]. Zhong và Chen [19] đã chứng minh được rằng mơ hình end-to-end khơng hẳn ln đạt hiệu suất tốt hơn mơ hình pipeline, và

thậm chí, với việc sử dụng BERT và mơ hìnhpipeline trong PURE, tác giả đã cải thiện đáng kể hiệu suất khi so sánh với các mơ hìnhend-to-end hiện tại. PURE chia bài tốn rút trích thực thể và quan hệ thành hai mơ hình riêng biệt. Ở mơ hình rút trích thực thể, tác giả đưa câu đầu vào qua BERT, sau đó liệt kê tất cả các span có thể có trong câu, mỗispanđược biểu diễn dưới dạng:

gi = [xSTART∗ (i),xEND(i)∗ ,xi,φ(i)] (3.2)

trong đó x∗START(i), x∗END(i) lần lượt là vector token từ BERT, φ(i) là vector

embeddingđộ dài củaspan. Và cuối cùng là đưa vectorhqua FFNN để phân loại thực thể.

Ở mơ hình rút trích quan hệ, từ các thực rút trích được, tác giả liệt kê tất cả thành các cặp. Với mỗi cặp thực thể ei, ej, tác giả tạo ra các

nhãn (marker) :<SUB_START:ei>, < SUB_END:ei>, <OBJ_START:ej>, < OBJ_END:ej> tương ứng với vị trí bắt đầu, kết thúc của chủ ngữ (subject) và tân ngữ (object) trong quan hệ. Sau đó chèn các nhãn này vào trong câu đầu vào ban đầu. Đưa câu đã được chèn nhãn qua BERT , và biểu diễn vector quan hệ giữa hai thực thể dưới dạng:

hr(si,sj) = [xSTART(i),xSTART(j)] (3.3) trong đóxSTART(i) là vector tại vị trí của maker <SUB_START:ei>,xSTART(j) là vector vị trí của nhãn <OBJ_START:ej>. Cuối cùng đưa vector hr(si,sj)

qua FFNN để phân lớp quan hệ.

Hình 3.5: Mơ hình PURE cho tác vụ rút trích quan hệ

Trong Hình 3.5, sau khi đã rút trích được ba thực thể là Tom, he

Startbucks, xét cặp thực thể Tom (PER) và Startbucks (LOC), mơ hình tạo thêm bốn nhãn (marker) là <S:PER>, </S:PER>, <O:LOC>, </O:LOC> và chèn vào câu lần lượt ở các vị trí trước và sauTom, trước và sauStartbucks.

Sau đó đưa câu đã thêm nhãn qua BERT, lấy token ở vị trí <S:PER> và <S:LOC> nối lại với nhau làm thành vector biểu diễn span, cuối cùng là

Một phần của tài liệu Ứng dụng học sâu vào xây dựng mô hình rút trích thông tin (Trang 40 - 43)

Tải bản đầy đủ (PDF)

(72 trang)