Chương 3 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN
3.1. Hướng tiếp cận span-based
Một trong những vấn đề đầu tiên trong bài tốn rút trích thực thể và quan hệ là làm thế nào để biểu diễn một thực thể, vì mỗi thực thể không chỉ đơn thuần là một từ mà là một cụm từ. Trước năm 2017, phương pháp BIO/BILOU được sử dụng chủ yếu, theo đó mỗi từ trong câu sẽ được gán 1 nhãn (tag) đánh dấu vị trí của từ nó trong thực thể: B-begin, I-inside, L- last, O-outside, U-unit. Tuy nhiên, nhược điểm rất lớn của phương pháp này là mỗi từ chỉ có thể được gán cho một nhãn duy nhất, do đó trong trường hợp chồng chéo thực thể (overlapping entities), hai hoặc nhiều thực thể cùng chứa một từ thì BIO/BILOU khơng thể diễn tả được hết các thực thể có trong câu.
Ví dụ câu “Ford’s Chicago plant employs 4,000 workers”. Trong câu
trên cảChicagovàChicago plant đều là thực thể và cùng chứaChicago.
Do đó, năm 2017 Lee [1] đã đề xuất phương phápspan-based, sử dụng span(mỗispan là một cụm từ) để biểu diễn thực thể. Phương pháp này liệt kê tất cả cácspancó thể có trong câu, xem mỗispanlà một mẫu cho đầu vào của mơ hình. Ví dụ cácspanđược liệt kê ở câu trên: [’Ford’, ’Ford Chicago’, ’Ford Chicago plan’, ’Ford Chicago plan employee’,. . . ’workers’]. Như vậy việc bị trùng lặp thực thể sẽ được giải quyết.
Tuy nhiên ta hồn tồn có thể nhận ra vấn đề lớn khác của phương pháp
span-based là số lượng span được liệt kê trong một câu rất lớn, từ đó dẫn đến việc tổng số cặp quan hệ giữa hai thực thể bùng nổ tới con sốO(n4), với
hệ có thể sinh ra, Lee giới hạn độ dài của mỗispan, giới hạn số lượng span
trong mỗi câu, và dùngbeam searchđể lọc ra cácspancó khả năng làentity mentioncao.
Tiếp theo, sau khi đã có danh sách các span, việc cần làm là tìm cách
để biểu diễn các span thành vector. Từ câu đầu vào, tác giả đưa vào mạng BiLSTM, sau đó với mỗispan, trích xuất được head-word vectorxi , và size embeddingφ(i). Mộtspanđược biểu diễn dưới dạng:
gi = [xSTART∗ (i),x∗END(i),xi,φ(i)] (3.1)
Vớix∗START(i) vàx∗END(i) lầnn lượt là vector biểu diễn từ đầu tiên và cuối cùng
củaspansau lớp BiLSTM.
Cơng trình nghiên cứu này giải quyết bài tốn coreference resolution
(tìm các từ đồng tham chiếu với nhau và gom thành một cụm) chứ khơng phải về rút trích thực thể và quan hệ. Tuy nhiên ý tưởng về việc biểu diễn thực thể dưới dạng span và sử dụng mơ hình end-to-end để giải quyết bài toán đã mở ra hướng nghiên cứu cho nhiều bài báo khoa học sau này, có cơng trình trong số đó đang đạt SOTA (state of the art) cho bài tốn rút trích đồng thời thực thể và quan hệ.
3.2. Mơ hình đa tác vụ cho bài tốn rút trích quan hệ và thực thể.
3.2.1. Mơ hình đa tác vụ.
Các mơ hình rút trích thực thể và quan hệ truyền thống [11] [12] [13] thường sử dụng mơ hình pipeline để rút trích thực thể và quan hệ. Trong các mơ hình này, các thực thể rút trích được từ mơ hình thực thể sẽ được sử
dụng để rút trích quan hệ giữa các thực thể. Điều này dẫn đến nguy cơ lỗi lan truyền (cascading errors), nghĩa là nếu mơ hình rút thực thể dự đốn sai hoặc thiếu thực thể, sẽ dẫn đến mơ hình quan hệ cũng bị sai theo. Đồng thời các mơ hình xây dựng theo hướng pipeline, thơng tin về quan hệ giữa các
thực thể sẽ khơng đóng góp được gì cho việc dự đốn loại thực thể. Do đó Yi Luan [14] đã đề xuất mơ hình multi-task cho bài tốn rút trích thực thể và quan hệ. Theo đó đầu vào của 2 tác vụ rút trích thực thể và rút trích quan hệ chia sẻ chung các mẫu, cụ thể ở đây là cácspantheo [1].
Từ câu nói đầu vào, (1) mơ hình đưa qua lớp word-embedding sử dụng BiLSTM, (2) sau đó mơ hình liệt kê tất cả các span có thể có trong câu và biểu diễspandưới dạng vector, (3) từ các span có được lần lượt đưa qua các lớp FFNN cho tác vụ coreference resolution , rút trích thực thể và rút trích quan hệ, (4) Hàm mất mát (loss) của 3 tác vụ được cộng dồn lại với nhau và thực hiện cập nhật trọng số cho mơ hình.
Hình 3.2: Mơ hình SciIE
Có thể thấy trong mơ hình sciIE, việc dự đốn quan hệ giữa hai thực thể
MORAvàparse khơng bị ảnh hưởng bởi tác vụ rút trích thực thể bởi chúng được thực hiện độc lập với nhau, điểm chung là hàm mất mát sẽ được tính
từ tổng mất mát của các tác vụ này. Cách tính mất mát này của mơ hình sẽ giúp phần nào cung cấp, chia sẻ thơng tin từ tác vụ cho nhau, từ đó làm giàu thơng tin chospan.
3.2.2. Sử dụng đa tác vụ kết hợp đồ thị
Hình 3.3: Ví dụ cho thấy sự tương tác, hỗ trợ lẫn nhau giữa các tác vụ rúttrích thực thể, quan hệ. trích thực thể, quan hệ.
Việc dùng mơ hình multi-task, chia sẻ chung các span được tuy phần nào đã chia sẻ thông tin từ các tác vụ cho nhau, tuy nhiên việc khai khác các thông tin từ quan hệ, coreference resolution vẫn chưa thật sự tối ưu. Trong hình trên, việc Tom đang ở Startbucks và Tom, đồng thời Mike có quan hệ “PER-SOC” sẽ góp phần rút trích được thơng tin làMikeđang ởStartbucks.
Do đó, Yi Luan [15] đã bổ sung thêm hai lớp Coreference Propagation Layer và Relation Propagation Layer cho mơ hình multi-task sciIE [14] trước đó. Đây là hai đồ thị thể hiện thơng tincorereference và quan hệ giữa cácspan. Theo đó, mỗi node trên đồ thị được xây dựng từ cácspan, và các
cạnh trên đồ thị tương ứng thể hiện thông tin corereference resolution và quan hệ giữa cácspanvới nhau. Ví dụ trong đồ thịcorereference resolution,
cạnh giữa hai spanThis thing và it sẽ có trọng số cao hơn so với cạnh giữa hai spanTom vàit vìThis thing vàit cùng chỉ một vật là xe đạp của Tom.
Sau khi đã xây dựng được đồ thị với các node và cạnh, mơ hình thực hiện cập nhật giá trị cho các node ( tương ứng với một span) dựa theo các trọng
Hình 3.4: Mơ hình DyGIE
khác biệt của mơ hình, việc cập nhật trọng số của các node dựa trên mối liên hệ của nó với các node cịn lại góp phần làm giàu thêm thơng tin ngữ cảnh của một node. Cuối cùng mơ hình kết hợp thơng tin của mỗispantừ 2 đồ thị
corereference resolution và quan hệ lại với nhau để biểu diễn thành vector chospanvà đưa vào FFNN để phân lớp thực thể và quan hệ.
3.3. BERT ra đời và sự trở lại của hệ thốngpipeline
Từ khi cơng trình của Lee [1] ra đời, xu hướng sử dụngspanđể biểu diễn một thực thể trở nên ngày càng phổ biến, cùng với đó là các phương pháp sử sử dụng mơ hình end-to-end cho bài tốn rút trích thơng tin. Song về cuối cùng thì mục tiêu chính vẫn là tìm cách để biểu diễnspanmột cách tốt nhất, chứa đầy đủ thông tin nhất. Các phương pháp chuyển đổi từ câu thành vector:word2vec[16],GloVe[17] kết hợp BiLSTM, đồng thời bổ sung các thay đổi về cấu trúc mơ hình như dyGIE [15], hoặc tận dụng ngữ nghĩa câu spTree [18] đã góp phần cải thiện đáng kể hiệu suất của các mơ hình. Cho
đến khi BERT [10] ra đời, rất nhiều các bài toán trong NLP đạt được hiệu suất tốt hơn khi dùng BERT thay cho tầngembeddingcủa mơ hình cũ.
Bài tốn rút trích thực thể và quan hệ cũng khơng ngoại lệ, hàng loạt cơng trình ra đời và đạt SOTA trên nhiều dataset như SpERT [2], PURE [19], PL-Marker [20]. Zhong và Chen [19] đã chứng minh được rằng mơ hình end-to-end khơng hẳn ln đạt hiệu suất tốt hơn mơ hình pipeline, và
thậm chí, với việc sử dụng BERT và mơ hìnhpipeline trong PURE, tác giả đã cải thiện đáng kể hiệu suất khi so sánh với các mơ hìnhend-to-end hiện tại. PURE chia bài tốn rút trích thực thể và quan hệ thành hai mơ hình riêng biệt. Ở mơ hình rút trích thực thể, tác giả đưa câu đầu vào qua BERT, sau đó liệt kê tất cả các span có thể có trong câu, mỗispanđược biểu diễn dưới dạng:
gi = [xSTART∗ (i),xEND(i)∗ ,xi,φ(i)] (3.2)
trong đó x∗START(i), x∗END(i) lần lượt là vector token từ BERT, φ(i) là vector
embeddingđộ dài củaspan. Và cuối cùng là đưa vectorhqua FFNN để phân loại thực thể.
Ở mơ hình rút trích quan hệ, từ các thực rút trích được, tác giả liệt kê tất cả thành các cặp. Với mỗi cặp thực thể ei, ej, tác giả tạo ra các
nhãn (marker) :<SUB_START:ei>, < SUB_END:ei>, <OBJ_START:ej>, < OBJ_END:ej> tương ứng với vị trí bắt đầu, kết thúc của chủ ngữ (subject) và tân ngữ (object) trong quan hệ. Sau đó chèn các nhãn này vào trong câu đầu vào ban đầu. Đưa câu đã được chèn nhãn qua BERT , và biểu diễn vector quan hệ giữa hai thực thể dưới dạng:
hr(si,sj) = [xSTART(i),xSTART(j)] (3.3) trong đóxSTART(i) là vector tại vị trí của maker <SUB_START:ei>,xSTART(j) là vector vị trí của nhãn <OBJ_START:ej>. Cuối cùng đưa vector hr(si,sj)
qua FFNN để phân lớp quan hệ.
Hình 3.5: Mơ hình PURE cho tác vụ rút trích quan hệ
Trong Hình 3.5, sau khi đã rút trích được ba thực thể là Tom, he và
Startbucks, xét cặp thực thể Tom (PER) và Startbucks (LOC), mơ hình tạo thêm bốn nhãn (marker) là <S:PER>, </S:PER>, <O:LOC>, </O:LOC> và chèn vào câu lần lượt ở các vị trí trước và sauTom, trước và sauStartbucks.
Sau đó đưa câu đã thêm nhãn qua BERT, lấy token ở vị trí <S:PER> và <S:LOC> nối lại với nhau làm thành vector biểu diễn span, cuối cùng là
Chương 4
MƠ HÌNH ĐỀ XUẤT
Bài tốn rút trích thơng tin nói riêng và và các bài tốn về NLP nói chung đều phụ thuộc phần nào vào ngôn ngữ học (linguistic information). Cụ thể trong bài tốn rút trích thực thể và quan hệ ta có thể thấy rằng phần lớn các thực thể là danh từ, một câu thơng thường sẽ có cấu trúc subject-verb-object, (với subject là chủ ngữ, verb là động từ, object là tân ngữ), hay tính từ thường đứng trước danh từ để bổ nghĩa cho danh từ. Hơn nữa, mặc dù với mỗi lĩnh vực khác nhau sẽ có những loại thực thể, loại quan hệ khác nhau, song ln có một vài ràng buộc ngầm giữa loại thực thể và loại quan hệ, do đó nếu biết trước loại thực thể của hai thực thể, ta có thể suy đốn phần nào loại quan hệ giữa chúng, và ngược lại, nếu biết loại quan hệ giữa hai thực thể, có thể suy luận một phần loại thực thể của hai thực thể đó. Dựa vào đó, học viên đề xuất ba phương pháp có thể cải thiện độ chính xác của mơ hình rút trích thực thể và quan hệ dựa trên mơ hình tham khảo SpERT:
1. Sử dụng thơng tin loại thực thể vào dự đốn quan hệ. 2. Sử dụng thông tin của quan hệ vào dự đốn loại thực thể. 3. Tích hợp thơng tin dependency parse vào dự đốn quan hệ.
4.1. Mơ hình tham khảo
Mặc dù các mơ hìnhrút trích đồng thời thực thể và quan hệ theo hướng
pipelineđang trở lại và đạt được độ chính xác rất cao như PURE, marker-PL, tuy nhiên học viên nhận thấy mơ hìnhend-to-endvẫn cịn nhiều điểm có thể cải thiện, đặc biệt là vấn đề tương tác giữa hai tác vụ rút trích thực thể và
rút trích quan hệ, cụ thể hơn là thơng tin loại thực thể sau khi rút trích thực thể vẫn có thể giúp ích cho q trình xác định loại quan hệ giữa các thực thể và ngược lại, thông tin về một quan hệ giữa hai thực thể có thể giúp ích khi dự đốn loại thực thể. Mơ hình học viên chọn làm mơ hình tham khảo là SpERT của Markus Eberts 2019 [2], là mơ hình rút trích thực thể và quan hệ theo hướng end-to-end sử dụng span để biểu diễn thực thể và sử dụng BERT để làm tầngembedding.
Hình 4.1: Mơ hình đề xuất tận dụng thơng tin của loại thực thể vào rút trích quan hệ.
Theo như Hình 4.1, mơ hình chia làm 6 bước chính:
1. Bướcembedding, mơ hình sử dụng BERT (hoặc sciBERT[21] tùy vào
domain của dataset) để embeddingcâu nói đầu vào.
2. Tiếp theo là bước span representation, từ các token có được sau khi
embedding, mơ hình liệt kê tất cả các span có thể có trong câu, để giảm bớt số lượng span, mơ hình có giới hạn độ dài span. Vector biểu
nên span, vector CLS của BERT trong câu và vector embedding độ
dài củaspan.
3. Các spanđược đưa qua lớpentity classification để phân loại thực thể. 4. Đây là bước khác biệt của SpERT so với các mơ hình end-to-end trước đó, thay vì chia sẻ chung spancho hai tác vụ rút trích thực thể và rút trích quan hệ, mơ hình lọc cácspanđược tầngentity classification dự đốn là thực thể và chỉ sử dụng các này đểspandự đoán quan hệ, điều này giúp mơ hình giảm đáng kể số lượng cặp thực thể cần dự đoán quan hệ.
5. Tiếp theo là lớp relation representation, vector biểu diễn quan hệ
được tạo nên từ vector biểu diễn hai span, và thêm vector ngữ cảnh,
được tính bằng maxpooling của các token nằm giữa hai span trong câu, đây cũng là một điểm khác biệt của mơ hình, các cơng trình trước đó phần lớn bỏ qua thơng tin này, thực nghiệm cho thấy vector ngữ cảnh này đóng góp rất nhiều vào việc cải thiện độ chính xác của mơ hình.
6. Cuối cùng là tầng relation classification để phân loại quan hệ giữa hai span, ở bước này tác giả cịn thêm một bộ lọc các vector softmax,
ngồi việc giá trị lớn nhất của vector thuộc về một loại quan hệ thì giá trị này phải lớn hơn một ngưỡng (threshold) được cấu hình trước nhằm làm tăng giá trị precision của mơ hình trong lúc đánh giá, tuy nhiên cũng nên chọn ngưỡng một cách hợp lí để khơng làm giảm recall của mơ hình.
Như nhiều mơ hìnhend-to-end cho bài tốn rút trích đồng thời thực thể và quan hệ khác, hàm mất mát của mơ hình được tính từ tổng mất mát của tác vụ rút trích thực thể và rút trích quan hệ.
4.2. Phương pháp đánh giá4.2.1. precision, reall và f1-score. 4.2.1. precision, reall và f1-score.
− precision (positive predictive value) hay được gọi là độ nhạy là tỉ lệ giữa số lượng mẫu dương dự đoán đúng trên tổng số lượng mẫu được dự đoán.
precision= T P
T P+FP
− recall (positive predictive value) hay được gọi là độ phủlà tỉ lệ giữa số lượng mẫu dương dự đoán đúng trên tổng số lượng mẫu dương.
recall = T P
T P+FN
Trong đó TP, FP, FN lần lượt là true positive,false positive,false neg- ative.
− Không thể dùng precision hoặc recall riêng biệt để làm độ đo cho mơ hình rút trích đồng thời thực thể và quan hệ. Ví dụ từ câu“Paris, John’s sister, is staying in New York”, mơ hình chúng ta dự đốn có
1 thực thể là Mary, lúc này precisionlà100%, tuy nhiên có chưa liệt kê đủ nhiều các thực thể có trong câu. Hoặc nếu mơ hình dự đốn có 20 thực thể: ’Paris’, ’Paris John’, ’Paris John sister’, ’Paris John sister is’, ..., lúc này recall của mơ hình là 100%, tuy nhiên giá trị của mơ hình gần như khơng có vì nó chỉ đơn giản là liệt kê hết tất cả các span có thể có trong câu. Vì thế độ đo F1 ra đời thể hiện sự cân bằng giữa
precision vàrecall.
F1= 2∗precision∗recall
4.2.2. micro-F1 và macro-F1
Trong bài tốn rút trích thực thể và quan hệ, F1-score được ngầm hiểu là micro-averate F1. Vì rút trích thơng tin là bài tốn phân lớp đa nhãn (multi-label classification) nên thay vì tính precision, recall, F1 cho từng lớp, ta nên tìm cách tính khác để chuyển các chỉ số cho từng lớp thành một chỉ số trung bình precision, recall, F1 duy nhất. Có nhiều cách để tính chỉ số F1 trung bình cho bài tốn multi-label classification. micro-averate tính