Mơ hình DyGIE

Chương 5 KẾT LUẬN

3.4 Mơ hình DyGIE

khác biệt của mơ hình, việc cập nhật trọng số của các node dựa trên mối liên hệ của nó với các node cịn lại góp phần làm giàu thêm thơng tin ngữ cảnh của một node. Cuối cùng mơ hình kết hợp thơng tin của mỗispantừ 2 đồ thị

corereference resolution và quan hệ lại với nhau để biểu diễn thành vector chospanvà đưa vào FFNN để phân lớp thực thể và quan hệ.

3.3. BERT ra đời và sự trở lại của hệ thốngpipeline

Từ khi cơng trình của Lee [1] ra đời, xu hướng sử dụngspanđể biểu diễn một thực thể trở nên ngày càng phổ biến, cùng với đó là các phương pháp sử sử dụng mơ hình end-to-end cho bài tốn rút trích thơng tin. Song về cuối cùng thì mục tiêu chính vẫn là tìm cách để biểu diễnspanmột cách tốt nhất, chứa đầy đủ thông tin nhất. Các phương pháp chuyển đổi từ câu thành vector:word2vec[16],GloVe[17] kết hợp BiLSTM, đồng thời bổ sung các thay đổi về cấu trúc mơ hình như dyGIE [15], hoặc tận dụng ngữ nghĩa câu spTree [18] đã góp phần cải thiện đáng kể hiệu suất của các mơ hình. Cho

đến khi BERT [10] ra đời, rất nhiều các bài toán trong NLP đạt được hiệu suất tốt hơn khi dùng BERT thay cho tầngembeddingcủa mơ hình cũ.

Bài tốn rút trích thực thể và quan hệ cũng không ngoại lệ, hàng loạt công trình ra đời và đạt SOTA trên nhiều dataset như SpERT [2], PURE [19], PL-Marker [20]. Zhong và Chen [19] đã chứng minh được rằng mơ hình end-to-end khơng hẳn ln đạt hiệu suất tốt hơn mơ hình pipeline, và

thậm chí, với việc sử dụng BERT và mơ hìnhpipeline trong PURE, tác giả đã cải thiện đáng kể hiệu suất khi so sánh với các mơ hìnhend-to-end hiện tại. PURE chia bài tốn rút trích thực thể và quan hệ thành hai mơ hình riêng biệt. Ở mơ hình rút trích thực thể, tác giả đưa câu đầu vào qua BERT, sau đó liệt kê tất cả các span có thể có trong câu, mỗispanđược biểu diễn dưới dạng:

gi = [xSTART∗ (i),xEND(i)∗ ,xi,φ(i)] (3.2)

trong đó x∗START(i), x∗END(i) lần lượt là vector token từ BERT, φ(i) là vector

embeddingđộ dài củaspan. Và cuối cùng là đưa vectorhqua FFNN để phân loại thực thể.

Ở mơ hình rút trích quan hệ, từ các thực rút trích được, tác giả liệt kê tất cả thành các cặp. Với mỗi cặp thực thể ei, ej, tác giả tạo ra các

nhãn (marker) :<SUB_START:ei>, < SUB_END:ei>, <OBJ_START:ej>, < OBJ_END:ej> tương ứng với vị trí bắt đầu, kết thúc của chủ ngữ (subject) và tân ngữ (object) trong quan hệ. Sau đó chèn các nhãn này vào trong câu đầu vào ban đầu. Đưa câu đã được chèn nhãn qua BERT , và biểu diễn vector quan hệ giữa hai thực thể dưới dạng:

hr(si,sj) = [xSTART(i),xSTART(j)] (3.3) trong đóxSTART(i) là vector tại vị trí của maker <SUB_START:ei>,xSTART(j) là vector vị trí của nhãn <OBJ_START:ej>. Cuối cùng đưa vector hr(si,sj)

qua FFNN để phân lớp quan hệ.

Hình 3.5: Mơ hình PURE cho tác vụ rút trích quan hệ

Trong Hình 3.5, sau khi đã rút trích được ba thực thể là Tom, he và

Startbucks, xét cặp thực thể Tom (PER) và Startbucks (LOC), mơ hình tạo thêm bốn nhãn (marker) là <S:PER>, </S:PER>, <O:LOC>, </O:LOC> và chèn vào câu lần lượt ở các vị trí trước và sauTom, trước và sauStartbucks.

Sau đó đưa câu đã thêm nhãn qua BERT, lấy token ở vị trí <S:PER> và <S:LOC> nối lại với nhau làm thành vector biểu diễn span, cuối cùng là

Chương 4

MƠ HÌNH ĐỀ XUẤT

Bài tốn rút trích thơng tin nói riêng và và các bài tốn về NLP nói chung đều phụ thuộc phần nào vào ngôn ngữ học (linguistic information). Cụ thể trong bài tốn rút trích thực thể và quan hệ ta có thể thấy rằng phần lớn các thực thể là danh từ, một câu thơng thường sẽ có cấu trúc subject-verb-object, (với subject là chủ ngữ, verb là động từ, object là tân ngữ), hay tính từ thường đứng trước danh từ để bổ nghĩa cho danh từ. Hơn nữa, mặc dù với mỗi lĩnh vực khác nhau sẽ có những loại thực thể, loại quan hệ khác nhau, song ln có một vài ràng buộc ngầm giữa loại thực thể và loại quan hệ, do đó nếu biết trước loại thực thể của hai thực thể, ta có thể suy đốn phần nào loại quan hệ giữa chúng, và ngược lại, nếu biết loại quan hệ giữa hai thực thể, có thể suy luận một phần loại thực thể của hai thực thể đó. Dựa vào đó, học viên đề xuất ba phương pháp có thể cải thiện độ chính xác của mơ hình rút trích thực thể và quan hệ dựa trên mơ hình tham khảo SpERT:

1. Sử dụng thơng tin loại thực thể vào dự đốn quan hệ. 2. Sử dụng thông tin của quan hệ vào dự đốn loại thực thể. 3. Tích hợp thơng tin dependency parse vào dự đốn quan hệ.

4.1. Mơ hình tham khảo

Mặc dù các mơ hìnhrút trích đồng thời thực thể và quan hệ theo hướng

pipelineđang trở lại và đạt được độ chính xác rất cao như PURE, marker-PL, tuy nhiên học viên nhận thấy mơ hìnhend-to-endvẫn cịn nhiều điểm có thể cải thiện, đặc biệt là vấn đề tương tác giữa hai tác vụ rút trích thực thể và

rút trích quan hệ, cụ thể hơn là thơng tin loại thực thể sau khi rút trích thực thể vẫn có thể giúp ích cho quá trình xác định loại quan hệ giữa các thực thể và ngược lại, thông tin về một quan hệ giữa hai thực thể có thể giúp ích khi dự đốn loại thực thể. Mơ hình học viên chọn làm mơ hình tham khảo là SpERT của Markus Eberts 2019 [2], là mơ hình rút trích thực thể và quan hệ theo hướng end-to-end sử dụng span để biểu diễn thực thể và sử dụng BERT để làm tầngembedding.

Hình 4.1: Mơ hình đề xuất tận dụng thơng tin của loại thực thể vào rút trích quan hệ.

Theo như Hình 4.1, mơ hình chia làm 6 bước chính:

1. Bướcembedding, mơ hình sử dụng BERT (hoặc sciBERT[21] tùy vào

domain của dataset) để embeddingcâu nói đầu vào.

2. Tiếp theo là bước span representation, từ các token có được sau khi

embedding, mơ hình liệt kê tất cả các span có thể có trong câu, để giảm bớt số lượng span, mơ hình có giới hạn độ dài span. Vector biểu

nên span, vector CLS của BERT trong câu và vector embedding độ

dài củaspan.

3. Các spanđược đưa qua lớpentity classification để phân loại thực thể. 4. Đây là bước khác biệt của SpERT so với các mơ hình end-to-end trước đó, thay vì chia sẻ chung spancho hai tác vụ rút trích thực thể và rút trích quan hệ, mơ hình lọc cácspanđược tầngentity classification dự đốn là thực thể và chỉ sử dụng các này đểspandự đốn quan hệ, điều này giúp mơ hình giảm đáng kể số lượng cặp thực thể cần dự đoán quan hệ.

5. Tiếp theo là lớp relation representation, vector biểu diễn quan hệ

được tạo nên từ vector biểu diễn hai span, và thêm vector ngữ cảnh,

được tính bằng maxpooling của các token nằm giữa hai span trong câu, đây cũng là một điểm khác biệt của mơ hình, các cơng trình trước đó phần lớn bỏ qua thơng tin này, thực nghiệm cho thấy vector ngữ cảnh này đóng góp rất nhiều vào việc cải thiện độ chính xác của mơ hình.

6. Cuối cùng là tầng relation classification để phân loại quan hệ giữa hai span, ở bước này tác giả còn thêm một bộ lọc các vector softmax,

ngoài việc giá trị lớn nhất của vector thuộc về một loại quan hệ thì giá trị này phải lớn hơn một ngưỡng (threshold) được cấu hình trước nhằm làm tăng giá trị precision của mơ hình trong lúc đánh giá, tuy nhiên cũng nên chọn ngưỡng một cách hợp lí để khơng làm giảm recall của mơ hình.

Như nhiều mơ hìnhend-to-end cho bài tốn rút trích đồng thời thực thể và quan hệ khác, hàm mất mát của mơ hình được tính từ tổng mất mát của tác vụ rút trích thực thể và rút trích quan hệ.

4.2. Phương pháp đánh giá4.2.1. precision, reall và f1-score. 4.2.1. precision, reall và f1-score.

− precision (positive predictive value) hay được gọi là độ nhạy là tỉ lệ giữa số lượng mẫu dương dự đoán đúng trên tổng số lượng mẫu được dự đoán.

precision= T P

T P+FP

− recall (positive predictive value) hay được gọi là độ phủlà tỉ lệ giữa số lượng mẫu dương dự đoán đúng trên tổng số lượng mẫu dương.

recall = T P

T P+FN

Trong đó TP, FP, FN lần lượt là true positive,false positive,false neg- ative.

− Không thể dùng precision hoặc recall riêng biệt để làm độ đo cho mơ hình rút trích đồng thời thực thể và quan hệ. Ví dụ từ câu“Paris, John’s sister, is staying in New York”, mơ hình chúng ta dự đốn có

1 thực thể là Mary, lúc này precisionlà100%, tuy nhiên có chưa liệt kê đủ nhiều các thực thể có trong câu. Hoặc nếu mơ hình dự đốn có 20 thực thể: ’Paris’, ’Paris John’, ’Paris John sister’, ’Paris John sister is’, ..., lúc này recall của mơ hình là 100%, tuy nhiên giá trị của mơ hình gần như khơng có vì nó chỉ đơn giản là liệt kê hết tất cả các span có thể có trong câu. Vì thế độ đo F1 ra đời thể hiện sự cân bằng giữa

precision vàrecall.

F1= 2∗precision∗recall

4.2.2. micro-F1 và macro-F1

Trong bài toán rút trích thực thể và quan hệ, F1-score được ngầm hiểu là micro-averate F1. Vì rút trích thơng tin là bài tốn phân lớp đa nhãn (multi-label classification) nên thay vì tính precision, recall, F1 cho từng lớp, ta nên tìm cách tính khác để chuyển các chỉ số cho từng lớp thành một chỉ số trung bình precision, recall, F1 duy nhất. Có nhiều cách để tính chỉ số F1 trung bình cho bài tốn multi-label classification. micro-averate tính

F1 dựa trên tầng suất xuất hiện của mỗi loại thực thể hoặc quan hệ trong dataset. Khác với macro-average tính F1 bằng cách tính trung bình các chỉ F1 cho từng loại thực thể (hoặc quan hệ) mà không quan tâm tới tần số xuất hiện, đây là một nhược điểm trong trừng hợp dataset của chúng ta không cân bằng giữa các loại thực thể hoặc quan hệ. Cụ thể, trong tập dataset cón nhãnR={r1,r2,r3, ..rn}, micro-average được tính như sau:

micro-precision= ∑riT Pri

∑riT Pri+∑riFPri (4.1)

micro-recall = ∑riT Pri

∑riT Pri+∑riFNri (4.2) micro-F1= 2∗micro-precision∗micro-recall

micro-precision+micro-recall (4.3) Trong đó T Pr, FPr, FNr lần lượt là true positive, false positive, false negativecủa class ri, vớiri ∈R.

4.3. Đề xuất 1: Sử dụng thông tin loại thực thể vào dự đoán quan hệ

4.3.1. Động lực và ý tưởng

Ở mỗi dataset đều có một tập loại thực thể và loại quan hệ riêng, song ln có sự phụ thuộc giữa loại thực thể và loại quan hệ. Chẳng hạn, giữa hai thực thể có loại PERSON và LOCATION thường có quan hệ PHYSICAL,

hay giữa PERSON và ORGANIZATION thường có quan hệ WORK-FOR

hoặc quan hệMEMBER-OF. Hay trong lĩnh vực về khoa học, quan hệ giữa

thực thể loạiGENERICvàMETHODthường là USED-FOR.

Do đó, nếu có thể tận dụng tốt được loại thực thể vào việc dự đoán quan hệ sẽ giúp cải thiện đáng kể độ chính xác của mơ hình. Các mơ hình dự đốn thực thể và quan hệ theo hướngpipelinehiện nay như PURE, PL-Marker hay các mơ hình dự đốn quan hệ RECENT [22] đã khai thác tốt điều này.

Song đối với phần lớn các mơ hình theo hướngend-to-end vẫn chưa sử tốt được loại thực thể khi dự đốn loại quan hệ, có ba ngun nhân chính:

− Phần lớn mơ hình end-to-end, thường tách biệt hai tác vụ rút trích

thực thể và quan hệ, chúng chỉ chia sẻ với nhau thơng tinspan, do đó

khơng thể có thơng tin của loại thực thể dùng cho dự đoán quan hệ.

− Đối với mơ hìnhend-to-end, trong quá trình huấn luyện, loại thực thể

được dự đốn trong tác vụ trút trích thực thể chưa chắc là kết quả chính xác, và từ đó nếu sử dụng thơng tin này vào rút trích quan hệ sẽ dễ làm sai lệch và thậm chí ảnh thưởng tới tác vụ rút trích quan hệ.

− Việc sinh ra nhiều negative sample cũng làm lỗng đi thơng tin của thực thể khi dự đoán quan hệ. Cụ thể trong câu “Mary, John’s sis-

ter, is staying in New York.” , có Mary và Jonh đều có loại là PER- SON, New York có loại là LOCATION, tuy nhiên chỉ có quan hệ

<Mary,NewYork,PHY S>có loại làPHYSchứ<John,NewYork> thì khơng.

Ý tưởng của học viên để giải quyết vấn đề trên là:

− Không sử dụng hết tất cả thông tin của loại thực thể mà chỉ sử dụng một phần, dựa vào cặp thực thể dự đoán được từ tác vụ rút trích thực thể, mơ hình sẽ quyết định sử dụng bao nhiêu phần trăm thông tin của loại thực thể. Lúc này đối với tác vụ rút trích quan hệ, nếu thơng tin loại thực thể có ích thì nó sẽ sử dụng nhiều, cịn khơng nó sẽ sử dụng ít hơn. Từ đó mơ hình có thể tận dụng một phần thông tin thực thể và cũng làm giảm bớt ảnh hưởng xấu nếu loại thực thể bị dự đốn sai.

− Với mơ hình tham khảo, trong q trình huấn luyện cho tác vụ rút trích quan hệ, tác giả khơng sử dụng các thực thể rút trích được từ tác vụ rút trích thơng tin mà dùng các thực thể được xác định trong dataset (gold entity) để tạo ra các cặp thực thể dùng cho rút trích quan hệ. Tuy nhiên thay vì dùng các gold entity, học viên sử dụng trực tiếp

các thực thể rút trích được từ tác vụ rút trích thực thể để giúp mơ hình có thể học được cách dự đốn đúng quan hệ trong khi loại thực thể có thể bị sai.

4.3.2. Mơ tả mơ hình

Hình 4.2 mơ tả mơ hình đề xuất SpERT.ET (SpERT + Entity Type), thay đổi chủ yếu so với mơ hình tham khảo là ở trong bướcrelation representa- tion. Thay vì chỉ sử dụng 2 vector entity representation như mơ hình tham khảo (màu xanh, ở bên phải hình), học viên kết hợp thêm thơng tin loại thực

Hình 4.2: Mơ hình đề xuất SpERT.ET, tận dụng thơng tin của loại quan hệ vào rút trích thực thể

thể (màu vàng bên trái) thơng qua cổng cập nhật, theo đó thơng tin của en- tity representationlúc này được kết hợp với loại thực thể theo tỉ lệ phù hợp, sau đó mới kết hợp với vector ngữ cảnh, size embeddingvà đưa qua FFNN để phân lớp loại quan hệ.

Cụ thể hơn, 2 vector ở tầng entity classification là đầu ra của lớp FFNN để xác định thực thể, các các vector này được đưa qua tầng softmax để xác định tỉ lệ thuộc về mỗi loại thực thể của từng vector. Sau đó nhân với ma trận

Entity type embedding (mỗi loại thực thể tương ứng với một vector, vector này sẽ liên tục được cập nhật qua các lần huấn luyện), ta được 2 vectorentity type representation, mỗi vector thể hiện giá trị loại thực thể cho mỗi thực

thể, sau đó kết hợp 2 vector lại với nhau. Lúc này ta đang có 2 vector, một biểu diễn loại thực thểcet (màu vàng), 1 là giá trị token sau khiembdedding

bởi BERT cer (màu xanh). Cặp thực thể được dự đốn có loại lần lượt là 2 (giá trị 0.6 ở vị trí thứ 2) và 1 (giá trị 0.7 ở vị trí thứ 1) trong bảng entity

type embedding , giá trị này tương ứng với vector g21 ở ma trận pair type embedding (mỗi một cặp loại thực thể tương ứng với 1 vector). Vector rte được tính bởi cơng thức:

rte =cet∗g21+cer∗(1−g21) (4.4)

4.3.3. Tham số cấu hình của mơ hình

Tham số Giá trị

batch size 10

epochs 25

neg entity count 100 neg relation count 100

learning rate 5e-5

dropout prob 0.1

max span size 10

size embedding 25

entity type embedding 768

gate embedding 1536

relation filter threshold 0.4 max pair relation 1000

Bảng 4.1: Các tham số cho mơ hình SpERT.ET

Bảng 4.1 mô tả các tham số dùng cho mơ hình. Giống như trong mơ mình tham khảo, học viên sử dụng BERTBASE(cased) cho tầng embedding,

mơ hình được huấn luyện với bacth sizelà 10, 25 epoch. Số lượng negative

Mơ hình Long Short-Term Memory