Các th¸c nghiªm trên t™p d˙ liªu SemEval2016- 123docz.net

4.3 Các ph˜Ïng pháp ti∏p c™n và ∑ xußt

4.4.2 Các th¸c nghiªm trên t™p d˙ liªu SemEval2016

Trong ph¶n này, lu™n án s≥ trình bày các cài ∞t th¸c nghiªm và các k∏t qu£

cıa th¸c nghiªm trên t™p d˙ liªu SemEval 2016 task 3 subtask B.

Cài ∞t th¸c nghiªm

Các mô hình trong ch˜Ïng này ˜Òc th¸c hiªn vÓi Theano (mÎt th˜ viªn Python ∫ xây d¸ng và phát tri∫n các mô hình hÂc sâu).

word2vec. D˙ liªu hußn luyªn cho word2vec là t™p d˙ liªu ˜Òc cung cßp bi SemEval 2016. Các thông sË hußn luyªn ˜Òc thi∏t l™p nh˜ sau: (1) kích th˜Óc véc-tÏ t¯ là 200; (2) kho£ng cách tËi a gi˙a t¯ hiªn t§i và t¯ ˜Òc d¸ oán trong mÎt câu ˜Òc ∞t thành 5; (3) mô hình hußn luyªn véc-tÏ b‰ qua tßt c£

các t¯ có t¶n sË xußt hiªn nh‰ hÏn 5. Ngoài các véc-tÏ ˜Òc xây d¸ng mÓi, các th¸c nghiªm cÙng s˚dˆng các véc-tÏ 300 chi∑u ã ˜Òc hußn luyªn và cung cßp bi word2vec.

Các mô hình ˜Òc hußn luyªn theo t¯ng lô nh‰ (kích th˜Óc batch size là 64) và Îdài tËi a cıa các câu h‰i mÓi và các câu h‰i liên quan là 40. Bßt kì kí t¸

nào v˜Òt ra kh‰i ph§m vi này s≥ b‡ hıy.

Các tham sËcıa mô hình d¸a trên m§ng nÏ-ron tích ch™p CNN ˜Òc th∫ hiªn trong B£ng 4.3. Thu™t toán s˚dˆng hàm logarithmic loss (binary cross-entropy) trong quá trình hußn luyªn, hàm logarithmic loss thích hÒp cho các vßn ∑ phân lo§i nh‡ phân. Mô hình này cÙng s˚ dˆng thu™t toán tËi ˜u hóa Adam hiªu qu£

cho h§ gradient (gradient descent) và các chø sË Î chính xác s≥ ˜Òc thu th™p khi mô hình ˜Òc hußn luyªn.

B£ng 4.3: Các tham sËcıa mô hình d¸a trên m§ng nÏ-ron tích ch™p CNN

Mô t£ các tham sË Các giá tr‡ Kích th˜Óc cıa véc-tÏt¯ d = 200, d = 300 Kích th˜Óc các bÎlÂc (filter region size) 2, 3, 4 SËl˜Òng các bÎ lÂc 128 Hàm kích ho§t (activation function) ReLU Hàm tÍng hÒp (pooling function) max pooling Tølªb‰hÂc (dropout rate) 0,2 Kích th˜Ïc lô (batch size) 64

Trong mô hình d¸a trên m§ng BLSTM, các th¸c nghiªm s˚dˆng các LSTM vÓi sË Ïn v‡ ©n b¨ng 100, theo sau các LSTM là các t¶ng tÍng hÒp (pooling layer) và t¶ng tø lª b‰ hÂc (dropout layer). Các tham sË cıa mô hình này ˜Òc trình bày trong B£ng 4.4.

Trong mô hình d¸a trên BERT, các th¸c nghiªm s˚ dˆng các véc-tÏ 300 chi∑u ã ˜Òc hußn luyªn và cung cßp bi word2vec. Trong các th¸c nghiªm, lu™n án s˚ dˆng mô hình cÏ b£n (BERTBASE) s˚ dˆng 12 t¶ng (khËi mã hóa cıa Transformer) vÓi 768 nút ©n (kích th˜Óc ©n) và t¶ng t¸ t™p trung 12 ¶u.

B£ng 4.4: Các tham sË cıa mô hình d¸a trên m§ng BLSTM

Mô t£ các tham sË Các giá tr‡ Kích th˜Óc cıa véc-tÏt¯ d = 200, d = 300 SË Ïn v‡ ©n cho mÈi BLSTM 100 SËl˜Òng các bÎ lÂc 128 Hàm tÍng hÒp (pooling function) max pooling Tølªb‰hÂc (dropout rate) 0,2 Kích th˜Ïc lô (batch size) 64

TÍng sË l˜Òng tham sË trong mô hình này là 110 triªu tham sË.

K∏t qu£ và th£o lu™n

Trong ph¶n này, lu™n án s≥ trình bày các k∏t qu£ th¸c nghiªm cıa các mô hình ã xây d¸ng, Áng thÌi phân tích các k∏t qu£ §t ˜Òc này. B£ng 4.5 tóm t≠t các k∏t qu£cıa mô hình d¸a trên CNN và b£ng 4.6 tóm t≠t các k∏t qu£cıa mô hình d¸a trên BLSTM trên t™p d˙ liªu SemEval 2016 task 3 subtask B.

B£ng 4.5: Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu SemEval 2016 s˚ dˆng mô hình d¸a trên CNN

Các mô hình Kích th˜Óc véc-tÏt¯

Các Î o phân lo§i Các Î o x∏p h§ng

Acc P R F1 MAP AvgRec MRR

CNN-based d = 300 73,71 53,65 62,19 57,60 72,95 87,87 78,29 CNN-based d = 200 74,00 53,65 62,81 57,87 73,21 88,35 79,24 CNN-based + EK d = 300 82,57 71,24 75,11 73,13 78,37 91,97 86,23 CNN-based + EK d = 200 82,86 72,10 75,34 73,68 78,38 92,01 86,23

Lu™n án cÙng xây d¸ng các th¸c nghiªm d¸a trên mô hình s˚ dˆng BERT, bao gÁm mô hình BERT không s˚dˆng nguÁn tri th˘c bên ngoài, mô hình BERT s˚dˆng nguÁn tri th˘c bên ngoài (không bao gÁm word2vec) và mô hình BERT s˚ dˆng thêm word2vec (k∏t hÒp CNN) cùng vÓi nguÁn tri th˘c bên ngoài. Các k∏t qu£cıa các th¸c nghiªm d¸a trên BERT ˜Òc th∫ hiªn nh˜trong B£ng 4.7 Trong B£ng 4.5, hai hàng ¶u tiên là k∏t qu£cho mô hình d¸a trên CNN và hai hàng ti∏p theo là k∏t qu£ cho mô hình d¸a trên CNN tích hÒp thêm nguÁn tri th˘c bên ngoài. Trong mô hình d¸a trên CNN, các th¸c nghiªm s˚dˆng các

B£ng 4.6: Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu SemEval 2016 s˚ dˆng mô hình d¸a trên m§ng BLSTM

Các mô hình Kích th˜Óc véc-tÏt¯

Các Î o phân lo§i Các Î o x∏p h§ng

Acc P R F1 MAP AvgRec MRR

BLSTM-based d = 300 74,14 53,22 63,27 57,81 73,86 87,08 80,51 BLSTM-based d = 200 74,29 53,65 63,45 58,14 73,88 87,13 80,51 BLSTM-based + EK d = 300 83,43 71,24 77,22 74,11 78,44 92,01 86,35 BLSTM-based + EK d = 200 83,57 71,67 77,31 74,39 78,48 92,10 86,35

B£ng 4.7: Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu SemEval 2016 s˚ dˆng mô hình d¸a trên BERT Các mô hình Acc P R F1 BERT 82.14 79.35 62.66 70.02 BERT + EK 81.14 67.35 84.12 74.81 BERT + CNN 65.71 46.53 20.17 28.14 BERT + CNN + EK 79.57 66.54 77.68 71.68 véc-tÌ t¯ ã ˜Òc hußn luyªn vÓi kích th˜Óc là 200 và 300. K∏t qu£th¸c nghiªm cho thßy có s¸c£i thiªn áng k∫ trong viªc s˚dˆng các véc-tÏ t¯vÓi kích th˜Óc khác nhau. Ëi vÓi mô hình d¸a trên CNN, các Î o phân lo§i (Acc) và x∏p h§ng (M AP) t´ng l¶n l˜Òt 0,29% và 0,26% khi mô hình s˚ dˆng các véc-tÏ t¯ ˜Òc hußn luyªn l§i (kích th˜Óc véc-tÌ t¯ là 200) so vÓi mô hình s˚ dˆng các véc-tÏ t¯ ã ˜Òc hußn luyªn t¯tr˜Óc (kích th˜Óc véc-tÌ t¯là 300). Ëi vÓi mô hình tích hÒp thêm nguÁn tri th˘c mÓi, các Î o phân lo§i (Acc) và x∏p h§ng (M AP) cÙng t´ng l¶n l˜Òt 0,29% và 0,01%. Tuy nhiên, có th∫ nh™n thßy trong c£ hai mô hình, viªc s˚ dˆng các véc-tÏ t¯ ˜Òc hußn luyªn l§i (kích th˜Óc cıa véc-tÏ t¯ là d = 200) cho k∏t qu£ cao hÏn so vÓi các véc-tÏ t¯ ã ˜Òc hußn luyªn và cung cßp bi word2vec (d = 300). K∏t qu£ chø ra trong B£ng 4.5 cÙng cho thßy mô hình tích hÒp thêm nguÁn tri th˘c mÓi (CNN + EK) cho k∏t qu£

cao hÏn so vÓi mô hình d¸a trên CNN trong c£ hai tr˜Ìng hÒp s˚ dˆng véc-tÏ

t¯ có kích th˜Óc là 200 và 300. Các Î o phân lo§i (Acc) và x∏p h§ng (M AP) t´ng l¶n l˜Òt 8,86% và 5,42% khi s˚ dˆng các véc-tÏ t¯ kích th˜Óc 200. Khi s˚ dˆng các véc-tÏ t¯ kích th˜Óc 300, các Î o này t´ng l¶n l˜Òt là 9,15% và

5,43%. Các k∏t qu£ này có ˜Òc là do mô hình mÓi ∑ xußt ã tích hÒp ˜Òc các nguÁn thông tin bên ngoài vÓi các véc-tÏ ¶u ra cıa CNN ∫ có ˜Òc nhi∑u

∞c tr˜ng ng˙nghæa hÏn giúp cho viªc phân lo§i §t k∏t qu£ cao hÏn.

Trong B£ng 4.6, hai hàng ¶u tiên là k∏t qu£cho mô hình d¸a trên BLSTM và hai hàng ti∏p theo là k∏t qu£ cho mô hình d¸a trên BLSTM tích hÒp thêm nguÁn tri th˘c mÓi. Các k∏t qu£trong b£ng ã ch˘ng minh mô hình ∑ xußt tích hÒp thêm nguÁn tri th˘c mÓi s≥ cho k∏t phân lo§i và x∏p h§ng cao hÏn trong c£ hai tr˜Ìng hÒp s˚ dˆng các véc-tÏ t¯ ˜Òc hußn luyªn mÓi và các véc-tÏ t¯

ã ˜Òc hußn luyªn và cung cßp bi word2vec. Các k∏t qu£ §t ˜Òc trong th¸c nghiªm này cÙng cho thßy mô hình d¸a trên m§ng BLSTM cho k∏t qu£cao hÏn khi so vÓi mô hình d¸a trên m§ng CNN. Các k∏t qu£ phân lo§i và x∏p h§ng t´ng l¶n l˜Òt là 0,71% và 0,1% khi s˚ dˆng các véc-tÏ t¯ vÓi kích th˜Óc 200.

K∏t qu£ t¯ B£ng 4.7 cho thßy viªc s˚ dˆng nhi∑u ∞c trñg hÏn ã làm tńg i∫m F1, trong ó mô hình tËt nhßt là s˚ dˆng BERT tích hÒp thêm nguÁn tri th˘c mÓi. Khi so sánh vÓi mô hình tËt nhßt tr˜Óc ó (B£ng 4.6) không s˚ dˆng BERT, Î o F1 ã tńg lên 0,42%. Viªc thêm mô- un CNN vào các mô hình này không chø không làm tńg mà còn làm gi£m Î chính xác cıa các mô hình này. ∞c biªt, viªc thêm mô- un CNN cho k∏t qu£rßt thßp (F1 là 28,14%) trong k∏t qu£  B£ng 4.7. Có ˜Òc k∏t qu£ này là do d˙ liªu hußn luyªn trong B£ng 4.7 quá nh‰ nên mô hình càng ph˘c t§p s≥ gây ra hiªn t˜Òng overfitting. T¯

nh˙ng k∏t qu£ này có th∫ rút ra k∏t lu™n r¨ng tri th˘c bÍ sung t¯ các ph˜Ïng pháp ti∏p c™n khác s≥ góp ph¶n t´ng thông tin cho các mô hình hÂc sâu, ∞c biªt trong tr˜Ìng hÒp không ı d˙ liªu. MÎt k∏t qu£ khác là các mô hình quá ph˘c t§p s≥ gây ra hiªn t˜Òng overfitting, ∞c biªt là khi d˙liªu hußn luyªn quá nh‰.

Hình 4.8 so sánh các k∏t qu£phân lo§i và x∏p h§ng khi s˚ dˆng các mô hình khác nhau. T¯ b£ng so sánh này có th∫ thßy rõ các mô hình tích hÒp thêm nguÁn tri th˘c mÓi cho k∏t qu£ cao hÏn trong c£ các Î o phân lo§i và x∏p h§ng. Ngoài ra, mô hình xây d¸ng d¸a trên m§ng BLSTM cÙng cho k∏t qu£

phân lo§i và x∏p h§ng cao hÏn mô hình d¸a trên m§ng CNN.

Các th¸c nghiªm trên t™p d˙ liªu SemEval2016

Phân lo§i câu h‰i

So sánh vÓi các nghiên c˘u khác