4.3 Các ph˜Ïng pháp ti∏p c™n và ∑ xußt
4.4.3 Các th¸c nghiªm trên t™p d˙ liªu Quora
Hình 4.8: So sánh k∏t qu£cıa các mô hình trong nhiªm vˆtìm ki∏m và x∏p h§ng các câu h‰i trong cQA
Cài ∞t th¸c nghiªm
∫ thi∏t l™p các cài ∞t th¸c nghiªm s˚dˆng t™p d˙liªu Quora, mô hình gi˙
nguyên các cßu hình giËng nh˜trong ph¶n 4.4.2, ngo§i tr¯nh˙ng khác biªt sau: Th˘ nhßt, mô hình hußn luyªn theo t¯ lô nh‰ vÓi kích th˜Óc là 128; Th˘ hai,
∞t Î dài tËi a cıa câu h‰i mÓi và câu h‰i liên quan là 20 thay vì 40 (do d˙
liªu Quora bao gÁm các câu h‰i ng≠n hÏn); Th˘ ba, d˙ liªu hußn luyªn cho xây d¸ng các véc-tÏ t¯ có sË chi∑u 200 là kho d˙ liªu Quora. Kho d˙ liªu này ch˘a kho£ng 35,65 triªu t¯ và 77.845 t¯ duy nhßt. Mô hình cÙng s˚ dˆng các véc-tÏ
300 chi∑u ã ˜Òc hußn luyªn và cung cßp bi word2vec b¨ng cách s˚dˆng mÎt ph¶n cıa t™p d˙ liªu Google News. Các tham sË cıa mô hình d¸a trên m§ng nÏ-ron tích ch™p CNN ˜Òc th∫hiªn trong B£ng 4.8 và các tham sËcıa mô hình d¸a trên m§ng BLSTM ˜Òc th∫ hiªn trong B£ng 4.9.
B£ng 4.8: Các tham sËcıa mô hình d¸a trên m§ng nÏ-ron tích ch™p CNN
Mô t£ các tham sË Cácgiá tr‡
Kích th˜Óc cıa véc-tÏ t¯ d = 200, d = 300 Kích th˜Óc bÎ lÂc (filter region size) 2, 3, 4 SËl˜Òng các bÎ lÂc 64 Hàm kích ho§t (activation function) ReLU Hàm tÍng hÒp (pooling function) max pooling Tølªb‰hÂc (dropout rate) 0,3 Kích th˜Óc lô (batch size) 128
B£ng 4.9: Các tham sË cıa mô hình d¸a trên m§ng BLSTM
Mô t£ các tham sË Các giá tr‡ Kích th˜Óc cıa véc-tÏt¯ d = 200, d = 300 SË Ïn v‡ ©n cho mÈi BLSTM 100 SËl˜Òng các bÎ lÂc 128 Hàm tÍng hÒp (pooling function) max pooling Tølªb‰hÂc (dropout rate) 0,3 Kích th˜Óc lô (batch size) 128
K∏t qu£ và th£o lu™n
Ph¶n này s≥ trình bày các k∏t qu£ cÙng nh˜ phân tích chi ti∏t các k∏t qu£
th˚ nghiªm. Ëi vÓi các th˚ nghiªm s˚dˆng t™p d˙ liªu Quora, nghiên c˘u chø
s˚ dˆng các Î o phân lo§i ∫ ánh giá hiªu sußt cıa các mô hình. B£ng 4.10 trình bày các k∏t qu£ cıa các th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên CNN. B£ng 4.11 trình bày các k∏t qu£ cıa các th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên BLSTM .B£ng 4.12 trình bày các k∏t qu£ cıa các th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên BERT.
B£ng 4.10: Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên m§ng CNN Các mô hình Kích th˜Óc cıa véc-tÏt¯ Acc P R F1 CNN-based d = 300 77,85 60,54 71,54 65,58 CNN-based d = 200 79,40 70,31 70,51 70,41 CNN-based + EK d = 300 86,81 70,89 89,05 78,91 CNN-based + EK d = 200 87,54 74,78 87,65 80,71
Trong các th¸c nghiªm này, nghiên c˘u cÙng s˚ dˆng t™p nhúng t¯ vÓi các véc-tÏ t¯ có kích th˜Óc khác nhau (200 và 300). Hai hàng ¶u tiên cıa B£ng 4.10 là k∏t qu£ cho mô hình d¸a trên CNN và hai hàng ti∏p theo là k∏t qu£ cho mô hình CNN tích hÒp nguÁn tri th˘c mÓi. T¯ k∏t qu£ cıa B£ng 4.10 cho thßy viªc s˚ dˆng các véc-tÏ t¯ vÓi kích th˜Óc khác nhau s≥ d®n ∏n k∏t qu£ khác nhau. Ëi vÓi mô hình d¸a trên CNN, Î o Accuracy và F1 measure t´ng
B£ng 4.11: Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên m§ng BLSTM Các mô hình Kích th˜Óc cıa véc-tÏ t¯ Acc P R F1 BLSTM-based d = 300 78,92 65,01 71,84 68,25 BLSTM-based d = 200 79,40 76,72 68,17 72,19 BLSTM-based + EK d = 300 87,55 73,68 88,69 80,49 BLSTM-based + EK d = 200 87,79 71,87 91,24 80,41
B£ng 4.12: Các k∏t qu£ th¸c nghiªm trên t™p d˙ liªu Quora s˚ dˆng mô hình d¸a trên BERT Các mô hình Acc P R F1 BERT 89.06 84.83 83.55 84.19 BERT + EK 89.00 81.75 88.11 84.81 BERT + CNN 82.98 73.32 80.41 76.70 BERT + CNN + EK 88.80 87.27 79.46 83.18
(CNN-based + EK), Accuracy và F1 measure t´ng l¶n l˜Òt 0,73% và 1,8%. K∏t qu£cıa B£ng 4.10 cÙng cho thßy mô hình tích hÒp cho k∏t qu£cao hÏn mô hình d¸a trên CNN. Î o Accuracy và F1 measure l¶n l˜Òt t´ng 8,14% và 10,3%.
B£ng 4.11 cÙng chø ra r¨ng các mô hình d¸a trên m§ng BLSTM cho k∏t qu£
tËt trong viªc ánh giá Î t˜Ïng t¸ gi˙a hai câu h‰i. Các k∏t qu£ trong b£ng 4.11 còn cho thßy mô hình d¸a trên m§ng BLSTM cho k∏t qu£ phân lo§i cao hÏn mô hình d¸a trên m§ng CNN. Các Î o Accuracy và F1 measure t´ng l¶n l˜Òt là 0,74% và 1,58% khi s˚dˆng các véc-tÏ ˜Òc hußn luyªn tr˜Óc có kích th˜Óc là 300. Khi s˚ dˆng các véc-tÏ ˜Òc hußn luyªn l§i vÓi kích th˜Óc 200,
Î o Accuracy t´ng 0,25%, tuy nhiên Î o F1 measure l§i gi£m 0,3%. T¯
nh˙ng k∏t qu£trong B£ng 4.11 và B£ng 4.10 ch˘ng minh tính hiªu qu£ cıa các mô hình tích hÒp ˜Òc ∑ xußt trong ch˜Ïng này. S˚ dˆng nguÁn thông tin bÍ
sung k∏t hÒp vÓi các ∞c tr˜ng sinh ra t¯ các t¶ng cıa m§ng CNN s≥ giúp xác
‡nh tËt hÏn mËi quan hª ng˙ nghæa gi˙a câu h‰i ¶u vào và câu h‰i liên quan. B£ng 4.12 cho bi∏t k∏t qu£ s˚ dˆng BERT tích hÒp thêm nguÁn tri th˘c bên ngoài ã làm t´ng i∫m F1 (0,62%) so vÓi mô hình chø s˚ dˆng BERT. Khi so
sánh vÓi mô hình tËt nhßt tr˜Óc ó (B£ng 4.10) không s˚ dˆng BERT, Î o
F1 ã t´ng lên 0,1%. Viªc thêm mô- un CNN vào các mô hình này ã làm gi£m
Î chính xác cıa k∏t qıa th¸c nghiªm. K∏t qu£ này là do d˙ liªu hußn luyªn trong B£ng 4.12 nh‰nên mô hình càng ph˘c t§p s≥gây ra hiªn t˜Òng overfitting. Trong B£ng 4.12 có th∫ thßy khi thêm mô- un CNN không làm gi£m nhi∑u chßt l˜Òng cıa mô hình nh˜ trong B£ng 4.7, i∑u này là do d˙ liªu trong B£ng 4.12
ã t´ng lên so vÓi d˙ liªu trong B£ng 4.7.
Hình 4.9 so sánh k∏t qu£ phân lo§i khi s˚ dˆng các mô hình khác nhau trên t™p d˙liªu Quora. T¯k∏t qu£so sánh này thßy r¨ng các mô hình tích hÒp thêm nguÁn tri th˘c bên ngoài cho k∏t qu£ cao hÏn trong c£ hai tr˜Ìng hÒp s˚ dˆng m§ng CNN và BLSTM. Trong khi ó mô hình s˚ dˆng BERT cho k∏t qu£ cao hÏn (v∑ Î chính xác) so vÓi các mô hình s˚ dˆng CNN, BLSTM. ∞c biªt, khi s˚ dˆng thêm nguÁn tri th˘c bên ngoài thì mô hình BERT cho k∏t qu£ Î o
F1 cao hÏn mô hình s˚ dˆng BERT không bÍ sung nguÁn tri th˘c bên ngoài.
Hình 4.9: So sánh k∏t qu£ cıa các mô hình khác nhau trên t™p d˙ liªu Quora