Đõnh giõ thử nghiệm

2.4.2.1 Mừi trường thử nghiệm vỏ cõc thiết lập a. Mừi trường thử nghiệm

Để cỏi đặt giải phõp đề xuất, luận õn sử dụng mừi trường Jupiter Notebook

được tợch hợp trong phần mềm Anaconda Navigator, sử dụng ngừn ngữ Python

phiởn bản 3.5 vỏ thư viện Tensorflow. Một số thư viện quan trọng mỏ luận õn sử dụng gồm: Keras, sklearn, numpy, scipy, nltk.

Huấn luyện mừ hớnh được thực hiện trởn mõy tợnh cõ nhĩn với hệ điều hỏnh Windows 10 64 bit cụ cấu hớnh: chip Intel Core i7, 4GB Ram, Nvidia hỗ trợ GPU.

b. Cõc thiết lập

Mừ hớnh mạng truyền thẳng FFNN đề xuất gồm 3 tầng: đầu vỏo, 01 tầng ẩn vỏ đầu ra. Tầng đầu vỏo vỏ đầu ra cụ kợch thước bằng số từ trong tập từ khụa ứng cử. Heaton vỏ cộng sự [53] cho rằng kợch thước lớp ẩn nởn nằm giữa giõ trị kợch thước lớp đầu vỏo vỏ đầu ra cụ thể hạn chế được tớnh trạng qũ khớp (over-fitting). Dựa trởn gợi ý đụ, luận õn luận õn lựa chọn số node ở lớp ẩn cụ giõ trị bằng kợch thước lớp đầu vỏo. Do kợch thước của kho ngữ liệu huấn luyện khừng lớn, luận õn lựa chọn kợch thước mẫu nhỏ (batch size = 64) nhằm tăng số vúng lặp.

Mừ hớnh mạng LSTM sử dụng trong đề xuất gồm 5 lớp: đầu vỏo, 03 lớp ẩn vỏ đầu ra. Tương tự như mừ hớnh FFNN, lớp đầu vỏo vỏ lớp đầu ra cụ kợch thước bằng số từ trong tập từ khụa ứng cử. Lớp ẩn LSTM cụ kợch thước 512. Lớp hi lỏ lớp Dropout được sử dụng nhằm mục đợch chống hiện tượng qũ khớp với tỷ lệ loại bỏ số node lỏ 20% (ứng với giõ trị hệ số dropout=0.2). Mừ hớnh sử dụng hỏm kợch hoạt sigmoid nhằm thu được cõc giõ trị đầu ra nằm trong khoảng (0,1) trong lớp ẩn thứ ba.

Để lựa chọn cõc tham số tối ưu cho giai đoạn huấn luyện luận õn sử dụng cơ chế kết thỷc sớm (Early Stopping) giõm sõt sự biến đổi giõ trị độ chợnh xõc

(accuracy) vỏ độ mất mõt (loss). Do vậy, cõc tham số tốc độ học (learning rate)

vỏ số lần lặp (epoch) được xõc định một cõch tự động.

mõt (loss) khi huấn luyện kho ngữ liệu SemEval2010. Kết quả huấn luyện cho thấy, độ chợnh xõc của mừ hớnh trởn kho ngữ liệu SemEval2010 đạt kết quả khõ cao (97,35%) vỏ độ mất mõt giảm từ 0,25 xuống dưới 0,1.

Hớnh 2.5. Lược đồ quan hệ giữa độ chợnh xõc vỏ số lần lặp

Hớnh 2.6. Lược đồ quan hệ giữa độ mất mõt vỏ số lần lặp

Cõc kho ngữ liệu cún lại cho độ chợnh xõc khõ cao (trởn 80%). Từ kết quả huấn luyện mừ hớnh trởn cõc kho ngữ liệu cho thấy kiến trỷc của mừ hớnh cũng như cõc tham số lựa chọn lỏ phỳ hợp trởn cõc kho ngữ liệu thử nghiệm.

c. Cừng cụ sử dụng

Việc lựa chọn cõc cừng cụ phỳ hợp đụng vai trú quan trọng trong giai đoạn thử nghiệm gụp phần nĩng cao chất lượng của dữ liệu đầu vỏo vỏ tăng tốc độ tợnh tõn. Một số cừng cụ chợnh sử dụng trong đề xuất gồm:

- Thư viện NLTK [160]: Luận õn sử dụng tập từ dừng của thư viện để so khớp vỏ loại bỏ cõc từ dừng trong tệp văn bản đầu vỏo. NLTK hay Natural Language Toolkit - Bộ cừng cụ ngừn ngữ tự nhiởn, lỏ một thư viện được viết bằng

Python hỗ trợ xử lý ngừn ngữ tự nhiởn. Bằng cõch cung cấp cõc cơ chế vỏ kỹ thuật xử lý ngừn ngữ phổ biến, NLTK giỷp cho việc xử lý ngừn ngữ tự nhiởn trở lởn dễ dỏng vỏ nhanh chụng hơn. Khai thõc những ưu điểm mỏ NLTK mang lại, luận õn sử dụng thư viện TrigramAssocMeasures để trợch rỷt cụm ba từ (Trigram).

- Thư viện Spacy [158]: Luận õn sử dụng thư viện Spacy để trợch rỷt Cụm danh từ vỏ Thực thể cụ tởn từ một đoạn văn bản. Spacy lỏ một thư viện mạnh trong lĩnh vực XLNNTN hỗ trợ cho nhiều ngừn ngữ khõc nhau trong đụ cụ cõc ngừn ngữ tiếng Anh, Phõp, Ba lan, Bồ Đỏo nha sử dụng trong cõc kho ngữ liệu

thử nghiệm.

2.4.2.2 Kho ngữ liệu thử nghiệm

Để đõnh giõ hiệu quả của giải phõp đề xuất vỏ so sõnh với cõc kết quả cừng bố gần đĩy, luận õn thử nghiệm trởn 20 kho ngữ liệu phổ biến đọ mừ tả tụm tắt trong phần 1.5.1. Trong qũ trớnh thử nghiệm, luận õn sử dụng 70% dữ liệu ở mỗi kho cho huấn luyện mừ hớnh vỏ 30% cún lại dỏnh cho việc đõnh giõ hiệu quả.

2.4.2.3 Kết quả thử nghiệm vỏ so sõnh a. Kết quả thử nghiệm

Trong đề xuất nỏy, luận õn thực hiện hai pha thử nghiệm. Pha 1: Đõnh giõ hiệu quả của bộ đặc trưng đọ đề xuất. Pha 2: So sõnh lựa chọn mừ hớnh đề xuất phỳ hợp. Để kiểm tra kết quả của phương phõp đề xuất, luận õn sử dụng độ đo hiệu năng như đọ giới thiệu trong phần 1.5.2.

Trong pha thử nghiệm thứ nhất, luận õn thực hiện trợch rỷt bộ đặc trưng đọ đề xuất trởn tập từ khụa ứng cử lỏm đầu vỏo cho cõc mừ hớnh SVM, Naủve Bayes vỏ FFNN. Trong pha thử nghiệm thứ hai, luận õn sử dụng Glove để mọ hụa nội dung tỏi liệu lỏm đầu vỏo cho mừ hớnh LSTM. Kết quả thử nghiệm trởn 04 mừ hớnh nởu trởn cho k=10 từ khụa tốt nhất thể hiện trong Bảng 2.2 (Ký hiệu “-” cho cõc kho ngữ liệu khừng phải ngừn ngữ tiếng Anh).

Bảng 2.2. Giõ trị F-score trợch rỷt 10 từ khụa

# Kho ngữ liệu SVM (%) Naủve Bayes (%) FFNN (%) LSTM (%) 1 110-PT-BN-KP 17,6 26,3 36,7 - 2 500N-KPCrowd-v1.1 10,1 15,6 20,1 8,5 3 Cacic 1,3 15,2 40,0 2,3 4 Citeulike180 1,8 11,0 22,6 - 5 Fao30 1,6 12,2 21,6 4,4 6 Fao780 1,1 11,1 27,2 3,8 7 Inspec 34,8 39,3 42,4 38,0 8 Kdd 20,7 22,0 24,9 22,9 9 Krapivin2009 1,3 16,1 43,3 2,0 10 Nguyen2007 2,2 20,3 40,7 2,5 11 Pak2018 1,3 5,6 8,5 - 12 PubMed 1,7 11,6 18,5 12,2 13 Schutz2008 2,5 13,5 27,8 3,2

Bảng 2.2 thể hiện kết quả cho cả hai pha trởn 20 kho ngữ liệu thử nghiệm. Kết quả thử nghiệm cho thấy mừ hớnh FFNN sử dụng bộ đặc trưng đề xuất sẽ cho kết quả tốt nhất. Dựa trởn kết quả thu được cho thấy cõc kho ngữ liệu cụ kợch thước lớn như Cacic (888 tỏi liệu), Krapivin2009 (2,304 tỏi liệu), Inspec (2,000 tỏi liệu) cho kết quả tốt với tỷ lệ tớm được từ khụa đạt trởn 40%. Cõc kho ngữ liệu cún lại cho kết quả thấp hơn với tỷ lệ tớm được chủ yếu đạt mức 20-30%. Kho ngữ liệu đạt kết quả thấp nhất bằng 8,5% trởn kho ngữ liệu Pak2018 (50 tỏi liệu). Cõc kết quả trởn lỏ hoỏn toỏn hợp lý khi ứng dụng mừ hớnh học sĩu cho cõc bỏi tõn XLNNTN thớ kợch thước kho ngữ liệu sử dụng để huấn luyện mừ hớnh đụng vai trú quan trọng.

b. So sõnh với cõc nghiởn cứu khõc

Phương phõp đề xuất được so sõnh với 07 nghiởn cứu trợch rỷt từ khụa gần đĩy. Cõc nghiởn cứu nỏy cụ thể chia thỏnh 2 lớp:

- Cõc nghiởn cứu dựa trởn phương phõp truyền thống gồm YAKE! [27] định nghĩa một bộ 5 đặc trưng cho mỗi từ trong tập từ khụa ứng cử vỏ xĩy dựng phương phõp kết hợp heuristic để xõc định độ quan trọng của mỗi từ; Single Rank [139] xõc định độ quan trọng của một từ trong văn bản dựa trởn đồ thị.

- Cõc nghiởn cứu dựa trởn phương phõp học mõy vỏ học sĩu gồm KEA

[142] dựa trởn thuật tõn học mõy Naủve Bayes; Key2Vec [71] sử dụng phương phõp học khừng giõm sõt dựa trởn kỹ thuật nhỷng cụm từ (phrase embedding);

RaKUN sử dụng cấu trỷc dữ liệu đồ thị vỏ mừ hớnh mạng nơ ron CNN (Graph

CNN); CopyRNN [81] khai thõc mừ hớnh học sĩu RNN vỏ cơ chế sao chờp trong

# Kho ngữ liệu SVM (%) Naủve Bayes (%) FFNN (%) LSTM (%) 14 Semeval2010 1,7 14,7 31,3 1,5 15 SemEval2017 27,2 35,0 36,2 21,3 16 theses100 1,2 12,7 27,0 4,6 17 Wicc 1,3 21,4 43,5 - 18 Wiki20 1,4 12,2 22,2 09,7 19 WikiNews 8,6 29,8 31,4 11,5 20 WWW 23,3 24,6 27,5 -

mừ hớnh RNN để dự đõn cõc từ khụa; CatSeqD [143] ứng dụng mừ hớnh sinh từ khụa One2Seq kết hợp với cõc cơ chế tõc động để xõc định độ quan trọng của một từ trong văn bản.

Luận õn sử dụng kết quả từ mừ hớnh FFNN so sõnh với cõc đề xuất gần đĩy thể hiện trong Bảng 2.3 (Kết quả tốt nhất trởn mỗi kho ngữ liệu thử nghiệm được in đậm. Ký hiệu “-” lỏ kết quả khừng được cừng bố).

Bảng 2.3. So sõnh với cõc kết quả nghiởn cứu gần đĩy

Từ kết quả trởn cho thấy:

- Với cõc phương phõp truyền thống YAKE! vỏ Single Rank: Phương phõp đề xuất cho kết quả F-score lớn hơn 15/20 kho ngữ liệu. Xờt riởng từng phương phõp cho thấy phương phõp đề xuất lớn hơn 16/20 kho ngữ liệu so với YAKE! vỏ

Kho ngữ liệu YAKE! (%) Single Rank (%) KEA (%) Key2Vec (%) RaKUN (%) Copy RNN(%) CatSeqD (%) FFNN (%) 110-PT-BN-KP 50,0 27,5 21,5 - - - - 36,7 500N- KPCrowd-v1.1 17,3 15,7 15,9 - 42,8 - - 20,1 Inspec 31,6 37,8 15,0 48,6 5,4 28,9 33,3 42,4 Krapivin2009 17,0 9,7 17,1 - - 26,6 28,5 43,3 Nguyen2007 25,6 15,8 22,1 - 9,6 - - 40,7 PubMed 10,6 3,9 21,6 - 7,5 - - 18,5 Schutz2008 19,6 8,6 18,2 - 41,8 - - 27,8 WWW 17,2 9,7 7,2 - - - - 27,5 KDD 15,6 8,5 6,3 - 4,6 - - 24,9 SemEval2010 21,1 12,9 21,5 29,0 9,1 31,8 36,6 31,3 SemEval2017 32,9 44,9 20,1 - 11,2 - - 36,2 Cacic 19,6 8,7 15,5 - - - - 40,0 Citeulike180 25,6 6,6 31,7 - 25,0 - - 22,6 Fao30 18,4 6,6 13,9 - 23,3 - - 21,6 Fao780 18,7 8,5 11,4 - 9,4 - - 27,2 Pak2018 8,6 2,2 4,3 - - - - 8,5 Theses100 11,1 6,0 10,4 - 6,9 - - 27,0 Wicc 25,6 13,3 16,7 - - - - 43,5 Wiki20 16,2 03,8 13,4 - 19,0 - - 22,2 WikiNews 45,0 24,8 24,8 - - - - 31,4

19/20 so với phương phõp Single Rank. Từ kết quả thử nghiệm cho thấy phương phõp học sĩu phụ thuộc vỏo độ lớn của kho ngữ liệu vỏ cho kết quả tốt hơn với cõc kho ngữ liệu cụ số lượng tỏi liệu lớn. Tuy nhiởn, phương phõp đề xuất hoạt động chưa tốt với cõc kho ngữ liệu nhỏ cụ số lượng tỏi liệu nhỏ hơn 100 tệp tỏi liệu.

- YAKE! sử dụng kỹ thuật trợch rỷt đặc trưng văn bản (5 đặc trưng) tương tự như cõch tiếp cận của phương phõp đề xuất (9 đặc trưng). Dựa vỏo kết quả thử nghiệm thu được từ hai cõch tiếp cận cho thấy việc õp dụng kỹ thuật trợch rỷt đặc trưng kết hợp với mừ hớnh học sĩu cho kết quả tốt hơn sự kết hợp heuristic trởn cõc đặc trưng văn bản.

- So sõnh với cõc phương phõp học mõy vỏ học sĩu mới nhất cho thấy phương phõp đề xuất đạt kết quả tốt hơn 13/20 kho ngữ liệu. Xờt riởng từng phương phõp,

KEA sử dụng hai đặc trưng gồm trọng số TF-IDF vỏ vị trợ từ xuất hiện đầu tiởn

trong văn bản lỏm đầu vỏo cho mừ hớnh học mõy Naủve Bayes. So sõnh với KEA, phương phõp đề xuất tốt hơn 18/20 kho ngữ liệu trong khi kết quả thử nghiệm với bộ đặc trưng đề xuất bằng mừ hớnh học mõy Naủve Bayes trong Bảng 2.3 chỉ cho kết quả tương đương với 10/20 kết quả tốt hơn KEA. Điều nỏy chứng minh mừ hớnh học sĩu FFNN mỏ luận õn õp dụng lỏ phỳ hợp. Phương phõp Key2Vec cừng bố kết quả thử nghiệm trởn hai kho ngữ liệu Inspec vỏ SemEval2010. So sõnh kết quả giữa mừ hớnh học khừng giõm sõt sử dụng kỹ thuật nhỷng từ trong phương phõp

Key2Vec vỏ phương phõp đề xuất nhận thấy F-score của phương phõp Key2Vec

cao hơn 6,2% trởn kho ngữ liệu Inspec nhưng thấp hơn 2,3% trởn kho ngữ liệu SemEval2010 so với phương phõp đề xuất. Với phương phõp RaKUN, phương

phõp đề xuất cao hơn 16/20 kho ngữ liệu thử nghiệm. RaKUN sử dụng mừ hớnh mạng nơ ron đồ thị đạt kết quả cao nhất 3/20 kho ngữ liệu thử nghiệm. Tuy nhiởn, sự chởnh lệch kết quả F-score giữa cõc kho rất lớn. F-score trung bớnh trởn 20 kho ngữ liệu của RaKUN vỏ phương phõp đề xuất lỏ khõ lớn (6,58% so với 29,67%). Sự chởnh lệch nỏy cho thấy việc tiếp cận theo phương phõp mạng nơ ron đồ thị cụ độ ổn định khừng cao bằng phương phõp đề xuất. Khõc với cõc phương phõp lựa chọn từ khụa dựa trởn độ quan trọng của một từ, hai phương phõp CopyRNN vỏ

CatSeq cụ hướng tiếp cận hoỏn toỏn mới ở đụ sử dụng mừ hớnh sinh kết hợp với cõc cơ chế tõc động. Điểm khõc biệt cụ thể nhận thấy lỏ từ khụa sinh ra cụ thể khừng nằm trong tỏi liệu cần trợch rỷt nhưng cụ mối quan hệ về ngữ nghĩa với tỏi liệu đầu vỏo. Kết quả F-score của cõc phương phõp trởn tuy khừng tốt như giải phõp đề xuất (thấp hơn 2 trong số 3 kho ngữ liệu thử nghiệm) nhưng đĩy lỏ cõch tiếp cận hoỏn toỏn mới vỏ cụ ý nghĩa thực tế cao.

Kết quả thể hiện trong Bảng 2.3 khi so sõnh với 7 nghiởn cứu gần đĩy cho thấy phương õn đề xuất đạt giõ trị tốt nhất 9/20 kho ngữ liệu thử nghiệm. Kết quả nỏy chứng minh phương õn đề xuất của luận õn phỳ hợp với nhiều kiểu dữ liệu thuộc cõc ngừn ngữ, độ dỏi khõc nhau vỏ đạt kết quả tốt hơn với cõc kho ngữ liệu lớn. Ngoỏi ra, từ kết quả nỏy đọ chứng minh bộ đặc trưng đề xuất vỏ mừ hớnh FFNN lỏ một giải phõp khả thi để õp dụng vỏo thực tế giải quyết bỏi tõn tự động trợch rỷt từ khụa.

Giới thiệu mạng nơ ron hồi quy RNN

Giới thiệu mạng LSTM xếp chồng