tiếng Việt
Chương 2 luận õn đọ trớnh bỏy đề xuất trợch rỷt từ khụa dựa trởn kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh mạng nơ ron FFNN cho văn bản tiếng Anh. Với mục tiởu ứng dụng phương phõp trởn cho văn bản tiếng Việt, luận õn thực hiện một số cải tiến phỳ hợp với văn bản tiếng Việt. Thử nghiệm vỏ so sõnh kết quả trởn kho ngữ liệu từ khụa tiếng Việt.
4.3.2.1 Đề xuất giải phõp
Mừ hớnh trợch rỷt từ khụa đọ giới thiệu trong Chương 2 cụ thể mừ tả lại gồm cõc bước chợnh sau:
(i) Tiền xử lý văn bản đầu vỏo vỏ xõc định tập từ khụa ứng cử gồm cõc từ nằm trong cõc Cụm danh từ, Thực thể cụ tởn vỏ cụm từ xuất hiện nhiều lần trong văn bản.
(ii) Trợch rỷt đặc trưng từ lỏm đầu vỏo cho mừ hớnh học sĩu FFNN. Cõc đặc trưng đề xuất gồm: (1) Cụm danh từ; (2) Thực thể cụ tởn; (3) Cụm ba từ; (4)
Độ dỏi từ; (5) Vị trợ từ; (6) Độ phủ từ; (7) Tần suất xuất hiện từ; (8) trọng số TF- IDF; vỏ (9) Từ chứa ký tự viết hoa.
(iii) Xõc định độ quan trọng của mỗi từ trong tập từ khụa ứng cử vỏ lựa chọn từ khụa. Độ quan trọng của mỗi từ lỏ giõ trị đầu ra của mừ hớnh học sĩu FFNN. Việc lựa chọn từ khụa sẽ lấy k từ cụ độ quan trọng lớn nhất.
Từ quy trớnh thực hiện trởn cho thấy bước i vỏ ii cụ ảnh hưởng bởi yếu tố ngừn ngữ. Do vậy, để thử nghiệm giải phõp đọ đề xuất cho văn bản tiếng Anh trởn kho ngữ liệu tiếng Việt, luận õn thực hiện một số điều chỉnh trong bước i vỏ ii gồm trợch rỷt tập từ khụa ứng cử vỏ trợch rỷt đặc trưng từ. Xem xờt cụ thể từng bước trởn cho thấy cõc đặc trưng (3) Cụm ba từ; (4) Độ dỏi từ; (5) Vị trợ từ; (6)
Độ phủ từ; (7) Tần suất xuất hiện từ; (8) trọng số TF-IDF; vỏ (9) Từ chứa ký tự viết hoa cụ thể sử dụng cho cả hai ngừn ngữ tiếng Anh vỏ tiếng Việt. Hai đặc
trưng cún lại lỏ Cụm danh từ vỏ Thực thể cụ tởn khừng thể sử dụng cỳng một kỹ thuật cho tiếng Anh vỏ tiếng Việt vỏ do đụ cần cụ sự điều chỉnh phỳ hợp.
giới để trợch rỷt Cụm danh từ vỏ Thực thể cụ tởn. Tuy nhiởn, hiện tại bộ cừng cụ nỏy chưa hỗ trợ cho tiếng Việt. Hiện nay, cụ nhiều bộ cừng cụ hỗ trợ xử lý văn bản tiếng Việt thực hiện đồng thời gõn nhọn từ loại (POS) vỏ trợch rỷt Thực thể cụ tởn (NER). Một số cừng bố liởn quan cụ thể kể đến như Underthesea [165]
đạt độ chợnh xõc 92,3% cho bỏi tõn POS tiếng Việt, VnCoreNLP [138] đạt độ chợnh xõc 95,88% cho bỏi tõn POS vỏ 88,55% cho bỏi tõn NER. Được cừng bố năm 2020, PhoBERT-large [91] đạt độ chợnh xõc 96,8% cho bỏi tõn POS vỏ 94,7% cho bỏi tõn NER được xem lỏ phương phõp tốt nhất cho bỏi tõn POS vỏ NER tiếng Việt.
Dựa trởn cõc phĩn tợch vỏ so sõnh trởn, luận õn sử dụng bộ cừng cụ
PhoBert- large cho việc trợch rỷt Cụm danh từ vỏ Thực thể cụ tởn.
4.3.2.2 Đõnh giõ thử nghiệm trởn kho ngữ liệu từ khụa tiếng Việt
a. Xĩy dựng kho ngữ liệu thử nghiệm
Để đõnh giõ giải phõp trợch rỷt từ khụa cho tiếng Việt luận õn thực hiện xĩy dựng kho ngữ liệu lấy từ cõc bỏi bõo khoa học tiếng Việt (gọi lỏ kho ngữ liệu bỏi bõo). Luận õn sử dụng lại cõc tệp dữ liệu đọ tiền xử lý của kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt đọ tõch từ vỏ trợch xuất cõc từ khụa (gold keys) được tõc giả bỏi bõo liệt kở trong mục “Từ khụa” của bỏi bõo. Thừng tin kho ngữ liệu bỏi bõo được trớnh bỏy trong Bảng 4.7.
Bảng 4.7. Tụm tắt thừng tin kho ngữ liệu trợch rỷt từ khụa tiếng Việt
Kho ngữ liệu Kiểu Số vănbản (trung bớnh)#Gold Keys
Độ dỏi trung bớnh
Kho ngữ liệu bỏi bõo khoa họcBỏi bõo 221 (8.70)1,923 1,657.8từ b. Đõnh giõ thử nghiệm
Bộ ngữ liệu bỏi bõo được chia lỏm hai phần: 70% (tương đương với 155 tệp) sử dụng để huấn luyện mừ hớnh, phần cún lại sử dụng cho việc kiểm tra đõnh giõ. Thực hiện trợch rỷt đặc trưng cõc từ trong tập từ khụa ứng cử lỏm đầu vỏo cho mừ hớnh FFNN trong cả hai giai đoạn huấn luyện mừ hớnh vỏ kiểm tra đõnh giõ
với cõc trường hợp trợch rỷt 5, 10 vỏ 15 từ khụa. Kết quả thử nghiệm được thể hiện trong Bảng 4.8 với F-score lớn nhất đạt 23,91% cho 10 từ khụa.
Bảng 4.8. Kết quả thử nghiệm với kho ngữ liệu bỏi bõo tiếng Việt
Số lượng từ khụa trợch rỷt Precision (%) Recall (%) F-score (%) 5 31,52 18,66 22,88 10 23,3 26,43 23,91 15 16,87 24,49 20,58
Để cụ cơ sở đõnh giõ giải phõp đề xuất, luận õn sử dụng mọ nguồn của thuật tõn YAKE! [27] (địa chỉ mọ nguồn: https://github.com/LIAAD/yake) chạy trởn bộ ngữ liệu bỏi bõo tiếng Việt. Kết quả thử nghiệm được trớnh bỏy trong Bảng 4.9.
Bảng 4.9. Kết quả thử nghiệm với thuật tõn YAKE!
Số lượng từ khụa trợch rỷt Precision (%) Recall (%) F-score (%) 5 12,58 7,63 9,31 10 9,59 11,42 10,20 15 8,11 14,27 10,11
So sõnh với kết quả thử nghiệm trong Bảng 4.8 vỏ Bảng 4.9 cho thấy giải phõp đề xuất cho kết quả cao hơn so với thuật tõn YAKE! chạy trởn kho ngữ liệu bỏi bõo tiếng Việt. Phĩn tợch chi tiết cõc độ đo F-score của từng tệp dữ liệu cho thấy: cụ 10 trong số 66 tệp dữ liệu trả về kết quả 0 (chiếm khoảng 15,15% tổng số tệp) vỏ cao nhất đạt giõ trị 58,82%. Phĩn tợch chi tiết kết quả của YAKE! cho thấy cụ 123 trong số 221 tệp cụ giõ trị F-score = 0 (chiếm 55,65%) vỏ giõ trị F- score cao nhất đạt 54,55%. Giõ trị F-score = 0 thể hiện rằng trong số cõc từ khụa tớm được khừng cụ từ khụa nỏo nằm trong tập từ khụa xõc định trước. Hai nguyởn nhĩn chợnh dẫn đến việc khừng tớm được từ khụa ở một số tệp dữ liệu lỏ (1) số lượng từ khụa xõc định trước (gold keys) qũ ợt so với độ dỏi tỏi liệu cần trợch rỷt vỏ (2) chất lượng cõc từ khụa do tõc giả bỏi bõo xõc định cũng chưa thực sự tốt.