Xuấ tý tưởng

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 55 - 56)

Như đọ giới thiệu trong phần 1.3.1, cõc tiếp cận dựa trởn mạng nơ ron nhĩn tạo với cơ chế tự động trợch rỷt đặc trưng văn bản đọ vỏ đang được õp dụng một cõch hiệu quả trong việc giải quyết cõc bỏi tõn trợch rỷt từ khụa. Qũ trớnh tự động trợch rỷt đặc trưng trong cõc mừ hớnh học sĩu được thực hiện qua hai bước: trợch rỷt đặc trưng (feature extraction) vỏ lựa chọn đặc trưng (feature selection). Trong bước trợch rỷt đặc trưng, mừ hớnh thực hiện tự động trợch rỷt tất cả cõc đặc trưng từ dữ liệu đầu vỏo. Bước lựa chọn đặc trưng sẽ thực hiện chọn ra cõc đặc trưng tốt nhất sử dụng trong mừ hớnh huấn luyện vỏ dự đõn. Tuy nhiởn, mừ hớnh học sĩu chỉ cụ thể đạt được kết quả tối ưu khi dữ liệu huấn luyện đủ lớn. Với cõc kho ngữ liệu hạn chế cụ thể dẫn đến tớnh trạng qũ khớp (overfitting) vỏ do đụ, dẫn đến tớnh trạng dự đõn nhầm nhiễu vỏ chất lượng mừ hớnh khừng cún tốt trởn dữ liệu kiểm tra.

Thống kở cõc kho ngữ liệu thử nghiệm phổ biến hiện nay cho bỏi tõn trợch rỷt từ khụa (trớnh bỏy trong Bảng 1.2, mục 1.5.1.1) cho thấy kho ngữ liệu lớn nhất lỏ Krapivin2009 chứa 2,304 tỏi liệu, kho ngữ liệu nhỏ nhất lỏ Wiki20 chứa 20 tỏi liệu. Mặc dỳ cõc kho ngữ liệu cụ sự chởnh lệch đõng kể về mặt số lượng tỏi liệu giữa kho ngữ liệu lớn nhất vỏ kho ngữ liệu nhỏ nhất (gấp hơn 100 lần) tuy nhiởn, cho đến nay chưa cụ nghiởn cứu nỏo chỉ rử kợch thước của dữ liệu huấn luyện bao nhiởu được xem lỏ đủ lớn cho cõc mừ hớnh học sĩu sử dụng cơ chế tự động trợch rỷt đặc trưng. Trong trường hợp

nỏy, việc xõc định trước cõc đặc trưng được xem lỏ một giải phõp thay thế hiệu quả. Việc sử dụng kết hợp giữa kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh học sĩu đọ được õp dụng vỏ đạt được nhiều kết quả tốt [7],[8]. AI-Hawawred vỏ cộng sự [7] đọ đề xuất hai phương phõp trợch rỷt đặc trưng CAE vỏ VAE để tạo ra vờc tơ đặc trưng đầu vỏo cho mừ hớnh mạng học sĩu DNN-BN (Deep Neural Network with Batch Normalization) huấn luyện vỏ kiểm tra mọ độc trong một mạng LAN. Giải quyết bỏi tõn phõt hiện truy cập trõi phờp, AI-Hawawred vỏ cộng sự [8] tiếp tục đề xuất hai phương phõp trợch rỷt đặc trưng SAE vỏ DAE lỏm dữ liệu đầu vỏo cho mừ hớnh mạng nơ ron nhĩn tạo ANN. Kết quả thử nghiệm của cõc nghiởn cứu trởn cho kết quả tốt hơn cõc nghiởn cứu trước sử dụng thuật tõn học mõy vỏ học sĩu sử dụng cơ chế tự động trợch rỷt đặc trưng.

Luận õn khai thõc ưu điểm của phương phõp học khừng giõm sõt thừng qua một tập đặc trưng được trợch rỷt từ tập từ khụa ứng cử kết hợp với mừ hớnh mạng FFNN. Việc trợch rỷt đặc trưng lỏm đầu vỏo cho mừ hớnh học sĩu cũng sẽ khắc phục được hạn chế của mừ hớnh với cõc kho ngữ liệu nhỏ. Chợnh vớ vậy, trong nội dung đề xuất nỏy luận õn thực hiện thử nghiệm đõnh giõ hiệu quả của bộ đặc trưng đề xuất dựa trởn cõc thuật tõn học mõy như SVM, Naủve Bayes vỏ mừ hớnh học sĩu FFNN. Bởn cạnh đụ, luận õn tiến hỏnh thử nghiệm nhằm so sõnh bộ đặc trưng đề xuất với cơ chế tự động trợch rỷt đặc trưng sử dụng mừ hớnh LSTM. Cõc bước thử nghiệm đõnh giõ trong đề xuất gồm:

- Thử nghiệm với cõc thuật tõn học mõy SVM, Naủve Bayes, mừ hớnh FFNN sử dụng bộ đặc trưng được xõc định trước với dữ liệu đầu vỏo lỏ tập từ khụa ứng cử

- Thử nghiệm với mừ hớnh LSTM (lỏ một dạng cụ thể của mừ hớnh RNN) sử dụng cơ chế tự động trợch rỷt đặc trưng với dữ liệu đầu vỏo lỏ toỏn bộ nội dung tỏi liệu.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 55 - 56)