Kết luận Chương 4

Chương 4 tập trung nghiởn cứu đề xuất vỏ cải tiến cõc kỹ thuật phõt hiện sao chờp õp dụng cho văn bản tiếng Việt bao gồm hai đề xuất mới vỏ cải tiến ba kỹ thuật đọ đề xuất trong Chương 2 vỏ Chương 3 của luận õn. Đề xuất thứ nhất trớnh bỏy phương phõp xĩy dựng kho ngữ liệu tiếng Việt được sử dụng thử nghiệm, đõnh giõ cõc thuật tõn phõt hiện đoạn sao chờp cho văn bản tiếng Việt. Đề xuất thứ hai trớnh bỏy kỹ thuật trợch rỷt từ khụa dựa trởn trọng số TF-IDF cụ xem xờt yếu tố từ loại õp dụng cho văn bản dỏi tiếng Việt. Để cụ cơ sở cải tiến cõc kỹ thuật phõt hiện sao chờp văn bản tiếng Anh õp dụng cho tiếng Việt, luận õn đọ phĩn tợch sự ảnh hưởng của yếu tố ngừn ngữ trong mỗi bước xử lý từ đụ đề xuất cõc nội dung cải tiến cho kỹ thuật trợch rỷt từ khụa tớm tập ứng cử vỏ 02 kỹ thuật phõt hiện đoạn sao chờp.

Cõc đụng gụp chợnh của chương nỏy gồm:

- Đề xuất giải phõp vỏ quy trớnh xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt phục vụ thử nghiệm, đõnh giõ cõc thuật tõn phõt hiện đoạn sao chờp văn bản tiếng Việt.

-Đề xuất phương phõp trợch rỷt từ khụa cho văn bản dỏi tiếng Việt dựa trởn trọng số TF-IDF ở mức tỏi liệu vỏ mức đoạn kết hợp với yếu tố từ loại.

-Đề xuất cõc nội dung cải tiến cõc kỹ thuật trợch rỷt từ khụa vỏ phõt hiện đoạn sao chờp ứng dụng cho văn bản tiếng Việt dựa trởn phĩn tợch sự ảnh hưởng của yếu tố ngừn ngữ trong mỗi giao đoạn xử lý.


1. Cõc kết quả nghiởn cứu của luận õn

Việc nghiởn cứu cõc kỹ thuật phõt hiện sao chờp thu hỷt được nhiều sự quan tĩm của cõc nhỏ nghiởn cứu trong vỏ ngoỏi nước. Do vậy, luận õn đọ đề xuất hướng nghiởn cứu liởn quan đến lớp bỏi tõn nỏy. Qua thời gian nghiởn cứu, thấy rằng cõc đề xuất liởn quan đến bỏi tõn phõt hiện sao chờp vẫn cún một số hạn chế như: cõc đề xuất giải quyết cõc trường hợp sao chờp cụ sự thay đổi chưa thực sự hiệu quả vỏ vấn đề ứng dụng cõc kỹ thuật phõt hiện sao chờp cho văn bản tiếng Việt cún nhiều hạn chế. Chợnh vớ vậy, hướng nghiởn cứu của luận õn lỏ cần thiết. Luận õn đọ đạt được mục tiởu lỏ đề xuất cõc kỹ thuật liởn quan đến bỏi tõn phõt hiện sao chờp toỏn cục, xĩy dựng cõc kho ngữ liệu tiếng Việt vỏ cải tiến cõc kỹ thuật đọ đề xuất thử nghiệm trởn kho ngữ liệu nỏy gụp phần khắc phục cõc hạn chế đọ nởu.

Cõc kết quả của luận õn đạt được lỏ:

- Nghiởn cứu về bỏi tõn phõt hiện sao chờp toỏn cục; phĩn tợch, đõnh giõ ưu nhược điểm của cõc hướng nghiởn cứu liởn quan đến hai bỏi tõn thỏnh phần gồm bỏi tõn trợch rỷt từ khụa tớm tập tỏi liệu ứng cử vỏ bỏi tõn phõt hiện đoạn sao chờp.

- Đọ đề xuất phương phõp trợch rỷt từ khụa tớm tập tỏi liệu ứng cử vỏ hai phương phõp phõt hiện đoạn sao chờp cho văn bản tiếng Anh. Thực hiện thực nghiệm, so sõnh vỏ đõnh giõ hiệu quả của cõc phương phõp đề xuất so với cõc tiếp cận trởn thế giới liởn quan đến mỗi bỏi tõn.

- Đọ đề xuất phương phõp trợch rỷt từ khụa cho văn bản dỏi tiếng Việt. Cải tiến cõc kỹ thuật đọ đề xuất cho văn bản tiếng Anh ứng dụng cho văn bản tiếng Việt.

- Đọ đề xuất giải phõp vỏ quy trớnh xĩy dựng kho ngữ liệu phõt hiện đoạn sao chờp tiếng Việt phục vụ thử nghiệm, đõnh giõ cõc thuật tõn phõt hiện sao chờp cho văn bản tiếng Việt.

bỏi bõo vỏ kho ngữ liệu ĐATN sử dụng cho bỏi tõn trợch rỷt từ khụa tiếng Việt. 2. Những đụng gụp mới của luận õn

-Đề xuất 2 kỹ thuật trợch rỷt từ khõ dựa trởn trọng số if-idf kết hợp với từ loại, vỏ dựa trởn kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh mạng nơ ron truyền thẳng FFNN.

- Đề xuất 2 kỹ thuật phõt hiện đoạn sao chờp dựa trởn thuật tõn LDA kết hợp với thuật tõn tớm tập phổ biến Apriori vỏ kỹ thuật sử dụng mạng nơ ron học sĩu LSTM.

- Xĩy dựng kho ngữ liệu đơn ngữ tiếng Việt cho bỏi tõn phõt hiện sao chờp văn bản.

3. Hướng nghiởn cứu tiếp theo

Về lý thuyết: Tiếp tục phõt triển cõc kỹ thuật trợch rỷt từ khụa đạt hiệu quả cao hơn. Tiếp tục nghiởn cứu cõc kỹ thuật phõt hiện đoạn sao chờp vỏ cõc độ đo tương đồng ngữ nghĩa, tập trung cõc giải phõp cho văn bản tiếng Việt.

Về thực tiễn: Kết hợp cõc giải phõp trợch rỷt từ khụa, phõt hiện đoạn sao chờp theo cả hai hướng so khớp từ vỏ ngữ nghĩa để xĩy dựng ứng dụng phõt hiện sao chờp hoỏn chỉnh õp dụng trong thực tế.


[CT1]. Le, H. T., Pham, L. N., Nguyen, D. D., Nguyen, S. V., & Nguyen, A. N. (2016), “Semantic text alignment based on topic modeling.” 2016 IEEE RIVF International Conference on Computing & Communication Technologies, Research, Innovation, and Vision for the Future (RIVF). IEEE, 2016. pp. 67-72, DOI: 10.1109/rivf.2016.7800271

[CT2]. Nguyễn Văn Sơn, Lở Thanh Hương, Nguyễn Chợ Thỏnh (2018),

“Phương phõp trợch rỷt từ khụa tớm tập ứng cử trong bỏi tõn phõt hiện đạo văn.” Tạp chợ Nghiởn cứu khoa học vỏ Cừng nghệ quĩn sự, số đặc san 11/2018,

trang 27-35.

[CT3]. Nguyen Van Son, Le Thanh Huong, Nguyen Chi Thanh (2019),

“Construction monolingual vietnamese corpus for plagiarism detection”. Tạp chợ

Nghiởn cứu khoa học vỏ Cừng nghệ quĩn sự, số đặc san thõng 10/2019, trang 249- 256

[CT4]. Nguyen Van Son, Le Thanh Huong, Nguyen Chi Thanh (2020),

“Automatic keyword extraction using artificial neural network and feature extraction”. Tạp chợ Nghiởn cứu khoa học vỏ Cừng nghệ quĩn sự, Số 69A, thõng

11/2020, trang 63-74.

[CT5]. Nguyen Van Son, Le Thanh Huong, Nguyen Chi Thanh (2021), “A two-

phase plagiarism detection system based on multi-layer LSTM Networks”. IAES

International Journal of Artificial Intelligence (IJ-AI)(Q2), Vol 10, No3, September 2021, pp. 636-648, DOI: 10.11591/ijai.v10.i3.


