1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt

175 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phát Triển Một Số Kỹ Thuật Hỗ Trợ Phát Hiện Đạo Văn Và Ứng Dụng Cho Văn Bản Tiếng Việt
Người hướng dẫn PGS TS
Trường học Viện Khoa Học Và Công Nghệ Quân Sự
Chuyên ngành Cơ Sở Toán Học Cho Tin Học
Thể loại luận án tiến sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 175
Dung lượng 1,44 MB

Cấu trúc

  • CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP 7 (15)
  • CHƯƠNG 2 TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌC SÂU 43 (15)
  • FFNN 46 (0)
  • CHƯƠNG 3 PHÁT HIỆN ĐOẠN SAO CHÉP GIỮA HAI TÀI LIỆU DỰA TRÊN CÁC MÔ HÌNH HỌC MÁY 62 (15)
  • CHƯƠNG 4 ỨNG DỤNG CÁC KỸ THUẬT PHÁT HIỆN SAO CHÉP (15)

Nội dung

TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP 7

Chương này cung cấp cái nhìn tổng quát về đạo văn, bao gồm định nghĩa, phân loại hình thức sao chép và các kiến thức nền tảng liên quan Nó cũng đề cập đến kho ngữ liệu sử dụng và các phương pháp đo lường phổ biến trong việc phát hiện sao chép Bên cạnh đó, chương này tổng hợp và phân tích các kỹ thuật phát hiện sao chép trong nước và quốc tế, từ đó chỉ ra những vấn đề còn tồn tại, làm cơ sở để xác định các vấn đề cần nghiên cứu và giải quyết trong luận án.

TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌC SÂU 43

Chương này cung cấp cái nhìn tổng quan về bài toán tìm tập tài liệu ứng cử và định nghĩa bài toán trích rút từ khóa Nội dung chính tập trung vào việc nghiên cứu và đề xuất bộ 9 đặc trưng mức từ, sử dụng làm đầu vào cho mô hình mạng nơ ron truyền thẳng nhằm giải quyết hiệu quả bài toán này cho văn bản tiếng Anh.

FFNN Phương pháp đề xuất được thử nghiệm trên 20 kho ngữ liệu phổ biến và so sánh kết quả với các nghiên cứu tương tự trên thế giới

Chương 3 Phát hiện đoạn sao chép giữa hai tài liệu dựa trên các mô hình học máy

Chương 3 trình bày bài toán phát hiện sao chép toàn cục và đề xuất hai phương pháp tìm đoạn sao chép giữa hai tài liệu Đề xuất đầu tiên sử dụng mô hình chủ đề với thuật toán LDA kết hợp cùng thuật toán Apriori để tìm tập phổ biến và kỹ thuật mở rộng đoạn Đề xuất thứ hai bao gồm hai pha xử lý: pha đoạn và pha từ, dựa trên mô hình học sâu LSTM xếp chồng và kỹ thuật trích rút đặc trưng Các phương pháp này được thử nghiệm trên kho ngữ liệu PAN và so sánh với các nghiên cứu gần đây.

Chương 4 Ứng dụng các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt

Chương 4 tập trung vào nghiên cứu và phát triển các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt, với hai đề xuất mới là xây dựng kho ngữ liệu phát hiện đoạn sao chép và phương pháp trích rút từ khóa dựa trên độ đo TF-IDF cho văn bản dài Ngoài ra, chương này còn trình bày ba phương pháp cải tiến, bao gồm cải tiến kỹ thuật trích rút từ khóa bằng mô hình học sâu, nâng cao mô hình chủ đề cho phát hiện đoạn sao chép, và cải tiến kỹ thuật trích rút đặc trưng kết hợp với mô hình LSTM cho văn bản tiếng Việt Các phương pháp này đã được thử nghiệm trên các kho ngữ liệu tiếng Việt và so sánh với các nghiên cứu tương tự trên toàn cầu.

STT Tài liệu kiểm tra Tài liệu gốc Hình thức sao chép

1 Hay nói cách khác, truy xuất thông tin là hoạt động thu thập tài

Hay nói cách khác, truy xuất thông tin là hoạt động thu thập tài nguyên hệ thống thông tin có

Sao chép nguyên văn không có

CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP

Chương này trình bày lý thuyết về phát hiện sao chép, bao gồm khái niệm cơ bản, phương pháp tiếp cận, kho ngữ liệu thường dùng, và phương pháp đánh giá Ngoài ra, chương cũng đề cập đến đặc điểm của tiếng Việt và tình hình nghiên cứu phát hiện sao chép cho văn bản tiếng Việt Dựa trên phân tích ưu nhược điểm của các phương pháp hiện tại, luận án đề xuất các hướng nghiên cứu chính cho nội dung luận án.

Theo từ điển trực tuyến Merriam-Webster [159], đạo văn là hình thức:

- Sao chép và trình bày ý tưởng bằng ngôn từ của người khác

- Sử dụng kết quả của tác giả khác mà không chỉ rõ nguồn gốc

- Công bố một ý tưởng hay một kết quả lấy ra từ các kết quả đã có từ trước

Đạo văn là hành vi sao chép ý tưởng hoặc kết quả của người khác mà không ghi rõ nguồn gốc, thường gặp trong giáo dục, nghiên cứu khoa học, xuất bản và các lĩnh vực chuyên biệt như y tế, âm nhạc, hội họa Hình thức đạo văn chủ yếu là sao chép nguyên văn hoặc sao chép có sửa đổi.

Bảng 1.1 trình bày một số hình thức sao chép được xác định từ kết quả kiểm tra trùng lặp văn bản tiếng Việt, được trích xuất từ hệ thống Coopy - Hệ thống kiểm tra trùng lặp nội dung của Trường Đại học Bách khoa Hà Nội.

[1] là đồ án tốt nghiệp của sinh viên ngành Công nghệ thông tin và truyền thông

Bảng 1 1 Kết quả kiểm tra trùng lặp từ hệ thống Coopy

Tài liệu kiểm tra liên quan đến nhu cầu thông tin bao gồm việc sao chép nguyên hệ thống thông tin từ nhiều nguồn khác nhau Việc này giúp tập hợp thông tin cần thiết để đáp ứng các yêu cầu cụ thể của người dùng.

Nguồn: từ CSDL của hệ thống trích dẫn nguồn thông tin

2 Ta có thể lấy câu trả lời của câu hỏi này, dùng làm câu trả lời cho câu hỏi còn lại

Khi hai câu hỏi có nội dung tương đồng, chúng ta có thể sử dụng câu trả lời của một câu hỏi để làm câu trả lời cho câu hỏi còn lại Nguồn: từ CSDL của hệ thống.

Sao chép có sự sửa đổi

3 Để truy xuất được câu trả lời trong cơ sở dữ liệu thì cũng cần phải có tập các bộ luật được xây dựng sẵn

Và để truy vấn được câu trả lời trong DB cũng cần có các tập luật Rule-base được xây dựng sẵn

Nguồn: từ CSDL của hệ thống

Sao chép có sự sửa đổi

1 1 2 Các hình thức sao chép

Hình thức sao chép đơn giản nhất là sao chép nguyên văn, hay có thể gọi là

Hình thức sao chép và sửa đổi nội dung, thường được gọi là "cắt - dán", diễn ra phổ biến khi người dùng thay đổi một số từ bằng từ đồng nghĩa mà không làm thay đổi nghĩa tổng thể của câu hay đoạn văn Theo nghiên cứu của Alzahrani và cộng sự [14], các hình thức sao chép này có thể được mô tả qua các biểu đồ minh họa.

Sao chép nguyên văn là hình thức sao chép trong đó các đoạn văn bản được giữ nguyên hoặc chỉ thay đổi trật tự từ, câu, hoặc cú pháp.

Sao chép có sự sửa đổi: Bao gồm 3 kỹ thuật chính:

Thao tác trên văn bản bao gồm việc thay thế một số từ trong đoạn văn bằng các từ đồng nghĩa mà không làm sai lệch ý nghĩa của văn bản gốc Ngoài ra, có thể diễn đạt văn bản theo hình thức tóm tắt nhưng vẫn giữ lại các ý chính quan trọng của nội dung ban đầu.

- Dịch: Dịch đoạn văn bản từ ngôn ngữ này sang ngôn ngữ khác

Sao chép ý tưởng là hình thức sao chép phức tạp và khó phát hiện, thường chỉ sử dụng một số đoạn quan trọng từ văn bản gốc như kết quả, công bố và kết luận mà không ghi nguồn Hình thức này được chia thành ba loại: sao chép theo ngữ nghĩa, theo các phần quan trọng và theo ngữ cảnh.

Sao chép chính xác - Toàn bộ văn bản

Sao chép nguyên văn Sao chép gần đúng

Sao chép có thay đổi

- Sắp xếp trật tự câu

Thao tác trên văn bản

- Sinh ra các khái niệm

- Sinh ra các đặc tả Thủ công

Sao chép chọn lọc Dịch Tự động

- Dịch sang nhiều ngôn ngữ khác

Sao chép ý tưởng Dựa trên phần quan trọng Dựa trên ngữ cảnh

Hình 1 1 Các hình thức sao chép

Để phát triển các đề xuất và luận án, bài viết trình bày các thuật toán và mô hình như LDA để tìm chủ đề ẩn, thuật toán Apriori để khai thác luật kết hợp, và mô hình mạng nơ ron LSTM xếp chồng, nhằm phát hiện đoạn sao chép giữa hai tài liệu Ngoài ra, sự khác biệt giữa tiếng Việt và tiếng Anh về loại hình ngôn ngữ, cấu tạo từ và dấu thanh khiến các kỹ thuật xử lý từ áp dụng cho tiếng Anh không phù hợp với tiếng Việt Luận án sẽ giới thiệu các kiến thức nền tảng về ngôn ngữ tiếng Việt, từ đó áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên như tách từ và gán nhãn từ loại trong quá trình thử nghiệm các giải pháp cho tiếng Việt.

1 2 1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt

Tiếng Việt sử dụng bảng ký tự Latin và có các thanh điệu đặc trưng, thuộc loại ngôn ngữ đơn lập Mỗi âm tiết trong tiếng Việt được phát âm tách rời và được biểu thị bằng một chữ viết Trong văn bản, các âm tiết được phân cách bởi dấu cách hoặc dấu câu, với mỗi "từ" có thể bao gồm một hoặc nhiều âm tiết.

Ví dụ câu “Hà Nội là thủ đô của nước Việt Nam ” có các từ là Hà_Nội, là, thủ_đô, của, nước, “Việt_Nam”

Khó khăn trong bài toán tách từ xuất phát từ việc một câu đầu vào có thể được tách thành nhiều cách khác nhau Chẳng hạn, câu “Ông già đi nhanh quá” có thể được phân tách theo hai cách khác nhau.

(1) Ông_già đi nhanh quá

Ngày đăng: 16/05/2022, 16:14

HÌNH ẢNH LIÊN QUAN

Bảng 12 Tụm tắt thừng tin kho ngữ liệu thử nghiệm trợch rỷt từ khụa - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 12 Tụm tắt thừng tin kho ngữ liệu thử nghiệm trợch rỷt từ khụa (Trang 48)
Bảng 21 Vợ dụ 10 kết quả đầu ra của mừ hớnh đề xuất - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 21 Vợ dụ 10 kết quả đầu ra của mừ hớnh đề xuất (Trang 65)
LSTM Vờc tơ đặc - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
c tơ đặc (Trang 65)
Bảng 22 Giõ trị F-score trợch rỷt 10 từ khụa - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 22 Giõ trị F-score trợch rỷt 10 từ khụa (Trang 68)
Bảng 22 thể hiện kết quả cho cả hai pha trởn 20 kho ngữ liệu thử nghiệm Kết quả thử nghiệm cho thấy mừ hớnh FFNN sử dụng bộ đặc trưng đề xuất sẽ cho kết quả tốt nhất  Dựa trởn kết quả thu được cho thấy cõc kho ngữ liệu cụ kợch thước lớn như Cacic (888 tỏi - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 22 thể hiện kết quả cho cả hai pha trởn 20 kho ngữ liệu thử nghiệm Kết quả thử nghiệm cho thấy mừ hớnh FFNN sử dụng bộ đặc trưng đề xuất sẽ cho kết quả tốt nhất Dựa trởn kết quả thu được cho thấy cõc kho ngữ liệu cụ kợch thước lớn như Cacic (888 tỏi (Trang 69)
Bảng 23 So sõnh với cõc kết quả nghiởn cứu gần đóy - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 23 So sõnh với cõc kết quả nghiởn cứu gần đóy (Trang 70)
Bảng 31 Kết quả thử nghiệm - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 31 Kết quả thử nghiệm (Trang 85)
Kết quả thử nghiệm được thể hiện trong Bảng 31 Trong bảng dưới, dúng “Entire” lỏ kết quả chạy dữ liệu trong toỏn bộ kho (4 tập dữ liệu trong kho Cheema vỏ 2 tập dữ liệu trong kho Alvi) - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
t quả thử nghiệm được thể hiện trong Bảng 31 Trong bảng dưới, dúng “Entire” lỏ kết quả chạy dữ liệu trong toỏn bộ kho (4 tập dữ liệu trong kho Cheema vỏ 2 tập dữ liệu trong kho Alvi) (Trang 85)
Bảng 32 Kết quả đọ cừng bố của Sanchez-Perez - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 32 Kết quả đọ cừng bố của Sanchez-Perez (Trang 86)
Bảng 33 Kết quả mọ hụa đoạn - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 33 Kết quả mọ hụa đoạn (Trang 90)
Bảng 35 Kết quả thử nghiệm - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 35 Kết quả thử nghiệm (Trang 105)
Bảng 36 So sõnh kết quả với cõc nghiởn cứu gần đóy - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 36 So sõnh kết quả với cõc nghiởn cứu gần đóy (Trang 107)
Bảng 42 Bảng phón bố độ dỏi đoạn sao chờp - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 42 Bảng phón bố độ dỏi đoạn sao chờp (Trang 114)
Bảng 41 Bảng thừng tin dữ liệu thu thập - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 41 Bảng thừng tin dữ liệu thu thập (Trang 114)
Bảng 43 Mừ tả dữ liệu từ đồng nghĩa - Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt
Bảng 43 Mừ tả dữ liệu từ đồng nghĩa (Trang 116)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w