TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP 7
Chương này cung cấp cái nhìn tổng quát về đạo văn, bao gồm định nghĩa, phân loại hình thức sao chép và các kiến thức nền tảng liên quan Nó cũng đề cập đến kho ngữ liệu sử dụng và các phương pháp đo lường phổ biến trong việc phát hiện sao chép Bên cạnh đó, chương này tổng hợp và phân tích các kỹ thuật phát hiện sao chép trong nước và quốc tế, từ đó chỉ ra những vấn đề còn tồn tại, làm cơ sở để xác định các vấn đề cần nghiên cứu và giải quyết trong luận án.
TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌC SÂU 43
Chương này cung cấp cái nhìn tổng quan về bài toán tìm tập tài liệu ứng cử và định nghĩa bài toán trích rút từ khóa Nội dung chính tập trung vào việc nghiên cứu và đề xuất bộ 9 đặc trưng mức từ, sử dụng làm đầu vào cho mô hình mạng nơ ron truyền thẳng nhằm giải quyết hiệu quả bài toán này cho văn bản tiếng Anh.
FFNN Phương pháp đề xuất được thử nghiệm trên 20 kho ngữ liệu phổ biến và so sánh kết quả với các nghiên cứu tương tự trên thế giới
Chương 3 Phát hiện đoạn sao chép giữa hai tài liệu dựa trên các mô hình học máy
Chương 3 trình bày bài toán phát hiện sao chép toàn cục và đề xuất hai phương pháp tìm đoạn sao chép giữa hai tài liệu Đề xuất đầu tiên sử dụng mô hình chủ đề với thuật toán LDA kết hợp cùng thuật toán Apriori để tìm tập phổ biến và kỹ thuật mở rộng đoạn Đề xuất thứ hai bao gồm hai pha xử lý: pha đoạn và pha từ, dựa trên mô hình học sâu LSTM xếp chồng và kỹ thuật trích rút đặc trưng Các phương pháp này được thử nghiệm trên kho ngữ liệu PAN và so sánh với các nghiên cứu gần đây.
Chương 4 Ứng dụng các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt
Chương 4 tập trung vào nghiên cứu và phát triển các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt, với hai đề xuất mới là xây dựng kho ngữ liệu phát hiện đoạn sao chép và phương pháp trích rút từ khóa dựa trên độ đo TF-IDF cho văn bản dài Ngoài ra, chương này còn trình bày ba phương pháp cải tiến, bao gồm cải tiến kỹ thuật trích rút từ khóa bằng mô hình học sâu, nâng cao mô hình chủ đề cho phát hiện đoạn sao chép, và cải tiến kỹ thuật trích rút đặc trưng kết hợp với mô hình LSTM cho văn bản tiếng Việt Các phương pháp này đã được thử nghiệm trên các kho ngữ liệu tiếng Việt và so sánh với các nghiên cứu tương tự trên toàn cầu.
STT Tài liệu kiểm tra Tài liệu gốc Hình thức sao chép
1 Hay nói cách khác, truy xuất thông tin là hoạt động thu thập tài
Hay nói cách khác, truy xuất thông tin là hoạt động thu thập tài nguyên hệ thống thông tin có
Sao chép nguyên văn không có
CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP
Chương này trình bày lý thuyết về phát hiện sao chép, bao gồm khái niệm cơ bản, phương pháp tiếp cận, kho ngữ liệu thường dùng, và phương pháp đánh giá Ngoài ra, chương cũng đề cập đến đặc điểm của tiếng Việt và tình hình nghiên cứu phát hiện sao chép cho văn bản tiếng Việt Dựa trên phân tích ưu nhược điểm của các phương pháp hiện tại, luận án đề xuất các hướng nghiên cứu chính cho nội dung luận án.
Theo từ điển trực tuyến Merriam-Webster [159], đạo văn là hình thức:
- Sao chép và trình bày ý tưởng bằng ngôn từ của người khác
- Sử dụng kết quả của tác giả khác mà không chỉ rõ nguồn gốc
- Công bố một ý tưởng hay một kết quả lấy ra từ các kết quả đã có từ trước
Đạo văn là hành vi sao chép ý tưởng hoặc kết quả của người khác mà không ghi rõ nguồn gốc, thường gặp trong giáo dục, nghiên cứu khoa học, xuất bản và các lĩnh vực chuyên biệt như y tế, âm nhạc, hội họa Hình thức đạo văn chủ yếu là sao chép nguyên văn hoặc sao chép có sửa đổi.
Bảng 1.1 trình bày một số hình thức sao chép được xác định từ kết quả kiểm tra trùng lặp văn bản tiếng Việt, được trích xuất từ hệ thống Coopy - Hệ thống kiểm tra trùng lặp nội dung của Trường Đại học Bách khoa Hà Nội.
[1] là đồ án tốt nghiệp của sinh viên ngành Công nghệ thông tin và truyền thông
Bảng 1 1 Kết quả kiểm tra trùng lặp từ hệ thống Coopy
Tài liệu kiểm tra liên quan đến nhu cầu thông tin bao gồm việc sao chép nguyên hệ thống thông tin từ nhiều nguồn khác nhau Việc này giúp tập hợp thông tin cần thiết để đáp ứng các yêu cầu cụ thể của người dùng.
Nguồn: từ CSDL của hệ thống trích dẫn nguồn thông tin
2 Ta có thể lấy câu trả lời của câu hỏi này, dùng làm câu trả lời cho câu hỏi còn lại
Khi hai câu hỏi có nội dung tương đồng, chúng ta có thể sử dụng câu trả lời của một câu hỏi để làm câu trả lời cho câu hỏi còn lại Nguồn: từ CSDL của hệ thống.
Sao chép có sự sửa đổi
3 Để truy xuất được câu trả lời trong cơ sở dữ liệu thì cũng cần phải có tập các bộ luật được xây dựng sẵn
Và để truy vấn được câu trả lời trong DB cũng cần có các tập luật Rule-base được xây dựng sẵn
Nguồn: từ CSDL của hệ thống
Sao chép có sự sửa đổi
1 1 2 Các hình thức sao chép
Hình thức sao chép đơn giản nhất là sao chép nguyên văn, hay có thể gọi là
Hình thức sao chép và sửa đổi nội dung, thường được gọi là "cắt - dán", diễn ra phổ biến khi người dùng thay đổi một số từ bằng từ đồng nghĩa mà không làm thay đổi nghĩa tổng thể của câu hay đoạn văn Theo nghiên cứu của Alzahrani và cộng sự [14], các hình thức sao chép này có thể được mô tả qua các biểu đồ minh họa.
Sao chép nguyên văn là hình thức sao chép trong đó các đoạn văn bản được giữ nguyên hoặc chỉ thay đổi trật tự từ, câu, hoặc cú pháp.
Sao chép có sự sửa đổi: Bao gồm 3 kỹ thuật chính:
Thao tác trên văn bản bao gồm việc thay thế một số từ trong đoạn văn bằng các từ đồng nghĩa mà không làm sai lệch ý nghĩa của văn bản gốc Ngoài ra, có thể diễn đạt văn bản theo hình thức tóm tắt nhưng vẫn giữ lại các ý chính quan trọng của nội dung ban đầu.
- Dịch: Dịch đoạn văn bản từ ngôn ngữ này sang ngôn ngữ khác
Sao chép ý tưởng là hình thức sao chép phức tạp và khó phát hiện, thường chỉ sử dụng một số đoạn quan trọng từ văn bản gốc như kết quả, công bố và kết luận mà không ghi nguồn Hình thức này được chia thành ba loại: sao chép theo ngữ nghĩa, theo các phần quan trọng và theo ngữ cảnh.
Sao chép chính xác - Toàn bộ văn bản
Sao chép nguyên văn Sao chép gần đúng
Sao chép có thay đổi
- Sắp xếp trật tự câu
Thao tác trên văn bản
- Sinh ra các khái niệm
- Sinh ra các đặc tả Thủ công
Sao chép chọn lọc Dịch Tự động
- Dịch sang nhiều ngôn ngữ khác
Sao chép ý tưởng Dựa trên phần quan trọng Dựa trên ngữ cảnh
Hình 1 1 Các hình thức sao chép
Để phát triển các đề xuất và luận án, bài viết trình bày các thuật toán và mô hình như LDA để tìm chủ đề ẩn, thuật toán Apriori để khai thác luật kết hợp, và mô hình mạng nơ ron LSTM xếp chồng, nhằm phát hiện đoạn sao chép giữa hai tài liệu Ngoài ra, sự khác biệt giữa tiếng Việt và tiếng Anh về loại hình ngôn ngữ, cấu tạo từ và dấu thanh khiến các kỹ thuật xử lý từ áp dụng cho tiếng Anh không phù hợp với tiếng Việt Luận án sẽ giới thiệu các kiến thức nền tảng về ngôn ngữ tiếng Việt, từ đó áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên như tách từ và gán nhãn từ loại trong quá trình thử nghiệm các giải pháp cho tiếng Việt.
1 2 1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt
Tiếng Việt sử dụng bảng ký tự Latin và có các thanh điệu đặc trưng, thuộc loại ngôn ngữ đơn lập Mỗi âm tiết trong tiếng Việt được phát âm tách rời và được biểu thị bằng một chữ viết Trong văn bản, các âm tiết được phân cách bởi dấu cách hoặc dấu câu, với mỗi "từ" có thể bao gồm một hoặc nhiều âm tiết.
Ví dụ câu “Hà Nội là thủ đô của nước Việt Nam ” có các từ là Hà_Nội, là, thủ_đô, của, nước, “Việt_Nam”
Khó khăn trong bài toán tách từ xuất phát từ việc một câu đầu vào có thể được tách thành nhiều cách khác nhau Chẳng hạn, câu “Ông già đi nhanh quá” có thể được phân tách theo hai cách khác nhau.
(1) Ông_già đi nhanh quá