Xây dựng công cụ hỗ trợ phát hiện và phòng ngừa sao chép bài tập trong đào tạo trực tuyến Xây dựng công cụ hỗ trợ phát hiện và phòng ngừa sao chép bài tập trong đào tạo trực tuyến Xây dựng công cụ hỗ trợ phát hiện và phòng ngừa sao chép bài tập trong đào tạo trực tuyến luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Lê Ngọc Hân XÂY DỰNG CÔNG CỤ HỖ TRỢ PHÁT HIỆN VÀ PHÒNG NGỪA SAO CHÉP BÀI TẬP TRONG ĐÀO TẠO TRỰC TUYẾN LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Vũ Thị Hương Giang Hà Nội – Năm 2018 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Lê Ngọc Hân Đề tài luận văn: xây dựng cơng cụ hỗ trợ phát phịng ngừa chép tập đào tạo trực tuyến Chuyên ngành: Công nghệ Thông tin Mã số SV: CB150281 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27 tháng 10 năm 2018 với nội dung sau: Sửa lỗi chình bày, tả: Tác giả rà sốt chỉnh sửa tồn lỗi tả, trình bày luận văn Trình bày chi tiết công thức giải thuật so sánh hai văn Luận văn trình bày, làm rõ cơng thwucs giải thuật áp dụng Chương 3: Đề xuất giải pháp, mục 1.1.3.6 đối sánh độ tương đông văn Bổ sung, làm rõ phần thực nghiệm Luận văn bổ sung phần thực nghiệm hiệu Chương IV: Cài đặt thử nghiệm, mục 3.3 Kết thử nghiệm Làm rõ kho lưu trữ, sở liệu Luận văn bổ sung làm rõ sở liệu lưu trữ Chương III: Đề xuất giải pháp, mục 1.1 Kiến trúc hệ thống Ngày Giáo viên hướng dẫn tháng năm Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Luận văn cao học LỜI CAM ĐOAN Tôi Lê Ngọc Hân học viên cao học khóa 2015B, Trường Đại học Bách khoa Hà Nội xin cam kết Luận văn cơng trình nghiên cứu thân, hướng dẫn khoa học TS Vũ Thị Hương Giang, Viện Công nghệ thông tin Truyền thông, Trường Đại học Bách khoa Hà Nội Các kết Luận văn trung thực khơng chép từ cơng trình khác Hà Nội, ngày 14 tháng 09 năm 2018 Học viên: Lê Ngọc Hân Khóa: 2015B Lê Ngọc Hân – CNTT 2015B Luận văn cao học LỜI CÁM ƠN Lời cho em xin gửi lời cảm ơn sâu sắc đến cô giáo TS Vũ Thị Hương Giang – Viện Công nghệ thông tin & Truyền thông – Đại học Bách khoa Hà Nội, tận tình hướng dẫn suốt trình thực luận văn Em xin chân thành cảm ơn quý thầy cô Viện Cơng nghệ thơng tin & Truyền thơng nói riêng Đại học Bách khoa Hà Nội nói chung, giúp đỡ chúng em suốt khóa học Cuối xin cảm ơn quý bạn bè đồng nghiệp, người tạo điều kiện giúp đỡ để tơi hồn thành khóa học Lê Ngọc Hân – CNTT 2015B Luận văn cao học MỤC LỤC PHẦN MỞ ĐẦU I Tính cấp thiết đề tài Tình hình nghiên cứu Mục đích nghiên cứu Đối tượng nghiên cứu Phạm vi nghiên cứu Phương pháp nghiên cứu 10 Phát biểu toán 10 7.1 Đầu vào đầu toán 10 7.2 Quy trình xử lý hệ thống 12 CƠ SỞ LÝ THUYẾT 14 II Mơ hình đào tạo trực tuyến Moodle 14 1.1 Tổng quan Moodle 14 1.2 Các đặc điểm Moodle 14 1.3 Các tính Moodle 16 Vấn đề chép hay đạo văn đào tạo trực tuyến 17 2.1 Các hình thức kiểm tra đánh giá đào tạo trực tuyến hạn chế tồn 17 2.2 Quan niệm đạo văn 19 Quy trình phương pháp phát đạo văn 20 3.1 Quy trình phát đạo văn 20 3.2 Phương pháp phát đạo văn 22 Phương pháp đánh giá độ tương đồng văn tiếng Việt 23 4.1 Giới thiệu chung 23 4.2 Phân loại độ tương đồng hai văn 24 4.3 Phương pháp đo độ tương đồng văn tiếng Việt 25 Một số công cụ phần mềm hỗ trợ 42 5.1 Cơng cụ phần mềm nước ngồi 42 5.2 Công cụ phần mềm nước 45 Lê Ngọc Hân – CNTT 2015B Luận văn cao học III ĐỀ XUẤT CÁC GIẢI PHÁP 48 Kiến trúc tổng quan hệ thống 48 1.1 Kiến trúc hệ thống 48 1.2 Thành phần hệ thống 51 1.3 Module xử lý ngôn ngữ tự nhiên 52 Giải pháp phòng ngừa chép tập đào tạo trực tuyến 62 Giải pháp phát chép tập đào tạo trực tuyến 63 IV CÀI ĐẶT VÀ THỬ NGHIỆM 65 Yêu cầu hệ thống 65 1.1 Yêu cầu chức hệ thống 65 1.2 Yêu cầu phi chức hệ thống 65 1.3 Công nghệ sử dụng để phát triển hệ thống 65 Thiết kế hệ thống 70 2.1 Thiết kế giao diện 70 2.2 Lưu đồ hệ thống 72 Thử nghiệm hệ thống 74 3.1 Môi trường thử nghiệm 74 3.2 Kịch thử nghiệm 75 3.3 Kết thử nghiệm 80 V KẾT LUẬN VÀ KIẾN NGHỊ 81 VI TÀI LIỆU THAM KHẢO 82 Lê Ngọc Hân – CNTT 2015B Luận văn cao học DANH MỤC HÌNH VẼ Hình 1: Mơ hình hệ thống 10 Hình 2:Quy trình xử lý hệ thống 13 Hình 3: Biểu tượng đại diện cho moodle 14 Hình 4:Các tính Moodle 16 Hình 5: Quy trình bước phát đạo văn 21 Hình 6: Ví dụ mạng từ tiếng Anh 30 Hình 7: Một số cơng cụ phát đạo văn phổ biến 45 Hình 8: Mơ hình sở liệu kho lưu trữ 49 Hình 8: Kiến trúc tổng quan hệ thống phòng ngừa phát đạo văn 50 Hình 9: Thành phần hệ thống phát phòng ngừa đạo văn 52 Hình 13: Trên top 50 từ xuất nhiều sách 54 Hình 14: Quy trình tách từ vnTokenizer 55 Hình 15: Mơ hình sở liệu 58 Hình 10: Quy trình xử lý hệ thống phòng ngừa đạo văn 63 Hình 11: Quy trình xử lý hệ thống phát đạo văn 64 Hình 16: Mơ hình hoạt động Entity Framework 68 Hình 28: Lưu đồ hoạt động sinh viên 72 Hình 29: Lưu đồ hoạt động giảng viên 73 Lê Ngọc Hân – CNTT 2015B Luận văn cao học DANH MỤC BẢNG BIỂU Bảng 1: Số câu ghép từ “đến, sao, nó, bảo, khơng” 26 Bảng 2: Một số công cụ phát đạo văn phổ biến giới 44 Bảng 3: Gán nhãn từ loại 56 Bảng 4: Thơng tin khóa học Error! Bookmark not defined Bảng 5: Kết học tập Error! Bookmark not defined Bảng 6: Thông tin người dùng Error! Bookmark not defined Lê Ngọc Hân – CNTT 2015B Luận văn cao học DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ STT TỪ VIẾT TẮT GIẢI THÍCH e-Learning Electronic learning: Giáo dục trực tuyến Plagiarism Đạo văn, chép Wordnet Cơ sở tri thức từ vựng Corpus Tập ngữ liệu PMI – Pointwise Mutual Infomation Thông tin theo điểm chung Tokenization (Tokenizing) Tách từ, phân loại từ, gán nhãn từ Sim (Simulation) Tương đồng, độ tương đồng Lê Ngọc Hân – CNTT 2015B Luận văn cao học I PHẦN MỞ ĐẦU Tính cấp thiết đề tài Phương thức học tập trực tuyến (e-Learning) với nhiều ưu điểm như: linh hoạt, tiện lợi, giảm chi phí đào tạo Người học học lúc nào, đâu, với ai, học vấn đề thân quan tâm, phù hợp với lực sở thích, phù hợp với u cầu cơng việc… mà cần có phương tiện máy tính mạng Internet Phương thức học tập mang lại hiệu cao giáo dục đào tạo Do đó, giới, nhiều nước tiến hành triển khai với mô hình đào tạo e-Learning tồn phần, mơ hình eLearning bổ trợ cho khóa học quy Điểm hình phải kể đến Đại học Stanford Mỹ, Đại học Cambridge Anh, Viện công nghệ Massachusetts (MIT) số trường đại học hàng đầu giới đào tạo quy e-Learning Tại Việt Nam, chương trình đào tạo e-Learning trường đại học nước triển khai rộng khắp Bắt đầu việc kết hợp học tập phương thức e-Learning với phương thức học tập truyền thống bước đầu đem lại hiệu định Một số trường đại học đưa mơ hình đào tạo e-Learning để giảng dạy đào tạo hệ đại học từ xa Viện Đại học Mở Hà Nội, Đại học Kinh tế Quốc dân, Đại học Quốc Gia TP.HCM … Bên cạnh ưu điểm có đặc điểm khiến mơ hình đào tạo eLearning chưa thể thay hồn tồn mơ hình đào tạo truyền thống Giảng viên sinh viên khơng có nhiều điều kiện gặp mặt trực tiếp, vấn sinh viên chép tập kiểm tra kỳ Do việc giám sát hoạt động kiểm tra đánh giá nhằm giảm thiểu gian lận tăng chất lượng đào tạo vô cần thiết Từ thực tế tác giả thực đề tài “Xây dựng cơng cụ hỗ trợ phát phịng ngừa chép tập đào tạo trực tuyến” mong muốn tạo cơng cụ hỗ trợ giảng viên phát gian lận việc chép tập sinh viên với lớp học trực tuyến Tình hình nghiên cứu Hiện giới, có nhiều cơng cụ dựa tảng Moodle hỗ trợ phát đạo văn lớp học trực tuyến Nhưng hầu hết công cụ có chung số nhược điểm áp dụng Việt Nam: Lê Ngọc Hân – CNTT 2015B Luận văn cao học nộp lúc Việc lập lịch tự động với Quartz tránh việc tải hệ thống phân luồng ưu tiên công việc tốt Các ưu điểm Quartz: Trong khuôn khổ luận văn, ứng dụng Quartz giúp cho việc xử lý ngơn ngữ tự nhiên tổ chức theo trình tự rõ ràng giảm áp lực cho hệ thống mà mệnh lệnh từ phía người dùng qua hàng đợi Điều giúp cho hệ thống hoạt động trơn tru cải thiện hiệu hệ thống Các bước xử lý sử dụng lập lịch sau: - Tiền xử lý văn - Tách câu, tách từ gán nhãn - Lưu trữ vào cở sở liệu - Thực đối sánh ghi Thời gian chạy lịch cấu hình trang quản trị giảng viên hệ thống đặt mặc định bước xử lý cấu hình chạy 10s/lần Lê Ngọc Hân – CNTT 2015B 69 Luận văn cao học Thiết kế hệ thống 2.1 Thiết kế giao diện • Giao diện đăng nhập Moodle • Giao diện trang sinh viên nộp • Giao diện trang quản lý tập Lê Ngọc Hân – CNTT 2015B 70 Luận văn cao học • Nút chức “kiểm tra” để kiểm tra đạo văn • Ơ nhập thơng số ngưỡng tương đồng • Các chức giảng viên Lê Ngọc Hân – CNTT 2015B 71 Luận văn cao học 2.2 Lưu đồ hệ thống Lưu đồ hoạt động sinh viên Hình 17: Lưu đồ hoạt động sinh viên Lê Ngọc Hân – CNTT 2015B 72 Luận văn cao học Lưu đồ hoạt động giảng viên Hình 18: Lưu đồ hoạt động giảng viên Lê Ngọc Hân – CNTT 2015B 73 Luận văn cao học Thử nghiệm hệ thống Trong phần này, luận văn trình bầy vấn đề: môi trường thử nghiệm, kịch thử nghiệm kết thử nghiệm 3.1 Môi trường thử nghiệm Luận văn tiến hành thực nghiệm máy tính có cấu hình ổn định Với Laptop có nhân Intel Core i3 2.27GHz, Ram 4G, dung lượng ổ cứng 500GB, cài hệ điều hành Window 10 Ultimate 62bit Cùng với cơng cụ phần mềm có sẵn, phục vụ cho trình thực thực nghiệm Cấu hình phần cứng: Thành phần Chỉ số Laptop Intel Core i3 1.8Ghz RAM 4GB HDD 500 GB OS Window 10 Ultimate 64 bit Cấu hình phần mềm: STT Tên phần mềm Tác giả Nguồn Xampp 3.2.2 Apache Friends https://www.apachefriends.org/ Moodle 3.3.2 Martin Dougiamas https://moodle.com/ vnTokenizer 5.1 Lê Hồng Phương https://github.com/phuonglh/vn.vitk VietTagger Lê Hồng Phương https://github.com/phuonglh/vn.vitk Đối tượng thử nghiệm: • Bài tập kỳ sinh viên lớp “Tin học đại cương” • Bài tập nộp dạng (.docx) viết ngôn ngữ tự nhiên tiếng Việt • Quy mơ lớp học gồm: Giảng viên 10 sinh viên Lê Ngọc Hân – CNTT 2015B 74 Luận văn cao học 3.2 Kịch thử nghiệm Trong phần luận văn xin trình bày kịch xây dựng để kiểm thử chức tính hiệu hệ thống Luận văn xin bỏ qua số bước kiểm tra chức đăng nhập, đăng ký vào hệ thống Moodle thẳng vào xây dựng kịch để kiểm tra chức xử lý ngôn ngữ tự nhiên 3.2.1 Kịch 1: Hai tập chép hoàn toàn Sinh viên Hai tập sinh viên chép hoàn toàn Đặc điểm dự án Cơng nghệ thơng tin • • • • Độ tương đồng Thứ nhất, hoạt động đầu tư vào dự án cơng nghệ thơng tin địi hỏi số lượng vốn lớn Thứ hai, hoạt động đầu tư vào dự án công nghệ thông tin thường mang lại kết tăng suất, tăng hiệu thực công việc Thứ ba, hoạt động đầu tư vào dự án công nghệ thông tin thường chịu rủi ro mặt công nghệ, tức kết hoạt động đầu tư có nhiều nguy bị lạc hậu hay nói cách khác sản phẩm dự án đầu tư cơng nghệ thơng tin có hao mịn vơ hình lớn Thứ tư, thành hoạt động đầu tư có giá trị sử dụng khơng lâu địi hỏi phải thường xun cập nhật, nâng cấp 100% Đặc điểm dự án Cơng nghệ thơng tin • • • Thứ nhất, hoạt động đầu tư vào dự án công nghệ thông tin đòi hỏi số lượng vốn lớn Thứ hai, hoạt động đầu tư vào dự án công nghệ thông tin thường mang lại kết tăng suất, tăng hiệu thực công việc Thứ ba, hoạt động đầu tư vào dự án công nghệ thông tin thường chịu rủi ro mặt công nghệ, tức kết hoạt động đầu 100% Lê Ngọc Hân – CNTT 2015B 75 Luận văn cao học tư có nhiều nguy bị lạc hậu hay nói cách khác sản phẩm • dự án đầu tư cơng nghệ thơng tin có hao mịn vơ hình lớn Thứ tư, thành hoạt động đầu tư có giá trị sử dụng khơng lâu đòi hỏi phải thường xuyên cập nhật, nâng cấp 3.2.2 Kịch 2: Hai tập chép đảo trật tự câu Độ Sinh Hai tập sinh viên chép đảo trật tự câu viên tương đồng Đặc điểm dự án Công nghệ thơng tin • • • Thứ nhất, hoạt động đầu tư vào dự án công nghệ thông tin đòi hỏi số lượng vốn lớn Thứ hai, hoạt động đầu tư vào dự án công nghệ thông tin thường mang lại kết tăng suất, tăng hiệu thực công việc Thứ ba, hoạt động đầu tư vào dự án công nghệ thông tin thường 100% chịu rủi ro mặt công nghệ, tức kết hoạt động đầu tư có nhiều nguy bị lạc hậu hay nói cách khác sản phẩm • dự án đầu tư cơng nghệ thơng tin có hao mịn vơ hình lớn Thứ tư, thành hoạt động đầu tư có giá trị sử dụng khơng lâu đòi hỏi phải thường xuyên cập nhật, nâng cấp Đặc điểm dự án Công nghệ thông tin • • • Thứ nhất, thành hoạt động đầu tư có giá trị sử dụng khơng lâu đòi hỏi phải thường xuyên cập nhật, nâng cấp Thứ hai, hoạt động đầu tư vào dự án công nghệ thông tin thường chịu rủi ro mặt công nghệ, tức kết hoạt động đầu tư có nhiều nguy bị lạc hậu hay nói cách khác sản phẩm 100% dự án đầu tư cơng nghệ thơng tin có hao mịn vơ hình lớn Thứ ba, hoạt động đầu tư vào dự án công nghệ thông tin thường chịu rủi ro mặt công nghệ, tức kết hoạt động đầu tư có nhiều nguy bị lạc hậu hay nói cách khác sản phẩm dự án đầu tư công nghệ thông tin có hao mịn vơ hình lớn Lê Ngọc Hân – CNTT 2015B 76 Luận văn cao học • Thứ tư, hoạt động đầu tư vào dự án công nghệ thông tin thường mang lại kết tăng suất, tăng hiệu thực công việc 3.2.3 Kịch 3: Hai tập chép có chỉnh sửa Sinh Hai tập sinh viên chép có chỉnh sửa viên đồng Đặc điểm dự án Cơng nghệ thơng tin • • • • Độ tương Thứ nhất, hoạt động đầu tư vào dự án cơng nghệ thơng tin địi hỏi số lượng vốn lớn Thứ hai, hoạt động đầu tư vào dự án công nghệ thông tin thường mang lại kết tăng suất, tăng hiệu thực công việc Thứ ba, hoạt động đầu tư vào dự án công nghệ thông tin thường chịu rủi ro mặt công nghệ, tức kết hoạt động đầu 67% tư có nhiều nguy bị lạc hậu hay nói cách khác sản phẩm dự án đầu tư công nghệ thông tin có hao mịn vơ hình lớn Thứ tư, thành hoạt động đầu tư có giá trị sử dụng khơng lâu địi hỏi phải thường xun cập nhật, nâng cấp Đặc điểm dự án Cơng nghệ thơng tin • • • • Thứ nhất, hoạt động đầu tư vào dự án công nghệ thông tin thường yêu cầu vốn đầu tư lớn Thứ hai, hoạt động đầu tư vào hạng mục nhằm cải thiện hiệu tăng suất lao động Thứ ba, hoạt động đầu tư vào dự án công nghệ thông tin thường chịu rủi ro mặt công nghệ, kết dự án phụ thuộc nhiều vào trình độ cơng nghệ Thứ tư, thành hoạt động đầu tư có giá trị sử dụng khơng lâu thường kèm chi phí vận hành, bảo trì, nâng cấp Lê Ngọc Hân – CNTT 2015B 74% 77 Luận văn cao học 3.2.4 Kịch 4: Hai tập ngẫu nhiên lớp Độ Sinh Hai tập ngẫu nhiên lớp viên tương đồng Đặc điểm dự án Cơng nghệ thơng tin • Thứ nhất, hoạt động đầu tư vào dự án công nghệ thơng tin địi hỏi số lượng vốn lớn • • • Thứ hai, hoạt động đầu tư vào dự án công nghệ thông tin thường mang lại kết tăng suất, tăng hiệu thực công việc Thứ ba, hoạt động đầu tư vào dự án công nghệ thông tin thường chịu rủi ro mặt công nghệ, tức kết hoạt động đầu tư có nhiều nguy bị lạc hậu hay nói cách khác sản phẩm dự án đầu tư công nghệ thông tin có hao mịn vơ hình lớn Thứ tư, thành hoạt động đầu tư có giá trị sử dụng khơng lâu địi hỏi phải thường xun cập nhật, nâng cấp 7% Đặc điểm dự án Cơng nghệ thơng tin • • • • Thường u cầu nguồn u cầu nguồn nhân lực có trình độ cao Ít phải đầu tư hạ tầng cơng nghệ Nhưng tỷ lệ rủi cao công nghệ bị lạc hậu Cần có tầm nhìn dài hạn, cần có chiến lược cụ thể tránh việc bị suy thối cơng nghệ Lê Ngọc Hân – CNTT 2015B 17% 78 Luận văn cao học 3.2.5 Kịch 5: Năm tập ngẫu nhiên lớp Thời gian Thời Độ tương xử lý ngôn gian thực đồng ngữ tự nhiên đối sánh Sinh viên 2% phút phút Sinh viên Sinh viên 1% phút phút Sinh viên Sinh viên 2% phút phút Sinh viên Sinh viên 1% phút phút Bài tập đích Bài tập nguồn Sinh viên So sánh với Lê Ngọc Hân – CNTT 2015B 79 Luận văn cao học 3.3 Kết thử nghiệm Dưới bảng so sánh kết phần mềm xây dựng với kết công cụ đối sánh mạng Bài tập đích Bài tập nguồn Hệ thống xây dựng String Copyleaks similarity test Sinh viên Sinh viên 2% 2% 7% Sinh viên Sinh viên 1% 2% 0% Sinh viên Sinh viên 2% 4% 5% Sinh viên 1% 1% 1% Sinh viên Sinh viên 2% 2% 2% Sinh viên Sinh viên 1% 1% 1% Sinh viên Sinh viên 3% 4% 4% Sinh viên Sinh viên 1% 3% 2% Sinh viên Sinh viên 10 5% 4% 3% Sinh viên So sánh với Lê Ngọc Hân – CNTT 2015B 80 Luận văn cao học V KẾT LUẬN VÀ KIẾN NGHỊ Hệ thống nhằm mục đích hỗ trợ Moodle (hệ thống đào tạo trực tuyến mã nguồn mở tiếng) Hệ thống cho phép giảng viên đánh giá sơ mức độ tương đồng tập sinh viên Chức thử nghiệm thành công Moodle, sẵn sàng để triển khai hệ thống e-Learning Viện Đại học Mở Hà Nội Nhìn chung, luận văn đạt kết cụ thể sau: Hệ thống hoạt động tốt Moodle, mã nguồn mở miễn phí Chức phát đạo văn hệ thống dựa cơng thức tính trung bình hai tố: mức độ tương đồng ngữ nghĩa trật tự xếp từ câu Hệ thống thực đối sánh tập sinh viên đưa độ tương đồng chúng Hệ thống có chức tự động gửi cảnh báo tới sinh viên, hỗ trợ xuất báo cáo tới giảng viên Hệ thống hỗ trợ số định dạng file đầu vào định text, doc, docx Và hỗ trợ phát đạo văn ngôn ngữ tự nhiên, chưa hỗ trợ phát đạo văn mã nguồn (php, C, C#, Java …), đạo văn ý tưởng số hình thức đạo văn trừu tượng khác Từ kết thu Trong thời gian tiếp theo, định hướng nghiên cứu tương lai giải số vấn đề tồn động như: Hệ thống hướng đến phát triển phát đạo văn tập mã nguồn: php, C, C#, Java, … Hệ thống phát triển hỗ trợ phát đạo văn chép tài liệu từ nguồn mạng, wikipedia, facebook, google, … Hệ thống hướng tích hợp trí tuệ nhân tạo để giải vấn đề xử lý ngôn ngữ tự nhiên xác Hệ thống muốn thêm vào số thuật toán phát đạo văn tiên tiến để ngày xác hóa mức độ phát gian lân, hướng tới phát loại đạo văn ý tưởng, đạo văn trừu tượng Lê Ngọc Hân – CNTT 2015B 81 Luận văn cao học VI TÀI LIỆU THAM KHẢO Tiếng Việt Lương Chi Mai, Hồ Tú Bảo (2006) Về xử lý tiếng Việt công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt", Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, 2006 Đỗ Thị Thanh Nga (2010), “Tính tốn độ tương đồng ngữ nghĩa văn dựa vào độ tương tự từ với từ”, Đại học Công nghệ - Đại học Quốc gia Hà Nội Phạm Thị Hồng (2013), “Phát trùng lặp nội dung báo” Đại học Công nghệ - Đại học Quốc gia Hà Nội Dương Thăng Long (2014), “Nghiên cứu độ đo tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử”, Viện đại học Mở Hà Nội Nguyễn Thị Kim Anh (2016), “Nghiên cứu kĩ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt”, Đại học Hàng Hải Việt Nam Phạm Văn Tú (2016), “Đối sánh độ tương đồng hai văn bản”, Đại học Bách Khoa Hà Nội PGS TS Lê Thanh Hương, “ứng dụng mơ hình đồ thị tóm tắt đa văn tiếng Việt” Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 Tiếng Anh Sanjay Goel, Deepak Rao et al.: Plagiarism and its Detection in Programming Languages, December 15, 2005 Manuel Freire, Manuel Cebrian and Emilio del Rosal: An Integrated Source Code Plagiarism Detection Environment, Escuela Politecnica Superior, Universidad Autonoma de Madrid, 28049 Madrid, Spain 10 Krishna Sapkota, Laxman Thapa, Shailesh Bdr Pandey (2006) Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 94-98 11 Yuhua Li, Zuhair Bandar, David McLean and James O’Shea, A Method for Measuring Sentence Similarity and its Application to Conversational Agents, In: The 17th International FLAIRS Conference, Florida, USA AAAI Press 6, 2012 Lê Ngọc Hân – CNTT 2015B 82 Luận văn cao học 12 Ziga Makuc (2013), “Methods to Assist Plagiarism Detection”, Faculty of Computer and Information Sciense – University of Ljubljana 13 Man Yan Miranda Chong (2013), “A Study on Plagiarism Detection and Plagiarism Direction Identification Using Natural Language Processing Techniques” University of Wolverhampton for the degree of Doctor of Philosophy 14 https://github.com/stnguyen/vnTagger Lê Ngọc Hân – CNTT 2015B 83 ... lượng đào tạo vô cần thiết Từ thực tế tác giả thực đề tài ? ?Xây dựng cơng cụ hỗ trợ phát phịng ngừa chép tập đào tạo trực tuyến? ?? mong muốn tạo cơng cụ hỗ trợ giảng viên phát gian lận việc chép tập. .. nhanh chóng đào tạo trực tuyến Do vậy, trọng tâm đề tài xây dựng công cụ hỗ trợ giảng viên phát sinh viên chép tập lớp học trực tuyến Bài toán gồm vấn đề chính: • Xây dựng công cụ hỗ trợ giảng... đề chép hay đạo văn đào tạo trực tuyến 2.1 Các hình thức kiểm tra đánh giá đào tạo trực tuyến hạn chế tồn 2.1.1 Các hình thức kiểm tra đánh giá đào tạo trực tuyến Trong mơ hình đào tạo trực tuyến