Xây dựng mô hình và hiện thực hệ thống kiểm tra sao chép đồ án trong sinh viên

70 4 0
Xây dựng mô hình và hiện thực hệ thống kiểm tra sao chép đồ án trong sinh viên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGƠ DUY THIỆN XÂY DỰNG MƠ HÌNH VÀ HIỆN THỰC HỆ THỐNG KIỂM TRA SAO CHÉP ĐỒ ÁN TRONG SINH VIÊN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 60480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: Người ph䁒n iện 1: Người ph䁒n iện 2: u n n thạc 䁒o ệ H i đồng ch 䁒o ệ u n n thạc Đại học Cơng nghiệp thành ph Hồ Chí Minh ngày th ng n Thành phần H i đồng đ nh gi lu n n thạc Trường 2019 gồ : - Chủ tịch H i đồng - Ph䁒n iện - Ph䁒n iện - Ủy iên - Thư ký (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA/VIỆN………… BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Tên tơi là: NGƠ DUY THIỆN MSHV: CHKHMT5A N Nơi inh: Bình Dương ngày: 03/10/1989 Mã chuyên ngành: 60480101 Chuyên ngành: Khoa Học M y Tính I TÊN ĐỀ TÀI: Xây dựng hình thực hệ th ng kiể tra ao chép đồ n inh iên NHIỆM VỤ VÀ NỘI DUNG: - Tì hiểu c c c ch ao chép phổ iến inh iên - Tì hiểu c c cơng trình nghiên cứu có liên quan ề n đề ao chép kết qu䁒 t c gi䁒 c c cơng trình nghiên cứu đạt - Đề xu t t ô hình c䁒i tiến để nâng cao hiệu qu䁒 iệc kiể đồ n inh iên - Hiện thực hệ th ng kiể tra ao chép tra ao chép đồ n inh iên II NGÀY GIAO NHIỆM VỤ: Theo QĐ giao đề tài 2583/QĐ-ĐHCN ngày 29/12/2016 Hiệu trưởng Trường Đại học Cơng nghiệp Tp Hồ Chí Minh III NGÀY HOÀN THÀNH NHIỆM VỤ: IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ê Ngọc Sơn Tp Hồ Chí Minh, ngày … tháng … năm 2019 … NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA/VIỆN….……… LỜI CẢM ƠN Trước tiên, xin ày tỏ ự trân trọng lòng iết ơn ới TS ê Ngọc Sơn, gi䁒ng iên B ơn Khoa học y tính – Khoa Công nghệ thông tin – Trường Đại học Công nghiệp TPHCM Trong thời gian nhiều thời gian quí thực lu n Tôi xin c䁒 lu n lu n n t t nghiệp, thầy dành u t n tình 䁒o, hướng dẫn tơi iệc nghiên cứu, n ơn c c GS, TS gi䁒ng dạy tơi qu trình học t p n C c thầy giúp hiểu th u đ o l nh ực ình nghiên cứu để n dụng c c kiến thức cơng t c ình Xin c䁒 ơn c c ạn è, đồng nghiệp nh t c c thành iên gia đình tạo ọi điều kiện t t nh t, đ ng iên, cổ ũ tơi u t qu trình học t p nghiên cứu để hoàn thành t t 䁒n lu n n t t nghiệp Tuy có c gắng nh t định thời gian trình đ có hạn nên chắn lu n n cịn nhiều thiếu ót hạn chế Kính thầy cô c c ạn i ong nh n ự góp ý TĨM TẮT LUẬN VĂN THẠC SĨ Trong lu n n tì hiểu c c c ch ao chép phổ iến inh iên, tì cơng trình nghiên cứu có liên quan ề n đề ao chép kết qu䁒 c c cơng trình nghiên cứu đạt được, xây dựng qu䁒 iệc kiể hiểu c c t c gi䁒 hình c䁒i tiến để nâng cao hiệu tra ao chép đồ n inh iên, xây dựng thu t to n c ch tạo d u ân, c ch tạo d u ân n-gra theo ký tự, n-gra theo từ nhiên qu trình thực n-gra theo từ tạo d u ân có đ dài ngắn hơn, rút ngắn thời gian kiể tra ao chép E trình ày kết qu䁒 kiể trình kiể tra ao chép thực n-gra tra ao chép qua c c trường hợp, chương theo ký tự từ ii ABSTRACT In thi di ertation, learn how to copy popular tudent , explore rele ant re earch work on copy i ue and the re ult that the author of re earch project e achie ed, ti ue uilding i pro ed i age to i pro e the efficiency of checking tudent duplication of project , uild algorith create n-gra proce for creating fingerprint , how to fingerprint according to character , and n-gra i ple enting n-gra fro word ut follow the creation of horter length , hortening the copy te t ti e i pre ent the re ult of the replication te t through the ca e , the te t progra copie the i ple entation of n-gra word iii according to character and LỜI CAM ĐOAN Tôi xin ca đoan cơng trình nghiên cứu 䁒n thân C c kết qu䁒 nghiên cứu c c kết lu n lu n nguồn n trung thực, không ao chép từ t kỳ hình thức Việc tha thực trích dẫn ghi nguồn tài liệu tha t kh䁒o c c nguồn tài liệu (nếu có) kh䁒o quy định Học viên Ngô Duy Thiện i t kỳ MỤC LỤC MỤC ỤC DANH MỤC HÌNH ẢNH iii DANH MỤC BẢNG BIỂU ix DANH MỤC TỪ VIẾT TẮT xi MỞ ĐẦU 1 Đặt n đề Mục tiêu nghiên cứu .1 Đ i tượng phạ i nghiên cứu C ch tiếp c n phương ph p nghiên cứu Ý ngh a thực tiễn đề tài CHƯƠNG TỔNG QUAN VỀ ĨNH VỰC NGHIÊN CỨU 1.1 Đạo n quy định xử lý đạo n 1.2 Tổng quan ề c c hệ th ng ch ng đạo n 1.2.1 Turnitin .4 1.2.2 WriteCheck 1.2.3 Ithenticate 1.2.4 JPlag 1.2.5 MOSS .7 1.3 Tổng quan ề MS E- earning 1.3.1 Chức n ng MS 1.3.2 Ưu nhược điể MS 1.3.3 Kiến trúc t hệ th ng E-learning 10 1.4 Bài to n kiể tra ao chép kiể tra tính nguyên 䁒n 10 1.4.1 Phương ph p kiể tra tính nguyên 䁒n 10 1.4.2 M t cơng trình nghiên cứu ề kiể tra ao chép: 11 1.5 Đặc điể ngôn ngữ tiếng Việt .12 1.5.1 C u tạo từ tiếng Việt: 12 1.5.2 Phân đoạn từ tiếng Việt [8,9] 12 1.5.3 Những khó kh n phân đoạn từ tiếng Việt: 12 CHƯƠNG MƠ HÌNH QUẢN Ý HỌC TẬP NHẰM CHỐNG GIAN ẬN SAO CHÉP 14 2.1 Mơ hình tổng thể 14 2.2 Mơ hình MS đề xu t 15 2.3 C c chức n ng MS đề xu t 16 2.3.1 Dành cho inh iên 16 2.3.2 Dành cho gi䁒ng iên 17 2.3.3 Dành cho qu䁒n lý 17 2.4 Tích hợp odule PDVA hệ th ng MS 18 2.4.1 Plugin in talling .18 2.4.2 Plugin etting 19 2.4.3 Plugin ena le in cour e (a ign ent ) 19 2.4.4 View re ult .20 2.5 Hoạt đ ng chức n ng kiể tra ao chép MS 21 2.6 Mơ hình thiết kế 22 2.6.1 Tầng U er Interface: 22 2.6.2 Tầng MS: .23 2.6.3 Tầng PDVA : 23 CHƯƠNG CẢI TIẾN PHƯƠNG PHÁP KIỂM TRA SAO CHÉP TRONG VĂN BẢN TIẾNG VIỆT 24 3.1 Kiến trúc hệ th ng PDVA 24 3.2 Mơ hình ngơn ngữ N-gra .25 3.2.1 Giới thiệu chung .25 3.2.2 V n đề khó kh n xây dựng hình ngơn ngữ N-gra 26 3.3 D u ân (Fingerprint) tài liệu 27 3.3.1 Kh i niệ 27 3.3.2 Thu t to n Winnowing fingerprinting 27 3.3.3 Hiện thực thu t to n tạo d u ân: 29 3.4 Đ đo tương đồng 29 3.4.1 Kh i niệ ự tương đồng .29 3.4.2 C c phương ph p tính đ tương đồng 30 3.5 Quy trình kiể tra ao chép hai tài liệu 32 3.5.1 Tiền xử lý 33 3.5.2 Phân đoạn câu 33 3.5.3 Kiể tra ao chép nguyên n câu 34 3.5.4 Tính to n đ tương đồng 34 CHƯƠNG HIỆN THỰC VÀ THỬ NGHIỆM 35 4.1 Kết qu䁒 tổng thể 35 4.1.1 C u hình hệ th ng chạy thử nghiệ 35 4.1.2 Dữ liệu thử nghiệ 35 4.1.3 De o kết qu䁒 37 4.2 Kết qu䁒 thu t to n Winnowing fingerprinting 41 4.2.1 Tạo d u ân (fingerprint) tài liệu 41 i 4.2.2 Kết qu䁒 thực nghiệ tạo d u ân (fingerprint) tài liệu 41 4.2.3 n-gra theo ký tự 43 4.2.4 n-gra theo từ .47 KẾT UẬN VÀ KIẾN NGHỊ 51 Kết lu n 51 Kiến nghị 52 TÀI IỆU THAM KHẢO 542 Ý ỊCH TRÍCH NGANG CỦA HỌC VIÊN 564 ii Thực n-gram theo ký tự: n = ký tự w = 4, ới thời gian thực hiện: 143.902 Milli econd Thực n-gram theo từ: n = từ w = 3, ới thời gian thực hiện: 373.933 Milli econd Phân tích kết so sánh đoạn với thông số B䁒ng 4.3.1 C c trường hợp kiể TT Trường hợp Sao chép nguyên câu Các thông Các thông số theo ký tự số theo từ n=5, w=5 n=4, w=4 liên tục n=5, w=4 n=4, w=3 Sao chép có đ䁒o ngữ n=5, w=3 n=4, w=2 Sao chép có ửa n=5, w=2 n=3, w=3 Sao chép t t cụ t phần câu tra từ xen kẻ n=3, w=2 từ câu 42 4.2.3 n-gram theo ký tự Trường hợp 1: Sao chép nguyên câu t phần câu liên tục B䁒ng 4.3.2 Sao chép nguyên câu t phần câu liên tục Câu Phương ph p dịch Câu y lu t Phương ph p dịch y lu t cần ph䁒i xây dựng hệ th ng lu t cú ph p, cần ph䁒i xây dựng hệ th ng lu t cú ph p, ngữ ngh a ph䁒i có t từ điển kh ngữ ngh a t từ điển ong ngữ đầy đủ thông tin Kết quả: B䁒ng 4.3.3 Kết qu䁒 Sao chép nguyên câu Thông số Tỉ lệ t phần câu liên tục Chiều dài fingerprint n=5, w=5 26 / 44 = 0.59 Câu 1: 37, Câu 2: 33 n=5, w=4 31 / 50 = 0.62 Câu 1: 42, Câu 2: 38 n=5, w=3 38 / 60 = 0.63 Câu 1: 53, Câu 2: 45 n=5, w=2 54 / 81 = 0.66 Câu 1: 74, Câu 2: 61 Ví dụ finger print với n=5, w=4 B䁒ng 4.3.4 Finger print Sao chép nguyên câu t phần câu liên tục Finger print Finger print 12604 13090 13160 13236 13499 13615 12604 13090 13236 13321 13447 13615 13683 13871 14242 14285 14341 14537 13871 14233 14242 14285 14341 14537 14759 14771 14833 15009 15749 17256 14759 14771 15009 15749 17256 17894 19478 20867 21589 22166 23584 23690 19478 20867 21283 23584 23690 25132 24769 25132 31328 35987 36380 36504 31328 35987 36380 36504 40394 44130 39368 40618 44130 45738 45897 46346 45897 46346 82514 83031 83134 83638 82514 83031 83134 83638 84687 88823 84687 96268 96260 43 Trường hợp 2: Sao chép có đ䁒o ngữ B䁒ng 4.3.5 Sao chép có đ䁒o ngữ Câu Câu ự kh c iệt kh lớn ề c u trúc cú kết qu䁒 đ i nh từ định ph p câu nguồn ngữ liệu ong đến ch t lượng dịch, ự kh c iệt kh ngữ chuẩn, nên 䁒nh hưởng đến ch t lớn lượng đ i qu䁒 đ i nh từ Anh – Việt, ề c u trúc cú ph p câu à kết nguồn ngữ liệu ong ngữ chuẩn nh từ định đến ch t lượng dịch Kết quả: B䁒ng 4.3.6 Kết qu䁒 Sao chép có đ䁒o ngữ Thơng số Tỉ lệ Chiều dài fingerprint n=5, w=5 37 / 49 = 0.75 Câu 1: 46, Câu 2: 39 n=5, w=4 44/ 59 = 0.74 Câu 1: 56, Câu 2: 47 n=5, w=3 57 / 80 = 0.71 Câu 1: 76, Câu 2: 61 n=5, w=2 78/ 109 = 0.71 Câu 1: 104, Câu 2: 83 Ví dụ finger print với n=5, w=4 Bảng 4.3.7 finger print Sao chép có đảo ngữ Finger print Finger print 11900 12344 13033 13321 13382 13721 10960 11634 13033 13321 13382 13721 13895 14004 14014 14069 14340 14484 13895 14004 14014 14069 14340 14484 15112 15789 16715 16808 16813 17022 15112 15529 15789 16808 17022 20909 20909 21723 21853 23715 29974 30283 21723 23715 29974 30283 30394 35363 30394 33890 35363 35537 36002 36096 35537 36002 36096 36170 36339 36527 36170 36339 36527 36572 36620 36672 36620 36672 37128 37130 37898 39278 37128 37130 37871 37898 37920 38939 39569 40031 45970 82960 84204 86659 39278 39569 39857 40031 45970 81104 88148 91095 91107 221349 231197 82960 84204 86659 88148 91095 91107 221349 231197 44 Trường hợp 3: Sao chép có ửa t từ xen kẻ B䁒ng 4.3.8 Sao chép có ửa t từ xen kẻ Câu Câu Trong thực tế th t khó để lưu trữ Trong thực tế r t khó để lưu trữ đầy đủ c c câu ẫu liệu ì đầy đủ c c câu câu ong ngữ kho ngữ liệu nhiều kể ì ẫu liệu lượng câu ong ngữ kho ngữ liệu r t lớn Kết quả: B䁒ng 4.3.9 Kết qu䁒 ao chép có ửa Thơng số t từ xen kẻ Tỉ lệ Chiều dài fingerprint n=5, w=5 28 / 52 = 0.53 Câu 1: 39, Câu 2: 41 n=5, w=4 35 / 61 = 0.57 Câu 1: 47, Câu 2: 49 n=5, w=3 41 / 71 = 0.57 Câu 1: 55, Câu 2: 57 n=5, w=2 51 / 92 = 0.55 Câu 1: 70, Câu 2: 73 Ví dụ finger print với n=5, w=4 B䁒ng 4.3.10 finger print ao chép có ửa t từ xen kẻ Finger print Finger print 11314 12611 12907 13077 13186 13313 11314 12611 12907 13077 13186 13313 13321 13340 13637 13721 13906 14014 13321 13340 13377 13516 13602 13629 14223 14843 15508 15630 16203 20639 13637 13721 13906 13948 14078 14223 20909 20968 21927 22356 23021 23055 15508 20639 20909 20968 21927 22356 23352 23811 24151 30238 36113 36273 23017 23021 23352 23811 36113 36273 36399 36753 37665 40731 41166 44122 36753 37665 40740 41166 44122 46116 46116 47484 82442 82953 82963 83336 47484 82959 82963 83616 83906 88893 88893 92411 116228 231079 243801 90177 92008 92411 116228 222518 231079 243801 45 Trường hợp 4: Sao chép t cụ từ câu B䁒ng 4.3.11 Sao chép t cụ từ câu Câu Câu phương ph p dịch th ng kê dịch th ng kê phương ph p có c䁒i thiện ch t lượng dịch ằng c c ch t lượng c䁒i thiện ô hình hu n p dụng nhiều hệ th ng dịch tự đ ng Kết quả: B䁒ng 4.2.12 Kết qu䁒 ao chép Thông số t cụ Tỉ lệ từ câu Chiều dài fingerprint n=5, w=5 11 / 47 = 0.23 Câu 1: 24, Câu 2: 34 n=5, w=4 14 / 55 = 0.25 Câu 1: 29, Câu 2: 40 n=5, w=3 20/ 69 = 0.2 Câu 1: 39, Câu 2: 50 n=5, w=2 26/ 96 = 0.27 Câu 1: 54, Câu 2: 68 Ví dụ finger print với n=5, w=4 B䁒ng 4.3.13 Finger print ao chép t cụ từ câu Finger print Finger print 13090 13236 13356 13447 13460 13706 13005 13090 13236 13460 13536 13755 13755 14341 16202 17129 17182 19894 13877 13988 14333 14549 15363 16548 20072 20767 20850 23690 24115 35279 17039 17129 20072 20767 21085 23311 35390 36216 36269 36339 36896 40031 23351 23628 24115 27266 35907 36269 43989 45897 46454 82616 83199 36339 36399 36896 40031 43422 45986 46454 46943 53223 81710 82571 82616 83034 83638 83648 91561 46 Đánh giá chung: Tương ứng ới trường hợp ao chép, chọn n=5 w=4 cho kết qu䁒 ph t tương đ i x c Khi n gi䁒 iệc ph t c c cụ thời gian thực không t ng nhiều ký tự ngắn gi ng không tr i lại gây “ng nh n”, t ng ức đ trùng l p khơng 䁒n ch t Trường hợp ao chép có đ䁒o ngữ ao chép có ửa ao chép tính t ng đ x c, t từ xen kẻ ẫn ph t ức đ trùng lắp kh t t 4.2.4 n-gram theo từ Trường hợp 1: Sao chép nguyên câu t phần câu liên tục B䁒ng 4.4.1 Sao chép nguyên câu t phần câu liên tục Câu Phương ph p dịch Câu y lu t Phương ph p dịch y lu t cần ph䁒i xây dựng hệ th ng lu t cú ph p, cần ph䁒i xây dựng hệ th ng lu t cú ph p, ngữ ngh a ph䁒i có t từ điển kh ngữ ngh a t từ điển ong ngữ đầy đủ thông tin Kết quả: B䁒ng 4.4.2 Kết qu䁒 ao chép nguyên câu Thông số Tỉ lệ t phần câu liên tục Chiều dài fingerprint n=4, w=4 / 13 = 0.61 Câu 1: 11, Câu 2: 10 n=4, w=3 11 / 17 = 0.64 Câu 1: 15, Câu 2: 13 n=4, w=2 15 / 22 = 0.68 Câu 1: 20, Câu 2: 17 n=3, w=3 11 / 18 = 0.61 Câu 1: 16, Câu 2: 13 n=3, w=2 14 / 27 = 0.51 Câu 1: 20, Câu 2: 21 47 Ví dụ finger print với n=3, w=3 B䁒ng 4.4.3 finger print Kết qu䁒 ao chép nguyên câu Finger print t phần câu liên tục Finger print 117576 132588 140301 189531 251208 117576 132588 139923 189531 319275 319275 331479 331992 332028 56997 331992 332028 56997 678510 747999 678510 684576 747999 763344 877167 762858 877167 898461 898461 Trường hợp 2: Sao chép có đ䁒o ngữ B䁒ng 4.4.4 Sao chép có đ䁒o ngữ ự kh c iệt kh lớn ề c u trúc cú kết qu䁒 đ i nh từ định ph p câu nguồn ngữ liệu ong đến ch t lượng dịch, ự kh c iệt kh ngữ chuẩn, nên 䁒nh hưởng đến ch t lớn lượng đ i qu䁒 đ i nh từ Anh – Việt, ề c u trúc cú ph p câu kết nguồn ngữ liệu ong ngữ chuẩn nh từ định đến ch t lượng dịch Kết quả: B䁒ng 4.4.5 Kết qu䁒 ao chép có đ䁒o ngữ Thơng số Tỉ lệ Chiều dài fingerprint n=4, w=4 11 / 23 = 0.47 Câu 1: 2==19, Câu 2: 15 n=4, w=3 13 / 28 = 0.46 Câu 1: 23, Câu 2: 18 n=4, w=2 18 / 36 = 0.5 Câu 1: 31, Câu 2: 23 n=3, w=3 15 / 24 = 0.62 Câu 1: 21, Câu 2: 18 n=3, w=2 20 / 31 = 0.64 Câu 1: 28, Câu 2: 23 48 Ví dụ finger print với n=3, w=3 B䁒ng 4.4.6 finger print ao chép có đ䁒o ngữ Finger print Finger print 116163 120015 238878 264222 268605 116163 120015 238878 268605 318168 318168 318366 325827 326394 330030 325827 326394 329634 336753 61299 332181 336753 61299 671715 749970 671715 744651 749970 756864 884862 756864 884862 929655 950967 960507 925569 950967 966942 966942 Trường hợp 3: Sao chép có ửa t từ xen kẻ B䁒ng 4.4.7 Sao chép có ửa t từ xen kẻ Trong thực tế th t khó để lưu trữ Trong thực tế r t khó để lưu trữ đầy đủ c c câu ẫu liệu ì đầy đủ c c câu câu ong ngữ kho ngữ liệu nhiều kể ì ẫu liệu lượng câu ong ngữ kho ngữ liệu r t lớn Kết quả: B䁒ng 4.4.8 Kết qu䁒 ao chép có ửa Thơng số Tỉ lệ t từ xen kẻ Chiều dài fingerprint n=4, w=4 / 16 = 0.37 Câu 1: 10, Câu 2: 10 n=4, w=3 / 22 = 0.31 Câu 1: 15, Câu 2: 14 n=4, w=2 10 / 30 = 0.33 Câu 1: 20, Câu 2: 20 n=3, w=3 11 / 19 = 0.57 Câu 1: 15, Câu 2: 15 n=3, w=2 16 / 26 = 0.61 Câu 1: 21, Câu 2: 21 49 Ví dụ finger print với n=3, w=3 B䁒ng 4.4.9 Finger print kết qu䁒 ao chép có ửa t từ xen kẻ Finger print Finger print 118890 120843 126756 248760 252180 118890 120843 126756 130968 252180 254493 258525 259848 319527 330453 259848 319527 322722 330453 336645 336645 347409 678303 746523 748899 347409 678303 739665 746523 953010 Trường hợp 4: Sao chép t cụ từ câu B䁒ng 4.4.10 Sao chép t cụ từ câu phương ph p dịch th ng kê dịch th ng kê phương ph p có c䁒i thiện ch t lượng dịch ằng c c ch t lượng c䁒i thiện hình hu n p dụng nhiều hệ th ng dịch tự đ ng Kết quả: B䁒ng 4.4.11 Kết qu䁒 ao chép Thông số t cụ từ câu Tỉ lệ Chiều dài fingerprint n=4, w=4 / 18 = Câu 1: 14, Câu 2: 13 n=4, w=3 / 20 = Câu 1: 17, Câu 2: 18 n=4, w=2 / 27 = 0.03 Câu 1: 12, Câu 2: 16 n=3, w=3 / 20 = 0.05 Câu 1: 9, Câu 2: 12 n=3, w=2 / 27 = 0.07 Câu 1: 12, Câu 2: 17 Ví dụ finger print với n=3, w=3 B䁒ng 4.4.12 Finger print ao chép Finger print t cụ từ câu Finger print 192123 321525 339318 340713 48780 121527 127503 253368 321525 326070 676206 887409 954684 968778 332883 354843 66375 676512 87633 944991 955926 50 Đánh giá chung: Việc dụng n-gra theo từ gi䁒 đ ng kể lượng n-gra , c䁒i thiện thời gian thực Theo thực nghiệ , n=3 phù hợp để ph t cụ từ Kết qu䁒 tính to n ức đ ao chép t i thiểu ao chép không kh c iệt o ới iệc dụng n-gra theo ký tự, trừ trường hợp ao chép c c cụ từ ngắn Trên thực tế, inh iên thường ao chép nguyên câu, nguyên đoạn nên kết qu䁒 tr䁒 ề r t x c Dưới 䁒ng o nh kết qu䁒 theo c c í dụ trình ày trên: Trường hợp n-gram theo ký tự n-gram theo từ Trường hợp 1: Sao chép n=5, w=4 : n=3, w=3 nguyên câu 31 / 50 = 0.62 11 / 18 = 0.61 Câu 1: 42, Câu 2: 38 Câu 1: 16, Câu 2: 13 t phần câu liên tục Sao chép nguyên câu có câu có từ trở lên cao Trường hợp 2: Sao chép n=5, w=4 n=3, w=3 có đ䁒o ngữ 44/ 59 = 0.74 15 / 24 = 0.62 Câu 1: 56, Câu 2: 47 Câu 1: 21, Câu 2: 18 Sao chép nguyên câu có câu có từ trở lên chưa cao Trường hợp 3: Sao chép n=5, w=4 n=3, w=3 có ửa 35 / 61 = 0.57 11 / 19 = 0.57 Câu 1: 47, Câu 2: 49 Câu 1: 15, Câu 2: 15 t từ xen kẻ Có tỉ lệ câu có từ trở lên gi ng cao Trường hợp 4: Sao chép t cụ từ câu n=5, w=4 n=3, w=3 14 / 55 = 0.25 / 20 = 0.05 Câu 1: 29, Câu 2: 40 Câu 1: 9, Câu 2: 12 Do có từ liên tiếp gi ng từ từ trở lên th p 51 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Xử lý ngôn ngữ tự nhiên, phân loại n 䁒n c c n đề quan tâ nước n ao chép, n 䁒n kiể p dụng fingerprint để tính to n tra ao chép n i dung tài liệu c ng đồng khoa học gần B o c o trình ày kết qu䁒 thực kiể ô hình ngôn ngữ n-gra ức đ tương tự tra phương ph p winnowing n 䁒n Mô-đun kiể tra ao chép (PDVA ) tích hợp hệ th ng qu䁒n lý học t p để giúp kiể tra ao chép đ i ới tài liệu n p lên hệ th ng Kết qu䁒 nghiên cứu đạt ục tiêu đề tài xây dựng ô hình thực hệ th ng kiể tra ao chép đồ n inh iên C c kết qu䁒 đạt đề tài:  Nghiên cứu tổng quan c c hệ th ng ch ng đạo n, xe xét đặc thù ngôn ngữ tiếng Việt  Xây dựng phương ph p c䁒i tiến phương ph p kiể  Tích hợp hệ th ng qu䁒 lý học t p để kiể tra ao chép tài liệu tra ao chép đồ n inh iên Việc o nh dụng n-gra theo ký tự n-gra theo từ ới winnowing fingerprint lưu lại để dụng nhiều lần giúp c䁒i thiện thời gian tính to n t c ch đ ng kể Kiến nghị Trong khuôn khổ yêu cầu lu n n giới hạn ề thời gian, kiến thức nên đề tài nhiều hạn chế Kết qu䁒 ước đầu kh䁒 quan cần ph䁒i c䁒i tiến, o nh để tì c c hạn chế phương ph p kết hợp ới c c kỹ thu t kh c để gi䁒i c c giai đoạn ài to n kiể đ i ới c c hệ th ng kiể tra ao chép Ngoài ra, tra ao chép, xây dựng t p liệu nguồn iệc r t 52 quan trọng Đó c c hướng nghiên cứu đề tài để ứng dụng thực tế 53 TÀI LIỆU THAM KHẢO [1] Trường Đại học Hoa Sen “Quyết định học thu t.” 2013 1741 an hành Quy định ề liê [2] Trường Đại học Công Nghiệp TP.HCM “Quyết định Quy định ề hình thức xử lý đạo n.” 2016 1494 V/ an hành [3] Trường đại học Kinh Tế “Quyết định 4621 V/ an hành Quy định ề kiể o t xử lý đạo n c c 䁒n phẩ học thu t.” 2017 [4] ê Thị Thu Thủy “Đề tài nghiên cứu turnitin – Gi䁒i ph p hỗ trợ ch ng đạo n,” Học iện hành qu c gia, 2016 [5] Preeti Mulay and Karuna Puri “Hawk Eye: A Plagiari Detection Sy te ,” Advances in Intelligent Systems and Computing Vol 96, no 23, pp.10-20, July 2015 [6] Vaughn M.Seger and Ja e Connan “An Online Sy te for Plagiari Detection,” Department of Computer Science, Uni er ity of the We tern Cape, 2018, pp 2-5 [7] Arkady Bori o et al “Re earch into Plagiari Ca e and Plagiari Detection Method ,” Scientific Journal of Riga Technical University Vol 8, no 11, pp.139-144, No 2010 [8] Nguyễn Chí Hiếu “Mơ hình khai th c đặc tính ngơn ngữ đích nhằ x c định c c cụ danh từ tương ứng Anh-Việt,” u n n tiến , Trường Đại học B ch Khoa Tp.HCM, 2008 [9] Nguyễn Quang Châu c ng ự “G n nhãn từ loại cho tiếng iệt dựa n phong tính to n x c u t,” Tạp chí phát triển kh&cn S 02, trang 4-7, th ng 12/2016 [10] Sai Di ya M and Goyal SK “Ela ticSearch: An ad anced and quick earch technique to handle olu inou data COM-PUSOFT,” An International Journal of Advanced Computer Technology Vol 9, no 11, pp 171-175, Jun 2013 [11] Dougia a et al Moodle: Using learing communities to create an open source course management system National Key Centre for Science and Mathe atic Education, Au tralia: onely Planet, 2003, pp 171-178 54 [12] Kat and Yefi Learning Management System Technologies and Software Solutions for Online Teaching: Tools and Applications USA: Infor ation Science Pu li hing IGI Glo al, 2010, pp 40 [13] B gi o dục đào tạo “Quyết định an hành Quy chế đào tạo đại học cao đẳng hệ quy theo hệ th ng tín chỉ.” S 43, 2007 [14] Trường Đại học Cơng Nghiệp Tp Hồ Chí Minh “Quy chế học ụ, ” S 928, 2014 [15] Zhigang et al “Moodle plugin for highly efficient progra ing cour e ” School of Computer Science and Technology, Har in In titute of Technology, China, 2001 [16] Kaut ar and Irwan Alnaru “De eloping Moodle plugin for creating learning content with another REST function call,” Global Engineering Education Conference(EDUCON Spain, 2014 [17] Narayanan Shi aku ar and Hector Garcia-Molina “SCAM: A copy detection echani for digital docu ent ,” In Proceedings of the Second Annual Conference on the Theory and Practice of Digital Libraries, Texa , USA, 1995, pp 1- 13 [18] Paolo Ro o On the risk of cross-language plagiarism for less resourced languages such as Amazigh, Natural Language Engineering Lab EliRF Dept SIC: Uni er idad Politecnica de Valencia Spain, 2011, pp 30-58 [19] Phạ V n ong “Mơ hình ngơn ngữ.” Internet: http://www.ai.h la n, th ng ười ngày 30 n 2017 [20] PAN09 data “PAN.” Internet: http://pan.we i de/data.ht l, th ng 06 ngày 01 n 2016 [21] Joyce and Donald “Checking originality and pre enting plagiari ,” In Proceedings of the 16th Annual Conference of the National Advisory Committee on Computing Qualifications NACCQ, Au tralia, 2003, pp 303-306 [22] Hire ath and Otari “Plagiari Detection-Different Method and Their Analy i : Re iew, ” International Journal of Innovative Research in Advanced Engineering (IJIRAE) Vol 7, no 15, pp 5-8, Augu t 2014 55 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: NGƠ DUY THIỆN Giới tính: Na Ngày, th ng, n Nơi inh: Bình Dương inh: 03/10/1989 E ail: thienngoduy@g ail.co Điện thoại:0943.948.398 II QUÁ TRÌNH ĐÀO TẠO: Học cao học Trường Đại Học Công Nghiệp Thành Ph Hồ Chí Minh Khóa học: 2015 – 2017 Chun ngành: Khoa Học M y Tính III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Nơi cơng tác Cơng việc đảm nhiệm XÁC NHẬN CỦA Tp TDM, ngày tháng Năm 2019 CƠ QUAN / ĐỊA PHƯƠNG Người khai (Ký tên, đóng dấu) (Ký tên) 56 ... chuyên ngành Ngoài ra, iệc ao chép c c o c o đồ n inh iên có đặc thù riêng Chính ì y, đề tài ? ?xây dựng hình thực hệ th ng kiể tra ao chép đồ n inh iên” cần thiết có ý ngh a thực tiễn cao Mục tiêu nghiên... kiể đồ n inh iên - Hiện thực hệ th ng kiể tra ao chép đồ n inh iên tra ao chép Đối tượng phạm vi nghiên cứu - Nghiên cứu t hình tính to n đ tương đồng n 䁒n, x c định ức tương đồng n 䁒n c p đ toàn... Jaccard Kiể tra Đ nh gi Hình 3.2 Mơ hình kiể Nghiên cứu đề xu t p dụng t ức đ ao chép ức đ ao chép tra ao chép hai tài liệu thu t to n kiể tra ao chép theo c c ức đ gian l n ao chép kh c nhau, thực

Ngày đăng: 27/05/2021, 23:04

Từ khóa liên quan

Mục lục

  • Xây dựng mô hình và hiện thực hệ thống kiểm tra sao chép đồ án trong sinh viên

  • Nhiễm vụ luận văn thạc sĩ

  • Lời cảm ơn

  • Tóm tắt luận văn thạc sĩ

  • Lời cam đoan

  • Mục lục

  • Danh mục hình ảnh

  • Danh mục bảng biểu

  • Danh mục từ viết tắt

  • Mở đầu

    • 1. Đặt vấn đề

    • 2. Mục tiêu nghiên cứu

    • 3. Đối tượng và phạm vi nghiên cứu

    • 4. Cách tiếp cận và phương pháp nghiên cứu

    • 5. Ý nghĩa thực tiễn của đề tài

    • Chương 1: Tổng quan về lĩnh vực nghiên cứu

      • 1.1 Đạo văn và quy định xử lý đạo văn

      • 1.2 Tổng quan về các hệ thống chống đạo văn

      • 1.3 Tổng quan về LMS và E-Learning

      • 1.4 Bài toán kiểm tra sao chép hoặc kiểm tra tính nguyên bản

      • 1.5 Đặc điểm ngôn ngữ tiếng Việt

      • Chương 2: Mô hình quản lý học tập nhằm cuống gian lận sao chép

        • 2.1 Mô hình tổng thể

Tài liệu cùng người dùng

Tài liệu liên quan