Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 81 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
81
Dung lượng
2,03 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN DUY LINH lu XÂY DỰNG ỨNG DỤNG PHÁT HIỆN an va n NỘI DUNG GIỐNG NHAU GIỮA CÁC TÀI LIỆU p ie gh tn to w Chuyên ngành: Khoa học máy tính d oa nl Mã số: 60.48.01 va an lu ll u nf LUẬN VĂN THẠC SĨ KỸ THUẬT oi m z at nh Ngƣời hƣớng dẫn khoa học: PGS.TS V Tru g H g z m co l gm @ an Lu Đà Nẵng - Năm 2014 n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp PGS.TS Võ Trung Hùng Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm công bố lu Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, an n va tơi xin chịu hồn tồn trách nhiệm to p ie gh tn Tác giả oa nl w d Nguyễn Duy Linh ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Bố cục luận văn lu CHƢƠNG 1: NGHIÊN CỨU TỔNG QUAN an n va 1.1 ĐẶC ĐIỂM CÂU TRONG TIẾNG VIỆT VÀ BÀI TOÁN tn to TÁCH CÂU 1.1.1 Câu cấu trúc câu tiếng Việt [1] p ie gh 1.1.2 Bài toán tách câu 10 w 1.2 THUẬT TỐN TÌM KIẾM VÀ SO KHỚP MẪU 11 oa nl 1.2.1 Naïve 12 d 1.2.2 Thuật toán Rabin - Karp 13 lu va an 1.2.3 Thuật toán Knuth - Morris - Pratt 16 1.3 HỆ THỐNG PHẦN MỀM PLAGIARISM CHECKER SOFTWARE 19 u nf ll 1.3.1 Giới thiệu 19 m oi 1.3.2 Cách sử dụng 19 z at nh 1.3.3 Ƣu điểm 22 1.3.4 Nhƣợc điểm 22 z gm @ 1.4 TỔNG KẾT CHƢƠNG 22 CHƢƠNG 2: PHÂN TÍCH HỆ THỐNG ỨNG DỤNG 23 l m co 2.1 HOẠT ĐỘNG ĐÀO TẠO TẠI TRƢỜNG ĐẠI HỌC QUẢNG BÌNH 23 2.1.1 Phân tích trạng đào tạo Trƣờng Đại học Quảng Bình 23 an Lu 2.1.2 Q trình làm khóa luận tốt nghiệp sinh viên 24 n va ac th si 2.1.3 Quy trình kiểm tra thủ cơng khóa luận tốt nghiệp 25 2.2 PHÂN TÍCH NHU CẦU 26 2.3 GIỚI THIỆU HỆ THỐNG 26 2.4 MƠ HÌNH TỔNG QUÁT HỆ THỐNG 28 2.5 THUẬT TOÁN SỬ DỤNG 29 2.5.1 Giai đoạn xây dựng tập liệu 29 2.5.2 Giai đoạn so khớp 33 2.6 THIẾT KẾ MƠ HÌNH 35 lu 2.6.1 Chức Quản lý User 36 an 2.6.2 Chức xây dựng tập liệu 39 va n 2.6.3 Chức so khớp 42 2.7.1 Bảng luanvan 45 p ie gh tn to 2.7 THIẾT KẾ CƠ SỞ DỮ LIỆU 45 2.7.2 Bảng tanso 45 nl w 2.7.3 Bảng nguoidung 46 d oa 2.8 TỔNG KẾT CHƢƠNG 47 an lu CHƢƠNG 3: PHÁT TRIỂN ỨNG DỤNG 48 u nf va 3.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 48 3.1.1 Ngôn ngữ lập trình 48 ll oi m 3.1.2 Hệ quản trị sở liệu 49 z at nh 3.1.3 Phần mềm tạo môi trƣờng Server 50 3.2 CÁC MODULE HỆ THỐNG 50 z gm @ 3.2.1 Module quản lý user 50 3.2.2 Module xây dựng tập liệu 53 l m co 3.2.3 Module so khớp 56 3.2.4 Module kết 60 an Lu 3.3 DEMO CHƢƠNG TRÌNH 61 n va ac th si 3.4 ĐÁNH GIÁ KẾT QUẢ THỬ NGHIỆM CHƢƠNG TRÌNH 64 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 69 TÀI LIỆU THAM KHẢO 71 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (bản sao) lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC C C TỪ VIẾT TẮT TIẾNG VIỆT CSDL Cơ sở liệu CNTT Công nghệ thông tin KLTN Khóa luận tốt nghiệp GVHD Giảng viên hƣớng dẫn lu TIẾNG ANH an HyperText Markup Language HTTP HyperText Transfer Protocol n va HTML gh tn to W3C World Wide Web Consortium p ie Hệ quản trị CSDL MySql Structured Query Language an lu Administrator u nf va Cascading Style Sheet ll CSS d Admin oa SQL Personal Home Page nl PHP w MYSQL oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang lu an Bảng 2.1 Kịch “Quản lý User” 36 Bảng 2.2 Kịch “xây dựng tập liệu” 39 Bảng 2.3 Kịch “so khớp” 42 Bảng 2.4 Bảng luanvan 45 Bảng 2.5 Bảng tanso 45 Bảng 2.6 Bảng nguoidung 46 Bảng 3.1 Kết thử nghiệm 68 n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC CÁC HÌNH Số hình Tên hình Trang Hình 1.1 Minh họa giải thuật Nạve-String-Matcher 12 Hình 1.2 Minh họa giải thuật Rabin - Karp 15 Hình 1.3 Cách xác định biên giải thuật Knuth – Morris - Pratt Hình 1.4 17 Giai đoạn tiền xử lý giải thuật Knuth – lu an n va 17 Hình 1.5 Giao diện Plagiarism Checker Software 20 Hình 1.6 Giao diện web Plagiarism Checker Software 21 Hình 1.7 Kết so khớp với Plagiarism Checker Software 21 Hình 2.1 Mơ hình tổng quát hệ thống 28 Menu Document converter 30 Giao diện website chuyển đổi tệp 31 Cấu trúc cơng cụ tách câu vnSentDetector 32 Hình 2.5 Mơ hình use case tổng quát 35 Hình 2.6 Biểu đồ chức Quản lý user 37 Hình 2.7 Biểu đồ cộng tác Quản lý user Hình 2.8 Biểu đồ chức xây dựng tập ie gh tn to Morris - Pratt p Hình 2.2 Hình 2.3 d oa nl w Hình 2.4 va an lu ll u nf oi m 40 z at nh liệu Hình 2.9 38 Biểu đồ cộng tác chức xây dựng tập 41 z liệu @ 43 Hình 2.11 Biểu đồ cộng tác chức So khớp 44 Chức tạo tài khoản ngƣời dùng Hình 2.2 Chức sửa tài khoản ngƣời dùng 50 an Lu Hình 3.1 m co l gm Hình 2.10 Biểu đồ chức so khớp 51 n va ac th si Hình 3.3 Chức xóa tài khoản ngƣời dùng 52 Hình 3.4 Module xây dựng tập liệu tài liệu 53 Hình 3.5 Module kiểm tra trùng khớp 56 Hình 3.6 Module kết so khớp 60 Hình 3.7 Giao diện ứng dụng 61 Hinh 3.8 Module giới thiệu ứng dụng 62 Hình 3.9 Module hƣớng dẫn sử dụng ứng dụng 63 Hình 3.10 Module liên hệ 64 lu Hình 3.11 Thƣ mục chứa tệp KLTN đƣợc xây dựng an n va tập liệu 66 67 p ie gh tn to Hình 3.12 Thƣ mục chứa tệp KLTN cần kiểm tra d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si MỞ ĐẦU Lý chọ đề tài Ngày nay, với phát triển vƣợt bậc hệ thống mạng Internet việc tìm kiếm thơng tin trở nên dễ dàng Cùng với hoạt động trao đổi, chia sẻ tài liệu diễn phổ biến Các báo, tài liệu nghiên cứu, báo cáo thực tập, khóa luận tốt nghiệp, luận văn,… đƣợc công khai phát tán, chỉnh sửa không đƣợc đồng ý tác giả Nhiều nhà kinh doanh lợi dụng dịch vụ để kiếm lời thông qua nhu cầu thực tế ngƣời sử dụng lu tạo tiền đề cho trào lƣu “đạo văn” lan rộng an n va Phong trào nghiên cứu khoa học học sinh, sinh viên ngày phát tn to triển Số lƣợng học sinh, sinh viên tham gia nghiên cứu khoa học ngày gh nhiều Vì vậy, để chất lƣợng viết, khóa luận, luận văn ngày cao p ie tránh tình trạng "đạo văn" nghiên cứu khoa học việc xây dựng nl w công cụ dùng để phát hiện tƣợng cần thiết oa Trên giới, luật pháp quy định nhiều khung hình phạt việc d vi phạm quyền từ sớm Ở Việt Nam, có nhiều quy định an lu va vấn đề nhƣng không hạn chế đƣợc việc chép, mua bán tài liệu ll u nf thông qua mạng Internet oi m Những nghiên cứu phát trùng lặp chuỗi văn cho đời z at nh nhiều cơng cụ hiệu sử dụng trực tuyến nhƣ Plagiarism Checker Software, Turnitin, Những hệ thống cho phép z phát trùng lặp liệu có tên miền gốc thực đƣợc @ l gm trực tuyến mơi trƣờng có Internet Bên cạnh đó, việc mở rộng sở liệu mẫu theo yêu cầu ngƣời sử dụng trở nên khó khăn chi phí cao m co Vì chúng tơi định chọn đề tài “Xây dựng ứng dụng phát an Lu nội dung giống tài liệu” làm đề tài tốt nghiệp luận văn cao n va ac th si 58 Mã nguồn giải thuật so khớp KMP: z } z at nh } oi } m $b++; an Lu n va ac th si 60 3.2.4 Module kết lu an n va p ie gh tn to nl w oa Hình 3.6 Module kết so khớp d Module kết dùng để hiển thị kết sau cho tệp KLTN cần lu ll u nf thể sau đây: va an kiểm tra qua module kiểm tra trùng khớp Nó hiển thị với nội dung cụ oi m - Câu tài liệu cần kiểm tra xuất tài liệu CSDL z at nh đƣợc xây dựng tập liệu - Mức độ tƣơng tự cao so với tài liệu z Ngoài ra, module chứa liên kết chuyển module kiểm tra @ m co l gm trùng khớp giúp ngƣời dùng thực với tệp KLTN khác an Lu n va ac th si 61 3.3 DEMO CHƢƠNG TRÌNH Giao diện chƣơng trình nhƣ sau: lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.7 Giao diện ứng dụng n va ac th si 62 Chúng tơi xây dựng hồn chỉnh website với chức nhƣ xây dựng tập liệu, so khớp hiển thị kết Ngồi module ứng dụng nhƣ trình bày trên, giao diện ứng dụng cịn có số module khác nhƣ: Module giới thiệu ứng dụng: Giới thiệu tổng quan ứng dụng, mã nguồn, hệ quản trị CSDL chức ứng dụng lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z Hinh 3.8 Module giới thiệu ứng dụng m co l gm @ an Lu n va ac th si 63 Module hƣớng dẫn sử dụng ứng dụng: Hƣớng dẫn ngƣời dùng bƣớc cụ thể sử dụng ứng dụng để kiểm tra văn lu an n va p ie gh tn to d oa nl w an lu ll u nf va Hình 3.9 Module hướng dẫn sử dụng ứng dụng oi m z at nh z m co l gm @ an Lu n va ac th si 64 Module liên hệ: Liên hệ với tác giả ứng dụng lu an n va p ie gh tn to nl w d oa Hình 3.10 Module liên hệ an lu 3.4 Đ NH GI KẾT QUẢ THỬ NGHIỆM CHƢƠNG TRÌNH u nf va Chúng thực xây dựng tập liệu gần 100 tài liệu chủ yếu ll khóa luận tốt nghiệp sinh viên ngành Công nghệ thông tin - Khoa Kỹ oi m thuật – Cơng nghệ - Trƣờng Đại học Quảng Bình thực kiểm tra trùng z at nh khớp với khoảng 30 tài liệu đầu vào với mức độ dài ngắn khác nhau, nội dung đƣợc lấy từ nhiều nguồn (KLTN sinh viên ngành CNTT – Trƣờng Đại z gm @ học Quảng Bình, KLTN sinh viên ngành CNTT trƣờng khác, m co dụng l KLTN sinh viên ngành CNTT từ Internet) để kiểm tra hiệu suất ứng an Lu n va ac th si 65 Tốc độ xử lý nhanh: ứng dụng đƣợc xây dựng Website ngôn ngữ PHP hệ quản trị CSDL MySQL nên dễ dàng upload lên server đạt tốc độ xử lý nhanh server đạt yêu cầu Tính khoa học cao: trình sử dụng ứng dụng cho phép xây dựng tập liệu so khớp với KLTN từ nhiều nguồn có độ dài ngắn khác Ứng dụng với module xây dựng tập liệu thực xây dựng tập liệu triệt để câu đƣợc tách từ KLTN, module kiểm tra trùng khớp cho kết so sánh nhanh xác lu Giao diệ giản, dễ sử dụng: giao diện đƣợc thiết kế với kết hợp an n va ngôn ngữ HTML kỹ thuật CSS nên đơn giản nhƣng đạt độ thẩm mỹ tn to cao Với menu liên kết tới module hƣớng dẫn sử dụng tạo điều kiện để gh khách truy cập vào website dễ dàng thao tác thực chức p ie Bảng thống kê kết thử nghiệm w oa nl - Kho liệu đƣợc xây dựng: 100 tệp KLTN (tệp văn *.txt) d - Số tệp đƣa vào kiểm tra: 30 tệp (gồm KLTN sinh viên ngành lu va an CNTT – Trƣờng Đại học Quảng Bình, KLTN sinh viên ngành CNTT u nf trƣờng khác, KLTN sinh viên ngành CNTT từ Internet) ll - KLTN ngành học cần kiểm tra: Ngành Công nghệ thông tin oi m z at nh z m co l gm @ an Lu n va ac th si 66 lu an n va p ie gh tn to d oa nl w u nf va an lu ll Hình 3.11 Thư mục chứa tệp KLTN xây dựng oi m z at nh tập liệu z m co l gm @ an Lu n va ac th si 67 lu an n va p ie gh tn to d oa nl w va an lu u nf Hình 3.12 Thư mục chứa tệp KLTN cần kiểm tra ll Kết thử nghiệm ứng dụng oi m đƣợc chọn cho kết nhƣ sau: z at nh Website nghiệm phần mềm tạo server Xampp với tập KLTN z m co l gm @ an Lu n va ac th si 68 Bảng 3.1 Kết thử nghiệm Số KLTN Loại KLTN trùng Tỷ lệ Kiểm tra thủ công KLTN_CNTT_QBU 60% Đúng KLTN_CNTT_TK 40% Đúng KLTN_CNTT_INTERNET 30% Gần lu Từ bảng kết ta nhận xét KLTN sinh an viên Khoa trƣờng (KLTN_CNTT_QBU) có khả giống va n cao KLTN đƣợc kiểm tra từ trƣờng khác sƣu tầm gh tn to Internet (KLTN_CNTT_TK KLTN_CNTT_INTERNET) Các KLTN p ie đƣợc lấy từ internet (KLTN_CNTT_INTERNET) có tỷ lệ trùng khớp thấp w trình thực sinh viên xáo trộn, thêm bớt nội dung từ nhiều d oa nl nguồn khác ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 69 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong q trình nghiên cứu, chúng tơi thu đƣợc nhiều kiến thức xử lý ngôn ngữ tự nhiên, mơ hình đặc trƣng văn tiếng Việt, thuật tốn tìm kiếm so khớp mẫu, ngơn ngữ lập trình PHP, hệ quản trị sở liệu MySQL Luận văn xây dựng đƣợc ứng dụng dùng để kiểm tra giống nội dung tài liệu cần đánh giá tài liệu đƣợc xây dựng tập liệu Từ đó, đƣa câu trùng mức độ giống cao tài liệu Ứng dụng đƣợc thử nghiệm xây dựng lu an liệu tập tài liệu khóa luận sinh viên ngành Công nghệ thông tin n va - Khoa Kỹ thuật – Cơng nghệ - Trƣờng Đại học Quảng Bình Website đƣợc tn to xây dựng tảng ngôn ngữ PHP hệ quản trị sở liệu MySQL gh nên có khả tích hợp thêm nhiều ứng dụng trang chủ liên kết tới p ie trang sở liệu khác nl w Tuy có nhiều cố gắng nhƣng kinh nghiệm nghiên cứu chƣa nhiều oa nên luận văn không tránh khỏi hạn chế nhƣ: số khâu q trình d tiền xử lý cịn thực thủ công phần mềm hỗ trợ, chƣa phát đƣợc an lu va số KLTN đƣợc chép tinh vi (thay đổi nội dung, lắp ghép từ nhiều tài ll u nf liệu từ nhiều nguồn khác nhau), ứng dụng chƣa thực đƣợc tệp tài oi m liệu dạng văn khác nhƣ *.doc, *.docx, *.PDF,… hƣớng phát triển nhƣ sau: z at nh Qua q trình thực luận văn, chúng tơi xin đƣa số giải pháp z - Tích hợp trình tiền xử lý vào ứng dụng @ *.docx, *.doc, * PDF,… m co l gm - Phát triển xây dựng tập liệu với dạng tệp văn khác nhau: an Lu n va ac th si 70 - Hoàn thành chức phân quyền phần dành cho quản trị viên để mở rộng khả ứng dụng cho khoa khác tài liệu đƣợc thu thập từ nhiều nguồn khác - Mở rộng sở liệu tích hợp lên mạng Internet phục vụ cơng tác kiểm tra giảng viên sinh viên lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 71 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Đinh Điền (2006), Giáo trình x lý ngôn ngữ tự nhiên, Nhà xuất Đại học quốc gia TP.HCM [2] Võ Trung Hùng, Huỳnh Đức Việt, Võ Duy Thanh (2010), “Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thơng tin văn bản”, Tạp chí Khoa học Công nghệ, Đại học Đà Nẵng, Số 4(39), tr 307-316 lu [3] Phạm Hữu Khang (2006), Xây dựng ứng dụng Web PHP MySQL, an n va Nhà xuất Lao động - Xã hội TP Hồ Chí Minh tn to [4] Lƣu Văn Tăng (2009), Phát triển công cụ hỗ trợ xây dựng kho ngữ liệu p ie gh cho phân tích văn tiếng Việt, Luận văn thạc sĩ kỹ thuật, Đại học quốc gia Hà Nội nl w [5] Nhóm Ngọc Anh Thƣ dịch (2002), Giáo trình thuật tốn, Nhà xuất oa Thống kê Hà Nội d [6] Trần Thị Diệu Uyên (2011), Ứng dụng x l văn tiếng Việt xây dựng an lu ll u nf học Đà Nẵng va hệ thống kiểm tra đề tài tốt nghiệp, Luận văn Thạc sĩ kỹ thuật, Đại oi m [7] Cao Văn Việt (2010), Xây dựng mơ hình ngơn ngữ cho tiếng Việt, Luận Tiếng Anh: z at nh văn thạc sĩ kỹ thuật, Đại học quốc gia Hà Nội z [8] Andreas stolcke (2002), SRILM – an extensible language modeling toolkit, @ l gm Conference on spoken language processing [9] Muhammad, Rashid Bin String Matching Agorithm (2011), Design and m co Analysis of Computer Algorithms, Kent State University, [Cited: 06 an Lu 20, 2011] n va ac th si 72 [10] L H Phuong and H T Vinh (2008), A Maximum Entropy Approach to Sentence Boundary Detection of Vietnamese Texts, IEEE International Conference on Research, Innovation and Vision for the Future RIVF 2008, Vietnam [11] Thomas H Cormen, Charles E Leiserson, Ronald L Rivest, Cliford Stein (2001), String Matching Algorithms, Introduction to algorithms, 2nd s.l : MIT Press, pp 906-932 Website: lu [12] Hƣng, Ngơ Quang 2011 PM1: Thuật tốn Knutt-Morris-Pratt Blog an n va Khoa học máy tính [Online] 2, 2011 [Cited: 06 10, 2011.] tn to http://www.procul.org gh [13] http://www.eecs.harvard.edu/~ellard/Q-97/HTML/root/root.html p ie [14] http://www.procul.org [15] http://www.personal.kent.edu/~rmuhamma/Algorithms/algorithm.html w http://vi.wikipedia.org d [17] oa nl [16] http://plagiarisma.net an lu [18] https://www.apachefriends.org/index.html ll u nf va oi m z at nh z m co l gm @ an Lu n va ac th si