1. Trang chủ
  2. » Công Nghệ Thông Tin

Mô hình kiến trúc hệ thống và thuật toán xử lý kiểm tra, đánh giá trùng lặp các đề tài cấp cơ sở, cấp bộ, thử nghiệm tại trường Đại học Tài nguyên và Môi trường Hà Nội

6 17 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Trong bài viết này, tập thể tác giả giới thiệu một mô hình kiến trúc hệ thống và thuật toán xử lý kiểm tra sự trùng lặp văn bản được sử dụng trong quá trình thực hiện đề tài “Nghiên cứu xây dựng phần mềm kiểm tra, đánh giá sự trùng lặp của các đề tài cấp Bộ, cấp cơ sở, thử nghiệm tại Trường Đại học Tài nguyên và Môi trường Hà Nội”.

Nghiên cứu MƠ HÌNH KIẾN TRÚC HỆ THỐNG VÀ THUẬT TOÁN XỬ LÝ KIỂM TRA, ĐÁNH GIÁ TRÙNG LẶP CÁC ĐỀ TÀI CẤP CƠ SỞ, CẤP BỘ, THỬ NGHIỆM TẠI TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI Trần Cảnh Dương, Kiều Đức Hồng Trường Đại học Tài ngun Mơi trường Hà Nội Tóm tắt Cơng bố khoa học ngày nhiều dẫn đến việc xác định quyền, trùng lặp văn công việc khơng đơn giản, đặc biệt khó khăn số lượng tài liệu lớn, số trang văn nhiều phạm vi so sánh rộng Trong báo này, tập thể tác giả giới thiệu mơ hình kiến trúc hệ thống thuật toán xử lý kiểm tra trùng lặp văn sử dụng trình thực đề tài “Nghiên cứu xây dựng phần mềm kiểm tra, đánh giá trùng lặp đề tài cấp Bộ, cấp sở, thử nghiệm Trường Đại học Tài ngun Mơi trường Hà Nội” Từ khóa: Mơ hình kiến trúc; Thuật tốn; Chương trình phần mềm; Kiểm tra, đánh giá đề tài Abstract The structured system model and testing algorithms for overlapping assessment of research projects: pilot study for Hanoi University of Natural Resources and Environment Vast amount of scientific publication make plagiarism detection more complicated In this paper the authors present the structured system model and testing algorithms to analyze text overlapping that has been used in the scientific project titled “Research to build the software to for overlapping assessment of Ministry and Grassroot level scientific projects: Pilot study at Hanoi University of Natural Resources and Environment” Keywords: Structured model; Algorithm; Software; Overlapping Giới thiệu trường hợp cụ thể Một số công cụ Ngày mạng internet phát triển miễn phí có hạn chế mạnh mẽ với lượng thông tin ngày định tính sử dụng tăng Việc kiểm tra trùng lặp cần thiết nhằm bảo vệ quyền tác giả, tránh đạo văn, tránh trùng lặp tên toàn phần nội dung ấn phẩm, tài liệu Trên giới có số công cụ kiểm tra trùng lặp, chẳng hạn Small SEO, Tool, Copyscape, Plagium, Duplicheker, DMCA Scan, Copygator, Plagiarisma, Plagspotter, Dustball, Article Checker, Tuy nhiên, công cụ sử dụng phù hợp cho 68 Hoạt động khoa học kỹ thuật Bộ Tài nguyên Môi trường phát triển mạnh mẽ với số lượng lớn đề tài cấp Bộ, cấp Cơ sở lĩnh vực từ Bộ thành lập Hàng năm, ngồi đơn vị đề xuất rà sốt trùng lặp, Vụ Khoa học Công nghệ quan chủ trì kiểm tra, đánh giá trùng lặp hồn chỉnh hồ sơ trình Lãnh đạo Bộ xem xét, định Việc kiểm tra, rà soát đánh giá trùng lặp Tạp chí Khoa học Tài nguyên Môi trường - Số 18 - năm 2017 Nghiên cứu nhiều thời gian cơng sức Chính vậy, đề tài “Nghiên cứu xây dựng phần mềm kiểm tra, đánh giá trùng lặp đề tài cấp Bộ, cấp Cơ sở, thử nghiệm Trường Đại học Tài nguyên Môi trường Hà Nội” góp phần đẩy nhanh tiến độ rà sốt, tiết kiệm thời gian cơng sức Trong q trình thực đề tài, tác giả đề tài nghiên cứu đề xuất sử dụng mơ hình kiến trúc hệ thống thuật toán xử lý kiểm trùng cách hợp lý hiệu cao, sở để xây dựng chương trình phần mềm, tạo sản phẩm có tính ứng dụng cao Nội dung 2.1 Giải pháp công cụ ngôn ngữ Lập trình Hệ điều hành máy chủ: Microsoft Windows Server 2012 Hệ điều hành máy trạm: Microsoft Hình 1: Mơ hình kiến trúc hệ thống - Tầng liệu (data layer) Tầng liệu chứa máy chủ CSDL (Database Server) đóng vai trị tảng hệ thống, lưu trữ đầy đủ thông tin người dùng, đề tài, dự án khoa học, tin tức, tạp chí khoa học, sách, giáo trình,…Hệ thống yêu cầu quản lý lượng lớn liệu, ngồi hệ thống cịn yêu cầu tính xác, bảo mật tính Windows XP, Windows 7, 8, 8.1 10 Hệ quản trị CSDL: Microsoft SQL Server 2014 Web Server: Microsoft IIS v8.0 Portal core: Dotnetnuke v7 Cơng nghệ lập trình: Visual Studio NET v2013 Ngơn ngữ lập trình: C#.NET, tảng NET Framework 4.5 Microsoft NET Framework cung cấp môi trường lập trình thực chương trình có hiệu cao với hỗ trợ tối đa tính có sẵn Microsoft Mơi trường rút ngắn thời gian lập trình đồng thời có nhiều tính cao cấp 2.2 Kiến trúc hệ thống Kiến trúc hệ thống mơ tả Hình sẵn sàng cao liệu [1] - Tầng ứng dụng (application layer) bao gồm hai thành phần sau o Thành phần tương tác với CSDL: đóng vai trị trung gian thành phần nghiệp vụ với lớp liệu, xử lý thao tác liên quan đến sở liệu o Web services: đóng vai trị xử lý yêu cầu người dùng hệ thống - Tầng giao diện (Presentation Layer) Ở đầu cuối, hệ thống giao tiếp với người dùng thơng qua trình duyệt web thông dụng Chrome, Internet Explorer, FireFox, Safari,… Mô hình tập trung giao diện đầu cuối thơng qua trình duyệt web hỗ trợ việc triển khai, mở rộng ứng dụng đơn giản nhanh chóng, dễ quản lý bảo trì hệ thống, tốn thời gian, nhân lực chi phí Tạp chí Khoa học Tài nguyên Môi trường - Số 18 - năm 2017 69 Nghiên cứu 2.3 Thuật toán xử lý kiểm trùng So sánh một vài chuỗi với văn để tìm nơi số lần xuất chuỗi văn thực thuật toán kiểm trùng Việc so sánh tiến hành từ trái qua phải, từ phải qua trái, vị trí cụ thể không theo thứ tự định Mặt khác kết so sánh xác gần Nghiên cứu thuật tốn sau đánh giá hiệu thuật toán, lựa chọn thuật toán so sánh chuỗi cách phù hợp trường hợp điều quan trọng Đánh giá hiệu thuật toán so sánh chuỗi số lần tìm kiếm, độ nén văn bản, thời gian, tiêu chuẩn, số mẫu, Trên thực tế có thuật tốn so sánh BruteForce, Rabin-Karp, Knuth-Morris-Pratt, Boyer-Moore, Mỗi thuật tốn tương ứng phương pháp tìm kiếm mẫu văn Thuật tốn Brute-Force tiến hành so sánh khơng theo thứ tự định, không thực tiền xử lý, dịch chuyển ký tự tính tối ưu khơng cao Thuật tốn Rabin-Karp tiến hành so sánh từ trái qua phải, sử dụng hàm băm, hiệu thuật toán đối sánh đa mẫu Thuật toán Knuth-Morris-Pratt tiến hành so sánh từ trái qua phải, mẫu để định bước dịch chuyển sau Thuật tốn tin cậy, giảm độ trễ thời gian so sánh Thuật toán Boyer-Moore tiến hành so sánh từ phải qua trái Thuật toán dùng hai hàm dịch chuyển hậu tố tốt (good suffix) ký tự tồi (bad character) Thuật toán cho kết tìm kiếm nhanh áp dụng nhiều thực tế Tuy nhiên, thứ tự so sánh khác biểu diễn thuật toán Boyer-Moore phức tạp dựa hai quy tắc để dịch chuyển pattern văn 70 Trong trình nghiên cứu thuật toán so sánh, kiểm tra trùng lặp, nhóm nghiên cứu đề tài lựa chọn thuật tốn WinDiff Diff để xây dựng Hệ thống cung cấp chức kiểm trùng văn nhằm hiển thị vị trí nội dung trùng lặp hai văn Hai thuật toán dùng để so sánh hai văn khác hay hai đoạn văn Hệ thống phát câu chép nguyên xi, trùng ý đánh dấu cho người quản trị so sánh với văn khác Tính tốn khác biệt hai văn cốt lõi hệ thống [2] 2.3.1 Xử lý tối ưu hóa thuật tốn a) Kiểm tra giống Việc so sánh hai văn rõ ràng đơn giản kiểm tra giống Câu lệnh mô tả sau Khả không nhỏ hai văn so sánh giống hệt nhau, việc kiểm tra đơn giản hệ thống Vì vậy, việc trước tiên phải kiểm tra trường hợp Khâu kiểm tra làm đơn giản hóa mã [4] b) Kiểm tra giống tiền tố/hậu tố Tiếp theo, có khác biệt văn bản, chia sẻ chuỗi phổ biến đầu và/hoặc cuối c) Kiểm tra Chèn/Xóa chuỗi đơn giản Cài đặt thuật tốn: Tạp chí Khoa học Tài nguyên Môi trường - Số 18 - năm 2017 Nghiên cứu n1 n2 độ dài chuỗi đầu vào) [2] a) Đầu vào thuật toán d) Kiểm tra văn chỉnh sửa đầu cuối đoạn Kiểm tra văn chỉnh sửa đầu cuối đoạn khó khăn nhiều so với chỉnh sửa đơn lẻ Hai chuỗi chèn đơn giản phát cách tìm kiếm diện ‘Text 1’ ‘Text 2’ Loại bỏ tiền tố hậu tố chung bước đầu đảm bảo phải có khác biệt đầu văn lại Sau đó, ta dễ dàng xác định chuỗi ngắn diện chuỗi dài Trong tình kết khác xác định mà khơng cần chạy thuật tốn phức tạp Nếu chuỗi tồn hai văn bản, nửa độ dài văn dài hơn, xác định giống Trong trường hợp văn chia thành hai, hàm so sánh phức tạp thực Thực phép kiểm tra cách đệ quy tạo nên phân chia khác Việc tính tốn chuỗi phổ biến dài hoạt động phức tạp hàm kiểm tra khác nhau, có nghĩa khơng tối ưu độ phức tạp Tuy nhiên, giới hạn mà chuỗi ký tự chung phải có nửa độ dài văn dài 2.3.2 Thuật toán kiểm trùng Một q trình tối ưu hóa hồn tất, văn lại so sánh với thuật tốn diff Kỹ thuật vét cạn có độ phức tạp O(n1*n2 ) để thực (trong Bất kỳ thuật tốn khác biệt mặt lý thuyết xử lý đầu vào, phân chia theo ký tự, từ hay câu Tuy nhiên, số thuật toán khác biệt hiệu nhiều việc xử lý thẻ nhỏ ký tự, hiệu ứng khác hiệu xử lý thẻ lớn xử lý câu Lý có số lượng vơ hạn dịng khơng xuất văn xuất phần biết chèn xóa Ngược lại, có 80 mã ký tự riêng biệt xử lý ký tự (az, AZ, 0-9 số dấu câu), có nghĩa văn không nhỏ chứa nhiều trường hợp tất ký tự Các thuật tốn khác khai thác khác biệt thống kê văn đầu vào, dẫn đến chiến lược hiệu b) Đầu thuật toán Thuật toán kiểm trùng văn truyền thống tạo danh sách chuỗi chèn chuỗi xóa mà thực văn văn thứ hai Một phần mở rộng điều việc thêm vào toán tử ‘move’ Một cách tiếp cận hồn tồn khác sử dụng ‘copy’ ‘chèn’ làm toán tử c) Độ xác Nói chung thuật tốn kiểm trùng đưa kết xác, mơ tả đường dẫn hợp lệ khác biệt từ văn sang văn khác Tuy nhiên, số thuật toán trở lại đầu phụ tối ưu lợi ích tốc độ Thuật tốn diff mơ tả chi tiết báo năm 1986 E Myers Một đề xuất tối ưu Tạp chí Khoa học Tài ngun Mơi trường - Số 18 - năm 2017 71 Nghiên cứu hóa xử lý khác biệt từ hai đầu lúc, hội tụ d) Xử lý Một thuật tốn diff hồn hảo trả số lượng tối thiểu chỉnh sửa cần thiết để chuyển đổi văn sang văn khác Việc chuyển đổi hoàn toàn an toàn, vấn đề lớn khác biệt hai văn khơng giống thường bị xáo trộn với trùng hợp ngẫu nhiên nhỏ Kết mong đợi xóa tất ‘Text 1’và chèn tất ‘Text 2’, ngoại trừ khoảng thời gian cuối Các văn dài dẫn đến nhiều từ chia sẻ Tuy nhiên, khác biệt dựa câu dễ bị ảnh hưởng Vấn đề trùng hợp ngẫu nhiên nhỏ thực hai vấn đề khác khả ngữ nghĩa Mỗi vấn đề đòi hỏi giải pháp xử lý 2.4 Quy trình vận hành hệ thống kiểm trùng đề tài 2.4.1 Quy trình kiểm trùng đề tài Trước thời điểm đăng ký xét duyệt đề xuất đề tài, thuyết minh đề tài đánh giá nghiệm thu đề tài cán quản lý đề tài tiến hành kiểm tra trùng lặp nội dung nghiên cứu đề tài Việc sử dụng công cụ hỗ trợ kiểm trùng theo liệu có sẵn quản lý theo cấp độ khác hạn chế tượng trùng lắp đề tài Quá trình kiểm trùng hệ thống kiểm trùng đề tài diễn theo trình thực đề tài đề xuất đề tài  xây dựng thuyết minh đề tài  báo cáo kết thực đề tài Khi tiến hành kiểm trùng hệ thống kiểm trùng liệu giai đoạn thực đề tài không kiểm trùng đối chiếu liệu giai đoạn đề xuất đề tài 2.4.2 Sơ đồ kiểm trùng đề tài Sơ đồ kiểm trùng đề tài thể Hình Hình 2: Sơ đồ kiểm trùng đề tài 2.4.3 Các bước kiểm trùng đề tài Bước Đăng nhập Sau đăng nhập hệ thống kiểm trùng (vào địa http://kiemtrung hunre.vn), hình xuất trang 72 chủ với thông tin bản, chẳng hạn số liệu đề tài cập nhật Trang chủ hệ thống cung cấp số chức tác nghiệp phần mềm (ở phía bên trái hình) bao gồm “tìm kiếm đề Tạp chí Khoa học Tài ngun Mơi trường - Số 18 - năm 2017 Nghiên cứu tài, Quản trị đề tài, Báo cáo Quản trị hệ thống” Bước Kiểm trùng đề tài Hệ thống kiểm trùng đề tài cho phép kiểm trùng đề tài riêng lẻ giai đoạn cụ thể sau: a) Kiểm trùng đề xuất đề tài b) Kiểm trùng Thuyết minh đề tài báo cáo tổng kết đề tài Khi kết thúc trình kiểm trùng cán quản lý đề tài thực thao tác chuyển trạng thái đề tài sang tình trạng “Đề tài hồn thành” Danh sách đề tài mơ tả Hình Hình 3: Danh sách đề tài Bước Báo cáo thống kê kiểm trùng đề tài Tại giao diện trang chủ, người dùng nhấn chuột vào mục “báo cáo”, hệ thống cung cấp báo cáo Hệ thống có báo cáo tổng hợp báo cáo chi tiết Tại chức báo cáo chi tiết, hệ thống thiết kế để người sử dụng chọn đề tài nhiều đề tài cần báo cáo Sau lựa chọn đề tài cần báo cáo nhấn nút xuất báo cáo hệ thống xuất file excel chứa đầy đủ nội dung kiểm trùng đề tài đưa vào hệ thống theo lựa chọn đề tài người dùng KẾT LUẬN tính đại, sử dụng tiện lợi, đảm bảo độ xác, tin cậy hỗ trợ tích cực việc quản lý đề tài khoa học Phần mềm nâng cấp để sử dụng phạm vi rộng liệu lớn, đa dạng phong phú TÀI LIỆU THAM KHẢO [1] Phạm Hữu Khang (2010) Microsoft SQL Server 2008 - Quản trị Cơ sở liệu (Tập 2) Nhà xuất bản: Nxb Lao động - Xã hội [2] Hoàng Nghĩa Tý (2006) Cấu trúc liệu thuật toán Nhà xuất Xây dựng [3] Phạm Hữu Khang (2006) C# Lập trình hướng đối tượng Nhà xuất Lao động xã hội [4] Nguyễn Ngọc Bình Phương - Thái Thanh Phong (2006) Các giải pháp lập trình C# Nhà xuất Giao thơng Vận tải [5] Andrew Troelsen -‎ Philip Japikse Pro C# 7: With NET and NET Core 8th Edition Mơ hình kiến trúc hệ thống thuật toán xử lý kiểm trùng sở để xây dựng phần mềm kiểm tra, đánh giá trùng lặp đề tài cấp Bộ, cấp Cơ sở, thử nghiệm Trường Đại học Tài nguyên Môi trường Hà Nội Kết thử nghiệm cho thấy sản phẩm có BBT nhận bài: Ngày 26/9/2017; Phản biện xong: Ngày 26/10/2017 Tạp chí Khoa học Tài nguyên Môi trường - Số 18 - năm 2017 73 ... Edition Mô hình kiến trúc hệ thống thuật tốn xử lý kiểm trùng sở để xây dựng phần mềm kiểm tra, đánh giá trùng lặp đề tài cấp Bộ, cấp Cơ sở, thử nghiệm Trường Đại học Tài nguyên Môi trường Hà Nội. .. nhiều thời gian cơng sức Chính vậy, đề tài “Nghiên cứu xây dựng phần mềm kiểm tra, đánh giá trùng lặp đề tài cấp Bộ, cấp Cơ sở, thử nghiệm Trường Đại học Tài nguyên Môi trường Hà Nội? ?? góp phần... Quản trị đề tài, Báo cáo Quản trị hệ thống? ?? Bước Kiểm trùng đề tài Hệ thống kiểm trùng đề tài cho phép kiểm trùng đề tài riêng lẻ giai đoạn cụ thể sau: a) Kiểm trùng đề xuất đề tài b) Kiểm trùng

Ngày đăng: 10/04/2021, 09:42

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w