ISSN 1859 1531 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 1(86) 2015 113 XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ HỆ THỐNG PHÁT HIỆN SAO CHÉP BUILDING A DATA WAREHOUSE FOR DUPLICATE DETECTION SYSTEM Châu T[.]
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 1(86).2015 113 XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ HỆ THỐNG PHÁT HIỆN SAO CHÉP BUILDING A DATA WAREHOUSE FOR DUPLICATE DETECTION SYSTEM Châu Thùy Dương1, Võ Trung Hùng2*, Hồ Phan Hiếu2** Trường Đại học Quảng Nam; chauthuyduong.qn@gmail.com Đại học Đà Nẵng; *vthung@dut.udn.vn, **hophanhieu@gmail.com Tóm tắt - Trong báo này, chúng tơi trình bày kết xây dựng kho liệu sử dụng hệ thống phát chép từ nguồn tài liệu Đại học Đà Nẵng Kho liệu bao gồm tài liệu gốc, sở liệu thông tin chung tài liệu liệu trích xuất từ tài liệu lưu trữ định dạng XML Chúng đề xuất cấu trúc lưu trữ chương trình tương ứng để dễ dàng lưu trữ, cập nhật kho liệu xử lý liệu kho Chúng tiến hành thử nghiệm lưu trữ kho với 100 tài liệu loại cho báo cáo tốt nghiệp sinh viên ngành công nghệ thông tin, luận văn tốt nghiệp cao học báo cáo tổng kết đề tài nghiên cứu Kết nghiên cứu tiền đề để xây dựng hệ thống phát tự động việc chép trái phép tài liệu khoa học, góp phần hạn chế nạn “đạo văn” diễn phổ biến Abstract - This paper presents the results of building a data bank to be used in the duplication detection system from learning resources of the University of Danang This data bank includes original documents, abstract information database about the original documents and the data which has been extracted from the documents to store in XML format We have proposed storage structure and the corresponding programs to easily store, update and manage data in data bank We have experimented and stored in this data bank over 300 documents such as course papers by IT students, master theses and reports of research projects Results of this study imply a prerequisite for building an automated system to detect the duplication in the scientific documents, contributing to controlling "plagiarism" Từ khóa - phát chép; kho liệu; đạo văn; chuyển định dạng; học liệu Key words - duplication detection; data bank; plagiarism; format converting; learning resource Giới thiệu Ứng dụng công nghệ thông tin dạy học xu hướng tất yếu mang lại hiệu cao Một ứng dụng quan trọng trao đổi thông tin, tài liệu thông qua môi trường Internet Hiện tại, tài liệu Internet dần trở thành nguồn tham khảo khơng thể thiếu người dạy người học Tuy nhiên, với phổ biến việc tham khảo tài liệu mạng Internet, tình trạng “đạo văn” có xu hướng gia tăng đến mức báo động năm gần Tình trạng sinh viên trường đại học chép đồ án, luận văn tốt nghiệp mạng Internet khóa trước ngày nhiều, dần trở nên phổ biến trở thành vấn nạn làm suy giảm chất lượng đào tạo Làm để hạn chế tình trạng “đạo văn” câu hỏi lớn đặt cho toàn xã hội Một giải pháp để hạn chế tình trạng xây dựng phần mềm nhằm phát nội dung tài liệu chép lại từ tài liệu có trước mức độ chép Việc phát vừa có tác dụng giúp cho tác giả kiểm tra điều chỉnh văn mình, vừa có tác dụng giúp giáo viên, nhà quản lý phát gian lận văn cần kiểm tra Để xây dựng phần mềm vậy, trước hết cần phải có kho liệu lưu trữ tài liệu có trước tiếp đến cần phải có phương pháp, giải thuật để phát đánh giá nội dung chép từ tài liệu lưu trữ kho Kho liệu nhiều có lợi cho việc phát phép độ bao phủ lớn Trong báo này, chúng tơi trình bày lại kết xây dựng kho liệu sử dụng hệ thống phát chép từ nguồn tài liệu Đại học Đà Nẵng Kho liệu bao gồm tài liệu gốc (luận án tiến sĩ, luận văn tốt nghiệp thạc sĩ, báo cáo đồ án/luận văn tốt nghiệp đại học, báo cáo tổng kết đề tài nghiên cứu khoa học tài liệu khác), sở liệu thông tin chung tài liệu liệu trích xuất từ tài liệu lưu trữ định dạng XML Chúng đề xuất cấu trúc lưu trữ chương trình tương ứng để dễ dàng lưu trữ, cập nhật kho liệu xử lý liệu kho Chúng tiến hành thử nghiệm lưu trữ kho với 100 tài liệu loại cho báo cáo tốt nghiệp sinh viên ngành công nghệ thông tin, luận văn tốt nghiệp cao học báo cáo tổng kết đề tài nghiên cứu Hệ thống phát chép Cho văn D gọi văn kiểm tra M tập hợp văn nguồn đăng ký trước, toán đặt xác định độ tương tự văn D với văn m M Nếu độ tương tự D với văn M vượt ngưỡng D coi chép từ văn M Hệ thống phát chép hệ thống xác định vị trí trùng lặp đo độ tương tự tài liệu Việc đo độ tương tự hai tài liệu thường dựa việc đo độ tương tự thành phần đơn vị văn kiểm tra với thành phần đơn vị văn nguồn Việc phân biệt phương pháp phát chép dựa phương pháp xác định thành phần hay đơn vị khác văn (các thành phần đơn vị từ, câu, đoạn tồn văn bản) Mơ hình tổng qt hệ thống phát chép, Hình Để phát việc chép (nếu có) tài liệu đánh giá từ tài liệu có, người ta thường dùng số phương pháp sau: Cops: phát triển vào năm 1995 Brin, Davis 114 Châu Thùy Dương, Võ Trung Hùng, Hồ Phan Hiếu Garcia Molina [1] Cops thực so sánh văn đánh giá tập văn huấn luyện theo đơn vị câu Các câu so sánh với dựa theo giá trị băm chúng Nếu số câu giống văn kiểm tra văn tập huấn luyện vượt ngưỡng cho trước kết luận có chép, ngược lại khơng chép Cops có ba nhược điểm: thứ va chạm phương thức băm, nhiều câu khác có giá trị băm Thứ hai, Cops cho kết tốt với câu hồn tồn giống phát chúng giống phần Thứ ba, Cops sử dụng đơn vị câu để phát chép nên phụ thuộc nhiều vào việc tách câu câu tài liệu d1, |d2| số lượng câu tài liệu d2 sim(d1∩d2)là độ tương tự tài liệu d1 d2: | d1 d | | d1 d | sim(d1 d ) , | d2 | | d1 | Số hạng tính số lượng câu chung d1 d2 chia cho số lượng câu d1, giá trị đại diện cho phần d1 chứa d2 Số hạng thứ hai tính số lượng câu chung d1 d2 chia cho số lượng câu d2, đại diện cho phần d2 chứa d1 Ví dụ: Xét hai tài liệu d1 d2, với d1 chứa 120 câu, d2 chứa 160 câu, d1 d2 có 80 câu chung Sau so sánh, sim(d1∩d2) trả cặp giá trị (0,667; 0,500) mức độ giống d1 d2 Nó đại diện cho mức độ tương đồng, hai phần ba số câu d1 tìm thấy d2 nửa số câu d2 tìm thấy d1 sim(d1∩d2) chất đo lường mối quan hệ d1 d2 Vì số hạng đặt Trường hợp đặc biệt, d1 d2 đồng giá trị sim(d1∩d2) (1,00;1,00) Nếu d1 d2 câu chung sim(d1∩d2) có giá trị (0;0) Hình Mơ hình tổng qt hệ thống phát chép Scam: phát triển vào năm 1996 Shivakumar nhằm cải thiện Cops [2] Scam dựa kỹ thuật tìm kiếm thu hồi thơng tin kết hợp với mơ hình khơng gian véctơ để giải việc va chạm giá trị băm Scam phát chép dựa đơn vị từ Mỗi tài liệu coi véc-tơ từ vựng toàn tập hợp xét, giá trị phần tử véc-tơ tỉ lệ xuất từ vựng văn Scam phát việc trùng lặp phần cho kết chứa khẳng định giả so sánh tài liệu dựa từ vựng Scam cung cấp thơng tin vị trí trùng lặp tài liệu Một điểm yếu khác Scam độ tương tự khơng định nghĩa rõ ràng để chọn ngưỡng cho nhiều loại tài liệu Koala: dựa việc lựa chọn tập hợp đơn vị ký tự tính tốn độ tương tự dựa giá trị băm đơn vị Mức độ giống hai tài liệu đo cách đếm số lượng đơn vị chung tài liệu Khó khăn kỹ thuật độ xác phụ thuộc lớn vào việc lựa chọn đơn vị tài liệu [3] [4] Check: sử dụng đoạn làm đơn vị so sánh Trích xuất thơng tin có cấu trúc từ khóa từ tài liệu, sử dụng chúng để kiểm tra chồng chéo lẫn Check giới hạn cho tài liệu có cấu trúc [5] Hầu hết phương pháp sử dụng mơ hình khơng gian véc-tơ hàm cosin để tính độ tương tự Tuy nhiên giới hạn việc tính tốn mức độ chép Một số nhà nghiên cứu sau đưa phương pháp đo độ tương đồng trực quan theo hàm Sim() sau: Theo [6], đưa vào hai tài liệu d1 d2, cho |d1∩d2| số câu chung hai tài liệu d1 d2 Cho |d1| số lượng Sự tương ứng đến mối quan hệ tập giải thích độ đo tương đồng trả cặp thay cho số đơn lẻ Trường hợp tổng quát, cho A B hai không rỗng, A có quan hệ chứa B (AB) Mặc dù A tập khác rỗng B, khơng có lý để khẳng định B chứa A kích thước B liên quan đến A khơng xác định Vì cần hai số hạng để giữ thông tin quan hệ A với B quan hệ B với A Giảm số hạng cặp có thứ tự kết hợp số hạng vào số dẫn đến làm thơng tin [7] Phân tích, thiết kế kho liệu 3.1 Khảo sát liệu Để thiết kế kho liệu phục vụ hệ thống phát chép từ nguồn tài liệu Đại học Đà Nẵng (ĐHĐN), tiến hành khảo sát số tài liệu sau: Báo cáo đồ án, luận văn tốt nghiệp sinh viên Đây loại báo cáo có số lượng lớn (mỗi năm ĐHĐN có khoảng 10.000 báo cáo tốt nghiệp) khó kiểm sốt việc báo cáo có chứa nội dung chép không hợp lệ từ nguồn khác hay không Về mặt nội dung, báo cáo có chứa nội dung gồm: thơng tin trang bìa bìa phụ; lời cảm ơn; lời cam đoan; nhận xét giáo viên hướng dẫn; nhận xét hội đồng bảo vệ; mục lục; danh mục từ viết tắt (nếu có); danh mục hình vẽ; danh mục bảng; mở đầu; chương 1, 2, 3, …; kết luận hướng phát triển; phụ lục (nếu có), tài liệu tham khảo tóm tắt luận văn Báo cáo luận văn tốt nghiệp thạc sĩ Đây loại báo cáo có số lượng lớn (mỗi năm có khoảng 2.000 báo cáo tốt nghiệp) mặt bố cục tương tự với báo cáo tốt nghiệp sinh viên Một điểm đáng lưu ý với loại báo cáo khả chép từ nguồn tài liệu khác ngồi ĐHĐN Vì vậy, xây dựng kho liệu phải ý thu thập báo cáo tốt nghiệp học viên ĐHĐN ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 1(86).2015 Báo cáo tổng kết đề tài khoa học Mỗi năm, ĐHĐN có khoảng 200 báo cáo tổng kết đề tài nghiên cứu khoa học Về bố cục gần giống loại tài liệu có thêm thơng tin đơn vị chủ quản, đơn vị thực hiện, loại đề tài,… Bài báo từ Tạp chí Khoa học Công nghệ Mỗi năm, ĐHĐN xuất 12 số với khoảng 15-20 ấn (có số in nhiều ấn bản) số lượng báo khoảng 300-500 Về thơng tin báo thường có nhiều tác giả nội dung 6-10 trang Trong kho liệu này, bước đầu tập trung lưu trữ xử lý loại tài liệu mô tả Trong giai đoạn kế tiếp, mở rộng lưu trữ xử lý tài liệu từ đơn vị khác tài liệu mạng Internet 3.2 Qui trình Trên sở khảo sát, chúng tơi đề xuất qui trình để xây dựng kho liệu sau: 115 chủ quản - Khoa: lưu trữ thông tin khoa thuộc trường - Linhvuc: lưu trữ thơng tin lĩnh vực đào tạo nghiên cứu khoa học - Chuyennganh: lưu trữ thông tin chuyên ngành thuộc lĩnh vực tài liệu, ví dụ khoa học máy tính, kế tốn, xây dựng, … - Theloai: lưu trữ thơng tin loại tài liệu, ví dụ tài liệu thuộc thể loại luận văn thạc sĩ, đồ án tốt nghệp, … - Capdo: lưu trữ thông tin cấp độ quan trọng loại tài liệu Ở chọn tơi chọn cấp độ hành để mơ tả tính chất quan trọng tài liệu Ví dụ: với đề tài khoa học phân ra: cấp sở, cấp tỉnh/thành phố, cấp bộ, cấp nhà nước, quốc tế Ngoài số tài liệu mang tính chất cá nhân - Tailieu: lưu trữ thông tin mô tả tài liệu - User: lưu trữ thông tin người quản trị Lưu ý liệu liệu có bảng liệu Tailieu có chứa đường link để đến tập tin nguồn FileGoc đường link đến tập tin trích xuất nội dung FileXML 3.4 Rút trích liệu Vì hệ thống phát chép thường phải “băm” tài liệu vào đơn vị so sánh để xác định chồng chéo phát chép Có nhiều phương pháp để chọn đơn vị so sánh so sánh từ, câu, đoạn tồn văn Vì vậy, xây dựng kho liệu, chúng tơi trích liệu từ tài liệu gốc tổ chức lưu trữ theo đơn vị nhỏ câu để phục vụ cho hệ thống phát chép sử dụng làm đơn vị so sánh (nếu cần tách từ sau) Hình Qui trình xây dựng kho liệu 3.3 Thiết kế hệ sở liệu Trên sở khảo sát liệu chọn lọc thông tin cần thiết phải lưu trữ, đề xuất lưu trữ liệu theo mơ hình liệu quan hệ sau: Để so sánh nội dung hai văn với nhau, liệu cần lưu trữ dạng Text qua trình xử lý sau: Tiền xử lý: làm liệu nhằm tối ưu q trình phát chép Chúng tơi lọc bỏ phần nội dung không quan trọng như: lời mở đầu, lời cảm ơn, lời cam đoan, mục lục, hình ảnh, hình vẽ, cơng thức tốn… Chỉ bóc lấy nội dung Text tài liệu nhằm mục đích giảm thiểu thời gian so sánh tài liệu Tách đoạn: tài liệu xem tập đoạn Khi tách đoạn chủ yếu dựa vào định dạng văn để phát biên giới đoạn Đồng thời việc tách đoạn thực cách quét qua ký tự văn để tìm giới hạn đoạn Giới hạn quy ước việc trình bày văn bao gồm dấu bắt đầu đoạn dấu kết thúc đoạn Trong trình tách đoạn, chúng tơi loại bỏ đoạn có độ dài nhỏ như: tựa đề, tiêu đề,… nhằm tăng độ xác giảm thời gian xử lý cho hệ thống phát chép sau Hình Mơ hình sở liệu quan hệ Trong đó, bảng liệu gồm: - Bochuquan: lưu trữ thông tin Bộ quản lý - Truonghoc: lưu trữ thông tin trường thuộc Tách câu: ứng dụng xử lý ngơn ngữ tự nhiên phân tích cú pháp để tách câu Xác định ranh giới câu qua dấu câu dấu chấm (.), dấu chấm than (!), dấu chấm hỏi (?) dấu chấm phẩy (;) Đánh mục: để lần vết trình tìm kiếm, xác định độ tương tự sau, đoạn câu báo cáo đánh mã theo thứ tự 116 Châu Thùy Dương, Võ Trung Hùng, Hồ Phan Hiếu Sau xử lý liệu chuyển định dạng XML để lưu vào kho Bằng cách định nghĩa cấu trúc thích hợp, tài liệu xử lý lưu trữ tài liệu dạng tập tin XML DTD tập tin XML đề xuất sau: … … liệu với dung lượng lớn phân tán Ngồi ra, chúng tơi sử dụng chuẩn XML để lưu trữ liệu rút trích để phục vụ việc phát chép XML ngôn ngữ đánh dấu mở rộng sử dụng rộng rãi, nhiều ngôn ngữ, công cụ tảng hỗ trợ Đặc biệt, XML tiêu chuẩn sử dụng rộng rãi môi trường Internet 4.2 Upload liệu vào kho Chúng xây dựng hàm chép liệu từ tập tin nguồn vào kho nhập thông tin mô tả vào CSDL Các bước upload tài liệu vào kho: kiểm tra tính đắn liệu, chuyển sang bước 2, sai yêu cầu nhập lại; Import thông tin vào CSDL, chép liệu vào kho public class Uploader { … public static bool HasFile(String FieldName) … { HttpPostedFile file = HttpContext.Current.Request.Files[FieldName]; return(file != null && file.ContentLength>0); } public static String Save(String FieldName, String Folder, String FileName = null, 3.5 Quản lý nội dung kho liệu Để quản lý kho liệu, cần phải cập nhật, hiệu chỉnh, trích xuất,… thơng tin kho liệu Quan khảo sát, đề xuất biểu đồ ca sử dụng sau: String Ext = null) { HttpPostedFile file = HttpContext.Current.Request.Files[FieldName]; string ext = Path.GetExtension(file.FileName); string orName = KhongDau(Path.GetFileNameWithoutExtension (file.FileName)); int i = 1; if(FileName==null) { FileName = orName + ext; } else { orName = FileName; Hình Biểu đồ ca sử dụng kho liệu FileName = FileName + ext; Trong việc quản lý kho liệu, Quản trị cán quản lý quản lý danh mục cấp quyền sử dụng cho thành viên NSD (người sử dụng giảng viên, sinh viên, cán ĐHĐN) cập nhật, xem danh sách tài liệu tìm kiếm tài liệu hệ thống Xây dựng kho liệu 4.1 Lựa chọn công cụ phát triển Để phát triển mã nguồn cho chương trình, chúng tơi chọn sử dụng Visual Studio NET Đây môi trường tích hợp để phát triển phần mềm thuận tiện với Text Editor (hỗ trợ viết đoạn mã C#), Design View Editor (cài đặt giao diện người dùng điều khiển truy cập liệu) chức hỗ trợ khác Về sở liệu, thực SQL Server Đây hệ sở liệu mạnh mẽ, có khả đáp ứng nhiều người sử dụng lúc, có khả lưu trữ } String path = Path.Combine(Folder, FileName); While (File.Exists(HttpContext.Current.Server MapPath(path))) { FileName = orName + i + ext; path = Path.Combine(Folder, FileName); i++; } file.SaveAs(HttpContext.Current.Server MapPath(path)); return FileName; } 4.3 Chuyển tập tin Word sang XML Để tạo tập tin XML theo cấu trúc đề xuất, ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 1(86).2015 thực bước sau: - Bước 1: Mở duyệt tập tin Word, loại bỏ hình vẽ, hình ảnh nội dung không quan trọng - Bước 2: Đếm số đoạn tập tin - Bước 3: Khởi tạo tài liệu XML rỗng - Bước 4: Xét duyệt đoạn kiểm tra điều kiện, chuyển sang bước Nếu điều kiện sai chuyển sang bước - Bước 5: Tạo node XML, tạo node cho phần tử đoạn, câu - Bước 6: Thoát lưu tập tin XML 4.4 Xây dựng giao diện Web cho hệ thống Chúng xây dựng giao diện Web với chức cập nhật liệu, hiển thị danh sách tài liệu có kho thao tác xử lý khác Tất trang khác sử dụng trang làm giao diện hiển thị nội dung khác Dưới giao diện hệ thống: 117 Chúng tơi hồn thành việc thiết kế kho lưu trữ, xây dựng ứng dụng nhằm cập nhật, xử lý tự động liệu kho như: cập nhật, sửa chữa, tìm kiếm, trích xuất nội dung,… Kho liệu có 100 báo cáo luận văn/đồ án tốt nghiệp sinh viên, 100 báo cáo luận văn tốt nghiệp cao học, 100 báo cáo tổng kết đề tài nghiên cứu khoa học nhiều báo khoa học Chúng ta cập nhật thường xuyên liệu vào kho với chức upload tài liệu dành cho người sử dụng Chúng tơi xây dựng chương trình chuyển đổi tài liệu từ định dạng Word sang XML để phục vụ cho hệ thống phát chép tài liệu Ngoài ra, hệ thống đáp ứng yêu cầu phi chức khả lưu trữ liệu lớn, hệ thống chạy ổn định, giao diện đơn giản dễ sử dụng Chúng kiến nghị với ĐHĐN đưa yêu cầu bắt buộc sinh viên phải upload báo cáo luận văn đồ án tốt nghiệp lên kho liệu trước nộp cho Hội đồng đánh giá Nếu triển khai việc này, sở liệu bổ sung lượng liệu lớn hàng năm góp phần nâng cao chất lượng cho hệ thống phát chép sau Liên quan đến kho liệu, tiếp tục nghiên cứu cách chuyển đổi tự động liệu từ định dạng khác PDF, Latex, PPT, HTML,… sang tập tin XML Ngồi ra, chúng tơi xây dựng mơ-đun chương trình phát chép dựa kho liệu vừa thiết kế Nếu hệ thống sớm triển khai ứng dụng vào thực tế giúp cho việc hạn chế nạn “đạo văn” diễn phổ biến nay, góp phần nâng cao chất lượng đào tạo nghiên cứu khoa học ĐHĐN TÀI LIỆU THAM KHẢO Hình Giao diện hệ thống Kết luận Chúng tiến hành nghiên cứu việc triển khai hệ thống phát nội dung chép tài liệu từ tài liệu sẵn có Một tiền đề quan trọng để triển khai hệ thống phải có kho liệu lớn, có độ bao phủ cao đến lĩnh vực mà muốn phát việc chép Trên sở đó, chúng tơi triển khai bước đầu xây dựng hệ thống xây dựng kho liệu [1] S Brin, J Davis, H Garcia-Molina, Copy Detection Mechanisms for Digital Documents, Proceedings of the ACM SIGMOD Annual Conference, San Francisco, CA, May 1995 [2] N Shivakumar and H Garcia-Molina, Building a Scalable and Accurate Copy Detection Mechanism, Proceedings of 1st ACM International Conference on Digital Libraries (DL'96), March 1996, Bethesda Maryland [3] C Xiao, W Wang, X Lin, J.X Yu and G Wang, Efficient similarity joins for near-duplicate detection, ACM Trans Database Syst., Vol 36 10.1145/2000824.2000825, 2011 [4] M Potthast, A Barron-Cedeno, B Stein and P Rosso, Crosslanguage plagiarism detection, Lang Resour Eval., 45: 45-62, 2011 [5] N Kang, A Gelbukh, S.Y Han, Plagiarism Pattern Checker, 2002 [6] R.D Smith, Copy Detection Systems For Digital Documents, Department of Computer Science, Master of Science, Brigham Young University, 1999 [7] L Guo, B Jin and D Huang, A Chunk-based Copy Detection Approach for Multimedia Documents, Information Technology Journal, 12: 2465-2469, 2013 (BBT nhận bài: 05/11/2014, phản biện xong: 10/11/2014) ... trọng để triển khai hệ thống phải có kho liệu lớn, có độ bao phủ cao đến lĩnh vực mà muốn phát việc chép Trên sở đó, chúng tơi triển khai bước đầu xây dựng hệ thống xây dựng kho liệu [1] S Brin,... đơn vị nhỏ câu để phục vụ cho hệ thống phát chép sử dụng làm đơn vị so sánh (nếu cần tách từ sau) Hình Qui trình xây dựng kho liệu 3.3 Thiết kế hệ sở liệu Trên sở khảo sát liệu chọn lọc thông... đổi tài liệu từ định dạng Word sang XML để phục vụ cho hệ thống phát chép tài liệu Ngoài ra, hệ thống đáp ứng yêu cầu phi chức khả lưu trữ liệu lớn, hệ thống chạy ổn định, giao diện đơn giản dễ