BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SĨ NGHIÊN CỨU PHƯƠNG PHÁP XÁC ĐỊNH ĐỘ TƯƠNG TỰ GIỮA CÁC TÀI LIỆU TRẦN VĂN MINH CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 HƯỚNG DẪN KHOA HỌC: TS NGUYỄN DUY PHƯƠNG HÀ NỘI - 2015 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, với hướng dẫn khoa học thầy TS Nguyễn Duy Phương Các số liệu, kết nêu luận văn hoàn toàn trung thực chưa công bố tài liệu khác Mọi tham khảo luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Nếu phát gian lận tơi xin hồn toàn chịu trách nhiệm Tác giả luận văn Trần Văn Minh i LỜI CẢM ƠN Trong suốt trình học tập thực đề tài này, em nhận nhiều quan tâm giúp đỡ, hưỡng dẫn tận tình thầy với lời động viên khuyến khích từ phía gia đình, bạn bè lúc em gặp khó khăn Em xin bày tỏ lời cảm ơn chân thành đến người Đầu tiên, em xin tỏ lòng biết ơn sâu sắc đến thầy Nguyễn Duy Phương tận tình hướng dẫn, định hướng cho em suốt trình thực Luận văn Thầy luôn động viên em cho em lời khuyên quý báu truyền đạt cho em nhiều kiến thức, kinh nghiệm suốt trình làm luận văn Em xin chân thành cảm ơn thầy cô khoa Sau đại học, Viện đại học Mở Hà Nội tận tình dạy dỗ cho em kiến thức bổ ích, làm tảng để em hồn thành khóa luận, hành trang để em tự tin bước vào sống, công viêc tương lai Em muốn gửi lời cảm ơn sâu sắc tới gia đình bạn bè, người thân yêu bên, yêu thương che chở em để em vượt qua khó khăn sống học tập Tuy có cố gắng định thời gian trình độ có hạn nên chắn luận văn nhiều thiếu sót hạn chế Kính mong nhận góp ý thầy cô bạn Hà Nội, tháng 12 năm 2015 Trần Văn Minh ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC HÌNH VẼ v DANH MỤC CÁC BẢNG vi LỜI MỞ ĐẦU CHƯƠNG GIỚI THIỆU ĐỘ TƯƠNG TỰ GIỮA CÁC TÀI LIỆU 1.1 Khái niệm độ tương tự 1.2 Độ tương tự dựa cụm từ (Cluster-Based) 1.2.1 Phương pháp dựa cụm từ toàn cục 1.2.2 Phương pháp dựa cụm từ cục 1.3 Độ tương tự tài liệu với tài liệu 1.3.1 Phương pháp dựa ký tự (Character-based) 1.3.2 Phương pháp dựa vào cấu trúc (Structural-based) 10 1.4 Một số hướng tiếp cận khác 11 1.4.1 Phương pháp dựa cú pháp (syntax-based) 11 1.4.2 Phương pháp trích dẫn (citation-based) 11 1.4.3 Phương pháp dựa vào ngữ nghĩa (semantic-based) 12 1.4.4 Phương pháp xuyên ngôn ngữ (Cross language-based ) 13 1.5 Kết luận chương 13 CHƯƠNG ĐỘ TƯƠNG TỰ CỦA CÁC TÀI LIỆU DỰA VÀO CÂU 15 2.1 Giới thiệu phương pháp đối sánh câu 15 2.2 Tiền xử lý tài liệu 15 2.2.1 Đưa tài liệu cần xem xét dạng text tách tài liệu thành câu riêng biệt 15 2.2.2 Loại bỏ ký tự đặc biệt 16 2.2.3 Loại bỏ từ dừng 16 2.2.4 Loại bỏ câu ngắn 17 2.3 Độ tương tự dựa vào N grams 18 iii 2.4 Kỹ thuật khớp dấu vân tay dựa câu 22 2.4.1 Kỹ thuật khớp dấu vân tay 22 2.4.2 Khớp dấu câu đại diện xâu grams có tần số xuất nhỏ 23 2.5 Cách tiếp cận dựa truy vấn thông tin tập mờ 23 2.5.1 Thao tác với từ 24 2.5.2 Kỹ thuật phân nhóm từ mờ nhóm tương quan 27 2.5.3 Kỹ thuật phân nhóm từ mờ nhóm số liệu 36 2.6 Kết luận chương 41 CHƯƠNG XÂY DỰNG HỆ THỐNG VÀ THỰC NGHIỆM 42 3.1 Giới thiệu chép liệu tài liệu 42 3.2 Các giai đoạn trình phát chép 44 3.3 Phát biểu toán 46 3.4 Tập liệu thử nghiệm xử lý liệu 47 3.4.1 Đưa liệu dạng text 48 3.4.2 Tách câu tài liệu 48 3.4.3 Tách từ, tách tập gram xây dựng tập từ vựng cho hệ thống 49 3.5 Xây dựng phần mềm phát chép tài liệu dựa câu 50 3.5.1 Nhập trực tiếp tài liệu 51 3.5.2 Nhập hai tài liệu từ file 52 3.5.3 Lấy nội dung tài liệu từ URL trang báo 53 3.5.4 Phát chép xuyên ngôn ngữ 53 3.6 Kết thực nghiệm đánh giá 56 3.6.1 Chạy thử nghiệm 56 3.6.2 Đánh giá 68 3.7 Kết luận chương 68 KẾT LUẬN 70 HƯỚNG PHÁT TRIỂN 72 TÀI LIỆU THAM KHẢO 73 iv DANH MỤC CÁC HÌNH VẼ Hình 2.1: Lỗi phân tích cách tiếp cận 4-grams 21 Hình 2.2: Kỹ thuật khớp dấu vân tay 23 Hình 2.3 Giá trị ngưỡng cho phép 34 Hình 2.4 Giá trị ngưỡng thay đổi 35 Hình 3.1: Các giai đoạn trình phát chép liệu tài liệu 45 Hình 3.2: Tập câu tách từ báo 49 Hình 3.3: Tập xâu grams tần số nhỏ nối với 49 Hình 3.4: Tập từ tách từ báo 50 Hình 3.5: Giao diện hệ thống 51 Hình 3.6: Giao diện với chức “Tính độ tương tự tài liệu” 52 Hình 3.7: Giao diện tính độ tương tự file 52 Hình 3.8: Giao diện chức “độ tương tự trang báo” 53 Hình 3.9: Sử dụng Google Translator giao diện User-Agent 54 Hình 3.10: Dữ liệu Json trả 54 Hình 3.11: Giao diện phát chép xuyên ngôn ngữ 55 Hình 3.12: Kết độ tương tự tài liệu với phương pháp xâu grams 56 Hình 3.13: Kết độ tương tự tài liệu với cách tập mờ nhóm tương quan 57 Hình 3.14: Kết độ tương tự tài liệu với tập mờ nhóm số liệu 57 Hình 3.15: Phương pháp xâu grams với tài liệu gần giống 58 Hình 3.16: Kết độ tương tự file với xâu gram 61 Hình 3.17 : Kết độ tương tự file với tập mờ nhóm tương quan 61 Hình 3.18: Kết độ tương tự file với tập mờ nhóm số liệu 62 Hình 3.19: Kết độ tương tự báo với xâu grams 65 Hình 3.20: Kết độ tương tự báo với tập mờ nhóm tương quan 66 Hình 3.21: Kết độ tương tự với tập mờ nhóm số liệu 66 Hình 3-22: Kết phát xun ngơn ngữ 68 v DANH MỤC CÁC BẢNG Bảng 2.1 Bảng Danh sách gram xâu grams tần số nhỏ tài liệu 20 Bảng 2.2 Ma trận tương quan với kết câu tương tự 30 Bảng 2.3 Ma trận tương quan kết câu khác 32 vi LỜI MỞ ĐẦU Tính cấp thiết đề tài Với gia tăng khổng lồ số lượng tài liệu Internet nảy sinh hàng loạt vấn đề cần phải giải cho người dùng nhà cung cấp dịch vụ thông tin Một số vấn đề nảy sinh quan trọng thu hút cộng đồng nghiên cứu vấn đề tìm kiếm thơng tin, vấn đề phân loại thơng tin, vấn đề tách lọc thu thập thông tin, vấn đề xử lý liệu lớn Đặc biệt vấn đề phát trùng lặp thông tin tài liệu ngày xuất phổ biến Internet Vấn đề phát trùng lặp thông tin liệu tài xuất Internet theo nhiều hình thức khác nhau: trùng lặp toàn bộ, trùng liệu lặp phần, trùng lặp ý tưởng, dịch nguyên thành ngôn ngữ khác, dịch phần thành ngơn ngữ khác Những hình thức tạo nên trùng lặp thông tin kể tạo nên thói quen nguy hại đến hoạt động giáo dục đào tạo, nghiên cứu khoa học nhiều lĩnh vực liên quan khác Một nghiên cứu trạng chép kết học tập sinh viên Anh cho thấy 70% sinh viên thú nhận có chép phần tập, 40% thú nhận sử dụng biện pháp cắt dán hoàn thành tập, 10% sinh viên Mỹ, Úc, Anh bảo vệ kết học tập kết chép Chính vậy, việc xây dựng phương pháp công cụ tự động nhận biết mức độ trùng lặp tài liệu thu hút cộng đồng nghiên cứu chục năm gần Có nhiều phương pháp công nghệ khác đề xuất để phát mức độ trùng lặp tài liệu Tuy vậy, hầu hết phương pháp phụ thuộc vào vào việc xây dựng phương pháp ước lượng độ tương tự tài liệu Hơn nữa, việc áp dụng phương pháp công nghệ phát chép áp dụng cho ngôn ngữ khác chủ đề mở cần quan tâm nghiên cứu Chính lý em lựa chọn đề tài: “Nghiên cứu phương pháp xác định độ tương tự tài liệu ” thực luận văn tốt nghiệp thạc sỹ ngành công nghệ thông tin Đề tài thực với mục tiêu cụ thể Mục tiêu luận văn Nghiên cứu độ đo tương tự từ với từ, câu với câu để tính xác định độ tương tự hai tài liệu Trên sở việc nắm rõ chất mức độ tương tự tài liệu, áp dụng phương pháp đối sánh câu để xây dựng ứng dụng phát trùng lặp tài liệu tiếng Anh tiếng Việt Bố cục luận văn Cấu trúc luận văn chia làm ba chương đó, nội dung chương sau Chương 1: Giới thiệu độ tương tự tài liệu Trình bày tổng quan khái niệm độ tương tự, vài phương pháp xác định độ tương tự, điển hình hai phương pháp xác định độ tương tự dựa vào: kí tự, cấu trúc Chương 2: Độ tương tự tài liệu dựa vào câu Trình bày trình phát dựa câu Đi sâu phân tích hướng tiếp cận khớp dấu vân tay dựa câu, cách tiếp cận truy vấn thông tin tập mờ Chương 3: Xây dựng hệ thống thực nghiệp Trình bày cụ thể trình thực việc xây dựng hệ thống phát chép tài liệu với hai cách tiếp cận khớp dấu vân tay dựa câu (câu đai diện xâu gram có tần số nhỏ nhất) cách tiếp cận truy vấn thơng tin tập mờ (kỹ thuật phân nhóm tập mờ nhóm tương quan kỹ thuật phân nhóm tập mờ nhóm số liệu) Sau đó, tiến hành bước thực nghiệm, phân tích, đánh giá kết đạt Kết luận hướng phát triển Trình bày tóm tắt kết đạt chưa đạt Từ đề xuất mục tiêu hướng nghiên cứu, phát triển CHƯƠNG GIỚI THIỆU ĐỘ TƯƠNG TỰ GIỮA CÁC TÀI LIỆU Chương giới thiệu cách tổng quan độ tương tự tài liệu độ tương tự từ với từ, tài liệu với tài liệu Đồng thời giới thiệu sơ lược cách tiếp cận 1.1 Khái niệm độ tương tự Độ tương tự khái niệm quan trọng sử dụng rộng rãi Các định nghĩa trước độ tương tự trói buộc ứng dụng cụ thể dạng thể tri thức Nhiều độ đo độ tương tự đưa ra, chẳng hạn nội dung thông tin (Resnik, 1995b), độ đo thông tin chung (mutual information – Hindle, 1990), độ đo dựa khoảng cách (Lee et al., 1998; Rada et al 1998) mơ hình đặc trưng tương phản (Tversky, 1977) McGill etc khảo sát so sánh 67 độ đo độ tương tự sử dụng tìm kiếm thông tin (McGill et al., 1979) Một vấn đề độ đo độ tương tự trước số chúng bị trói buộc ứng dụng cụ thể đảm đương mơ hình cụ thể Ví dụ độ đo độ tương tự khái niệm dựa khoảng cách (Lee et al., 1989; Rada et al., 1989) thừa nhận phạm vi thể mạng Nếu tập tài liệu mạng, độ đo dựa khoảng cách không áp dụng Hệ số dice (súc sắc) hệ số cosin áp dụng đối tượng thể vecto đặc trưng số Một vấn đề khác với độ đo độ tương tự trước điều giả định chúng thường khơng trạng thái rõ ràng Ngồi việc biết giả định này, tạo tranh luận mặt lý thuyết hay phản đối độ đo cụ thể Hầu hết tất so sánh đánh giá độ đo độ tương tự trước dựa kết kinh nghiệm Kết thực nghiệm sau: Hình 3.16: Kết độ tương tự file với xâu gram Hình 3.17 : Kết độ tương tự file với tập mờ nhóm tương quan 61 Hình 3.18: Kết độ tương tự file với tập mờ nhóm số liệu Nhận xét: Với phương pháp tập mờ nhóm tương quan kết 0.1267605633802817 Kết ta thấy chưa thực xác tài liệu có nội dung khác có kết tương tự khoảng 13% cao Còn với cách lại kết tốt Ví dụ 3: Thực so sánh báo lấy từ trang báo có nội dung tiêu đề giống có nguồn vietnamnet vnexpress.net Bài báo 1: http://vietnamnet.vn/vn/quoc-te/270866/thi-the-nan-nhan-maybay-duoc-dua-ve-nga.html Sáng 2/11, thi thể 144 người tử nạn vụ máy bay rơi Ai Cập đưa St Petersburg (Nga), lúc điều tra nguyên nhân tai nạn tiến hành Theo hãng tin RT Nga, chuyến bay nước đưa thi thể nạn nhân nước Tại St Petersburg, chuyên gia pháp y giám định thi thể để nhận dạng Những gia đình có thân nhân chuyến bay tham gia hỗ trợ trình nhận dạng Quá trình nhận dạng tiến hành với hỗ trợ 50 chuyên gia pháp y Hiện 200 mẫu ADN tập hợp từ người thân nạn nhân nhằm hỗ trợ cho công tác giám định Ngay sau máy bay Airbus A-321 xấu số mang số hiệu 9268 hãng Kogalymavia gặp tai nạn Ai Cập, Nhóm cứu hộ liên Nga bao gồm 100 người 62 phối hợp với lực lượng cứu hộ Ai Cập nhanh chóng triển khai cơng tác tìm kiếm thi thể nạn nhân Cho tới lực lượng cứu hộ tìm 180 thi thể tổng số 224 người máy bay Thời gian tới, nhóm cứu hộ tiếp tục tìm kiếm khu vực rộng 20km2 để đưa thi thể nạn nhân lại quê nhà Thanh Vân Bài báo 2: http://vnexpress.net/tin-tuc/the-gioi/phan-tich/nhung-diem-dangngo-trong-vu-roi-may-bay-nga-3305338.html Chiếc máy bay mang số hiệu 7K9268 thuộc hãng hàng không giá rẻ Nga Kogalymavia (Metrojet) hôm 31/10 rơi bán đảo Sinai, Ai Cập, khiến toàn 217 hành khách thành viên phi hành đoàn thiệt mạng Phi gặp nạn sau cất cánh khoảng 23 phút từ sân bay Sharm el-Sheikh, Ai Cập, để St Petersburg, Nga Ông Viktor Sorochenko, lãnh đạo Ủy ban Hàng không Liên bang Nga, hôm qua cho biết có khả máy bay vỡ tung khơng trung "Q trình máy bay bị phá hủy xảy không mảnh vỡ phân bố rải rác khu vực rộng khoảng 20 km2", Sorochenko nói Tuy nhiên, ơng thêm cịn sớm để đến kết luận nguyên nhân vụ tai nạn Dù tiết lộ giúp thu hẹp nhiều mối nghi vấn liên quan tới thảm kịch nhiều yếu tố khác tác động tới máy bay, CNN dẫn lời ông Peter Goelz, cựu giám đốc điều hành Ủy ban An tồn Giao thơng Quốc gia Mỹ, nhận xét "Có thể hỏng hóc nghiêm trọng máy móc xuất phát từ vấn đề khâu bảo trì Có thể bình nhiên liệu trung tâm phát nổ Họ cần phải lật ngược toàn lịch sử bảo dưỡng, sửa chữa máy bay để rà soát tất thay đổi thực từ trước đến nay", Goelz cho hay Theo Mạng lưới An tồn Hàng khơng (ASN), chun trang theo dõi cố hàng không, Airbus 321 vào năm 2001, thuộc hãng Middle East Airlines, hạ cánh xuống sân bay Cairo mũi máy bay ngóc lên q cao làm phần bị quệt xuống đường băng khiến hư hỏng nặng Xem thêm: Hiện trường vụ tai nạn máy bay Nga nhìn từ cao Hiện chưa rõ điều khiến phi đột ngột biến khỏi hình radar kiểm soát Phát biểu trước quan chức quân đội cấp cao thủ đô Cairo, Tổng 63 thống Ai Cập Abdel Fattah el-Sisi nhắc nhở công chúng không nên vội vàng đưa kết luận vụ việc địi hỏi q trình điều tra lâu dài "Rất nhiều vấn đề phức tạp cần đến công nghệ cao điều tra quy mô mà phải hàng tháng để xử lý", ơng el-Sisi nói Theo Adel Al-Mahjoob, người đứng đầu Công ty Hàng không Ai Cập, vụ tai nạn nhiều khả trục trặc kỹ thuật Ông lưu ý máy bay kiểm tra định kỳ trước cất cánh Truyền thơng Nga đưa tin phi cơng phát tín hiệu cấp cứu xin quyền hạ cánh sân bay gần trước phi biến mất, song quan chức Ai Cập bác bỏ thông tin Khơng có gọi khẩn cấp ghi lại trung tâm điều hành bay, Bộ trưởng Hàng không Dân dụng Ai Cập Hossam Kamel khẳng định họp báo "Khơng có bất thường trước máy bay rơi", ơng nói "Nó đột ngột biến khỏi hình radar" Tuy nhiên, kênh truyền hình nhà nước NTV Nga vấn vợ cũ phó Sergei Trukhachev Natalya Trukhacheva Bà cho hay gái hai người gọi cho Trukhachev trước ông lên đường Trukhachev phàn nàn "tình trạng kỹ thuật máy bay khơng hồn hảo" Nhà phân tích hàng khơng Richard Quest cho việc phi rơi 20 phút sau khởi hành điều "bất thường" "Tại thời điểm này, máy bay đặt chế độ lái tự động Nó chuẩn bị tiếp cận độ cao hành trình sai sót xảy ra", Quest viết Các nhà điều tra có nhìn cận cảnh vào điều diễn sau thơng tin thiết bị ghi liệu chuyến bay ghi âm buồng lái, hai hộp đen máy bay, trích xuất Thiết bị ghi liệu chuyến bay chứa hàng loạt thông tin quan trọng máy bay như, tốc độ, độ cao, tình trạng động hay vị trí cánh Thiết bị ghi âm buồng lái thu lại toàn âm khoang điều khiển, bao gồm đối thoại trưởng phó âm cảnh báo Bán đảo Sinai, nơi máy bay rơi, địa bàn chi nhánh Nhà nước Hồi giáo (IS) Ai Cập Tổ chức hôm 31/10 tuyên bố bắn hạ phi cơ, cướp sinh mạng 224 người có mặt khoang Nhóm cịn tung đoạn video quay cảnh máy bay chưa xác định bốc cháy không trung để chứng minh Dù vậy, Mahjoob, quan chức hàng khơng, lại nhận định khơng có chứng cho thấy kết công khủng bố Bộ trưởng Giao 64 thông Vận tải Nga Maxim Sokolov nói khơng thể coi tuyên bố nhóm phiến quân đáng tin cậy Theo quan chức quân đội Ai Cập giấu tên, tay súng IS Sinai có sở hữu tên lửa đất đối không vác vai bắn tới độ cao 9.450 m máy bay 7K9268 Để đạt tới độ cao cần thiết bị phóng đặc biệt hệ thống radar vận hành kỹ sư có chun mơn Thêm vào đó, hàng loạt thi thể nạn nhân phát thắt dây an toàn Điều cho thấy nhiều khả trưởng yêu cầu họ làm nhận máy bay gặp trục trặc Song, ông Peter Goelz nhấn mạnh "chưa thể loại bỏ nghi vấn khủng bố" Trước nhiều luồng thông tin trái chiều, ba hãng hàng không Các Tiểu vương quốc Arab thống (UAE) Emirates, Air Arabia Flydubai thông báo thiết lập tuyến bay mới, tránh di chuyển qua bán đảo Sinai Hai số hãng hàng không lớn châu Âu Lufthansa Air France tuyên bố hạn chế bay qua khu vực thời gian chờ đợi lời giải thích cho nguyên nhân thảm kịch Video nghi ghi lại cảnh IS bắn hạ máy bay Nga Xem thêm: Phần bị thiêu rụi máy bay Nga xấu số Vũ Hoàng Hình 3.19: Kết độ tương tự báo với xâu grams 65 Hình 3.20: Kết độ tương tự báo với tập mờ nhóm tương quan Hình 3.21: Kết độ tương tự với tập mờ nhóm số liệu Nhận xét: Với báo khác hoàn toàn nội dung, phương pháp cách tiếp xâu gram tập mờ nhóm tương quan kết tốt Ví dụ 4: Thực so sánh đoạn tài liệu tiếng Anh đoạn tài liệu tiếng Việt 66 Tài liệu tiếng Anh: Web documents that are either partially or completely duplicated in content are easily found on the Internet these days Not only these documents create redundant information on the Web, which take longer to filter unique information and cause additional storage space, but also they degrade the efficiency of Web information retrieval In this thesis, we present a new approach for detecting similar (HTML)Web documents and evaluate its performance To detect similar documents, we first apply our sentence-based copy detection approach to determine whether sentences in any two documents should be treated as the same or different according to the degrees of similarity of the sentences, which is computed by using either the three leastfrequent gram approach or the fuzzy set information retrieval (IR) approach Tài liệu tiếng Việt: (thực dịch đoạn tài liệu trên, sửa đổi loại bớt câu) Tôi báo cáo cách đơn giản phương tiện hiệu đo độ tương tự ngôn ngữ nội dung tài liệu dựa tài liệu Kỹ thuật biết đến quen thuộc, đơn giản; hệ thống phần mềm hồn tồn khả thi thực thời gian vài ngày Nó mang lại thước đo độ tương tự cách phân loại, phân nhóm lấy khả thi sưu tập đa ngôn ngữ tài liệu mà độ dài phạm vi khơng hạn chế chủ đề Nó làm cho việc không sử dụng từ cho gia nhập đạt mục tiêu nó, khơng yêu cầu thông tin trước nội dung tài liệu ngơn ngữ Nó đưa vào sử dụng thực tế mơi trường địi hỏi phủ khoảng thời gian vài năm, nơi mà chứng minh khả để đối phó với văn đa ngôn ngữ nhiều lỗi Kết thực nghiệm: Phương pháp xâu grams tập mờ nhóm tương quan cho kết Tuy nhiên cách nhóm số liệu lại có kết sau: 67 Hình 3-22: Kết phát xuyên ngôn ngữ 3.6.2 Đánh giá Qua kết chạy thực nghiệm, ta thấy phương pháp lại kết khác Nhưng dựa vào với thuật tốn xây dựng, thấy phương pháp có ưu nhược điểm khác nhau: - Với phương pháp so khớp dấu vân tay (câu đại diện xâu gram): có kết tốt tài liệu đem so sánh có câu khơng khác nhiều chép kẻ chép chép gần y nguyên - Với phương pháp truy vấn thông tin tập mờ: cho kết tốt trường hợp (nhất trường hợp tài liệu thêm bớt nhiều từ tách gộp câu) Tuy nhiên với kỹ thuật truy vấn thông tin tập mờ nhóm số liệu có độ xác cao kỹ thuật truy vấn thông tin tập mờ nhóm tương quan (lý cách tập mờ tập số liệu có yêu cầu ràng buộc chặt chẽ so với nhóm tương quan) 3.7 Kết luận chương Ở trên, luận văn đề xuất công cụ phát chép tài liệu dựa vào mức độ tương tự câu với cách tiếp cận khác để tùy vào trường hợp mà người dùng sử dụng phù hợp Đó cách tiếp cận khớp dấu vân tay dựa 68 câu (câu đại diện xâu grams có tần số nhỏ nhất), cách tiếp cận truy vấn thơng tin tập mờ ( tập mờ nhóm tương quan tập mờ nhóm số liệu) Mỗi phương pháp tiếp cận có ưu nhược điểm khác Đối với cách tiếp cận so khớp dấu vấn tay thích hợp để phát tài liệu mà có câu giống bị đảo vị trí câu…Cịn cách tiếp cận truy vấn tập mờ phụ thuộc vào yếu tố tương quan tính tốn từ trước để xác định giá trị tương đồng câu với câu Cách tiếp cận xử lý phương pháp đạo văn khác thay thế, bổ sung xóa từ câu, tách sáp nhập câu Qua thực nghiệm cho thấy cách tiếp cận với tập mờ nhóm số liệu có độ xác cao tập mờ nhóm tương quan Ngồi ra, ứng dụng cịn hỗ trợ chức đánh giá độ tương tự đoạn văn bản, tài liệu lấy từ file hay báo lấy từ URL Hơn nữa, luận văn phát triển chức phát chép tài liệu xuyên ngôn ngữ (tiếng Anh – tiếng Việt) Có thể nói, chức gần đáp ứng triệt để nhu cầu người dùng Như vậy, thấy ứng dụng bước đầu đáp ứng yêu cầu toán đặt giao diện ứng dụng dễ hiểu, thân thiện với người dùng 69 KẾT LUẬN Trong luận văn này, sở tìm hiểu nghiên cứu tốn cụ thể thực tế tính tốn độ tương tự tài liệu dựa vào độ tương tự câu với câu Luận văn đạt yêu cầu ban đầu đặt là: - Giới thiệu sơ lược phương pháp sử dụng cho toán phát chép tài liệu Từ đưa đánh giá, nhận xét để đề xuất kỹ thuật phát chép tài liệu dựa câu - Phát chép tài liệu dựa câu với cách tiếp cận khớp dấu vân tay dựa câu (câu đại diện xâu grams) cách tiếp cận truy vấn thông tin tập mờ ( gồm hướng tập mờ nhóm tương quan tập mờ nhóm số liệu) Đưa nhận xét, đánh giá cách tiếp cận - Kiểm tra phát mức độ chép tài liệu, báo, đồ án, luận văn Chúng ta kiểm tra mức độ chép văn nhập vào trực tiếp, văn lấy từ file (các tài liệu đầu vào xử lý file pdf, txt) báo lấy web - Phát triển chức phát chép xuyên ngôn ngữ (tiếng Anh – tiếng Việt) - Tiến hành thực nghiệm hệ thống với liệu lấy từ báo với nhiều chủ đề khác nhau, từ đưa đánh giá nhận xét kết thu cho toán nhỏ cho hệ thống Về luận văn đạt yêu cầu, vấn đề đặt ban đầu hạn chế thời gian kiến thức sẵn có nên hệ thống tồn nhiều hạn chế là: - Tập liệu hạn chế, số lượng từ tách cịn dẫn đến độ xác chưa cao - Tốc độ xử lý chương trình chưa nhanh, cần tiếp tục hoàn thiện phương pháp phát chép để nâng cao hiệu suất 70 Qua kết đạt hạn chết tồn hệ thống, luận văn cho thấy việc phát chép văn muốn có hiệu suất mức độ xác cao cần phải có thời gian thu thập nhiều liệu bao phủ hết tập từ ngữ tiếng Việt Hơn cần phải chạy thử nghiệm nhiều lần để xác định ngưỡng cho chuẩn xác 71 HƯỚNG PHÁT TRIỂN • Chương trình xây dựng vận hành tương đối tốt nhiều hạn chế, cần tiếp tục hiệu chỉnh để chương trình chạy tốt • Tiếng Việt phong phú nên cần xây dựng tập liệu lớn bao phủ tập từ ngữ tiếng Việt • Để có hệ thống đầy đủ xác hơn, nên kết hợp việc so sánh ngữ nghĩa từ để độ tương quan từ xác hơn, sau ta so sánh câu với câu • Tiếp tục chạy thử nghiệm nhiều lần với nhiều loại văn để cải tiến ngưỡng chuẩn xác 72 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy Độ tương đồng ngữ nghĩa hai câu ứng dụng tóm tắt văn tiếng Việt (gui Hội nghị Huế) [2] Đỗ Thị Thanh Nga, Tính tốn độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ, luận văn thạc sỹ đại học công nghệ đại học quốc gia Hà Nội [3] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006) Kết hợp phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn tiếng Việt, Một sốvấn đề chọn lọc công nghệ thông tin, 2006, 413-421 Tài liệu tiếng anh [4] A S Bin-Habtoor and M A Zaher (2012), A Survey on Plagiarism Detection Systems, International Journal of Computer Theory and Engineering Vol 4, No 2, April 2012 [5] Chow Kok Kent, Naomie Salim, Features Based Text Similarity Detection, Faculty of Computer Science and Information Systems, University Teknologi Malaysia, 81310 Skudai, Johor, Malaysia [6]Chin-Yew Lin ROUGE: A Package for Automatic Evaluation of Summaries University of Southern California [7] E Liddy (2001), How Search Engines Work, Searcher (The Magazine for Database Professionals) 9(5) (2001), 38–45 [8] HEINTZE, Nevin, (1996) Scalable document fingerprinting.Proceedings of the Second, USENIX Workshop on Electronic Commerce Oakland, California [9] Hermann Maurer, Frank Kappe, Bilal Zaka, Plagiarism - A Survey,Journal of Universal Computer Science, vol 12, no (2006), 1050-1084 submitted: 10/8/06, accepted: 25/8/06, appeared: 28/8/06© J.UCS 73 [10] Jonathan Koberstein and Yiu-Kai Ng, Using Word Clusters to Detect Similar Web Documents,Computer Science Department, Brigham Young University, Provo, UT 84602, USA [11] Lyon, C Barrett, R Malcolm, J.A Experiments in plagiarism detection Technical report 388 School of Computer Science, University of Hertfordshire 2003 [12] Marc Damashek, Gauging Similarity with n-grams: Language – Independent categorization of Text, Science, New Series, Vol 267, No 5199 (Feb 10, 1995), pp 843-848,American Association for the Advancement of Science [13] O Uzuner, B Katz, and T Nahnsen, Using Syntactic Informa-tion to Identify Plagiarism, in: Proceedings of the ACL Work-shop on Educational Applications, 2005, pp 37–44 [14] Rajiv Yerra (2005), Detecting similar HTML documents using a sentencebased copy detection approach, A thesis submitted to the faculty of Brigham Young University in partial fulfillment of the requirements for the degree [15] R Yerra and Y-K Ng (July 2005) Detecting Similar HTML Documents Using a Fuzzy Set Information Retrieval Approach To appear in Proceedings of IEEE International Conference on Granular Computing (GrC’05) [16] Salha Mohammed Alzahrani, Plagiarism Auto-Detection in Arabic Scripts using Statement-based Fingerprint Matching, University Teknologi Malaysia 2009 [17] T W S Chow and M K M Rahman, "Multilayer SOM with tree-structured data for efficient document retrieval and plagiarism detection," Trans Neur Netw., vol 20, pp 1385-1402, 2009 [18] M Elhadi and A Al-Tobi,(2009) "Duplicate Detection in Documents and WebPages Using Improved Longest Common Subsequence and Documents Syntactical Structures," presented at the Proceedings of the 2009 Fourth International Conference on Computer Sciences and Convergence Information Technology 74 [19]C G C Grozea, and M Popescu, "ENCOPLOT: Pairwise sequence matching in linear time applied to plagiarism detection," Donostia, Spain, pp 10-18, SEPLN'09 2009 [20] S T a A Gelbukh, "Comparing Similarity Measures for Original WSD Lesk Algorithm," Advances in Computer Science and Application, vol 43, pp 155-166, 2009 [21] B Gipp and J Beel, "Citation based plagiarism detection: a new approach to identify plagiarized work language independently," 2010, pp 273-274 [22] M S Pera, N Yiu-Kai,”SimPaD: A Word-Similarity Sentence-Based Plagiarism Detection Tool on Web Documents” Web Intelligence and Agent Systems: An International Journal (2009) Danh mục Website tham khảo: [23] Wikipedia: http://www.wikipedia.org [24] http://www.ngonngu.net [25] http://www.sinhvienit.net [26] http://www.codeprovn.com [27] http://www.code 4life.vn 75 ... qua độ tương tự hai tài liệu để từ nghiên cứu phương pháp xác định độ tương tự tài liệu với Các độ đo đề cập đến bao gồm: độ tương tự dựa vào cụm từ, độ tương tự phương pháp ký tự, độ tương tự phương. .. thiệu độ tương tự tài liệu Trình bày tổng quan khái niệm độ tương tự, vài phương pháp xác định độ tương tự, điển hình hai phương pháp xác định độ tương tự dựa vào: kí tự, cấu trúc Chương 2: Độ tương. .. giảm độ phức tạp phát Chúng ta xác định độ tương tự theo câu câu tài liệu cần xác định độ tương tự với kho tài liệu có sẵn, từ đưa mức độ tương tự tài liệu với tài liệu cịn lại khó tài liệu 2.2