1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng cây hậu tố để so khớp độ giống nhau giữa các tài liệu

26 82 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 464,91 KB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH THỊ XUÂN DIỆU ỨNG DỤNG CÂY HẬU TỐ ĐỂ SO KHỚP ĐỘ GIỐNG NHAU GIỮA CÁC TÀI LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60480101 TĨM TẮT LUẬN VĂN THẠC SĨ Đà Nẵng – Năm 2018 Cơng trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS.Nguyễn Thanh Bình Phản biện 1: TS Nguyễn Văn Hiệu Phản biện 2: TS Nguyễn Trần Quốc Vinh Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Khoa Học Máy Tính họp Trường Đại học Bách khoa vào ngày 08 tháng 12 năm 2018 Có thể tìm hiểu luận văn tại: − Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa − Thư viện Khoa Công nghệ TT, Trường Đại học Bách khoa - ĐHĐN MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Trong năm gần đây, xử lý ngôn ngữ tự nhiên, tìm kiếm so khớp nội dung tài liệu văn lĩnh vực cộng đồng khoa học nước quan tâm Hiện nay, liệu lưu trữ nhiều hình thức khác nhau, văn hình thức chủ yếu để lưu trữ trao đổi thông tin Ngày nay, với phát triển mạnh mẽ Internet, liệu văn trở nên phong phú nội dung tăng nhanh số lượng Chỉ vài thao tác đơn giản, đâu, thời điểm nào, ta nhận khối lượng khổng lồ trang web tài liệu điện tử liên quan đến nội dung tìm kiếm Chính dễ dàng này, dẫn đến tình trạng chép, vi phạm quyền gian dối, chống đối kết học tập, nghiên cứu diễn sơi khó kiểm sốt Đặc biệt, lĩnh vực giáo dục – đào tạo, việc người học tham khảo chép phổ biến, làm giảm khả tư chất lượng nghiên cứu, học tập Vấn đề đặt là, làm để xác định phép đo độ giống văn bản, sở đưa kết luận việc chép bài, làm để phân loại đánh giá kết luận, nghiên cứu người học Trong nhiều lĩnh vực tìm kiếm, so khớp, trích chọn thơng tin… lượng lớn liệu thường lưu trữ tập tin tuyến tính khối lượng liệu thu thập tăng lên nhanh nên đòi hỏi phải có thuật tốn xử lý so khớp liệu văn hiệu So khớp chuỗi chủ đề quan trọng lĩnh vực xử lý văn Các thuật toán so khớp chuỗi xem thành phần sở ứng dụng hệ thống thực tế Hơn nữa, thuật tốn đối sánh chuỗi cung cấp tảng, mơ hình cho nhiều lĩnh vực khác khoa học máy tính xử lý ngơn ngữ tự nhiên, khai thác liệu văn bản, tin y sinh… Vì vậy, chúng tơi nghiên cứu thuật tốn so khớp chuỗi để ứng dụng tốn tính độ tương đồng văn Để đánh giá mức độ giống văn bản, thường sử dụng phép đo độ tương tự văn Sự tương đồng hai văn giống nội dung hai văn Do đó, hai văn gần giống có nội dung giống nhiều, hay độ tương đồng hai văn cao Đã có nhiều cơng trình nghiên cứu đánh giá độ tương tự văn sử dụng trực tuyến Plagiarism Checker, Turnitin, Dupli Checker Tuy nhiên, hệ thống cho phép phát trùng lặp nguồn sở liệu gốc thực trực tuyến môi trường có Internet Bên cạnh đó, việc mở rộng sở liệu mẫu theo yêu cầu người sử dụng trở nên khó khăn chi phí cao Với tốn đặt trên, chúng tơi tìm hiểu, nghiên cứu phương pháp, kỹ thuật biểu diễn so khớp văn bản… định chọn đề tài “Ứng dụng hậu tố để so khớp độ giống tài liệu” làm đề tài tốt nghiệp luận văn cao học MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU 2.1 Mục tiêu nghiên cứu Mục tiêu nghiên cứu đề tài xây dựng ứng dụng sử dụng thuật tốn so khớp chuỗi để phát nội dung giống tài liệu 2.2 Nhiệm vụ đề tài - Nghiên cứu cấu trúc tài liệu dạng văn - Tìm hiểu phương pháp kỹ thuật tách câu tiếng Việt - Tìm hiểu thuật tốn tìm kiếm so khớp chuỗi - Xây dựng chương trình ứng dụng để so sánh độ giống tài liệu ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1 Đối tượng nghiên cứu Đối tượng nghiên cứu đề tài tập trung vào nội dung: - Cấu trúc tài liệu dạng văn - Phương pháp kỹ thuật tách câu tiếng Việt - Các thuật tốn tìm kiếm so khớp chuỗi 3.2 Phạm vi nghiên cứu - Tài liệu ngôn ngữ tiếng Việt - Xử lý văn theo hậu tố để phục vụ đánh giá mức độ giống văn tiếng Việt PHƯƠNG PHÁP NGHIÊN CỨU - Nghiên cứu lý thuyết: • Thu nhập, phân tích tài liệu thơng tin liên quan đến đề tài như: mơ hình đặc trưng văn tiếng Việt, kỹ thuật tách câu tiếng Việt, thuật tốn tìm kiếm so khớp chuỗi • Tìm hiểu tài liệu mơ tả số công cụ so khớp văn tài liệu liên quan - Nghiên cứu ứng dụng: Nghiên cứu cơng cụ, đề xuất thuật tốn xây dựng môi trường tương tác Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Ý nghĩa khoa học: - Kết nghiên cứu đề tài góp phần mở rộng ứng dụngtrong so khớp văn Ý nghĩa thực tiễn: - Đề tài đóng góp cơng cụ giúp minh bạch học thuật nhằm hạn chế tình trạng chép tài liệu dạng văn BỐ CỤC LUẬN VĂN Báo cáo luận văn tổ chức thành chương chính: Chương Nghiên cứu tổng quan Trong chương này, chúng tơi trình bày tổng quan thuật tốn tìm kiếm so khớp mẫu có, giới thiệu số ứng dụng tương tự Chương Ứng dụng hậu tố để so khớp độ giống tài liệu Chương dành để trình bày khái niệm vấn đề liên quan đến hậu tố, xác định phân tích tốn, cách tính độ đo tương đồng Chương Xây dựng ứng dụng thử nghiệm Trong chương này, chúng tơi trình bày tổng quan đặc điểm ngôn ngữ tiếng Việt, lựa chọn công cụ phát triển, xử lý tài liệu đầu vào để đưa vào ứng dụng Giới thiệu bước triển khai, xây dựng chương trình, đánh giá kết CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Đặt vấn đề Đánh giá giống văn ứng dụng vào nhiều mục đích khác như: phân loại văn bản, tóm tắt văn bản, truy vấn thơng tin, tìm kiếm… Đây khơng vấn đề mới, có nhiều nghiên cứu thực với nhiều giải pháp khác đưa Với khảo sát nghiên cứu liên quan, hệ thống phát giống văn (hay chép văn bản) hầu hết dựa vào phương pháp so khớp chuỗi với sưu tập tài liệu nguồn (hay kho liệu) Quá trình xử lý hệ thống phát giống văn thực qua nhiều cơng đoạn, việc nghiên cứu đề xuất thuật toán so sánh văn nhiệm vụ quan trọng Từ kết khảo sát, hình thức hóa tốn phát giống tài liệu văn sau: Cho văn T gọi văn kiểm tra (hay nghi ngờ) P tập hợp văn nguồn (hay kho liệu) Vấn đề phải xác định mức độ tương tự văn T với văn D P Nếu độ tương tự T với văn P lớn T coi giống với văn P Việc đo độ tương tự hai văn thường dựa việc đo độ tương tự thành phần đơn vị T với thành phần đơn vị văn P, thành phần đơn vị từ, cụm n từ, câu, hay đoạn Cho P[1 n] chuỗi bao gồm n ký tự, P[i], 1

Ngày đăng: 15/09/2019, 22:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w