Ứng dụng cây hậu tố để so khớp độ giống nhau giữa các tài liệu

26 81 0
Ứng dụng cây hậu tố để so khớp độ giống nhau giữa các tài liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH THỊ XUÂN DIỆU ỨNG DỤNG CÂY HẬU TỐ ĐỂ SO KHỚP ĐỘ GIỐNG NHAU GIỮA CÁC TÀI LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60480101 TĨM TẮT LUẬN VĂN THẠC SĨ Đà Nẵng – Năm 2018 Cơng trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS.Nguyễn Thanh Bình Phản biện 1: TS Nguyễn Văn Hiệu Phản biện 2: TS Nguyễn Trần Quốc Vinh Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Khoa Học Máy Tính họp Trường Đại học Bách khoa vào ngày 08 tháng 12 năm 2018 Có thể tìm hiểu luận văn tại: − Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa − Thư viện Khoa Công nghệ TT, Trường Đại học Bách khoa - ĐHĐN MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Trong năm gần đây, xử lý ngôn ngữ tự nhiên, tìm kiếm so khớp nội dung tài liệu văn lĩnh vực cộng đồng khoa học nước quan tâm Hiện nay, liệu lưu trữ nhiều hình thức khác nhau, văn hình thức chủ yếu để lưu trữ trao đổi thông tin Ngày nay, với phát triển mạnh mẽ Internet, liệu văn trở nên phong phú nội dung tăng nhanh số lượng Chỉ vài thao tác đơn giản, đâu, thời điểm nào, ta nhận khối lượng khổng lồ trang web tài liệu điện tử liên quan đến nội dung tìm kiếm Chính dễ dàng này, dẫn đến tình trạng chép, vi phạm quyền gian dối, chống đối kết học tập, nghiên cứu diễn sơi khó kiểm sốt Đặc biệt, lĩnh vực giáo dục – đào tạo, việc người học tham khảo chép phổ biến, làm giảm khả tư chất lượng nghiên cứu, học tập Vấn đề đặt là, làm để xác định phép đo độ giống văn bản, sở đưa kết luận việc chép bài, làm để phân loại đánh giá kết luận, nghiên cứu người học Trong nhiều lĩnh vực tìm kiếm, so khớp, trích chọn thơng tin… lượng lớn liệu thường lưu trữ tập tin tuyến tính khối lượng liệu thu thập tăng lên nhanh nên đòi hỏi phải có thuật tốn xử lý so khớp liệu văn hiệu So khớp chuỗi chủ đề quan trọng lĩnh vực xử lý văn Các thuật toán so khớp chuỗi xem thành phần sở ứng dụng hệ thống thực tế Hơn nữa, thuật tốn đối sánh chuỗi cung cấp tảng, mơ hình cho nhiều lĩnh vực khác khoa học máy tính xử lý ngơn ngữ tự nhiên, khai thác liệu văn bản, tin y sinh… Vì vậy, chúng tơi nghiên cứu thuật tốn so khớp chuỗi để ứng dụng tốn tính độ tương đồng văn Để đánh giá mức độ giống văn bản, thường sử dụng phép đo độ tương tự văn Sự tương đồng hai văn giống nội dung hai văn Do đó, hai văn gần giống có nội dung giống nhiều, hay độ tương đồng hai văn cao Đã có nhiều cơng trình nghiên cứu đánh giá độ tương tự văn sử dụng trực tuyến Plagiarism Checker, Turnitin, Dupli Checker Tuy nhiên, hệ thống cho phép phát trùng lặp nguồn sở liệu gốc thực trực tuyến môi trường có Internet Bên cạnh đó, việc mở rộng sở liệu mẫu theo yêu cầu người sử dụng trở nên khó khăn chi phí cao Với tốn đặt trên, chúng tơi tìm hiểu, nghiên cứu phương pháp, kỹ thuật biểu diễn so khớp văn bản… định chọn đề tài “Ứng dụng hậu tố để so khớp độ giống tài liệu” làm đề tài tốt nghiệp luận văn cao học MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU 2.1 Mục tiêu nghiên cứu Mục tiêu nghiên cứu đề tài xây dựng ứng dụng sử dụng thuật tốn so khớp chuỗi để phát nội dung giống tài liệu 2.2 Nhiệm vụ đề tài - Nghiên cứu cấu trúc tài liệu dạng văn - Tìm hiểu phương pháp kỹ thuật tách câu tiếng Việt - Tìm hiểu thuật tốn tìm kiếm so khớp chuỗi - Xây dựng chương trình ứng dụng để so sánh độ giống tài liệu ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1 Đối tượng nghiên cứu Đối tượng nghiên cứu đề tài tập trung vào nội dung: - Cấu trúc tài liệu dạng văn - Phương pháp kỹ thuật tách câu tiếng Việt - Các thuật tốn tìm kiếm so khớp chuỗi 3.2 Phạm vi nghiên cứu - Tài liệu ngôn ngữ tiếng Việt - Xử lý văn theo hậu tố để phục vụ đánh giá mức độ giống văn tiếng Việt PHƯƠNG PHÁP NGHIÊN CỨU - Nghiên cứu lý thuyết: • Thu nhập, phân tích tài liệu thơng tin liên quan đến đề tài như: mơ hình đặc trưng văn tiếng Việt, kỹ thuật tách câu tiếng Việt, thuật tốn tìm kiếm so khớp chuỗi • Tìm hiểu tài liệu mơ tả số công cụ so khớp văn tài liệu liên quan - Nghiên cứu ứng dụng: Nghiên cứu cơng cụ, đề xuất thuật tốn xây dựng môi trường tương tác Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Ý nghĩa khoa học: - Kết nghiên cứu đề tài góp phần mở rộng ứng dụngtrong so khớp văn Ý nghĩa thực tiễn: - Đề tài đóng góp cơng cụ giúp minh bạch học thuật nhằm hạn chế tình trạng chép tài liệu dạng văn BỐ CỤC LUẬN VĂN Báo cáo luận văn tổ chức thành chương chính: Chương Nghiên cứu tổng quan Trong chương này, chúng tơi trình bày tổng quan thuật tốn tìm kiếm so khớp mẫu có, giới thiệu số ứng dụng tương tự Chương Ứng dụng hậu tố để so khớp độ giống tài liệu Chương dành để trình bày khái niệm vấn đề liên quan đến hậu tố, xác định phân tích tốn, cách tính độ đo tương đồng Chương Xây dựng ứng dụng thử nghiệm Trong chương này, chúng tơi trình bày tổng quan đặc điểm ngôn ngữ tiếng Việt, lựa chọn công cụ phát triển, xử lý tài liệu đầu vào để đưa vào ứng dụng Giới thiệu bước triển khai, xây dựng chương trình, đánh giá kết CHƯƠNG NGHIÊN CỨU TỔNG QUAN 1.1 Đặt vấn đề Đánh giá giống văn ứng dụng vào nhiều mục đích khác như: phân loại văn bản, tóm tắt văn bản, truy vấn thơng tin, tìm kiếm… Đây khơng vấn đề mới, có nhiều nghiên cứu thực với nhiều giải pháp khác đưa Với khảo sát nghiên cứu liên quan, hệ thống phát giống văn (hay chép văn bản) hầu hết dựa vào phương pháp so khớp chuỗi với sưu tập tài liệu nguồn (hay kho liệu) Quá trình xử lý hệ thống phát giống văn thực qua nhiều cơng đoạn, việc nghiên cứu đề xuất thuật toán so sánh văn nhiệm vụ quan trọng Từ kết khảo sát, hình thức hóa tốn phát giống tài liệu văn sau: Cho văn T gọi văn kiểm tra (hay nghi ngờ) P tập hợp văn nguồn (hay kho liệu) Vấn đề phải xác định mức độ tương tự văn T với văn D P Nếu độ tương tự T với văn P lớn T coi giống với văn P Việc đo độ tương tự hai văn thường dựa việc đo độ tương tự thành phần đơn vị T với thành phần đơn vị văn P, thành phần đơn vị từ, cụm n từ, câu, hay đoạn Cho P[1 n] chuỗi bao gồm n ký tự, P[i], 1

Ngày đăng: 15/09/2019, 22:54

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

    • 1. LÝ DO CHỌN ĐỀ TÀI

    • Trong những năm gần đây, xử lý ngôn ngữ tự nhiên, tìm kiếm và so khớp nội dung tài liệu văn bản là lĩnh vực đang được cộng đồng khoa học trong và ngoài nước quan tâm.

    • Hiện nay, dữ liệu được lưu trữ dưới nhiều hình thức khác nhau, nhưng văn bản vẫn là hình thức chủ yếu để lưu trữ và trao đổi thông tin.

    • Ngày nay, với sự phát triển mạnh mẽ của Internet, dữ liệu văn bản đã trở nên phong phú về nội dung và tăng nhanh về số lượng. Chỉ bằng một vài thao tác đơn giản, tại bất kỳ đâu, tại bất kỳ thời điểm nào, ta cũng có thể nhận về một khối lượng khổng lồ ...

    • Trong nhiều lĩnh vực như tìm kiếm, so khớp, trích chọn thông tin… một lượng lớn dữ liệu thường được lưu trữ trong các tập tin tuyến tính và khối lượng dữ liệu thu thập được tăng lên rất nhanh nên đòi hỏi phải có các thuật toán xử lý và so khớp dữ liệu...

    • So khớp chuỗi là một chủ đề quan trọng trong lĩnh vực xử lý văn bản. Các thuật toán so khớp chuỗi được xem là những thành phần cơ sở được ứng dụng trong các hệ thống thực tế. Hơn thế nữa, các thuật toán đối sánh chuỗi còn cung cấp các nền tảng, mô hìn...

    • Để đánh giá mức độ giống nhau của văn bản, thường sử dụng các phép đo độ tương tự giữa các văn bản. Sự tương đồng giữa hai văn bản là sự giống nhau về nội dung giữa hai văn bản đó. Do đó, hai văn bản là bản sao hoặc gần giống nhau thì sẽ có nội dung g...

    • 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU

    • 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

      • 3.1. Đối tượng nghiên cứu

      • 3.2. Phạm vi nghiên cứu

      • 4. PHƯƠNG PHÁP NGHIÊN CỨU

      • 5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI

      • CHƯƠNG 1.

      • NGHIÊN CỨU TỔNG QUAN

        • 1.1. Đặt vấn đề

        • Cho P[1..n] là một chuỗi bao gồm n ký tự, trong đó các P[i], 1<=i<=n là từng ký tự ở trong chuỗi. Cho T[1..m] là chuỗi mẫu bao gồm m ký tự, m<=n. Ta giả sử rằng P và T chỉ chứa các ký tự có trong tập hữu hạn S. Ví dụ S = {0, 1} hoặc S = {a, b, c,…, z...

        • Cho chuỗi T[1..n], một chuỗi con của T được định nghĩa là T[i..j] với 1<=i, j<=n. Chuỗi con này chứa các ký tự từ chỉ số i đến chỉ số j của mảng các ký tự trong T. Lưu ý rằng T cũng chính là một chuỗi con của T với i=1, j=n.

        • 1.2. Các thuật toán so khớp chuỗi

          • 1.2.1. Thuật toán Naïve

          • Đây là giải thuật cơ bản và đơn giản nhất. Giải thuật này kiểm tra tất cả các khả năng của chuỗi mẫu P[1..m] nằm trong chuỗi T[1..n] bằng cách duyệt từ đầu tới cuối chuỗi T, và đưa ra kết quả so khớp. Phương pháp này còn gọi là cách tiếp cận ngây thơ.

            • 1.2.2. Thuật toán Brute – Force

            • 1.2.3. Thuật toán Rabin – Karp

            • 1.2.4. Thuật toán Boyer – Moore

Tài liệu cùng người dùng

Tài liệu liên quan