Chương này đã trình bày các kết quả của luận văn về vấn đề tìm kiếm mẫu trên môi trường văn bản nén và mã hóa, bao gồm:
- Giới thiệu sơ đồ tìm kiếm tổng quát
- Trình bày một thuật toán theo kiểu so mẫu miền nén, được cải tiến từ thuật toán KMP-BM (xem mục 2.4), để áp dụng cho văn bản nén dạng khối kí tự. Với những giải thuật nén mà dữ liệu giải nén không ở dạng khối kí tự, có thể cải biên thuật toán này bằng cách thay đổi nguyên tắc họat động của thủ tục giải nén.
Giải mã Y bởi D2
Y: Văn bản mã hóa hai tầng Y1: Văn bản mã hóa bởi C1
Đọc 1 ký tự thuộc bản mã Otomat đoán nhận một từ mã Nếu được 1 từ mã Otomat so mẫu
Độ mờ xuất hiện mẫu P Tiền xử lý
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
65
KẾT LUẬN
Luận văn đã tìm hiểu về otomat mờ, một số thuật toán tìm kiếm và đã giới thiệu hai bài toán so mẫu xấp xỉ - chính xác. Trình bày những thuật toán so mẫu của hai bài toán trên đều dựa vào độ tương tự giữa hai xâu theo một mô hình "lỗi" kinh điển.
Ngoài ra, luận văn trình bày thuật toán so mẫu cho văn bản nén và mã hoá dạng text thu được những kết quả dưới.
Các kết quả đạt được của luận văn:
Trình bày được tổng quan về tìm kiếm mẫu trên văn bản, từ đó đưa
ra các dạng tìm kiếm mẫu.
Giới thiệu hệ mờ, ý tưởng chung của tiếp cận otomat mờ. Sau đó
đưa ra một số thuật toán so mẫu như KMP, BM.
Trình bày thuật toán so mẫu chính xác và xấp xỉ theo tiếp cận otomat mờ và thuật toán tìm kiếm mẫu trong văn bản nén và mã hoá.
Một số hạn chế của luận văn:
Chưa cài đặt được chương trình tìm kiếm mẫu trong văn bản nén
và mã hoá.
Thuật toán đưa ra còn chưa tối ưu.
Trình bày luận văn còn lủng củng.
Hướng nghiên cứu tiếp theo:
Cài đặt chương trình tìm kiếm mẫu trong văn bản nén, mã hoá và
ứng dụng trong các chương trình tìm kiếm thông tin.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
66
Do thời gian và khả năng có hạn, luận văn còn thiếu sót nhiều, em rất mong nhận được sự góp ý, chỉ dẫn thêm của các Thầy Cô, bạn bè để em có thể xây dựng được ứng dụng hoàn thiện hơn. Một lần nữa em xin chân thành cảm ơn Thầy hướng dẫn PGS.TS. Đoàn Văn Ban, các Thầy Cô trong khoa đã tạo mọi điều kiện thuận lợi để em có thể hoàn thành luận văn đúng thời hạn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
67
TÀI LIỆU THAM KHẢO Tiếng Anh
[1]. Gonzalo Navarro, Mathieu Raffinot (2000), Fast and Flexible
String Matching by Combining Bit - Parallelism and Suffix Automata, ACM Journal of Experimental Algorithmics (JEA). [2]. Gonzalo Navarro, Mathieu Raffinot (2002), Flexible Pattern Matching
in Strings, Cambridge University Press, ISBN 0-521-81307-7.
[3]. Heikki Hyyro (2002), A Bit - Vector Algorithm for Computing Levenshtein and Damerau Edit Distances, Proceedings of the Prague Stringology Conference '02, pp. 44-54.
[4]. Aho A.V.(1992), Algorithms for finding patterns in strings,
Chapter 5 of Jan Van Leeuwen (ed.), Handbook of Theoretical Computer Science "Algorithms and Complexity", The MIT Press, pp. 255-300.
[5]. Christian Charras, Thierry Lecroq (2000), Handbook of Exact
Stringmatching Algorithms.
Tiếng Việt
[6]. Phan Trung Huy và Nguyễn Quý Khang (2002), "A New Algorithm
For LCS Problem", Kỷ yếu Hội nghị Toán học Toàn quốc 9/2002.
[7]. Robert Sedgewick (1994), Cẩm nang thuật toán, Tập 1: Các thuật
toán thông dụng, NXB Khoa học và Kỹ thuật, tr. 324 - 351.
[8]. Vũ Thành Nam, Phan Trung Huy, Nguyễn Thị Thanh Huyền
(2005), Mã tích đàn hồi và tìm kiếm trên văn bản mã hoá sử dụng thuật toán so mẫu theo tiếp cận mờ, Báo cáo khoa học tại Hội nghị Ứng dụng toán học toàn quốc lần 2, Hà Nội, 12/2005.
[9]. Nguyễn Thị Thanh Huyền (2006), Luận án Tìm kiếm mờ, phân cụm