1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm mờ và ứng dụng tìm kiếm thông tin trong các văn bản nén

76 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN ĐỖ THỊ HẠNH TÌM KIẾM MỜ VÀ ỨNG DỤNG TÌM KIẾM THÔNG TIN TRONG CÁC VĂN BẢN NÉN Chuyên ngành: Khoa học máy tính Mã số: 60 48 35 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN ĐỖ THỊ HẠNH TÌM KIẾM MỜ VÀ ỨNG DỤNG TÌM KIẾM THÔNG TIN TRONG CÁC VĂN BẢN NÉN Chuyên ngành: Khoa học máy tính Mã số: 60 48 35 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Em xin chân thành cảm ơn thầy, cô khoa Công nghệ thông tin trường Đại học Thái Nguyên tạo điều kiện giúp đỡ truyền đạt cho em kiến thức chuyên ngành kiến thức xã hội Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Đoàn Văn Ban - Viện Khoa học Công nghệ Việt Nam Thầy trực tiếp hướng dẫn giúp đỡ em hoàn thành luận văn Mặc dù, trình làm luận văn em gặp nhiều khó khăn thầy ln động viên, chia sẻ, nguồn động lực lớn giúp em vượt qua Thầy gương cho em công tác giảng dạy, nghiên cứu khoa học, sống Em xin cảm ơn thầy Em không qn động viên, khích lệ gia đình, bạn bè người thân giúp đỡ em vượt qua khó khăn để em hồn thành khố học Em xin chân thành cảm ơn! Thái Nguyên, tháng 11 năm 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC MỞ ĐẦU Chương TÌM KIẾM MẪU TRONG VĂN BẢN THEO CÁCH TIẾP CẬN OTOMAT MỜ 1.1 Tổng quan tìm kiếm mẫu văn 1.1.1 Giới thiệu chung vấn đề tìm kiếm văn 1.1.2 Các dạng tìm kiếm kết nghiên cứu 1.1.2.1 Tìm đơn mẫu 1.1.2.2 Tìm đa mẫu 1.1.2.3 Tìm mẫu mở rộng 1.1.2.4 Tìm kiếm xấp xỉ 10 1.1.2.4.1 Phát biểu toán 10 1.1.2.4.2 Các tiếp cận tìm kiếm xấp xỉ 11 1.1.2.4.3 Độ tương tự hai xâu 12 1.1.3 Tìm kiếm văn nén mã hoá 14 1.2 Hệ mờ 15 1.3 Ý tưởng chung tiếp cận otomat mờ 15 1.4 Khái niệm otomat mờ 17 1.5 Một số thuật toán so mẫu 18 1.5.1 Thuật toán KMP ( Knuth- Morris- Pratt) 18 1.5.2 Thuật toán BM ( Boyer- Moor) 22 1.6 Kết luận chương 26 Chương BÀI TOÁN SO MẪU THEO CÁCH TIẾP CẬN OTOMAT MỜ 27 2.1 Bài toán so mẫu xác 27 2.1.1 Phát biểu toán 27 2.1.2 Độ mờ mơ hình 27 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.1.3 Thuật toán KMP mờ 28 2.1.3.1 Otomat so mẫu 28 2.1.3.2 Tính đắn thuật tốn 29 2.1.3.3 Thuật toán 29 2.1.3.4 So sánh KM P thuật toán KMP mờ 32 2.1.4 Thuật toán KMP - BM mờ 33 2.1.4.1 Ý tưởng thuật toán 33 2.1.4.2 Otomat mờ so mẫu 35 2.1.4.3 Thuật toán 2.4 37 2.2 Bài toán so mẫu xấp xỉ 38 2.2.1 Đặt vấn đề 38 2.2.2 Bài toán 39 2.2.3 Độ tương tự dựa độ dài khúc chung hai xâu 40 2.2.3.1 Phát biểu toán 40 2.2.3.2 Otomat so mẫu 42 2.2.4 Độ gần tựa ngữ nghĩa 43 2.2.4.1 Ý tưởng độ gần 43 2.2.4.2 Thuật tốn sơ tính độ gần 44 2.2.4.2.1 Ý tưởng 44 2.2.4.2.2 Thuật toán chi tiết 44 2.2.4.3 Giải thích độ mờ mơ hình 45 2.3 Kết luận chương 46 Chương TÌM KIẾM MẪU TRONG VĂN BẢN NÉN VÀ MÃ HOÁ 47 3.1 Tiếp cận tìm kiếm tổng quát văn nén mã hoá 47 3.2 Tìm kiếm văn nén 50 3.2.1 Các mơ hình nén văn 50 Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn 3.2.2 Thuật tốn tìm kiếm liệu nén dạng text 50 3.3 Tìm kiếm văn mã hóa 55 3.3.1 Tìm kiếm văn mã hóa dạng khối kí tự 55 3.3.2 Mã đàn hồi 55 3.3.3 Tìm kiếm văn mã hóa mã đàn hồi 58 3.3.3.1 Ý tưởng chung 58 3.3.3.2 Phương pháp đánh giá độ mờ xuất mẫu văn mã hóa 59 3.3.3.2.1 Bài toán 59 3.3.3.2.2 Mô tả phương pháp 59 3.3.3.2.3 Chi tiết hóa otomat thuật tốn 60 3.3.3.2.4 Thuật tốn tìm kiếm mẫu dựa otomat 61 3.3.4 Tìm kiếm văn mã hóa hai tầng 63 3.4 Kết luận chương 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các ký hiệu  Xâu rỗng wi Ký tự thứ i xâu w w(f, d) Xâu (hay khúc con) độ dài f xâu w, kết thúc vị trí d w w1 ≤ s w2 Xâu w1 khúc đuôi w2 w1 ≤ ls w2 Xâu w1 khúc đuôi dài w2 w(t) preft(w) Khúc đầu độ dài t xâu w suft(w) Khúc cuối độ dài t xâu w |A| Lực lượng tập A Các chữ viết tắt NFA Otomat đa định hữu hạn Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ý nghĩa mảng next 19 Hình 1.2 Ý nghĩa mảng next vị trí m + 19 Hình 2.1 Dịch chuyển trỏ mẫu 32 Hình 2.2 Ý tưởng chung thuật toán KMP-BM mờ 35 Hình 2.3 Một ví dụ với khối độ dài t = 44 Hình 2.4 Tập mờ mô tả độ gần tựa ngữ nghĩa mẫu P so với xâu đích S 45 Hình 3.1 Phương pháp so mẫu miền nén có sử dụng otomat mờ 48 Hình 3.2 Phương pháp so mẫu khơng giải mã 49 Hình 3.3 Queue trước (a) sau (b) thực thủ tục Decompress 52 Hình 3.4 Queue trước (a) sau (b) bước nhảy n2‟ 53 Hình 3.5 Đồ thị xây dựng khái niệm tích đàn hồi 56 Hình 3.6 Đồ thị xác định mã đàn hồi 58 Hình 2.7 Q trình mã hóa hai tầng 64 Hình 2.8 Quá trình giải mã hai tầng 64 Hình 2.9 Quá trình tìm kiếm mẫu văn mã hóa hai tầng 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Lý chọn đề tài Bộ não người xử lý thơng tin hai mức: - Mức định lượng (chính xác) - Mức định tính (khơng xác, bất định, mơ hồ, không chắn, nhập nhằng, không rõ ràng, mờ) Tính thơng minh q trình xử lý thơng tin thể khả xử lý thông tin định tính Đây điều mà hệ máy tính hướng tới Máy tính ngày sử dụng hầu hết lĩnh vực góp phần quan trọng vào việc thúc đẩy phát triển kinh tế, xã hội, khoa học kỹ thuật, … Máy tính đời nhằm phục vụ cho mục đích định người Với tất xử lý máy tính để lấy thơng tin hữu ích q trình xử lí vấn đề đặc biệt quan trọng tìm kiếm thơng tin với khối lượng lớn, độ xác cao, thời gian nhanh Tìm kiếm thơng tin tốn đóng vai trị quan trọng tốn so mẫu, với mẫu kiểu liệu nào, từ văn đến loại liệu đa phương tiện khác (ảnh, video, âm thanh, …) Trên thực tế có nhiều ứng dụng tìm kiếm thơng tin như: cơng cụ tìm kiếm hệ điều hành, khai phá web Internet, Để tìm kiếm thơng tin cần phải xem thơng tin lưu trữ dạng liệu nào? Dữ liệu lưu trữ nhiều dạng, song phổ biến dạng text nên chọn đề tài cụ thể tìm kiếm văn text Tìm kiếm văn text văn có khối lượng lớn nhiều thời gian với thuật tốn kinh điển Vậy đặt vấn đề tìm kiếm văn dạng nén nhanh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Ở ta xét loại hình thức giải nén mà mã nén cho khối kí tự (như Hufman, LZ, LZW ) Với giải thuật nén mà liệu giải nén không dạng khối kí tự cần thay đổi ngun tắc họat động thủ tục Decompress Có thể tăng thêm chế quản lý buffer liệu mảng bit phải có trỏ quản lý tới bit Thuật toán 3.1 Vào: Mẫu P độ dài m, dòng liệu S dạng nén, AP bảng kí tự xuất mẫu P Ra: - Mảng apr lưu vị trí xuất mẫu văn sau mở nén - Counter lưu số lần xuất mẫu P F old F F new = F old  n2‟ m+1 len_queue m+1 len_queue B (a) B (b) Hình 3.4 Queue trước (a) sau (b) bước nhảy n2‟ Phương pháp : (Hình 3.4) Begin F := 0; B := 0; lenqueue := 0; counter := 0; j := 0; n1 := 0; n2 := 1; repeat F := F  n2; j := j + n2; if len_queue then n1 := 0; n1’ := TFuzz (n1, buffer [F]); n2’ := 1; if n1’ = m then begin counter: =counter + 1; apr [counterr]:=j - m+1; end else if n1’ < m and n1’ < n1 then begin t:=F (m-n1’) if t > B then return; if buffer[t]  Ap then n2’:= + m - n1’; end; len_queue := len_queue - n2’; n1:=n1’; n2:= n2’; until len_queue =n; return (counter); Ví dụ 3.7 Với mẫu P=ababa, xâu đích S=aacdababab mã hóa thành Y a b b b b Y = 0000110111000100011001001100010 a c a a b a Quá trình duyệt Y để thống kê tần suất xuất mẫu P sau: Khởi đầu 1 j Yj AoSeek(P1,j) q=1(q,Yj) 0 f=2‟(f,q) counter 1 0 1 0 13 14 1 15 16 17 0 18 1 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 19 20 21 22 1 23 24 25 1 26 27 28 29 0 30 1 31 3.3.4 Tìm kiếm văn mã hóa hai tầng Trong hệ thống bảo vệ liệu cá nhân, việc sử dụng mã hóa đàn hồi giải thuật so mẫu không giải mã đáp ứng tốt nhu cầu bảo mật mà tìm thấy thơng tin cần thiết Tuy nhiên, để nâng cao mức độ bảo mật, tùy thuộc nhu cầu ứng dụng sử dụng sản phẩm mã hóa liệu chất lượng cao sẵn có, phần tác giả đưa giải pháp mã hóa hai tầng Giả sử C1 hàm mã hóa theo mã đàn hồi với hàm giải mã D1, C2 hàm mã hóa hàm nén theo giải thuật (như hệ mã đối xứng AES, IDEA, SEFER; hệ mã công khai RSA [16] [17]; nén Huffman, LXW, [15], có hàm giải mã D2 Quá trình mã hóa hai tầng mơ tả Hình 3.7 Hình 3.8 trình giải mã Khi đó, giải thuật tìm kiếm mẫu văn mã hóa mã hai tầng thể qua sơ đồ Hình 2.9 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 Bản rõ X C1 C2 Y1 = C1(X) Bản mã Y = C2(C1(X)) Hình 2.7 Q trình mã hóa hai tầng D1 Bản rõ X= D1(D2(Y)) D2 Y1 = D2(Y) Bản mã Y Hình 2.8 Quá trình giải mã hai tầng Y: Văn mã hóa hai tầng Y1: Văn mã hóa C1 Giải mã Y D2 Đọc ký tự thuộc mã Otomat đoán nhận từ mã Nếu từ mã Otomat so mẫu Mẫu P Tiền xử lý Độ mờ xuất mẫu P Hình 2.9 Quá trình tìm kiếm mẫu văn mã hóa hai tầng 3.4 Kết luận chương Chương trình bày kết luận văn vấn đề tìm kiếm mẫu mơi trường văn nén mã hóa, bao gồm: - Giới thiệu sơ đồ tìm kiếm tổng quát - Trình bày thuật toán theo kiểu so mẫu miền nén, cải tiến từ thuật toán KMP-BM (xem mục 2.4), để áp dụng cho văn nén dạng khối kí tự Với giải thuật nén mà liệu giải nén không dạng khối kí tự, cải biên thuật tốn cách thay đổi nguyên tắc họat động thủ tục giải nén Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 KẾT LUẬN Luận văn tìm hiểu otomat mờ, số thuật tốn tìm kiếm giới thiệu hai tốn so mẫu xấp xỉ - xác Trình bày thuật toán so mẫu hai toán dựa vào độ tương tự hai xâu theo mơ hình "lỗi" kinh điển Ngồi ra, luận văn trình bày thuật tốn so mẫu cho văn nén mã hoá dạng text thu kết Các kết đạt luận văn:  Trình bày tổng quan tìm kiếm mẫu văn bản, từ đưa dạng tìm kiếm mẫu  Giới thiệu hệ mờ, ý tưởng chung tiếp cận otomat mờ Sau đưa số thuật tốn so mẫu KMP, BM  Trình bày thuật tốn so mẫu xác xấp xỉ theo tiếp cận otomat mờ thuật tốn tìm kiếm mẫu văn nén mã hoá Một số hạn chế luận văn:  Chưa cài đặt chương trình tìm kiếm mẫu văn nén mã hố  Thuật tốn đưa cịn chưa tối ưu  Trình bày luận văn cịn lủng củng Hướng nghiên cứu tiếp theo:  Cài đặt chương trình tìm kiếm mẫu văn nén, mã hoá ứng dụng chương trình tìm kiếm thơng tin  Giới thiệu thuật tốn tối ưu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Do thời gian khả có hạn, luận văn cịn thiếu sót nhiều, em mong nhận góp ý, dẫn thêm Thầy Cơ, bạn bè để em xây dựng ứng dụng hoàn thiện Một lần em xin chân thành cảm ơn Thầy hướng dẫn PGS.TS Đoàn Văn Ban, Thầy Cô khoa tạo điều kiện thuận lợi để em hồn thành luận văn thời hạn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Gonzalo Navarro, Mathieu Raffinot (2000), Fast and Flexible String Matching by Combining Bit - Parallelism and Suffix Automata, ACM Journal of Experimental Algorithmics (JEA) [2] Gonzalo Navarro, Mathieu Raffinot (2002), Flexible Pattern Matching in Strings, Cambridge University Press, ISBN 0-521-81307-7 [3] Heikki Hyyro (2002), A Bit - Vector Algorithm for Computing Levenshtein and Damerau Edit Distances, Proceedings of the Prague Stringology Conference '02, pp 44-54 [4] Aho A.V.(1992), Algorithms for finding patterns in strings, Chapter of Jan Van Leeuwen (ed.), Handbook of Theoretical Computer Science "Algorithms and Complexity", The MIT Press, pp 255-300 [5] Christian Charras, Thierry Lecroq (2000), Handbook of Exact Stringmatching Algorithms Tiếng Việt [6] Phan Trung Huy Nguyễn Quý Khang (2002), "A New Algorithm For LCS Problem", Kỷ yếu Hội nghị Toán học Toàn quốc 9/2002 [7] Robert Sedgewick (1994), Cẩm nang thuật tốn, Tập 1: Các thuật tốn thơng dụng, NXB Khoa học Kỹ thuật, tr 324 - 351 [8] Vũ Thành Nam, Phan Trung Huy, Nguyễn Thị Thanh Huyền (2005), Mã tích đàn hồi tìm kiếm văn mã hoá sử dụng thuật toán so mẫu theo tiếp cận mờ, Báo cáo khoa học Hội nghị Ứng dụng tốn học tồn quốc lần 2, Hà Nội, 12/2005 [9] Nguyễn Thị Thanh Huyền (2006), Luận án Tìm kiếm mờ, phân cụm mờ ứng dụng mạng trường Đại học Bách khoa Hà Nội Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 ... NGHỆ THƠNG TIN ĐỖ THỊ HẠNH TÌM KIẾM MỜ VÀ ỨNG DỤNG TÌM KIẾM THƠNG TIN TRONG CÁC VĂN BẢN NÉN Chuyên ngành: Khoa học máy tính Mã số: 60 48 35 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS.TS ĐỒN VĂN BAN... Chương TÌM KIẾM MẪU TRONG VĂN BẢN THEO CÁCH TIẾP CẬN OTOMAT MỜ 1.1 Tổng quan tìm kiếm mẫu văn 1.1.1 Giới thiệu chung vấn đề tìm kiếm văn 1.1.2 Các dạng tìm kiếm kết nghiên... thích độ mờ mơ hình 45 2.3 Kết luận chương 46 Chương TÌM KIẾM MẪU TRONG VĂN BẢN NÉN VÀ MÃ HOÁ 47 3.1 Tiếp cận tìm kiếm tổng quát văn nén mã hoá 47 3.2 Tìm kiếm văn nén

Ngày đăng: 24/03/2021, 17:40

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN