1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

luận văn thạc sĩ Tìm kiếm mờ và ứng dụng tìm kiếm thông tin trong các văn bản nén

76 288 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 869,35 KB

Nội dung

Header Page of 89 ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN ĐỖ THỊ HẠNH TÌM KIẾM MỜ VÀ ỨNG DỤNG TÌM KIẾM THÔNG TIN TRONG CÁC VĂN BẢN NÉN Chuyên ngành: Khoa học máy tính Mã số: 60 48 35 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Footer Page of 89 http://www.lrc-tnu.edu.vn Header Page of 89 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Footer Page of 89 http://www.lrc-tnu.edu.vn Header Page of 89 ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN ĐỖ THỊ HẠNH TÌM KIẾM MỜ VÀ ỨNG DỤNG TÌM KIẾM THÔNG TIN TRONG CÁC VĂN BẢN NÉN Chuyên ngành: Khoa học máy tính Mã số: 60 48 35 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Footer Page of 89 http://www.lrc-tnu.edu.vn Header Page of 89 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy, cô khoa Công nghệ thông tin trường Đại học Thái Nguyên tạo điều kiện giúp đỡ truyền đạt cho em kiến thức chuyên ngành kiến thức xã hội Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Đoàn Văn Ban - Viện Khoa học Công nghệ Việt Nam Thầy trực tiếp hướng dẫn giúp đỡ em hoàn thành luận văn Mặc dù, trình làm luận văn em gặp nhiều khó khăn thầy động viên, chia sẻ, nguồn động lực lớn giúp em vượt qua Thầy gương cho em công tác giảng dạy, nghiên cứu khoa học, sống Em xin cảm ơn thầy Em không quên động viên, khích lệ gia đình, bạn bè người thân giúp đỡ em vượt qua khó khăn để em hoàn thành khoá học Em xin chân thành cảm ơn! Thái Nguyên, tháng 11 năm 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Footer Page of 89 http://www.lrc-tnu.edu.vn Header Page of 89 MỤC LỤC MỞ ĐẦU Chương TÌM KIẾM MẪU TRONG VĂN BẢN THEO CÁCH TIẾP CẬN OTOMAT MỜ 1.1 Tổng quan tìm kiếm mẫu văn 1.1.1 Giới thiệu chung vấn đề tìm kiếm văn 1.1.2 Các dạng tìm kiếm kết nghiên cứu 1.1.2.1 Tìm đơn mẫu 1.1.2.2 Tìm đa mẫu 1.1.2.3 Tìm mẫu mở rộng 1.1.2.4 Tìm kiếm xấp xỉ 10 1.1.2.4.1 Phát biểu toán 10 1.1.2.4.2 Các tiếp cận tìm kiếm xấp xỉ 11 1.1.2.4.3 Độ tương tự hai xâu 12 1.1.3 Tìm kiếm văn nén mã hoá 14 1.2 Hệ mờ 15 1.3 Ý tưởng chung tiếp cận otomat mờ 15 1.4 Khái niệm otomat mờ 17 1.5 Một số thuật toán so mẫu 18 1.5.1 Thuật toán KMP ( Knuth- Morris- Pratt) 18 1.5.2 Thuật toán BM ( Boyer- Moor) 22 1.6 Kết luận chương 26 Chương BÀI TOÁN SO MẪU THEO CÁCH TIẾP CẬN OTOMAT MỜ 27 2.1 Bài toán so mẫu xác 27 2.1.1 Phát biểu toán 27 2.1.2 Độ mờ mô hình 27 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Footer Page of 89 http://www.lrc-tnu.edu.vn Header Page of 89 2.1.3 Thuật toán KMP mờ 28 2.1.3.1 Otomat so mẫu 28 2.1.3.2 Tính đắn thuật toán 29 2.1.3.3 Thuật toán 29 2.1.3.4 So sánh KM P thuật toán KMP mờ 32 2.1.4 Thuật toán KMP - BM mờ 33 2.1.4.1 Ý tưởng thuật toán 33 2.1.4.2 Otomat mờ so mẫu 35 2.1.4.3 Thuật toán 2.4 37 2.2 Bài toán so mẫu xấp xỉ 38 2.2.1 Đặt vấn đề 38 2.2.2 Bài toán 39 2.2.3 Độ tương tự dựa độ dài khúc chung hai xâu 40 2.2.3.1 Phát biểu toán 40 2.2.3.2 Otomat so mẫu 42 2.2.4 Độ gần tựa ngữ nghĩa 43 2.2.4.1 Ý tưởng độ gần 43 2.2.4.2 Thuật toán sơ tính độ gần 44 2.2.4.2.1 Ý tưởng 44 2.2.4.2.2 Thuật toán chi tiết 44 2.2.4.3 Giải thích độ mờ mô hình 45 2.3 Kết luận chương 46 Chương TÌM KIẾM MẪU TRONG VĂN BẢN NÉN VÀ MÃ HOÁ 47 3.1 Tiếp cận tìm kiếm tổng quát văn nén mã hoá 47 3.2 Tìm kiếm văn nén 50 3.2.1 Các mô hình nén văn 50 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Footer Page of 89 Header Page of 89 3.2.2 Thuật toán tìm kiếm liệu nén dạng text 50 3.3 Tìm kiếm văn mã hóa 55 3.3.1 Tìm kiếm văn mã hóa dạng khối kí tự 55 3.3.2 Mã đàn hồi 55 3.3.3 Tìm kiếm văn mã hóa mã đàn hồi 58 3.3.3.1 Ý tưởng chung 58 3.3.3.2 Phương pháp đánh giá độ mờ xuất mẫu văn mã hóa 59 3.3.3.2.1 Bài toán 59 3.3.3.2.2 Mô tả phương pháp 59 3.3.3.2.3 Chi tiết hóa otomat thuật toán 60 3.3.3.2.4 Thuật toán tìm kiếm mẫu dựa otomat 61 3.3.4 Tìm kiếm văn mã hóa hai tầng 63 3.4 Kết luận chương 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Footer Page of 89 Header Page of 89 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các ký hiệu  Xâu rỗng wi Ký tự thứ i xâu w w(f, d) Xâu (hay khúc con) độ dài f xâu w, kết thúc vị trí d w w1 ≤ s w2 Xâu w1 khúc đuôi w2 w1 ≤ ls w2 Xâu w1 khúc đuôi dài w2 w(t) preft(w) Khúc đầu độ dài t xâu w suft(w) Khúc cuối độ dài t xâu w |A| Lực lượng tập A Các chữ viết tắt NFA Otomat đa định hữu hạn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Footer Page of 89 http://www.lrc-tnu.edu.vn Header Page of 89 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ý nghĩa mảng next 19 Hình 1.2 Ý nghĩa mảng next vị trí m + 19 Hình 2.1 Dịch chuyển trỏ mẫu 32 Hình 2.2 Ý tưởng chung thuật toán KMP-BM mờ 35 Hình 2.3 Một ví dụ với khối độ dài t = 44 Hình 2.4 Tập mờ mô tả độ gần tựa ngữ nghĩa mẫu P so với xâu đích S 45 Hình 3.1 Phương pháp so mẫu miền nén có sử dụng otomat mờ 48 Hình 3.2 Phương pháp so mẫu không giải mã 49 Hình 3.3 Queue trước (a) sau (b) thực thủ tục Decompress 52 Hình 3.4 Queue trước (a) sau (b) bước nhảy n2‟ 53 Hình 3.5 Đồ thị xây dựng khái niệm tích đàn hồi 56 Hình 3.6 Đồ thị xác định mã đàn hồi 58 Hình 2.7 Quá trình mã hóa hai tầng 64 Hình 2.8 Quá trình giải mã hai tầng 64 Hình 2.9 Quá trình tìm kiếm mẫu văn mã hóa hai tầng 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Footer Page of 89 http://www.lrc-tnu.edu.vn Header Page 10 of 89 MỞ ĐẦU Lý chọn đề tài Bộ não người xử lý thông tin hai mức: - Mức định lượng (chính xác) - Mức định tính (không xác, bất định, mơ hồ, không chắn, nhập nhằng, không rõ ràng, mờ) Tính thông minh trình xử lý thông tin thể khả xử lý thông tin định tính Đây điều mà hệ máy tính hướng tới Máy tính ngày sử dụng hầu hết lĩnh vực góp phần quan trọng vào việc thúc đẩy phát triển kinh tế, xã hội, khoa học kỹ thuật, … Máy tính đời nhằm phục vụ cho mục đích định người Với tất xử lý máy tính để lấy thông tin hữu ích trình xử lí vấn đề đặc biệt quan trọng tìm kiếm thông tin với khối lượng lớn, độ xác cao, thời gian nhanh Tìm kiếm thông tin toán đóng vai trò quan trọng toán so mẫu, với mẫu kiểu liệu nào, từ văn đến loại liệu đa phương tiện khác (ảnh, video, âm thanh, …) Trên thực tế có nhiều ứng dụng tìm kiếm thông tin như: công cụ tìm kiếm hệ điều hành, khai phá web Internet, Để tìm kiếm thông tin cần phải xem thông tin lưu trữ dạng liệu nào? Dữ liệu lưu trữ nhiều dạng, song phổ biến dạng text nên chọn đề tài cụ thể tìm kiếm văn text Tìm kiếm văn text văn có khối lượng lớn nhiều thời gian với thuật toán kinh điển Vậy đặt vấn đề tìm kiếm văn dạng nén nhanh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Footer Page 10 of 89 Header Page 62 of 89 Ở ta xét loại hình thức giải nén mà mã nén cho khối kí tự (như Hufman, LZ, LZW ) Với giải thuật nén mà liệu giải nén không dạng khối kí tự cần thay đổi nguyên tắc họat động thủ tục Decompress Có thể tăng thêm chế quản lý buffer liệu mảng bit phải có trỏ quản lý tới bit Thuật toán 3.1 Vào: Mẫu P độ dài m, dòng liệu S dạng nén, AP bảng kí tự xuất mẫu P Ra: - Mảng apr lưu vị trí xuất mẫu văn sau mở nén - Counter lưu số lần xuất mẫu P F old F F new = F old  n2‟ m+1 len_queue m+1 len_queue B (a) B (b) Hình 3.4 Queue trước (a) sau (b) bước nhảy n2‟ Phương pháp : (Hình 3.4) Begin F := 0; B := 0; lenqueue := 0; counter := 0; j := 0; n1 := 0; n2 := 1; repeat F := F  n2; j := j + n2; if len_queue then n1 := 0; n1’ := TFuzz (n1, buffer [F]); n2’ := 1; if n1’ = m then begin counter: =counter + 1; apr [counterr]:=j - m+1; end else if n1’ < m and n1’ < n1 then begin t:=F (m-n1’) if t > B then return; if buffer[t]  Ap then n2’:= + m - n1’; end; len_queue := len_queue - n2’; n1:=n1’; n2:= n2’; until len_queue =n; return (counter); Ví dụ 3.7 Với mẫu P=ababa, xâu đích S=aacdababab mã hóa thành Y a b b b b Y = 0000110111000100011001001100010 a c a a b a Quá trình duyệt Y để thống kê tần suất xuất mẫu P sau: Khởi đầu 1 j Yj AoSeek(P1,j) q=1(q,Yj) f=2‟(f,q) counter 1 0 1 0 13 14 1 15 16 17 0 18 1 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 Footer Page 71 of 89 Header Page 72 of 89 19 20 21 22 1 23 24 25 1 26 27 28 29 0 30 1 31 3.3.4 Tìm kiếm văn mã hóa hai tầng Trong hệ thống bảo vệ liệu cá nhân, việc sử dụng mã hóa đàn hồi giải thuật so mẫu không giải mã đáp ứng tốt nhu cầu bảo mật mà tìm thấy thông tin cần thiết Tuy nhiên, để nâng cao mức độ bảo mật, tùy thuộc nhu cầu ứng dụng sử dụng sản phẩm mã hóa liệu chất lượng cao sẵn có, phần tác giả đưa giải pháp mã hóa hai tầng Giả sử C1 hàm mã hóa theo mã đàn hồi với hàm giải mã D1, C2 hàm mã hóa hàm nén theo giải thuật (như hệ mã đối xứng AES, IDEA, SEFER; hệ mã công khai RSA [16] [17]; nén Huffman, LXW, [15], có hàm giải mã D2 Quá trình mã hóa hai tầng mô tả Hình 3.7 Hình 3.8 trình giải mã Khi đó, giải thuật tìm kiếm mẫu văn mã hóa mã hai tầng thể qua sơ đồ Hình 2.9 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 Footer Page 72 of 89 Header Page 73 of 89 Bản rõ X C1 C2 Y1 = C1(X) Bản mã Y = C2(C1(X)) Hình 2.7 Quá trình mã hóa hai tầng D1 Bản rõ X= D1(D2(Y)) D2 Y1 = D2(Y) Bản mã Y Hình 2.8 Quá trình giải mã hai tầng Y: Văn mã hóa hai tầng Y1: Văn mã hóa C1 Giải mã Y D2 Đọc ký tự thuộc mã Otomat đoán nhận từ mã Nếu từ mã Otomat so mẫu Mẫu P Tiền xử lý Độ mờ xuất mẫu P Hình 2.9 Quá trình tìm kiếm mẫu văn mã hóa hai tầng 3.4 Kết luận chương Chương trình bày kết luận văn vấn đề tìm kiếm mẫu môi trường văn nén mã hóa, bao gồm: - Giới thiệu sơ đồ tìm kiếm tổng quát - Trình bày thuật toán theo kiểu so mẫu miền nén, cải tiến từ thuật toán KMP-BM (xem mục 2.4), để áp dụng cho văn nén dạng khối kí tự Với giải thuật nén mà liệu giải nén không dạng khối kí tự, cải biên thuật toán cách thay đổi nguyên tắc họat động thủ tục giải nén Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Footer Page 73 of 89 Header Page 74 of 89 KẾT LUẬN Luận văn tìm hiểu otomat mờ, số thuật toán tìm kiếm giới thiệu hai toán so mẫu xấp xỉ - xác Trình bày thuật toán so mẫu hai toán dựa vào độ tương tự hai xâu theo mô hình "lỗi" kinh điển Ngoài ra, luận văn trình bày thuật toán so mẫu cho văn nén mã hoá dạng text thu kết Các kết đạt luận văn:  Trình bày tổng quan tìm kiếm mẫu văn bản, từ đưa dạng tìm kiếm mẫu  Giới thiệu hệ mờ, ý tưởng chung tiếp cận otomat mờ Sau đưa số thuật toán so mẫu KMP, BM  Trình bày thuật toán so mẫu xác xấp xỉ theo tiếp cận otomat mờ thuật toán tìm kiếm mẫu văn nén mã hoá Một số hạn chế luận văn:  Chưa cài đặt chương trình tìm kiếm mẫu văn nén mã hoá  Thuật toán đưa chưa tối ưu  Trình bày luận văn lủng củng Hướng nghiên cứu tiếp theo:  Cài đặt chương trình tìm kiếm mẫu văn nén, mã hoá ứng dụng chương trình tìm kiếm thông tin  Giới thiệu thuật toán tối ưu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Footer Page 74 of 89 Header Page 75 of 89 Do thời gian khả có hạn, luận văn thiếu sót nhiều, em mong nhận góp ý, dẫn thêm Thầy Cô, bạn bè để em xây dựng ứng dụng hoàn thiện Một lần em xin chân thành cảm ơn Thầy hướng dẫn PGS.TS Đoàn Văn Ban, Thầy Cô khoa tạo điều kiện thuận lợi để em hoàn thành luận văn thời hạn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 Footer Page 75 of 89 Header Page 76 of 89 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Gonzalo Navarro, Mathieu Raffinot (2000), Fast and Flexible String Matching by Combining Bit - Parallelism and Suffix Automata, ACM Journal of Experimental Algorithmics (JEA) [2] Gonzalo Navarro, Mathieu Raffinot (2002), Flexible Pattern Matching in Strings, Cambridge University Press, ISBN 0-521-81307-7 [3] Heikki Hyyro (2002), A Bit - Vector Algorithm for Computing Levenshtein and Damerau Edit Distances, Proceedings of the Prague Stringology Conference '02, pp 44-54 [4] Aho A.V.(1992), Algorithms for finding patterns in strings, Chapter of Jan Van Leeuwen (ed.), Handbook of Theoretical Computer Science "Algorithms and Complexity", The MIT Press, pp 255-300 [5] Christian Charras, Thierry Lecroq (2000), Handbook of Exact Stringmatching Algorithms Tiếng Việt [6] Phan Trung Huy Nguyễn Quý Khang (2002), "A New Algorithm For LCS Problem", Kỷ yếu Hội nghị Toán học Toàn quốc 9/2002 [7] Robert Sedgewick (1994), Cẩm nang thuật toán, Tập 1: Các thuật toán thông dụng, NXB Khoa học Kỹ thuật, tr 324 - 351 [8] Vũ Thành Nam, Phan Trung Huy, Nguyễn Thị Thanh Huyền (2005), Mã tích đàn hồi tìm kiếm văn mã hoá sử dụng thuật toán so mẫu theo tiếp cận mờ, Báo cáo khoa học Hội nghị Ứng dụng toán học toàn quốc lần 2, Hà Nội, 12/2005 [9] Nguyễn Thị Thanh Huyền (2006), Luận án Tìm kiếm mờ, phân cụm mờ ứng dụng mạng trường Đại học Bách khoa Hà Nội Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 Footer Page 76 of 89 ... NGHỆ THÔNG TIN ĐỖ THỊ HẠNH TÌM KIẾM MỜ VÀ ỨNG DỤNG TÌM KIẾM THÔNG TIN TRONG CÁC VĂN BẢN NÉN Chuyên ngành: Khoa học máy tính Mã số: 60 48 35 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS.TS ĐOÀN VĂN... thích độ mờ mô hình 45 2.3 Kết luận chương 46 Chương TÌM KIẾM MẪU TRONG VĂN BẢN NÉN VÀ MÃ HOÁ 47 3.1 Tiếp cận tìm kiếm tổng quát văn nén mã hoá 47 3.2 Tìm kiếm văn nén. .. Chương TÌM KIẾM MẪU TRONG VĂN BẢN THEO CÁCH TIẾP CẬN OTOMAT MỜ 1.1 Tổng quan tìm kiếm mẫu văn 1.1.1 Giới thiệu chung vấn đề tìm kiếm văn 1.1.2 Các dạng tìm kiếm kết nghiên

Ngày đăng: 06/03/2017, 04:08

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w