1. Trang chủ
  2. » Luận Văn - Báo Cáo

ThS37 084 tìm kiếm mờ và ứng dụng tìm kiếm thông tin trong các văn bản nén

76 285 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 878,37 KB

Nội dung

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN ĐỖ THỊ HẠNH TÌM KIẾM MỜ VÀ ỨNG DỤNG TÌM KIẾM THÔNG TIN TRONG CÁC VĂN BẢN NÉN Chuyên ngành: Khoa học máy tính Mã số: 60 48 35 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN ĐỖ THỊ HẠNH TÌM KIẾM MỜ VÀ ỨNG DỤNG TÌM KIẾM THÔNG TIN TRONG CÁC VĂN BẢN NÉN Chuyên ngành: Khoa học máy tính Mã số: 60 48 35 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS.TS ĐOÀN VĂN BAN Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy, cô khoa Công nghệ thông tin trường Đại học Thái Nguyên tạo điều kiện giúp đỡ truyền đạt cho em kiến thức chuyên ngành kiến thức xã hội Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Đoàn Văn Ban - Viện Khoa học Công nghệ Việt Nam Thầy trực tiếp hướng dẫn giúp đỡ em hoàn thành luận văn Mặc dù, trình làm luận văn em gặp nhiều khó khăn thầy động viên, chia sẻ, nguồn động lực lớn giúp em vượt qua Thầy gương cho em công tác giảng dạy, nghiên cứu khoa học, sống Em xin cảm ơn thầy Em không quên động viên, khích lệ gia đình, bạn bè người thân giúp đỡ em vượt qua khó khăn để em hoàn thành khoá học Em xin chân thành cảm ơn! Thái Nguyên, tháng 11 năm 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỤC LỤC MỞ ĐẦU Chương TÌM KIẾM MẪU TRONG VĂN BẢN THEO CÁCH TIẾP CẬN OTOMAT MỜ 1.1 Tổng quan tìm kiếm mẫu văn 1.1.1 Giới thiệu chung vấn đề tìm kiếm văn 1.1.2 Các dạng tìm kiếm kết nghiên cứu 1.1.2.1 Tìm đơn mẫu 1.1.2.2 Tìm đa mẫu 1.1.2.3 Tìm mẫu mở rộng 1.1.2.4 Tìm kiếm xấp xỉ 10 1.1.2.4.1 Phát biểu toán 10 1.1.2.4.2 Các tiếp cận tìm kiếm xấp xỉ 11 1.1.2.4.3 Độ tương tự hai xâu 12 1.1.3 Tìm kiếm văn nén mã hoá 14 1.2 Hệ mờ 15 1.3 Ý tưởng chung tiếp cận otomat mờ 15 1.4 Khái niệm otomat mờ 17 1.5 Một số thuật toán so mẫu 18 1.5.1 Thuật toán KMP ( Knuth- Morris- Pratt) 18 1.5.2 Thuật toán BM ( Boyer- Moor) 22 1.6 Kết luận chương 26 Chương BÀI TOÁN SO MẪU THEO CÁCH TIẾP CẬN OTOMAT MỜ 27 2.1 Bài toán so mẫu xác 27 2.1.1 Phát biểu toán 27 2.1.2 Độ mờ mô hình 27 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 2.1.3 Thuật toán KMP mờ 28 2.1.3.1 Otomat so mẫu 28 2.1.3.2 Tính đắn thuật toán 29 2.1.3.3 Thuật toán 29 2.1.3.4 So sánh KM P thuật toán KMP mờ 32 2.1.4 Thuật toán KMP - BM mờ 33 2.1.4.1 Ý tưởng thuật toán 33 2.1.4.2 Otomat mờ so mẫu 35 2.1.4.3 Thuật toán 2.4 37 2.2 Bài toán so mẫu xấp xỉ 38 2.2.1 Đặt vấn đề 38 2.2.2 Bài toán 39 2.2.3 Độ tương tự dựa độ dài khúc chung hai xâu 40 2.2.3.1 Phát biểu toán 40 2.2.3.2 Otomat so mẫu 42 2.2.4 Độ gần tựa ngữ nghĩa 43 2.2.4.1 Ý tưởng độ gần 43 2.2.4.2 Thuật toán sơ tính độ gần 44 2.2.4.2.1 Ý tưởng 44 2.2.4.2.2 Thuật toán chi tiết 44 2.2.4.3 Giải thích độ mờ mô hình 45 2.3 Kết luận chương 46 Chương TÌM KIẾM MẪU TRONG VĂN BẢN NÉN VÀ MÃ HOÁ 47 3.1 Tiếp cận tìm kiếm tổng quát văn nén mã hoá 47 3.2 Tìm kiếm văn nén 50 3.2.1 Các mô hình nén văn 50 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 3.2.2 Thuật toán tìm kiếm liệu nén dạng text 50 3.3 Tìm kiếm văn mã hóa 55 3.3.1 Tìm kiếm văn mã hóa dạng khối kí tự 55 3.3.2 Mã đàn hồi 55 3.3.3 Tìm kiếm văn mã hóa mã đàn hồi 58 3.3.3.1 Ý tưởng chung 58 3.3.3.2 Phương pháp đánh giá độ mờ xuất mẫu văn mã hóa 59 3.3.3.2.1 Bài toán 59 3.3.3.2.2 Mô tả phương pháp 59 3.3.3.2.3 Chi tiết hóa otomat thuật toán 60 3.3.3.2.4 Thuật toán tìm kiếm mẫu dựa otomat 61 3.3.4 Tìm kiếm văn mã hóa hai tầng 63 3.4 Kết luận chương 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các ký hiệu  Xâu rỗng wi Ký tự thứ i xâu w w(f, d) Xâu (hay khúc con) độ dài f xâu w, kết thúc vị trí d w w1 ≤ s w2 Xâu w1 khúc đuôi w2 w1 ≤ ls w2 Xâu w1 khúc đuôi dài w2 w(t) preft(w) Khúc đầu độ dài t xâu w suft(w) Khúc cuối độ dài t xâu w |A| Lực lượng tập A Các chữ viết tắt NFA Otomat đa định hữu hạn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ý nghĩa mảng next 19 Hình 1.2 Ý nghĩa mảng next vị trí m + 19 Hình 2.1 Dịch chuyển trỏ mẫu 32 Hình 2.2 Ý tưởng chung thuật toán KMP-BM mờ 35 Hình 2.3 Một ví dụ với khối độ dài t = 44 Hình 2.4 Tập mờ mô tả độ gần tựa ngữ nghĩa mẫu P so với xâu đích S 45 Hình 3.1 Phương pháp so mẫu miền nén có sử dụng otomat mờ 48 Hình 3.2 Phương pháp so mẫu không giải mã 49 Hình 3.3 Queue trước (a) sau (b) thực thủ tục Decompress 52 Hình 3.4 Queue trước (a) sau (b) bước nhảy n2‟ 53 Hình 3.5 Đồ thị xây dựng khái niệm tích đàn hồi 56 Hình 3.6 Đồ thị xác định mã đàn hồi 58 Hình 2.7 Quá trình mã hóa hai tầng 64 Hình 2.8 Quá trình giải mã hai tầng 64 Hình 2.9 Quá trình tìm kiếm mẫu văn mã hóa hai tầng 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỞ ĐẦU Lý chọn đề tài Bộ não người xử lý thông tin hai mức: - Mức định lượng (chính xác) - Mức định tính (không xác, bất định, mơ hồ, không chắn, nhập nhằng, không rõ ràng, mờ) Tính thông minh trình xử lý thông tin thể khả xử lý thông tin định tính Đây điều mà hệ máy tính hướng tới Máy tính ngày sử dụng hầu hết lĩnh vực góp phần quan trọng vào việc thúc đẩy phát triển kinh tế, xã hội, khoa học kỹ thuật, … Máy tính đời nhằm phục vụ cho mục đích định người Với tất xử lý máy tính để lấy thông tin hữu ích trình xử lí vấn đề đặc biệt quan trọng tìm kiếm thông tin với khối lượng lớn, độ xác cao, thời gian nhanh Tìm kiếm thông tin toán đóng vai trò quan trọng toán so mẫu, với mẫu kiểu liệu nào, từ văn đến loại liệu đa phương tiện khác (ảnh, video, âm thanh, …) Trên thực tế có nhiều ứng dụng tìm kiếm thông tin như: công cụ tìm kiếm hệ điều hành, khai phá web Internet, Để tìm kiếm thông tin cần phải xem thông tin lưu trữ dạng liệu nào? Dữ liệu lưu trữ nhiều dạng, song phổ biến dạng text nên chọn đề tài cụ thể tìm kiếm văn text Tìm kiếm văn text văn có khối lượng lớn nhiều thời gian với thuật toán kinh điển Vậy đặt vấn đề tìm kiếm văn dạng nén nhanh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Ở ta xét loại hình thức giải nén mà mã nén cho khối kí tự (như Hufman, LZ, LZW ) Với giải thuật nén mà liệu giải nén không dạng khối kí tự cần thay đổi nguyên tắc họat động thủ tục Decompress Có thể tăng thêm chế quản lý buffer liệu mảng bit phải có trỏ quản lý tới bit Thuật toán 3.1 Vào: Mẫu P độ dài m, dòng liệu S dạng nén, AP bảng kí tự xuất mẫu P Ra: - Mảng apr lưu vị trí xuất mẫu văn sau mở nén - Counter lưu số lần xuất mẫu P F old F F new = F old  n2‟ m+1 len_queue m+1 len_queue B (a) B (b) Hình 3.4 Queue trước (a) sau (b) bước nhảy n2‟ Phương pháp : (Hình 3.4) Begin F := 0; B := 0; lenqueue := 0; counter := 0; j := 0; n1 := 0; n2 := 1; repeat F := F  n2; j := j + n2; if len_queue then n1 := 0; n1’ := TFuzz (n1, buffer [F]); n2’ := 1; if n1’ = m then begin counter: =counter + 1; apr [counterr]:=j - m+1; end else if n1’ < m and n1’ < n1 then begin t:=F (m-n1’) if t > B then return; if buffer[t]  Ap then n2’:= + m - n1’; end; len_queue := len_queue - n2’; n1:=n1’; n2:= n2’; until len_queue =n; return (counter); Ví dụ 3.7 Với mẫu P=ababa, xâu đích S=aacdababab mã hóa thành Y a b b b b Y = 0000110111000100011001001100010 a c a a b a Quá trình duyệt Y để thống kê tần suất xuất mẫu P sau: Khởi đầu 1 j Yj AoSeek(P1,j) q=1(q,Yj) 0 f=2‟(f,q) counter 1 0 1 0 13 14 1 15 16 17 0 18 1 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 19 20 21 22 1 23 24 25 1 26 27 28 29 0 30 1 31 3.3.4 Tìm kiếm văn mã hóa hai tầng Trong hệ thống bảo vệ liệu cá nhân, việc sử dụng mã hóa đàn hồi giải thuật so mẫu không giải mã đáp ứng tốt nhu cầu bảo mật mà tìm thấy thông tin cần thiết Tuy nhiên, để nâng cao mức độ bảo mật, tùy thuộc nhu cầu ứng dụng sử dụng sản phẩm mã hóa liệu chất lượng cao sẵn có, phần tác giả đưa giải pháp mã hóa hai tầng Giả sử C1 hàm mã hóa theo mã đàn hồi với hàm giải mã D1, C2 hàm mã hóa hàm nén theo giải thuật (như hệ mã đối xứng AES, IDEA, SEFER; hệ mã công khai RSA [16] [17]; nén Huffman, LXW, [15], có hàm giải mã D2 Quá trình mã hóa hai tầng mô tả Hình 3.7 Hình 3.8 trình giải mã Khi đó, giải thuật tìm kiếm mẫu văn mã hóa mã hai tầng thể qua sơ đồ Hình 2.9 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Bản rõ X C1 C2 Y1 = C1(X) Bản mã Y = C2(C1(X)) Hình 2.7 Quá trình mã hóa hai tầng D1 Bản rõ X= D1(D2(Y)) D2 Y1 = D2(Y) Bản mã Y Hình 2.8 Quá trình giải mã hai tầng Y: Văn mã hóa hai tầng Y1: Văn mã hóa C1 Giải mã Y D2 Đọc ký tự thuộc mã Otomat đoán nhận từ mã Nếu từ mã Otomat so mẫu Mẫu P Tiền xử lý Độ mờ xuất mẫu P Hình 2.9 Quá trình tìm kiếm mẫu văn mã hóa hai tầng 3.4 Kết luận chương Chương trình bày kết luận văn vấn đề tìm kiếm mẫu môi trường văn nén mã hóa, bao gồm: - Giới thiệu sơ đồ tìm kiếm tổng quát - Trình bày thuật toán theo kiểu so mẫu miền nén, cải tiến từ thuật toán KMP-BM (xem mục 2.4), để áp dụng cho văn nén dạng khối kí tự Với giải thuật nén mà liệu giải nén không dạng khối kí tự, cải biên thuật toán cách thay đổi nguyên tắc họat động thủ tục giải nén Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 KẾT LUẬN Luận văn tìm hiểu otomat mờ, số thuật toán tìm kiếm giới thiệu hai toán so mẫu xấp xỉ - xác Trình bày thuật toán so mẫu hai toán dựa vào độ tương tự hai xâu theo mô hình "lỗi" kinh điển Ngoài ra, luận văn trình bày thuật toán so mẫu cho văn nén mã hoá dạng text thu kết Các kết đạt luận văn:  Trình bày tổng quan tìm kiếm mẫu văn bản, từ đưa dạng tìm kiếm mẫu  Giới thiệu hệ mờ, ý tưởng chung tiếp cận otomat mờ Sau đưa số thuật toán so mẫu KMP, BM  Trình bày thuật toán so mẫu xác xấp xỉ theo tiếp cận otomat mờ thuật toán tìm kiếm mẫu văn nén mã hoá Một số hạn chế luận văn:  Chưa cài đặt chương trình tìm kiếm mẫu văn nén mã hoá  Thuật toán đưa chưa tối ưu  Trình bày luận văn lủng củng Hướng nghiên cứu tiếp theo:  Cài đặt chương trình tìm kiếm mẫu văn nén, mã hoá ứng dụng chương trình tìm kiếm thông tin  Giới thiệu thuật toán tối ưu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Do thời gian khả có hạn, luận văn thiếu sót nhiều, em mong nhận góp ý, dẫn thêm Thầy Cô, bạn bè để em xây dựng ứng dụng hoàn thiện Một lần em xin chân thành cảm ơn Thầy hướng dẫn PGS.TS Đoàn Văn Ban, Thầy Cô khoa tạo điều kiện thuận lợi để em hoàn thành luận văn thời hạn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Gonzalo Navarro, Mathieu Raffinot (2000), Fast and Flexible String Matching by Combining Bit - Parallelism and Suffix Automata, ACM Journal of Experimental Algorithmics (JEA) [2] Gonzalo Navarro, Mathieu Raffinot (2002), Flexible Pattern Matching in Strings, Cambridge University Press, ISBN 0-521-81307-7 [3] Heikki Hyyro (2002), A Bit - Vector Algorithm for Computing Levenshtein and Damerau Edit Distances, Proceedings of the Prague Stringology Conference '02, pp 44-54 [4] Aho A.V.(1992), Algorithms for finding patterns in strings, Chapter of Jan Van Leeuwen (ed.), Handbook of Theoretical Computer Science "Algorithms and Complexity", The MIT Press, pp 255-300 [5] Christian Charras, Thierry Lecroq (2000), Handbook of Exact Stringmatching Algorithms Tiếng Việt [6] Phan Trung Huy Nguyễn Quý Khang (2002), "A New Algorithm For LCS Problem", Kỷ yếu Hội nghị Toán học Toàn quốc 9/2002 [7] Robert Sedgewick (1994), Cẩm nang thuật toán, Tập 1: Các thuật toán thông dụng, NXB Khoa học Kỹ thuật, tr 324 - 351 [8] Vũ Thành Nam, Phan Trung Huy, Nguyễn Thị Thanh Huyền (2005), Mã tích đàn hồi tìm kiếm văn mã hoá sử dụng thuật toán so mẫu theo tiếp cận mờ, Báo cáo khoa học Hội nghị Ứng dụng toán học toàn quốc lần 2, Hà Nội, 12/2005 [9] Nguyễn Thị Thanh Huyền (2006), Luận án Tìm kiếm mờ, phân cụm mờ ứng dụng mạng trường Đại học Bách khoa Hà Nội Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 [...]... chúng tôi đi vào làm cụ thể là tìm kiếm mẫu trong văn bản nén Ngoài ra, văn bản nén cũng là văn bản mã hoá nhưng dung lượng giảm nhiều so với văn bản nguồn nên chúng tôi đi nghiên cứu mở rộng thêm văn bản mã hoá Trong các bài toán tìm kiếm, để tìm kiếm nhanh đáp ứng được nhu cầu và không chỉ tìm kiếm cứng nhắc trong với từ khoá đưa ra Người dùng mong muốn có thể tìm được cả những thông tin liên quan... luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Chương 1 TÌM KIẾM MẪU TRONG VĂN BẢN THEO CÁCH TIẾP CẬN OTOMAT MỜ 1.1 Tổng quan về tìm kiếm mẫu trên văn bản 1.1.1 Giới thiệu chung về vấn đề tìm kiếm văn bản Kiểu văn bản (Text) là dạng biểu diễn dữ liệu hay gặp nhất trong các hệ thống thông tin Tìm kiếm văn bản (text searching) là vấn đề chủ yếu thuộc lĩnh vực quản lý văn bản Một dạng cơ bản và tổng... matching) và so mẫu trên miền nén (compressed- domain pattern matching) 9 So mẫu nén thực hiện nén mẫu trước rồi đem đi tìm kiếm trên văn bản nén (compressed text representation), còn so mẫu trên miền nén sử dụng giải pháp nén từng phần của văn bản Nén dữ liệu text thực chất là một quá trình mã hoá, chuyển các thông báo nguồn (trong bảng chữ nguồn A) thành các bản mã (trong bản chữ mã B) và ngược... nghiên cứu - Tìm hiểu về otomát mờ - Tìm hiểu về văn bản nén và mã hoá - Cách so mẫu theo hướng tiếp cận otomát mờ 4 Giả thuyết khoa học Nếu chúng ta sử dụng tiếp cận otomát mờ thì chúng ta không những tìm kiếm được những thông tin chính xác mong muốn mà còn tìm kiếm được những thông tin liên quan trong thời gian nhanh nhất, đáp ứng nhu cầu người dùng 5 Nhiệm vụ nghiên cứu - Nghiên cứu về otomat mờ - Nghiên... dạng và đặc biệt được dùng trong đoán nhận mẫu Tận dụng những ưu điểm trên và sự kết hợp với lý thuyết mờ, sử dụng một số hệ hình thức otomat mờ để giải bài toán so xâu mẫu Để thấy rõ được tiếp cận otomat mờ chúng tôi chọn một bài toán cụ thể là tìm kiếm mẫu trong văn bản nén và mã hoá Trong phạm vi luận văn, bài toán có thể làm với các tệp dữ liệu nén mà không cần giải nén toàn bộ Ý tưởng cơ bản là... việc tìm kiếm theo hệ mờ là rất cần thiết Vì vậy cần phải xây dựng các thuật toán mềm dẻo cho phép phát huy được sức mạnh của tìm kiếm mờ và đặc biệt cho phép sử dụng được nguồn tri thức giàu tính chuyên gia trong những tính huống tìm kiếm phức tạp 2 Mục đích nghiên cứu Luận văn tập trung nghiên cứu về tiếp cận otomat mờ và xây dựng một số giải thuật tiếp cận otomat mờ để tìm kiếm mẫu của văn bản nén. .. liên quan, các cơ sở lý thuyết: Hệ mờ, otomat mờ, các thuật toán tìm kiếm mẫu, các thuật toán tìm kiếm mẫu theo cách tiếp cận otomat mờ 7 Phương pháp nghiên cứu Otomat mờ được xem là sự tổng quát hoá của otomat hữu hạn Trong đó tập trạng thái là các tập mờ, hàm chuyển trạng thái và trạng thái kết thúc được biểu diễn qua các quan hệ mờ Theo đánh giá của các chuyên gia, các hệ hình thức otomat mờ là mô... ra một vài kiểu “lỗi”, như những lỗi đánh máy hay lỗi chính tả trong hệ thống trích rút thông tin, những sự biến đổi chuỗi gen hay các lỗi đo đạc trong sinh- tin học và những lỗi truyền dữ liệu trong các hệ thống xử lý tín hiệu,… Vì trong các hệ thống tin học khó có thể tránh được các “lỗi” nên vấn đề tìm kiếm xấp xỉ càng trở nên quan trọng Đặc biệt, khi sử dụng các hệ thống trích rút thông tin, người... tệp nén và mở nén một số mã nén, lưu kết quả giải nén cục bộ vào vùng đệm và áp dụng thuật toán theo tiếp cận mờ trên vùng đệm này Nội dung luận văn gồm có phần mở đầu, 3 chương, phần kết luận, tài liệu tham khảo và phụ lục Chương 1- Giới thiệu chung về vấn đề tìm kiếm văn bản, trọng tâm là bài toán so xâu mẫu Hướng tiếp cận của luận văn cho bài toán so mẫu, chính xác và xấp xỉ, trên môi trường nén và. .. dài n và xâu mẫu P độ dài m trên cùng một bảng chữ A Tìm các vị trí trong văn bản khớp với mẫu, cho phép nhiều nhất k lỗi 1.1.2.4.2 Các tiếp cận tìm kiếm xấp xỉ Trong 2, tác giả chia các thuật toán tìm kiếm xấp xỉ hiện nay ra thành 4 loại 1) Các thuật toán dựa trên quy hoạch động: Đây là tiếp cận xuất hiện đầu tiên và đã được dùng để tính khoảng cách soạn thảo (Edit Distance) (như trong 4) 2) Các

Ngày đăng: 13/07/2016, 09:34

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4]. Aho A.V.(1992), Algorithms for finding patterns in strings, Chapter 5 of Jan Van Leeuwen (ed.), Handbook of Theoretical Computer Science "Algorithms and Complexity", The MIT Press, pp. 255-300 Sách, tạp chí
Tiêu đề: Algorithms and Complexity
Tác giả: Aho A.V
Năm: 1992
[6]. Phan Trung Huy và Nguyễn Quý Khang (2002), "A New Algorithm For LCS Problem", Kỷ yếu Hội nghị Toán học Toàn quốc 9/2002 Sách, tạp chí
Tiêu đề: A New Algorithm For LCS Problem
Tác giả: Phan Trung Huy và Nguyễn Quý Khang
Năm: 2002
[1]. Gonzalo Navarro, Mathieu Raffinot (2000), Fast and Flexible String Matching by Combining Bit - Parallelism and Suffix Automata, ACM Journal of Experimental Algorithmics (JEA) Khác
[2]. Gonzalo Navarro, Mathieu Raffinot (2002), Flexible Pattern Matching in Strings, Cambridge University Press, ISBN 0-521-81307-7 Khác
[3]. Heikki Hyyro (2002), A Bit - Vector Algorithm for Computing Levenshtein and Damerau Edit Distances, Proceedings of the Prague Stringology Conference '02, pp. 44-54 Khác
[5]. Christian Charras, Thierry Lecroq (2000), Handbook of Exact Stringmatching Algorithms.Tiếng Việt Khác
[7]. Robert Sedgewick (1994), Cẩm nang thuật toán, Tập 1: Các thuật toán thông dụng, NXB Khoa học và Kỹ thuật, tr. 324 - 351 Khác
[8]. Vũ Thành Nam, Phan Trung Huy, Nguyễn Thị Thanh Huyền (2005), Mã tích đàn hồi và tìm kiếm trên văn bản mã hoá sử dụng thuật toán so mẫu theo tiếp cận mờ, Báo cáo khoa học tại Hội nghị Ứng dụng toán học toàn quốc lần 2, Hà Nội, 12/2005 Khác
[9]. Nguyễn Thị Thanh Huyền (2006), Luận án Tìm kiếm mờ, phân cụm mờ và ứng dụng trên mạng tại trường Đại học Bách khoa Hà Nội Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN