Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 113 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
113
Dung lượng
1,77 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - - NGUYỄN THỊ THANH HUYỀN ĐỐI SÁNH MẪU THEO TIẾP CẬN OTOMAT MỜ VÀ ỨNG DỤNG Chuyên ngành: Đảm bảo tốn học cho máy tính hệ thống tính tốn Mã số: 62.46.35.01 LUẬN ÁN TIẾN SĨ TỐN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Hồ Thuần PGS.TS Phan Trung Huy Hà Nội – 2007 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa công bố cơng trình khác Tác giả Nguyễn Thị Thanh Huyền LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn sâu sắc tới PGS.TS Hồ Thuần PGS.TS Phan Trung Huy, người thầy hướng dẫn tận tình mà nghiêm khắc để tơi hồn thành luận án Các Thầy gương cho công tác giảng dạy, nghiên cứu khoa học, sống Tôi trân trọng cảm ơn Ban chủ nhiệm khoa Toán – Tin ứng dụng Trung tâm Đào tạo sau đại học, trường Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi cho tơi suốt q trình công tác viết luận án Tôi xin cảm ơn nhà khoa học, đồng nghiệp xemina Phịng Cơ sở Tốn học Tin học, Viện Tốn học Bộ mơn Tốn Tin, Khoa Tốn–Tin ứng dụng, Đại học Bách khoa Hà Nội, tạo điều kiện để tơi trình bày nội dụng luận án, từ cho tơi ý kiến góp ý q báu, giúp tơi hồn thiện luận án Trong suốt thời gian thực luận án, nhận quan tâm, động viên bác Nguyễn Thị Kim Anh Tôi trân trọng tình cảm q báu mà bác Kim Anh dành cho xin gửi tới bác lời cảm ơn chân thành Xin cảm ơn TS Nguyễn Thị Bạch Kim nhiệt tình đọc cho ý kiến xác đáng để luận án trình bày tốt Cuối cùng, tơi xin bày tỏ lịng biết ơn vơ hạn cha mẹ gia đình ủng hộ, giúp đỡ MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU Chương TỔNG QUAN VỀ BÀI TOÁN SO MẪU 15 1.1 Bài tốn so mẫu tình hình nghiên cứu 15 1.1.1 Giới thiệu chung 15 1.1.2 Các dạng toán so mẫu kết nghiên cứu 16 1.1.3 So mẫu xấp xỉ 21 1.1.4 Tìm kiếm văn mã hoá nén 25 1.2 Các hình thức otomat mờ .26 1.2.1 Tập mờ 26 1.2.2 Quan hệ mờ 28 1.2.3 Khái niệm otomat mờ 29 1.3 Hướng tiếp cận otomat mờ cho toán so mẫu 31 1.3.1 Ý tưởng chung tiếp cận otomat mờ 31 1.3.2 Khái niệm otomat mờ so mẫu .32 1.3.3 Các ký hiệu 33 1.4 Một số thuật toán so mẫu .34 1.4.1 Thuật toán KMP 34 1.4.2 Thuật toán BM 37 1.5 Kết luận chương 39 Chương 2.1 BÀI TOÁN SO MẪU CHÍNH XÁC THEO TIẾP CẬN OTOMAT MỜ 40 Phát biểu toán .40 2.2 Độ mờ mơ hình 40 2.3 Thuật toán KMP mờ 41 2.3.1 Otomat mờ so mẫu 42 2.3.2 Cơ sở toán học thuật toán .42 2.3.3 Thuật toán 43 2.3.4 So sánh thuật toán KMP thuật toán KMP mờ 45 2.4 Thuật toán KMP–BM mờ 46 2.4.1 Ý tưởng thuật toán 46 2.4.2 Otomat mờ so mẫu 48 2.4.3 Cơ sở toán học thuật toán .49 2.4.4 Thuật toán 52 2.5 Kết luận chương 53 Chương BÀI TOÁN SO MẪU XẤP XỈ THEO TIẾP CẬN OTOMAT MỜ 54 3.1 Đặt vấn đề 54 3.2 Bài toán đo độ tương tự hai xâu 55 3.3 Độ tương tự dựa độ dài khúc chung hai xâu 56 3.3.1 Phát biểu toán 56 3.3.2 Otomat so mẫu: mơ hình sở tốn học 58 3.3.3 Thuật toán 61 3.3.4 Một phương pháp tính hàm chuyển trạng thái TFuzz .62 3.3.5 Đánh giá thuật toán .65 3.4 Độ gần tựa ngữ nghĩa 66 3.4.1 Ý tưởng độ gần .66 3.4.2 Thuật tốn sơ tính độ gần .66 3.4.3 Giải thích độ mờ mơ hình 67 3.4.4 Đánh giá thuật toán .68 3.4.5 Otomat mờ thuật tốn tính độ gần mờ 69 3.5 Độ bảo toàn thứ tự xuất kí tự .71 3.5.1 Ý tưởng .71 3.5.2 Khái niệm thuận 72 3.5.3 Một số tính chất thuận 73 3.5.4 Otomat đếm số thuận 75 3.6 Kết luận chương 78 Chương SO MẪU TRÊN VĂN BẢN NÉN VÀ MÃ HOÁ 79 4.1 Tiếp cận so mẫu tổng quát văn nén mã hoá 79 4.2 So mẫu văn nén 82 4.3 So mẫu văn mã hoá 86 4.3.1 So mẫu văn mã hóa dạng khối kí tự 86 4.3.2 Mã đàn hồi 86 4.3.3 So mẫu văn mã hóa mã đàn hồi 89 4.3.4 So mẫu văn mã hoá hai tầng 93 4.4 Kết luận chương 94 KẾT LUẬN 96 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ 98 TÀI LIỆU THAM KHẢO 99 PHỤ LỤC A 103 PHỤ LỤC B 108 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Các ký hiệu ε Xâu rỗng wi Kí tự thứ i xâu w w(f,d) Xâu (hay khúc con) độ dài f xâu w, kết thúc vị trí d w u≤ sv Xâu u khúc đuôi xâu v u ≤ ls v Xâu u khúc đuôi dài xâu v (trong ngữ cảnh ràng buộc u v) w(t) pref t (w) Khúc đầu độ dài t xâu w suf t (w) Khúc cuối độ dài t xâu w |A| Lực lượng tập A Các chữ viết tắt CSDL Cơ sở liệu DFA Otomat đơn định hữu hạn NFA Otomat đa định hữu hạn KMP Knuth–Morris–Pratt BM Boyer–Moore DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Ý nghĩa mảng next 34 Hình 1.2 Ý nghĩa mảng next vị trí m + 35 Hình 2.1 Dịch chuyển trỏ mẫu 45 Hình 2.2 Một khúc S duyệt nhiều lần tìm kiếm mẫu theo BM 47 Hình 2.3 Ý tưởng chung thuật toán KMP–BM mờ 48 Hình 3.1 Sự thay đổi trạng thái mờ gặp kí tự b 60 Hình 3.2 Một ví dụ với khối độ dài t = 66 Hình 3.3 Tập mờ mô tả độ gần tựa ngữ nghĩa mẫu P so với xâu đích S 68 Hình 3.4 Một thí dụ phép nhúng ϕ bảo toàn thứ tự 72 Hình 3.5 Phân chia S thành dãy liên tiếp khúc xét bỏ qua 73 Hình 4.1 Phương pháp so mẫu miền nén có sử dụng otomat mờ 80 Hình 4.2 Phương pháp so mẫu không giải mã 81 Hình 4.3 Hàng đợi vòng tròn trước (a) sau (b) thực thủ tục giải nén 84 Hình 4.4 Hàng đợi vòng tròn trước (a) sau (b) bước nhảy n2’ 84 Hình 4.5 Đồ thị xây dựng khái niệm tích đàn hồi 87 Hình 4.6 Đồ thị xác định mã đàn hồi 88 Hình 4.7 Quá trình mã hoá hai tầng 94 Hình 4.8 Quá trình giải mã hai tầng 94 Hình 4.9 Quá trình so mẫu văn mã hoá hai tầng 94 MỞ ĐẦU Đối sánh mẫu, hay so mẫu (pattern matching), toán quan trọng ứng dụng nhiều lĩnh vực khoa học xử lý thơng tin, ví dụ như: cơng cụ tìm kiếm hệ điều hành; tìm kiếm mẫu lặp nén liệu; tìm kiếm thơng tin thư viện điện tử, bách khoa toàn thư điện tử; khai phá web Internet; tìm kiếm tương tự CSDL gen; tìm kiếm tự động luật CSDL; nhận dạng tiếng nói hệ thống điều khiển tiếng nói; nhận dạng ảnh viễn thám, khoa học hình sự; Nói chung, mẫu kiểu liệu nào, từ văn đến loại liệu đa phương tiện (ảnh, video, âm thanh, ) Mặc dù liệu ghi nhiều dạng, song văn (text) dạng phổ biến nhất, vấn đề so xâu mẫu (string pattern matching) thực chủ đề quan trọng lĩnh vực xử lý văn nhiều người quan tâm Vấn đề đặt toán so xâu mẫu cần phát xuất xâu mẫu chuỗi (xâu) kí hiệu cho trước (gọi xâu đích, thực tế xâu đích văn bản) Phụ thuộc vào đặc tính mẫu, ta phân thành bốn dạng toán cụ thể: so đơn mẫu, so đa mẫu, so mẫu mở rộng so biểu thức qui [8], [17] Dạng đơn giản song phổ dụng quan tâm nhiều toán so đơn mẫu, với mẫu xâu (điều thể phong phú thuật toán so đơn mẫu [8], [12]) Khi mẫu tập từ khố, ta có tốn so đa mẫu Trong tốn so mẫu mở rộng, mẫu khơng đơn giản dãy kí tự mà mở rộng theo nhiều kiểu khác Cuối cùng, dạng tổng quát bao hàm cho tất loại tốn kể so biểu thức qui Một vấn đề kinh điển khác khoa học máy tính tìm kiếm xấp xỉ, đặt từ ứng dụng nhận dạng tiếng nói, sinh–tin học, xử lý tín hiệu, so sánh tệp Ngày nay, việc xây dựng cơng cụ tìm kiếm hiệu quả, đặc biệt tính tìm kiếm xấp xỉ, hệ thống trích rút văn nhiều người quan tâm Đó tăng trưởng nhanh chóng không ngừng hệ thống thông tin, nhu cầu khai thác người dùng ngày phức tạp Người ta mong muốn có kết phù hợp trả có "lỗi" thơng tin đưa vào hay sở liệu hệ thống thấy nội dung cần tìm trang kết đầu tiên, với thời gian ngắn Nhu cầu tìm kiếm văn xấp xỉ thể rõ ứng dụng như: thư viện điện tử, máy tìm kiếm (search engine) mạng Cho đến có nhiều máy tìm kiếm Internet, AltaVista (www.altavista.digital.com), Excite (www.excite.com), Hotbot (www.hotbot.com), In–foseek (www.infoseek.com), Lycos (www.lycos.com), Northen Light (www.nlsearch.com), Msn (www.msn.com), Yahoo (www.yahoo.com), Netscape (www.netscape.com), , u thích Google (www.google.com) Ở Việt Nam, máy tìm kiếm Tiếng Việt chuyên nghiệp sử dụng nhiều NetNam (www.panvn.com), VinaSeek (www.vinaseek.com) Vietseek (www.vietseek.com) Tuy nhiên, tất máy tìm kiếm khơng có cịn hạn chế khả tìm kiếm xấp xỉ Cịn hệ quản trị sở liệu, khả tìm kiếm thơng tin gần truy vấn SQL dùng tốn tử “like”, cho phép tìm kiếm ghi phù hợp với thông tin đưa vào theo khuôn dạng “cứng nhắc”, xâu mẫu chấp nhận hai loại kí tự thay cho kí tự xâu kí tự Như vậy, việc tiếp tục nghiên cứu giải pháp tìm kiếm xấp xỉ cần thiết Để tìm kiếm xấp xỉ, ta cần giải toán so xâu mẫu xấp xỉ sau: “Cho văn T độ dài n xâu mẫu P độ dài m bảng chữ A Tìm vị trí văn khớp với mẫu, cho phép nhiều k lỗi” [8], [20] Vấn đề cốt lõi để giải toán so mẫu xấp xỉ xác định độ tương tự hai xâu Cho đến có nhiều mơ hình “lỗi” đo độ tương tự đưa ra, kinh điển phổ dụng khoảng cách soạn thảo (Edit Distance), xâu chung dài dãy chung dài Bốn tiếp cận cho thuật toán so mẫu xấp xỉ là: dựa vào quy hoạch động [8], [17], sử dụng otomat [4], [16], [17], [18], [24], sử dụng chế song song bit (bit–parallelism) [17], [18], [21] chế lọc [17] 98 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ Nguyễn Thị Thanh Huyền, Phan Trung Huy (2002), “Tiếp cận mờ số thuật tốn so mẫu”, Tạp chí Tin học điều khiển học 18(3), tr.201–210 Nguyễn Thị Thanh Huyền, Bùi Kiên Cường, Phan Trung Huy (2003), “Các thuật tốn tìm kiếm xâu tìm kiếm tựa ngữ nghĩa dựa otomat mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ VI “ Một số vấn đề chọn lọc công nghệ thông tin”, Thái Nguyên – 8/2003, tr 152–163 Nguyễn Thị Thanh Huyền, Phan Trung Huy, Hồ Thuần (2004), “Thuật toán so mẫu nhanh theo tiếp cận mờ liệu text nén không nén”, Kỷ yếu Hội thảo quốc gia lần thứ VII “Một số vấn đề chọn lọc công nghệ thông tin”, Đà Nẵng – 8/2004, tr 198–209 Phan Trung Huy, Nguyễn Thị Thanh Huyền (2005), “Nửa nhóm tác dụng mờ ứng dụng”, Kỷ yếu hội thảo quốc gia lần thứ “Một số vấn đề chọn lọc Cơng nghệ Thơng tin”, 25–27 / /2005, Hải Phịng , tr 371–384 Nguyễn Thị Thanh Huyền, Nguyễn Đắc Tuấn, Phan Trung Huy (2006), “Xác định số độ đo tương tự hai xâu theo mơ hình otomat mờ”, Tạp chí Bưu Viễn thơng Cơng nghệ thơng tin, Chun san “Các cơng trình nghiên cứu – triển khai viễn thông công nghệ thông tin (16), tr 86–94 Vũ Thành Nam, Nguyễn Thị Thanh Huyền, Phan Trung Huy (2006), “Mã tích đàn hồi tìm kiếm văn mã hố sử dụng thuật toán so mẫu theo tiếp cận mờ”, Tuyển tập báo khoa học, Hội nghị khoa học lần thứ 20, Đại học Bách khoa Hà Nội, tr 68 – 75 99 TÀI LIỆU THAM KHẢO Tiếng Việt Phạm Trà Ân (1979), Otomat xác suất với trạng thái biến đổi theo thời gian, Luận án Phó tiến sĩ Toán lý, Viện Toán học, Viện khoa học Việt Nam Bùi Cơng Cường, Nguyễn Dỗn Phước (2001), Hệ mờ, mạng nơron ứng dụng, Nxb Khoa học Kỹ thuật, Hà Nội Nguyễn Cát Hồ (2000), Tập mờ, logic mờ lập luận xấp xỉ, Trường thu “ Hệ mờ ứng dụng” lần thứ nhất, Hà Nội, 9–12/8/2000 Phan Trung Huy Nguyễn Quý Khang (2002), “A New Algorithm For LCS Problem”, Kỷ yếu Hội nghị Tốn học Tồn quốc 9/2002, tr 145 – 157 Robert Sedgewick (1994), Cẩm nang thuật toán, Tập1: Các thuật tốn thơng dụng, Nxb Khoa học Kỹ thuật Tiếng Anh Andrew Firth, (2002), “A Comparison of BWT Approaches to CompressedDomain Pattern Matching”, Honour Project Report Amar Mukherjee, Nan Zhang, Tao Tao, Ravi Vijaya Satya, and Weifeng Sun (2005), “Search and Retrieval of Compressed Text”, Advances in Computers, 63, pp 207 – 262 Aho A.V.(1992), Algorithms for finding patterns in strings, Chapter of Jan Van Leeuwen (ed.), Handbook of Theoretical Computer Science “Algorithms and Complexity”, The MIT Press, pp 255 – 300 J Berstel and D Perrin (1985), Theory of Codes, Academic Press, NewYork 100 10 K Culik II, Juhani Karhumaki (1994), “Finite Automata Computing Real Functions”, SIAM Journal on Computing, 23(4), pp 789 – 814 11 K Culik II and Kari (1993), “Image Compression Using Weighted Finite Automata”, Computer and Graphics, 17, pp 305 – 313 12 Christian Charras, Thierry Lecroq (2000), Hanbook of Exact String- matching Algorithms, http:// www-igm.univ-mlv.fr/~lecroq/string/index.html 13 Dupont P., Denis F., Esposito Y (2005), “Links between probabilistic automata and hidden Markov models: probability distributions, learning models and induction algorithms”, Pattern Recognition, 38(9), pp 1349 –1371 14 David Salomon (2000), Data Compression, Springer–Verlag NewYork 15 S Eilenberg (1974), Automata, Languages and Machines, Vol A , Acad Press, NewYork 16 Gonzalo Navarro (1997), “A Partial Deteministic Automaton for Approximate String Matching”, Proceedings WSP’97, Carleton University Press, pp.112 – 124 17 Gonzalo Navarro and Mathieu Raffinot (2002), Flexible Pattern Matching in Strings, Cambridge University Press, ISBN 0–521–81307–7 (See reviews at www.dcc.uchile.cl/~gnavarro/FMKbook/) 18 Gonzalo Navarro, Mathieu Raffinot (2000), “Fast and Flexible String Matching by Combining Bit–Parallelism and Suffix Automata”, ACM Journal of Experimental Algorithmics (JEA), 5(4) 19 Gonzalo Navarro, Mathieu Raffinot (2004), “Practical and Flexible Pattern Matching over Ziv–Lempel Compressed Text”, Journal of Discrete Algorithms (JDA), 2(3), pp 347 – 371 20 Gonzalo Navaro, Ricardo Baeza-Yates, ErkkiSutinen, Jorma Tarhio (2001), “Indexing Methods for Approximate String Matching”, Bulletin of the Technical Committee on Data Engineering – 12/2001, 24(4), pp 19 – 27 101 21 Heikki Hyyro (2002), “A Bit–Vector Algorithm for Computing Levenshtein and Damerau Edit Distances”, Proceedings of the Prague Stringology Conference ’02, pp 44 – 54 22 Jan Supol, Borivoj Melichar (2006), “A New Approach to Determinisation Using Bit-parallelism”, 3rd International Colloquium on Theoretical Aspects of Computing, Tunis, Tunisia, 20–24 November 2006 23 Juha Karkkanen, Gonzalo Navarro, Esko Ukkonen (2003), “Approximate String Matching on Ziv–Lempel Compressed Text”, Journal of Discrete Algorithms (JDA), 1(3), pp 313 – 338 24 Jan Holub (1997), “Simulation of NFA in Approximate String and Sequence Matching”, Proceedings of the Prague Stringology Club Workshop’97 – 11/1997, Czech Technical University in Prague, Prague, pp 39 – 46 25 John E Hopcroft, Jeffrey D Ullman (1990), Introduction to Automata Theory, Language, And Computation, Addison–Wesley Longman Publishing Co., Inc., Boston, MA 26 Klir, George J and Yuan, Bo (1995), Fuzzy Sets and Fuzzy logic: Theory and Applications, Upper Saddle River, NJ.: Prentice Hall 27 Mehryar Mohri (2003), “Edit–Distance of Weighted Automata: General Definitions and Algorithms”, International Journal of Foundations of Computer Science, 14 (6), pp 957 – 982 28 Mehryar Mohri, Fernando Pereira, Michael Riley (1996), “Weighted Automata in Text and Speech Processing”, Proceedings of the ECAI'96 Workshop on Extended Finite State Models of Language, Budapest, Hungary 29 Mordeson, John.N and Malik, Davender S (2002), Fuzzy Automata and Languages: Theory and Applications, Chapman & Hall/CRC, NewYork 30 Navarro G., Raffinot M (1998), “A bit-parallelism approach to suffix automata: Fast extented string matching”, Proceedings of the 9th Annual 102 Symposium on Combinatorial Pattern Matching, (1448), Berlin, pp 14 – 33 31 D R Stinson (1995), Cryptography: Theory and Practice, CRC Press, New York 32 Veli Makinen, Gonzalo Navarro, Esko Ukkonen (2003), “Approximate Matching on Run–Length Compressed Strings”, Journal of Algorithmica, 35, pp 347 – 369 33 Zadeh L.A (1965), Fuzzy sets, Information and Control, 8, pp 338 – 353 103 PHỤ LỤC A CÁC KHÁI NIỆM, TÍNH CHẤT VÀ CÁC HÀM PHỤ TRỢ ĐỂ CÀI ĐẶT HÀM TFUZZ Otomat mờ làm sở cho thuật toán xác định khúc chung hai xâu có bảng chữ vào gồm kí tự xuất mẫu P ký hiệu # đại diện cho kí tự khơng có mặt P Mỗi trạng thái mờ cặp số tự nhiên dạng (f,d), ≤ f ≤ d ≤ m Hàm TFuzz((f,d),a) xác định phép chuyển trạng thái otomat sau tác động kí tự a Trong Mục 3.3.4 trình bày phương pháp đệ quy theo f tăng dần để tính tốn hàm TFuzz Tính đắn phương pháp đảm bảo định nghĩa tính chất Phụ lục A Nội dung phần cơng bố cơng trình [2] A.1 Trạng thái có nghĩa Tính tới vị trí thứ j duyệt S từ trái sang phải kí tự, giả sử xuất xâu độ dài f P Trong P có nhiều xâu song ta quan tâm đến xâu nằm bên trái kết thúc vị trí d Khi ta nói trạng thái (f,d) “có nghĩa” Ta định nghĩa hàm isaccept((f,d)) sau: True (trạng thái (f,d) “có nghĩa”), ∀d’: P(f,d’) = P(f,d) ⇒ d ≤ d' isaccept((f,d)) = False, khác Nhận xét A.1 - Nếu isaccept((f,d)) = True f < d isaccept((f +1,d)) = True - Nếu isaccept((f,d)) = False f >1thì isaccept((f –1,d)) = False 104 A.2 Xây dựng luật chuyển trạng thái otomat Luật chuyển trạng thái otomat xác định thơng qua hàm TFuzz((f,d),a) Do u cầu thuật tốn, ta cần đặt điều kiện TFuzz((f,d),a) = (f',d') với trạng thái vào (f,d) (f',d') trạng thái có nghĩa Định nghĩa A.1 Với isaccept((f,d)) = True, ta định nghĩa (0,0), a = # TFuzz((f,d),a) = (f’,d’), với isaccept((f’,d’)) = True P(f’,d’) ≤ ls P(f,d) + a, a ≠ # Nhận xét A.2 TFuzz((0,0),a) = (0,0), a = # (1,d’), a ≠ #, d’= leftmost(a,P) leftmost(a,P) cho ta vị trí xuất bên trái (vị trí từ trái sang phải) kí tự a xâu P Giả sử TFuzz((f,d),a) = (f’,d’) − a = Pd + f’ = f + 1, d’ = d + − a ≠ Pd +1, có hai khả xảy ra: + a = # Ta có f’= 0, d’= + a ≠ # Ta cần xây dựng phương pháp tính f’, d’ trường hợp A.3 Tính chất hàm TFuzz Nhận xét A.3 Khi độ mờ trạng thái bảo lưu giảm, nghĩa TFuzz((f,d),a) = (f’,d’), f’≤ f d’ lớn hơn, nhỏ d Ví dụ A.1 Với xâu mẫu P = abbdbc, ta có: TFuzz((2,3),b) = (2,3), TFuzz((2,4),d) = (1,4), TFuzz((2,5),b) = (2,3), TFuzz((2,3),a) = (1,1), TFuzz((2,3),c) = (2,6), TFuzz((2,3),c) = (1,6) 105 Tính chất A.1 Nếu TFuzz((f,d),a) = (f’,d’), f’>f f’= f + d’ > d Chứng minh Từ định nghĩa hàm TFuzz suy f’≤ f +1 Do f’ > f f’= f +1 Theo định nghĩa hàm TFuzz suy P(f’,d’) ≤ ls P(f,d) + a Vì f’= f +1 ⇒ P(f +1,d’) = P(f,d) + a ⇒ P(f,d’–1) = P(f,d) Do isaccept((f,d)) = True nên d’–1 ≥ d ⇒ d’>d □ Tính chất A.2 Nếu TFuzz((f,d),a) = (f’,d’) mà f’ ≤ f TFuzz((k,d),a) = (f’,d’), với ∀k > f Chứng minh Theo định nghĩa TFuzz suy P(f’,d’) ≤ ls P(f,d) + a (1) Mặt khác P(f,d) + a ≤ s P(k,d) + a , ∀ k > f (2) Từ (1), (2) ⇒ P(f’,d’) ≤ s P(k,d) + a (3) Giả sử P(f’,d’) không khúc đuôi dài P(k,d) + a ⇒ ∃d’’: P(f’’,d’’) ≤ s P(k,d) + a mà f’’> f’ (4) Chỉ xảy hai trường hợp sau: a f’’> f ⇒ f’’≥ f + 1, từ (4) ⇒ P(f +1,d’’) ≤ s P(k,d) + a (5) Từ (2),(5) ⇒ P(f,d) + a = P(f +1,d’’), hai xâu có độ dài f +1 ⇒ P(f +1,d”) ≤ ls P(f,d) + a ⇒ f + = f’, điều mâu thuẫn với giả thiết b f’’ f’ Ðiều mâu thuẫn với (1) Vậy P(f’,d’) ≤ ls P(k,d) + a, ∀ k > f Do isaccept(f’,d’) = True nên ta có TFuzz((k,d),a) = (f’d’) □ Ví dụ A.2 Cho mẫu P = abbdbc Ta có: TFuzz((2,5),b) = (2,3); TFuzz((3,5),b) = (2,3); TFuzz((2,5),a) = (1,1); TFuzz(3,5),a) = (1,1) 106 Tính chất A.3 Nếu TFuzz((f,d),a) = (f’,d’), với f’ > f (f’+1,d”), ∃ d” nhỏ nhất, d” ≥ d’: P(f + 1,d) + a = P(f + 2,d”) TFuzz((f +1,d),a) = (f’,d’), khác Chứng minh Từ giả thiết theo tính chất A.1 suy f’ = f + 1, d’ > d P(f,d) + a = P(f’,d’) = P(f +1,d’) (1) a Giả sử ∃ d” nhỏ cho: P(f +1,d) + a = P(f + 2,d”) (2) Từ suy P(f + 2,d”) hay P(f’+1,d”) có độ dài f + nên phải khúc dài P(f +1,d) + a Vì isaccept(f + 2,d”) = True nên ta có TFuzz((f + 1,d),a) = (f’+1,d”) Khi d” > d’ Thật vậy, từ (2) suy P(f,d) + a = P(f +1,d”) Kết hợp với (1) ta có P(f +1,d”) = P(f’,d’) Vì isaccept(f’,d’) = True ⇒ d” ≥ d’ □ b Giả sử !∃ d”: P(f +1,d) + a = P(f + 2,d”) có nghĩa, khơng có xâu f + kí tự P khúc P(f +1,d) + a, P(f’,d’) xâu độ dài f +1 từ (1) suy P(f’,d’) ≤ ls P(f +1,d) + a Vì isaccept(f’,d’) = True nên ta có TFuzz((f +1,d),a) = (f’,d’) □ Ví dụ A.3 Cho mẫu P = ababcacbac, ta có: TFuzz((1,2),c) = (2,5) TFuzz((1,3),c) = (2,7) TFuzz((2,2),c) = (3,5) TFuzz((2,3),c) =(3,10) TFuzz((3,3),c) = (3,10) Tính chất A.4 Nếu isaccept((f,d)) = False isaccept((f +1,d)) = True (f + 2,d’), TFuzz((f +1,d),a) = ∃d’ > d: P(f + 2,d’) = P(f + 1,d) + a, với isaccept(f + 2,d’) = True TFuzz((f,d’’),a), với isaccept((f,d’’)) = True P(f,d’’) = P(f,d), khác Chứng minh a Nếu ∃ d’: P(f + 2,d’) = P(f + 1,d) + a, isaccept(f + 2,d’) = True 107 P(f + 2,d’) ≤ ls P(f +1,d) + a ⇒ TFuzz((f +1,d),a) = (f + 2,d’) Theo Tính chất A.1 suy d’> d b Nếu !∃ d’: P(f + 2,d’) = P(f + 1,d) + a, isaccept(f + 2,d’) = True (1) Gọi TFuzz((f,d’’),a) = (f1’,d1’), TFuzz((f+1,d),a) = (f2’,d2’), ta có: P(f1’,d1’) ≤ ls P(f,d’’) + a = P(f,d) + a (2) P(f2’,d2’) ≤ ls P(f +1,d) + a (3) Mặt khác, ta lại có: f2’ ≤ f + Thật vậy, f2’ > f + 1, theo Tính chất A.1 f2’ = f + 2, điều mâu thuẫn với giả thiết (1) Do f2’ ≤ f + P(f,d) + a ≤ sP(f + 1,d) + a, kết hợp với (3), suy ra: P(f2’,d2’) ≤ ls P(f,d) + a, kết hợp với (2) ⇒ P(f1’,d1’) = P(f2’,d2’) Do isaccept((f1’,d1’)) = True isaccept((f2’,d2’)) = True ⇒ f1’= f2’, d1’= d2’, ta suy điều phải chứng minh □ Ví dụ A.4 Với mẫu p = abcabdcabh, ta có TFuzz((2,2),c) = (3,3); TFuzz((3,5),c) = TFuzz((2,2),c) = (3,3); TFuzz((3,5),h) = (4,10) Tính chất A.5 Giả sử TFuzz((f,d),a) = (f’,d’), TFuzz((f1,d),a) = (f1’,d1’), với f1 > f ≥ Khi f1’ > f’ Chứng minh Suy từ Tính chất A.2, A.3 □ 108 PHỤ LỤC B B1 Phần mềm online “Những trang vàng 2005” Nội dung phần mềm cho phép người dùng mạng tra cứu thông tin tên ngành nghề, tên doanh nghiệp, tên quan, địa doanh nghiệp đăng ký thông tin với Trung tâm niên giám điện thoại Trang vàng – Bưu điện Hà Nội Chức tra cứu đáp ứng yêu cầu sau: − Tìm xác: Tìm ghi có chứa xâu mẫu − Tìm xấp xỉ: Tìm ghi chứa thông tin gần giống với xâu mẫu, kết xếp theo thứ tự giảm dần độ gần Trong phần mềm có sử dụng độ gần tựa nghĩa để đo độ tương tự hai xâu (xem Mục 3.4) Hình B1 Kết tìm kiếm xác với xâu mẫu “bách khố đại học” 109 Hình B2 Kết tìm kiếm xấp xỉ với xâu mẫu “bách khố đại học” B2 Chương trình tìm kiếm xấp xỉ theo độ bảo tồn thứ tự xuất kí tự Chương trình sử dụng thuật tốn tìm kiếm xấp xỉ theo thuận (xem Mục 3.5) Các chức chương trình bao gồm: − Tính độ tương tự theo thuận xâu mẫu P xâu đích S (Hình B3) − Tìm kiếm xuất xấp xỉ mẫu P văn (Hình B4) − Khi coi từ văn kí tự hình thức, việc xác định độ tương tự hai xâu hình thức có tính đến độ tương tự hai kí tự hình thức theo ngưỡng tuỳ chọn Chương trình tích hợp vào ứng dụng tìm kiếm như: mơi trường thư viện điện tử, văn phịng tin học hố, nhu cầu đa dạng máy tính cá nhân,… 110 Hình B3 Độ tương tự hai xâu “so mẫu” “so sánh mẫu” dựa độ bảo tồn thứ tự xuất kí tự Hình B4 Kết tìm kiếm xấp xỉ xâu mẫu “lập trình C” văn 111 B3 Hệ thống quản lý luận văn tốt nghiệp sinh viên Các kết tìm kiếm xác xấp xỉ theo độ gần tựa ngữ nghĩa luận án ứng dụng hai chức tiêu biểu hệ thống sau: − Tìm kiếm luận văn theo từ khố: Có khả tìm luận văn mà chứa xác gần xâu từ khoá (xâu mẫu) người sử dụng đưa vào Kết tìm kiếm xếp theo thứ tự giảm dần độ gần xâu mẫu xuất văn (xem Hình B5) Độ tương tự hai xâu kí tự sử dụng hệ thống độ gần tựa nghĩa việc tính tốn độ gần dựa thuật toán theo tiếp cận otomat mờ (xem Mục 3.4, Thuật toán 3.3) − Tiền xử lý văn để xây dựng vectơ từ khoá: Để hỗ trợ phát chép luận văn, đồng thời đáp ứng tốt nhu cầu tìm kiếm thơng tin, hệ thống có khả tìm luận văn có nội dung tương tự với luận văn cho trước Sự tương tự hai văn sử dụng dựa mơ hình vectơ sau: Tương ứng với văn T, xây dựng vectơ XT có thành phần tần suất xuất T từ khoá (được quản lý từ điển hệ thống); độ tương tự hai văn T S xác định thông qua Cosin(XT, XS), với XT vectơ ứng với T, XS vectơ ứng với S Ở giai đoạn tiền xử lý, việc xây dựng vectơ biểu diễn cho văn sử dụng thuật tốn tìm kiếm xác theo tiếp cận mờ (xem Mục 2.3) để thống kê tần suất xuất từ khoá văn 112 Hình B5 Kết tìm kiếm xấp xỉ với từ khố (xâu mẫu) “kkai phá văn bảm” (thơng tin đưa vào có lỗi tả) ... so mẫu theo tiếp cận otomat mờ sau: − Giai đoạn tiền xử lý mẫu P: Xây dựng otomat mờ so mẫu dựa vào thông tin mẫu P − Giai đoạn sánh mẫu: Duyệt xâu đích S từ trái sang phải Khởi đầu độ mờ ứng. .. khác otomat mờ xem [13], [27], [28],… 1.3 Hướng tiếp cận otomat mờ cho toán so mẫu Xuất phát từ ý tưởng tập mờ, hướng tiếp cận luận án để giải tốn so mẫu, xác xấp xỉ, sử dụng số hệ hình thức otomat. .. đưa thuật tốn so mẫu phù hợp với mơ hình nén hay mã hố cụ thể; thuật toán so mẫu theo tiếp cận otomat mờ áp dụng cho văn nén dạng khối kí tự; thuật toán so mẫu theo tiếp cận mờ mơi trường văn