Đối sánh mẫu theo tiếp cận Otomat mờ và ứng dụng
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI W X NGUYỄN THỊ THANH HUYỀN ĐỐI SÁNH MẪU THEO TIẾP CẬN OTOMAT MỜ VÀ ỨNG DỤNG Chuyên ngành: Đảm bảo toán học cho máy tính và hệ thống tính toán Mã số : 62.46.35.01 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC " Hà Nội – 2007 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Người hướng dẫn khoa học: PGS.TS. Hồ Thuần PGS.TS. Phan Trung Huy Phản biện 1: PGS.TSKH. Nguyễn Cát Hồ Phản biện 2: PGS.TS. Hà Quang Thụy Phản biện 3: PGS.TSKH. Bùi Công Cường Luận án được bảo vệ trước Hội đồng chấm luận án tiến sĩ cấp Nhà nước tại Trường Đại học Bách khoa Hà Nội. Vào hồi 14 giờ 00, ngày 18 tháng 9 n ăm 2007 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia. - Thư viện và Mạng thông tin, ĐHBK Hà Nội. DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 1. Nguyễn Thị Thanh Huyền, Phan Trung Huy (2002), “Tiếp cận mờ trong một số thuật toán so mẫu”, Tạp chí Tin học và điều khiển học 18(3), tr. 201–210. 2. Nguyễn Thị Thanh Huyền, Bùi Kiên Cường, Phan Trung Huy (2003), “Các thuật toán tìm kiếm xâu con và tìm kiếm tựa ngữ nghĩa dựa trên otomat mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ VI “ Một số vấn đề chọn l ọc của công nghệ thông tin”, Thái Nguyên – 8/2003, tr. 152–163. 3. Nguyễn Thị Thanh Huyền, Phan Trung Huy, Hồ Thuần (2004), “Thuật toán so mẫu nhanh theo tiếp cận mờ trên dữ liệu text nén và không nén”, Kỷ yếu Hội thảo quốc gia lần thứ VII “Một số vấn đề chọn lọc của công nghệ thông tin”, Đà Nẵng – 8/2004, tr. 198–209. 4. Phan Trung Huy, Nguyễn Thị Thanh Huyền (2005), “Nửa nhóm tác dụng mờ và ứng dụng”, Kỷ yếu hội th ảo quốc gia lần thứ 8 về “Một số vấn đề chọn lọc của Công nghệ Thông tin”, 25–27/8 /2005, Hải Phòng , tr. 371–384. 5. Nguyễn Thị Thanh Huyền, Nguyễn Đắc Tuấn, Phan Trung Huy (2006), “Xác định một số độ đo sự tương tự giữa hai xâu theo mô hình otomat mờ”, Tạp chí Bưu chính Viễn thông và Công nghệ thông tin, Chuyên san “Các công trình nghiên cứu – triển khai viễn thông và công nghệ thông tin” (16), tr. 86–94. 6. Vũ Thành Nam, Nguyễn Thị Thanh Huyền, Phan Trung Huy (2006), “Mã tích đ àn hồi và tìm kiếm trên văn bản mã hoá sử dụng thuật toán so mẫu theo tiếp cận mờ”, Tuyển tập các bài báo khoa học, Hội nghị khoa học lần thứ 20, Đại học Bách khoa Hà Nội, tr. 68 – 75. 1 MỞ ĐẦU I. Tính cấp thiết của luận án Đối sánh mẫu, hay so mẫu (pattern matching), là một bài toán quan trọng được ứng dụng trong nhiều lĩnh vực khoa học và xử lý thông tin, đặc biệt là đối với vấn đề xây dựng công cụ tìm kiếm của các hệ điều hành, trong cơ sở dữ liệu, trên mạng Internet, Ngày nay, việc xây dựng công cụ tìm kiếm hiệu quả, đặc biệt là tính nă ng tìm kiếm xấp xỉ, đang được rất nhiều người quan tâm. Cho đến nay đã có rất nhiều máy tìm kiếm trên Internet, tuy nhiên tất cả các máy tìm kiếm này đều không có hoặc còn hạn chế về khả năng tìm kiếm xấp xỉ. Trong các hệ quản trị cơ sở dữ liệu, khả năng tìm kiếm thông tin gần đúng duy nhất của truy vấn SQL còn hạn chế khi dùng toán tử “like”. Như vậy, việc tiếp t ục nghiên cứu về các giải pháp tìm kiếm xấp xỉ là cần thiết. Để đạt được hiệu quả khi lưu trữ, quản lý, tổ chức và truyền dữ liệu, giải pháp được sử dụng là nén văn bản. Vì thế, nhiệm vụ của các máy tìm kiếm hiệu quả là có thể nhanh chóng tìm được thông tin từ một lượng dữ liệu khổng lồ, ngay cả khi dữ liệu đã đượ c nén. Trong lĩnh vực mã hoá và bảo mật, đặc biệt đối với môi trường dữ liệu không an toàn (ví dụ trên mạng), một bài toán thực tiễn đặt ra: hãy xây dựng một ứng dụng duyệt và tìm kiếm trên văn bản mã hoá mà không cần giải mã. Bài toán này thực sự cần thiết nhưng cho đến nay chưa có giải pháp nào được biết. Đối với nước ta, việc nghiên cứu các thuật toán so mẫu là cần thiết vì trong nhiều tr ường hợp, các máy tìm kiếm có tính toàn cầu 2 không được phép truy nhập sâu vào các hệ thống mạng nội bộ, hơn nữa thuật toán của những tổ chức này không phải lúc nào cũng được công bố. II. Nội dung nghiên cứu của luận án Với mục đích đi sâu nghiên cứu và đóng góp một phần trong lĩnh vực phát triển các công cụ tìm kiếm văn bản. Đối tượng nghiên cứu của luận án là bài toán so xâu mẫu theo tiếp c ận otomat mờ. Phạm vi nghiên cứu của luận án bao gồm: 1. Xây dựng các giải thuật hiệu quả cho bài toán so đơn mẫu chính xác, với mẫu là một xâu kí tự. 2. Nghiên cứu và đề xuất một số phương pháp xác định độ tương tự giữa hai xâu để giải quyết bài toán so mẫu xấp xỉ. 3. Giải quyết bài toán so đơn mẫu để tìm kiếm trên môi trường văn b ản nén và mã hoá. III. Những điểm mới của luận án 1. Tận dụng những ưu điểm của tiếp cận otomat, đồng thời kết hợp với ý tưởng của lý thuyết tập mờ, luận án đề xuất một số hệ hình thức otomat mờ để giải quyết các dạng bài toán so xâu mẫu. 2. Luận án đưa ra hai độ đo xác định sự t ương tự giữa hai xâu, làm cơ sở giải quyết bài toán so mẫu xấp xỉ. 3. Bằng tiếp cận otomat mờ, luận án xây dựng các thuật toán nhanh, mềm dẻo, hiệu quả (hướng on–line) cho bài toán so mẫu chính xác và xấp xỉ trên môi trường văn bản nén, mã hoá hoặc không. Otomat hữu hạn được đưa ra từ giữa thế kỉ 20. Việc sử dụng otomat hữu hạn đem lại khả năng thiế t kế các thuật toán nhanh, hiệu 3 quả (hướng on–line). Nhiều cách tiếp cận sau khi đã tinh chỉnh và cải biên thực chất là đưa về dạng ứng dụng otomat. Otomat mờ được xem là sự tổng quát hoá của otomat hữu hạn, trong đó tập trạng thái là các tập mờ, hàm chuyển trạng thái và hàm ra được biểu diễn qua các quan hệ mờ (các hình thức otomat nâng cao được xem như những trường hợp đặc biệt của otomat mờ là: otomat xác suất, otomat có trọng số ). Theo đánh giá của các chuyên gia, các hệ hình thức otomat mờ là mô hình toán học thích hợp với một số hệ thống quyết định, điều khiển, nhận dạng, và đặc biệt được dùng trong đoán nhận mẫu. Khác với những hình thức otomat mờ được biết hiện nay, mô hình otomat mờ mà luận án sử dụng có trạng thái là một tập con mờ trên tập nền X = {1,2,…,n}, được mô tả bởi một vectơ n chi ều toạ độ nguyên và hàm chuyển trạng thái được biểu diễn qua các quan hệ rõ. Các kết quả trong luận án chứng tỏ rằng: bài toán càng phức tạp càng đòi hỏi số chiều trong trạng thái mờ tăng. Điều này cũng giống như trong lý thuyết tập mờ truyền thống, số phần tử của tập nền càng lớn thì thông tin phản ánh càng mịn. Trong lý thuyết otomat truyền thống người ta thường th ấy rằng, khi số lượng trạng thái của otomat càng tăng thì đáp ứng được các yêu cầu tính toán càng phức tạp. Việc tăng này theo quan điểm của tập rõ chỉ đơn thuần là về số lượng. Khi đưa vào quan điểm của tập mờ, sự tăng được nhìn nhận một cách tinh tế hơn, đó là tăng về cấu trúc của tập trạng thái. Xuất phát t ừ những ý tưởng về tập mờ, khi giải bài toán so xâu mẫu, luận án đưa ra khái niệm độ mờ xuất hiện mẫu để mô tả “mức độ xuất hiện” hay “mức độ khớp” của mẫu trong văn bản. Tuỳ thuộc vào nhu cầu hay quan niệm về mức độ khớp trong từng hệ thống tìm 4 kiếm, định nghĩa về độ mờ xuất hiện mẫu cho từng trường hợp cụ thể sẽ được phát biểu chính xác. Khi đó, một yêu cầu đặt ra là cần tính được ngay độ mờ xuất hiện mẫu mỗi khi duyệt đến một kí tự trên xâu đích. Các mô hình otomat mờ được đề xuất trong luận án là một tiếp cận hợp lý để đáp ứng được yêu cầ u này, thể hiện rõ qua các bước tính toán tinh tế của hàm chuyển trạng thái mờ. IV. Ý nghĩa khoa học của luận án Tiếp cận otomat mờ do luận án đề xuất đem lại một cách nhìn nhất quán về một lớp mô hình otomat mờ cho bài toán so đơn mẫu, với mức độ từ đơn giản đến phức tạp. Từ đó, ta có thể phát triển mô hình này để giải quyết những yêu cầu đa dạng khác của bài toán so mẫu. Đặc biệt, từ các nghiên cứu về hệ hình thức otomat mờ giải bài toán so mẫu đã nảy sinh khả năng mở rộng về mặt lý thuyết của mô hình otomat mờ trong mối liên hệ với đại số, đó là các hệ hình thức tác động mờ trên các nửa nhóm mờ. V. Giá trị thực tiễn của luận án Những kết quả nghiên cứu củ a luận án có thể được sử dụng để cài đặt công cụ tìm kiếm mềm dẻo và hiệu quả trong nhiều ứng dụng công nghệ thông tin, theo cả chiều rộng và chiều sâu, như: máy tìm kiếm trên mạng, tìm kiếm trong cơ sở dữ liệu, trong thư viện điện tử, văn phòng tin học hoá; tìm kiếm trong môi trường dữ liệu bảo mật,… Nội dung luận án gồm có phần mở đầu, 4 ch ương, phần kết luận, tài liệu tham khảo và phụ lục: Chương 1 – Tổng quan về bài toán so mẫu: Giới thiệu chung về bài toán so mẫu và hướng tiếp cận otomat mờ của luận án để giải bài 5 toán so mẫu. Các kết quả mới của luận án được giới thiệu trong các Chương 2, 3, 4. Chương 2 – Bài toán so mẫu chính xác theo tiếp cận otomat mờ: Trình bày hai phương pháp so mẫu chính xác theo tiếp cận otomat mờ do tác giả đề xuất. Chương 3 – Bài toán so mẫu xấp xỉ theo tiếp cận otomat mờ: Trình bày các kết quả của luận án về so mẫu xấp xỉ, bao gồm: thuật toán theo tiếp cận otomat mờ để xác định khúc con chung dài nhất c ủa hai xâu; đề xuất hai độ đo sự tương tự giữa hai xâu là “độ gần tựa ngữ nghĩa” và “độ bảo toàn thứ tự xuất hiện các kí tự”. Chương 4 – So mẫu trên văn bản nén và mã hoá: Giải quyết bài toán so mẫu trên môi trường văn bản nén và mã hoá. Phụ lục A – Trình bày một số định nghĩa, chứng minh các tính chất bổ trợ cho Mục 3.3. Phụ lục B – Giới thiệ u một số phần mềm trong đó có cài đặt thử nghiệm các thuật toán so xâu mẫu được đề xuất trong luận án. Chương 1. TỔNG QUAN VỀ BÀI TOÁN SO MẪU 1.1 Bài toán so mẫu và tình hình nghiên cứu hiện nay 1.1.1 Giới thiệu chung So mẫu, hay đối sánh mẫu (pattern matching) là bài toán tìm sự xuất hiện của một mẫu (pattern) với một số đặc tính nào đó trong chuỗi các ký hiệu cho trước (gọi là xâu đích). Mục này tậ p trung trình bày về bài toán so xâu mẫu, tổng quan tình hình nghiên cứu và ứng dụng. 6 1.1.2 Các dạng của bài toán so mẫu và các kết quả nghiên cứu Các dạng của bài toán so mẫu bao gồm: so đơn mẫu, so đa mẫu (mẫu là một tập các xâu), so mẫu mở rộng, so biểu thức chính qui, theo hai hướng chính xác và xấp xỉ. Nội dung của luận án tập trung giải quyết bài toán so đơn mẫu, chính xác và xấp xỉ. Vì thế, trong luận án, mỗi khi nhắc đến so mẫu sẽ ngầm hiểu mẫ u là một xâu kí tự. 1.1.3 So mẫu xấp xỉ Các thuật toán so mẫu xấp xỉ hiện nay được chia ra thành bốn loại: – Các thuật toán dựa trên quy hoạch động. – Các thuật toán sử dụng otomat tìm kiếm. – Các thuật toán sử dụng cơ chế song song bit (bit–parallelism). – Các thuật toán sử dụng cơ chế lọc. Để so mẫu xấp xỉ, ta cần đo độ tương tự gi ữa hai xâu. Tương tự được hiểu là giữa hai xâu kí tự có một vài sai khác ở những lỗi có thể nhận ra bằng mắt thường, không xét về khía cạnh ngữ nghĩa. Các kỹ thuật phổ biến đo độ tương tự giữa hai xâu là: xâu con chung dài nhất, dãy con chung dài nhất và khoảng cách soạn thảo. 1.1.4 Tìm kiếm trong văn bản mã hoá và nén Các thuật toán hiện nay tập trung theo hai hướng chính: so mẫu nén (nén mẫu rồi đem tìm kiế m trên văn bản nén) và so mẫu trên miền nén (giải nén từng phần của văn bản) với mục tiêu phù hợp cho một hoặc một lớp phương pháp nén cụ thể. 1.2 Các hình thức của otomat mờ 1.2.1 Tập mờ Mục này trình bày khái niệm tập mờ và bằng một ví dụ để chứng tỏ rằng nhiều tập mờ trên tập nền hữu hạn phần t ử đã xuất hiện trong 7 các ứng dụng thực tế và khi số phần tử của tập nền càng lớn thì thông tin phản ánh càng mịn. Đây là cơ sở để đưa vào xem xét các trạng thái mờ hữu hạn thành phần trong otomat mờ so mẫu của luận án. 1.2.2 Quan hệ mờ Mục này nhắc lại khái niệm quan hệ mờ, làm cơ sở để trình bày định nghĩa otomat mờ ở Mục 1.2.3. 1.2.3 Khái niệm otomat mờ Nói chung, otomat mờ có tập trạng thái được đặc trưng bởi các tập mờ, hàm chuyển trạng thái và hàm ra được biểu diễn bởi các quan hệ mờ. Mục này giới thiệu định nghĩa về một số hình thức otomat mờ, theo các tác giả như Klir và Yuan (1995), Mordeson và Malik (2002). 1.3 Hướng tiếp cận otomat mờ cho bài toán so mẫu 1.3.1 Ý tưởng chung của tiếp cận otomat mờ Các thuật toán so mẫu theo tiếp cận otomat mờ bao gồm hai giai đoạn: Giai đoạn tiền xử lý mẫu xây dựng otomat mờ dựa vào thông tin trên mẫu; Giai đoạn sánh mẫu duyệt xâu đích từ trái sang phải và dựa vào otomat mờ so mẫu để tính ngay được độ mờ xuất hiện mẫu tại mỗi vị trí được duyệt. Ưu điểm quan trọng nhất của các thuật toán so mẫu theo tiếp cận otomat mờ là: − Chi tiết hoá cấu trúc thông tin trong từng tr ạng thái mờ cho phép thiết lập những phép chuyển trạng thái tinh tế, nhờ đó mà có thể giải quyết được những yêu cầu phức tạp của bài toán so mẫu. − Không đòi hỏi lưu trữ toàn bộ S rồi mới so mẫu, nên có thể áp dụng trong các thuật toán hướng online. − Thông tin về mẫu bao hàm trong cấu trúc của otomat mờ nên luôn [...]... văn, … Tiếp cận otomat mờ sẽ tiếp tục được phát triển để giải quyết các dạng phức tạp khác của bài toán so mẫu như so đa mẫu và so biểu thức chính qui (chính xác và xấp xỉ), … Để nâng cao hiệu quả tìm kiếm, tiếp cận otomat mờ của luận án sẽ được sử dụng trong việc nghiên cứu xây dựng các phương pháp tổ chức dữ liệu đặc thù Mối quan hệ mật thiết giữa otomat mờ, nửa nhóm mờ và nửa nhóm tác động mờ đã... được sử dụng trong luận án 9 1.4 Một số thuật toán về so mẫu Mục này trình bày nội dung hai thuật toán so mẫu kinh điển là Knuth–Morris–Pratt (KMP) và Boyer–Moore (BM), mà những ý tưởng cơ bản của chúng được sử dụng để phát triển hai thuật toán so mẫu chính xác theo tiếp cận otomat mờ của luận án (Chương 2) Chương 2 BÀI TOÁN SO MẪU CHÍNH XÁC THEO TIẾP CẬN OTOMAT MỜ 2.1 Phát biểu bài toán Cho xâu mẫu P... 23 Hình 4.9 Quá trình so mẫu trên văn bản mã hoá hai tầng KẾT LUẬN Luận án được hoàn thành trên cơ sở tiếp cận otomat mờ, với trạng thái mờ biểu diễn bởi vec tơ nhiều chiều Đây là tiếp cận nhất quán cho một lớp các bài toán so mẫu, từ mức độ đơn giản đến phức tạp, tương ứng với số chiều của trạng thái tăng dần Kết quả đầu tiên theo tiếp cận otomat mờ là hai thuật toán so mẫu chính xác được phát triển... trong đó sử dụng otomat mờ có trạng thái mờ một và hai chiều Luận án đã xây dựng một thuật toán mới theo tiếp cận otomat mờ đo độ tương tự giữa hai xâu dựa vào độ dài khúc con chung dài nhất Hai độ tương tự tựa ngữ nghĩa mới được đề xuất là độ gần tựa ngữ nghĩa và độ bảo toàn thứ tự xuất hiện các kí tự Việc tính toán các độ tương tự này đã sử dụng một số hệ hình thức otomat mờ có trạng thái mờ nhiều chiều... sự xuất hiện mẫu mỗi khi duyệt đến một vị trí bất kỳ trên xâu đích S và khi cần tìm kiếm mẫu P trong nhiều xâu S, chỉ cần dùng chung một otomat mờ so mẫu được xây dựng từ mẫu P (Điều này đặc biệt hữu ích khi tìm kiếm trong cơ sở dữ liệu) 1.3.2 Khái niệm otomat mờ so mẫu Mục này trình bày mô hình tổng quát của các otomat mờ so mẫu được sử dụng trong luận án Khác với các hình thức otomat mờ đã giới thiệu... otomat mờ có trạng thái mờ nhiều chiều 24 Tiếp theo, luận án đã cải tiến các thuật toán so mẫu theo tiếp cận otomat mờ đã xét để áp dụng trên môi trường văn bản nén Luận án đã xây dựng thuật toán so mẫu trong văn bản được mã hoá bởi mã đàn hồi mà không cần giải mã, bằng cách kết hợp otomat mờ so mẫu chính xác với otomat duyệt mã đàn hồi Để nâng cao tính bảo mật và tích hợp với các hệ mật mã hiện đại sẵn... việc duyệt theo một con đường xác định bởi các nhãn Hình 4.6 Đồ thị xác định mã đàn hồi 4.3.3 So mẫu trên văn bản mã hóa bởi mã đàn hồi Nhờ tiếp cận otomat mờ, thuật toán so mẫu trên văn bản mã hóa bởi mã đàn hồi không cần giải mã mà vẫn thống kê được tần suất xuất hiện mẫu Các bước chính của thuật toán là: + Xây dựng otomat đoán nhận mã của một kí tự, + Kết hợp với otomat so mẫu theo tiếp cận mờ xác định... Thuật toán sử dụng mô hình otomat mờ với trạng thái mờ hai chiều, cho phép tận dụng thông tin của mẫu nhiều hơn, đem lại tốc độ thực tế cao hơn so với thuật toán KMP mờ 11 2.4.2 Otomat mờ so mẫu Định nghĩa 2.3 Cho P là xâu mẫu độ dài m trên bảng chữ A AP là bảng các kí tự xuất hiện trong P Otomat mờ so mẫu P là một bộ A(P) = (Ak, Q, q0, F, δ), trong đó: + Ak là bảng chữ vào, mỗi chữ là một xâu kí... hàm giá H ứng với bản ghi, kéo theo là tỷ lệ H/M Tiếp cận otomat này còn cho phép bỏ bớt việc tính lặp lại công thức (3.2) trong Thuật toán 3.2 nếu có hai khối (t,i) và (t,j) trên P có nội dung giống nhau 3.4.5 Otomat mờ và thuật toán tính độ gần mờ Gọi otomat cải tiến là A1(P), trạng thái là bộ ba (f,d,k), với f, d được xác định như trong otomat ở Mục 3.3, k là tần suất xuất hiện trong mẫu P của khúc... của mẫu P trên Y Mục này trình bày hai sơ đồ tổng quát để giải bài toán trên theo hướng: so mẫu trên miền nén (Hình 4.1) và so mẫu không giải mã (Hình 4.2) Hình 4.1 Hình 4.2 Phương pháp so mẫu không giải mã được đưa ra nhằm đảm bảo an toàn thông tin khi tìm kiếm trên văn bản mã hoá Ý tưởng chung của các phương pháp so mẫu không giải mã là sử dụng kết hợp otomat đoán nhận từ mã và otomat mờ so mẫu 4.2 . so mẫu chính xác theo tiếp cận otomat mờ: Trình bày hai phương pháp so mẫu chính xác theo tiếp cận otomat mờ do tác giả đề xuất. Chương 3 – Bài toán so mẫu xấp xỉ theo tiếp cận otomat mờ: . so mẫu theo tiếp cận otomat mờ bao gồm hai giai đoạn: Giai đoạn tiền xử lý mẫu xây dựng otomat mờ dựa vào thông tin trên mẫu; Giai đoạn sánh mẫu duyệt xâu đích từ trái sang phải và dựa vào otomat. hình thức otomat mờ, theo các tác giả như Klir và Yuan (1995), Mordeson và Malik (2002). 1.3 Hướng tiếp cận otomat mờ cho bài toán so mẫu 1.3.1 Ý tưởng chung của tiếp cận otomat mờ Các thuật