Tài liệu XML là dữ liệu văn bản có cấu trúc, hay còn gọi là dữ liệu bán cấu trúc, chúng đã phổ biến hàng thập kỷ nay vì khả năng lưu trữ dữ liệu rất linh hoạt và dễ dàng chia sẻ, sử dụng qua internet
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… ĐINH ĐỨC LƢƠNG PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO TÀI LIỆU XML TIN SINH HỌC DỰA TRÊN R-TREE LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2019 VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… ĐINH ĐỨC LƢƠNG PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO TÀI LIỆU XML TIN SINH HỌC DỰA TRÊN R-TREE LUẬN ÁN TIẾN SĨ TOÁN HỌC Chuyên ngành: Cơ sở toán học cho tin học Mã số: 46 01 10 Ngƣời hƣớng dẫn khoa học: TS Hoàng Đỗ Thanh Tùng PGS TS Đặng Hữu Đạo Hà Nội - 2019 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, hồn thành hướng dẫn TS Hoàng Đỗ Thanh Tùng PGS.TS Đặng Hữu Đạo Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Tơi xin chịu trách nhiệm lời cam đoan Hà nội, tháng 10 năm 2019 Tác giả LỜI CẢM ƠN Luận án hoàn thành với nỗ lực không ngừng tác giả giúp đỡ từ thầy giáo hướng dẫn, bạn bè người thân Đầu tiên, tác giả xin bày tỏ lời tri ân sâu sắc tới PGS.TS Đặng Hữu Đạo TS Hoàng Đỗ Thanh Tùng, thầy giáo tận tình hướng dẫn tác giả hồn thành luận án Tác giả xin gửi lời cảm ơn tới thầy, cô giáo cán Viện Công nghệ thông tin, Học viện Khoa học Công nghệ (Viện Hàn lâm Khoa học Công nghệ Việt Nam) nhiệt tình giúp đỡ tạo mơi trường nghiên cứu tốt để tác giả hồn thành cơng trình mình; trân trọng cảm ơn thầy, đồng nghiệp nơi mà tác giả tham gia viết có góp ý xác để tác giả có cơng bố ngày hôm Tác giả xin cảm ơn Ban Giám hiệu trường Cao đẳng Công nghiệp Thực phẩm, đồng nghiệp nơi tác giả công tác ủng hộ, tạo điều kiện tốt để luận án hoàn thành thời hạn Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành đồng hành tác giả suốt thời gian qua Hà Nội, tháng 10 năm 2019 Đinh Đức Lƣơng i MỤC LỤC MỤC LỤC i Danh mục thuật ngữ iii Bảng ký hiệu, từ viết tắt iv Danh sách bảng v Danh sách thuật toán vi Danh sách hình vẽ vii MỞ ĐẦU Chƣơng TỔNG QUAN 1.1 1.2 Tin sinh học nguồn liệu 1.1.1 Tin sinh học 1.1.2 Các nguồn liệu .6 1.1.3 Vấn đề tin sinh học sở liệu sinh học 10 Các phương pháp đánh số liệu sinh học tin sinh học 13 1.2.1 Chỉ số mơ hình nhớ ngồi 13 1.2.2 Các phương pháp đánh số cho liệu sinh học 14 1.2.2.1 Các thuật toán so sánh tương đồng thơng qua chuỗi đại diện14 1.2.2.2 Các thuật tốn sử dụng thay đổi cấu trúc số 15 1.2.3 1.3 Các phương pháp đánh số cho liệu tin sinh học 17 Phương pháp đánh số tài liệu XML 18 1.3.1 Tài liệu XML Xpath 18 1.3.2 Các phương pháp theo hướng nghiên cứu chuyển đổi liệu XML sang không gian số trước thực đánh số 24 1.3.2.1 Đánh số lược đồ 24 1.3.2.2 Phép nối có cấu trúc 25 1.3.2.3 Chuyển đổi lên không gian đa chiều 28 1.3.2.4 Ánh xạ sang sở liệu quan hệ 29 1.4 Phương pháp R-tree 31 1.4.1 Khái niệm R-tree 31 1.4.2 Cấu trúc R-tree 31 1.4.3 Một số thuật toán phương pháp R-tree 33 1.4.4 Một số phương pháp cải tiến R-tree đánh số tài liệu XML 41 ii 1.5 Các vấn đề tồn 43 1.6 Kết luận 45 Chƣơng PHƢƠNG PHÁP ĐÁNH CHỈ SỐ BIOX-TREE 46 2.1 Mở đầu 46 2.2 Phương pháp đánh số cải tiến BioX-tree 52 2.2.1 Chuyển đổi tài liệu XML 52 2.2.2 Cấu trúc số BioX-tree 54 2.2.3 Các thuật toán 58 2.2.3.1 Thuật toán chèn 58 2.2.3.2 Thuật toán truy vấn 62 2.2.4 Xử lý truy vấn 64 2.2.4.1 Thuật toán cho truy vấn anh em 64 2.2.4.2 Thuật toán cho truy vấn khác 65 2.2.5 2.3 2.4 Đánh giá độ phức tạp thuật toán 67 Kết thực nghiệm phương pháp BioX-tree 68 2.3.1 Mơ hình mơi trường thử nghiệm 68 2.3.2 Xây dựng chương trình 72 2.3.3 Đánh giá hiệu giảm kích thước liệu 79 2.3.4 So sánh kết phương pháp BioX-tree R-tree 82 Kết luận chương 87 Chƣơng PHƢƠNG PHÁP ĐÁNH CHỈ SỐ MỞ RỘNG BIOX+-TREE 89 3.1 Mở đầu 89 3.2 Phương pháp BioX+-tree 91 3.3 3.4 3.2.1 Phân tích khơng gian liệu chuyển đổi tài liệu XML 91 3.2.2 Các thuật toán đề xuất 94 Kết thực nghiệm phương pháp BioX+-tree 96 3.3.1 Mơ hình môi trường thử nghiệm 96 3.3.2 So sánh kết phương pháp BioX+-tree BioX-tree 98 Kết luận chương 104 KẾT LUẬN 105 Danh mục cơng trình tác giả 107 Tài liệu tham khảo 108 iii Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Đánh số Indexing Tin sinh học BioInformatics Ngân hàng gen GenBank Ngôn ngữ truy vấn liệu XML dựa đường dẫn Xpath Tên thẻ tài liệu XML Tag name Phần tử Element Thuộc tính Attribute Bộ tăng tốc XPath XPath Accelerator Phép nối Join Bao đóng Kleene Kleene Đa chiều Multi dimension Duyệt theo thứ tự trước Post order Duyệt theo thứ tự sau Pre order Một node R-tree, BioX-tree, BioX+-tree Node Một mục thuộc node R-tree, BioX-tree, BioX+tree Entry Truy vấn tổ tiên Ancestor query Truy vấn hậu duệ Descendant query Truy vấn cha mẹ Parent query Truy vấn Child query Truy vấn node theo sau Following query Truy vấn node phía trước Preceding query Truy vấn anh em Sibling query iv Bảng ký hiệu, từ viết tắt Ký hiệu, từ viết tắt CSDL Cơ sở liệu DNA Phân tử mang thông tin di truyền ARN Đại phân tử sinh học NCBI Trung tâm Thông tin Công nghệ sinh học Quốc gia Hoa Kỳ EMBL/EBI Viện tin sinh học Châu Âu CIB-DDBJ Ngân hàng liệu DNA Nhật Bản SQL Ngôn ngữ truy vấn có cấu trúc Diễn giải NET, PHP, JAVA Tên số ngơn ngữ lập trìnhphổ biến XML Tính nguyên tử, quán, độc lập bền vững CSDL quan hệ Ngôn ngữ đánh dấu mở rộng A-D Mối quan hệ tổ tiên - hậu duệ MBR Hình chữ nhật bao quanh tối thiểu R-tree pre(E) Giá trị duyệt theo thứ tự trước node bối cảnh E post(E) Giá trị duyệt theo thứ tự sau node bối cảnh E ACID v Danh sách bảng Bảng 1.1: Các trục Xpath 22 Bảng 2.1: Thông tin cấu trúc file đĩa 73 Bảng 2.2: Thông tin BioX-tree 73 Bảng 2.3: Thông tin Block 73 Bảng 2.4: Thông tin phần tử 73 Bảng 2.5: Chức lớp 74 Bảng 2.6: Kết truy vấn anh em BioX-tree 83 Bảng 2.7: Kết truy vấn BioX-tree 83 Bảng 2.8: Kết truy vấn tổ tiên BioX-tree 85 Bảng 2.9: Kết truy vấn hậu duệ BioX-tree 85 Bảng 2.10: Kết truy vấn node theo sau BioX-tree 86 Bảng 2.11: Kết truy vấn node phía trước BioX-tree 87 Bảng 3.1: Kết truy vấn anh em BioX+-tree 99 Bảng 3.2: Kết truy vấn anh em trước BioX+-tree 100 Bảng 3.3: Kết truy vấn anh em sau BioX+-tree 101 Bảng 3.4: Kết truy vấn BioX+-tree 102 Bảng 3.5: Kết truy vấn phạm vi BioX+-tree 103 vi Danh sách thuật toán Thuật toán 2.1: Hai thuật toán sửa đổi chuyển đổi tài liệu XML 54 Thuật toán 2.2: Thuật toán chèn 59 Thuật toán 2.3: Thuật toán FindSiblingNode 60 Thuật toán 2.4: Thuật toán CreateNewLeafNode 60 Thuật toán 2.5: Thuật toán truy vấn điểm 63 Thuật toán 2.6: Thuật toán truy vấn phạm vi 63 Thuật toán 2.7: Thuật toán truy vấn anh em 64 Thuật toán 2.8: Thuật toán truy vấn anh em sau 65 Thuật toán 2.9: Thuật toán truy vấn Anh em trước 65 Thuật toán 2.10: Thuật toán truy vấn 66 Thuật toán 2.11: Thuật toán truy vấn tổ tiên 67 Thuật toán 3.1: Thuật toán Insertion 95 Thuật toán 3.2: Thuật toán truy vấn 96 103 Kết Hình 3.9 cho thấy tài liệu cho kết truy vấn khác nhau, nhiên có tài liệu XML mà cấu trúc BioX+-tree cho kết hiệu tốt cấu trúc BioX-tree Bảng 3.5: Kết truy vấn phạm vi BioX+-tree Index file DNACorn DNARice Swissprot Allhomologies Số truy vấn thử nghiệm BioX+-tree 200 200 200 200 BioX-tree 200 200 200 200 Số block truy cập trung bình BioX+-tree BioX-tree 15,9 18,32 2,66 10,52 15,9 18,32 8,58 15,1 Hình 3.9: Biểu đồ so sánh truy vấn phạm vi BioX+-tree BioX-tree Từ thực nghiệm trên, chứng tỏ việc xây dựng thuật toán theo Định lý Hệ đề mang lại hiệu quả, không truy vấn liên quan đến tag anh em mà cho truy vấn thơng thường nhờ vào cấu trúc tối ưu 104 3.4 Kết luận chƣơng Với mục tiêu tìm phương pháp đánh số để truy hồi thơng tin tài liệu XML tin sinh học có kích thước lớn đồng thời giảm bớt kích thước lưu trữ Trong chương 3, luận án phân tích mối tương quan cấu trúc XML sau chuyển đổi liệu không gian số Đề cấu trúc BioX-tree Từ đó, đưa định lý hệ để áp dụng xây dựng thuật toán mới, phương pháp BioX+-tree Các kết thực nghiệm phương pháp đánh số BioX+tree tỏ ưu việt BioX-tree hầu hết loại truy vấn theo trục Xpath truy vấn thông thường Các thực nghiệm sử dụng liệu tin sinh học từ nguồn có uy tín mơ tả đa dạng sinh học khác nhau, mục đích để khẳng định tính khách quan thực tế phương pháp Các kết nghiên cứu chương cơng bố cơng trình 5, phần “Danh mục cơng trình tác giả” 105 KẾT LUẬN 1) Những kết luận án: Luận án nghiên cứu hướng tiếp cận đánh số cho liệu tin sinh học kích thước lớn định dạng tài liệu XML với mục đích tăng tốc độ thực truy vấn xử lý tốt truy vấn vị từ phức tạp Kết luận án bao gồm: 1) Đề xuất phương pháp BioX-tree với cấu trúc cải tiến, thêm vào trỏ biểu thị mối quan hệ: cha mẹ - cái, anh em, bổ sung tham số bước chuyển đổi tài liệu XML lên khơng gian, thiết kế lại thuật tốn chèn, truy vấn giúp tăng tốc độ thực truy vấn, xử lý hiệu truy vấn phức tạp Qua thực nghiệm cho thấy hiệu suất BioX-tree tốt nhiều so với Rtree truy vấn điểm Lý để đạt kết quả, R-tree phải sử dụng truy vấn phạm vi để quét tất node anh em cháu, sau lọc node dự kiến Nhưng BioX-tree xử lý truy vấn cách trước tiên tiếp cận node có chứa đối tượng sau tìm kiếm tất anh em, node thông qua trỏ Điều giúp tránh vấn đề chồng chéo R-tree Kích thước liệu XML lớn, R-tree chồng chéo nhiều làm giảm nhanh chóng hiệu suất 2) Đề xuất phương pháp BioX+-tree với cải tiến thuật toán chèn truy vấn giúp giảm bước duyệt dư thừa để tối ưu tốc độ thực thi, đồng thời giảm bớt nhược điểm cầu trúc BioX-tree đề xuất chương Từ thực nghiệm chứng minh việc xây dựng thuật toán theo Định lý Hệ đề mang lại hiệu quả, không truy vấn liên quan đến anh em mà cho truy vấn thông thường nhờ vào cấu trúc tối ưu 2) Hƣớng phát triển luận án: (1) Tiếp tục nghiên cứu, đề xuất phương pháp đánh số cho liệu tin sinh học với mục tiêu cải thiện hiệu suất truy vấn 106 (2) Mở rộng nghiên cứu áp dụng vào hệ thống CSDL có hỗ trợ R-tree SQL server, Big data để thử nghiệm CSDL tin sinh học kích thước lớn 107 Danh mục cơng trình tác giả Dinh Duc Luong, Hoang Do Thanh Tung, “A Survey on Indexing for Gene Database”, International Clustering Workshop: Teaching, Research, Business, December 27-29, 2014, pp 50-54 Hoang Do Thanh Tung, Dinh Duc Luong, “A proposed Indexing Method for Treefarm database”, International Conference on Information and Convergence Technology for Smart Society, Vol.2 No.1, Jan, 19-21,2016 in Ho Chi Minh, Vietnam, pp 79-81 Vương Quang Phương, Lê Thị Thùy Giang, Đinh Đức Lương, Ngô Văn Bình, Hồng Đỗ Thanh Tùng, “Giải pháp cơng nghệ quản lý nguồn gốc giống heo”, Kỷ yếu Hội thảo Quốc gia lần thứ XXI:Một số vấn đề chọn lọc CNTT TT, Thanh Hóa, 27-28/7/2018, Tr 110-116 Hoang Do Thanh Tung, Dinh Duc Luong, “An Improved Indexing Method for Xpath Queries”, Indian Journal of Science and Technology, Vol 9(31), DOI:10.17485/ijst/2016/v9i31/92731, August 2016, pp 1-7 Dinh Duc Luong, Vuong Quang Phuong, Hoang Do Thanh Tung, “A new Indexing technique BioX+-tree for Bioinformatic XML data compression”, International Journal of Engineering and Advanced Technology (IJEAT), ISSN:2249-8958, Volume-8, Issue-5, june 2019, pp 1-7 108 Tài liệu tham khảo Tài liệu tiếng Việt [1] Vương Quang Phương, Hoàng Đỗ Thanh Tùng, Phạm Thị Tiên, Đặng Thị Thu Trang: Một phương pháp tiền xử lý liệu sinh học dựa công nghệ liệu lớn kết hợp kho liệu, Hội thảo Quốc gia lần thứ XIX: Một số vấn đề chọn lọc CNTT truyền thông – Hà Nội, 1-2/10/2016 Tài liệu tiếng Anh [2] Alghamdi NS, Rahayu W, Pardede E Semantic-based Structural and Content indexing for the efficient retrieval of queries over large XML data repositories Journal of Future Generation Computer Systems 212-31, 2014 [3] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ.: Basic local alignment search tool, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD (1990) [4] Hoang Do Thanh Tung, , Keun Ho Ryu “A ONCE-Updating Approach on Moving Object Indexing Methods” Proceedings of the International Workshop on Conceptual Modeling for GIS, 25th ER2006 conference, Arizona, America, Lecture Notes in Computer Science, Vol.4231, pp.140149, Springer-Verlag, November, 2006 [5] A R Schmidt, F Waas, M L Kersten, D Florescu, I Manolescu, M.J Carey, and R Busse: The XML Benchmark Project Technical Report INSR0103, CWI, Amsterdam, The Netherlands, April 2001 [6] Altschul SF, Madden T, Alejandro A, Schaffer A, Zhang J, Zhang Z, Miller W, Lipman DJ.: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD (1997) 109 [7] Arion, A., A Bonifati, I Manolescu, A Pugliese XQueC: A queryconscious compressed XML database ACM Trans Internet Technol., 7: 10, 2007 [8] Arroyuelo, D., F Claude, S Maneth, V MăAkinen, G Navarro, K Nguyen, J SirEn, N VăAlimăAki Fast In-Memory XPath Search using Compressed Indexes In Proceedings of the IEEE Twenty-Sixth International Conference on Data Engineering (ICDE 2010), California, USA, 2010 [9] B Salzberg and V.J Tsotras A Comparison of Access Methods for TimeEvolving Data ACM Computing Surveys, Vol.31, No.2, June 1999 [10] Baxevanis, A.D and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition Wiley, ISBN 0471-478784, 2005 [11] Berglund, A.Boag, S Chamberlin, D Fernandez, M.F.Kay, M.Robie “XML Path Language (XPath) 2.0” Technical Report W3C Working Draft, Version 2.0,World Wide Web Consortium, http://www.w3.org/TR/xpath20, 2002 [12] C M Procopiuc, P K Agarwal, and S Har-Peled STAR-Tree: An Efficient Self-Adjusting Index for Moving Objects In Proceedings of the Workshop on Algorithm Engineering and Experiments, pp.178–193, ALENEX, January 2002 [13] Califano A, Rigoutsos I.: FLASH: a fast look-up algorithm for string homology, International conference on intelligent systems for molecular biology, Bethesda, MD, 56-64, 1993 [14] Cao X, Li SC, Ooi BC, Tung AKH.: Piers: an efficient model for similarity search in DNA sequence databases Sigmod record, Special Issue (2004) [15] Cheng, J., W Ng XQZip: Querying Compressed XML using Structural Indexing International Conference on Extending Data Base Technology (EDBT) , 2004 [16] Chun Zhang, Jeffrey Naughton, David DeWitt, Qiong Luo, and Guy Lohman, “On supporting containment queries in relational databases management systems” In Proceedings of the 2001 ACM SIGMOD 110 Conference, Santa Barbara, CA, May 2001 [17] Chung J, Min CW, Shim K APEX: an adaptive path index for XML data Proceedings of ACM SIGMOD; 12132, 2002 [18] Claverie, J.M and C Notredame, Bioinformatics for Dummies Wiley, ISBN 0-7645-1696-5, 2003 [19] D Pfoser, C S Jensen, and Y Theodoridis Novel Approaches in Query Processing for Moving Object Trajectories In Proceedings of the 6th International Conference on Very Large Data Bases, pp.395–406, September 2000 [20] D.Megginson.SAX: A Simple http://www.megginson.com/SAX, 2000 API for XML [21] Dietz P Maintaining order in a linked list Proceedings of the Fourteenth Annual ACM Symposium on Theory of Computing, ACM 122-127, 1982 [22] Dietz, P.F and Sleator, D.D “Two algorithms for maintaining order in a list ” In Conference Revord of the 19th Annual ACM Symposium on Theory of Computing (STOC) ACM Press, 1987 [23] Durbin, R., S Eddy, A Krogh and G Mitchison, Biological sequence analysis Cambrige University Press ISBN 0-521-62971-3, 1998 [24] Fondrat C, Dessen P.: A Rapid access motif database (RAMdb) with a search algorithm for the retrieval patterns in nucleic acids or protein databanks Comput Appl Biosci, 11(3): 273-279, 1995 [25] G Gottlob, C Koch and R.Pichler, “Efficient algorithms for processing XPath queries” In VLDB Conference 2002, HongKong, 2002 [26] G Kollios, D Gunopulos, and V J Tsotras On Indexing Mobile Objects In Proceedings of the ACM Symposium on Principles of Database Systems, PODS, pp.261–272, June 1999 [27] Grust T, Keulen MV, Teubner J Accelerating XPath evalua-tion in any RDBMS Journal of ACM Trans Database Syst 91-131, 2004 111 [28] Grust T, Van Keulen M Tree awareness for relational DBMS kernels: Staircase join Journal of Lecture Notes in Computer Science 231-45, 2003 [29] Greene, D: An implementation and performance analysis of spatial data access methods Proceedings Fifth International Conference on Data Engineering pp 606–615, 1989 [30] Guttman R-Trees: A Dynamic Index Structure For Spatial Searching In Proceedings of ACMSIGMOD International Conference on Management of Data, pp.47–57, Boston, June 1984 [31] H D Chon, D Agrawal, and A E Abbadi Storage and Retrieval of Moving Objects In Mobile Data Management, pp.173–184, January 2001 [32] H Jiang, H Lu, W Wang, B C Ooi:XR-Tree: Indexing XML Data for Efficient Structural Joins Proc the 19th International Conference on Data Engineering (ICDE), pages 253-263, 2003 [33] H Samet The Design and Analysis of Spatial Data Structures Reading, MA:Addison-Wesley, 1990 [34] Haifeng Jiang, Hongjun Lu, Wei Wang, Beng Chin Ooi.: XR-T ree: Indexing XML Data for Ef cient Structural Joins Proceedings 19th International Conference on Data Engineering (Cat No.03CH37405), 2003 [35] Han JY, Liang ZP, Qian G A multiple-depth structural in-dex for branching query Journal of Information and Soft-ware Technology 928-36, 2006 [36] Haw S, Lee C Data Storage Practices and Query Processing in XML Databases: A Survey International Journal of Knowledge-Based Systems, Elsevier 1317-40, 2011 [37] Haw S, Lee C Node labeling schemes in XML query opti-mization: a survey and trends Journal of IETE Tech Rev.88-100, 2009 [38] Hoang Do Thanh Tung, Young Jin Jung, Eung Jae Lee, Keun Ho Ryu “Moving Point Indexing for Future Location Query” Proceedings of the International Workshop on Conceptual Modeling for GIS, 23th ER2004 conference, Shanghai, China, Lecture Notes in Computer Science, Vol.3289, 112 pp.79-90, Springer-Verlag, November, 2004 [39] I Kamel and C Faloutsos Hilbert R-tree: An improved R-tree Using Fractals In Proceedings of the 20th VLDB Conference, Chile, 1994 [40] I T atarinov, S Viglas, K Beyer, J Shanmugasundaram, E Shekita, and C Zhang Storing and querying ordered XML using a relational database system In SIGMOD, pages 204– 215, 2002 [41] In-Seon Jeong, Kyoung-Wook Park, Seung-Ho Kang, Hyeong-Seok Lim An efficient similarity search based on indexing in large DNA databases, Computational Biology and Chemistry 34, 131-13, 2010 [42] J Shanmugasundaram et al., “A general technique for querying XML documents using a relational database system” SIGMOD Record, 2001 [43] J Tayeb, O Ulusoy, and O.Wolfson A Quadtree-Based Dynamic Attribute Indexing Method The Computer Journal, Vol.41, No.3, pp.185–200, 1998 [44] Kailing K, Kriegel H-P, Schonauer S, Seidl T.: Efficient similarity search for hierarchical data in large databases In: Proc 9th int conf on extending database technology (EDBT 2004), Heraklion, Greece, 676-693, 2004 [45] Kriegel H-P, Schonauer S.: Similarity search in tructured data In: Proc 5th int conf on data warehousing and knowledge discovery (DaWaK’03), Prague, Czech Republic, Lecture notes in computer science (LNCS), (2003), vol 2737, 309-319, 2003 [46] Lee HP, Tsai YT, Sheu TF, Tang CT.: An IDC-based algorithm for efficient homology filtration with guaranteed seriate coverage In: Fourth IEEE symposium on bioinformatics and bioengineering (BIBE’04), Taichung, Taiwan, 200 (2004) [47] Li Q, Moon B et al Indexing and querying XML data for regular path expressions Proceedings of the International Conference on Very Large Data Bases p 361-70, 2001 [48] Lomet and B Salzberg Access Methods for Multiversion Data In Proceedings of ACM SIGMOD Conference, pp.315-324, 1989 113 [49] M Erwig, R.H Gueting, M Schneider, and M Vazirgiannis Abstract and Discrete Modeling of Spatio-Temporal Data Types In Proceedings of the 6th ACM International Workshop on Advances in Geographic Information Systems, pp.131-136, 1998 [50] M Nascimento, and J Silva Towards Historical R-trees In Proceedings of ACM Symposium on Applied Computing, pp.235-240, Atlanta, USA, February 1998 [51] Michal Kr´atk´y Indexing Graph Structured Data PhD thesis, Faculty of Elec-trical Engineering and Computer Science, Technical University of Ostrava, 2004 [52] Min, J.K., M.J Park, C.W Chung XPRESS: a queriable compression for XML data Proceedings of the 2003 ACM SIGMOD international conference on Management of data, ACM, San Diego, California, 122133, 2003 [53] N Beckmann, H.P Kriegel, R Schneider, and B Seeger The R*-tree: An Efficient and Robust Access Method For Points and Rectangles In Proceedings of ACM-SIGMOD International Conference on Management of Data, pp.322–331, Atlantic City, May 1990 [54] Nur'Aini Abdul Rashid, Rosni Abdullah, Abdullah Zawawi Haji Talib, Zalila Ali, IEEE.: Fast Dynamic Programming Based Sequence Alignment Algorithm, 2006 [55] O’Neil P, O’Neil E, Pal S, Cseri I, Schaller G, Westbury N Ordpaths: insert friendly XML node labels Proceedings of the 2004 ACM SIGMOD International Conference on Man-agement of Data, SIGMOD ’04, ACM, New York p 903-8, 2004 [56] Ong TH, Tan KL, Wang H.: Indexing genomic databases for fast homology searching In: Proceedings of the 13th international conference on database and expert systems applications, Aix-en-Provence, France 871-880, 2002 [57] Ooi BC, Pang HH, Wang H, Wong L, Yu C.: Fast filter-and-refine algorithms for subsequence selection In: Proceedings of the 6th international database engineering and applications symposium (IDEAS’02), Edmonton, Canada, pp 243–254, July 2002 114 [58] P Agarwal, L Arge, J Erickson Indexing Moving Points Symposium on Principles of Database Systems, 2000 [59] Pearson WR, Lipman DJ.: Improved tools for biological sequence comparision Proc Natl Acad Sci USA 85 :2444-2448, 1988 [60] Q Li and B Moon: Indexing and Querying XML Data for Regular Path Expressions Proc the 27th International Conference on Very Large Data Bases (VLDB), pages 361-370, 2001 [61] Q Li, B Moon, et al Indexing and querying XML data for regular path expressions Proceedings of the International Conference on Very Large Data Bases, 361–370, 2001 [62] Qian, B., H Wang, J Li, H Gao, Z Bao, Y Gao, Y Gu, L Guo, Y Li, J Lu, Z Ren, C Wang, X Zhang Path-Based XML Stream Compression with XPath Query Support Web-Age Information Management Springer Berlin / Heidelberg, 2012 [63] Quanzhong Li, Bongki Moon, ”Indexing and Querying XML data for Regular Path Expression” In Proceedings of the 27th VLDB Conference, Roma, Italy, 2001 [64] Rao P, Moon B PRIX: indexing and querying XML using prufer sequences Proceedings of ICDE, IEEE; 288300, 2004 [65] S Muthukrishnan and S C Sahinalp.: Approximate nearest neighbor and sequence comparison with block operations, 2000 [66] S Saltenis and C S Jensen Indexing of Moving Objects for Location-Based Services In Proceedings of the International Conference On Data Engineering, February 2002 [67] S Saltenis, C S Jensen, S T Leutenegger, and M A Lopez Indexing the Positions of Continuously Moving Objects In Proceedings of SIGMOD, 2000 [68] S.-Y Chien, Z V agena, D Zhang, V Tsotras, and C Zan-iolo Efficient structural joins on indexed XML documents International Conference on 115 Very Large Data Bases (VLDB), pages 263– 274, 2002 [69] Samer Mahmoud Wohoush, Mahmoud Hassan Saheb.: Indexing for Large DNA Database Sequenes, International Journal of Biometrics and Bioinformatics (IJBB), Volume (5) : Issue (4) 2011 [70] Sebastian Maneth, Diego Arroyuelo, Francisco Claude, Veli Mäkinen, Gonzalo Navarro, Kim Nguyễn, Jouni Sirén, Niko Välimäki: Fast inmemory XPath search using compressed indexes, Software Practice and Experience 45(3), January 2010 [71] Somaye Nouri Monfared, Hasan Naderi, Mohammad Nazari Farokhi, Nasredin Niazy, Behzad Hosseini Chegeni: XML Retrieval: A Survey, International Journal of Computational Engineering Research (IJCER), ISSN (e): 2250 – 3005, Vol 04 - Issue 8, August 2014 [72] Sreenivasaiah Pradeep Kumar, Do Han Kim: Current Trends and New Challenges of Databases and Web Applications for Systems Driven Biological Research, Frontiers in Physiology 1:147, December 2010 [73] T Grust, M V Keulen, and J Teubner: Accelerating Xpath Evaluation in Any RDBMS ACM Transactions on Database Systems, Vol 29, No.1, pages 91-131, 2005 [74] T Kahveci, A Singh Pacific Symposium, MAP.: Searching Large Genome Databases, Biocomputing : 303 - 314 2003 [75] T Sellis, N Roussopoulos and C Faloutsos The R+-Tree: A Dynamic Index for Multi- Dimensional Objects In Proceedings of the 13rd International Conference on Very Large Data Bases, pp.507-518, Brighton, England, September 1987 [76] Taha Baydaa, Alwan Raad: Bioinformatics Data Compression and Retrieval Based on XML Structured Indexed Tree, Australian Journal of Basic and Applied Sciences 8(83):35-42, April 2014 [77] Tamer Kahveci Ambuj K Singh Department of Computer Science, University of California Santa Barbara : An Efficient Index Structure for String Databases, CA 93106 {amer,ambuj}cs.ucsb.edu 2001 116 [78] Tatarinov I, Viglas SD, Beyer K, Shanmugasundaram J, Shekita E, Zhang C Storing and querying ordered XML using a relational database system Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, SIGMOD ’02, ACM, New York p 204-15 2002 [79] Tatikonda S, Parthasarathy S, Goyder M LCS-Trim: dy-namic programming meets XML indexing and querying Proceedings of the 33rd International Conference on Very Large Data Bases p 63-74 2007 [80] Theo Haerder and Andreas Reuter Principles of transaction-oriented database recovery ACM Comput Surv., 15(4):287–317, 1983 [81] Tim Bray, Jean Paoli, C.M Sperberg-Mc Queen “Extensible Markup Language(XML) 1.0” W3C Recommendation, 2000 [82] Tolani, P.M., J.R Haritsa XGRIND: A Query-friendly XML Compressor IEEE 18th international conference on Data Engineering, 2000 [83] Trißl, Silke and Leser, Ulf Fast and practical indexing and querying of very large graphs In SIGMOD '07: Proceedings of the 2007 ACM SIGMOD international conference on Management of data, pages 845–856, New York, NY, USA, 2007 [84] V Gaede and O Gunther Multidimensional Access Methods ACM Computing Surveys, Vol.30, No.2, pp.170-231, June 1998 [85] V.J.Tsotras, N Kangelaris The Snapshot Index, an I/O-Optimal Access Method for Timeslice Queries Information Systems, Vol.20, No.3, 1995 [86] Willams HE.: Fast ranking strategies for genomic databases, 1997 [87] Williams H, Zobel J.: Indexing and retrieval for genomic databases IEEE Trans Knowl Data Eng, 14(1):63–78, 2002 [88] Xianyang Jiang, Peiheng Zhang, Xinchun Liu, Stephen S.-T.Yau.: Survey on index based homology search algorithms, Springer Science + Business Media, LLC (2007) 117 [89] Y Feng, A Makinouchi: Efficient Evaluation of Partially- dimensional Range Queries Using Adaptive R*-tree Proc the 17th International Conference on Database and Expert Systems Applications (DEXA), LNCS 4080, pages 687-696, Springer-Verlag, 2006 [90] Yannis Theodoridis, Michael Vazirgiannis, Timos Sellis Spatio-Temporal Indexing for Large Multimedia Applications International Conference on Multimedia Computing and Systems, 1996 [91] Yaokai Feng, and Akifumi Makinouchi: A New Structure for Accelerating XPath Location Steps IAENG International Journal of Computer Science, 38:2, IJCS_38_2_03, 2006 [23] Yufei Tao and Dimitris Papadia Efficent Historical R trees In Proceedings of the 13rd IEEE Conference on Scientific and Statistical Database Management, pp.223-232, Fairfax Virginia, July, 2001 [93] Yufei Tao and Dimitris Papadias MV3R-Tree: A Spatio-Temporal Access Method for Timestamp and Interval Queries In Proceedings of the 27th Very Large Data Bases Conference, pp.431-440, Rome, September, 2001 [94] Yufei Tao, D Papadias, J Sun The TPR*-Tree: An Optimized SpatioTemporal Access Method for Predictive Queries In Proceedings of the 29th Very Large Data Bases Conference, 2003 [95] Zhang C, Naughton J, DeWitt D, Luo Q, Lohman G On supporting containment queries in relational database man-agement systems Journal of ACM SIGMOD Record, ACM 425-36 2001 ... liệu .6 1.1.3 Vấn đề tin sinh học sở liệu sinh học 10 Các phương pháp đánh số liệu sinh học tin sinh học 13 1.2.1 Chỉ số mơ hình nhớ ngồi 13 1.2.2 Các phương pháp đánh số cho. .. gần đánh số tài liệu XML có xu hướng: - Tách tài liệu XML thành phần liệu áp dụng phương pháp đánh số khác cho phù hợp với dạng liệu loại truy vấn đặc thù Cụ thể là: Phương pháp đánh số liệu. .. LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… ĐINH ĐỨC LƢƠNG PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO TÀI LIỆU XML TIN SINH HỌC DỰA TRÊN R-TREE LUẬN ÁN TIẾN SĨ TỐN HỌC Chun