1. Trang chủ
  2. » Công Nghệ Thông Tin

CƠ SỞ DỮ LIỆU ĐỒ THỊ

26 395 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 785,5 KB

Nội dung

Khảo sát tổng quan tình hình nghiên cứu cơ sở dữ liệu đồ thị hiện nay. Tìm hiểu lý thuyết cơ sở dữ liệu đồ thị và các phép đại số đồ thị. Tổ chức cài đặt cơ sở dữ liệu đồ thị trên hệ quản trị CSDL quan hệ, và hiện thực một số thao tác truy vấn đồ thị. Ứng dụng vào cơ sở dữ liệu đồ thị cấu trúc Protein.. Đồ thị được sử dụng phổ biến trong các mô hình đòi hỏi cấu trúc phức tạp và dữ liệu không cấu trúc.Đồ thị được sử dụng để giải quyết các bài toán trong các lĩnh vực như: sinh học phân tử, dữ liệu DNA, dữ liệu Proteins 16, dữ liệu video 12, dữ liệu cấu trúc hóa học 8, CADCAM, luồng điều khiển giao thông, tài liệu XML, Web và phân tích mạng xã hội, mạng thông tin, hệ thống thông tin di động… Nhu cầu cần có công cụ cho việc tìm kiếm và cho phép thao tác, truy vấn dữ liệu đồ thị với các thuộc tính và cấu trúc đồ thị tương đồng, có các hệ thống liên quan: GRACE system 19, the GOQL system 12, the SBGE system 2 Phương pháp tiếp cận của Chuyên đề là sử dụng các phép toán trên đồ thị: phép giao, phép hội hai đồ thị, phép trừ, phép kết, phép chọn, phép chiếu và hiện thực các phép toán này bằng cách thêm vào câu lệnh SQL truyền thống những từ khóa truy vấn bổ sung để đưa ra kết quả truy vấn đồ thị theo yêu cầu.

sở liệu đồ thị UNIVERSITY OF INFORMATION TECHNOLOGY - Department of Information Systems - Nội dung  Giới thiệu  Đại số đồ thị  Hiện thực hóa đại số đồ thị  Mơ hình truy vấn đồ thị  Kết luận hướng phát triển Mục tiêu chuyên đề  Khảo sát tổng quan tình hình nghiên cứu sở liệu đồ thị  Tìm hiểu lý thuyết sở liệu đồ thị phép đại số đồ thị  Tổ chức cài đặt sở liệu đồ thị hệ quản trị CSDL quan hệ, thực số thao tác truy vấn đồ thị  Ứng dụng vào sở liệu đồ thị cấu trúc Protein Giới thiệu  Đồ thị sử dụng phổ biến mơ hình đòi hỏi cấu trúc phức tạp liệu không cấu trúc.Đồ thị sử dụng để giải toán lĩnh vực như: sinh học phân tử, liệu DNA, liệu Proteins [16], liệu video [12], liệu cấu trúc hóa học [8], CAD/CAM, luồng điều khiển giao thơng, tài liệu XML, Web phân tích mạng xã hội, mạng thông tin, hệ thống thông tin di động…  Nhu cầu cần cơng cụ cho việc tìm kiếm cho phép thao tác, truy vấn liệu đồ thị với thuộc tính cấu trúc đồ thị tương đồng, hệ thống liên quan: GRACE system [19], the GOQL system [12], the SBGE system [2]  Phương pháp tiếp cận Chuyên đề sử dụng phép toán đồ thị: phép giao, phép hội hai đồ thị, phép trừ, phép kết, phép chọn, phép chiếu thực phép toán cách thêm vào câu lệnh SQL truyền thống từ khóa truy vấn bổ sung để đưa kết truy vấn đồ thị theo u cầu Mơ hình liệu đồ thị  Biểu diễn thông tin dễ dàng  Vertices – Đỉnh biểu diễn khái niệm đối tượng  Edges – Cạnh biểu diễn mối quan hệ đỉnh  Properties – thuộc tính đối tượng/quan hệ  Biểu diễn thông tin liên kết cấp độ cao như:  Social network - Mạng xã hội  Knowledge bases - Tri thức  Một số tốn sử dụng mơ hình đồ thị  Phân tích, khai thác liên kết  Web ngữ nghĩa  Thơng tin sinh tin học Đồ thị nhãn Label graph Đồ thị nhãn  V is a set of vertices  E is a set of edges  VL is a set of vertex labels  Vl is a set of vertex id G (với V , E , V L ,  , Vl ,  )  :V VL is a vertex labeling function  : V Vl is a vertex identifying function   sở liệu đồ thị sở liệu đồ thị Một sở liệu đồ thị tập hợp đồ thị thành viên G={G1,G2,G3, ,Gn } với đồ thị Gi đồ thị nhãn Ví dụ sở liệu đồ thị đồ thị thành viên sau: Đại số đồ thị [10],[12],[13] Đại số đồ thị định nghĩa phép toán đại số quan hệ đồ thị, : Chiếu: π, Chọn: σ, Hợp: , Tổng: +, Giao: ∩, Kết: × , Trừ: \ Phép chọn Cho GD sở liệu đồ thị, phép chọn đồ thị GD trả tập hợp đồ thị thõa F:  F (GD) {G  GD | G satisfied F} F điều kiện truy vấn, F là: graph isomorphism, subgraph isomorphism, graph containing, graph similarity, điều kiện khác Cho q đồ thị truy vấn (pattern graph), phép chọn đồ thị mô tả sau: δisomorphism(q)(GD) δsubgraphisomorphism(q)(GD) δsimilarity(q, epsilon)(GD) …… Phép chọn Đại số đồ thị Graph Projection Khái niệm đồ thị con: Cho G =(V, E) đồ thị, XV Đồ thị G X định nghĩa đồ thị G′(V′,E′) cho: V′ = X E′ = V′xV′E Cho GD sở liệu đồ thị, X tập hợp đỉnh cần chiếu (XV) Phép chiếu đồ thị GD trả tập hợp đồ thị cho:  X (GD) {G  | G is induced graph of G on X} 10 Đại số đồ thị Graph Sum Đồ thị tổng hai đồ thị G1, G2 (  (G1 , G2 ) ) đồ thị ma trận kề tính tổng ma trận kề thành phần số đỉnh đồ thị G1, G2 phải [7], [17] 12 Đại số đồ thị Graph Intersection Đồ thị gọi giao hai đồ thị tập đỉnh đồ thị kết chứa đỉnh thuộc hai đồ thị tập hợp cạnh đồ thị kết chứa cạnh thuộc hai đồ thị Số đỉnh đồ thị G1, G2 phải [7] 13 Đại số đồ thị Graph Difference  Phép trừ đồ thị G1, cho G2 : G= G1\G2 định nghĩa đồ thị ma trận kề tính hiệu ma trận kề G1, G2 số đỉnh đồ thị G1, G2 phải [17]  Nói cách khác, phép trừ G =G1\G2 đồ thị G1, G2 kết việc trích cạnh đồ thị G1 cạnh khơng mặt đồ thị G2 14 Đại số đồ thị Graph Join Cho hai đồ thị G1 G2 với hai tập đỉnh không giao V1, V2 ( V V  ) hai tập cạnh E1, E2, ( E1  E  ) phép kết G = G1+G2 định nghĩa gộp hai đồ thị G1G2 với tất cạnh nối từ tập đỉnh đồ thị thứ V1 đến tập đỉnh đồ thị thứ hai V2 với 15 Nội dung  Giới thiệu  Đại số đồ thị  Hiện thực sở liệu đồ thị đại số đồ thị  Mơ hình truy vấn đồ thị  Kết luận hướng phát triển 16 Hiện thực sở liệu đồ thị (1)  Trước đây, liệu đồ thị thường tổ chức lưu trữ tập tin Kích thước tập tin gia tăng đáng kể, tốc độ truy xuất chậm tập tin không mục tốt  Một số nghiên cứu tổ chức mơ hình liệu đồ thị hệ quản trị sở liệu “Mô hình liệu mạng (Network Data Model)” hãng Oracle[25], hay phần mềm PostGIS nhóm nghiên cứu Refractions Research Inc DBMS PostgreSQL hướng quan hệ-đối tượng  Hạn chế mơ hình liệu mạng : mạng (network) cho phép lưu đồ thị tên mạng cố định tạo mạng, truy xuất liệu từ bảng đỉnh, cạnh hay đường network phải định tên network cố định, kích thước mặc định cho lần tạo network xấp xỉ 1.4MB (SDONetwork) Nếu biểu diễn protein SDO-network,với 40.000 protein truy xuất nhanh liệu lẫn thao tác đồ thị (dung lượng nhớ lưu trữ ~56000 MB) 17 Hiện thực sở liệu đồ thị (2)  Lưu trữ đồ thị XML triển khai để mở rộng khả lưu trữ liệu ứng dụng web  Cú pháp xử lý liệu XML phức tạp (phân biệt hoa, thường, truy xuất theo đường dẫn thư mục), việc truy vấn CSDL đồ thị XML gặp khó khăn trước đạt đến khả lưu trữ mở rộng  Object-Relational DBMS: đồ thị đối tượng (object), column với data type column object người sử dụng định nghĩa Với DBMS dạng này, thao tác đồ thị thao tác object  Bản chất hệ quản trị sở liệu hướng quan hệ-đối tượng quan hệ, truy vấn quay ngôn ngữ SQL thao tác table 18 Hiện thực đại số đồ thị (1) thể dễ dàng tích hợp biểu diễn SQL mở rộng với truy vấn đồ thị Câu truy vấn trả tập hợp đồ thị thỏa điều kiện Hàm trả đồ thị kết (each function returns a graph)  GraphIntersection  GraphUnion  GraphDifference  GraphJoin Hàm trả sở liệu đồ thị (each funtion returns a graph database)  GraphDBSelection  GraphDBProjection  GraphDBDistance Ví dụ: Graph selection SELECT g.graphID from GraphMaster g WHERE SubGraphIsomorphism(‘G.txt’,g.graphID) Ví dụ: SELECT g.graphID from GraphMaster g WHERE GraphDistance (‘G.txt’, g.graphID) < Epsilon 19 Hiện thực đại số đồ thị (2) Một số hàm đề xuất để hỗ trợ truy vấn đồ thị GraphSimilarity(‘protein-name1’, ‘protein-name2’): calculates the distance between two graphs, the similarity between two protein structures GraphIsomorphism(‘protein-name1’, ‘protein-name2’) SubgraphIsomorphism(‘protein-name1’, ‘protein-name2’) GraphContain(‘amino acids list’): returns graphs, each of which contains a given amino acid list GraphDBSelection(‘criteria’): select protein structures according to criteria GraphUnion(‘protein-name1’, ‘protein-name2’) GraphIntersection(‘protein-name1’, ‘protein-name2’) GetProteinData(‘protein-name’): retrieves the information of amino acid sequence of protein GetProteinProperty(‘protein-name’, ‘Property’): returns the values of properties such as DNA chain, gene encoding protein, 3D coordinates of the atom, 3D protein structure, ) 20 Nội dung  Giới thiệu  Đại số đồ thị  Hiện thực đại số đồ thị  Mô hình truy vấn đồ thị  Kết luận hướng phát triển 21 Mơ hình truy vấn đồ thị (3) Các hệ quản trị sở liệu DB2, Oracle, SQL Server cho phép người lập trình tích hợp UDF (UserDefined Function) vào câu lệnh Select SQL truyền thống Khi câu lệnh Select trở nên đơn giản thuận tiện Ví dụ: Cho đồ thị truy vấn GQ đỉnh, câu SQL viết lại sau: Select g.graphID from GraphTbl g where SubgraphIsomorphism(‘GQ‘, g.graphID) = True or GraphIsomorphism(‘GQ‘, g.graphID) = True 24 Nội dung  Giới thiệu  Đại số đồ thị  Hiện thực đại số đồ thị  Mơ hình truy vấn đồ thị  Kết luận hướng phát triển 25 Kết luận hướng phát triển  thể xây dựng hệ thống ngôn ngữ mở rộng truy vấn đồ thị dựa sở liệu quan hệ  Giới thiệu đại số đồ thị, thực truy vấn đại số đồ thị hàm SQL mở rộng Các hàm SQL mở rộng xây dựng trước (User-defined-function) cho phép người dùng lồng vào câu lệnh truy vấn SQL túy để khai thác tính chất đồ thị tập hợp đồ thị  Nghiên cứu số lý thuyết đẳng cấu đồ thị hướng tiếp cận so sánh đồ thị dựa phổ đồ thị số phương pháp khác 26 References (1) [1] Akihiro Inokuchi, Takashi Washio, Hiroshi Motoda An Apriori-based Algorithm for Mining Frequent Substructures from Graph Data Proc of The 4th European Conf on Principles and Practice of Knowledge Discovery in Databases (PKDD’00), pp 13–23, Lyon,France 09/2000 [2] B. A. Eckman, P. G. Brown Graph data management for molecular and cell biology Source, IBM Journal of Research and Development archive Volume 50 , Issue (November 2006) [3] Beineke, L W and Wilson, R J Topics in Algebraic Graph Theory Cambridge University Press, p 104, 2004 [4] B.T Messmer and Horst Bunke Subgraph isomorphism in polynomial time Technical Report IAM 95-003, University of Bern, Institute of Computer Science and Applied Mathematics, Bern, Switzerland, 1995 [5] Chris Godsil Graph Spectra and Graph Isomorphism Aveiro Workshop on Graph Spectra, University of Aveiro, Mathematics Department, April 2006 [6] Dennis Shasha, J T L Wang, and R Giugno Algorithmics and Applications of Tree and Graph Searching In Proc PODS'02 Proceeding of the International Conference in Pattern recognition (ICPR), Quebec, Canada, August 2002 [7] Harary, F Graph Theory, Addison-Wesley, 1994 [8] Haoliang Jiang, Haixun Wang, Philip S Yu, Shuigeng Zhou Gstring: A novel approach for efficient search in graph databases, IEEE 23rd International Conference on Data Engineering, 2007 [9] H Bunke, Kim Shearer Graph distance metric based on the maximal common subgraph, Pattern Recognition letter 19, pp 225-229, 1998 [10] Huahai He and Ambuj K Singh, "Graphs-at-a-time: Query Language and Access Methods for Graph Databases", In Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD'08), Vancouver, Canada, 2008 [11] Jonathan Gross, Jay Yellen Graph Theory and Its Applications, CRC Press, 1998 27 References (2) [12] Lei Sheng, Z M Özsoyoglu, G Özsoyoglu A Graph Query Language and Its Query Processing, 15th International Conference on Data Engineering (ICDE'99), 1999 [13] Norman Biggs Algebraic Graph Theory Cambridge University Press, 2nd edition, 1993 [14] Richard C Wilson, Ping Zhu A Study of graph spectra for comparing graphs and trees, CS Department, University of York, UK, 2008 [15] Rosalba Giugno and Dennis Shasha 'Graphgrep: a fast and universal method for querying graphs', in Proceedings of the 16th International Conference on Pattern Recognition, 2002, pp.467470 [16] Saraswathi Vishveshwara et al Protein structure insights from graph theory, Journal of Theoretical and Computational Chemistry, Vol 1, No 1, 2002 [17] Steven Skiena Implementing Discrete Mathematics: Combinatorics and Graph Theory with Mathematica, Perseus Books (Sd) , 1990 [18] Stephens, S., Rung, J and Lopez, X Graph Data Representation in Oracle Database 10g: Case Studies in Life Sciences IEEE Data Engineering Bulletin, 2004 [19] Srinath Srinivasa, Harjinder Singh GRACE: A Graph Database System, COMAD 2005b, Hyderabad, India, December 2005 [20] Takashi Washio , Hiroshi Motoda, State of the art of graph-based data mining, ACM SIGKDD Explorations Newsletter, v.5 n.1, July 2003 [21] Ullman An Algorithm for Subgraph Isomorphism, Journal of the Association for Computing Machinery, 23, pp 31-42, 1976 [22] W Henry Suters A new approach and faster exact methods for the maximum common subgraph, 2002 28 ...  Cơ sở liệu đồ thị Cơ sở liệu đồ thị Một sở liệu đồ thị tập hợp đồ thị thành viên G={G1,G2,G3, ,Gn } với đồ thị Gi đồ thị có nhãn Ví dụ sở liệu đồ thị có đồ thị thành viên sau: Đại số đồ thị. .. sở liệu đồ thị phép đại số đồ thị  Tổ chức cài đặt sở liệu đồ thị hệ quản trị CSDL quan hệ, thực số thao tác truy vấn đồ thị  Ứng dụng vào sở liệu đồ thị cấu trúc Protein Giới thiệu  Đồ thị. .. đỉnh đồ thị G1, G2 phải [7], [17] 12 Đại số đồ thị Graph Intersection Đồ thị gọi giao hai đồ thị tập đỉnh đồ thị kết chứa đỉnh thuộc hai đồ thị tập hợp cạnh đồ thị kết chứa cạnh thuộc hai đồ thị

Ngày đăng: 02/04/2019, 19:25

TỪ KHÓA LIÊN QUAN

w