Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
7,29 MB
Nội dung
CHƢƠNG 1: XML 1.1 GIỚI THIỆU VỀ XML 1.1.1 Giới thiệu 1.1.2 Lợi ích XML 1.2 MƠ HÌNH DỮ LIỆU CỦA XML .10 11 1.4 16 Ậ 18 18 18 2.1.2 20 23 24 24 24 26 .27 2.2.1.4 32 34 34 35 41 42 CHƢƠNG 3: ỨNG DỤNG XML TRONG CƠ SỞ DỮ LIỆU .43 .43 44 44 47 53 54 HÌNH 1.1 (a) Tài liệu XML khơng có ID/IDREF (b) Tài liệu XML có ID/IDREF 10 1.2 (a) Cây liệu XML với nút đƣợc gán nhãn (b) Cây liệu XML Edgelabeled (c) Đồ thị liệu XML với nút đƣợc gán nhãn 12 1.3 (a)Xpathvà (b) Xquery 13 2.1 Từ đồ thị liệu đến đồ thị số 20 2.2 Ví dụ (a) Bả (b) Bảng nút 25 2.3 Cách tiếp cận : truy vấn SQL cho “/publisher[address = “Cambridge”]/book/author/name” (a) Cách tiếp cận cung (b) Cách tiếp cận nhị phân 25 Cách tiếp cận nút: Truy vấn SQL cho “/publisher[address=”Cambridge”]//author/name” 26 Cách tiếp cận cụ thể hóa đƣờng dẫn sở: truy vấn SQL “/publisher[address=”Cambridge”]/book/author/name” 28 2.6 29 2.7 (a) Cách tiếp cận đƣờng dẫn ngƣợc (b) Cách tiếp cận BLAS: Plabel (“/p2/p3/p1/p4”)=396 30 2.8 Cách tiếp cận BLAS: SQL cho truy vấn twig hình 2.7a 31 2.9: Một DTD giản đồ quan hệ (a) Một tài liệu DTD (b) Một DTD (c) Giản đồ quan hệ 32 10: Các phƣơng pháp tiếp cậ : “/publisher[address“Cambridge”]/book/author/name” ( “/publisher[address =“Cambridge”]//author/name”) 33 11: Thuật toán tiếp cận phép nối dựa vào kết hợp nhiều thuộc tính 36 12: Áp dụng MPMGJN StackTree để truy vấn “A/B” (a) Cây liệu (b) Cách tiếp cận MPMGJN (c) Cách tiếp cận StackTree 36 13: Thuật toán StackTree 37 14: Thuật toán PathStack 38 15: Cách tiếp cận PathStack 39 16: Cách tiếp cận TwigStack 39 17: 41 1: 47 47 3: 48 49 49 6: 50 7: 51 8: 51 9: MS1 52 Trong lời báo cáo đồ án tốt nghiệp “ ” này, em muốn gửi lời cám ơn biết ơn chân thành tới tất ngƣời hỗ trợ, giúp đỡ em kiến thức tinh thần trình thực đồ án Trƣớc hết, em xin chân thành cám ơn Thầy Giáo - Ths , Giảng viên Khoa Công Nghệ Thông Tin, Trƣờng ĐHDL Hải Phòng, ngƣời trực tiếp hƣớng dẫn, nhận xét, giúp đỡ em suốt trình thực đồ án Xin chân thành cảm ơn thầy Khoa Cơng Nghệ Thơng Tin phịng ban nhà trƣờng tạo điều kiện tốt cho em nhƣ bạn khác suốt thời gian học tập làm tốt nghiệp Cuối em xin gửi lời cảm ơn đến gia đình, bạn bè, ngƣời thân giúp đỡ động viên em nhiều trình học tập làm Đồ án Tốt Nghiệp Do thời gian thực có hạn, kiến thức cịn nhiều hạn chế nên Đồ án thực chắn khơng tránh khỏi thiếu sót định Em mong nhận đƣợc ý kiến đóng góp thầy giáo bạn để em có thêm kinh nghiệm tiếp tục hồn thiện đồ án Em xin chân thành cảm ơn! Hải Phòng, ngày 25 tháng 12 năm2012 Sinh viên Giới thiệu đồ án (Standard Generalized Markup Language) CHƢƠNG 1: XML 1.1 GIỚI THIỆU VỀ XML Trong thời đại Công nghệ thông tin XML (Extensible Markup Language) chiếm vị trí quan trọng việc chuyển tải, trao đổi liệu liên lạc ứng dụng.Điều đƣợc khẳng định hệ điều hành từ WindowsXP trở đi, bên chứa đầy XML.Hơn bộ.Net đời làm cho XML trở nên thịnh hành.Sử dụng kỹ thuật XML khơng có tập đoàn Microsoft mà Sun, IBM, Oracles điều hỗ trợ XML dùng ứng dụng 1.1.1 Giới thiệu XML (eXtensible Markup Language) (Standard Generalized Markup Languague) (International Organization for Standards 1986 (International Business Machines Armonk, New York, Mỹ) XML 3C (World Wide Web Consortium Netscape, Microsoft Text Encoding Initiative XML Special Interest Group 3C mục đích đơn giản hóa việc chia sẻ liệu hệ thống khác nhau, đặc biệt hệ thống đƣợc kết nối Internet Điểm quan trọng XML khơng thuộc riêng cơng tynào thuộc gới, tiêuchuẩn đƣợc ngƣời cơng nhận đƣợc W3C (World Wide WebConsortium) Do XML đơn giản công cụ chuẩn đƣợc đểlàm việc với XML nhƣ Document Object Model - DOM, Xpath, XSL, v.v hữu hiệu, chuẩn đƣợc phát triển không ngừng XML giống nhƣ HTML ngôn ngữ đánh dấu, nhƣng đời XML để khắc phục cho số yếu HTML.HTML XML sử dụng (tag HTML dữliệu đƣợc xây dựng định nghĩa trƣớc, tức ngƣời lập trình phải tuânthủ theo thẻ định nghĩa HTML, HTML có khoản 400 ,để nhớ hết 400 khơng có khó khăn ngƣời lập trình Webchun nghiệp nhƣng thật khó ngƣời khơng chun Hơn nữacác HTML khơng nói lên đƣợc mơ tả liệu Nhƣng đối vớiXML hồn tồn khác tag XML ngƣời lập trình định nghĩavà đạt mô tả liệu mà ngƣời lập trình muốn truyền 1.1.2 Lợi ích XML Lợi ích thƣơng mại Chia sẻ liệu: XML cho phép doanh nghiệp định nghĩa chuẩn liệu mình, từ dễ dàng xây dựng công cụ để đọc, viết trao đổi liệu Điều cho phép doanh nghiệp xây dựng chuẩn định dạng liệu XML liệu ứng dụng dễ dàng chia sẻ với ứng dụng khác Chẳng hạn liệu khách hàng siêu thị đƣợc chia sẻ với công ty tiếp thị sử dụng tiêu chuẩn định dạng Mô tả liệu phức tạp: XML ngôn ngữ mềm dẻo cho việc mô tả phức tạp Chẳng hạn đồ họa vector, ký hiệu âm nhạc, tốn học, hóa học nhiều lĩnh vực khác nữa.Vì cơng cụ mạnh để xây dựng ứng dụng Phân phát nội dung: XML có khả hỗ trợ ngƣời dùng kênh truyền khác ta xây dựng ứng dụng có hiệu cao Kênh truyền bao gồm phân phát thông tin cho máy móc, chế khác ví dụ nhƣ TV kỹ thuật số, điện thoại, web, Hỗ trợ kênh truyền khác bƣớc quan trọng việc phân phát ứng dụng thƣơng mại điện tử (ebussinese).Chẳng hạn siêu thị điện tử phục vụ cho ngƣời dùng sử dụng laptop nhà, công ty hay đâu, làm việc sử dụng điện thoại di động hỗ trợ WAP Lợi ích kỹ thuật XML đơn giản hóa việc trao đổi liệu: Bởi cơng ty khác ột công cụ , trao đổi thông tin Sử dụng XML, tạo riêng chuyển đổi định dạng liệu bên hiế Trên hết, hội tốt để nhà cung cấp phần mềm đƣa cơng cụ chuyển đổi ghi chép sở liệu họ thành XML ngƣợc lại XML cho phép mã hóa thơng minh: Do văn XML đƣợc tổ chức để nhận dạng thơng tin quan trọng, viết mã để xử lí văn XML mà không cần ngƣời tác động Những nhà cung cấp phần mềm dành nhiều thời gian tiền bạc xây dựng công cụ phát triển XML, viết mã q trình tƣơng đối đơn giản XML cho phép tìm kiếm thơng minh: Mặc dù cơng cụ tìm kiếm cải thiện dần nhiều năm qua, nhiên nhận đƣợc kết khơng xác phổ biến xảy Nếu bạn tìm kiếm mang tên “Shop” trang HTML, bạn tìm thấy loạt trang web , shop máy tính, shop gỗ, nhiều thứ vơ dụng khác Tìm kiếm văn XML cho yếu tố chứa từ Shop mang lại cho bạn kết tốt nhiều Sử dụng lại liệu: Khi muốn tính tốn lại hay trình bày lại tập liệu có sẵn Máy chủ khơng cần chuyển lại liệu cho máy trạm mà sử dụng ln liệu đƣợc truyền trƣớc đó.Điều giúp giảm lƣu lƣợng truyền mạng Hoặc liệu nhà xuất đƣợc thƣ viện sử dụng lại chúng sử dụng chung định dạng Bằng cách ta khơng phải xây dựng lại sở liệu cho thƣ viện Chia cắt liệu trình diễn: Một website sau thời gian hoạt động cần đƣợc thiết kế lại Nếu website sử dụng XML để lƣu liệu cần thay đổi giao diện tầng liệu đƣợc giữ nguyên Khả mở rộng: Một ứng dụng sử dụng XML có nhiều phiên khác Sau lần nâng cấp thẻ đƣợc thêm vào.Điều không ảnh hƣởng đến việc sử dụng sở liệu ứng dụng cũ ngƣời dùng muốn thay đổi thói quen làm việc sử dụng Thơng tin có ý nghĩa: Khi đƣa từ khóa “Quang Vinh”, thơng tin có ý nghĩa cho phép ngƣời đọc lựa chọn tính từ, tên cầu thủ, hay tên nhà hàng, Bộ máy tìm kiếm dựa HTML khơng thể làm đƣợc điều không đủ thông tin ý nghĩa trang HTML.Với XML văn tự mơ tả dễ dàng để biết đƣợc ý nghĩa văn Các lợi ích khác: XML dễ dàng đọc máy tính ngƣời, dựa cấu trúc dễ dàng để tạo văn XML (đơn giản dùng Notepad), 1.2 MƠ HÌNH DỮ LIỆU CỦA XML Mơ hình bản:Mơ hình Mơ hình liệu sở XML gán nhãn 1.1(a) Tài liệu XML ID/IDREF(b) Tài liệu XML có ID/IDREF Hình biểu diễn liệu tài liệu XML.Hình 1.1a mơ hình nhãn nút, hình 1.1b mơ hình nhãn cung, hai mơ hình tƣơng đƣơng Ta xét liệu XML theo mơ hình nhãn nút ( tƣơng tự cho nhãn cung) Có kiểu nút liệu: Nút phần tử: tƣơng ứng với thẻ tài liệu XML Ví dụ: “Publishers” 10 Đầu tiên, getNext() tiến cursorA từ a1 đến a2 a1.end < b1.start ) Sau đó, bƣớc 1, B có đáp án subtwig b1, D có đáp án subtwig d1, nhƣng cha B D A khơng có đáp án subtwig a2 Do getNext() = D (getNext() khác B d1.start < b1.start), d1 loại khỏi listD Tuy nhiên, không đẩy d1 vào ngăn xếp D trƣớc 2, ngăn xếp cha A rỗng Bằng cách tránh đƣợc lời giải đƣờng dẫn thừa (a1,d1) Kết thực nghiệm TwigStack nói chung có hiệu xử lý truy vấn cao StackTree Vì thế, gân TwigStack đƣợc nghiên cứu nhiều: Optimality: Khơng có lời giải đƣờng dẫn thừa Nói chung, TwigStack cịn sinh lời giải đƣờng dẫn thừa, giảm số lƣợng so với phƣơng pháp sơ đẳng xử lý truy vấn đƣờng dẫn riêng biệt dùng PathStack Năm 2002 Bruno TwigStack tối ƣu cho truy vấn twig chứa trục “//” 2.16 b1, c1 (a2, Tuy nhiên, TwigStack cursorD, TwigStack sau cursorD = d2 hay không Năm 2003 Choi phiên TwigStack mà đọc danh sách ngƣợc lần khơng thể tối ƣu truy vấn twig chứa hỗn hợp ”//” “/” Các nghiên cứu tập trung tối ƣu hóa cho lớp truy vấn twig Năm 2004 Lu đề xuất biến thể TwigStack TwigStackList, nhìn phía trƣớc số nút liệu danh sách ngƣợc lƣu chúng vào nhớ chính.Nhƣ TwigStack cho truy vấn mà trục “/” dƣới nút không phân nhánh Gần Chen mở rộng TwigStack thành iTwigJoin, để tối ƣu cho truy vấn twig chứa trục “/” hay có nút phân nhánh cách phân hoạch danh sách ngƣợc thành nhiều danh sách dựa mức hay đƣờng dẫn gốc nút liệu danh sách ngƣợc Skip: đọc toàn danh sách ngƣợc Giống nhƣ nối nhị phân Kỹ thuật skip sử dụng XB-tree hay XR-tree đánh số giảm đáng kể chi phí đọc đĩa phép nối holistic.Sự khác với phép nối holistic, bƣớc phải xác định truy vấn cung đứt quãng đƣợc nhảy qua trƣớc tiên 40 2.2.2.2 ề xuất phƣơng pháp, mà Trong VIST, Wang gọi phƣơng pháp twig để tránh đƣợc sử dụng pha thứ hai đƣờng TwigStack cách sử dụng truy vấn : b1) :m der b2) 2.17) 2.17: probe q.code (q.code, d.pos d.pos 2.17 ((//AB), a2.pos (a2, b2, c2 41 b 2.17 p TwigStack Wang Meng 2.17 B+-tree ((//AB),a2.pos 3,b : 2.3.1a 2.2.2.3 Cách tiếp cận phép nối cung cấp bổ sung tự nhiên có hiệu cho sử dụng θ-join cách tiếp cận quan hệ Rõ ràng kỹ thuật nội thì: Hiệu suất Holistic tốt MPMGJN StackTree Khi đồ thị số số Plabeling dùng được, dùng để giảm số phép nối thu ngắn lại dánh sách ngược trước nối 42 CHƢƠNG 3: ỨNG DỤNG XML TRONG CƠ SỞ DỮ LIỆU eXist ngôn ngữ ợc sử dụng máy lƣu trữ v tính servlet-engine eXist (web : Xquery 1.0/Xpath2.0 ) : REST, WebDAV, SOAP, XMLRPC, AtomPublishing Protocol - ), Xupdat Xquery eXist eXist Xpath eXist cha – con, – hay eXist eXist eXist Xpath 43 3.2.1 MS3 MTG8 1988 10000 MLS1 MNXB3 … MS8 MTG7 1978 10000 MLS2 MNXB3 MS9 MTG4 1978 10000 MLS2 MNXB1 44 : MTG3 0979658256 bapt@gmail.com MTG4 0979658256 hauvd@gmail.com … MTG5 0979658256 tunb@gmail.com MTG6 0979658256 tont@gmail.com MTG8 0979658256 hoaito@gmail.com 45 : MNXB1 0979658256 kimdong.com.vn MNXB2 0979658256 dongnai.com.vn MNXB3 0979658256 tienphong.com.vn : MLS1 < MLS2 MLS3 MLS4 Linh tinh 46 3.2.2 eXist eXist – 1.4.2 : http://exist-db.org/exist/download.xml 3.1: admin eXist : 3.2 47 client.bat exist/bin textbox: 3.3: 48 collection “hoso” : 3.4 3.5 49 eXist : 3.6: 50 3.7: 3.8: 51 3.9: 52 em tìm hiểu em Em tìm hiểu đƣợc 53 Senthilkuma, R.,“Nested XPath Query Optimization for XML Structured Document Database” on Advanced Computing and Communications, 2008 ADCOM 2008 16th International Conference on, 14-17 Dec 2008 Lijing Zhang,“The Query and Application of XML Data Based on Xquery” on Computational and Information Sciences (ICCIS), 2012 Fourth International Conference on, 17-19 Aug 2012 Gang Gou,Rada Chirkova, “Efficiently Querying Large XML Data Repositories: A Survey”, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL 19, NO 10, OCTOBER 2007 Shichuan Li, “Highly efficient processing of XML path/twig queries using Index Caches” on Fuzzy Systems and Knowledge Discovery (FSKD), 2012 9th International Conference on, 29-31 May 2012 54 ... sở liệu truy vấn XML, thƣờng thống tiêu chuẩn ngôn ngữ để thể truy vấn Bây thời gian ngắn giới thiệu hai lớp củatruy vấn : truy vấn DB+IR truy vấn IR-only Không giống nhƣ truy? ??n thống truy vấn... liên quan đến truy vấn, truy vấn XML kiểu IR đƣợc thực chi tiết XML Các truy vấn DB+IR truy vấn DB+IR tăng cƣờng từ truy vấn liệ ấn Xpathvà Xquery với đặc tính IR Chẳng hạn tăng cƣờng truy vấn Xpath,Xquery... lƣu trữ truy vấn liệu XML Tiếp cận theo hƣớng tự nhiên: xây dựng từ hệ thống chuyên dùng để lƣu trữ truy vấn liệu XML cách không lựa chọn Nhiều nghiên cứu truy vấn liệu XML giả thiết truy vấn