1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML

83 505 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 2,93 MB

Nội dung

luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML

      - 2014      Ngành  Chuyên ngành   : 60480103   - 2014        ình.         .    - -      công tác.       L Li c Mc lc Danh mc các ký hiu và ch vit tt Danh mc các bng Danh mc các hình v Danh m M u 1  TNG QUAN XML 2 1.1. Tng quan XML 2 1.2. m ca XML 2 1.3. So sánh XML và HTML 2 1.3.1. S ging nhau gia XML và HTML 2 1.3.2. S khác nhau gia XML và HTML 2 1.4. Cu trúc tài liu XML 3 1.5. Cú pháp 4 1.5.1. Khai báo XML 4 1.5.2. Th hin tài liu (Document Instance) 4 1.5.3. Thuc tính (Attribute) 4 1.5.4. Khai báo kiu tài liu 4 1.6. u tài liu 5 1.7. Ngôn ng  XML 5 1.8. XSLT 6  TNG QUAN NÉN D LIU 9 2.1. Nén d liu 9 2.1.1.  9 2.1.2. Phân loi 9 2.1.2.1. Nén tn hao (lossy compression) 9 2.1.2.2. Nén không tn hao (lossess compression) 9 2.1.3. Mt s khái nim 10 2.1.3.1. T l nén (compression ratio) 10 2.1.3.2. Hiu sut nén 10 2.1.3.3.  a d liu 10 2.2. Các k thut nén XML 11 2.2.1. i 11 2.2.1.1. Các k thun tng quát 13 2.2.1.2. Các k thut nén XML không truy vn 14 2.2.1.3. Các k thut nén XML truy vn 15  MT S K THUT NÉN XML 17 3.1. XMill 17 3.1.1. Tng quan v XMill 17 3.1.2. Kin trúc ca XMill 18 3.1.2.1. Phân chia cu trúc t ni dung 18 3.1.2.2. Nhóm các giá tr d liu da trên ng  19 3.1.2.3. Các b nén ng  22 3.2. XGrind 24 3.2.1. Tng quan v XGrind 24 3.2.2. Các k thuc s dng trong XGrind 24 3.2.2.1. Quá trình nén siêu d liu 24 3.2.2.2. Quá trình nén giá tr ca thuc tính kiu lit kê 25 3.2.2.3. Quá trình nén giá tr ca phn t hoc thuc tính tng quát 25 3.2.3. ng cu (Homomorphic Compression) 25 3.2.4. Kin trúc ca XGrind 26 3.3. XAUST 28 3.3.1. Tng quan v XAUST 28 3.3.2. Mã hóa s hc và mô hình ng cnh hu hn 29 3.3.2.1. Mã hóa s hc (Arithmetic Coding) 29 3.3.2.2. Mô hình ng cnh hu hn (Finite Context Modeling) 29 3.3.3. Máy t ng hu hnh 29 3.3.4. Quá trình nén và gii nén s dng XAUST 31 3.4. XSAQCT 33 3.4.1. Tng quan v XSAQCT 33 3.4.2. Kin trúc ca XSAQCT 34 3.4.3. Quá trình x lý thuc tính và ni dung tài lic trn 36 3.4.4. t XSAQCT 37 3.4.4.1. Quá trình xây dng cây chú thích TA,D 37 3.4.4.1.1. m ca cây chú thích TA,D 37 3.4.4.1.2. t cây chú thích TA,D 37 3.4.4.2. Quá trình gii nén ca XSAQCT 44 3.4.4.2.1. B chú thích li (Reannotator) 44 3.4.4.2.2. B phc hi (Restorer) 45 3.5. EXI 46 3.5.1. Tng quan v EXI 46 3.5.2. EXI Header 47 3.5.2.1. EXI Cookie 47 3.5.2.2. Các bit phân bit 47 3.5.2.3. Bit hin din cho tùy chn EXI 47 3.5.2.4. Phiên bnh dng EXI 47 3.5.2.5. EXI Options 48 3.5.2.6. Padding bits 49 3.5.3. EXI Body 49 3.5.3.1. Event Code 51 3.5.3.2. Event Content 53 3.5.4. String Table 54 3.5.5. EXI Grammar 57 3.5.5.1. Built-In Grammar 58 3.5.5.2. Schema-informed Grammar 58 3.5.6. Quá trình nén EXI 58 3.5.6.1. Block 59 3.5.6.2. Channel 59 3.5.6.2.1. Kênh cu trúc (Structure Channel) 60 3.5.6.2.2. Kênh giá tr (Value Channel) 60 3.5.6.3. Dòng nén (Compressed Stream) 61  T THC NGHIM VÀ SO SÁNH MT S K THUT NÉN 63 4.1. D liu th nghim 63 4.2. t 64 4.3. c hin 64 4.3.1.  64 4.3.2. Hiu sut nén (Compression Performance) 64 4.3.3. Thi gian nén (Compression Time) 64 4.3.4. Th 64 4.4. Kt qu thc nghim 64 KT LUNG PHÁT TRIN 70 TÀI LIU THAM KHO 71  DFA Deterministic Finite Automata        DTD Document Type Definition  GPS Global Positioning System  HTML HyperText Markup Language        SGML Standard Generalized Markup Language   XML Extensible Markup Language  XSD XML Schema Definition Language  XSLT Extensible Stylesheet Language Transformations N     .   2 n ca mt tài liu XML 3  nén không truy vn [16] 14  các bn [16] 15  21  x lý ng  (Atomic Semantic Compressors) [11] 22  c thc hin thut toán 3.1 khi to mi cây chú thích ca tài liu D trong hình 3.13 [20] 41 t s phiên bnh dng EXI 48  chn EXI [6] 48  50  kic thit lp và tùy chn bit-c s dng [6] 52  kic thit lp bng true và giá tr pre-compression ca tùy chn byte-c s dng [6] 52 u d lic xây dng sn trong EXI [6] 53 t lp phân vùng ca String Table [7] 54 p d liu th nghim 63 t thc nghim. 64 t qu thc nghim khi s dng b nén gzip 65 t qu thc nghim khi s dng b nén XMill 65 t qu thc nghim khi s dng b nén XGrind 65 t qu thc nghim khi s dng b nén XAUST 66 t qu thc nghim khi s dng b nén EXI (Exificient) 66  c s d chuyi gia các tài liu XML [18] 6 c s d chuyi mt tài liu XML sang các cách biu din khác nhau [18] 7 Hình 2.1: Quá trình nén/gii nén d liu 9 Hình 2.2: Quá trình truyn d liu XML mà không có quá trình nén XML [17] 11 Hình 2.3: Quá trình truyn d liu XML có s dng quá trình nén XML [17] 11 Hình 2.4: Phân loi các b nén XML da vào s nhn bit cu trúc ca các tài liu XML [17] 12 Hình 2.5: Phân loi b nén XML da vào s h tr kh n [17] 13 Hình 3.1: Kin trúc ca XMill [11] 18 Hình 3.2: Mô t quá trình XMill phân tách cu trúc và d liu 19 Hình 3.3: Kin trúc ca b nén XGrind [15] 27 Hình 3.4: DFA ca phn t card trong ví d 3.14 30 Hình 3.5: Kin trúc ca XSAQCT [20] 34 Hình 3.6: Minh ha mt tài lin [20] 35 Hình 3.7: Cây chú thích T A,D ca tài liu D trong hình 3.6 [20] 35 Hình 3.8: Quá trình x lý ni dung tài lic trn [20] 36 Hình 3.9: Cây chú thích T A,D và các b chn [20] 36 Hình 3.10: Biu din mt tài liu D có chn [20] 38 Hình 3.11: Biu din cây chú thích ca tài liu D có thêm các node gi  39 Hình 3.12: Khôi phc li cây tài liu D vi các node gi  39 Hình 3.13: Biu din mt tài liu D s c áp dng thut toán 3.1 [20] 40 Hình 3.14: Biu din cây chú thích ca tài liu D trong hình 3.13 [20] 42 Hình 3.15: Biu din cây chú thích hoàn chnh ca tài liu D trong hình 3.13 [20] 43 Hình 3.16: Khôi phc li cây tài liu D t cây chú thích T A,D trong hình 3.15 [20] 44 Hình 3.17: Cn ca EXI Stream [7] 46 nh dng EXI Header [6] 47 Hình 3.19: EXI Cookie [6] 47 Hình 3.20: Các bit phân bit (Distinguishing Bits) [6] 47 Hình 3.21: Minh ha EXI Stream Body ca tài liu Notebook trong ví d 3.23 [7] 51 u vào khi to trong phân vùng URI [7] 56 u vào khi to trong phân vùng Prefix [7] 56 Hình 3.2u vào khi to trong phân vùng LocalName [7] 56 c khi to trong phân vùng Value [7] 57 Hình 3.26: Tng quan quá trình nén EXI [6] 59 Hình 3.27: Quá trình dn kênh các s kin EXI [6] 60 Hình 3.28: Minh ha quá trình nén ca EXI Body Stream trong hình 3.21 [7] 61 [...]... nén dữ liệu và các kỹ thuật nén XML 9 Chương 2 TỔNG QUAN NÉN DỮ LIỆU Chương này tập trung vào tìm hiểu và phân loại nén dữ liệu bao gồm nén tổn hao, nén không tổn hao và nén XML bao gồm các kỹ thuật nén văn bản tổng quát, kỹ thuật nén XML không truy vấn, kỹ thuật nén XML hỗ trợ truy vấn Bên cạnh đó, chương này cũng trình bày một số khái niệm liên quan đến nén dữ liệu như tỷ lệ nén, hiệu suất nén và. .. gồm nén tổn hao và nén không tổn hao Nén dữ liệu XML cũng được giới thiệu trong chương này bao gồm các kỹ thuật nén văn bản tổng quát, kỹ thuật nén có sự nhận biết XML, kỹ thuật nén XML không truy vấn và kỹ thuật nén XML hỗ trợ truy vấn Chương tiếp theo sẽ giới thiệu năm kỹ thuật nén XML bao gồm XMill, XGrind, XAUST, XSAQCT và EXI 17 Chương 3 MỘT SỐ KỸ THUẬT NÉN XML Chương này trình bày kiến trúc và. .. XSD và ngôn ngữ định dạng chuyển đổi mở rộng (Extensible Stylesheet Language Transformations - XSLT) Chương 2: Tập trung vào tìm hiểu và phân loại các kỹ thuật nén dữ liệu nói chung bao gồm nén tổn hao, nén không tổn hao và nén XML nói riêng bao gồm các kỹ thuật nén văn bản tổng quát, kỹ thuật nén XML không truy vấn, kỹ thuật nén XML hỗ trợ truy vấn Chương 3: Giới thiệu chi tiết năm kỹ thuật nén XML. .. đề này, một số kỹ thuật nén đã được giới thiệu như: XMill, XGrind, XAUST, EXI, XSAQCT Việc sử dụng các công cụ nén XML có nhiều lợi thế như làm giảm băng thông mạng, giảm không gian lưu trữ đĩa cũng như giảm bộ nhớ trong việc xử lý và truy vấn các tài liệu XML Luận văn sẽ tập trung nghiên cứu bốn nội dung chính: tìm hiểu chung về XML, tìm hiểu về nén dữ liệu và nén dữ liệu XML, trong đó tìm hiểu chi... biểu đ Biểu đồ 4.1: So sánh tỷ lệ nén của các bộ nén gzip, XMill, XGrind, XAUST và EXI 66 Biểu đồ 4.2: So sánh hiệu suất nén của các bộ nén gzip, XMill, XGrind, XAUST và EXI 67 Biểu đồ 4.3: So sánh thời gian nén của các bộ nén gzip, XMill, XGrind, XAUST và EXI 67 Biểu đồ 4.4: So sánh thời gian giải nén của các bộ nén gzip, XMill, XGrind, XAUST và EXI 68 1 Mở đầu XML (Extensible Markup... năm kỹ thuật nén XML bao gồm: XMill [11,23], XGrind [15,22], XAUST [10,21], XSAQCT [19-20], EXI [6-8,13] Luận văn tiến hành thực nghiệm, so sánh các kỹ thuật nén với nhau, đưa ra một số hướng dẫn, khuyến nghị hữu ích giúp cho người sử dụng có thể đưa ra các quyết định hiệu quả, đúng đắn khi lựa chọn các công cụ nén XML phù hợp nhất với yêu cầu của họ Lý do luận văn lựa chọn, tìm hiểu năm bộ nén XML. .. Quá trình truyền dữ liệu XML có sử dụng quá trình nén XML [17] Có hai cách phân loại bộ nén XML Phân loại dựa vào sự nhận biết cấu trúc tài liệu XML Theo cách phân loại này, các bộ nén XML được chia làm hai nhóm chính: các bộ nén văn bản tổng quát (general text compressors) và các bộ nén có sự nhận biết XML (XMLconscious compressors) 12 Trong bộ nén văn bản tổng quát, dữ liệu XML được lưu trữ dưới dạng... tiết của năm kỹ thuật nén XML bao gồm XMill, XGrind, XAUST, XSAQCT và EXI 3.1 XMill 3.1.1 Tổng quan về XMill XMill thuộc nhóm kỹ thuật nén XML không truy vấn Bộ nén XMill và bộ giải nén XDemill được sử dụng để nén dữ liệu XML cho mục đích chuyển đổi và lưu trữ dữ liệu XMill không cần thông tin lược đồ DTD và XML Schema nhưng có thể khai thác tận dụng các thông tin về lược đồ để nâng cao tỉ lệ nén XMill... //Person/(Name|Child) -p //# file .xml file.xmi Nhóm đầu tiên nhóm và nén các giá trị dữ liệu dựa vào thẻ kết thúc Nhóm thứ hai nén tất cả các title của Person với nhau, tất cả name của Person và child của nó được nén chung nhau, và tất cả các giá trị dữ liệu khác được nén dựa vào thẻ kết thúc của nó Trong thực tế, Doc/Book/Title và /Doc/Conference/Paper/Title được nén cùng nhau và riêng rẽ từ /Doc/Person/Title... compressor): có tám bộ nén ngữ nghĩa nguyên tử được mô tả trong bảng 3.2 ảng 3.2: Các bộ xử lý ngữ nghĩa nguyên tử (Atomic Semantic Compressors) [11] ộ nén (compressor) t u i u8 di ri e “…” Mô tả Bộ nén văn bản mặc định Bộ nén số nguyên dương Bộ nén số nguyên Bộ nén số nguyên dương . trình truyn d liu XML mà không có quá trình nén XML [17] 11 Hình 2.3: Quá trình truyn d liu XML có s dng quá trình nén XML [17] 11 Hình 2.4: Phân loi các b nén XML da vào s nhn bit. 1.3. So sánh XML và HTML 1.3.1.  HTML XML và HTML  1.3.2.  1.1: So sánh XML. hiu và ch vit tt Danh mc các bng Danh mc các hình v Danh m M u 1  TNG QUAN XML 2 1.1. Tng quan XML 2 1.2. m ca XML 2 1.3. So sánh XML và HTML

Ngày đăng: 10/05/2015, 17:56

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
3. D.A. Huffman (1952), A method for the construction of minimum-redundancy codes, Proceedings of the IRE 40 (9), pp.1098–1101 Sách, tạp chí
Tiêu đề: Proceedings of the IRE
Tác giả: D.A. Huffman
Năm: 1952
4. David Salomon (2006), Data Compression: The Complete ReferenceFourth Edition, Springer, London Sách, tạp chí
Tiêu đề: Data Compression: The Complete ReferenceFourth Edition
Tác giả: David Salomon
Năm: 2006
5. David Salomon (2007), Variable-length Codes for Data Compression, Springer, London Sách, tạp chí
Tiêu đề: Variable-length Codes for Data Compression
Tác giả: David Salomon
Năm: 2007
11. Hartmut Liefke, Dan Suciu (2000), XMill: An efficient compressor for XML data, Proceeding SIGMOD '00 Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pp.153-164 Sách, tạp chí
Tiêu đề: Proceeding SIGMOD '00 Proceedings of the 2000 ACM SIGMOD international conference on Management of data
Tác giả: Hartmut Liefke, Dan Suciu
Năm: 2000
12. Ian H. Witten, Radford M. Neal, John G. Cleary (1987), Arithmetic coding for data compression, Magazine Communications of the ACM 30 (6), pp.520-540 Sách, tạp chí
Tiêu đề: Magazine Communications of the ACM
Tác giả: Ian H. Witten, Radford M. Neal, John G. Cleary
Năm: 1987
15. Pankaj M. Tolani, Jayant R. Haritsa (2002), XGRIND: A query-friendly XML compressor, Proceedings of the 18th International Conference on Data Engineering, IEEE Computer Society, Washington, pp.225-234 Sách, tạp chí
Tiêu đề: Proceedings of the 18th International Conference on Data Engineering
Tác giả: Pankaj M. Tolani, Jayant R. Haritsa
Năm: 2002
16. Sherif Sakr (2009), XML compression techniques: A survey and comparison, Journal of Computer and System Sciences 75 (5), pp.303-322 Sách, tạp chí
Tiêu đề: Journal of Computer and System Sciences
Tác giả: Sherif Sakr
Năm: 2009
18. Thomas Erl (2004), Service-Oriented Architecture a Field Guide to Integrating XML and Web Services, Prentice Hall PTR, United States of America Sách, tạp chí
Tiêu đề: Service-Oriented Architecture a Field Guide to Integrating XML and Web Services
Tác giả: Thomas Erl
Năm: 2004
1. Benchmark of XML compression tools, http://xmlcompbench.sourceforge.net Link
6. Efficient XML Interchange (EXI) Format 1.0 (Second Edition), http://www.w3.org/TR/2014/REC-exi-20140211 Link
7. Efficient XML Interchange (EXI) Primer, http://www.w3.org/TR/2014/WD-exi-primer-20140424 Link
14. P. Deutsch (1996), DEFLATE Compressed Data Format Specification version 1.3, http://www.ietf.org/rfc/rfc1951.txt Link
17. Sherif Sakr (2011), Investigate state-of-the-art XML compression techniques, http://www.ibm.com/developerworks/library/x-datacompression Link
20. Tomasz Müldner, Christopher Fry, Jan Krzysztof Miziołek, Scott Durno 2009 , XSAQCT: XML Queryable Compressor,http://www.balisage.net/Proceedings/vol3/html/Muldner01/BalisageVol3-Muldner01.html Link
21. XAUST Compressor, http://drona.csa.iisc.ernet.in/~priti/xaust.tar.gz Link
22. XGrind Compressor, http://sourceforge.net/projects/xgrind Link
23. XMill Compressor, http://sourceforge.net/projects/xmill. 24. XML Data Repository,http://www.cs.washington.edu/research/xmldatasets/www/repository.html Link
25. XML Tutorial, http://www.w3schools.com/xml, http://www.quackit.com/xml Link
19. Tomasz Müldner, Christopher Fry, Jan Krzysztof Miziołek, Scott Durno 2009 , SXSAQCT and XSAQCT: XML Queryable Compressors Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w