luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML luận văn: tìm hiểu và so sánh một số kỹ thuật nén XML
- 2014 Ngành Chuyên ngành : 60480103 - 2014 ình. . - - công tác. L Li c Mc lc Danh mc các ký hiu và ch vit tt Danh mc các bng Danh mc các hình v Danh m M u 1 TNG QUAN XML 2 1.1. Tng quan XML 2 1.2. m ca XML 2 1.3. So sánh XML và HTML 2 1.3.1. S ging nhau gia XML và HTML 2 1.3.2. S khác nhau gia XML và HTML 2 1.4. Cu trúc tài liu XML 3 1.5. Cú pháp 4 1.5.1. Khai báo XML 4 1.5.2. Th hin tài liu (Document Instance) 4 1.5.3. Thuc tính (Attribute) 4 1.5.4. Khai báo kiu tài liu 4 1.6. u tài liu 5 1.7. Ngôn ng XML 5 1.8. XSLT 6 TNG QUAN NÉN D LIU 9 2.1. Nén d liu 9 2.1.1. 9 2.1.2. Phân loi 9 2.1.2.1. Nén tn hao (lossy compression) 9 2.1.2.2. Nén không tn hao (lossess compression) 9 2.1.3. Mt s khái nim 10 2.1.3.1. T l nén (compression ratio) 10 2.1.3.2. Hiu sut nén 10 2.1.3.3. a d liu 10 2.2. Các k thut nén XML 11 2.2.1. i 11 2.2.1.1. Các k thun tng quát 13 2.2.1.2. Các k thut nén XML không truy vn 14 2.2.1.3. Các k thut nén XML truy vn 15 MT S K THUT NÉN XML 17 3.1. XMill 17 3.1.1. Tng quan v XMill 17 3.1.2. Kin trúc ca XMill 18 3.1.2.1. Phân chia cu trúc t ni dung 18 3.1.2.2. Nhóm các giá tr d liu da trên ng 19 3.1.2.3. Các b nén ng 22 3.2. XGrind 24 3.2.1. Tng quan v XGrind 24 3.2.2. Các k thuc s dng trong XGrind 24 3.2.2.1. Quá trình nén siêu d liu 24 3.2.2.2. Quá trình nén giá tr ca thuc tính kiu lit kê 25 3.2.2.3. Quá trình nén giá tr ca phn t hoc thuc tính tng quát 25 3.2.3. ng cu (Homomorphic Compression) 25 3.2.4. Kin trúc ca XGrind 26 3.3. XAUST 28 3.3.1. Tng quan v XAUST 28 3.3.2. Mã hóa s hc và mô hình ng cnh hu hn 29 3.3.2.1. Mã hóa s hc (Arithmetic Coding) 29 3.3.2.2. Mô hình ng cnh hu hn (Finite Context Modeling) 29 3.3.3. Máy t ng hu hnh 29 3.3.4. Quá trình nén và gii nén s dng XAUST 31 3.4. XSAQCT 33 3.4.1. Tng quan v XSAQCT 33 3.4.2. Kin trúc ca XSAQCT 34 3.4.3. Quá trình x lý thuc tính và ni dung tài lic trn 36 3.4.4. t XSAQCT 37 3.4.4.1. Quá trình xây dng cây chú thích TA,D 37 3.4.4.1.1. m ca cây chú thích TA,D 37 3.4.4.1.2. t cây chú thích TA,D 37 3.4.4.2. Quá trình gii nén ca XSAQCT 44 3.4.4.2.1. B chú thích li (Reannotator) 44 3.4.4.2.2. B phc hi (Restorer) 45 3.5. EXI 46 3.5.1. Tng quan v EXI 46 3.5.2. EXI Header 47 3.5.2.1. EXI Cookie 47 3.5.2.2. Các bit phân bit 47 3.5.2.3. Bit hin din cho tùy chn EXI 47 3.5.2.4. Phiên bnh dng EXI 47 3.5.2.5. EXI Options 48 3.5.2.6. Padding bits 49 3.5.3. EXI Body 49 3.5.3.1. Event Code 51 3.5.3.2. Event Content 53 3.5.4. String Table 54 3.5.5. EXI Grammar 57 3.5.5.1. Built-In Grammar 58 3.5.5.2. Schema-informed Grammar 58 3.5.6. Quá trình nén EXI 58 3.5.6.1. Block 59 3.5.6.2. Channel 59 3.5.6.2.1. Kênh cu trúc (Structure Channel) 60 3.5.6.2.2. Kênh giá tr (Value Channel) 60 3.5.6.3. Dòng nén (Compressed Stream) 61 T THC NGHIM VÀ SO SÁNH MT S K THUT NÉN 63 4.1. D liu th nghim 63 4.2. t 64 4.3. c hin 64 4.3.1. 64 4.3.2. Hiu sut nén (Compression Performance) 64 4.3.3. Thi gian nén (Compression Time) 64 4.3.4. Th 64 4.4. Kt qu thc nghim 64 KT LUNG PHÁT TRIN 70 TÀI LIU THAM KHO 71 DFA Deterministic Finite Automata DTD Document Type Definition GPS Global Positioning System HTML HyperText Markup Language SGML Standard Generalized Markup Language XML Extensible Markup Language XSD XML Schema Definition Language XSLT Extensible Stylesheet Language Transformations N . 2 n ca mt tài liu XML 3 nén không truy vn [16] 14 các bn [16] 15 21 x lý ng (Atomic Semantic Compressors) [11] 22 c thc hin thut toán 3.1 khi to mi cây chú thích ca tài liu D trong hình 3.13 [20] 41 t s phiên bnh dng EXI 48 chn EXI [6] 48 50 kic thit lp và tùy chn bit-c s dng [6] 52 kic thit lp bng true và giá tr pre-compression ca tùy chn byte-c s dng [6] 52 u d lic xây dng sn trong EXI [6] 53 t lp phân vùng ca String Table [7] 54 p d liu th nghim 63 t thc nghim. 64 t qu thc nghim khi s dng b nén gzip 65 t qu thc nghim khi s dng b nén XMill 65 t qu thc nghim khi s dng b nén XGrind 65 t qu thc nghim khi s dng b nén XAUST 66 t qu thc nghim khi s dng b nén EXI (Exificient) 66 c s d chuyi gia các tài liu XML [18] 6 c s d chuyi mt tài liu XML sang các cách biu din khác nhau [18] 7 Hình 2.1: Quá trình nén/gii nén d liu 9 Hình 2.2: Quá trình truyn d liu XML mà không có quá trình nén XML [17] 11 Hình 2.3: Quá trình truyn d liu XML có s dng quá trình nén XML [17] 11 Hình 2.4: Phân loi các b nén XML da vào s nhn bit cu trúc ca các tài liu XML [17] 12 Hình 2.5: Phân loi b nén XML da vào s h tr kh n [17] 13 Hình 3.1: Kin trúc ca XMill [11] 18 Hình 3.2: Mô t quá trình XMill phân tách cu trúc và d liu 19 Hình 3.3: Kin trúc ca b nén XGrind [15] 27 Hình 3.4: DFA ca phn t card trong ví d 3.14 30 Hình 3.5: Kin trúc ca XSAQCT [20] 34 Hình 3.6: Minh ha mt tài lin [20] 35 Hình 3.7: Cây chú thích T A,D ca tài liu D trong hình 3.6 [20] 35 Hình 3.8: Quá trình x lý ni dung tài lic trn [20] 36 Hình 3.9: Cây chú thích T A,D và các b chn [20] 36 Hình 3.10: Biu din mt tài liu D có chn [20] 38 Hình 3.11: Biu din cây chú thích ca tài liu D có thêm các node gi 39 Hình 3.12: Khôi phc li cây tài liu D vi các node gi 39 Hình 3.13: Biu din mt tài liu D s c áp dng thut toán 3.1 [20] 40 Hình 3.14: Biu din cây chú thích ca tài liu D trong hình 3.13 [20] 42 Hình 3.15: Biu din cây chú thích hoàn chnh ca tài liu D trong hình 3.13 [20] 43 Hình 3.16: Khôi phc li cây tài liu D t cây chú thích T A,D trong hình 3.15 [20] 44 Hình 3.17: Cn ca EXI Stream [7] 46 nh dng EXI Header [6] 47 Hình 3.19: EXI Cookie [6] 47 Hình 3.20: Các bit phân bit (Distinguishing Bits) [6] 47 Hình 3.21: Minh ha EXI Stream Body ca tài liu Notebook trong ví d 3.23 [7] 51 u vào khi to trong phân vùng URI [7] 56 u vào khi to trong phân vùng Prefix [7] 56 Hình 3.2u vào khi to trong phân vùng LocalName [7] 56 c khi to trong phân vùng Value [7] 57 Hình 3.26: Tng quan quá trình nén EXI [6] 59 Hình 3.27: Quá trình dn kênh các s kin EXI [6] 60 Hình 3.28: Minh ha quá trình nén ca EXI Body Stream trong hình 3.21 [7] 61 [...]... nén dữ liệu và các kỹ thuật nén XML 9 Chương 2 TỔNG QUAN NÉN DỮ LIỆU Chương này tập trung vào tìm hiểu và phân loại nén dữ liệu bao gồm nén tổn hao, nén không tổn hao và nén XML bao gồm các kỹ thuật nén văn bản tổng quát, kỹ thuật nén XML không truy vấn, kỹ thuật nén XML hỗ trợ truy vấn Bên cạnh đó, chương này cũng trình bày một số khái niệm liên quan đến nén dữ liệu như tỷ lệ nén, hiệu suất nén và. .. gồm nén tổn hao và nén không tổn hao Nén dữ liệu XML cũng được giới thiệu trong chương này bao gồm các kỹ thuật nén văn bản tổng quát, kỹ thuật nén có sự nhận biết XML, kỹ thuật nén XML không truy vấn và kỹ thuật nén XML hỗ trợ truy vấn Chương tiếp theo sẽ giới thiệu năm kỹ thuật nén XML bao gồm XMill, XGrind, XAUST, XSAQCT và EXI 17 Chương 3 MỘT SỐ KỸ THUẬT NÉN XML Chương này trình bày kiến trúc và. .. XSD và ngôn ngữ định dạng chuyển đổi mở rộng (Extensible Stylesheet Language Transformations - XSLT) Chương 2: Tập trung vào tìm hiểu và phân loại các kỹ thuật nén dữ liệu nói chung bao gồm nén tổn hao, nén không tổn hao và nén XML nói riêng bao gồm các kỹ thuật nén văn bản tổng quát, kỹ thuật nén XML không truy vấn, kỹ thuật nén XML hỗ trợ truy vấn Chương 3: Giới thiệu chi tiết năm kỹ thuật nén XML. .. đề này, một số kỹ thuật nén đã được giới thiệu như: XMill, XGrind, XAUST, EXI, XSAQCT Việc sử dụng các công cụ nén XML có nhiều lợi thế như làm giảm băng thông mạng, giảm không gian lưu trữ đĩa cũng như giảm bộ nhớ trong việc xử lý và truy vấn các tài liệu XML Luận văn sẽ tập trung nghiên cứu bốn nội dung chính: tìm hiểu chung về XML, tìm hiểu về nén dữ liệu và nén dữ liệu XML, trong đó tìm hiểu chi... biểu đ Biểu đồ 4.1: So sánh tỷ lệ nén của các bộ nén gzip, XMill, XGrind, XAUST và EXI 66 Biểu đồ 4.2: So sánh hiệu suất nén của các bộ nén gzip, XMill, XGrind, XAUST và EXI 67 Biểu đồ 4.3: So sánh thời gian nén của các bộ nén gzip, XMill, XGrind, XAUST và EXI 67 Biểu đồ 4.4: So sánh thời gian giải nén của các bộ nén gzip, XMill, XGrind, XAUST và EXI 68 1 Mở đầu XML (Extensible Markup... năm kỹ thuật nén XML bao gồm: XMill [11,23], XGrind [15,22], XAUST [10,21], XSAQCT [19-20], EXI [6-8,13] Luận văn tiến hành thực nghiệm, so sánh các kỹ thuật nén với nhau, đưa ra một số hướng dẫn, khuyến nghị hữu ích giúp cho người sử dụng có thể đưa ra các quyết định hiệu quả, đúng đắn khi lựa chọn các công cụ nén XML phù hợp nhất với yêu cầu của họ Lý do luận văn lựa chọn, tìm hiểu năm bộ nén XML. .. Quá trình truyền dữ liệu XML có sử dụng quá trình nén XML [17] Có hai cách phân loại bộ nén XML Phân loại dựa vào sự nhận biết cấu trúc tài liệu XML Theo cách phân loại này, các bộ nén XML được chia làm hai nhóm chính: các bộ nén văn bản tổng quát (general text compressors) và các bộ nén có sự nhận biết XML (XMLconscious compressors) 12 Trong bộ nén văn bản tổng quát, dữ liệu XML được lưu trữ dưới dạng... tiết của năm kỹ thuật nén XML bao gồm XMill, XGrind, XAUST, XSAQCT và EXI 3.1 XMill 3.1.1 Tổng quan về XMill XMill thuộc nhóm kỹ thuật nén XML không truy vấn Bộ nén XMill và bộ giải nén XDemill được sử dụng để nén dữ liệu XML cho mục đích chuyển đổi và lưu trữ dữ liệu XMill không cần thông tin lược đồ DTD và XML Schema nhưng có thể khai thác tận dụng các thông tin về lược đồ để nâng cao tỉ lệ nén XMill... //Person/(Name|Child) -p //# file .xml file.xmi Nhóm đầu tiên nhóm và nén các giá trị dữ liệu dựa vào thẻ kết thúc Nhóm thứ hai nén tất cả các title của Person với nhau, tất cả name của Person và child của nó được nén chung nhau, và tất cả các giá trị dữ liệu khác được nén dựa vào thẻ kết thúc của nó Trong thực tế, Doc/Book/Title và /Doc/Conference/Paper/Title được nén cùng nhau và riêng rẽ từ /Doc/Person/Title... compressor): có tám bộ nén ngữ nghĩa nguyên tử được mô tả trong bảng 3.2 ảng 3.2: Các bộ xử lý ngữ nghĩa nguyên tử (Atomic Semantic Compressors) [11] ộ nén (compressor) t u i u8 di ri e “…” Mô tả Bộ nén văn bản mặc định Bộ nén số nguyên dương Bộ nén số nguyên Bộ nén số nguyên dương . trình truyn d liu XML mà không có quá trình nén XML [17] 11 Hình 2.3: Quá trình truyn d liu XML có s dng quá trình nén XML [17] 11 Hình 2.4: Phân loi các b nén XML da vào s nhn bit. 1.3. So sánh XML và HTML 1.3.1. HTML XML và HTML 1.3.2. 1.1: So sánh XML. hiu và ch vit tt Danh mc các bng Danh mc các hình v Danh m M u 1 TNG QUAN XML 2 1.1. Tng quan XML 2 1.2. m ca XML 2 1.3. So sánh XML và HTML