Các kênh trong một khối tiếp tục được tổ chức thành các d ng nén compressed stream . Các kênh nhỏ hơn được kết hợp vào trong cùng một d ng nén, trong khi các kênh lớn được nén riêng rẽ nhau. Cơ chế xác định các kênh được kết hợp hay được nén riêng rẽ nhau được chỉ dẫn bởi số lượng hạng mục nội dung giá trị có mặt trong EXI Stream.
Nếu các kênh giá trị của khối có nhiều nhất là 100 giá trị, khối chỉ có một d ng nén duy nhất bao gồm một kênh cấu trúc, theo sau là tất cả các kênh giá trị. Thứ tự của các kênh giá trị trong d ng nén được tính bằng thứ tự của giá trị đầu tiên trong mỗi kênh xuất hện trong chuỗi sự kiện EXI.
Nếu các kênh giá trị của khối có nhiều hơn 100 giá trị, d ng nén đầu tiên chỉ chứa kênh cấu trúc. D ng nén thứ hai chứa tất cả các kênh giá trị chứa nhiều nhất 100 giá trị. Và các d ng nén c n lại, mỗi d ng nén chỉ chứa một kênh mà mỗi kênh có nhiều hơn 100 giá trị. Thứ tự của các kênh giá trị bên trong d ng nén thứ hai được xác định bằng thứ tự của giá trị đầu tiên trong mỗi kênh xuất hiện trong chuỗi sự kiện EXI. Tương tự như vậy, thứ tự của các d ng nén sau d ng nén thứ hai được xác định bằng thứ tự giá trị đầu tiên của kênh xuất hiện trong chuỗi sự kiện EXI.
Khi giá trị của tùy chọn compression được thiết lập bằng true, mỗi d ng nén trong một khối được lưu trữ bằng cách sử dụng định dạng dữ liệu nén DEFLATE chuẩn standard DEFLATE Compressed Data Format . Nếu không, mỗi d ng nén trong một khối được lưu trữ trực tiếp mà không sử dụng thuật toán DEFLATE.
Hình 3.28: Minh họa quá trình nén của EXI Body Stream trong hình 3.21 [7]
Hình 3.21 mô tả một EXI Body Stream của tài liệu Notebook trong ví dụ 3.23 khi quá trình nén chưa được sử dụng. Ta thấy rằng trong hình 3.28, hình trụ màu trắng đại diện cho thông tin cấu trúc, trong khi các hình trụ được đánh bóng đại diện cho thông tin nội dung. Ta thấy rằng, d ng nén đầu tiên chứa kênh cấu trúc, theo sau là các kênh giá trị theo thứ tự chúng xuất hiện trong tài liệu date, category, subject, body và các d ng nén được lưu trữ theo định dạng định dạng dữ liệu nén DEFLATE chuẩn.
Kết luận
Trong chương này, luận văn đã giới thiệu về kiến trúc và quá trình cài đặt bộ nén, bộ giải nén của năm kỹ thuật nén XML bao gồm XMill, XGrind, XAUST, XSAQCT, EXI. Chương tiếp theo sẽ trình bày chi tiết kết quả thực nghiệm của một số kỹ thuật nén XML trên các tập dữ liệu XML chuẩn, đồng thời từ các kết quả thu được, luận văn cũng đưa ra một số hướng dẫn, khuyến nghị hữu ích giúp người dùng lựa chọn các công cụ nén phù hợp nhất với yêu cầu sử dụng.
Chương 4. CÀI ĐẶT THỰC NGHIỆM VÀ SO SÁNH MỘT SỐ KỸ THUẬT NÉN
Chương này sẽ tiến hành cài đặt, thực nghiệm, so sánh các kỹ thuật nén gzip, XMill, XGrind, XAUST, EXI trên các tập dữ liệu XML chuẩn và đưa ra một số hướng dẫn, khuyến nghị hữu ích giúp người dùng lựa chọn các công cụ nén phù hợp với yêu cầu sử dụng.