Báo cáo Khoa học
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÀI TẬP LỚN TÍCH HỢP DỮ LIỆU VÀ XML Đề tài: Tìm hiểu XPEDIA: XML Processing for Data Integration Giảng viên hướng dẫn: ThS. Nguyễn Hồng Phương Nhóm 16 Sinh viên thực hiện: Nguyễn Việt Anh 20101108 Đinh Ngọc Nam 20101903 Lưu Văn Dũng 20101277 Nguyễn Bá Chường 20101178 HÀ NỘI 2014 MỤC LỤC TÓM TẮT 3 PHẦN I: GIỚI THIỆU SƠ LƯỢC VỀ PHƯƠNG PHÁP XỬ LÝ TÍCH HỢP XML (XPEDIA) 4 1.1 Hệ thống XPEDIA 4 1.2 Những đóng góp của XPEDIA 6 PHẦN II: MÔ HÌNH TÍNH TOÁN 7 2.1 Toán tử XML 8 PHẦN III: KỊCH BẢN ĐẶC TRƯNG CỦA ETL VỚI XML 12 PHẦN IV: TỐI ƯU HÓA ELT TRONG XPEDIA 15 4.1 Viết lại các flow ETL thành các Operator đơn giản 15 4.2 Truy vấn Generating và Merging 18 4.3 Tạo ra các định nghĩa công việc ELT 19 PHẦN V: XỬ LÝ SONG SONG CỦA DỮ LIỆU XML 21 5.1 Xác định các phân vùng tối ưu 21 5.2 Tạo phân vùng tối ưu 24 5.2.1 Phân tích cú pháp cạn 24 5.2.2 Tạo phân vùng cân bằng 26 5.3 Sư xác nhận giản đồ song song 27 PHẦN VI: THỰC HIỆN ĐÁNH GIÁ 29 6.1 Thiết lập thử nghiệm 29 6.2 Tác động của tối ưu hóa ELT 30 6.3 Ảnh hưởng của song song 30 PHẦN VII: CÔNG TÁC LIÊN QUAN 34 KẾT LUẬN 35 TÀI LIỆU THAM KHẢO 36 TÓM TẮT Các công cụ tích hợp dữ liệu ngày càng cần phải cung cấp những tùy chọn xử lý phức tạp cho dữ liệu XML . Trong quá khứ, nó phù hợp cho các máy để hỗ trợ cơ bản trong việc tích hợp XML . Tuy nhiên , với sự tăng trưởng ổn định của XML trong các ứng dụng và cơ sở dữ liệu , nền tảng tích hợp cần phải cung cấp các hoạt động trực tiếp trên XML cũng như cải thiện khả năng mở rộng và hiệu quả của các hoạt động này . Trong bài báo này , chúng tôi mô tả một cách linh hoạt và toàn diện về framework để thực hiện Trích xuất – Chuyển đổi- xử lý ( ETL) của XML. Điều này bao gồm: i. Đầy đủ mô hình tính toán và khả năng của công cụ để thực hiện các hoạt động trong một dòng chảy ETL ii. Một cách tiếp cận thông qua các thao tác với XML để thành một công cụ cơ sở dữ liệu có khả năng hỗ trợ xử lý XML iii. Phương pháp để áp dụng kỹ thuật phân vùng nhằm cung cấp khả năng mở rộng , xử lý song song tài liệu XML lớn. Chúng tôi mô tả kết quả thực nghiệm cho thấy hiệu quả của các kỹ thuật này. PHẦN I: GIỚI THIỆU SƠ LƯỢC VỀ PHƯƠNG PHÁP XỬ LÝ TÍCH HỢP XML (XPEDIA) XML được giới thiệu vào giữa những năm 1990 như là một đơn giản và mở rộng ngôn ngữ dữ liệu đánh dấu . Nó đã đạt được vị trí vững chắc ngay lập tức như một định dạng dữ liệu trao đổi . Theo thời gian, đạt được từ nhiều nghiên cứu , XML đã trở thành một định dạng dữ liệu có giá trị bên trong và ngoài doanh nghiệp để thay thế cho dữ liệu trong nhất thời và lâu dài của các ứng dụng . Có một số nghiên cứu lừng lẫy trong XML về việc xử lý phân tích, chuyển đổi, xử lý cơ sở dữ liệu, lập chỉ mục và tìm kiếm. Cơ sở dữ liệu và ứng dụng của các nhà cung cấp đã sử dụng kết quả nghiên cứu này hỗ trợ cho XML như một kiểu dữ liệu lớp đầu tiên trong cơ sở dữ liệu như DB2 [9] , Oracle [10] , và SQL Server [11] cũng như trong nhiều ngôn ngữ như Java , C + + , và ngôn ngữ kịch bản . Do đó, nó không chỉ là tích hợp dữ liệu tự nhiên mà còn cần cung cấp hiệu quả kỹ thuật, khả năng mở rộng để xử lý XML. Các công cụ tích hợp dữ liệu như IBM Information Server , Informatica của PowerCenter , vv, cung cấp khả năng để Trích xuất – chuyển đồi- xử lý ( ETL) từ các nguồn dữ liệu khác nhau vào mục tiêu dữ liệu khác nhau . Đối với XML , các công cụ ETL hiện nay cung cấp khả năng cơ bản để thực hiện XPath dựa biến đổi các định dạng thành bộ dữ liệu hoặc ngược lại . Tuy nhiên, với tiến độ ổn định thông qua XML, cần có công cụ tích hợp các dữ liệu nhanh chóng , khả năng mở rộng " thế hệ tiếp theo ", Khả năng xử lý XML. Trong khi có một nền văn học phong phú trong các lĩnh vực khác nhau của xử lý XML , đáng ngạc nhiên đã có việc hạn chế về chủ đề tích hợp dữ liệu XML. ban đầu làm việc trong lĩnh vực này đã tập trung vào các thuật toán băm nhỏ XML thành một giản đồ quan hệ tự nhiên. Công việc chính nằm trên XML Stylesheet Transformation (XSLT) có thể được coi như ngoại biên liên quan chủ đề của chúng tôi [1] . Ngoài ra còn có khá nhiều truy vấn XML tiếp tục xử lý mà chúng ta xem xét cung cấp một số có liên quan cơ sở nền tảng cho chủ đề của chúng tôi [ 8, 9 ] . Tuy nhiên , vẫn còn một nhiều vấn đề mở mà cần phải được giải quyết để cho phép "bên cạnh thế hệ " tích hợp dữ liệu XML. Trong bài báo này chúng tôi đại diện các hệ thống XPEDIA (XML ProcEssing for Data IntegrAtion) để giải quyết các vấn đề này. 1.1 Hệ thống XPEDIA Tích hợp dữ liệu trên dữ liệu quan hệ là một chủ đề được nghiên cứu. Tuy nhiên, trong một thế giới XML, tích hợp dữ liệu là hoàn toàn khác nhau do tính chất phân cấp của dữ liệu. Do đó kỹ thuật đã được phát triển cho thế giới quan hệ không thể trực tiếp áp dụng cho dữ liệu XML. Hệ thống XPEDIA là một trong những hệ thống đầu tiên kết hợp các kỹ thuật để hỗ trợ hiệu quả XML tích hợp dữ liệu. Bây giờ chúng tôi phác thảo một số các tính năng chính và thách thức giải quyết bằng XPEDIA Mô hình tính toán: Mô hình tính toán sử dụng để đại diện cho các quá trình ETL trên dữ liệu quan hệ giả định trong hình thức hàng gồm nhiều cột. tính toán như vậy mô hình đại diện cho mỗi tài liệu XML như là một hàng duy nhất của một cột duy nhất. Một đại diện đơn giản của dữ liệu XML như vậy là một trở ngại lớn trong việc hỗ trợ hoạt động XML phức tạp. Do đó yêu cầu cho một kỹ thuật để xử lý dữ liệu phức tạp thay đổi, trong khi duy trì dễ dàng đặc điểm kỹ thuật vốn có trong các mô hình tính toán quan hệ. First Class Data Type: Hầu hết các công cụ tích hợp dữ liệu có sẵn trong thị trường hiện nay, đều coi XML như một CLOB (chuỗi ký tự). Tuy nhiên, chìa khóa để xử lý hiệu quả dữ liệu XML là đối xử với nó như một đối tượng lớp dữ liệu đầu tiên trong quá trình chuyển đổi. Một đại diện như vậy cho phép XPEDIA hỗ trợ các hoạt động đó như đẳng cấp bậc-tham gia, xml-tổng hợp, vv là nhà khai thác chuyên ngành để đối phó với dữ liệu XML (chi tiết trong Phần 3). Các nhà khai thác cho phép người dùng dễ dàng xác định độ phức tạp của luồng chuyển đổi XML, mà cho đến nay vẫn chưa có khả năng. ETL Support: Nếu nguồn (hoặc mục tiêu trong một số trường hợp ) của một luồng ETL là một cơ sở dữ liệu có hỗ trợ xử lý XML , XPEDIA áp dụng kỹ thuật viết lại để chuyển đổi các bộ phận của luồng công việc ETL vào các truy vấn SQL / XML để thúc đẩy một số đáng kể những thứ quan trọng thành các cơ sở dữ liệu. Này được gọi là ELT (Extract, Load, Tranform) và là một kỹ thuật có giá trị để đạt được hiệu quả và hiệu suất bằng cách tận dụng khả năng của cơ sở dữ liệu. Khả năng mở rộng : Kích thước của một hàng / bản ghi trong dữ liệu quan hệ là hiếm khi lớn hơn một vài Kb . Tuy nhiên , chúng tôi đã quan sát thấy từ một số khách hàng, tích hợp dữ liệu XML đầu vào hướng đến mở rộng, đầu vào tổng hợp bao gồm nhiều đối tượng nhỏ hơn. Do đó chúng tôi cần kỹ thuật chuyên ngành để xử lý tài liệu XML lớn (> 2-3 GB). XPEDIA chuyển qua sử dụng một phân vùng duy nhất và kỹ thuật xử lý song song cho các đối tượng XML. Bản chất trình bày theo thứ bậc của dữ liệu XML là thách thức duy nhất cho thực hiện công việc biến đổi đơn đang gồm có một loạt những thao tác trong một môi trường thực hiện song song. Trong bài báo này, chúng tôi phương pháp tiếp cận khác nhau hiện nay được hỗ trợ bởi XPEDIA cho phân vùng các đối tượng XML đầu vào để thực hiện phần còn lại của quá trình xử lý sử dụng dòng song song trước khi kết hợp các kết quả. chúng tôi cũng cung cấp kết quả thử nghiệm cho tất cả các kỹ thuật để hiển thị khả năng mở rộng và hiệu suất có thể đạt được. 1.2 Những đóng góp của XPEDIA Những đóng góp nghiên cứu của công việc của chúng tôi có thể được tóm tắt như sau: Chúng tôi đề xuất một mô hình tính toán cho các ứng dụng ETL trên Dữ liệu XML. Các mô hình mới được thiết kế đặc biệt để xử lý dữ liệu thứ bậc XML và xử lý dữ liệu XML như là First Class Data Type(kiểu lớp dữ liệu đầu tiên). XPEDIA là hệ thống đầu tiên có hỗ trợ kỹ thuật truy vấn viết lại để chuyển đổi một luồng ETL qua dữ liệu XML. Chúng tôi trình bày lý thuyết kỹ thuật xử lý song song để xử lý các tài liệu XML lớn. Chúng tôi tin rằng thông qua duy nhất của chúng tôi kỹ thuật là nỗ lực đầu tiên hỗ trợ hiệu quả song song trong luồng ELT trên dữ liệu XML. Chúng tôi trình bày kết quả thí nghiệm để xác nhận rằng cả kỹ thuật và kết quả đạt được có ý nghĩa cải thiện hiệu suất cho một luồng ETL điển hình. PHẦN II: MÔ HÌNH TÍNH TOÁN Một mô hình tính toán được sử dụng để thể hiện quá trình ETL di chuyển và chuyển đổi dữ liệu từ các nguồn đến đích . Nhiều công cụ ETL sử dụng mô hình tính toán luồng dữ liệu để mô tả các quá trình này .Trong mô hình luồng dữ liệu , các quy trình được thể hiện qua một dòng chảy hướng đồ thị, nơi các đỉnh của đồ thị được coi là các thao tác và các cạnh đại diện cho dòng chảy của dữ liệu. Các thao tác trong một mô hình luồng dữ liệu có thể thực hiện một hoặc nhiều hơn các hoạt động sau đây: i. Đọc dữ liệu từ các nguồn ii. Ghi dữ liệu vào các mục tiêu iii. Thực hiện biến đổi trên dữ liệu đầu vào để sản xuất dữ liệu đầu ra mới . Các thuật toán của thao tác được xác định bởi các kiểu thao tác. cho ví dụ, một thao tác tham gia sử dụng các thuật toán tham gia cho việc nhập dữ liệu đầu vào . Luồng dữ liệu hiện tại dựa trên công cụ ELT giả định có quan hệ với mô hình dữ liệu, luồng mà nằm giữa các thao tác , bản ghi giữa các luồng và thao tác gồm có nhiều hàng/cột. Để xử lý dữ liệu XML, các công cụ này xem mỗi tài liệu XML là một hàng duy nhất với một (XML) cột. Tuy nhiên , như là điều hiển nhiên, một sự trình bày quá đơn giản như vậy là một sự bất lợi chính trong việc hỗ trợ những thao tác phức tạp qua dữ liệu XML. Do đó, XPEDIA sử dụng một mô hình tính toán mới mở rộng mô hình luồng dữ liệu quan hệ để hỗ trợ dữ liệu phân cấp . Một phần mở rộng như vậy, khi chúng tôi giải thích tiếp theo, đòi hỏi một sự thay đổi lớn trong phương pháp trình bày. XPEDIA sử dụng một mô hình luồng dữ liệu bao gồm các thao tác và cạnh . Tuy nhiên , sự khác biệt chính từ mô hình luồng dữ liệu hiện tại là các dữ liệu chảy giữa hai thao thác là một danh sách đặt hàng của các tài liệu XML tuân thủ một XML đơn định nghĩa yếu tố giản đồ [2] . Chú ý rằng mỗi tài liệu có thể tự bản thân nó đa chiều hay trong thuật ngữ XML tài liệu có thể có nhiều yếu tố lặp đi lặp lại với maxOccurs > 1 hoặc maxOccurs = " vô cùng " . Ví dụ , hãy xem xét một tài liệu XML với nút gốc " High_Value_Customers " mà lần lượt có 100 nút con " Customer ". Trong tài liệu này nếu chúng ta đặt nút " Customer " trong quan hệ thì tài liệu XML sẽ được đặt vào một bảng bao gồm 100 dòng . Trong một ví dụ thiết lập các tài liệu XML sẽ đại diện cho hai chiều dữ liệu . Để nắm bắt bản chất đa chiều này của XML dữ liệu , mỗi tài liệu XML trong mô hình tính toán của chúng tôi bao gồm nhiều " Vectors " - cho mỗi kiểu thành phần lặp đi lặp lại . Trong ví dụ " High_Value_Customers ", tài liệu sẽ bao gồm một Vector ( kích thước 100) vì nó có một yếu tố lặp đi lặp lại là nút " Customer ". Các khái niệm về vector cũng lên khác biệt trong cách dữ liệu được xử lý bởi một toán tử . Trong mô hình luồng dữ liệu của chúng tôi , các toán tử (trừ các toán tử nguồn mà chỉ đơn giản là đọc dữ liệu từ các nguồn ) lặp qua danh sách các đối tượng ( các tài liệu XML ) trong đầu vào dữ liệu của chúng. Mỗi đối tượng ( tài liệu ) có thể bao gồm nhiều vector con , các toán tử cũng có thể lặp qua một vector lớp dưới của dữ liệu đầu vào . Vector lặp được định nghĩa như là " phạm vi " của các toán tử vector . Đối với mỗi phạm vi, các toán tử xử lý dữ liệu đầu vào được chứa trong scope instance và tạo ra một kết quả cũng được chứa trong scope instance. Ví dụ, trong các " High_Value_Customers " dụ phạm vi của một toán tử sẽ là " / High_Value_Customers / Customers ". Mỗi toán tử của cây con " Customer " sẽ độc lập với cây con " Customer" dưới nút gốc khác . Do đó các toán tử không được phép duy trì trạng thái giữa các trường của phạm vi vector . Mỗi phạm vi thể hiện (tức là , mỗi cây con " Customer " ) có thể coi như là tương tự như một hàng trong thế giới quan hệ. Các khái niệm về vector và phạm vi giúp chúng tôi hỗ trợ một tập hợp phong phú của toán tử trên dữ liệu XML và cũng giúp chúng tôi hỗ trợ song song dòng ETL ( chi tiết trong Section5 ). Một khác biệt quan trọng từ hệ thống luồng dữ liệu quan hệ là mô hình tính toán của chúng tôi chỉ hỗ trợ tuyến dưới đồ thị. Hệ thống luồng quan hệ, mặt khác , thường cho các bộ phận của các dữ liệu được tách ra và xử lý trong đồ thị con khác nhau ( của dòng ETL) . Trong lĩnh vực XML , điều này sẽ sắp xếp để tách nội dung của một vector (của một XmlDocument duy nhất) thành các đồ thị con khác nhau và sau đó sáp nhập chúng vào một hoặc nhiều vectơ. Vì điều này có thể khá phức tạp, mô hình tính toán của chúng tôi chỉ cho phép các đồ thị tuyến tính do đó đơn giản hóa công việc của quá trình thiết kế và tăng tính khả dụng của nó. Để bù đắp cho những hạn chế của mô hình trong một đồ thị tuyến tính, mỗi toán tử trong mô hình của chúng tôi tạo ra một kết quả cũng chứa đầu vào ban đầu của nó. Sau đó chúng tôi sử dụng tối ưu hóa thời gian chạy, viết lại đồ thị và loại bỏ lĩnh vực phụ thuộc không cần thiết để tối ưu hóa luồng XPEDIA ELT. Vì vậy, các mô hình tính toán của XPEDIA kết hợp một gốc thay đổi trong phương pháp biểu diễn bằng cách hỗ trợ cho dữ liệu XML phân cấp bao gồm việc sử dụng các tính năng như: Phạm vi, Vector và đồ thị tuyến tính. Sử dụng các khái niệm, Hình 1 mô tả thuật toán của một toán tử trong mô hình tính toán của chúng tôi trong luật của một báo cáo cập nhật XQuery. Hình 1: Thuật toán của một toán tử op_algin hình trên là viết tắt của toán tử truy cập các dữ liệu chứa trong $ scopeand đưa ra một kết quả duy nhất sử dụng dữ liệu này. 2.1 Toán tử XML Bộ lọc toán tử: Các bộ lọc toán tử có thể lọc một trong các vectơ chứa trong phạm vi thể hiện và sản xuất một vector mới đã vượt qua các bộ lọc vị. Mệnh đề SQL / XML dưới đây minh họa các nhà điều hành lọc thuật toán: Toán tử định hướng: Các toán tử định hướng trên cùng một vector trong đầu vào của nó và tạo ra một vector mới đó là dựa trên một tập hợp của biểu thức được chọn. Tập hợp các biểu thức được chọn cho phép người dùng chỉnh sửa đầu vào bằng cách loại bỏ một phần tử hay một cây phụ, đổi tên một phần tử, hoặc làm phong phú thêm các tài liệu với một mới thuộc tính bằng cách tính toán một biểu thức vô hướng. Mệnh đề SQL / XML sau minh họa các thuật toán định hướng toán tử: Toán tử kết hợp: Các toán tử kết hợp có thể tạo ra số liệu thống kê bằng cách tập hợp một trong các vectơ chứa trong phạm vi thể hiện. Tương tự như một tập hợp cơ sở dữ liệu, toán tử kết hợp có một tập hợp các chức năng tập hợp và một nhóm trong đó xác định tập hợp các cột quan trọng. Kết quả của các toán tử kết hợp là một vector mới với một bản ghi tóm lược cho mỗi khóa duy nhất mà được tìm thấy trong vectơ được nhập vào. Nhận thấy rằng các kết hợp tạo lại cho mỗi mục phạm vi. Mệnh đề SQL / XML sau minh họa các thuật toán điều hành tổng hợp: Sự tham gia của các toán tử cùng bậc: Sự liên kết của các toán tử cùng bậc thể hiện sự bình đẳng dựa trên liên kết giữa hai vectơ mà được chứa trong cùng một phạm vi thể hiện. Tương tự như một quan hệ liên kết cùng bậc, toán tử liên kết có một tập hợp các vị trí bình đẳng giữa các thuộc tính từ một vector và các thuộc tính của thứ hai vector. Kết quả của sự tham gia bao gồm hai vectơ lồng nhau, trong đó mỗi thể hiện của các đầu vào vector trái chứa tất cả các trường hợp kết hợp của các vector đầu vào phải. Mệnh đề SQL / XML sau minh họa sự tham gia của các toán tử cùng bậc: Bảng đọc toán tử: Các bảng toán tử đọc tất cả các hàng của một bảng và kết quả đầu ra là bản ghi quan hệ duy nhất hoặc một tài liệu XML. Toán tử này như một tham số của truy vấn SQL hoặc SQL / XML thực thi trên bảng đầu vào để sinh ra đầu ra được yêu cầu. Bảng ghi toán tử: Bảng ghi toán tử được sử dụng cho việc ghi quan hệ hoặc viết dữ liệu XML vào một bảng. Đối với mỗi phạm vi thể hiện của vector hiện diện trong đầu vào, các toán tử tạo ra một bản ghi mới trong bảng đầu ra. Giai đoạn đầu ra toán tử : Toán tử đầu ra biến đổi một đầu vào quan hệ vào một tài liệu XML . Các toán tử có đầu vào là một ánh xạ từ mỗi thuộc tính quan hệ có trong đầu vào của một XPath trong tài liệu XML đầu ra (đó là được tạo ra ). Một phần của XPaths được chỉ định là đường dẫn. Điều này thường quyết định cấu trúc của các tài liệu XML. Một ví dụ về chức năng của OutputStage được đưa ra trong hình 2. Trong ví dụ này, lập bản đồ từ thuộc tính quan hệ để XPath như sau: Department /Company/Country/Dept (2) Project /Company/Country/Employee/PName and (3) Emp ID /Company/Country/Employee/EInfo/EmpID Luật 1: Một sự thay đổi giá trị của cột input gây nên sự đóng hoặc mở ra của 1 phần tử nhỏ nhất. Luật 2: Khi chỉ có 1 cột input được thay đổi giá trị, sự lặp lại của đường dẫn áp dụng như sau: Mỗi phần tử mở được đóng bao gồm cả các phần tử đầu tiên là 1 phần của sự lặp lại đường dẫn. Ví dụ: [...]... trường hợp khi chúng ta biết tỷ lệ này một cách chính xác Mặt khác , nếu chúng ta đánh giá quá cao tỷ lệ này, sau đó thực hiện hủy như một bộ vi xử lý sẽ xử lý phân vùng lớn hơn so với của nó kích thước hợp pháp , do đó làm giảm lợi thế song song Trong thực hành XPEDIA biết tỷ lệ này như sau: Thông thường một công việc ETL xử lý hàng trăm tài liệu XML Do đó XPEDIA tìm thấy giá trị của tỷ lệ khi xử lý. .. thực hiện bởi một bộ xử lý mà sau đó sẽ gửi các cây bắt nguồn từ tại nút phân vùng để phần còn lại của bộ vi xử lý một cách round robin Chúng tôi đã thử nghiệm này trên 4 bộ vi xử lý mà bộ vi xử lý đầu tiên đã phân tích cú pháp nông của tài liệu XML và nó cung cấp cây con bên dưới các nút phân vùng cho 3 bộ vi xử lý còn lại Kết quả của thí nghiệm này cho các kích cỡ tài liệu XML khác nhau được thể... tài liệu XML có kích thước khiêm tốn Tuy nhiên , với việc thông qua ngày càng tăng của XML để tích hợp dữ liệu , chúng ta thấy nhu cầu mới quan trọng để thực hiện chuyển đổi và xử lý các hoạt động phức tạp trên các tài liệu XML lớn và bộ tài liệu Trong bài báo này , chúng tôi nghiên cứu một số yêu cầu mới cho xử lý dữ liệu XML bên trong động cơ tích hợp dữ liệu Chúng tôi trình bày hệ thống XPEDIA trong... Phân tích cú pháp cạn cho nhiều nút phân vùng 5.2.2 Tạo phân vùng cân bằng Lược đồ lớn đề cập trước đó tạo ra kích thước bằng nhau phân vùng được xử lý song song trên nhiều bộ xử lý Các phân vùng có kích thước bằng nhau được tạo ra bằng cách thực hiện một phân tích cạn của tài liệu XML song song trên nhiều bộ vi xử lý mà mỗi trường hợp phân tích kết quả đầu ra cạn khác nhau phần của tài liệu XML giống... ETL Hệ thống được đề xuất là không cụ thể cho XML nhưng có thể thực hiện ánh xạ XML Công việc này miễn phí cho hệ thống XPEDIA trong đó kết hợp những cải tiến đáng kể XML cụ thể như cung cấp một mô hình tính toán cụ thể XML , cung cấp hỗ trợ cho giảng dạy tiếng Anh và xử lý các tài liệu XML lớn [4] trình bày một cách tiếp cận để thực hiện tích hợp dữ liệu XML, nhưng tập trung chủ yếu của nó là dữ liệu... bằng cách sử dụng tập tin lược đồ XML cung cấp Nếu mỗi bộ xử lý xác nhận rằng phân vùng của nó phù hợp với các tập tin lược đồ XML đầu vào, sau đó XPEDIA đảm bảo rằng các tài liệu XML chưa phân phù hợp với lược đồ XML ban đầu Để cung cấp bảo lãnh này XPEDIA phân loại các lược đồ XML đầu vào như là một trong hai phân vùng an toàn hay không an toàn phân vùng Một lược đồ XML được cho là phân vùng không... tài liệu XML khác nhau cùng một lúc Một song song như vậy được hỗ trợ bởi XPEDIA và xảy ra bất cứ khi nào nhiều toán tử hoạt động trên một dòng XML tài liệu theo cách nối tiếp Tuy nhiên , hình thức này song song có thể cung cấp lợi ích hạn chế đối với các tài liệu XML lớn như mỗi toán tử sẽ phải xử lý tất cả các tài liệu đó đòi hỏi bộ nhớ lớn và sức mạnh xử lý Thật không may, động cơ xử lý ETL hiện... lớn thời gian để thực thi XPEDIA là hệ thống đầu tiên hỗ trợ xác nhận lược đồ XML song song trên nhiều máy / xử lý giúp nó làm giảm đáng kể thời gian cần thiết cho quá trình này Ở mức cao, đạt XPEDIA xác nhận sơ đồ song song bằng cách phân vùng các tài liệu XML như đã đề cập trong các phần trước đó và cung cấp một tập tin XML schema sửa đổi để mỗi bộ xử lý song song Mỗi bộ xử lý song song sau đó xác... của khả năng xử lý XML của cơ sở dữ liệu Tuy nhiên nhận thấy rằng chúng ta không thể tạo ra một luồng ELT khi dữ liệu có trong một cơ sở dữ liệu mà không có XML hỗ trợ hoặc hiện diện trong cùng một tập tin Ngay cả trong trường hợp như vậy, XPEDIA cải thiện khả năng mở rộng bằng cách sử dụng một kỹ thuật xử lý song song mới lạ được giải thích ở sau PHẦN V: XỬ LÝ SONG SONG CỦA DỮ LIỆU XML Kích thước... khi nguồn hoặc đích của XML ETL chảy là một cơ sở dữ liệu có khả năng xử lý SQL / XML hiệu quả Sau đó chúng tôi mô tả hai kỹ thuật ( được hỗ trợ bởi XPEDIA ) cho phân vùng các tài liệu XML lớn để xử lý XML trong một môi trường thực hiện song song Chúng tôi cũng đề xuất một kỹ thuật để xác nhận lược đồ XML song song trên nhiều máy tính Chúng tôi đã làm một thử nghiệm đánh giá của XPEDIA cho thấy thatthe . PHƯƠNG PHÁP XỬ LÝ TÍCH HỢP XML (XPEDIA) 4 1.1 Hệ thống XPEDIA 4 1.2 Những đóng góp của XPEDIA 6 PHẦN II: MÔ HÌNH TÍNH TOÁN 7 2.1 Toán tử XML 8 PHẦN III: KỊCH BẢN ĐẶC TRƯNG CỦA ETL VỚI XML 12. Các công cụ tích hợp dữ liệu ngày càng cần phải cung cấp những tùy chọn xử lý phức tạp cho dữ liệu XML . Trong quá khứ, nó phù hợp cho các máy để hỗ trợ cơ bản trong việc tích hợp XML . Tuy nhiên. " tích hợp dữ liệu XML. Trong bài báo này chúng tôi đại diện các hệ thống XPEDIA (XML ProcEssing for Data IntegrAtion) để giải quyết các vấn đề này. 1.1 Hệ thống XPEDIA Tích hợp dữ