1 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN ANH NGUYÊN ĐỀ TÀI: NGHIÊN CỨU QUY TRÌNH ETL TRONG KHO DỮ LIỆU ỨNG DỤNG VÀO HỆ THỐNG DỮ LIỆU KINH DOANH TRONG DOANH NGHIỆP VIỄN THÔNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI -2012 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS PHẠM THẾ QUẾ Phản biện 1:………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… Phản biện 2:………………………………………………………………………… ………………………………………………………………………… ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơngnghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Ngành công nghiệp viễn thông sau năm phát triển lưu trữ khối lượng liệu khổng lồ, bao gồm liệu thông tin khách hàng, chi tiết gọi, dịch vụ th bao, thơng tin cảnh bảo tình trạng hệ thống mạng viễn thông, liệu hệ thống cáp viễn thông v.v Lượng liệu khổng lồ khai thác cách lợi cho doanh nghiệp viễn thông việc tung dịch vụ chăm sóc khách hàng hay ứng dụng mang tính thực tiễn cao, đồng nghĩa với việc tăng hội cạnh tranh doanh nghiệp khác Từ yêu cầu đặt việc xây dựng kho liệu từ nguồn liệu phục vụ cho việc phân tích kinh doanh đơn vị viễn thông Tuy nhiên việc xây dựng hệ thống vấp phải số hạn chế mặt kỹ thuật, đặc biệt kích thước độ phức tạp môi trường thông tin tăng lên Lưu trữ phân tán nhiều dạng không tương thích với nhau, chí cịn dạng phi cấu trúc Nhiều hệ CSDL xây dựng không tương thích với khơng tương thích với hệ thông tin xây dựng Nhiều khách hàng không thoả mãn với hệ thống thông tin thời Kho liệu thường bao gồm thành phần khác nhau, thành phần có thiết kế, kĩ thuật cơng cụ riêng [6] Trong hệ thống ETL thành phần chịu trách nhiệm cho trình ETL ( Extract, Transform, Load) kho kho liệu; cho phép trích rút liệu từ nhiều nguồn khác nhau, làm sạch, tùy chỉnh chuyển đổi, cuối tải vào kho liệu[1] Việc xây dựng ETL chiếm đến 80% phát triển dự án 55% thời gian kho liệu [4] Vì việc đánh giá vai trị q trình ETL từ thể mơ hình hóa, thiết kế tối ưu ETL việc xây dựng kho liệu định thành bại kho liệu [6] Với mục đích nghiên cứu trình ETL việc xây dựng kho liệu, tơi chọn đề tài “Nghiên cứu quy trình ETL kho liệu ứng dụng vào hệ thống liệu kinh doanh doanh nghiệp viễn thơng ” Mục đích đề tài: Tiếp cận phương pháp tìm hiểu bước quy trinh xây dựng hệ thống ETL, phương án xử lý trường hợp cụ thể để áp dụng toán thực tế Đối tượng phạm vi nghiên cứu: Việc nghiên cứu tập trung vào lý thuyết xây dựng hệ thống ETL, áp dụng vào xây dựng chức trích xuất với nguồn liệu từ hệ thống liệu Vinaphone Phương pháp nghiên cứu: Tìm hiểu tài liệu liên quan đến kỹ thuật ELT kho liệu, phương pháp xây dựng hệ thống ETL Kết cấu luận văn Luận văn gồm chương Chương 1: Tổng quan ETL kho liệu Chương trình bày khái niệm, thành phần, chức kho liệu, ứng dụng mơ hình kho liệu Tổng quan ETL, thành phần vai trò ETL kho liệu Chương 2: Kiến trúc thành phần ETL Chương tập trung vào chi tiết thành phần ETL, bước thực hệ thống ETL, vấn đề gặp phải với thành phần cụ thể hệ thống ETL Các biện pháp giải với tình tốn cụ thể Chương 3: Xây dựng modul trích xuất liệu ETL Chương cuối luận văn trình bày thử nghiệm nhỏ áp dụng phần lý thuyết nêu chương trước Đó áp dụng thử nghiệm phương pháp trích xuất nghiên cứu phần lý thuyết vào tốn trích xuất liệu từ hệ thống liệu chi tiết cước liệu hệ thống trả trước 5 CHƯƠNG TỔNG QUAN VỀ ETL TRONG KHO DỮ LIỆU Kho liệu 1.1 Khái niệm kho liệu Định nghĩa W.H.Inmon đưa : Kho liệu (Data Warehouse) tập hợp liệu tích hợp theo hướng chủ đề, tương đối ổn định,cập nhật định kỳ nhằm hỗ trợ trình tạo định.[2] Như vậy, thấy thơng thường kho liệu xem sở liệu trì riêng biệt sở liệu từ nhiều nguồn sở liệu tác nghiệp 1.1.2 Các đặc trưng kho liệu Một kho liệu xác định sở liệu có chứa bốn đặc tính sau: hướng chủ đề, tính ổn định, tích hợp, gắn với thời gian 1.1.3 Kiến trúc kho liệu Mô hình kiến trúc hệ thống kho liệu gồm có ba thành phần: Dữ liệu nguồn, vùng liệu trung gian kho liệu Hình 1.1 Kiến trúc kho liệu 1.1.3.1 Kho liệu chủ đề (Datamart) Kho liệu chủ đề (Data Mart) sở liệu có đặc điểm giống với kho liệu quy mô nhỏ lưu trữ liệu lĩnh vực, chuyên ngành cụ thể Có loại - Datamart phụ thuộc 6 - Datamart độc lập 1.1.3.2 Siêu liệu (MetaData) Metadata loại “dữ liệu liệu”, xây dựng nhằm mục đích mô tả cấu trúc nội dung liệu bên sở liệu Metadata có ý nghĩa đặc biệt quan trọng việc xây dựng tổ chức lưu trữ liệu Data Warehouse 1.1.3.3 Cơ sở liệu kho liệu Cơ sở liệu tập trung tảng môi trường kho liệu Cơ sở liệu hầu hết cài đặt dựa công nghệ Hệ thống quản trị sở liệu quan hệ (RDBMS) 1.1.4 Các ứng dụng kho liệu Kho liệu sử dụng theo ba cách chính: Cách sử dụng truyền thống Trong cách sử dụng việc khai thác thông tin dựa công cụ truy vấn báo cáo Nhờ có việc trích lọc, tích hợp chuyển đổi liệu thô sang dạng liệu có chất lượng cao có tính ổn định Hỗ trợ trực tuyến (OLAP) Nếu ngôn ngữ truy vấn chuẩn SQL công cụ làm báo cáo truyền thống miêu tả có sở liệu phân tích trực tuyến có khả phân tích liệu, xem xét xem giả thuyết hay sai Tuy nhiên phân tích trực tuyến lại khơng có khả đưa giả thuyết Do kích thước q lớn có tính chất phức tạp nên khó sử dụng Data Warehouse cho mục đích Cơng nghệ khai phá liệu (Data mining) Trong hoàn cảnh phát triển liệu đặt yêu cầu phải lưu trữ liệu phức tạp có kích thước lớn Việc khai phá liệu trở thành nhu cầu khoa học hoạt động thực tiễn 1.1.5 Thiết kế CSDL cho kho liệu 1.1.5.1 Giản đồ hình Giản đồ hình đưa lần Raph Kimball lựa chọn thiết kế CSDL cho kho liệu Trong giản đồ hình sao, liệu xác định phân loại theo kiểu: kiện (bảng Fact) chiều (các bảng Dimension: bảng liên kết) 1.1.5.2 Giản đồ hình tuyết rơi Giản đồ hình tuyết rơi mở rộng giản đồ hình sao, cánh khơng phải bảng Chiều mà nhiều bảng Trong dạng giản đồ này, bảng theo chiều giản đồ hình chuẩn hóa Giản đồ hình tuyết rơi cải thiện suất truy vấn, tối thiểu không gian đĩa cần thiết để lưu trữ liệu cải thiện suất nhờ việc phải kết hợp bảng có kích thước nhỏ thay phải kết hợp bảng có kích thước lớn lại khơng chuẩn hóa 1.1.5.3 Giản đồ kết hợp Là kết hợp giản đồ hình dựa bảng Sự kiện bảng Chiều khơng chuẩn hóa theo chuẩn 1, 2, giản đồ hình tuyết rơi tất bảng Chiều chuẩn hóa 1.2 ETL vai trị ETL kho liệu 1.2.1 Khái niệm ETL Hệ thống ETL (Extract-Transform-Load) tảng kho liệu Một hệ thống ETL thiết kế cho việc trích xuất liệu từ hệ thống nguồn, chuyển đổi liệu đảm bảo nguồn độc lập tích hợp, cuối liệu sau chuyển đổi đưa vào kho liệu phục vụ mục đích phát triển ứng dụng hay phục vụ mục đích kho liệu [7, tr.xii] 1.2.1 Vai trò ETL kho liệu Hệ thống ETL phải đóng vai trị quan trọng việc cung cấp cho ứng dụng người sử dụng khuôn dạng liệu phù hợp Bản chất Kho liệu trình lấy liệu từ hệ thống LS hệ thống sở liệu tác nghiệp chuyển đổi thành thông tin có tổ chức định dạng thân thiện với người sử dụng; sở phân tích liệu hỗ trợ định kinh doanh Quá hệ thống nguồn đến liệu đưa vào bảng chiều hay bảng kiện chi phí 70% thời gian, nỗ lực hầu hết dự án kho liệu Trong tài liệu [7, tr.23] có đưa định nghĩa kho liệu nói lên vai trị ETL kho liệu 1.2.2 Các thành phần ETL Trích xuất: Dữ liệu nguồn từ nhiều nguồn khác có nhiều cấu trúc liệu khác nhiều loại sở liệu, từ tệp liệu excel hay từ tệp liệu thơ Vì nhiệm vụ bước trích xuất liệu từ hệ thống nguồn để xử lý Chuyển đổi : Đây trình phức tạp dùng để chuyển đổi liệu nguồn mơ hình khác phù hợp chuyển vào sở liệu đích Tải liệu: Đây trình đẩy liệu sau chuyển đổi vào kho liệu Dữ liệu sau chuyển đổi tải vào kho liệu 9 CHƯƠNG KIẾN TRÚC VÀ CÁC THÀNH PHẦN CỦA ETL 2.1 Tổng quan ETL 2.1.1 Những đặc điểm ETL Mỗi chức ETL thực mục đích quan trọng Khi muốn chuyển liệu từ hệ thống nguồn vào hệ thống thông tin lưu trữ kho liệu, việc thực chức cần thiết Để thay đổi liệu thành thông tin, trước tiên phải xác định liệu Sau xác định liệu, đơn giản đổ liệu vào kho Dữ liệu phải trích xuất qua biến đổi phù hợp để chuyển đổi thành thông tin Sau chuyển đổi liệu, khơng hữu ích với người sử dụng cuối chuyển vào kho liệu Tải liệu chức cuối Như ta phải thực chức ETL để chuyển đổi liệu thành thơng tin 2.1.2 Các chi phí cho hệ thống ETL Nói chung ta tiêu tốn khoảng 50-70% cơng sức dự án vào chức ETL 2.1.3 Yêu cầu với ETL bước ETL Cho bảng kiện ETL cho bảng chiều Viết thủ tục cho tải tất liệu Tổ chức vùng xử lý liệu công cụ kiểm thử Kế hoạch cho bảng tổng hợp Xác định liệu chuyển đổi luật làm Thiết lập luật trích xuất liệu Chuẩn bị cho việc ánh xạ thành phần liệu đích với liệu nguồn Xác định nguồn liệu, liệu ngồi Xác định liệu đích cần thiết kho liệu Hình 2.1 Các bước quy trình ETL 2.1.4 Các yếu tố quan trọng ETL - Xác định độ phức tạp đa dạng hệ thống nguồn liệu để xây dựng chức trích xuất chuyển đổi phù hợp - Xác định kiểu tải thời gian tải cho loại liệu để có phương án phù hợp 10 2.2 Vùng liệu trung gian Trong tất kiến trúc kho liệu, ln có vùng chứa liệu gọi vùng trung gian hay gọi vùng xử lý Dữ liệu chuyển từ nhiều nguồn vào vùng xử lí mà khơng thơng qua (hoặc ít) cơng đoạn xử lí 2.3 Trích xuất liệu 2.3.1 Xác định nguồn liệu Xác định nguồn liệu bao gồm việc xác định tất nguồn liệu thích hợp, liệu cần thiết để đưa vào kho liệu Hình 2.2 Các bước xác định ngu ồn liệu 2.3.2 Các kỹ thuật trích xuất liệu 2.3.2.1 Các loại kỹ thuật trích xuất Dữ liệu hệ thống nguồn rơi vào hai loại Giá trị Hầu hết thuộc tính hệ thống nguồn rơi vào loại Ở giá trị lưu trữ thuộc tính mơ tả giá trị thuộc tính thời điểm thời gian Các giá trị tạm thời thời Khi giao dịch xảy ra, giá trị thay đổi Khơng có cách để biết giá trị giữ nguyên hay thay đổi 11 Trạng thái định kì Loại không phổ biến thể loại trước Trong loại này, giá trị thuộc tính giữ trạng thái có thay đổi xảy Tại thời điểm, gíá trị trạng thái lưu trữ với tham chiếu đến thời gian giá trị thay đổi Khi triển khai hệ thống kho liệu, liệu ban đầu với thời gian định phải chuyển vào kho liệu, sau ta phải đưa vào liệu thay đổi sau tải ban đầu Nói rộng ra, có loại trích xuất liệu liệu tĩnh liệu thay đổi.Trích xuất liệu tĩnh chiếm chủ yếu tải ban đầu, trích xuất liệu thay đổi tải gia tăng Tải gia tăng phân chia thành trích xuất theo thời gian thực trích xuất chậm chậm Trong thời gian thực nắm bắt liệu có tùy chọn, nắm bắt liệu chậm ta có tùy chọn 2.3.2.2 Các kỹ thuật trích xuất liệu thời gian thực Nắm bắt liệu qua ghi giao dịch Tùy chọn sử dụng ghi giao dịch hệ quản trị sở liệu trì cho việc khơi phục có lỗi xảy Mỗi giao dịch thêm, cập nhật hay xóa ghi bảng sở liệu, hệ quản trị sở liệu sinh ghi log Nắm bắt thông qua trigger sở liệu Tùy chọn áp dụng cho hệ thống nguồn liệu sử dụng ứng dụng sở liệu Ta tạo trigger cho tất kiện mà ta cần nắm bắt Đầu trigger ghi vào tệp độc lập sử dụng để trích xuất liệu cho kho liệu việc tạo trì trigger suốt trình hệ thống nguồn tăng thêm chi phí tài nguyên thời gian hệ thống nguồn Nắm bắt ứng dụng nguồn Kỹ thuật xem nắm bắt liệu ứng dụng hỗ trợ Nói cách khác, ứng dụng nguồn thực để hỗ trợ cho việc nắm bắt liệu cho kho liệu Ta phải chỉnh sửa chương trình ứng dụng liên quan viết cho têp sở liệu nguồn 2.3.2.3 Các kỹ thuật trích xuất liệu chậm Nắm bắt dựa ngày tháng nhãn thời gian Mỗi ghi tạo cập nhật có thẻ đánh dấu nhãn biểu diễn ngày thời gian Nhãn thời gian cung cấp sở cho việc chọn ghi cho việc trích xuất Trích xuất cách so sánh tập tin Nếu kỹ thuật không khả thi cho tập tin nguồn cụ thể, kỹ thuật xem biện pháp cuối Kỹ thuật gọi 12 với tên khác kỹ thuật so sánh khác ảnh chụp so sánh ảnh chụp nguồn liệu 2.3.2.4 Đánh giá kỹ thuật trích xuất 2.4 Làm chuyển đổi liệu 2.4.1 Các nhiệm vụ chuyển đổi liệu Trích chọn Nhiệm vụ nằm phần đầu toàn q trình chuyển đổi Có thể tồn số ghi từ liệu nguồn Tách/Nhập Nhiệm vụ bao gồm loại thao tác liệu để thực việc chọn phần liệu nguồn Chuyển đổi chuẩn hóa liệu trích xuất từ nguồn khác tạo trường mà người dùng thể sử dụng hiểu Tổng hợp Khi việc lưu trữ liệu tổng hợp yêu cầu thay lưu trữ liệu mức thấp Làm giàu liệu: Nhiệm vụ xếp đơn giản hóa trường riêng biết để làm cho chúng trở nên hữu dụng cho kho liệu 2.4.2 Các kiểu chuyển đổi liệu - Sửa lại định dạng - Giải mã trường - Giá trị tính tốn giá trị thứ phát - Chia nhỏ trường đơn - Gộp thông tin - Chuyển đổi Bộ ký tự - Chuyển đổi đơn vị đo lường - Chuyển đổi thời gian - Tổng hợp - Cơ cấu lại khóa - Xóa ghi trùng 2.4.3 Tích hợp hợp liệu 2.4.3.1 Xác định thực thể chuyển đổi liệu Thực thể xuất nhiều hệ thống khác nhau, làm để tổng hơp nguồn mà không sợ bị trùng lặp hay bị thiếu 13 - Bước đầu tiên, tất gi, không phân biệt có trùng hay khơng, định danh - Bước thứ hai hợp ghi trùng cách định kỳ thông qua giải thuật tự động kiểm tra thủ cơng 2.4.3.2 Tích hợp nhiều nguồn liệu Vấn đề kết việc phần tử liệu có nhiều nguồn liệu Một giải pháp đơn giản đặt ưu tiên cho nguồn chọn nguồn có độ ưu tiên cao 2.4.4 Chuyển đổi thuộc tính chiều Trong phần xem xét loại thay đổi với thuộc tính chiều, phương pháp để xử lý loại thay đổi liệu chiều - Thay đổi loại sửa lỗi Các loại áp dụng cho kho liệu khơng cần giữ tính lịch sử - Loại thay đổi giữ tính lịch sử kho liệu - Loại thay đổi thay đổi dự kiến nơi người dùng cần có khả phân tích số liệu cách – có thay đổi, khơng thay đổi 2.5 Tải liệu 2.5.1 Các loại tải liệu Tải – tập hợp tất bảng kho liệu cho lần Tải bổ sung – áp dụng thay đổi cần thiết cách định kì Làm tươi tồn - xóa hồn tồn nội dung nhiều bảng tải lại với liệu ( Tải làm tươi tồn bộ) 2.5.1 Kỹ thuật quy trình tải liệu Có mơ hình tải liệu : Load, Append, Destructive Merge, Constructive Merge Load Nếu bảng mục tiêu tồn liệu tồn bảng, q trình tải xóa liệu có tải liệu từ tập tin đến Nếu bảng rỗng trước tải, tiến trình tải đơn giản tải liệu từ file đến Append Ta coi việc tải append giống mở rộng Load Nếu liệu tồn bảng, tiến trình append thêm vơ điều kiện liệu vào, giữ nguyên liệu có bảng mục tiêu Khi ghi trùng với ghi có, ta xác định cách xử lý liệu đẩy trùng Các ghi đầu vào cho phép thêm vào liệu trùng Trong trường hợp khác, ghi trùng đầu bị loại bỏ trình append 14 Destructive Merge Trong mơ hình này,ta tải liệu đầu vào vào bảng liệu đích Nếu khóa ghi đầu với giống khóa ghi có, cập nhật ghi đích tương ứng Nếu ghi đầu vào ghi khơng trùng khóa với ghi có, ghi thêm vào bảng liệu đích Constructive Merge Chế độ khác so với Destructive Merge Nếu khóa ghi trùng với khóa ghi có, để lại ghi này, thêm ghi đánh dấu ghi thêm ghi thay cho ghi cũ Cách áp dụng cho loại tải kho liệu *) Quy trình tải cho loại Tải ban đầu: Với lần chạy tải ban đầu ta sử dụng kiểu tải Load, sau tiếp tục với chế độ Append Tải gia tăng Các ứng dụng liên tục thay đổi theo hệ thống nguồn Vì vậy, ta cần phương pháp để nắm bắt chu kỳ thay đổi Nếu nhãn thời gian xem phần khóa nhãn thời gian, cấu trúc sử dụng để giữ chu kỳ tự nhiên thay đổi Sử dụng Constructive Merge Các ghi có xóa bỏ thay liệu Chế độ áp dụng cho bảng mục tiêu mà bảng mục tiêu lịch sử không quan trọng Sử dụng Destructive Merge Tải làm tươi toàn Loại ứng dụng liên quan đến định kỳ ghi lại tồn kho liệu Đơi khi, ta cần làm lại số bảng cụ thể Làm tươi phần bảng chiều gắn với bảng kiện 2.5.2 Làm tươi liệu cập nhât liệu Sau tải ban đầu, ta trì kho liệu cập nhật với phương thức: Cập nhật - ứng dụng cho liệu thay đổi hệ thống nguồn Làm tươi – tải lại toàn theo chu kỳ 2.5.3 Phương pháp tải với bảng chiều Trong kho liệu, ta sử dụng khóa sinh hệ thống Bản ghi hệ thống nguồn có khóa chúng Vì vậy, trước liệu nguồn đưa vào bảng chiều, cho dù tải ban đầu hay tải liệu thay đổi, khóa sản phẩm cần chuyển sang khóa hệ thống kho liệu Ta cần coi chuyển đổi khóa phần chức truyển đổi thực cách riêng biệt trước thực chức tải 15 2.5.4 Tải lịch sử tải gia tăng cho bảng kiện Khóa bảng kiện (bảng fact) tải kết hợp khóa bảng chiều Do nguyên nhân này, chi cho chiều liệu tải trước tiên Sau đó, trước tải liệu cho bảng kiện, ta phải tạo khóa kết nối cho bảng kiện tới khóa tương ứng bảng chiều CHƯƠNG XÂY DỰNG MODULE TRÍCH XUẤT DỮ LIỆU TRONG ETL 3.1 Yêu cầu toán 3.1.1 Mục tiêu toán Một số yêu cầu ứng dụng: - Đảm bảo tính đắn vè mặt số liệu so với hệ thống liệu nguồn, tuân thủ luật việc trích rút liệu - Ứng dụng phải đảm bảo tính mềm dẻo linh động nguồn liệu khác - Cho phép theo dõi cảnh báo thay đổi hệ thống liệu nguồn vấn đề xảy trình khai thác 3.1.2 Phạm vi nguồn liệu Hình 3.1 Mơ hình hệ thố ng liệu 16 - Dữ liệu tiêu thụ gọi SMS - Dữ liệu tiêu thụ Data ( 3G+GPRS) - Dữ liệu CDR - Dữ liệu LACCELL 3.2 Phân tích u cầu tốn 3.2.1 Kiến trúc ứng dụng Hình 3.2 Kiến trúc ứng dụng Với yêu cầu cho phép mở rộng để đưa liệu từ nguồn khác vào kho liệu hệ thống trích xuất liệu thiết kế để việc mở rộng l thuận tiện Ở phương thức kết nối bao gồm - Kết nối liệu từ hệ thống nguồn qua FTP, tệp có định dạng Excel FoxPro - Kết nối với liệu Oracle qua kết nối sở liệu (ODBC, OCI) 17 3.2.2 Dữ liệu đích Mơ hình kho liệu chun đề DATA_CALL Hình 3.3 Kho liệu chuyên đề DATA_CALL Chiều liệu LAC_CELL_DIM: Chiều liệu thơng tin vị trí cell BTS Chiều liệu CALL_TYPE_DIM: Chiều liệu thông tin kiểu Chiều liệu OWNER_DIM: Chiều liệu thông tin nhà mạng Chiều liệu PROVINCE_DIM: Chiều liệu thông tin tỉnh thành Chiều liệu ACTIVITY_TYPE_DIM: Chiều liệu thông tin kiểu giao dịch Chiều liệu TIME_CALENDAR_DIM: Chiều liệu thời gian Mô hình kho liệu chun đề DATA_MTA Mơ hình kho liệu chuyên đề CDR 18 3.2.3.Nguồn liệu 3.2.2.1 Dữ liệu từ hệ thống trả trước Nguồn liệu: Dữ liệu lưu trữ bảng liệu DATA_CALL_HISTORY, DATA_MTA hệ thống sở liệu Vinaphone sử dụng hệ quản trị sở liệu ORACLE Tần xuất trích xuất: Hàng ngày Cửa sổ thời gian: thời gian 2h-4h sáng Phương pháp trích xuất: Do ghi liệu gắn liền với thời gian kiểu trích xuất định kỳ Nắm bắt thay đổi liệu: Ở ta sử dụng phương pháp nắm bắt liệu chậm sử dụng ngày tháng nhãn thời gian Các luật trích xuất liệu: *) Nguồn liệu DATA_CALL_HISTORY - Chỉ lấy liệu thuộc dạng thoại hay SMS - Các ghi liệu lấy phải có thơng tin liệu loại tài khoản khác rỗng *) Nguồn liệu DATA_MTA - Các ghi liệu lấy phải có thơng tin liệu loại tài khoản khác rỗng Không lấy liệu có trường LOGIN_NAME = “CUONGNC” liệu trừ tiền từ hệ thống khác 19 Mơ hình hóa ánh xạ nguồn đích DataCallMapping DATA_CA LL_HISTORY SUSCRIBER _ID DATA_CA LL_HISTORY START_CA LL_DATE_ TIME SUSCRIBER _ID START_TIME DATA_CA LL_HISTORY END_CA LL_DATE_TI ME DATA_CA LL_HISTORY AC T I VI T Y _ T Y P E END _TIME DATA_CA LL_HISTORY (OLTP) DATA_CA LL_HISTORY CALLED _NUMB ER DATA_CA LL_HISTORY CELL_ID ACTIVITY_TYPE CA LLED _NUMBER CELL_ID LAC_ID DATA_CA LL_HISTORY B A L A N C E S _ I N F O Lọc: Chỉ lấy ghi thuộc loại Voice SMS A1_S A2_S A4_S A7_S Lọc: Chỉ lấy ghi có A 1_S+A2 _S+A4 _S+A7 _S0 (Có tiêu thụ TKC, TKKM,TKKM1,TKKM2) Hình 3.4 Mơ hình ánh x liệu DATA_CALL_HISTORY 3.2.2.2 Nguồn liệu từ hệ thống tính cước 3.2.2.3 Trích xuất liệu Lac-cell DATA_CA LL 20 3.3 Mơ hình hóa module trích xuất liệu với UML Xây dựng biểu đồ người sử dụng biểu đồ cho modul trích xuất liệu DS: Data Source W:Wrapper M:Monitor S:Source Identifier I: Integrator DSA: Data Staging Area 1: Get Connection W() 2: Extract Data W() 3: Get Data() 4: Install Data() 5: Get changes() 6: Get Connection M() 7: Check Data() 8: Get Data M() 9: Inform Integrator M() 10: Update data() 11: Identify new source() 12: Assign components() 13:Inform Integrator() Hình 3.5 Sơ đồ module trích xu ất liệu 21 3.4 Cài đặt thử nghiệm module trích xuất liệu 3.4.1 Xây dựng ứng dụng 3.4.2.Cài đặt thực thi ứng dụng 3.4.2.1 Cấu hình ứng dụng [ ] [[]] [] [[]] 3.4.2.2 Kết cài đặt với liệu thử nghiệm Hình 3.6 Giao diện module trích xu ất liệu 22 - Giao diện - Chức cấu hình tham số ánh xạ liệu - Cấu hình tham số đặt lịch trích xuất - Kết thử nghiệm trích xuất liệu CALL_HISTORY - Kết thử nghiệm trích xuất liệu CDR - Kết thử nghiệm trích xuất liệu MTA Kết luận chương Trong chương ba học viên thiết kế mơ hình triển khai hệ thống thử nghiệm, xây dựng thiết kế module trích xuất việc áp lý thuyết trích xuất liệu chương hai vào trường hợp liệu cụ thể Bên cạnh số hạn chế việc xử lý số loại thông tin cụ thể với số hạn chế loại tổ chức liệu đầu vào Từ việc phân tích hạn chế đó, học viên đề xuất, phân tích thiết kế xây dựng phát triển chương trình với loại số liệu khác linh động với tổ chức liệu đầu vào, tiếp tục phát triển module chuyển đổi tải liệu để tạo cơng cụ ETL hồn chỉnh 23 KẾT LUẬN Luận văn nghiên cứu “NGHIÊN C ỨU QUY TRÌNH ETL TRONG KHO D Ữ LI Ệ U ỨNG D Ụ NG VÀO HỆ TH Ố NG D Ữ LI Ệ U KINH DOANH TRONG DOANH NGHIỆ P VI Ễ N THÔNG” hồn thành Phân tích cơng nghệ, cấu trúc, kiến trúc, công cụ để xây dựng công cụ ETL phục vụ cho việc xây dựng kho liệu Tìm hiểu phương pháp, kỹ thuật trích xuất, chuyển đổi, tải áp dụng với loại liệu, với trường hợp cụ thể để mang lại hiệu cao cho hệ thống ETL Thực xây dựng kho liệu thử nghiệm từ hệ thống nguồn liệu kinh Vinaphone Tuy nhiên thời gian thực luận văn có giới hạn nên luận văn dừng lại với việc xây dựng module trích xuất áp dụng cho số nguồn liệu đơn vị Kết thu khả quan, hệ thống cho phép trích xuất liệu từ nguồn liệu với khuôn dạng khác Oracle, FoxPro, Excel Kết cho thấy áp dụng hệ thống cho hệ thống thực tế trình triển khai Trong tương tai học viên đề xuất phát triển tiếp module chuyển đổi module tải liệu để tạo mơt hệ thống ETL hồn chỉnh phục vụ cho việc xây dựng kho liệu không lĩnh vực viễn thông mà nhiều lĩnh vực khác Qua đó, khẳng định xây dựng hệ thống ETL cho việc xây dựng hệ thống liệu kinh doanh doanh nghiệp cần thiết doanh nghiệp Việc hiểu tầm quan trọng phương pháp xây dựng hệ thống ETL đóng vai trị định việc xây dựng cho hệ thống kho liệu nói riêng hệ thống dựa tảng kho liệu nói chung 24 TÀI LIỆU THAM KHẢO [1] Arktos : towards the modeling, design, control and execution of ETL processes, Panos Vassiliadis*, Zografoula Vagena, Spiros Skiadopoulos, Nikos Karayannidis, Timos Sellis, 2001 [2] A UML Based Approach for Modeling ETL Processes in Data Warehouses, Juan Trujillo and Sergio Luj´n-Moraa, Dept de Lenguajes y Sistemas Inform´ticosa Universidad de Alicante (Spain) [3] Building the Data Warehouse, W.H.Inmon, Copyright © 2005 John Wiley & Sons, Inc [4] Conceptual Modeling for ETL Processes, Panos Vassiliadis, Alkis Simitsis, Spiros Skiadopoulos [5] Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals Paulraj Ponniah, Copyright © 2001 John Wiley & Sons, Inc [6] Data Cleaning: Problems and Current Approaches, Erhard Rahm *, Hong Hai Do, University of Leipzig, Germany [7] The Data Warehouse ETL Toolkit Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data, Ralph Kimball, Joe Caserta [8] Hierarchical Approach to Data Extraction using UML 2.0, Payal Pahwa1, Geetika Chaudhary, Khyati Jain, Neha Sharma and Ruchira Gupta ... định thành bại kho liệu [6] Với mục đích nghiên cứu trình ETL việc xây dựng kho liệu, chọn đề tài ? ?Nghiên cứu quy trình ETL kho liệu ứng dụng vào hệ thống liệu kinh doanh doanh nghiệp viễn thơng... trúc kho liệu Mơ hình kiến trúc hệ thống kho liệu gồm có ba thành phần: Dữ liệu nguồn, vùng liệu trung gian kho liệu Hình 1.1 Kiến trúc kho liệu 1.1.3.1 Kho liệu chủ đề (Datamart) Kho liệu chủ... hóa 1.2 ETL vai trò ETL kho liệu 1.2.1 Khái niệm ETL Hệ thống ETL (Extract-Transform-Load) tảng kho liệu Một hệ thống ETL thiết kế cho việc trích xuất liệu từ hệ thống nguồn, chuyển đổi liệu đảm