Trích xuất dữ liệu

Một phần của tài liệu Nghiên cứu giải pháp kho dữ liệu trong Oracle data warehouse 10g và áp dụng trong bài toán xây dựng kho dữ liệu khách hàng, ngân hàng TMCP Tiên Phong (Trang 35 - 36)

Trích xuất dữ liệu là thao tác lấy dữ liệu từ nguồn để sử dụng cho DWH. Đây là bước đầu tiên của quá trình ETL. Sau khi trích xuất, dữ liệu có thể được biến đổi và

được tải vào trong DWH.

Nguồn dữ liệu cho việc trích xuất có thể rất phức tạp hoặc không được lập tài liệu đầy đủ, do vậy, quá trình xác định dữ liệu nào được trích xuất là khó khăn. Thiết kế tiến trình trích xuất dữ liệu chúng ta quan tâm tới hai vấn đề sau:

1. Thứ nhất: Lựa chọn phương thức trích xuất. Điều này gây ảnh hưởng tới nguồn dữ liệu, tiến trình truyền và thời gian làm tươi DWH.

2. Thứ hai: Cung cấp dữ liệu đã được trích xuất như thế nào để sử dụng trong tương lai. Điều này ảnh hưởng tới phương thức truyền, cũng như nhu cầu làm sạch và biến đổi dữ liệu.

Việc đánh giá lựa chọn phương pháp trích xuất dữ liệu phụ thuộc vào nguồn dữ

liệu và nghiệp vụ cụ thể. Có những phương pháp logic và vật lý giúp cụ thể hơn việc trích xuất dữ liệu từ nguồn.

1. Phương pháp logic:

• Trích xuất đầy đủ: Lấy ra tất cả dữ liệu đang có tại nguồn. Ví dụ như thao tác lấy tất cả dữ liệu ra từ một bảng. Khi trích xuất đầy đủ, sẽ không cần thao tác lần vết theo sự thay đổi kể từ lần trích xuất thành công cuối cùng. Thao tác này được thực hiện với trích xuất tăng.

• Trích xuất tăng: Là trích xuất dữ liệu đã có sự thay đổi kể từ một thời điểm cụ

thể nào đó trong quá khứđược lưu lại, như là thời điểm trích xuất dữ liệu gần nhất, hay là ngày đặt hàng cuối cùng của một kỳ tài chính.

Để nhận biết được những thay đổi này cần có một cơ chếđể đánh dấu dữ liệu đã có sự thay đổi sau thời điểm đó (thời điểm trích xuất dữ liệu trước đó).

Nhiều DWH không sử dụng phương pháp bắt những dữ liệu đã có sự thay đổi, thay vào đó là kỹ thuật so sánh toàn bộ các bảng được trích xuất với bảng đã được trích xuất trước đó từ nguồn để nhận dạng dữ liệu có sự thay đổi. Tuy nhiên, với bảng lớn thì phép toán này sẽ rất tốn tài nguyên hệ thống. Oracle hỗ trợ cơ chế Oracle's Change Data Capture (CDC) giúp ghi nhận và bảo trì những thay đổi của dữ liệu.

2. Phương pháp vật lý:

• Trích xuất trực tuyến: Dữ liệu được trích xuất trực tiếp từ nguồn. Tiến trình trích xuất có thể kết nối trực tiếp tới nguồn để lấy dữ liệu hoặc qua một hệ

thông trung gian nào đó đã lưu sẵn dữ liệu theo cách tổ chức đã được cấu hình từ trước.

• Trích xuất ngoại tuyến: Dữ liệu được lấy từ nguồn lưu trữ dạng ngoại tuyến như các tệp tin phẳng hay các tệp tin kết xuất, các không gian lưu trữ dữ liệu có thể trao đổi.

Một phần của tài liệu Nghiên cứu giải pháp kho dữ liệu trong Oracle data warehouse 10g và áp dụng trong bài toán xây dựng kho dữ liệu khách hàng, ngân hàng TMCP Tiên Phong (Trang 35 - 36)