CHƯƠNG 1 : TỔNG QUAN VỀ BÀI TOÁN NGHIÊN CỨU
2.5 Giới thiệu về ETL
2.5.4 Giới thiệu công cụ ETL và tạo báo cáo
2.5.4.1 Giới thiệu Talend Open Studio a) Giới thiệu chung
Vào tháng 10 năm 2006, Talend đã cho ra mắt sản phẩm đầu tiên của mình. Talend Open Studio (TOS) là một cơng cụ ETL mã nguồn mở miễn phí để tích hợp dữ liệu và Big Data. Nó hỗ trợ các cơng ty đưa ra quyết định trong thời gian thực dựa trên dữ liệu chính xác hơn bằng việc cung cấp các giải pháp trích xuất, chuyển đổi và tích hợp dữ
Biểu tưởng Tác dụng
tMap 0⅛ tMap biến đổi và địnhtuyến dữ liệu từ một hoặc nhiều nguồn đến một hoặc nhiều đích.
Khóa lu n t t nghi pậ ố ệ
liệu. Nó là một cơng cụ phát triển và thiết kế công việc dựa trên nên tảng Eclipse. TOS cung cấp cho người dùng môi trường đồ họa ,giúp người dùng dễ dàng sử dụng để ánh xạ dữ liệu từ nguồn tới hệ thống đích. Tất cả những gì người dùng cần làm là kéo và thả các thành phần cần thiết từ bảng thành phần vào khơng gian làm việc, cấu hình chúng và cuối cùng kết nối chúng lại với nhau. Nó thậm chí cịn cung cấp cho người dùng một kho lưu trữ siêu dữ liệu từ đó bạn có thể dễ dàng sử dụng lại và tái mục đích cơng việc của mình. Điều này chắc chắn sẽ giúp người dùng tăng hiệu quả và năng suất theo thời gian. Công cụ sẽ tự động tạo mã Java cho cơng việc và bạn khơng cần phải viết một dịng mã.
Hinh 2.12: Màn hình làm việc của Talend Open Studio
Một số các các đặc điểm của TOS:
- Cung cấp tất cả các tính năng cần thiết để tích hợp và đồng bộ hóa dữ liệu với 900
thành phần, trình kết nối tích hợp, tự động chuyển đổi cơng việc sang mã Java và nhiều hơn nữa.
- Có nhiều tùy chọn để kết nối với Nguồn dữ liệu như: SQL server,Oracle,
Postgressql, RDBMS, Excel, hệ sinh thái Dữ liệu lớn SaaS... cũng như các ứng
Lê Th Thu Trangị 37
Khóa lu n t t nghi pậ ố ệ
dụng và công nghệ như SAP, CRM, Dropbox và nhiều hơn nữa.. Sử dụng Talend, việc xử lý dữ liệu trở nên dễ truy cập hơn, chất lượng của nó được nâng cao và được chuyển đến các hệ thống đích một cách nhanh chóng.
- Cơng cụ này hồn tồn miễn phí, do đó tiết kiệm chi phí cho tổ chức.
- Trong 12 năm qua, nhiều tổ chức khổng lồ đã áp dụng TOS để tích hợp dữ liệu, cho thấy yếu tố tin cậy rất cao trong công cụ này.
- Cộng đồng Talend để tích hợp dữ liệu rất tích cực.
- Talend tiếp tục thêm các tính năng cho các cơng cụ này và các tài liệu hướng dẫn được trình bày rõ ràng và rất dễ theo dõi.
tDBInput
tDBInput kết nối với dữ liệu nguồn và lấy dữ liệu dựa theo câu truy vấn tạo bởi người dùng
tDBOutput tDBOutput kết nối với dữ
liệu đích.
tLogRow tLogRow hiển thị kết quả
tAggregateRow Eg tAggregateRow nhận một
luồng dữ liệu và tổng hợp nó dựa trên một hoặc nhiều cột với các điều kiện tính tốn khác như:max, min, count,sum...
tUniqRow P tUniqRow so sánh các mục
và sắp xếp các mục trùng lặp từ luồng đầu vào để đảm bảo chất lượng dữ liệu của luồng đầu vào hoặc đầu ra khi thực hiện “job”
tConvertType *3*
Lf3 tConvertType chuyển đổi dữ liệu giữa nguồn và đích cho phù hợp.
Lê Th Thu Trangị 38
Bảng 2.2: Các thành phần thường dùng trong Talend Open Studio
2.5.4.2 Tableau
Tableau là một phần mềm được sử dụng cho Data Science và Business Intelligence thơng qua việc trực quan hóa dữ liệu. Tableau có thể tạo ra các hình ảnh trực quan khác nhau để trình bày tương tác dữ liệu và giới thiệu thông tin chi tiết. Phần mềm đi kèm với các công cụ cho phép đi sâu vào dữ liệu và có thể dễ dàng hiểu được bởi bất kỳ cá nhân nào. Tableau cũng đi kèm với khả năng phân tích dữ liệu thời gian thực và hỗ trợ đám mây. Cơng việc chính của phần mềm Tableau là kết nối và trích xuất dữ liệu được lưu trữ ở nhiều nơi khác nhau. Nó có thể kéo và trích xuất dữ liệu từ bất kỳ cơ sở dữ liệu nào, ví dụ là Excel, PDF, Oracle hoặc thậm chí là Amazon Web Services. Dưới đây là nhưng lợi ích mà Tableau đem lại cho người dùng
Khóa lu n t t nghi pậ ố ệ
- Tableau giảm gánh nặng cho nhóm CNTT bằng cách cho phép người dùng thực hiện các phân tích có ý nghĩa, xây dựng bảng điều khiển tương tác với ít hỗ trợ kỹ thuật hơn so với các cơng cụ truyền thống. Tableau là một cách để mở rộng tần suất, độ sâu và sự đa dạng của dữ liệu được sử dụng trong tổ chức.
- Các khả năng phân tích trực quan của Tableau rất dễ sử dụng và trình bày các bộ dữ liệu lớn và chi tiết hiệu quả hơn các công cụ báo cáo kế thừa và báo cáo bảng tính. Tableau chuyển đổi thơng tin thống kê phi cấu trúc thành các kết quả logic tồn diện, có đầy đủ chức năng, tương tác và bảng điều khiển hấp dẫn và có sẵn trong một số loại đồ họa và dễ sử dụng trong các vấn đề kinh doanh.
- Hiệu suất làm việc cao và khả năng kết nối với nhiều nguồn dữ liệu như: HADOOP, SAP và các hệ quản trị cơ sở dữ liệu khác: Oracle, SQL server, Postgresql... giúp cải thiện chất lượng phân tích dữ liệu và cho phép tạo một bảng điều khiển thông tin, thống nhất. Bảng điều khiển như vậy cấp quyền truy cập vào thông tin cần thiết cho bất kỳ người dùng nào.
- Cộng đồng người sử dụng Tableau đơng đảo, chất lượng. Người sử dụng có thể nâng cao kiến thức về phân tích dữ liệu và báo cáo và nhận được nhiều thơng tin hữu ích trong cộng đồng này.
- Thân thiện với thiết bị di động, Tableau có một ứng dụng di động hiệu quả dành cho iOS và Android. Nó bổ sung tính di động cho người dùng Tableau và cho phép họ giữ số liệu thống kê trong tầm tay, cũng như hỗ trợ đầy đủ chức năng mà phiên bản máy tính để bàn và trực tuyến.