Có 2 cách để triển khai ETL dữ liệu (W.H. Inmon, 2002):
- ETL (Extract, Transform và Load): đây là cách truyền thống khi ETL dữ liệu, dữ liệu được lấy từ nguồn và được chuyển đến khu vực riêng để chuyển đổi trước khi được chuyển đến kho dữ liệu.
- ELT (Extract, Load và Transform): Dữ liệu được lấy từ hệ thống nguồn và được chuyển về kho dữ liệu, tại đây dữ liệu sẽ được chuyển đổi để có giá trị phân tích. Mọi người thường xử dụng phương pháp ELT khi họ có hệ quản trị cơ sở lớn đủ để lưu trữ lượng dữ liệu khổng lồ, được gọi là MPP (Massively Parallel Processing). MPP là một tập hợp các máy chủ,mỗi máy chủ đều có bộ nhớ, bộ xử lý, ổ đĩa riêng giúp tăng tốc độ xử lý và lưu trữ dữ liệu.
Khóa lu n t t nghi pậ ố ệ 2.5.3 Cách tiếp cập ETL Data' Data' Push Triggers Source System Source System Source System Source System Export Push Log Reader ETL Hình 2.11: Cách tiếp cận ETL
- Cách 1: Đây là cách phổ biến nhất để lấy dữ liệu. Bằng cách kết nối với cơ sở dữ liệu và thực câu truy vấn để lấy dữ liều.
- Cách 2: Tạo trigger ở các bảng nguồn. Cách trigger là tập hợp các câu lệnh sẽ được kích hoạt khi bảng nguồn có những thay đổi, dữ liệu thay đổi sẽ được lấy ra và lưu trữ tại một bảng khác.
- Cách 3: Lên kế hoạch để tự động trích xuất dữ liệu từ bảng nguồn, dữ liệu được trích xuất vẫn nằm trong hệ thống nguồn.
- Cách 4: Bằng cách đọc nhật kí ghi lại các thay đổi ở dữ liệu nguồn, để trích xuất các dữ liệu bị thay đổi và lưu trữ ở một nơi khác.
2.5.4 Giới thiệu công cụ ETL và tạo báo cáo
2.5.4.1 Giới thiệu Talend Open Studio a) Giới thiệu chung
Vào tháng 10 năm 2006, Talend đã cho ra mắt sản phẩm đầu tiên của mình. Talend Open Studio (TOS) là một cơng cụ ETL mã nguồn mở miễn phí để tích hợp dữ liệu và Big Data. Nó hỗ trợ các cơng ty đưa ra quyết định trong thời gian thực dựa trên dữ liệu chính xác hơn bằng việc cung cấp các giải pháp trích xuất, chuyển đổi và tích hợp dữ
Biểu tưởng Tác dụng
tMap 0⅛ tMap biến đổi và địnhtuyến dữ liệu từ một hoặc nhiều nguồn đến một hoặc nhiều đích.
Khóa lu n t t nghi pậ ố ệ
liệu. Nó là một cơng cụ phát triển và thiết kế công việc dựa trên nên tảng Eclipse. TOS cung cấp cho người dùng môi trường đồ họa ,giúp người dùng dễ dàng sử dụng để ánh xạ dữ liệu từ nguồn tới hệ thống đích. Tất cả những gì người dùng cần làm là kéo và thả các thành phần cần thiết từ bảng thành phần vào khơng gian làm việc, cấu hình chúng và cuối cùng kết nối chúng lại với nhau. Nó thậm chí cịn cung cấp cho người dùng một kho lưu trữ siêu dữ liệu từ đó bạn có thể dễ dàng sử dụng lại và tái mục đích cơng việc của mình. Điều này chắc chắn sẽ giúp người dùng tăng hiệu quả và năng suất theo thời gian. Công cụ sẽ tự động tạo mã Java cho công việc và bạn không cần phải viết một dịng mã.
Hinh 2.12: Màn hình làm việc của Talend Open Studio
Một số các các đặc điểm của TOS:
- Cung cấp tất cả các tính năng cần thiết để tích hợp và đồng bộ hóa dữ liệu với 900
thành phần, trình kết nối tích hợp, tự động chuyển đổi công việc sang mã Java và nhiều hơn nữa.
- Có nhiều tùy chọn để kết nối với Nguồn dữ liệu như: SQL server,Oracle,
Postgressql, RDBMS, Excel, hệ sinh thái Dữ liệu lớn SaaS... cũng như các ứng
Lê Th Thu Trangị 37
Khóa lu n t t nghi pậ ố ệ
dụng và công nghệ như SAP, CRM, Dropbox và nhiều hơn nữa.. Sử dụng Talend, việc xử lý dữ liệu trở nên dễ truy cập hơn, chất lượng của nó được nâng cao và được chuyển đến các hệ thống đích một cách nhanh chóng.
- Cơng cụ này hồn tồn miễn phí, do đó tiết kiệm chi phí cho tổ chức.
- Trong 12 năm qua, nhiều tổ chức khổng lồ đã áp dụng TOS để tích hợp dữ liệu, cho thấy yếu tố tin cậy rất cao trong cơng cụ này.
- Cộng đồng Talend để tích hợp dữ liệu rất tích cực.
- Talend tiếp tục thêm các tính năng cho các cơng cụ này và các tài liệu hướng dẫn được trình bày rõ ràng và rất dễ theo dõi.
tDBInput
tDBInput kết nối với dữ liệu nguồn và lấy dữ liệu dựa theo câu truy vấn tạo bởi người dùng
tDBOutput tDBOutput kết nối với dữ
liệu đích.
tLogRow tLogRow hiển thị kết quả
tAggregateRow Eg tAggregateRow nhận một
luồng dữ liệu và tổng hợp nó dựa trên một hoặc nhiều cột với các điều kiện tính tốn khác như:max, min, count,sum...
tUniqRow P tUniqRow so sánh các mục
và sắp xếp các mục trùng lặp từ luồng đầu vào để đảm bảo chất lượng dữ liệu của luồng đầu vào hoặc đầu ra khi thực hiện “job”
tConvertType *3*
Lf3 tConvertType chuyển đổi dữ liệu giữa nguồn và đích cho phù hợp.
Lê Th Thu Trangị 38
Bảng 2.2: Các thành phần thường dùng trong Talend Open Studio
2.5.4.2 Tableau
Tableau là một phần mềm được sử dụng cho Data Science và Business Intelligence thơng qua việc trực quan hóa dữ liệu. Tableau có thể tạo ra các hình ảnh trực quan khác nhau để trình bày tương tác dữ liệu và giới thiệu thơng tin chi tiết. Phần mềm đi kèm với các công cụ cho phép đi sâu vào dữ liệu và có thể dễ dàng hiểu được bởi bất kỳ cá nhân nào. Tableau cũng đi kèm với khả năng phân tích dữ liệu thời gian thực và hỗ trợ đám mây. Cơng việc chính của phần mềm Tableau là kết nối và trích xuất dữ liệu được lưu trữ ở nhiều nơi khác nhau. Nó có thể kéo và trích xuất dữ liệu từ bất kỳ cơ sở dữ liệu nào, ví dụ là Excel, PDF, Oracle hoặc thậm chí là Amazon Web Services. Dưới đây là nhưng lợi ích mà Tableau đem lại cho người dùng
Khóa lu n t t nghi pậ ố ệ
- Tableau giảm gánh nặng cho nhóm CNTT bằng cách cho phép người dùng thực hiện các phân tích có ý nghĩa, xây dựng bảng điều khiển tương tác với ít hỗ trợ kỹ thuật hơn so với các công cụ truyền thống. Tableau là một cách để mở rộng tần suất, độ sâu và sự đa dạng của dữ liệu được sử dụng trong tổ chức.
- Các khả năng phân tích trực quan của Tableau rất dễ sử dụng và trình bày các bộ dữ liệu lớn và chi tiết hiệu quả hơn các công cụ báo cáo kế thừa và báo cáo bảng tính. Tableau chuyển đổi thông tin thống kê phi cấu trúc thành các kết quả logic tồn diện, có đầy đủ chức năng, tương tác và bảng điều khiển hấp dẫn và có sẵn trong một số loại đồ họa và dễ sử dụng trong các vấn đề kinh doanh.
- Hiệu suất làm việc cao và khả năng kết nối với nhiều nguồn dữ liệu như: HADOOP, SAP và các hệ quản trị cơ sở dữ liệu khác: Oracle, SQL server, Postgresql... giúp cải thiện chất lượng phân tích dữ liệu và cho phép tạo một bảng điều khiển thông tin, thống nhất. Bảng điều khiển như vậy cấp quyền truy cập vào thông tin cần thiết cho bất kỳ người dùng nào.
- Cộng đồng người sử dụng Tableau đông đảo, chất lượng. Người sử dụng có thể nâng cao kiến thức về phân tích dữ liệu và báo cáo và nhận được nhiều thơng tin hữu ích trong cộng đồng này.
- Thân thiện với thiết bị di động, Tableau có một ứng dụng di động hiệu quả dành cho iOS và Android. Nó bổ sung tính di động cho người dùng Tableau và cho phép họ giữ số liệu thống kê trong tầm tay, cũng như hỗ trợ đầy đủ chức năng mà phiên bản máy tính để bàn và trực tuyến.
2.6 Kinh doanh thơng minh
2.6.1 Giới thiệu kinh doanh thông minh (Business Intelligence)
Trên nền tảng kho dữ liệu tập trung, hệ thống báo cáo phân tích thơng minh (Business Intelligence, BI) cung cấp khả năng hiện thực báo cáo trực quan, linh hoạt, phục vụ cơng tác phân tích dữ liệu từ tổng hợp đến chi tiết, quan sát đa chiều thông tin; cung cấp khả năng tự tạo báo cáo cho người sử dụng.
Khóa lu n t t nghi pậ ố ệ
2.6.2 Kiến trúc kinh doanh thông minh (Business Intelligence)
Hình 2.13: Kiến trúc kinh doanh thơng minh
Các thành phần trong kinh doanh thông minh được chia làm hai quy trình:
- Quy trình 1: Lấy dữ liệu bao gồm các quy trình và cơ sở dữ liệu liên quan đến việc
lấy dữ liệu từ các hệ thống nguồn, tích hợp nó, làm sạch và đưa vào cơ sở dữ liệu để dễ sử dụng. Các thành phần của CIF là:
+ Cơ sở dữ liệu hệ thống vận hành (hệ thống nguồn) chứa dữ liệu được sử
dụng để điều hành công việc hàng ngày của công ty. Đây là nguồn dữ liệu chính cho mơi trường hỗ trợ quyết định.
+ Kho dữ liệu là kho lưu trữ tích hợp, chi tiết, dữ liệu lịch sử để hỗ trợ ra quyết định chiến lược.
+ Kho dữ liệu vận hành là tập hợp các dữ liệu hiện tại, tích hợp, chi tiết để hỗ
trợ cho việc ra quyết định chiến thuật.
Khóa lu n t t nghi pậ ố ệ
+ Thu thập dữ liệu là một tập hợp các quy trình và chương trình trích xuất dữ
liệu vào kho dữ liệu và lưu trữ dữ liệu vận hành từ các hệ thống vận hành. Các chương trình thu thập dữ liệu thực hiện việc làm sạch cũng như tích hợp dữ liệu và chuyển đổi thành định dạng mà doanh nghiệp cần. Ngồi các chương trình chuyển đổi và làm sạch dữ liệu, lớp thu thập dữ liệu cũng bao gồm các quy trình và chương trình kiểm tốn và kiểm sốt để đảm bảo tính tồn vẹn của dữ liệu khi vào kho dữ liệu hoặc lưu trữ dữ liệu vận hành.
- Quy trình 2: Lấy thơng tin bao gồm các quy trình và cơ sở dữ liệu phục vụ mục đích tạo báo cáo cho nhà phân tích kinh doanh cấp cao.
+ Các dữ liệu là các dẫn xuất từ kho dữ liệu được sử dụng để cung cấp cho doanh nghiệp quyền truy cập vào các loại phân tích chiến lược khác nhau.
+ Phân phối dữ liệu là quá trình di chuyển dữ liệu từ kho dữ liệu vào dữ liệu và
hoạt động. Giống như lớp thu thập dữ liệu, nó tác động lên dữ liệu khi nó di chuyển nó.
2.6.3 Các tính năng đặc trưng khi kết hợp kho dữ liệu và báo cáo thông minh:
- Kho dữ liệu tập trung chủ đạo: Mơ hình dữ liệu cung cấp tập hợp bao gồm toàn bộ các thực thể và thuộc tính thu giữ dữ liệu từ tất cả các hệ thống nguồn và quy trình kinh doanh cho tất cả các mảng sản xuất kinh doanh, cung cấp dịch vụ của tổ chức. DWH xây dựng dùng mơ hình dữ liệu này sẽ làm việc như nguồn dữ liệu chính của hệ thống báo cáo phục vụ tổ chức.
- Duy trì dữ liệu lịch sử với dấu vết cho công tác báo cáo và phân tích: Khả năng lưu giữ dữ liệu lịch sử để phân tích, kiểm tra và so sánh với các giai đoạn trước đó nhằm phân tích xu hướng và lập mơ hình dự đốn.
- Nền tảng cơng nghệ DWH có khả năng mở rộng để lưu trữ lượng lớn dữ liệu với hiệu suất tối ưu.
Khóa lu n t t nghi pậ ố ệ
- Khả năng đảm bảo tăng trưởng khối lượng dữ liệu: Giải pháp có thể mềm dẻo đáp ứng tăng trưởng của độ lớn dữ liệu do sự tăng lên của số lượng giao dịch và thêm vào các nguồn dữ liệu mới.
- Lưu trữ dữ liệu đến mức chi tiết nhất: Dữ liệu trong DWH sẽ được giữ tại mức chi tiết nhất. Các chi tiết dữ liệu này có thể được cuộn lên các mức cao hơn bằng cách dùng nhiều chiều khác.
- Thời gian đáp ứng thông tin nhanh: Giải pháp có thể tối ưu hiệu suất và sẽ có thể điều chỉnh các tham số hiệu suất sau khi phân tích các yêu cầu tại mức thấp nhất
- Self service BI (Tự phục vụ): Cơng cụ phân tích và BI, hỗ trợ self service BI tồn hệ thống. Thơng qua Self service BI, người dùng hệ thống được trao quyền chủ động, tự khai thác dữ liệu đã được xây dựng theo mơ hình để phục vụ nhu cầu thơng tin của mình nhằm đáp ứng các yêu cầu nghiệp vụ, kinh doanh. Self service BI cũng giúp giảm tải cho đội ngũ làm CNTT tại đơn vị.
- Cung cấp dữ liệu sạch và nhất quán: Giải pháp sẽ gồm các tiến trình quản trị dữ liệu cần thiết và cơng cụ để giảm chi phí cũng như độ phức tạp khi truy cập nguồn và làm sạch dữ liệu.
- Đáp ứng yêu cầu tăng trưởng của việc chuyển giao thông tin: DWH sẽ tổ chức xung quanh các chủ đề riêng biệt, sẵn sàng điều chỉnh mềm dẻo và mở rộng theo nhu cầu tương lai của doanh nghiệp.
- Tích hợp với các nguồn/ứng dụng khác: Giải pháp gồm một mơ hình dữ liệu cung cấp tập tồn diện các thực thể và thuộc tính có thể thu giữ dữ liệu từ nhiều hệ thống nguồn giao dịch trực tuyến và tiến trình kinh doanh tại mảng các ứng dụng then chốt của doanh nghiệp. Mơ hình dữ liệu này có thể dùng như vùng lưu trữ dữ liệu kết quả cho các động cơ và tiến trình tương tự cung cấp bởi các đối tác khác, hoặc các giải pháp tự xây dựng.
- Phân tích đa chiều: Giải pháp cho phép chọn nhiều chiều dữ liệu từ kho dữ liệu phục vụ cho mục đích tạo báo cáo phân tích.
Khóa lu n t t nghi pậ ố ệ
- Khả năng đào sâu đến mức chi tiết thấp nhất: Giải pháp hoàn toàn tuân thủ theo bản chất chi tiết của các thành phần dữ liệu để có thể đào xuống mức chi tiết thấp nhất.
- Báo cáo hoạt động hiệu quả mà không cần truy cập ứng dụng nguồn: Giải pháp sẽ lưu trữ dữ liệu hoạt động để có thể Báo cáo hoạt động hiệu quả mà không cần truy cập ứng dụng nguồn
- Hỗ trợ khai phá dữ liệu và các phân tích cao cấp trong tương lai.
2.7 Phân tích yêu cầu người dùng
- Yêu cầu của trưởng phòng tại EVNNPC.CC
+ Tình trạng hoạt động của EVNNPC.CC theo thời gian. + Tình trạng xử lý phiếu theo dịch vụ theo thời gian.
+ Tình trạng xử lý phiếu theo các đơn vị ở cấp công ty điện lực cấp huyện trực
ở 27 tỉnh thành miền Bắc theo thời gian.
- Yêu cầu của giám đốc tại EVNNPC.CC
+ Tổng quan tình hình xử lý phiếu ở các cơ quan cấp công ty điên lực các tỉnh
thuộc 27 tỉnh thành miền Bắc theo thời gian.
+ Tình trạng xử phiếu theo loại dịch vụ theo thoi gian.
+ Tình hình quá hạn xử lý theo trạng thái phiếu yêu cầu ở các loại dịch vụ theo thời gian.
Khóa lu n t t nghi pậ ố ệ
KẾT LUẬN CHƯƠNG 2
Chương 2 trình bày tổng quan lý thuyết về kho dữ liệu, khái niệm về kho dữ liệu được tổng hợp từ nhiều nguồn. Sau đó nêu được các đặc điểm, mục đích và lợi ích của kho dữ liệu. Bên cạnh đó tìm hiểu về hệ thống tích hợp dữ liệu, rút trích dữ liệu, biến đổi dữ liệu và nạp dữ liệu vào kho dữ liệu. Phân tích các mơ hình tiếp cận ETL. Tiếp theo, khóa luận trình bày về cơng cụ tạo báo cáo, để khai thác dữ liệu, phân tích và dự báo giá. Cuối cùng, mô tả các đối tượng sử dụng BI, phân tích nghiệp vụ của BI User.
Khóa lu n t t nghi pậ ố ệ
CHƯƠNG 3: TRIỂN KHAI VÀ XÂY DỰNG KHO DỮ LIỆU3.1 Giới thiệu chung quy trình xử lý phiếu yêu cầu tại EVNNPC.CC 3.1 Giới thiệu chung quy trình xử lý phiếu yêu cầu tại EVNNPC.CC
Quy trình xử lý phiếu yêu cầu tại EVNNPC.CC bao gồm 3 giai đoạn: tiếp nhận,