1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU PENTAHO SOLUTIONS VÀ ỨNG DỤNG

80 1K 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 1,59 MB

Nội dung

Data warehouse là 1 cơ sở dữ liệu có cấu trúc đa chiều, gồm Data Warehouse trung tâm và nhiều Data Mart liên kết với nhau và có các đặc điểm là hướng chủ đề,dữ liệu được tổng hợp sẽ khôn

Trang 1

TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HCM

KHOA CÔNG NGHỆ THÔNG TIN

LUẬN VĂN TỐT NGHIỆP TÌM HIỂU PENTAHO SOLUTIONS

VÀ ỨNG DỤNG

Ngành : Công Nghệ Thông Tin Niên khoá : 2006-2010

Lớp : DH06DTM Sinh viên thực hiện : Quảng Trí Nguyên

06130057

Trang 2

TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HCM

KHOA CÔNG NGHỆ THÔNG TIN

TÌM HIỂU PENTAHO SOLUTIONS

VÀ ỨNG DỤNG

06130057

TP.HỒ CHÍ MINH, tháng 9 năm 2010

Trang 3

LỜI CẢM ƠN

Lời đầu tiên em xin chân thành bày tỏ lòng cảm ơn và kính trọng sâu sắc đối với

thầy, thạc sĩ Nguyễn Đức Công Song, người đã tận tình hướng dẫn em trong suốt

quá trình hoàn thành Luận văn này Thầy đã mở ra cho em những vấn đề khoa học rất lý thú, hướng em vào nghiên cứu các lĩnh vực hết sức thiết thực và vô cùng bổ ích, đồng thời tạo điều kiện thuận lợi cho em học tập và nghiên cứu Em đã học hỏi được rất nhiều ở Thầy phong cách làm việc, cũng như phương pháp nghiên cứu khoa học… Em luôn được Thầy cung cấp các tài liệu, các chỉ dẫn hết sức quý báu khi cần thiết trong suốt thời gian thực hiện luận văn Có những lúc cần thiết bị để thực hành thầy luôn sẵn sàng giúp đỡ

Em cũng xin thể hiện sự kính trọng và lòng biết ơn đến Quý Thầy Cô trong khoa

Công Nghệ Thông Tin, những người đã trang bị cho em rất nhiều kiến thức chuyên

ngành, cũng như sự chỉ bảo, giúp đỡ tận tình của quý Thầy Cô đối với em trong suốt quá trình học tập Tất cả các kiến thức mà em lĩnh hội được từ bài giảng của các Thầy Cô là vô cùng quý giá

Nhân đây, con xin gửi lời cảm ơn sâu sắc đến Bố, Mẹ và những người thân trong

gia đình, cảm ơn những tình cảm và những lời động viên con trong suốt quá trình

hoàn thành luận văn này

Tôi cũng xin được cảm ơn tất cả các bạn học, những người đã cung cấp và chia sẻ

những tài liệu, thông tin quý báu trong suốt quá trình học tập, nghiên cứu, hoàn thành luận văn này

Tp.HCM, tháng 9-2010 Quảng Trí Nguyên

Trang 4

Quá trình chiết xuất chuyển đổi và lưu trữ

ERP : Enterprise Resource Planning

Tài nguyên kế hoạch OLAP : OnLine Analytical Processing

Quá trình phân tích trực tiếp

EUL : End User Layer

Lớp người dùng cuối CSV : Comma Separated Variable

Biến ngăn cách tạm

MQL : Metadata Query Language

Ngôn ngữ truy vấn metadata MDX : Multidimensional Expressions

Biểu thức đa chiều

Trang 5

TÓM TẮT 1 

TỔNG QUAN 3 

NỘI DUNG BÁO CÁO 3 

Cơ sở lí luận 3 

Nội dung nghiên cứu 4 

1.1.1  Dimensional Modeling and Data Warehouse Design 4 

1.1.1.1  Data Warehouse 4 

1.1.1.2  The Central Data Warehouse 6 

1.1.1.3  Data Marts 7 

1.1.1.4  Những vấn đề khi dùng Data Warehouse 8 

1.1.1.4.1  Chất lượng dữ liệu 8 

1.1.1.4.2  Khối lượng và việc trình bày dữ liệu 9 

1.1.1.4.3  Cập nhật sự thay đổi của dữ liệu 9 

1.1.1.4.4  Thay đổi yêu cầu của việc phân tích 9 

1.1.2  ETL và Data Integration 10 

1.1.2.1  Khái niệm 10 

1.1.2.2  Hoạt động Data Integration 10 

1.1.2.3  Quá trình Chiết xuất (Extraction) 10 

1.1.2.4  Quá trình Chuyển đổi (Transformation) 10 

1.1.2.5  Quá trình Lưu trữ tạm(Loading) 11 

1.1.2.6  Khái niệm và thành phần của tích hợp dữ liệu (Data Integration) 11 

1.1.2.6.1  Công cụ và Tiện ích 11 

1.1.2.6.2  Engine chính cho tích hợp dữ liệu 11 

1.1.2.6.3  Kho lưu trữ (Repository ) 11 

1.1.2.6.4  Jobs and Transformations 12 

1.1.2.7  Giới thiệu và hướng dẫn sử dụng công cụ Pentaho Data Integration14  1.1.2.7.1  Pentaho Data Integration 14 

1.1.2.7.2 Lợi ích chính 14

Trang 6

1.1.2.7.6  Hướng Dẫn sử dụng các chức năng chính của PDI 16 

1.1.3  Business Intelligence Applications(Ứng dụng Kinh doanh thông minh) 20 

1.1.3.1  Lớp Metadata 20 

1.1.3.1.1  Những thuận lợi của lớp Metadata 20 

1.1.3.1.2  Phạm vi dùng và cách sử dụng của lớp Metadata 21 

1.1.3.1.3  Thuộc tính, concept, và tính thừa kế trong lớp Metadata 23 

1.1.3.1.3.2  Concepts 23 

1.1.3.1.4  Tạo và quản lý Metadata bằng Metadata Editor 23 

1.1.3.1.5  Metadata Repository 25 

1.1.3.1.6  Các lớp con của lớp Metadata 26 

1.1.3.1.7  Triển khai và Sử dụng Metadata 26 

1.1.3.2  Sử dụng công cụ báo cáo Pentaho 27 

1.1.3.2.1  Kiến trúc 27 

1.1.3.2.2  Báo cáo trên nền tảng Web 27 

1.1.3.2.3  Giới thiệu và hướng dẫn sử dụng công cụ Pentaho Report Designer 28  1.1.3.3  Giải pháp OLAP trong sử dụng phân tích Pentaho 35 

1.1.3.3.1  Pentaho Analysis Services (PAS) 36 

1.1.3.3.2  Kiến trúc 36 

1.1.3.3.3  Schema 38 

1.1.3.3.4  MDX Primer 38 

1.1.3.3.5  Cubes và Dimensions 38 

1.1.3.4  Khai thác dữ liệu với Weka 42 

1.1.3.4.1  Data Mining 42 

1.1.3.4.2  Weka Workbench 42 

1.1.3.4.3  Sử dụng Weka với Pentaho 44 

1.1.3.5  Xây dựng Dashboards 45 

Trang 7

1.1.4.2  Server Installation and Configuration 48 

1.1.4.2.1  Cấu hình Tomcat 49 

1.1.4.2.2  Tự khởi động trong Windows 49 

1.1.4.2.3  Quản lý Database Drivers 50 

1.1.4.2.4  Cấu hình bảo mật JDBC 50 

1.1.4.2.5  Chỉnh sửa tên các Pentaho Startup Scripts 51 

1.1.4.2.6  E-mail 51 

1.1.4.2.7  Các nhiệm vụ của người quản trị 52 

1.1.4.3  The Pentaho BI Stack 55 

1.1.4.3.1  Pentaho BI Stack Perspectives 56 

1.1.4.3.2  The Pentaho Business Intelligence Server 56 

1.1.4.3.3  Creating Action Sequences with Pentaho Design Studio 59 

Ứng dụng Pentaho vào nghiên cứu dự báo khả năng học ngành công nghệ thông tin của học sinh phổ thông 60 

1.1.4.4  Giới thiệu 60 

1.1.4.5  Bảng câu hỏi 60 

KẾT QỦA ĐẠT ĐƯỢC 61 

HẠN CHẾ 61 

HƯỚNG PHÁT TRIỄN 61 

TÀI LIỆU THAM KHẢO 62 

PHỤ LỤC 63 

1.1.4.6  Thông Tin cá nhân 63 

1.1.4.7  Thông tin học vấn 64 

1.1.4.8  Câu hỏi test IQ 64 

Trang 8

Data warehouse - Position1 4 

Data warehouse - Architecture 2 5 

Data warehouse – Independent Data Mart 3 6 

Data warehouse – Data Mart Bus 4 6 

Data warehouse – Hub and Spoke 5 7 

Data warehouse - Centralized data warehouse 6 7 

Data warehouse - Federated 7 7 

Data warehouse - Data Mart 8 8 

ETL 1 : Steps, Hops and Record stream 13 

BI Application 1 :Scope and usage of Pentaho Metadata 22 

BI Application 2 : Giao Diện Metada Editor 26 

BI Application 3 : Report Ảchitecture 27 

BI Application 4 : OLAP components 37 

BI Application 5 : A cube as start schema 39 

BI Application 6 : Datamining method 42 

BI Application 7 : Dashboard Flow 46 

Pentaho BI - Platform 1 48 

Pentaho BI - User manager 2 54 

Pentaho BI - Data source 3 54 

Trang 9

Pentaho BI - Eclipse 8 59 

Trang 10

TÓM TẮT

Luận văn được tổ chức thành 5 phần:

Phần 1 :Giới thiệu về Data warehouse, là nền tảng lưu trữ giúp xây dựng nên

kho dữ liệu của Pentaho BI Data warehouse là 1 cơ sở dữ liệu có cấu trúc đa chiều, gồm Data Warehouse trung tâm và nhiều Data Mart liên kết với nhau và

có các đặc điểm là hướng chủ đề,dữ liệu được tổng hợp sẽ không bao giờ bị thay đổi và tất cả hoạt động trên đó đều được ghi nhận lại.Data Mart là 1 góc nhìn trong cái nhìn đa chiều về dữ liệu ,được lưu trữ thành những OLAP cube giúp tăng tính linh hoạt trong sử dụng và giúp truy xuất nhanh tới dữ liệu Data Warehouse thu thập dữ liệu từ nhiều nguồn ,dữ liệu đó được làm sạch và biến đổi để phù hợp cho việc lưu trữ ,bằng công cụ ETL của Pentaho.Sau đó dữ liệu này được lưu trữ trong Data warehouse để dùng làm nguồn dữ liệu đầu vào cho các phần khác của Pentaho như báo cáo ,phân tích, Tìm hiểu phần này giúp hiểu được các khái niệm,kiến trúc xây dựng, cung cấp 1 hình ảnh tổng quan cũng như những ưu khuyết của Data warehouse

Phần 2: Giới thiệu về ETLvà Data Intergration ,là hệ thống quản lý dữ liệu

đầu vào của data warehouse.Có chức năng thu thập dữ liệu từ nhiều nguồn ,chọn lọc và biến đổi dữ liệu trước khi đưa vào lưu trữ ở kho dữ liệu ETL gồm có 3 phần là Quá trình Chiết xuất (Extraction), Quá trình Chuyển đổi (Transformation), Quá trình Lưu trữ (Loading).Pentaho sử dụng 1 công cụ cho quá trình data intergration này là Spoon.Quá trình chiếc xuất thu thập dữ liệu từ nhiều nguồn và lưu trữ tạm.Quá trình chuyển đổi thực hiện xác minh dữ liệu ,làm sạch, giải mã đổi tên, để phù hợp với với những chi tiết trong kho lưu trữ.Cuối cùng là quá trình lưu trữ sẽ đưa dữ liệu vào các fact table và demention table trong OLAP cube Trong phần này cũng giới thiệu nhiều khái niệm và

engine chính của quá trình ETL giúp hiểu về các bước xây dựng quy trình ETL

Phần 3 :Giới thiệu về các ứng dụng dựa trên kho dữ liệu , Các ứng dụng này

nằm trong gói Pentaho BI suite.Các ứng dụng giúp theo dõi công việc ,hỗ trợ ra quyết định ,cảnh báo và giúp đưa ra dự đoán cho nhà quản trị dựa dữ liệu lịch sử

đã tích lũy Ứng dụng Pentaho BI gồm lớp Metadata,công cụ Report,công cụ Analysis ,công cụ Data Mining,công cụ Dashboard.Lớp Metadata giúp tạo thuận lợi trong việc quản lý dữ liệu ,giúp tăng tốc độ truy xuất thông tin của người dùng,metadata được xây dựng và quản lý bằng công cụ Metadata Editor.Công cụ Report giúp tạo ra 1 bản báo cáo từ kho lưu trữ hay metadata ,và xây dụng trên nền tảng Web.Công cụ Analysis thực hiện việc phân tích dựa trên giải pháp OLAP.Công cụ data mining được dùng là Weka, một công cụ khai thác dữ liệu

Trang 11

mạnh mẽ giúp tìm thấy những mối quan hệ ,những công thức từ tập hợp những

dữ liệu rời rạc.Cuối cùng là công cụ dashboard như là 1 bẳng điều khiển tập trung tất cả thông tin ,giúp cho nhà quản lý có cái nhìn tổng quát nhất về tổ chức

và công việc

Phần 4 :Giới thiệu về Pentaho BI platform,phần này giới thiệu các khái niệm,

kiến trúc ,chức năng của Pentaho server.Ở phần này cũng tìm hiểu về phần cấu hình, cài đặt BI platform trên giao diện web.Đồng thời cũng hướng dẫn về lập schedule, thiết lập service ,quản lý người dùng và phân quyền trên đó

Phần 5 : Dựa vào kiến thức các phần trên , xây dựng ứng dụng thể hiện các

chức năng của Pentaho như Report ,Analysis ,Dashboard Dựa trên dữ liệu về sinh viên khoa công nghệ thông tin :

Ứng dụng lập báo báo về tất cả thông tin của 1 sinh viên cụ thể theo mã số

Tìm top 10 sinh viên giỏi nhất theo các chuyên ngành

Lập các biểu đồ về tỉ lệ sinh viên theo nơi sinh

So sánh học lực sinh viên theo quê ,từ đó đưa ra dự báo về sinh viên tương tự

Trang 12

TỔNG QUAN

Pentaho là 1 gói giải pháp khá hoàn thiện trong kinh doanh thông minh ,giúp hỗ trợ lập biểu báo, phân tích, quản lý thông tin ,khai thác dữ liệu, theo dõi quy trình và nhiều nữa Do đó việc tìm hiểu và ứng dụng vào thực tế sẽ giúp ích rất nhiều cho công việc ,giúp rút ngắn thời gian và nâng cao hiệu suất cho công việc

Mục đích :

• Tìm hiểu về giải pháp Pentaho BI ,các lợi ích cũng khuyết điểm của giải pháp

• Tìm hiểu các công cụ hỗ trợ của Pentaho

• Quy trình xây dựng nên giải pháp để ứng dụng cho doanh nghiệp

Đối tượng và phạm vi nghiên cứu : sinh viên đại học Nông Lâm

NỘI DUNG BÁO CÁO

I Cơ sở lí luận

Các CIO trong những năm gần đây luôn đặt giải pháp BI đứng đầu trong thứ tự

ưu tiên về nhu cầu đầu tư công nghệ trong doanh nghiệp Ngày nay hệ thống BI

đã dần trở nên hoàn thiện và có xu hướng đáp ứng bốn nhu cầu quan trọng mà người quản trị luôn mong đợi đó là:

Data Warehouse - Khai thác dữ liệu tập trung

Analysis -Báo cáo phân tích cao cấp

Monitoring - Giám sát và cảnh báo tự động

Planning and Forecasting - Dự đoán và lên kế hoạch

Những dữ liệu có cấu trúc được lưu trong các CSDL chỉ chiếm khoảng 20% Còn lại là những dữ liệu phi cấu trúc chiếm tới 80% tổng số thông tin trong các doanh nghiệp

BI cần cho mọi doanh nghiệp có nhu cầu tích hợp dữ liệu và phân tích thông tin đặc biệt trong những doanh nghiệp vừa và nhỏ , chưa có điều kiện sử dụng một phần mềm quản lý nào đó ,thì đây là hệ thống phân tích hoạt động doanh nghiệp

Trang 13

một cách chính xác và toàn diện nhất do thông tin được tổng hợp từ nhiều nguồn trong doanh nghiệp và tiết kiệm được chi phí cho việc khảo sát, nghiên cứu

Trước đây , khi muốn quản trị thông tin hay muốn sử dụng các thông tin rải rác trong cơ sở dữ liệu của công ty thì đã có các phần mềm nổi tiếng như Business Objects (SAP) hoặc Cognos (IBM) Nay ,với Pentaho BI với nhiều ưu điểm rất thích hợp với các doanh nghiệp Việt Nam:

• Mã nguồn mở

• Có cả cộng đồng hỗ trợ

• Chạy tốt với nhiều platform (Windows, Linux, Macintosh , Unix, …)

• Có các gói hoàn chỉnh :Reporting , ETL for warehousing data Management , OLAP server data mining , Dashboard

II Nội dung nghiên cứu

Design

1.1.1.1 Data Warehouse

Khái niệm Data warehouse:

Data warehouse - Position1

Một datawarehouse được định nghĩa có các đặc điểm:

Hướng chủ đề—Tất cả các thực thể và sự kiện liên quan đều được liên kết với

nhau

Trang 14

Được theo dõi —Tất cả thay đổi đều được theo dõi và được ghi báo cáo lại cho

thấy những thay đổi theo thời gian

Dữ liệu không bị thay đổi—Khi dữ liệu được nhập vào data warehouse ,nó

không bao giờ bị ghi đè hay xóa đi

Được tổng hợp—The data warehouse chứa dữ liệu từ nhiều nguồn sau khi

clean and conform

Đảm bảo rằng hiệu suất của hệ thống không bị giảm bởi các truy vấn hoặc việc phân tích

Đảm bảo rằng các thông tin bởi người dùng không thay đổi trong khi sử dụng chúng

Kiến trúc tổng quát của data warehouse:

Data warehouse - Architecture 2

1 hay nhiều source systems (files, DBMS, ERP);

1 quá trình Extracting, Transforming, và Loading dữ liệu (ETL)

Thường quá trình này chứa những vùng staging, được dùng làm nơi extract dữ liệu để chuẩn bị cho việc transform và cleaning

Mỗi staging bao gồm 1 database và các flat file Trong nhiều trường hợp sử dụng flat file làm quá trình trên nhanh hơn

Trang 15

Một data warehouse gồm 1 central warehouse database và từ 0 tới nhiều data mart

The end user layer (EUL) sử dụng nhiều công cụ khác nhau để làm việc với dữ liệu , (reports, dashboards, spreadsheets, and published documents)

1.1.1.2 The Central Data Warehouse

Independent data marts—Mỗi data mart được built và load 1 cách độc lập;

không chia sẻ metadata với nhau Đó được gọi là 1 giải pháp stovepipe

Data mart bus—Giải pháp của Kimball trong việc chuyển đổi định dạng đa

chiều để liên kết các data mart

Hub and spoke—Giải pháp tổng hợp thông tin của Inmon với 1 central data

warehouse và nhiều data mart độc lập

Centralized data warehouse—tương tự như hub and spoke, nhưng không có

phần spoke; ví dụ :tất cả end user truy cập trực tiếp vào data warehouse

Federated—Là 1 kiến trúc nơi mà các data mart hay data warehouses đã có

trước được tích hợp với phần afterwards.Có một cách là xây dựng một dataware house ảo, nơi tất cả dữ liệu vẫn nằm ở gốc và hệ thống sẽ tích hợp logic bằng cách sử dụng những giải pháp phần mềm đặc biệt

Data warehouse – Independent Data Mart 3

Data warehouse – Data Mart Bus 4

Trang 16

Data warehouse – Hub and Spoke 5

Data warehouse - Centralized data warehouse 6

Data warehouse - Federated 7

Các định dạng lưu trữ

Có 3 loại cơ sở dữ liệu OLAP ,được đặt tên dựa trên định dạng lưu trữ:

Trang 17

MOLAP (Multidimensional OLAP)—là định dạng OLAP mà dữ liệu đc lưu ở

dạng proprietary multidimensional

ROLAP (Relational OLAP)— tất cả dữ liệu vả các aggregate data được lưu

trong 1 standard relational database

HOLAP (Hybrid OLAP)—Trong HOLAP, tất cả các dữ liệu aggregate và dữ

liệu navigational được lưu trữ trong 1 cấu trúc MOLAP nhưng chi tiết dữ liệu thì được giữ ở the relational database

Thông tin của OLAP engines : http://olapreport.com/origins.htm

Data warehouse - Data Mart 8

1.1.1.4 Những vấn đề khi dùng Data Warehouse

Chất lượng dữ liệu

Khối lượng và việc trình bày của dữ liệu

Cập nhật sự thay đổi của dữ liệu

Thay đổi yêu cầu của việc phân tích

Trang 18

Data Vault và chất lượng của dữ liệu

1.1.1.4.2 Khối lượng và việc trình bày dữ liệu

Danh sách dưới giúp việc xác định kỹ thuật giúp cải thiện query của datawareouse:

1.1.1.4.3 Cập nhật sự thay đổi của dữ liệu

Quá trình xác định sự thay đổi của dữ liệu lấy từ các record và dữ liệu đã được đưa và dataware house ,gọi là Changed Data Capture hay CDC

Quá trình CDC có 2 loại cơ bản : intrusive và non-intrusive

1.1.1.4.4 Thay đổi yêu cầu của việc phân tích

Một Datawarehouse là 1 quá trinh ,không phải là 1 project Vì vậy hãy chuẩn bị cho những thay đổi theo những quy luật sau:

Trang 19

• Thiết kết datawarehouse như 1 phần độc lập và có thể thay thế bởi những giải pháp khác

Extraction -Thu thập dữ liệu từ một hoặc nhiều nguồn Ví dụ: thu thập tất cả hồ

sơ khách hàng có cấu trúc khác nhau từ nhiều nguồn

Transformation -Thay đổi định dạng và nội dung của dữ liệu để phù hợp với cấu trúc của kho dữ liệu.Ví dụ, từ quận và tên nước chuyển thành giá trị số là mã nước

Loading- lưu trữ dữ liệu vào kho dữ liệu cuối

1.1.2.3 Quá trình Chiết xuất (Extraction)

1.1.2.4 Quá trình Chuyển đổi (Transformation)

là một quá trình mở và đa dạng Không thể để cung cấp tất cả các hoạt động chi tiết, nhưng có một vài hoạt động tiêu biểu là:

- Xác minh dữ liệu : là quá trình xác minh nguồn gốc dữ liệu là chính xác, và có thể lọc ra những dữ liệu không hợp lệ

- Làm sạch dữ liệu : là quá trình sửa chữa dữ liệu không hợp lệ

- Giải mã và đổi tên : trong nhiều trường hợp, dữ liệu từ nguồn không phù hợp cho mục đích báo cáo bởi vì nó có chứa các tên đồng nghĩa và mã số Phần chính của quá trình chuyển đổi xảy ra ở giai đoạn này để thêm những mô tả và sửa lại tên để thân thiện với người dùng hơn

Trang 20

- Tập hợp : thông thường, các ứng dụng BI chỉ trình bày nhừng dữ liệu đã được tổng hợp cho người dùng cuối cùng Vì thế, tập hợp được xem như một phần của quá trình chuyển đổi

- Việc tạo và quản lý khóa : các hàng trong kho dữ liệu được quản lý và được xác định duy nhất bởi các khóa ,vì thế các khóa cần được tạo và lưu giữ

1.1.2.5 Quá trình Lưu trữ tạm(Loading)

có thể phân thành hai hoạt động chính:

- Load FactTable : Thông thường, các FactTable phát triển bằng cách thêm các hàng mới Nhưng đôi khi các hàng cần được cập nhật để phản ánh một trạng thái mới

- Load và quản lý các DemensionTable : Những hàng mới trong factTable có thể phát triễn thêm tạo ra các hàng mới trong DemensionTable

1.1.2.6 Khái niệm và thành phần của tích hợp dữ liệu (Data Integration)

Trong Pentaho các giải pháp tích hợp được xây dựng dựa trên hai loại đối tượng:

- Transformations

- Jobs

1.1.2.6.1 Công cụ và Tiện ích

Pentaho tích hợp dữ liệu sau đây bao gồm các bộ công cụ và tiện ích:

- Spoon : một công cụ đồ hoạ tạo các Transformation ,Job

- Kitchen : Một công cụ dòng lệnh để chạy các Job

- Pan : Một công cụ dòng lệnh để chạy các Transformation

- Carte : một máy chủ nhẹ để các chạy các Transformation ,Job từ xa

1.1.2.6.2 Engine chính cho tích hợp dữ liệu

- Có trách nhiệm dịch và thực thi các Job và Transformation ,được xử lý bởi các phần khác nhau của engine

- Một Job có thể chứa nhiều Transformation và vì thế , thực hiện Job có nghĩa là thực hiện một hoặc nhiều Transformation Để thuận tiện hơn thì có thêm các Job engine và Transformation engine nhưng gọi chung là Integration engine

- Integration engine được hiện thực dùng các thư viện Java Còn phần Front-End

sử dụng các public API để thực thi các Job và Transformation

1.1.2.6.3 Kho lưu trữ (Repository )

- Job và Transformation có thể được lưu trữ trong một Kho lưu trữ Front-end của công cụ có thể kết nối cơ sở dữ liệu và chuyển dữ liệu của Job và

transformation vào Kho lưu trữ

-Khi không làm việc với các Repository, transformations and jobs được lưu trữ

Trang 21

trong các file tạm trong ở dạng XML

1.1.2.6.4 Jobs and Transformations

- Integration engine dịch và thực thi các Job và transformation

- Integration engine có metadata-driven: chứa thông tin về dữ liệu, hệ thống

nguồn và hệ thống đích.Khi thực hiện một công Job hay transformation, thông tin này được sử dụng cho các tính toán cần thiết

1.1.2.6.4.1 Transformations

-Một Pentaho transformation đại diện cho một nhiệm vụ ETL theo nghĩa hẹp Các transformation theo dạng data-oriented, và mục đích dùng để chiết xuất(extract), chuyển đổi(transform), và truyền tải (load) dữ liệu

-Một quá trình transformation bao gồm các bước Mỗi bước biểu thị một phép toán cụ thể trên một hoặc nhiều record stream Các bước này có thể được kết nối bằng hops Mỗi hops giống như một đường ống thông qua đó các record có thể chảy từ bước này sang bước khác Một record là tập hợp các giá trị có cấu trúc theo cách mà mỗi giá trị có liên quan thuộc về 1 lĩnh vực(field) nào đó

-Mỗi lĩnh vực(field) là tên duy nhất trong record stream Mỗi lĩnh vực xác định những thuộc tính như là loại dữ liệu và định dạng miêu tả bản chất của những giá trị nào liên hệ với lĩnh vực này Những dạng thuộc tính này chính là metadata (dữ liệu về dữ liệu)

- Một điều quan trọng trong hiện thực là các bước job đồng thời phải được

đồng bộ hóa

Trang 22

ETL 1 : Steps, Hops and Record stream

1.1.2.6.4.2 Job

- Các job bao gồm một hoặc nhiều transformation

- Job được sử dụng để đặt tất cả những transformation trong trình tự đúng (đầu tiên là giải nén, sau đó tải tất cả các dimension table, và sau đó tải fact table)

-Các Job được thủ tục hóa và định hướng theo nhiệm vụ hơn là định hướng

theo dữ liệu

- Các thành phần xuất hiện trong các job được gọi là các job enty , và biểu thị

một nhiệm vụ cụ thể

Trang 23

1.1.2.7 Giới thiệu và hướng dẫn sử dụng công cụ Pentaho Data Integration

1.1.2.7.1 Pentaho Data Integration

là một công cụ cực kỳ linh hoạt được sử dụngtrong các trường hợp :

• Những kho dữ liệu được sự hỗ trợ cho sự thay đổi các chiều đến thay thế khóa chính

• Dữ liệu di chuyển giữa các cơ sở dữ liệu và các ứng dụng khác nhau

• Tải lượng dữ liệu rất lớn vào cơ sở dữ liệu ,tập hợp dữ liệu một cách thuận lợi

từ các cloud, clustered và massively parallel

• Dữ liệu được làm sạch với các bước khác nhau, từ biến đổi rất đơn giản đến rất phức tạp

• Tích hợp dữ liệu bao gồm khả năng thực hiện thời gian thực, như một nguồn

dữ liệu cho phần Báo cáo

1.1.2.7.2 Lợi ích chính

Pentaho Data Integration gồm các lợi ích:

• Cài đặt trong vài phút, bạn có thể có được ứng dụng trong một buổi chiều

• 100% với sự hỗ trợ nền tảng Java qua cho Windows, Linux và Macintosh

• Dễ sử dụng, thiết kế đồ họa với hơn 100 đối tượng thao tác gồm cả đầu vào, biến đổi, và đầu ra

• kiến trúc plug-in cho việc thêm phần mở rộng riêng của bạn

• Máy chủ cung cấp tích hợp bảo mật, lập kế hoạch và quản lý mạnh mẽ bao gồm cả sửa đổi lịch sử cho các transform và các job

• Tích hợp thiết kế (Spoon) kết hợp với metadata model tăng tính trực quan cho

dữ liệu, cung cấp môi trường hoàn hảo cho phát triển nhanh các giải pháp BI

1.1.2.7.3 Downloading Pentaho Data Integration

Trước khi bạn bắt đầu để tải về Pentaho tích hợp dữ liệu, bạn phải có Java 6.0 đã được cài đặt

1 Chuyển đến trang download Pentaho tích hợp dữ liệu

2 Điền vào mẫu liên hệ

Bạn sẽ nhận được một email xác nhận rằng cung cấp cho bạn các thông tin để truy cập vào Pentaho

Trang 24

3 Nhấp vào nút Tải về Enterprise Edition

1.1.2.7.4 Cài đặt Pentaho Data Integration

Giả định rằng bạn sẽ thực hiện theo các hướng dẫn cài đặt mặc định và bạn đang cài đặt vào localhost

1 Tìm hiểu và chấp nhận License Agreement

2 Xác định vị trí bạn muốn cài đặt tích hợp dữ liệu Pentaho hoặc bấm Next để chấp nhận mặc định

3 Đặt tên người dùng và mật khẩu cho tài khoản Administrator Với mục đích của đánh giá này,chấp nhận tên người sử dụng mặc định, "admin", và gõ "mật khẩu" trong Password và Confirm Passwordlĩnh vực

4 Click Next để chấp nhận các tùy chọn cài đặt mặc định trên trang Tóm lược

5 Click Next để bắt đầu cài đặt

Pentaho tích hợp dữ liệu được cài đặt như một dịch vụ của Windows

1.1.2.7.5 Pentaho tích hợp dữ liệu và các thư mục Scripts

Sau khi cài đặt, thư mục Pentaho của bạn có chứa các tập tin và thư mục sau đây:

\design-tools\data-integration : chứa thiết kế Spoon và lệnh đường dây tiện ích

\server: chứa máy chủ tích hợp dữ liệu bao gồm cả script cá nhân

\documentation : chứa tài liệu

\server\data-integration-server\ start-pentaho.bat: Script tập tin để bắt đầu hội nhập dữ liệu server trên Windows

\server\data-integration-server\ start-pentaho.sh: Script tập tin để bắt đầu hội nhập dữ liệu server trên Linux và Macintosh

\server\data-integration-server\ stop-pentaho.bat: Script file ngừng tích hợp dữ liệu

server trên Windows

\server\data-integration-server\ stop-pentaho.sh: Script file for stopping the Data Integration server on Linux and Macintosh

\design-tools\data-integration\Spoon.bat: Script tập tin để bắt đầu các thiết kế Spoon

Trang 25

\design-tools\data-integration\spoon.sh : Script tập tin để bắt đầu các thiết kế Spoon ngày Linux và Macintosh

1.1.2.7.6 Hướng Dẫn sử dụng các chức năng chính của PDI

1.1.2.7.6.1 Kết nối với Repository

Tạo ra một kết nối đến các Repository mà là một phần của hội nhập dữ liệu Server Các Repository Doanh nghiệp được sử dụng để lưu trữ và lịch trình chuyển đổi ví dụ và công việc mà bạn sẽ tạo ra khi thực hiện các bài tập trong tài liệu này

Để tạo kết nối đến các Repository:

1 Trong hộp thoại Repository Connection, nhấp chuột (Thêm)

2 Chọn Doanh nghiệp Repository: Doanh nghiệp Repository và nhấn OK.Các Repository Configuration hộp thoại xuất hiện

3.Giữ URL mặc định.Các URL được sử dụng để kết nối đến máy chủ tích hợp

dữ liệu được cung cấp theo mặc định

4 Click Test để đảm bảo kết nối của bạn được cấu hình đúng Nếu bạn nhận được một lỗi, chắc chắn bạn bắt đầu Server tích hợp dữ liệu của bạn

5 Click OK để thoát hộp thoại thành công

6 Nhập ID và tên cho kho lưu trữ của bạn

7 Click OK để thoát khỏi hộp thoại Repository Configuration.kết nối mới của bạn xuất hiện trong danh sách các kho phần mềm có sẵn

8 Đăng nhập vào các Repository doanh nghiệp bằng cách nhập các thông tin sau: tên người dùng = joe, mật khẩu =mật khẩu

Việc tích hợp dữ liệu Server được cấu hình ra khỏi hộp để sử dụng các nhà cung cấp Pentaho bảo mật mặc định

1.1.2.7.6.2 Tạo một transformation

Lấy dữ liệu từ một file (Text File)

Thực hiện theo các hướng dẫn dưới đây để lấy dữ liệu từ một Text File

Trang 26

1.Click (New) ở góc trên bên trái của giao diện đồ họa Spoon

2.Chọn chuyển đổi từ danh sách

3 Dưới tab Thiết kế, mở rộng đầu vào nút, sau đó, chọn và kéo một Text File đầu vào bước lên tấm bạt bên phải

4 Click đôi vào bước đầu vào tập tin văn bản

Việc sửa hộp thoại thuộc tính liên kết với bước đầu vào File văn bản xuất hiện Trong hộp thoại này, bạn xác định các tài sản liên quan đến một bước cụ thể

5 Trong trường Tên Bước, loại Đọc dữ liệu bán hàng

Bạn đang đổi tên File Text Input bước để Đọc dữ liệu bán hàng

6 Click vào Browse để tìm tập tin nguồn, sales_data.csv, có tại \design-

enclosurecharacter được sử dụng, và có hoặc không một hàng tiêu đề là hiện

nay Trong ví dụ, các tập tin đầu vào là dấu phẩy

(,) Phân cách, nhân vật bao vây là một dấu ngoặc kép (") và nó có một tiêu đề duy nhất rowcontaining tên trường

8 Nhấp vào tab Nội dung

Các lĩnh vực dưới tab Content cho phép bạn xác định cách dữ liệu của bạn được định dạng

9 Hãy chắc chắn rằng Separator được đặt dấu phẩy (,) và rằng Tủ điện được

thiết lập để đánh dấu ngoặc kép (")

Kích hoạt tính năng Header vì có một dòng tiêu đề của các hàng trong tập tin 10.Click tab Fields và nhấn Get trường để lấy các lĩnh vực đầu vào từ nguồn tập tin của bạn

Một hộp thoại xuất hiện yêu cầu bạn phải xác định số dòng quét, cho phép bạn xác định cài đặt mặc định cho các lĩnh vực như định dạng, độ dàimột cách chính xác

Số lượng các mẫu hộp văn bản Lines để quét tất cả các dòng Bằng cách quét tất

cả các dòng, bạn đảm bảo rằng Pentaho tích hợp dữ liệu đã đọc toàn bộ nội dung của tập tin Click OK và tóm tắt các kết quả quét xuất hiện Một khi bạn đang thực hiện kiểm tra kết quả quét, click Close để trở về trình soạn thảo bất động sản bước

11.Under tab Fields, tìm lĩnh vực KINH DOANH Chú ý rằng SALES được thiết lập như là một kiểu dữ liệu String Đây là cách

Pentaho tích hợp dữ liệu giải thích các kiểu dữ liệu cho lĩnh vực này Bạn sẽ thay đổi các kiểu dữ liệu

Trang 27

cho một số Click String và Số chọn từ danh sách thả xuống Thay đổi định dạng 

đ  # # # ho c. 0,00 đ  các giá tr  s  c a b n hi n th  chính xác. 

12.Click Xem trước dòng để xác minh rằng tập tin của bạn đang được đọc một cách chính xác Bạn có thể thay đổi số hàng để xem trước click OK để thoát

khỏi hộp thoại thuộc tính bước

13.Save lại chuyển đổi của bạn

1.1.2.7.6.3 Tạo bộ lọc và xuất ra 1 cơ sở dữ liệu quan hệ

bạn sẽ xóa tất cả hồ sơ xuất cảnh của Bộ lọc hàng nơi Mã Bưu chính đã không được null(Điều kiện đúng) và tải chúng vào một bảng cơ sở dữ liệu

1 Dưới tab Thiết kế, mở rộng các nội dung của thư mục đầu ra

2 Click và kéo ra một bước chuyển đổi của bạn Bảng vào; tạo ra một hop giữa các Thiếu Filter

Kéo khóa (Filter Rows) và các bước ra bàn Chọn Kết quả là TRUE

3 Click đôi vào bước ra bàn để mở sửa hộp thoại thuộc tính của nó

4 Đổi tên Bảng Bước đầu ra của bạn để Viết thư cho cơ sở dữ liệu

5 Click New bên cạnh trường kết nối Bạn phải tạo một kết nối cơ sở dữ liệu Các kết nối cơ sở dữ liệu hộp thoại xuất hiện

6 Cung cấp các thiết lập để kết nối với cơ sở dữ liệu như trong bảng dưới đây

Tên Connection Type, dữ liệu mẫu

Connection Type: Chọn, H2

Tên Máy chủ localhost

Loại cơ sở dữ liệu Tên sampledata

Số Port 9092

Tên người dùng sa

Mật khẩu trống / không có mật khẩu

7 Click Test để đảm bảo các mục của bạn là chính xác Một tin nhắn thành công

sẽ xuất hiện Click OK

Lưu ý: Nếu bạn nhận được một lỗi khi kiểm tra kết nối của bạn, đảm bảo rằng bạn đã cung cấp

thiết lập đúng thông tin như mô tả trong bảng và cơ sở dữ liệu mẫu đang chạy Xem Bắt đầu Pentaho tích hợp dữ liệu thông tin về làm thế nào để bắt đầu tích hợp dữ liệu các máy chủ

8 Click OK, để thoát khỏi hộp thoại kết nối cơ sở dữ liệu

9 Trong Output Bảng sửa hộp thoại thuộc tính, kích hoạt cắt Bảng tài sản

10.Type SALES_DATA trong lĩnh vực mục tiêu văn bản Bảng

Trang 28

Bảng này không tồn tại trong cơ sở dữ liệu mục tiêu Trong các bước tiếp theo bạn sẽ tạo ra các danh dữ liệu Language (DDL) để tạo ra các bảng và thực hiện

nó DDL là các lệnh SQL mà xác định các cấu trúc khác nhau trong cơ sở dữ

liệu như CREATE TABLE

11.Click SQL để tạo ra DDL để tạo bảng mục tiêu của bạn

12.Click Execute để chạy SQL

Một kết quả apperas hộp thoại chỉ ra rằng một trong những câu lệnh SQL được thực thi Click OK đóng

thực hiện hộp thoại Click Close để đóng hộp thoại đơn giản SQL biên tập Click

OK để đóng

Bảng đầu ra sửa hộp thoại thuộc tính

13.Save chuyển đổi của bạn

1.1.2.7.6.4 Tạo một JobListen

1.1.2.7.6.5 Read phonetically

Jobs được sử dụng để phối hợp hoạt động ETL, chẳng hạn như:

• Xác định lưu lượng và phụ thuộc cho những gì cần được biến đổi để chạy

• Chuẩn bị để thực hiện bằng cách kiểm tra các điều kiện như, "Có phải là nguồn của tôi file có sẵn,"? Hoặc "Có một bảng tồn tại?"

• Thực hiện số lượng lớn cơ sở dữ liệu tải hoạt động

• Quản lý tập tin như gửi bài hoặc lấy các tập tin bằng cách sử dụng FTP, các tập tin sao chép và xóa các tập tin

• Gửi thành công hay thất bại thông báo qua email

Đối với phần này, hãy tưởng tượng rằng một hệ thống bên ngoài có trách nhiệm đặt vào vị trí của bạn trong sales_data.csv nguồn của nó mỗi tối thứ bảy lúc 9:00 Bạn muốn tạo một công việc mà sẽ kiểm tra xem các tập tin đã đến và chạy chuyển đổi của bạn để tải các bản ghi vào cơ sở dữ liệu Click (New) ở góc trên bên trái của giao diện đồ họa Spoon

1 Chọn công việc từ danh sách

2 Mở rộng các thư mục chung và kéo một mục công việc bắt đầu vào không gian làm việc đồ họa

Các mục công việc bắt đầu xác định nơi thực hiện sẽ bắt đầu

3 Mở rộng thư mục Điều kiện và thêm mục File Tồn tại công việc

Trang 29

4 Click đôi vào tập tin Tồn tại công việc chỉnh sửa mục nhập để mở hộp thoại thuộc tính của nó Click vào Browse và chọn sales_data.csv từ vị trí sau:

\design-tools\data-integration\samples\transformations\files

Thiết lập bộ lọc cho CSV file

1 Mở rộng các thư mục chung và thêm mục công việc chuyển đổi

2 Vẽ một hop giữa Tồn tại tập tin và các mục công việc chuyển đổi

3 Nhấp đúp vào mục công việc chuyển đổi để mở sửa hộp thoại thuộc tính của nó

4 Select các định bởi tên và chọn thư mục Click (Trình duyệt)

5 Expand cây kho để tìm mẫu chuyển đổi của bạn Chọn nó và nhấp OK

Có thể sẽ có chuyển đổi của bạn được lưu trữ theo thư mục joe

6 Save chuyển đổi của bạn như là việc làm mẫu

7 Click (Run việc làm) Khi Thực hiện một hộp thoại công việc xuất hiện, chọn thi địa phương và nhấp vào Launch

Bảng Hiển Thi Kết Quả cho bạn kết quả

Kinh doanh thông minh)

The Metadata Layer

Using the Pentaho Reporting Tools

Scheduling, Subscription, and Bursting

OLAP Solutions Using Pentaho Analysis Services

Data Mining with Weka

Building Dashboards

1.1.3.1 Lớp Metadata

Pentaho Metadata là một phần của nền tảng Pentaho dùng để tạo thuận lợi trong việc quản lý dữ liệu

1.1.3.1.1 Những thuận lợi của lớp Metadata

- Sử dụng Metadata để tạo một giao tiếp thân thiện hơn người sử dụng

- Thêm tính linh hoạt và có 1 giản đồ độc lập

- Tinh chỉnh được các quyền truy cập

- Xử lý theo từng khu vực

- Thực thi nhất quán, được định dạng hóa và có hành vi

Trang 31

thức về SQL

BI Application 1 :Scope and usage of Pentaho Metadata

Trang 32

1.1.3.1.3 Thuộc tính, concept, và tính thừa kế trong lớp Metadata

1.1.3.1.3.1 Thuộc tính

có thể được chia thành một số loại:

-Thuộc tính tổng quát, chẳng hạn như tên và mô tả

-Thuộc tính về trình bày , chẳng hạn như font chữ, màu sắc, và đối tượng nhìn thấy được cho người dùng cuối

-Các mô tả về mô hình , như biểu hiện cơ bản, loại dữ liệu, và quy tắc kết hợp

- Các lớp Metadata có hai mức độ thừa kế:

+ Các đối tượng Metadata thừa kế từ các đối tượng Metadata khác

+Các concept thừa kế từ các concept khác

- Việc thừa kế đảm bảo rằng trong trường hợp mô hình thay đổi, sự thay đổi

ngay lập tức được cập nhật từ các đối tượng mới

1.1.3.1.4 Tạo và quản lý Metadata bằng Metadata Editor

The Pentaho Metadata Editor(PME): tải về công cụ này từ trang dự án Pentaho tại sourceforge.net

The Pentaho Metadata Domain

1.1.3.1.4.1.1 T o m t Domain m i 

Khi bạn khởi Pentaho Metadata Editor, một tên miền mới đã được tạo ra cho bạn theo mặc định Bạn ngay lập tức có thể bắt đầu thêm các kết nối, bảng, cột, vv Nếu bạn muốn bắt đầu với một tên miền mới, chọn File | New | Domain File từ menu chính

1.1.3.1.4.1.2 T o m t k t n i m i

Để tạo kết nối mới:

1 Nhấp chuột phải (hoặc nhấn CTRL) trên kết nối chi nhánh của Navigator cây ở phía bên trái của màn hình soạn thảo

Trang 33

2 Chọn kết nối mới tùy chọn từ menu popup

3 Hộp thoại kết nối thông tin sẽ được hiển thị Hộp thoại này cho phép bạn có một tập phong phú các lựa chọn để xác định kết nối cơ sở dữ liệu của bạn một cách chi tiết

Một thí dụ kết nối: một kết nối đến một cơ sở dữ liệu JDBC MySQL

Ví dụ này sử dụng dữ liệu mẫu Thép Wheels cung cấp cùng với Pentaho Open

BI Suite (còn gọi là "pre-cấu hình cài đặt" hoặc "PCI"), có sẵn từ trang web tải của chúng tôi

Để kết nối với một cơ sở dữ liệu MySQL bằng cách sử dụng JDBC:

1 Tên kết nối của bạn Ví dụ này, chúng tôi sẽ đặt tên này MySQLSampleData kết nối

2 Chọn MySQL là kiểu kết nối

3 Chọn Native (JDBC) là phương pháp tiếp cận

4 Nhập localhost là tên máy server Này giả định bạn có một Pentaho BI địa phương Server chạy Nếu máy chủ của bạn (hoặc cơ sở dữ liệu mẫu của bạn)

được lưu trữ ở nơi khác, nhập vào tên của máy chủ lưu trữ ở đây mà thay vào đó

5 Nhập tên của cơ sở dữ liệu, trong ví dụ của chúng tôi, sampledata

6 Ví dụ của chúng tôi yêu cầu các cổng mặc định cho MySQL Điều chỉnh

port cần thiết cho các thiết lập của bạn

7 Và cuối cùng, tên người dùng và mật khẩu cho các dữ liệu mẫu Steel

Wheels là pentaho_user, mật khẩu, tương ứng

8 Bạn nên bây giờ bấm vào nút Test ở dưới cùng của hộp thoại Nếu tất cả các thông tin này được nhập vào đúng cách, bạn sẽ nhận được một "Test OK" tin

nhắn Nếu cái gì là sai, bạn sẽ nhận được một tin nhắn là đủ cụ thể để giúp bạn xác định được vấn đề

9 Click OK khi bạn hài lòng với thông tin kết nối của bạn

1.1.3.1.4.1.3 Xây d ng Concept 

Xây dựng cây Concept lồng nhau có thể mất hơn một chút lời giải thích, thực hiện tốt nhất với một hương ví dụ về các Editor Concept

1 Từ trình đơn chính của trình đơn Tools, chọn Editor Concept

2 Với khái niệm cơ bản chọn trong * Danh sách các khái niệm, hãy nhấp vào dấu cộng để thêm một khái niệm mới, lồng nhau Tên Số khái niệm này

3 Hãy chắc chắn rằng số được chọn trong Danh sách các khái niệm Lưu ý

rằng các tính chất từ các cơ sở đã được thừa hưởng bởi số

4 Thêm một tài sản Mask để số, với trị giá 0,00 $###,##

Trang 34

5 Với số lựa chọn trong danh sách Khái niệm, thêm một khái niệm lồng nhau đặt tên ID

6 Chọn ID trong Danh sách các khái niệm, tìm thấy những tài sản thừa kế

Mask và nhấn vào nút Override Nhập một giá trị 0 cho ghi đè lên của mặt nạ Thông báo làm thế nào bây giờ chúng tôi có ba khái niệm được định nghĩa

có thể được sử dụng bất cứ nơi nào trong mô hình kinh doanh của chúng tôi

Mỗi khái niệm phục vụ một loại khác nhau của các đối tượng kinh doanh - cơ sở

để mặc định, cột chung, số đối với những cột chứa dữ liệu chúng tôi biết số tài chính, và ID cho cột ID

Click OK để lưu lại các khái niệm mới của bạn

1.1.3.1.4.1.4 Apply Concept cho các đối tượng kinh doanh của bạn 

2 Mở rộng các cột theo bảng trong Tree Navigator Chọn cột bạn muốn áp

dụng các khái niệm để Tôi sẽ áp dụng các khái niệm của chúng tôi ID cho

Bây giờ, khi cột Customernumber được sử dụng trong một ứng dụng siêu dữ liệu, nhận thức, nó sẽ cung cấp một phông chữ của Verdana, và mặc định định dạng số là 0 - không có số thập phân, không có dấu phẩy

1.1.3.1.5 Metadata Repository

Pentaho metadata được lưu trữ trong repository riêng của mình

- Theo mặc định, PME sử dụng các tập tin nhị phân cho việc lưu trữ metadata Những tập tin này, được gọi là mdr.btx và mdr.btd, được tìm thấy trong các thư mục chính của trình biên tập Metadata

-Có thể chuyển sang tập tin lưu trữ từ một cơ sở dữ liệu khá dễ dàng Một

repository dựa trên 1 cơ sở dữ liệu là phù hợp hơn trong trường hợp có nhiều nhà phát triển cùng chỉnh sửa các lớp metadata đồng thời

- Mở file repository.properties và chỉnh sửa nó chỉ vào 1cơ sở dữ liệu.Thêm vào tên là:

Trang 35

driverClassName: tên lớp Java chứa driver

url: kết nối JDBC

userName: tên người sử dụng cơ sở dữ liệu

mật khẩu: mật khẩu của người sử dụng cơ sở dữ liệu

1.1.3.1.6 Các lớp con của lớp Metadata

Những phần sau đây mô tả các bộ phận từ vật lý,luận lý ,và lớp phân phối trong phạm Metadata

Lớp vật lý

Connections –mô tả kết nối cơ sở dữ liệu

Physical Tables - mô tả các bảng cơ sở dữ liệu

Physical Table Columns - định nghĩa về cột của một physical table

BI Application 2 : Giao Diện Metada Editor

1.1.3.1.7 Triển khai và Sử dụng Metadata

Export và Import File XMI: File ÆExport to XMI File

Publishing the Metadata to the Server: FileÆ Publish to server

Trang 36

Refreshing the Metadata: Tools Æ RefreshÆ Reporting Metadata

1.1.3.2 Sử dụng công cụ báo cáo Pentaho

1.1.3.2.1 Kiến trúc

- Report designer dùng để tạo 1 bản báo cáo

- Có 1 phần dùng để mô tả về cổng trong file XML

- Một report engine để thực hiện báo cáo theo đặc tả và xuất ra các định dạng

khác nhau

- Định nghĩa về kết nối cơ sở dữ liệu có thể sử dụng middleware chuẩn như

JDBC để kết nối với các nguồn dữ liệu khác nhau Trong phiên bản mới nhất của Pentaho Reporting, các truy vấn được thực hiện trực tiếp từ công cụ báo cáo

 

BI Application 3 : Report Ảchitecture

Engine củaPentaho reporting chuẩn là JFreeReports;

một phiên bản thiết kế mới của JFree report designer,nay gọi là Pentaho Report Designer( PRD)

1.1.3.2.2 Báo cáo trên nền tảng Web

Các công cụ dựa trên nền web dùng để tạo ra các loại báo cáo BI , giúp người dùng cuối nhanh chóng có được cái nhìn chi tiết vào các vấn đề cụ thể Tên

chính thức của công cụ web là Web Ad Hoc Query and Reporting Client

(WAQR )

Các WAQR có thể làm việc chỉ với các mô hình Metadata

- Báo cáo có thể xem trong HTML (sự lựa chọn mặc định), PDF, CSV, XLS

Trang 37

- Nó có chứa nhiều tùy chọn :

+ xếp loại-Thông tin có thể được sắp xếp theo nhóm và các lĩnh vực cụ thể

+ Lọc-lĩnh vực nào vẫn có thể được lọc, và các điều kiện có thể được kết hợp bằng cách sử dụng các toán tử AND và OR Các điều kiện như BEGINS WITH hoặc CONTAINS; với trường Data, các điều kiện BEFORE, và AFTER có thể được sử dụng; và với giá trị số, có thể dùng =,> =, và <

+ Việc tổng hợp và định dạng-Một số phương thức tổng hợp và các định dạng có sẵn dùng cho các lĩnh vực cụ thể Với giá trị không phải số được tính, nhưng đối với giá trị số, các phép tính chuẩn =, >=,và < được dùng

+ Phân nhóm và phân trang Mỗi nhóm có thể được dùng để thiết lập ngắt các trang hiển thị

1.1.3.2.3 Giới thiệu và hướng dẫn sử dụng công cụ Pentaho Report Designer

Với thiết kế Báo cáo, bạn sẽ cần phải tìm hiểu làm thế nào để điều hướng giao diện người dùng trước khi bạn có thể chuyển sang nhiều nhiệm vụ phức tạp Các nội dung trong phần này cung cấp một giới thiệu ngắn gọn nhưng toàn diện cho tất cả các thành phần người sử dụng Báo cáo thiết kế của giao diện:

• The Welcome Screen

• The Report Designer Main Toolbar

• Report Designer's Tabbed Views

• The Report Workspace

• The Structure Pane

• The Data Pane

• The Style Pane

• The Attributes Pane

Pentaho Báo cáo thiết kế hỗ trợ các nguồn dữ liệu các loại sau đây: 

  

JDBC: Bất kỳ cơ sở dữ liệu JDBC-tuân thủ sẽ làm việc với Báo cáo thiết kế,

nhưng có thể bạn sẽ phải cung cấp JDBC driver JAR Điều này được thực hiện bằng cách sao chép tập tin JAR thích hợp vào thư mục Pentaho /pentaho/design-tools/report-designer/lib/

Trang 38

Metadata: Một Pentaho Metadata XMI file

Pentaho Data Integration (Kettle): Kettle KTR files có thể hoạt động như một nguồn dữ liệu, nhưng bạn phải chép tất cả các JAR các tập tin từ

/pentaho/design-tools/data-integration/libext/ và tất cả các thư mục con của nó, ngoại trừ các thư mục con JDBC /pentaho/design-tools/report-designer/lib/

OLAP: Báo cáo thiết kế chỉ hỗ trợ Pentaho Analysis (Mondrian) OLAP nguồn vào lúc này

Pentaho Analysis: Một tập tin schema Mondrian

Pentaho Analysis Denormalized: Một tập tin schema Mondrian, denormalized Pentaho Analysis Legacy: Một nguồn dữ liệu Mondrian nhập khẩu từ một báo cáo được tạo ra với một phiên bản của Báo cáo thiết kế cũ hơn 3.5.0

Phương pháp Java Gọi: Cho phép thiết kế để truy cập dữ liệu thông qua một

phương pháp Java và tự động thay đổi tên phương pháp

Gọi tên là Java Phương pháp: Cho phép thiết kế để truy cập dữ liệu thông qua một phương pháp cụ thể Java

Bên ngoài: Được sử dụng chỉ khi báo cáo là sẽ chạy trên Server BI, có nghĩa là các dữ liệu được lấy thông qua một thành phần trong một chuỗi hành động Tên truy vấn cho báo cáo này phải được ánh xạ tới kết quả thiết lập trong tập tin

xaction

1.1.3.2.3.2 T o truy v n V i thi t k  truy v n SQL 

Bạn phải trong cửa sổ JDBC Nguồn dữ liệu để theo dõi quá trình này Bạn cũng cần phải có cấu hình và thử nghiệm một kết nối JDBC nguồn dữ liệu.Thực hiện theo quy trình này để thiết kế một truy vấn SQL cho nguồn dữ liệu của bạn với thiết kế truy vấn SQL:

Chọn nguồn dữ liệu của bạn trong các kết nối khung bên trái, sau đó nhấp vào biểu tượng tròn màu xanh lá cây trên cửa sổ truy vấn Available bên phải (đây là nút ở góc trên bên phải của cửa sổ)

Loại một mô tả ngắn gọn nhưng đầy đủ tên cho truy vấn này trong trường Tên truy vấn

Trang 39

Nhấp vào biểu tượng bút chì ở trên góc trên bên phải của lĩnh vực truy vấn Các công cụ thiết kế truy vấn SQL sẽ đi lên

Trong khung bên trái dưới, click để chọn bảng đầu tiên bạn muốn chọn dữ liệu

từ, sau đó kích đúp vào nó để di chuyển nó vào không gian làm việc truy vấn Bảng bạn chọn sẽ xuất hiện trong không gian làm việc màu xanh như là một cửa

sổ phụ có chứa tất cả các dòng của bảng

Kiểm tra tất cả các hàng bạn muốn bao gồm trong truy vấn Theo mặc định, tất

cả các hàng được chọn Nếu bạn chỉ muốn chọn một vài hàng (hoặc một hàng đơn), nhấp vào tên bảng ở trên cùng của cửa sổ phụ, sau đó click bỏ chọn tất cả trong trình đơn popup, sau đó kiểm tra chỉ có các hàng bạn muốn bao gồm trong truy vấn của bạn

Lặp lại các bước trước đó cho các bảng khác mà bạn muốn làm việc Bạn có thể tạo một SQL JOIN giữa các bảng bằng cách chọn một khóa tham chiếu trong một bảng, sau đó kéo nó vào hàng thích hợp trong bảng khác Để sửa đổi JOIN, kích chuột phải vào hình vuông màu đỏ của nó, sau đó nhấp vào chỉnh sửa trong menu popup

Để thêm một điều kiện hay biểu thức, kích chuột phải vào một hàng trong không gian làm việc truy vấn, và chọn hành động thích hợp từ menu ngữ cảnh

Để đặt hàng hoặc nhóm bởi một hàng cụ thể, kéo một tuyên bố từ các thể loại SELECT ở khung bên trái phía trên xuống GROUP BY hay ORDER BY loại

Để chỉnh sửa cú pháp SQL trực tiếp, hãy nhấp vào tab cú pháp ở góc dưới cùng bên trái của cửa sổ thiết kế truy vấn SQL

Click Preview để xem kết quả truy vấn chưa được định dạng, nhấn OK để kết thúc làm việc trên truy vấn

Bây giờ bạn có một nguồn dữ liệu và truy vấn ít nhất một mà sẽ trả về một tập hợp dữ liệu mà bạn có thể sử dụng để báo cáo

1.1.3.2.3.3 Tạo truy vấn Với Metadata Query Editor

Bạn phải trong siêu dữ liệu Data Source Editor cửa sổ để theo dõi quá trình này Bạn cũng nên có thành lập và thử nghiệm kết nối dữ liệu siêu dữ liệu nguồn Thực hiện theo quy trình này để thiết kế một truy vấn siêu dữ liệu: Với tất cả các siêu dữ liệu nguồn dữ liệu của bạn lựa chọn đúng gõ vào, nhấp vào biểu tượng bút chì ở trên góc trên bên phải của lĩnh vực truy vấn Các siêu

dữ liệu Query Editor cửa sổ sẽ xuất hiện Nếu các biểu tượng bút chì là màu xám

ra ngoài, sau đó dữ liệu nguồn của bạn là sai

Trang 40

Chọn một tập hợp dữ liệu từ hộp thả xuống kinh doanh Lượt xem ở phía trên bên trái Danh sách các bảng có sẵn và các cột sẽ cập nhật một cách thích hợp Kích đúp vào một bảng để hiển thị các cột của nó

Nhắp chuột vào một cột mà bạn muốn chọn, sau đó nhấp vào mũi tên bên cạnh hộp Select Columns Bạn có thể chọn nhiều cột bằng cách giữ phím Ctrl trong khi click vào cột

Lặp lại quá trình này cho các cột bạn muốn tạo điều kiện bằng cách di chuyển một cột trên hộp điều kiện Điều kiện phải có giá trị trong dấu ngoặc kép để xác minh trong Metadata Query Editor

Lặp lại quá trình trên cho cột bạn muốn để kết quả của bạn bằng cách bằng cách

di chuyển một cột vào Sắp xếp theo hộp

Click OK để hoàn tất các câu truy vấn Bạn sẽ trở lại cửa sổ cấu hình các nguồn

dữ liệu truy vấn của bạn mới thành lập sẽ xuất hiện trong lĩnh vực truy vấn Trường này có thể chỉnh sửa, vì vậy bạn có thể sửa đổi các truy vấn trước khi tiếp tục

Click OK để đóng Nguồn dữ liệu Metadata Editor

Bây giờ bạn có một nguồn dữ liệu và truy vấn ít nhất một mà sẽ trả về một tập hợp dữ liệu mà bạn có thể sử dụng để báo cáo

1.1.3.2.3.4 Tạo ra một JfreeChart

Để thêm một đồ thị hoặc biểu đồ truyền thống của một báo cáo của bạn, hãy làm theo quá trình:

Kéo và thả một yếu tố cấu thành một dãy

Sử dụng thay đổi kích cỡ các xử lý, thay đổi kích thước của biểu đồ để phù hợp với thông số kỹ thuật của bạn

Click đôi vào biểu đồ Tùy Chỉnh sửa đồ hộp thoại sẽ xuất hiện với nhiều tuỳ chọn tùy chỉnh và cài đặt

Điều chỉnh biểu đồ tùy chọn để sở thích của bạn, sau đó nhấp OK Tư vấn các loại đồ để tìm hiểu thêm về những gì mỗi thiết lập hiện trong từng loại biểu đồ Nhấp vào Xem trước để xác minh rằng biểu đồ của bạn xuất hiện như dự định Bây giờ bạn sẽ có một biểu đồ phù hợp mà trực quan đại diện cho dữ liệu được chọn

Ngày đăng: 27/02/2019, 11:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w