1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx

61 483 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 2,62 MB

Nội dung

TÓM TẮT Cùng với việc áp dụng rộng rãi công nghệ thông tin vào trong hầu hết các lĩnh vực trong đời sống, kinh tế, xã hội đó là việc dữ liệu thu nhận được qua thời gian ngày càng nhiều.V

Trang 1

1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

****************

Nguyễn Văn Tâm

PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ

PENTAHO

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY

Ngành: Công Nghệ Thông Tin

Hà Nội - 2013

Trang 2

2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

****************

Nguyễn Văn Tâm

PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ

PENTAHO

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY

Ngành: Công Nghệ Thông Tin

Cán bộ hướng dẫn : ThS Lê Hồng Hải

Hà Nội - 2013

Trang 3

TÓM TẮT

Cùng với việc áp dụng rộng rãi công nghệ thông tin vào trong hầu hết các lĩnh vực trong đời sống, kinh tế, xã hội đó là việc dữ liệu thu nhận được qua thời gian ngày càng nhiều.Vì vậy, yêu cầu thiết yếu đặt ra đối với các doanh nghiệp đó là việc khai thác các dữ liệu một các hiệu quả để phục vụ cho việc kinh doanh ngày càng tốt hơn Khóa luận này với đề tài áp dụng công cụ Pentaho và kỹ thuật OLAP để phân tích, xử

lý kho dữ liệu trong báo cáo viễn thông

Trang 4

LỜI CẢM ƠN

Để hoàn thành khóa luận chuyên ngành một cách hoàn chỉnh, em xin bày tỏ lòng cảm ơn chân thành đến các thầy cô đã hướng dẫn thực tập tại trường Đại Học Công Nghệ Đặc biệt là thầy Lê Hồng Hải, thầy đã trực tiếp hướng dẫn tận tình, sửa chữa và đóng góp nhiều ý kiến quý báu giúp chúng em hoàn thành khóa luận tốt nghiệp của mình

Con xin chân thành cảm ơn Ông Bà, Cha Mẹ đã luôn động viên, ủng hộ vật chất lẫn tinh thần trong suốt thời gian qua

Chân thành cảm ơn đến các bạn trong trong tập thể lớp K54CB đã hỗ trợ để mình có thể hoàn thành tốt khóa luận

Lời cảm ơn chân thành và sâu sắc, em xin gửi đến gia đình, đã luôn sát cánh và động viên em trong những giai đoạn khó khăn nhất

Em cũng xin chân thành gửi lời cảm ơn đến tất cả các thầy cô đã giảng dạy em thời gian qua, đã truyền đạt và trang bị cho em những kinh nghiệm, kiến thức chuyên môn, giúp chúng

em mở rộng tầm nhìn khi thâm nhập vào thực tế Em xin hứa sẽ không ngừng phấn đấu nỗ lực vươn lên trong học tập và công tác sau này

Sinh viên Nguyễn Văn Tâm

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan khóa luận tốt nghiệp là do tôi "Nguyễn Văn Tâm" viết dưới sự hướng dẫn của ThS.Lê Hồng Hải, bộ môn Các hệ thống thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Trong toàn bộ nội dung của khóa luận, tôi xin cam đoan ngoài những phần do cá nhân tự viết, mọi nội dung có nguồn gốc từ nghiên cứu bên ngoài, của cá nhân hay tổ chức đều được chỉ rõ trong trích dẫn và trong danh mục tài liệu tham khảo một cách rõ ràng Nếu có vấn đề sai sót tôi xin hoàn toàn chịu trách nhiệm

Trang 6

MỤC LỤC Chương 1: Giới thiệu hệ thống và lý do chọn đề tài, tìm hiểu kho dữ liệu, tổng

quan về OLAP 10

1.1 Hệ thống xử lý lỗi trong thiết bị mạng Vinaphone 10

1.2 Kho dữ liệu (Data warehouse) 11

1.2.1 Kho dữ liệu 11

1.2.2 Đặc tính kho dữ liệu 11

1.2.3 Ích lợi của kho dữ liệu 12

1.2.4 Cấu trúc hệ thống kho dữ liệu 12

1.2.5 Ứng dụng của kho dữ liệu (Data warehouse) 14

1.3 Tổng quan về OLAP, các mô hình lưu trữ hỗ trợ kỹ thuật OLAP, ưu điểm và nhược điểm của các mô hình 15

1.3.1 Giới thiệu OLAP 15

1.3.2 Cấu trúc OLAP 16

1.3.3 Đơn vị lưu trữ OLAP 17

1.3.4 Một số mô hình hỗ trợ OLAP 18

1.3.4.1 Mô hình Multidimentional OLAP (MOLAP) 18

1.3.4.2 Mô hình Relational OLAP (ROLAP) 19

1.3.4.3 Mô hình Hybrid OLAP (HOLAP) 19

1.3.5 So sánh mô hình dữ liệu 20

Chương 2: Giới thiệu bộ công cụ Pentaho 21

2.1 Tổng quan BI (Pentaho) 21

2.2 Các tính năng mà BI Pentaho hỗ trợ 23

2.3 Lợi ích công cụ BI Pentaho mang lại 25

2.4 Tìm hiểu một số công cụ BI áp dụng vào bài toán thực tế 27

2.4.1 Giới thiệu và sử dụng công cụ PDI (Pentaho Data Integration) 27

2.4.1.1 Giới thiệu công cụ PDI 27

2.4.1.2 Sử dụng công cụ PDI 28

2.4.2 Giới thiệu và sử dụng công cụ Schema workbench 29

2.4.2.1 Giới thiệu Schema workbench 29

2.4.2.2 Sử dụng Schema workbench 30

Trang 7

Chương 3: Xây dựng bài toán dữ liệu trên công cụ Pentaho và kết quả đạt được

32

3.1 Xây dựng bài toán triển khai trên công cụ Pentaho 32

3.2 Thu thập xây dựng dữ liệu thô từ hệ quản trị Oracle 32

3.3 Xây dựng Data Warehouse sử dụng công cụ Pentaho 34

3.4 Xử lý bằng kĩ thuật OLAP sử dụng công cụ Schema-workbench 47

3.4.1 Tạo cube và publish lên server 47

3.4.2 Thiết kế biểu đồ, báo cáo 49

Chương 4: Kết luận 58

Tài liệu kham khảo 59

Trang 8

DANH SÁCH HÌNH VẼ

Hình 1: Cấu trúc hệ thống kho dữ liệu 13

Hình 2: Ứng dụng kho dữ liệu trong Business Intelligence 15

Hình 3: Mô hình cấu trúc OLAP 16

Hình 4: Mô hình dữ liệu MOLAP 18

Hình 5: Mô hình dữ liệu ROLAP 19

Hình 6: Kiến trúc Pentaho BI 21

Hình 7: Báo cáo đồ thị 23

Hình 8: Phân tích lược đồ 24

Hình 9: Ứng dụng data warehouse 25

Hình 10: Công cụ Spoon 27

Hình 11: Giao diện đồ họa Spoon 29

Hình 12: Giao diện thiết kế schema workben 30

Hình 13: Tạo thuộc tính kết nối Cube 30

Hình 14: Chọn kết nối tới cơ sở dữ liệu 31

Hình 15: Tạo mới schema cube 31

Hình 16: Dữ liệu thô các cảnh báo lỗi 33

Hình 17: Mô hình mối quan hệ giữa các bảng dữ liệu 34

Hình 18: Dữ liệu vào từ Oracle 35

Hình 19: Lựa chọn cơ sở dữ liệu 36

Hình 20: Lựa chọn kết nối 37

Hình 21: Step Combination lookup/update 38

Hình 22: Connection dim_time 39

Hình 23: Kết nối dim_time 39

Hình 24: Kiểm tra kết nối tới database 40

Hình 25: Tạo dim_time 41

Hình 26: Hiển thị các bảng dim 42

Hình 27: Tạo bảng dữ liệu fact_alarm 43

Hình 28: Hiển thị log 44

Hình 29: Tạo một thủ tục 45

Hình 30: Dữ liệu sau khi xử lý 46

Trang 9

Hình 31: Tạo cube 47

Hình 32: Tạo kết nối tới Admintor 48

Hình 33: Đăng nhập server 48

Hình 34: Giao diện thiết kế báo cáo 49

Hình 35: Lựa chọn schema 49

Hình 36: Thiết kế biểu đồ 50

Hình 37: Lựa chọn thước đo 50

Hình 38: Lựa chọn chiều thời gian 51

Hình 39: Lựa chọn thời gian theo năm 51

Hình 40: Lựa chọn thời gian tháng, ngày, giờ 52

Hình 41: Chỉnh sửa cấu trúc biểu đồ 53

Hình 42: Biểu đồ đường thể hiện tổng số lỗi trong năm 2012 53

Hình 43: Biểu đồ cột thể hiện tổng số lỗi trong năm 2012 54

Hình 44: Biểu đồ cột nhiều mầu sắc thể hiện tổng số lỗi trong năm 2012 55

Hình 45: Bảng dữ liệu về tổng lỗi năm 2012 55

Hình 46: Xử lý các chiều dữ liệu để phân tích 56

Hình 47: Lựa chọn mức lỗi 56

Hình 48: Biểu đồ đường hiển thị mức lỗi 57

Hình 49: Biểu đồ cột hiển thị mức lỗi 57

Trang 10

BẢNG TỪ VIẾT TẮT

MOLAP Multidimensional Online Analysis Processing ROLAP Relational Online Analysis Processing

Trang 11

LỜI MỞ ĐẦU

Cùng với việc áp dụng rộng rãi công nghệ thông tin vào trong hầu hết các lĩnh vực trong đời sống, kinh tế, xã hội đó là việc dữ liệu thu nhận được qua thời gian ngày càng nhiều.Vì vậy, yêu cầu thiết yếu đặt ra đối với các doanh nghiệp đó là việc khai thác các dữ liệu này một các hiệu quả để phục vụ cho việc kinh doanh ngày càng tốt hơn

Khóa luận này với đề tài “Áp dụng kỹ thuật OLAP và kho dữ liệu trong báo cáo viễn thông” giới thiệu về kho dữ liệu, phương pháp OLAP và ứng dụng trong phân tích các cảnh báo lỗi của nhà mạng Vinaphone bằng công cụ Pentaho

Khóa luận gồm bốn chương:

Chương 1 Giới thiệu tổng quan hệ thống và lý do chọn đề tài Giới thiệu kho

dữ liệu, tổng quan về OLAP, các mô hình lưu trữ hỗ trợ kỹ thuật OLAP, ưu điểm và nhược điểm của các mô hình

Chương 2 Giới thiệu bộ công cụ Pentaho, tìm hiểu cụ thể một số công cụ Pentaho để xây dựng bài toán thực tế

Chương 3 Giới thiệu bài toán triển khai trên Pentaho và kết quả đạt được triển khai Pentaho trên một bài toán thực

Chương 4 Phần kết luận tổng kết và tóm lược những kết quả, đóng góp chính của khóa luận

Trang 12

Chương 1: Giới thiệu hệ thống và lý do chọn đề tài, tìm hiểu kho

dữ liệu, tổng quan về OLAP

Tóm lược nội dung :

Mục tiêu của chương này nhằm trình bày lý do lựa chọn đề tài, tổng quan về dữ liệu của hệ thống cung cấp các dịch vụ giá trị gia tăng trên điện thoại, mục tiêu và phạm vi của đồ án, công cụ và phương pháp xây dựng kho dữ liệu

1.1 Hệ thống xử lý lỗi trong thiết bị mạng Vinaphone

Tập đoàn viễn thông VNPT là đơn vị đi đầu về lĩnh vực viễn thông của đất nước Tập đoàn ra đời với một sứ mệnh to lớn là xã hội hóa, phổ cập hóa các dịch vụ thông di động Dựa trên tiềm lực và chiến lược phát triển đúng đắn của Tập đoàn VNPT, mạng di động VinaPhone được đầu tư và phát triển đi thẳng vào công nghệ hiện đại nhất Trước sự phát triển công nghệ thông tin viễn thông đó, mạng di động này cũng gặp phải nhiều sự cố, lỗi do các thiết bị phần cứng gây ra cũng như lưu lượng người truy cập quá lớn làm hệ thống quá tải và sinh ra các cảnh báo lỗi Để có thể biết trước được khả năng phát sinh ra lỗi của thiết bị, nhà mạng cần phải lưu lại dữ liệu phân tích và xử lý để có kế hoạch khắc phục được sự cố trong tương lại Sau một thời gian dài hoạt động do dữ liệu hệ thống ngày một gia tăng cùng với nhu cầu cao hơn trong phân tích số liệu hệ thống đã không đáp ứng được một số vấn đề sau đây

- Do dữ liệu ngày càng gia tăng vì thế tốc độ xử lý các truy vấn để tạo báo cáo sản lượng chậm

- Tổ chức dữ liệu theo mô hình cơ sở dữ liệu quan hệ khiến cho việc truy vấn

dữ liệu không linh hoạt Với những câu hỏi nghiệp vụ phức tạp việc truy vấn

là rất khó khăn và thời gian xử lý chậm

- Dữ liệu dùng cho hệ thống báo cáo sản lượng là dữ liệu nghiệp vụ chưa qua

xử lý, còn dư thừa nhiều, không phù hợp với một hệ thống báo cáo và phân tích số liệu

Để giải quyết vấn đề này, hệ thống Data warehouse (kho dữ liệu) ra đời cùng với các kỹ thuật OLAP, Data mining (khai phá dữ liệu) để có thể giúp được người quản trị cấp cao trả lời các câu hỏi mà họ yêu cầu

Trang 13

1.2 Kho dữ liệu (Data warehouse)

1.2.1 Kho dữ liệu

Data warehouse - kho dữ liệu là một tập hợp thông tin cơ bản trên máy vi tính

mà chúng có tính quyết định đến việc thực hiện thành công bước đầu trong công việc kinh doanh[1]

Một kho dữ liệu, gọi một cách chính xác hơn là kho thông tin (information warehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế với việc tiếp cận các ý kiến trong mọi lĩnh vực kinh doanh Nó cung cấp các công cụ để đáp ứng thông tin cần thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức - không những chỉ là những yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiện nhất để đạt được việc lấy thông tin nhanh, chính xác Một kho dữ liệu được thiết kế để người sử dụng có thể nhận ra thông tin mà họ muốn có và truy cập đến bằng những công cụ đơn giản[9]

Một kho dữ liệu là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữ liệu đa chiều và mối quan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồ họa và nhiều nữa Dữ liệu trong kho dữ liệu không giống dữ liệu của hệ điều hành là loại chỉ có thể đọc nhưng không chỉnh sửa được Hệ điều hành tạo ra, chỉnh sửa và xóa những dữ liệu sản xuất mà những dữ liệu này cung cấp cho kho dữ liệu Nguyên nhân chính cho sự phát triển một kho dữ liệu là hoạt động tích hợp dữ liệu từ nhiền nguồn khác nhau vào một kho dữ liệu đơn lẻ và dày đặc mà kho này cung cấp cho việc phân tích và ra quyết định trong công việc kinh doanh

1.2.2 Đặc tính kho dữ liệu

Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm

Gigabyte, được tổ chức theo những chủ đề chính Kho dữ liệu không chú trọng vào giao tác và việc xử lý giao tác Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định Do đó, các kho dữ liệu thường cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu không cần thiết trong quá trình ra quyết định

Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu

từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực tuyến hoặc thậm chí là từ những file dữ liệu độc lập Những dữ liệu này tiếp tục được làm sạch, chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu

Trang 14

Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi,

chủ yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao Hai thao tác chủ yếu tác động tới kho dữ liệu là nhập dữ liệu vào và truy xuất

Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ

liệu của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mô hình nghiệp vụ, dự báo, khảo sát những chỉ tiêu cần quan tâm

1.2.3 Ích lợi của kho dữ liệu

Tạo ra những quyết định có ảnh hưởng lớn Một kho dữ liệu cho phép trích rút tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào cơ sở dữ liệu hoạt động và sản xuất Điều này tạo ra sự tiết kiệm đáng kể

Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp

Công việc kinh doanh trở nên thông minh hơn Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted Data)

Dịch vụ khách hàng được nâng cao Một doanh nghiệp có thể giữ gìn mối quan

hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một kho dữ liệu riêng

Tái sáng tạo những tiến trình kinh doanh Sự cho phép phân tích không ngừng thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp em đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính xác hơn

Tái sáng tạo hệ thống thông tin Một kho dữ liệu là nền tảng cho các yêu cầu dữ liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế

1.2.4 Cấu trúc hệ thống kho dữ liệu

Hệ thống kho dữ liệu thường bao gồm 3 tầng như trong hình 1

Trang 15

Tầng đáy: là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn

hóa, lưu trữ tập trung

Tầng giữa: thực hiện các thao tác với kho dữ liệu thông qua dịch vụ OLAP

(OLAP server) Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả hai mô hình trên thành mô hình Hybrid OLAP

Tầng trên: thực hiện việc truy vấn, khai phá thông tin

Hình 1: Cấu trúc hệ thống kho dữ liệu

Trang 16

1.2.5 Ứng dụng của kho dữ liệu (Data warehouse)

Kho dữ liệu được đưa vào ba mảng ứng dụng chính

Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được

sử dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo Nhờ việc dữ liệu thô đã được chuyển sang thành các dữ liệu ổn định, có chất lượng nên kho

dữ liệu đã giúp nâng cao kỹ thuật biểu diễn thông tin truyền thống Dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất, giúp loại bỏ nhiều lỗi sinh ra

do phải thu thập và biểu diễn thông tin từ nhiều nguồn khác nhau đồng thời giảm bớt

sự chậm trễ do phải lấy dữ liệu từ những phân đoạn khác nhau, tránh cho người dùng phải viết những truy vấn SQL quá phức tạp

Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP) Trong khi ngôn ngữ SQL và các công cụ xây dựng báo cáo truyền thống chỉ có thể mô

tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai Tuy nhiên, phân tích trực tuyến lại không

có khả năng đưa ra được các giả thuyết Ngoài ra, sử dụng OLAP còn giúp phân tích tổng hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặc bảng biểu trực quan

Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu Đây là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cũng như yêu cầu trong thực tiễn Các kết quả thu được mang nhiều tính dự báo,

dự đoán, dùng trong việc xây dựng kế hoạch, chiến lược

Các lĩnh vực hiện tại áp dụng kho dữ liệu

- Thương mại điện tử

- Kế hoạch hoá nguồn lực doanh nghiệp (ERP - Enterprise Resource Planning)

- Quản lý quan hệ khách hàng (CRM - Customer Relationship Management)

- Chăm sóc sức khỏe

- Viễn thông

Trang 17

Hình 2: Ứng dụng kho dữ liệu trong Business Intelligence

1.3 Tổng quan về OLAP, các mô hình lưu trữ hỗ trợ kỹ thuật OLAP, ưu điểm và nhược điểm của các mô hình

1.3.1 Giới thiệu OLAP

OLAP là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối (cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu Tạo khối (cube) cho dữ liệu trong các bảng chiều (dimension table) và bảng sự kiện (fact table) trong kho dữ liệu và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho các ứng dụng client – theo Hari Mailvaganam [5]

Trong khi kho dữ liệu và Data mart lưu trữ dữ liệu cho phân tích, thì OLAP là

kỹ thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này OLAP cung cấp nhiều lợi ích cho người phân tích, cho ví dụ như

- Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu

- Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp

- Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt

- Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt OLAP được đặt ra để xử lý

Trang 18

các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian

Hình 3: Mô hình cấu trúc OLAP

1.3.2 Cấu trúc OLAP

Khối (Cube) : Khối là phần tử chính trong xử lý phân tích trực tuyến, là tập

con dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc đa chiều Để xác định một khối, em chọn một bảng Fact và các đơn vị đo lường đồng nhất (các cột

số theo sự quan tâm của người dùng khối) trong bảng Fact Sau đó chọn các chiều, mỗi chiều gồm một hay nhiều cột từ bảng liên quan khác Các chiều cung cấp mô tả rõ ràng bởi các đơn vị đo lường được chia ra của người dùng khối

Chiều (Dimension): Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu

số trong khối được phân chia để phân tích Khi xác định một chiều, chọn mộthoặc nhiều cột của một trong các bảng liên kết (bảng chiều) Nếu em chọn cáccột phức tạp thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thểnhất Ví dụ: một chiều thời gian (Time) được tạo ra từ các cột Năm, Qúy, Tháng, Ngày (Year, Quarter, Month và Day) Mỗi cột trong chiều góp phần vào một cấp độ cho chiều Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down)

Trang 19

Chiều có phân cấp: Phân cấp là cột sống của việc gộp dữ liệu hay nói một

cách khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được Phần lớn các chiều đều có một cấu trúc đa mức hay phân cấp Nếu chúng em làm những quyết định về giá sản phẩm để tối đa doanh thu thì chúng em cần quan sát ở những dữ liệu về doanh thu sản phẩm được gộp theo giá sản phẩm, tức là chúng em đã thực hiện một cách gộp Khi cần làm những quyết định khác thì chúng em cần thực hiện những phép gộp tương ứng khác Như vậy có thể có quá nhiều tiến trình gộp Thế nên các tiến trình gộp này cần phải được thực hiện một cách rất dễ dàng, linh hoạt để

có thể hỗ trợ những phân tích không hoạch định trước Điều này có thể được giải quyết trên cơ sở có sự trợ giúp của những phân cấp rộng và sâu

Roll_up và Drill_down: Dựa trên phân cấp theo chiều, từ một mức dưới,

chúng em có thể cuộn lên (Roll_up) các mức trên, thực hiện một phép gộp, để có được kết qủa tổng hợp hơn Và từ một mức trên, có thể khoan sâu xuống (Drill_down) các mức dưới, để có các kết quả chi tiết hơn

Các đơn vị đo lường (Measures): Các đơn vị đo của khối là các cột trong bảng

Fact Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phân tích như định giá, trị giá, hoặc số lượng bán

1.3.3 Đơn vị lưu trữ OLAP

Những thành phần mà OLAP sử dụng để thực hiện các dịch vụ bao gồm

Nguồn dữ liệu: Các cơ sở dữ liệu OLTP và các nguồn dữ liệu hợp lệ khác chứa

các dữ liệu có thể chuyển đổi thành dữ liệu OLAP trong kho lưu trữ

Kho trung gian: là nơi lưu trữ và xử lý dữ liệu được tập hợp, sau đó được sắp

xếp, sàng lọc, chuyển đổi thành dữ liệu OLAP hữu ích

Máy chủ lưu trữ: Các máy tính chạy cơ sở dữ liệu liên kết chứa các kho dữ liệu

cho kho lưu trữ, và các máy chủ quản lý dữ liệu OLAP (warehouse server)

Ứng dụng thông minh: Các bộ công cụ và ứng dụng thực hiện truy vấn dữ liệu

OLAP và cung cấp các báo cáo và thông tin cho người ra quyết định của doanh nghiệp (Business Intelligence)

Siêu dữ liệu: Các đối tượng như các bảng biểu trong cơ sở dữ liệu OLTP, các

khối trong kho lưu trữ dữ liệu, và các bản ghi mà ứng dụng tham chiếu tới các đoạn dữ liệu khác nhau

Trang 20

1.3.4 Một số mô hình hỗ trợ OLAP

Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ dữ liệu khác nhau, mỗi mô hình có các ưu và khuyết điểm riêng, chúng được sử dụng tuỳ theo mục đích khai thác Một số

mô hình lưu trữ dữ liệu (Molap, Rolap, Holap)

1.3.4.1 Mô hình Multidimentional OLAP (MOLAP)

Dữ liệu cơ bản của khối được lưu trữ cùng với dữ liệu kết hợp (Aggregation) trong cấu trúc đa chiều hiệu suất cao Cách tiếp cận này kết hợp kho dữ liệu đa chiều và các dịch

vụ của OLAP trên cùng một Server MOLAP là một cấu trúc tối ưu cho việc lưu trữ các sự kiện đã phân loại và cùng với nó là các chiều Dữ liệu được tổ chức theo khung nhìn dữ liệu

và được lưu trữ trong một biểu mẫu được kết hợp và tổng hợp Tệp Index nhỏ hơn khiến cho việc trả lời những truy vấn phức tạp rất nhanh Vì dữ liệu được lưu trữ trong các mảng, việc cập nhật các giá trị không ảnh hưởng nhiều tới tệp chỉ số Điều này khiến cho việc cài đặt những ứng dụng cập nhật hoặc đọc-ghi như dự báo và điều chỉnh trở nên dễ dàng [6]

MOLAP là sự lựa chọn tốt nhất cho những ứng dụng có đặc điểm

- Yêu cầu tốc độ truy vấn cao

- Có khả năng phân tích dữ liệu phức hợp MOLAP cung cấp môi trường phân tích mạnh hơn ROLAP

- Dễ sử dụng: bởi dữ liệu đã được tổng hợp từ trước và được lưu trong kho dữ liệu

đa chiều Tất cả những gì người sử dụng cần làm là xác định các chiều và các nhóm nằm trong các chiều đó Trong khi đó ROLAP lại yêu cầu người sử dụng phải hiểu được sự ánh xạ tới các CSDL tác nghiệp

Hình 4: Mô hình dữ liệu MOLAP

Trang 21

1.3.4.2 Mô hình Relational OLAP (ROLAP)

Dữ liệu cơ bản của khối được lưu trữ cùng với dữ liệu kết hợp (Aggregation) trong cơ

sở dữ liệu quan hệ Phương pháp tiếp cận này bao gồm các dịch vụ của OLAP và cơ sở dữ liệu quan hệ Các dữ liệu được lưu trữ trong những bảng quan hệ và có thể có kích thước hàng trăm Gigabyte Những hệ ROLAP cung cấp các Engine truy vấn cực kỳ linh động bằng việc

“chuẩn bị sẵn sàng” tất cả dữ liệu tác nghiệp cho người sử dụng đầu cuối, dễ dàng trích và tổng hợp dữ liệu theo yêu cầu Những công cụ ROLAP có thể trích dữ liệu từ rất nhiều nguồn CSDL quan hệ khác nhau

Hình 5: Mô hình dữ liệu ROLAP

ROLAP là sự lựa chọn cho kho dữ liệu có những đặc điểm sau

- Dữ liệu thường xuyên thay đổi: trong một kho dữ liệu hay biến động và người sử dụng lại đòi hỏi những tổng hợp gần như tức thời, ROLAP sẽ là sự lựa chọn duy nhất MOLAP phải trích lấy và tổng hợp dữ liệu ngoại tuyến (Offline), hơn nữa hầu hết các cơ sở dữ liệu đa chiều đều yêu cầu tính toán lại toàn bộ CSDL khi một chiều được thêm vào, khi một lược đồ tổng hợp thay đổi hoặc khi dữ liệu mới được thêm vào Những đặc điểm này khiến cho MOLAP không thích hợp với những hệ hỗ trợ quyết định mà nguồn dữ liệu thường xuyên biến động

- Khối lượng dữ liệu lớn: Đối với những kho dữ liệu có độ lớn cỡ Terabyte, MOLAP đòi hỏi việc tính toán trước dữ liệu với hàng trăm Terabyte không gian lưu trữ

- Các dạng truy vấn không được biết trước: ROLAP cho phép truy vấn và tổng hợp

từ bất kỳ nguồn dữ liệu tác nghiệp nào Tuy nhiên khả năng này lại dẫn tới sự phức tạp khi sử dụng, trong việc ánh xạ tới các nguồn dữ liệu tác nghiệp

1.3.4.3 Mô hình Hybrid OLAP (HOLAP)

Là kết hợp hai phương pháp MOLAP và ROLAP Dữ liệu cơ bản của khối được lưu trữ trong cơ sở dữ liệu quan hệ và dữ liệu kết hợp (Aggregation) được lưu

Trang 22

trữ trong cấu trúc đa chiều hiệu suất cao Lưu trữ HOLAP đưa ra những lợi ích của MOLAP cho việc liên kết mà không cần thiết một bản sao chính xác từ dữ liệu chi tiết

Lợi ích của việc lưu trữ trong cấu trúc HOLAP là:

- Lấy dữ liệu trong khối (cube) nhanh hơn bằng cách sử dụng xử lý truy vấn tốc độ cao của MOLAP

- Tiêu thụ ít không gian lưu trữ hơn MOLAP

- Tránh trùng lặp dữ liệu

1.3.5 So sánh mô hình dữ liệu

Bảng sau so sánh tổng hợp ba mô hình lưu trữ hỗ trợ OLAP

Lưu trữ dữ liệu cơ sở Khối Bảng quan hệ Bảng quan hệ

Hiệu suất thực hiện truy vấn Nhanh nhất Chậm nhất Nhanh

Trang 23

Chương 2: Giới thiệu bộ công cụ Pentaho

2.1 Tổng quan BI (Pentaho)

Pentaho là phần mềm mã nguồn mỡ được sáng lập vào năm 2004 bởi Pioneer Home page: www.Pentaho.com Bộ công cụ Pentaho open BI cung cấp một cái nhìn toàn cảnh về khả năng kinh doanh thông minh (BI) của doanh nghiệp bao gồm: lập biểu báo, phân tích, biểu đồ, tích hợp dữ liệu, và là một hệ BI mã nguồn mở phổ biến nhất thế giới Sản phẩm của Pentaho được các doanh nghiệp hàng đầu sử dụng như: MySql Motorola, Terra Industries, Divx.[7]

Version Pentaho hiện tại là Pentaho Analytics Suite 4.5 (2012, Apr, 24) Pentaho có 2 phiên bản Pentaho EE (Enterprise Edition) tính phí và Pentaho CE (Community Editor) miễn phí Mọi người có thể download bản Pentaho CE tại home page của Pentaho Cả 2 phiên bản này về các tool ko có khác biệt nhiều, EE thì sẽ được support nhiều hơn.

Hình 6: Kiến trúc Pentaho BI

Pentaho được gọi lại thành 1 package là BI suite trong đó có 5 module chính.[7]

- Pentaho Reporting: Tạo các report, trong đó chúng em có thể tạo report trực tiếp trên Browser bằng cách kéo thả các column hay row hay measure từ

Trang 24

metaData hay cube Với cách này chúng em chỉ có thể tạo những report đơn giản (Interactive Report) Đối với những report phức tạp thì chúng em phải dùng một tool khác như Report Designer hay Design Studio Những người

có kiến thức vững về Java thì nên sử dụng Design Studio

- Pentaho Dashboard: Tạo các dashboard Một dashboard có thể chứa các report, cross emb, chart…Đặc biệt là cho nhúng google Map vào để phân tích theo từ vùng địa lý

- Pentaho Data Intergration: Đây là một ETL (Extraction Transformation Loading) tool Dùng để tổng hợp, chuyển đổi, xử lý dữ liệu Đây là một tool khá mạnh của Pentaho

- Pentaho OLAP: Phân tích dữ liệu dựa trên multi-dimension Với tool Schema Workbench chúng em có thể tạo các cube theo kiểu R-OLAP

- Data Mining:

Dưới đây là 7 công cụ trên Client

- Pentaho Report Designer: Là tool tạo các report

- Pentaho Design Studio: Là tool để tạo report, flashchart giống như một framwork của Java Nếu bạn là một người giỏi về Java thì nên tận dụng công cụ này Bạn có thể add các plugin hay các component vào

- Pentaho MetaData Editor: Là tool để tạo metaData MetaData là kiểu dữ liệu gói được tạo từ semr schema Sau khi tạo xong chúng em có thể public để user có thể để dàng tạo report từ browser bằng việc kéo thả

- Pentaho Schema Workbench: Là công cụ tạo cube theo kiểu OLAP Sau đó Public lên server để user dễ dàng sử dụng để phân tích

- Pentaho Aggregate Designer: Là cộng cụ hỗ trợ cho Schema Workbench để tạo cube

- Pentaho Data Intergration: Là tool ETL để thực hiện kĩ thuật phân tích OLAP

- Pentaho Data Mining: Sử dụng WEKA để xử lý dữ liệu

Ngoài ra chúng em còn có 2 console quản lý chạy trên browser

- Pentaho Enterprise Console: Là console để quản lý user, Datasource, Biserve

- Pentaho User Console: Là interface của user, tại đây user có thể tạo report, chart, crossemb, dashboard, Datasoure, cube, metaData

Trang 25

2.2 Các tính năng mà BI Pentaho hỗ trợ

Báo cáo: Các tổ chức sử dụng báo cáo từ nhiều nguồn nên báo cáo là cốt lõi và được

khai thác đầu tiên trong kinh doanh thông minh Báo cáo Pentaho cho phép các doanh nghiệp truy cập, định dạng và phân phối thông tin dễ dàng đến nhân viên, khách hàng và các đối tác

- Linh hoạt trong triển khai từ những báo cáo đơn đến các báo cáo dạng web tích hợp trong kinh doanh thông minh của doanh nghiệp

- Hỗ trợ nhiều nguồn dữ liệu như OLAP, hay nguồn dữ liệu dựa trên XML

- Xuất dữ liệu linh hoạt ra PDF, HTML, Microsoft Excel, Rich Text Format, hay text thuần túy

- Wizard hỗ trợ thiết kế báo cáo dễ dàng và nhanh chóng

- Phiên bản chuyên nghiệp với nhiều chức năng như phân nhóm, đăng ký, tích hợp thư mục, kiểm duyệt

Hình 7: Báo cáo đồ thị

Phân tích: Pentaho Analysis là một công cụ phân tích đắc lực giúp người dùng đưa ra

những quyết định có hiệu quả nhất Ví dụ: Báo cáo cho biết tình hình bán có khuynh hướng giảm hơn so với mong đợi thì các tri thức dễ dàng phát hiện ra nguyên nhân vấn đề bằng cách

đặt các câu hỏi sau:

- Vấn đề ảnh hưởng đến một dòng sản phẩm hay một khu vực nào đó?

Trang 26

- Sự khác nhau giữa sự phối hợp này với những phối hợp khác mà không có vấn đề

là gì?

- Vấn đề liên quan với những hàng bán ở đó là gì? Những chiến dịch tiếp thị? Hay

cái gì khác?

Pentaho Analysis giúp trả lời những câu hỏi kinh doanh bằng cách

- Giúp người dùng dễ dàng khai thác thông tin kinh doanh bằng cách kéo, thả, xem chi tiết hay lập bảng kiểm tra chéo dữ liệu

- Trả lời nhanh các truy vấn phân tích phức tạp

- Giải quyết các câu hỏi phức tạp nhanh chóng

- Hỗ trợ các khả năng tiên tiến bao gồm báo cáo tích hợp, siêu dữ liệu, biểu đồ thông qua việc tích hợp với các sản phẩm khác trong bộ Pentaho

Hình 8: Phân tích lược đồ

Biểu đồ: Pentaho Dashboards giúp người quản trị hiểu tường tận sự việc bên trong

ngay lập tức từ sự thực hiện cá nhân, phòng ban, hay doanh nghiệp Bằng phép đo trên giao diện trực quan, Pentaho Dashboards cung cấp cho nhà doanh nghiệp thông tin thực giúp họ

hiểu biết và cải thiện công việc

Pentaho Dashboards hỗ trợ tính trực quan bằng cách cung cấp:

- Khả năng quản lý các phép đo toàn diện cho phép định nghĩa và theo dõi những đo đạc đáng chú ý ở mức độ cá nhân, phòng ban hay doanh nghiệp

Trang 27

- Hiển thị trực quan phong phú giúp nhà kinh doanh có thể thấy ngay những cái nào đang đi đúng hướng và cái nào cần chú ý

- Tích hợp báo cáo và phân tích để người sử dụng có thể khai thác tận gốc các báo cáo và phân tích để hiểu những nhân tố đưa đến thành công hay thất bại Cổng tích hợp dễ dàng chuyển các phép đo đạc trong kinh doanh liên quan với số lượng lớn người sử dụng, tích hợp thẳng vào trong ứng dụng của họ

- Tích hợp báo động để liên tục theo dõi những ngoại lệ và thông báo cho người sử dụng biết

Khai phá dữ liệu: Những mối quan hệ tìm ẩn trong dữ liệu có thể được dùng để tối

ưu hóa những qui trình nghiệp vụ và dự đoán những kết quả tương lai Cung cấp một phạm vi tiên tiến đầy đủ các giải thuật khai thác dữ liệu Hiển thị kết quả cho người dùng với định

dạng dễ hiểu

2.3 Lợi ích công cụ BI Pentaho mang lại

Cung cấp hiểu biết tường tận giữa các mẫu và mối quan hệ ẩn trong dữ liệu của bạn

Một ví dụ điển hình của việc khai thác dữ liệu là một người bán lẻ phát hiện ra mối quan hệ giữa việc bán tả lót và bia vào những chiều chủ nhật – Hai sản phẩm này chẳng có quan hệ gì với nhau Nhưng nếu tình cờ nhữnhg ông chồng phát hiện trong kho hàng có bia thì họ sẽ nhặt bia lên thay vì tả lót – điều này sẽ không được phát hiện trước khi khai thác dữ liệu

Cho phép bạn khai thác những tương quan để cải thiện công việc

Tiếp tục ví dụ trên, những người bán lẻ thường hoạt động trong những mối quan hệ họ

có bằng cách dùng chiến thuật liên kết các hạn mục với nhau để kích thích sự mua hàng Các doanh nghiệp có thể thu lợi từ theo cách làm giống nhau – sử dụng những kiểu mẫu được khám phá mới nhất và những tương quan như cơ sở để thi hành cải thiện hiệu quả và hiệu lực

Hình 9: Ứng dụng data warehouse

Trang 28

Đúc kết các bí quyết cho tương lai

“Không học từ quá khứ chắc chắn sẽ bị vấp lại” là một lời trích nổi tiếng từ nhà triết học George Santayana Việc khai thác dữ liệu có khả năng dự đoán những hậu quả dựa vào dữ liệu đã có để cải thiện đáng kể chất lượng và những hậu quả trước khi đưa ra quyết định Lấy

ví dụ đơn giản, là người quyết định tốt nên kết hợp các giai đọan mà khách hàng thanh toán

đúng hẹn và lợi dụng những thông tin hữu ích này để đưa ra những quyết định

Có thể áp dụng cho bất cứ BI hoặc tiến trình kinh doanh nào

Tích hợp với các thành phần khác của hệ Pentaho BI cho phép bạn dễ dàng áp dụng khai thác dữ liệu cho bất kỳ tiến trình nào trong hệ thống (chẳn hạng như quay vòng tiền mặt)

và qui trình kinh doanh thông minh (như phát sinh báo cáo, hóa đơn, và những hành động trái quy luật) Việc ứng dụng này rất linh họat tùy theo dữ kiện của tiến trình BI được thực hiện Trích dẫn, tạo, khai thác để có cái nhìn sâu sắc hơn trong phân tích của bạn Điều này xảy ra khi dữ liệu được sinh ra hoặc một phần trong tiến trình chuẩn bị dữ liệu Ví dụ khi làm báo cáo bán hàng bạn có thể hiện vùng đồ họa mà bạn dùng cho khai thác dữ liệu sau này Ngòai

ra bạn cũng có thể thêm dữ liệu trong quá trình chuẩn bị khai thác dữ liệu – như các biến tính

toán hay đơn vị đo lường khác

Cách khai thác dữ liệu

Chọn một mô hình: Các nhà phân tích có thể làm việc trên phạm vi mô hình trực quan

bao gồm các hình thức tiên tiến của khai thác dữ liệu như là xếp nhóm, phân đoạn, các quyết

định hình cây, kiểu ngẫu nhiên, kiểu hình mạng, và phân tích nhân tố thiết yếu

Thêm dữ liệu: Có thể thêm các tính năng khác cho dữ liệu Ví dụ, bạn có thể định nghĩa các biến để hệ thống có thể tự động lấy dữ liệu tạo thêm các cột mới để phân tích

Phù hợp: Mỗi mô hình làm việc có những tham số riêng để phù hợp với dữ liệu mẫu

Những người phân tích có thể dùng tham số này một cách tự động hay điều chỉnh bằng tay

(phụ thuộc vào mô hình)

Đánh giá: Kết quả có thể được đánh giá theo mô hình dùng dữ liệu đã có để so với kết quả thực tế

Tính hoàn hảo: Áp dụng mô hình huấn luyện trong qui trình Sau khi được huấn luyện chắc chắn sẽ đưa ra kết quả tốt nhất cho mục đích kinh doanh cụ thể cần áp dụng

Dữ liệu đầu ra: Áp dụng mô hình huấn luyện trong qui trình Sau khi được huấn luyện chắc chắn sẽ đưa ra kết quả tốt nhất cho mục đích kinh doanh cụ thể cần áp dụng

Kỹ thuật

Công cụ khai thác dữ liệu mạnh: Cung cấp một công cụ học giải thuật toàn diện từ

dự án Weka bao gồm xếp nhóm, chia đoạn, quyết định hình cây, kiểu ngẫu nhiên, kiểu hình

mạng, và phân tích nhân tố thiết yếu

Pentaho tích hợp với hệ Pentaho BI xử lý chuyển đổi định dạng dữ liệu tự động thành các định dạng mà công cụ khai thác dữ liệu cần [8]

Giải thuật có thể áp dụng trực tiếp vào dữ liệu hoặc gọi từ Java

Trang 29

Đầu ra có thể xem dạng đồ thị tương tác với chương trình hoặc dùng nguồn dữ liệu để tạo báo cáo, phân tích sâu hơn hay các xử lý khác nữa

Bộ lọc hỗ trợ việc phân rời hoá, bình thường hóa, mẫu sử dùng lại, chọn lọc thuộc tính, thay đổi và kết hợp thuộc tính

Công cụ phân loại cung cấp các mô hình để dự đoán những số lựơng ảo và thực Sơ đồ học bao gồm những cây quyết định và danh sách, những máy véc tơ hỗ trợ, perceptrons nhiều lớp, hồi quy logic, mạng Baye và các kỹ thuật tiên tiến khác[8]

Tính mềm dẻo và tính thực thi: Được thiết kế để triển khai trong các doanh nghiệp,

ứng dụng với chức năng phong phú chạy trên nền J2EE bao gồm JBoss™ , ngoài ra còn có tính năng mềm dẻo như là phân nhóm

2.4 Tìm hiểu một số công cụ BI áp dụng vào bài toán thực tế

2.4.1 Giới thiệu và sử dụng công cụ PDI (Pentaho Data Integration)

2.4.1.1 Giới thiệu công cụ PDI

Pentaho Data Integration là một công cụ linh hoạt và thân thiện , cung cấp một giao diện đồ họa trực quan (Spoon) để thay đổi và tạo ra các biến đổi trên cơ sở dữ liệu Người dùng có thể sử dụng dễ dàng và nó không yêu cầu bất kì kỹ năng lập trình đặc biệt nào Và hơn hết nó là mã nguồn mở nên được hỗ trợ mở cả một cộng đồng khắp thế giới.[3]

Hình 10: Công cụ Spoon

Pentaho Data Integration bao gồm các ứng dụng sau đây

Spoon: Là thành phần được sử dụng nhiều nhất của Pentaho Nó là một công cụ đồ

họa xây dựng trên nền tảng Eclipse, cho phép cấu hình một cách trực quan các công việc của ETL

Trang 30

Carte: Là một Web Server đơn giản cho phép bạn truy câp từ xa các kho dữ liệu của

Pentaho Data Integration, thực thi, theo dõi, Bắt đầu và kết thúc các công việc, các chuyển đổi được chạy trên server

Quartz: Bộ lập lịch

Pan: Cho phép bạn thực thi các chuyển đổi được thiết kế bởi Spoon, do đó cho phép

các công việc của ETL có thể chạy từ dòng lệnh

Kitchen: Là một chương trình của thể thực thi các công việc được thiết kế, tạo ra bởi

Spoon, Cho phép lập lịch và chạy tự động hàng loạt

2.4.1.2 Sử dụng công cụ PDI

Đầu tiên tôi sẽ nhắc lại về Spoon, công cụ mà bạn phải nắm vững

Spoon: là công cụ tích hợp mà chúng ta sẽ sử dụng để chạy các chuyển đổi

(Transformation) và công việc (Job) Spoon cũng là công cụ đồ họa mà bạn có thể thiết kế và kiểm tra mọi qua trình của Pentaho Data Intergration Các thành phần khác của Pentaho sẽ thực thi các tiến trình được thiết kế bới Spoon

Để khởi động Spoon trên windows chạy file spoon.bat (hoặc file Kettle.exe đối với một số phiên bản cũ hơn) Để khởi động Spoon trong Linux hoặc hệ điều hành khác Unix, bạn

View: Mô tả tất cả các yếu tố (steps, hops, jobs, database connection ) được sử dụng Design: Các hoạt động được sử dụng trong Pentaho Data Integration

Trong khu vực chính: transformations hoặc các job được mở ra theo dạng tab Mỗi file

có một menu cho phép thực hiện các hoạt động như: Run, Debug, explore database

Ngày đăng: 09/03/2014, 19:20

HÌNH ẢNH LIÊN QUAN

Hình 1: Cấu trúc hệ thống kho dữ liệu - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 1 Cấu trúc hệ thống kho dữ liệu (Trang 15)
Hình 2: Ứng dụng kho dữ liệu trong Business Intelligence - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 2 Ứng dụng kho dữ liệu trong Business Intelligence (Trang 17)
Hình 3: Mô hình cấu trúc OLAP - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 3 Mô hình cấu trúc OLAP (Trang 18)
Hình 4: Mô hình dữ liệu MOLAP - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 4 Mô hình dữ liệu MOLAP (Trang 20)
Hình 5: Mô hình dữ liệu ROLAP - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 5 Mô hình dữ liệu ROLAP (Trang 21)
Hình 6: Kiến trúc Pentaho BI - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 6 Kiến trúc Pentaho BI (Trang 23)
Hình 7: Báo cáo đồ thị - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 7 Báo cáo đồ thị (Trang 25)
Hình 8: Phân tích lược đồ - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 8 Phân tích lược đồ (Trang 26)
Hình 9: Ứng dụng data warehouse - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 9 Ứng dụng data warehouse (Trang 27)
Hình 10: Công cụ Spoon - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 10 Công cụ Spoon (Trang 29)
Hình 11: Giao diện đồ họa Spoon - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 11 Giao diện đồ họa Spoon (Trang 31)
Hình 12: Giao diện thiết kế schema workben - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 12 Giao diện thiết kế schema workben (Trang 32)
Hình 14: Chọn kết nối tới cơ sở dữ liệu - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 14 Chọn kết nối tới cơ sở dữ liệu (Trang 33)
Hình 19: Lựa chọn cơ sở dữ liệu - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 19 Lựa chọn cơ sở dữ liệu (Trang 38)
Hình 20: Lựa chọn kết nối - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 20 Lựa chọn kết nối (Trang 39)
Hình 22: Connection dim_time - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 22 Connection dim_time (Trang 41)
Hình 23: Kết nối dim_time - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 23 Kết nối dim_time (Trang 41)
Hình 24: Kiểm tra kết nối tới database - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 24 Kiểm tra kết nối tới database (Trang 42)
Hình 25: Tạo dim_time - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 25 Tạo dim_time (Trang 43)
Hình 26: Hiển thị các bảng dim - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 26 Hiển thị các bảng dim (Trang 44)
Hình 27: Tạo bảng dữ liệu fact_alarm - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 27 Tạo bảng dữ liệu fact_alarm (Trang 45)
Hình 28: Hiển thị log - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 28 Hiển thị log (Trang 46)
Hình 31: Tạo cube - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 31 Tạo cube (Trang 49)
Hình 32: Tạo kết nối tới Admintor - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 32 Tạo kết nối tới Admintor (Trang 50)
Hình 34: Giao diện thiết kế báo cáo - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 34 Giao diện thiết kế báo cáo (Trang 51)
Hình 36: Thiết kế biểu đồ - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 36 Thiết kế biểu đồ (Trang 52)
Hình 41: Chỉnh sửa cấu trúc biểu đồ. - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 41 Chỉnh sửa cấu trúc biểu đồ (Trang 55)
Hình 43: Biểu đồ cột thể hiện tổng số lỗi trong năm 2012 - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 43 Biểu đồ cột thể hiện tổng số lỗi trong năm 2012 (Trang 56)
Hình 44: Biểu đồ cột nhiều mầu sắc thể hiện tổng số lỗi trong năm 2012 - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 44 Biểu đồ cột nhiều mầu sắc thể hiện tổng số lỗi trong năm 2012 (Trang 57)
Hình 48: Biểu đồ đường hiển thị mức lỗi - Đề tài " PHÂN TÍCH DỮ LIỆU HỆ THỐNG CẢNH BÁO LỖI THIẾT BỊ MẠNG DỰA TRÊN BỘ CÔNG CỤ PENTAHO " potx
Hình 48 Biểu đồ đường hiển thị mức lỗi (Trang 59)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w