Kỹ thuật OLAP

Một phần của tài liệu nghiên cứu và ứng dụng các phương pháp học máy nhằm tăng cường hiệu quả các dịch vụ giá trị gia tăng của mạng di dộng beeline (Trang 25)

3. Cấu trúc của luận văn

3.2. Kỹ thuật OLAP

3.2.1. Khái niệm OLAP

Xử lý phân tích trực tuyến (OLAP - Online Analitical Proccessing) là phương pháp để trả lời những truy vấn đa chiều một cách nhanh chóng. OLAP là một phần của hệ Business Intelligence, cùng với báo cáo quan hệ và khai phá dữ liệu. Nó cho phép người sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khác nhau, khoan xuống (drill down) mức chi tiết hơn hay cuộn lên (roll up) mức tổng hợp hơn của dữ liệu. Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ kho dữ liệu hoặc từ Datamart (kho dữ liệu chủ đề) sau đó được chuyển thành mô hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều. Đối tượng chính của OLAP là khối, một sự biểu diễn đa chiều của dữ liệu chi tiết và tổng thể. Một khối bao gồm một bảng sự kiện (Fact), một hoặc nhiều bảng chiều (Dimensions), các đơn vị đo (Measures) và các phân hoạch (Partitions). Những ứng dụng tiêu biểu của OLAP : báo cáo bán hàng, báo cáo marketing, báo cáo quản lý, dự thảo ngân sách, báo cáo tài chính,….Thuật ngữ OLAP có thể coi là một biến thể nhỏ của thuật ngữ cơ sở dữ liệu truyền thống OLTP (Xử lý giao tác trực tuyến).

Trong khi Data warehouse và data mart lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này. OLAP cung cấp nhiều lợi ích cho người phân tích, ví dụ:

Chương 3 – Bộ công cụ Business Intelligence

18

- Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu.

- Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan hệ trong dữ liệu kinh doanh phức tạp. Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn đặc biệt.

- Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt.

OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian.

3.2.2. Các thành phần trong hệ thống OLAP

Khối (Cube) : Khối là phần tử chính trong xử lý phân tích trực tuyến, là tập con dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc đa chiều. Để xác định một khối, ta chọn một bảng Fact và các đơn vị đo lường đồng nhất (các cột số theo sự quan tâm của người dùng khối) trong bảng Fact. Sau đó chọn các chiều, mỗi chiều gồm một hay nhiều cột từ bảng liên quan khác. Các chiều cung cấp mô tả rõ ràng bởi các đơn vị đo lường được chia ra của người dùng khối.

Chiều (Dimension) : Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phân chia để phân tích. Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các bảng liên kết (bảng chiều). Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn. Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất. Ví dụ: một chiều thời gian (Time) được tạo ra từ các cột Năm, Qúy, Tháng, Ngày (Year, Quarter, Month và Day).

Mỗi cột trong chiều góp phần vào một cấp độ cho chiều. Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down).

Chương 3 – Bộ công cụ Business Intelligence

19

Chiều có phân cấp : Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được. Phần lớn các chiều đều có một cấu trúc đa mức hay phân cấp. Nếu chúng ta làm những quyết định về giá sản phẩm để tối đa doanh thu thì chúng ta cần quan sát ở những dữ liệu về doanh thu sản phẩm được gộp theo giá sản phẩm, tức là chúng ta đã thực hiện một cách gộp. Khi cần làm những quyết định khác thì chúng ta cần thực hiện những phép gộp tương ứng khác. Như vậy có thể có quá nhiều tiến trình gộp. Thế nên các tiến trình gộp này cần phải được thực hiện một cách rất dễ dàng, linh hoạt để có thể hỗ trợ những phân tích không hoạch định trước. Điều này có thể được giải quyết trên cơ sở có sự trợ giúp của những phân cấp rộng và sâu.

Roll_up và Drill_down : Dựa trên phân cấp theo chiều, từ một mức dưới, chúng ta có thể cuộn lên (Roll_up) các mức trên, thực hiện một phép gộp, để có được kết qủa tổng hợp hơn. Và từ một mức trên, có thể khoan sâu xuống (Drill_down) các mức dưới, để có các kết quả chi tiết hơn.

Các đơn vị đo lƣờng (Measures) : Các đơn vị đo của khối là các cột trong bảng Fact. Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phân tích như định giá, trị giá, hoặc số lượng bán.

3.3. Pentaho – Business Intelligence Server 3.3.1. Tổng quan về Pentaho 3.3.1. Tổng quan về Pentaho

Pentaho là một bộ phần mềm mã nguồn mở trong lĩnh vực Business Intelligence. Bộ phần mềm Pentaho BI Suite Enterprise Edition cung cấp các ứng dụng toàn diện về báo cáo, phân tích OLAP, dashboard, phân tích dữ liệu, khai phá dữ liệu và một hệ thống nền tảng BI. Điều này giúp cho Pentaho trở thành bộ công cụ BI mã nguồn mở rộng rãi nhất trên thế giới. Pentaho có tính linh hoạt cao, có thể được nhúng trong ứng dụng khác, tùy biến các bài toán BI, hoặc triển khai như một ứng dụng hoàn chỉnh tích hợp nền tảng BI.

Pentaho là một trong những nhà sản xuất tiên phong trong lĩnh vực phần mềm BI thương mại mã nguồn mở. Qua nhiều năm, sản phẩm của Pentaho đã được tải về trên 3 triệu lượt và được triển khai cho các công ty với các quy mô khác nhau, từ các tổ chức nhỏ cho tới The Global 2000.

Chương 3 – Bộ công cụ Business Intelligence

20

Hình 6 – Cấu trúc của Pentaho Business Intelligence [12].

3.3.2. Khả năng và lợi ích của Pentaho

Pentaho hỗ trợ theo chuẩn Java trên nền mã nguồn mở nên có thể hoạt động trên nhiều môi trường khác nhau. Ngoài ra, Pentaho dễ tích hợp với dữ liệu nguồn, cổng và ứng dụng khác sử dụng mã nguồn mở.

Khả năng tùy biến rộng sử dụng API, web service, sửa đổi các khung mẫu hay thậm chí sửa đổi mã nguồn giúp cho việc triển khai, phát triển dễ dàng. Các tiến trình có thể được nhúng vào để BI xử lý, và tích hợp với quy trình kinh doanh bên ngoài.

Kết hợp kiểm tra theo dõi hoạt động người sử dụng, sự thực hiện và sự truy nhập nội dung, luôn đảm bảo tính toàn vẹn, chính xác và ổn định của dữ liệu.

Chương 3 – Bộ công cụ Business Intelligence

21

Các tổ chức sử dụng báo cáo từ nhiều nguồn nên báo cáo là cốt lõi và được khai thác đầu tiên trong kinh doanh thông minh. Báo cáo Pentaho cho phép các doanh nghiệp truy cập, định dạng và phân phối thông tin dễ dàng đến nhân viên, khách hàng và các đối tác.

- Linh hoạt trong triển khai từ những báo cáo đơn đến các báo cáo dạng web tích hợp trong kinh doanh thông minh của doanh nghiệp.

- Hỗ trợ nhiều nguồn dữ liệu như OLAP, hay nguồn dữ liệu dựa trên XML. - Xuất dữ liệu linh hoạt ra PDF, HTML, Microsoft Excel, Rich Text Format, hay

text thuần túy.

- Wizard hỗ trợ thiết kế báo cáo dễ dàng và nhanh chóng.

- Phiên bản chuyên nghiệp với nhiều chức năng như phân nhóm, đăng ký, tích hợp thư mục, kiểm duyệt …

Tính năng Phân tích:

Pentaho Analysis là một công cụ phân tích đắc lực giúp người dùng đưa ra những quyết định có hiệu quả nhất. Ví dụ: Báo cáo cho biết tình hình bán có khuynh hướng giảm hơn so với mong đợi thì các tri thức dễ dàng phát hiện ra nguyên nhân vấn đề bằng cách đặt các câu hỏi sau:

- Vấn đề ảnh hưởng đến một dòng sản phẩm hay một khu vực nào đó?

- Sự khác nhau giữa sự phối hợp này với những phối hợp khác mà không có vấn đề là gì?

- Vấn đề liên quan với những hàng bán ở đó là gì? Những chiến dịch tiếp thị? Hay cái gì khác?

Pentaho Analysis giúp trả lời những câu hỏi kinh doanh bằng cách:

- Giúp người dùng dễ dàng khai thác thông tin kinh doanh bằng cách kéo, thả, xem chi tiết hay lập bảng kiểm tra chéo dữ liệu.

- Trả lời nhanh các truy vấn phân tích phức tạp. - Giải quyết các câu hỏi phức tạp nhanh chóng.

Chương 3 – Bộ công cụ Business Intelligence

22

- Hỗ trợ các khả năng tiên tiến bao gồm báo cáo tích hợp, siêu dữ liệu, biểu đồ thông qua việc tích hợp với các sản phẩm khác trong bộ Pentaho.

Tính năng Biểu đồ:

Pentaho Dashboards giúp người quản trị hiểu tường tận sự việc bên trong ngay lập tức từ sự thực hiện cá nhân, phòng ban, hay doanh nghiệp. Bằng phép đo trên giao diện trực quan, Pentaho Dashboards cung cấp cho nhà doanh nghiệp thông tin thực giúp họ hiểu biết và cải thiện công việc.

Pentaho Dashboards hỗ trợ tính trực quan bằng cách cung cấp:

- Khả năng quản lý các phép đo toàn diện cho phép định nghĩa và theo dõi những đo đạc đáng chú ý ở mức độ cá nhân, phòng ban hay doanh nghiệp.

- Hiển thị trực quan phong phú giúp nhà kinh doanh có thể thấy ngay những cái nào đang đi đúng hướng và cái nào cần chú ý.

- Tích hợp báo cáo và phân tích để người sử dụng có thể khai thác tận gốc các báo cáo và phân tích để hiểu những nhân tố đưa đến thành công hay thất bại. - Cổng tích hợp dễ dàng chuyển các phép đo đạc trong kinh doanh liên quan với

số lượng lớn người sử dụng, tích hợp thẳng vào trong ứng dụng của họ.

- Tích hợp báo động để liên tục theo dõi những ngoại lệ và thông báo cho người sử dụng biết.

Tính năng Khai phá d liu:

- Những mối quan hệ tìm ẩn trong dữ liệu có thể được dùng để tối ưu hóa những qui trình nghiệp vụ và dự đoán những kết quả tương lai.

- Cung cấp một phạm vi tiên tiến đầy đủ các giải thuật khai thác dữ liệu. - Hiển thị kết quả cho người dùng với định dạng dễ hiểu.

Tính năng Quy trình:

- Qui trình kinh doanh tự động và hợp lý đưa ra các kết quả có bảo chứng, hiệu quả và có thể báo cáo với nhiều mục đích khác nhau.

Chương 3 – Bộ công cụ Business Intelligence

23

- Liên kết trực tiếp các phép đo đạc với tiến trình. Đẩy mạnh cải tiến chu trình kinh doanh liên tục. Từ việc báo cáo dựa theo các phép đo thông qua sự thay đổi trong kinh doanh đến việc báo cáo những kết quả thay đổi đó, và lặp lại quá trình để tối ưu hóa hơn nữa.

3.4. Mondrian – OLAP Server 3.4.1. Mondrian 3.4.1. Mondrian

Mondrian là một máy chủ OLAP mã nguồn mở hỗ trợ cho việc xây dựng những ứng dụng Business Intelligence trên nền web. Mondrian được viết trên nền Java, không yêu cầu hệ lưu trữ ngoài, đọc dữ liệu trực tiếp từ hệ quản trị cơ sở dữ liệu quan hệ và sử dụng bộ đệm để đưa ra câu trả lời cho những truy vấn một cách nhanh chóng. Nó cho phép phân tích các tập hợp dữ liệu lớn trong các cơ sở dữ liệu SQL.

3.4.2. Schema Workbench

Mondrian Schema Workbench là một ứng dụng cho phép tạo và thử nghiệm các OLAP cube một cách trực quan. Bộ công cụ Mondrian sẽ xử lý các yêu cầu MDX kèm theo các giản đồ ROLAP. Những tệp giản đồ này là những mô hình XML được tạo ra theo một cấu trúc đặc biệt. Những mô hình XML có thể được xem như là những cấu trúc giống như cube, sử dụng những bảng FACT và bảng DIMENSION có sẵn trong hệ quản trị cơ sở dữ liệu quan hệ (RDBMS). Nó không yêu cầu phải có một cube thực sự nào, chỉ cần mô hình dữ liệu được khởi tạo.

Schema Workbench cung cấp các chức năng sau : - Biên tập giản đồ kết hợp với các nguồn dữ liệu.

- Kiểm tra các truy vấn MDX thông qua giản đồ và cơ sở dữ liệu. - Kiểm tra cấu trúc của cơ sở dữ liệu.

Chương 3 – Bộ công cụ Business Intelligence

24

3.5. Weka – Khai phá dữ liệu

Weka (viết tắt của Waikato Environment for Knowledge Analysis) là môi trường thử nghiệm khai phá dữ liệu do các nhà khoa học thuộc trường Đại học Waitako, NZ, khởi xướng và được sự đóng góp của rất nhiều nhà nghiên cứu trên thế giới. Weka là phần mềm mã nguồn mở, cung cấp công cụ trực quan và sinh động cho mọi người tìm hiểu về khai phá dữ liệu. Weka cung cấp nhiều giải thuật khác nhau với nhiều phương thức cho quá trình xử lý để ước lượng kết quả bằng sơ đồ với bất kì một dữ liệu nào.Weka còn cho phép các giải thuật học mới phát triển có thể tích hợp vào môi trường của nó. Hệ thống được viết bằng ngôn ngữ lập trình Java và chạy được trên hầu hết các hệ điều hành.

Weka có những tính năng chính sau:

- Bao gồm nhiều công cụ đa dạng để thay đổi tập dữ liệu, xử lý dữ liệu, giải thuật học và phương pháp đánh giá.

- Giao diện đồ họa người dùng (trực quan hóa dữ liệu). - Môi trường để so sánh các giải thuật học.

Weka lấy dữ liệu từ các file có định dạng .arff, .cvs , hoặc từ một bảng trong cơ sở dữ liệu.Tập dữ liệu có thể được tiền xử lý, cho vào trong một sơ đồ, phân chia các lớp kết quả và thực hiện nó mà không cần viết bất cứ một chương trình nào.

Chương 4 - Ứng dụng Business Intelligence

25

Chƣơng 4 : ỨNG DỤNG BUSINESS INTELLIGENCE

Việc ứng dụng bộ công cụ Business Intelligence được thể hiện qua 3 bài toán nhỏ : tạo báo cáo, phân tích OLAP, khai phá dữ liệu. Môi trường thực nghiệm là hệ điều hành Ubuntu 9.04.

4.1. Tạo báo cáo sử dụng công cụ BI 4.1.1. Giới thiệu bài toán 4.1.1. Giới thiệu bài toán

”Xem xét, đánh giá sự ảnh hưởng của mệnh giá nạp thẻ lên doanh thu bình quân trên một người dùng (ARPU) của các dịch vụ giá trị gia tăng”.

Môi trường thực hiện:

- Hệ điều hành windows 7

- Hệ quản trị cơ sở dữ liệu Mysql - Bộ công cụ pentaho

4.1.2. Thu thập,xử lý dữ liệu

Dữ liệu về mệnh giá nạp thẻ trung bình theo từng tuần được lấy từ báo cáo bán hàng của Beeline. File excel có dạng:

Chương 4 - Ứng dụng Business Intelligence

26

Hình 7. Dữ liệu mệnh giá nạp thẻ trung bình.

Dữ liệu về mệnh doanh thu bình quân trên một người dùng (ARPU) của các dịch vụ giá trị gia tăng theo từng tuần được lấy từ báo cáo trên hệ thống tính cước của Beeline. File excel có dạng:

Chương 4 - Ứng dụng Business Intelligence

27

Hình 8. Dữ liệu ARPU của các dịch vụ giá trị gia tăng.

4.2. Tạo data warehouse

Áp dụng công cụ data intergation trong bộ công cụ của pentaho đó là Spoon, ta tạo kho dữ liệu như sau:

Kho dữ liệu có 3 bảng: 2 bảng chiều và 1 bảng chính, 2 bảng chiều đó là : bảng dim_time : đưa ra các dữ liệu về ngày, tháng, quý, năm. Bảng dim_factor: đưa ra các nhân

Chương 4 - Ứng dụng Business Intelligence

28

tố dùng để xử lý. Một bảng chính đó là bảng fact_price chứa thông tin giá của từng nhân tố tại từng thời điểm.

Cấu trúc bảng và sơ đồ quan hệ được mô tả trong hình sau:

Hình 9. Mô hình kho dữ liệu Mở công cụ Spoon, ta chọn File -> New -> Transformation.

Dữ liệu đầu vào là file excel lưu dưới dạng .csv chứa toàn bộ dữ liệu đã được chuẩn hóa

Một phần của tài liệu nghiên cứu và ứng dụng các phương pháp học máy nhằm tăng cường hiệu quả các dịch vụ giá trị gia tăng của mạng di dộng beeline (Trang 25)

Tải bản đầy đủ (PDF)

(51 trang)