MỤC LỤC
Kho dữ liệu là nơi tập trung tất cả những dữ liệu đã được chuẩn hóa của doanh nghiệp bao gồm cả dữ liệu của quá khứ nhằm mục đích sử dụng lâu dài nên kiến trúc của kho dữ liệu tương đối phức tạp. Theo Inmon (được coi là cha đẻ của Data Warehouse) định nghĩa Data Warehouse là “a subject oriented, integrat– ed, time – variant and non - volatile collection of data in support of management ‘s decision making process” (tạm dịch: “Data Warehouse là một tập hợp dữ liệu mang hướng chủ đề, tích hợp, biến đổi theo thời gian và ổn định nhằm giúp nhà quản lý trong quá trình đưa ra quyết định”). ● Sub – oriented (Hướng chủ đề): Dữ liệu trong Data Warehouse ngay từ đầu được xác định chỉ để phân tích về một số chủ đề nhất định ví dụ như doanh thu bán hàng, sản phầm,… chứ không phải nơi lưu trữ tất cả thông tin về mọi mặt của doanh nghiệp, tổ chức.
● Time – variant (Biến đổi theo thời gian): Mỗi một dữ liệu được lưu trữ trong Data Warehouse đều có thêm chiều thời gian (time – dimension) để xác định ngày, tháng năm nhằm quan sát sự thay đổi hay xu hướng của dữ liệu đó trong khoảng thời gian nhất định. Để cho dễ hình dung, thử tưởng tượng dữ liệu trong Data Warehouse lưu trữ gần như toàn bộ thông tin về hoạt động của công ty, nếu bạn muốn lấy ra một vài giá trị và join các bảng để tạo ra một báo cáo tài chính thì bạn sẽ cần phải xác định được những data nào bạn muốn lấy ra và chúng ở bảng nào và bảng đó lại có quan hệ với bảng nào. Việc thực hiện nhiều lần công việc này là rất mệt và tốn thời gian, thay vào đó ta sẽ tạo một data mart chứa tất cả những data cần thiết cho việc lập báo cáo tài chính bao gồm những data cần thiết và quan hệ giữa các bảng với nhau, như thế hàng tháng hay thậm chí hàng ngày bạn có thể lấy data trực tiếp từ data mart ra để làm nên báo cáo tài chính mà không cần đi tìm trong một đống khổng lồ dữ liệu từ Data Warehouse.
Ngoài data mart phục vụ việc lập báo cáo tài chính, bạn cũng có thể tạo ra nhiều data mart khác với các business khác nhau để phục vụ cho các business khác nhau của doanh nghiệp, ví dụ như về doanh thu bán hàng, marketing, đầu tư,. Khi bắt tay vào nghiên cứu về kiến trúc của Business Intelligence (BI), nhóm đã có một vài khó khăn trong việc phân biệt giữa Database và Data Warehousethế nên chúng em quyết định bổ sung thêm phần so sánh giữa Database và Data Warehouse để người đọc không bị nhầm lẫn. Database thì có thể dung nhiều công nghệ khác nhau để xây dựng, từ hệ quản trị CSDL MySQL, SQL Server, MongoDB, Postgre SQL,… hay thậm chí file .txt hay .log cũng được sử dụng như một Database.
Ta sẽ lấy một ví du đơn giản dễ hiểu mà hầu như khi giải thích về OLTP ai cũng lấy đó là về hệ thống ATM, ở hai nơi khác nhau, hai vợ chồng đồng thời rút tiền từ một tài khoản ngân hàng hiện tại có 200.000 đồng. Đến khi xác thực giao dịch hệ thống OLTP sẽ xác định ai là người xác thực trước thì sẽ “chỉ cờ” ưu tiên về phía người đấy, đồng thời người kia sẽ rơi vào trạng thái chờ để tránh gây ra xung đột rút nhiều tiền hơn số dư hiện có. Chữ T – Transaction là từ quan trọng nhất trong hệ thống OLTP các giao dịch phải được thực hiện có tổ chức, đồng bộ và không được xảy ra xung đột Data Warehouse có điểm gì khác so với Database?.
● Sau khi những data phù hợp được chuyển vào trong Data Warehouse thì chính là lúc những Data Analyst thực hiện lấy data từ Data Warehouse để làm ra report (báo cáo) cũng như analyze (phân tích). Với việc lưu trữ chung trong Data Warehouse như vậy, chúng ta có thể dễ dàng tạo nhiều report (báo cáo) khác nhau tùy theo mong muốn của quản lý hoặc cấp trên Cũng giống như Database, chúng ta có nhiều lựa chọn khác nhau để xây dựng Data Warehouse. Với công ty nhỏ ta có thể sử dụng Postgre SQL, SQL Server hoặc thậm chí MySQL,… Còn với những công ty có lương dữ liệu khổng lồ lên đến hàng trăm Gigabytes thậm chí hàng Terabytes thì có thể triển khai hệ thống Dữ liệu lớn (Big Data) với giải pháp quen thuộc như Hadoop HDFS ở trên on – premise (cài đặt trên hệ thống do công ty tự triển khai) hoặc sử dụng dụng dịch cloud (đám mây) của một số nhà cung cấp lớn trên thế giới như Amazon S3, Google Storage hay Azure Blub,….
Để phân tích dữ liệu đa chiều theo OLAP chúng ta có những cách sau (ta sẽ dùng chính mô hình bên trên để bóc tách dữ liệu – có thể dùng phần mềm SSAS để phân tích). • Dice: Với cách này, ta sẽ chọn ra khối con (sub – cubes) của khối để tiến hành phân tích. • Slice: Với cách này ta sẽ chọn một chiều cụ thể trong khối dữ liệu. Ở ví dị dưới đây sẽ chọn ra một quý bất kì vào sau đó đưa lên kết quả về địa điểm và nhóm hàng bán được. • Pivot: Cách này cho phép người phân tích có thể “quay trục” của khối dữ liệu, nghĩa là thay đổi chiều dữ liệu để có một cái nhìn khác về dữ liệu. b) Data Mining (khai phá dữ liệu). Khai phá dữ liệu là quá trình tính toán, tổng hợp dữ liệu để tìm ra các mẫu lớn bằng cách sử dụng các kĩ thuật dùng trong thống kê, toán học cũng như lĩnh vực học máy (machine learning),….
• Phân loại (Classificasion): là một phương pháp dự báo và chia nhóm đối tượng dựa vào những đặc điểm cho trước. ● Phân cụm (Clustering): là phương pháp phân nhóm dữ liệu thành các nhóm nhỏ và dữ liệu trong mỗi nhóm đều có sự tương đồng nhau. ● Mạng neural nhân tạo (Artificial Neural Network): là một trong những kỹ thuật áp dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên, phân tích cảm xúc, phân tích dữ liệu ảnh,… Các loại mạng neural nhân tạo có thể kể tới như: mạng neural truyền tiếp (Feed Forward Neural Network), mạng neural tích chập (Convolutional Neural Network) mạng neural hồi quy (Recurrent Neural Network),…. c) Data Visualization (Trực quan hóa dữ liệu).
Với hàng tá những dữ liệu, những con số khô khan thì thật khó có thể đưa ra được nhưng nhận định một cách tổng quát nhất về tập dữ liệu đó. Với cách đó, các nhà quản lý có thể dễ dàng quản lý được hiệu quả trong khõu tổ chức doanh nghiệp đồng thời giỏm sỏt, theo dừi tỡnh hỡnh để đưa ra được quyết định đúng đắn. Gartner cung cấp cái nhìn sâu sắc liên quan đếớ n công ngh cần thiết cho ệ khách hàng của mình để đưa ra những quyết định đúng đắn m i ngày.
Có thể thấy Power BI của Microsoft vẫn đang là leading trên thị trường này và b xa ỏ những tên tu i lổ ớn xếp sau như Tableau, Qlik,…. • Biểu đồ kết h p (Dual axis chart) : Th hiợ ể ện các đối tượng nhưng khác nhau về đơn vị nhưng lại quá quan h mệ ật thiết. • Biểu đồ hình đạn (Bullet chart): Có thể dùng để thể hiện giá trị thực và giá trị mục tiêu. c) Biểu Đồ Quan Hệ.
• Biểu đồ điểm phân tán (Scatter plots): Là biểu đồ ử ụ s d ng các điểm tọa độ toán học để nói lên mối tương quan giữa hai đại lượng. • Biểu đồ bong bóng (Bubble): Là biến thể của biểu đồ phân tán, trong đó các điểm dữ liệu được thể hiện thành các điểm to hơn và có thể cùng nằm trong một bong bóng liên quan. d) Biểu Đồ Các Nhân Tố Ảnh Hưởng. • Biểu đồ điểm phân tán (Scatter plots): Là biểu đồ ử ụng các điểm t s d ọa độ toán học để nói lên mối tương quan giữa hai đại lượng (Hình 32).
• Biểu đồ h p (Box and whisker plot chart): Th hi n nhộ ể ệ ững đại lượng quan tr ng có ọ tính mô tả như max, min, trung vị và khoảng biến thiên tứ phân vị. • Biểu đồ tần suất (Histogram chart): Thể hiện sự thay đổi, biến động của một tập hợp các dữ liệu theo nh ng hình d ng nhữ ạ ất định.
Bản đồ địa lý th ểhiện s phân tán d ự ữliệu theo từng nơi trên thế ới gi.