1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập lớn hệ thống thông tin quản lý hệ hỗ trợ ra quyết định decision support system

30 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 6,66 MB

Nội dung

Quá trình dữ liệu đi từ Data Lake tới Data Warehouse được gọi theo thuật ngữ chuyên ngành là Ingest Data, kỹ thuật để làm việc đó là ETL và người tr c ti p giám sát ự ếvà vận hành quy tr

Trang 1

BÀI T P L N H Ậ Ớ Ệ THỐ NG THÔNG TIN QU N LÝ CQ57/41.1LT2

DANH SÁCH THÀNH VIÊN:

1, 1LT2_29_Nguyễn Duy Vũ

2, 1LT2_02_Vũ Thị Thu Doan

3, 1LT2_26_Nông Thị Huyền Trang

4, 1LT2_07_Bùi Thị Hương

5, 1LT1_38_Kiều Ngọc Anh

6, 1LT2_10_Trần Khánh Linh

7, 1LT2_28_Nguyễn Công Tú

8, 1LT2_30_Dương Thị Yến

9, 1LT2_04_Nguyễn Thái Dương

Mụục Lc Lc L c ục

I Hệ th ống thông tin hỗ ợ ra quy tr ết định là gì? 1

II Cấu trúc h ệ thố ng DSS 2

III Hệ th ống hỗ ợ ra quy tr ết định kinh doanh thông minh BI (Business Intelligence) 4

1 Khái Ni m BI (Business Intelligence) 4

2 Lợi Ích BI (Business Intelligence) Đem Lại 4

3 Thực Tr ng ng D ng BI (Business Intelligence) Trên Thạ Ứ ụ ế Giớ 5 i 4 Thực Tr ng ng D ng BI (Business Intelligence) T i Vi t Nam ạ Ứ ụ ạ ệ 6

IV KIẾN TRÚC HỆ THỐNG BUSINESS INTELLIGENCE 7

1 Tầ ng x lý dữ liệ u thô (raw data layer) .8

2 Tầ ng x lý (Transformation layer) 9 3 Kho d ữ liệ u (Data Warehouse) 12

4 Tầng Business (Business Layer) 17

V Business Intelligence với Power BI 21

1 Lý do ch ọn ứ ng d ng Business Intelligence v i Power BI ụ ớ 21

2 Sơ Lược Về Power BI .22

3 Lựa Ch n Biọ ểu Đồ Phù H ợp Để Tìm Ra Insights 23

Trang 2

Hệ hỗ trợ quyết định trong tiếng Anh gọi là Decision Support System, viết tắt

là DSS Hệ hỗ trợ quyết định (DSS) là một chương trình vi tính được sử dụng để hỗ trợ

đưa ra các quyết định, phán đoán và chiều hướng hành động của một tổ chức hoặc một doanh nghiệp DSS sẽ sàng lọc và phân tích lượng dữ liệu khổng lồ, tổng hợp thông tin một cách toàn diện mà có thể được sử dụng để giải quyết các vấn đề và trong quá trình ra quyết định

I Hệ thố ng thông tin h ỗ trợ ra quy ết định là gì?

Hệ thống thông tin hỗ trợ ra quyết định (còn g i là họ ệ trợ giúp quyết định) – đúng như tên gọi - là hệ thống được thiết kế với mục đích giúp của các nhà quản lý tổ chức ra quyết định kịp thời và chính xác hơn Hệ thống này có các công c cho phép mô hình hóa ụcác hiện tượng kinh t - xã h i d a trên các dế ộ ự ữ liệu c a tủ ổ chức, từ đó đưa ra được các phương án, giúp các nhà quản lý lựa chọn và đưa ra quyết định DSS chỉ hỗ trợ việc ra quyết định ch không ra quyứ ết định

Có nhiều định nghĩa về DSS

Sau đây là định nghĩa ngắn g n, ph bi n nh t: DSS là họ ổ ế ấ ệ thống tin d a trên máy ựtính, tr giúp vi c ra các quyợ ệ ết định bán c u trúc ho c phi c u trúc trong qu n lý m t t ấ ặ ấ ả ộ ổchức bằng cách kết hợp d u v i các công c , các mô hình phân tích ữ liệ ớ ụ

Thế nào là các quyết định bán c u trúc và phi c u trúc? Quyấ ấ ết định có c u trúc: là ấnhững quyết định có các đặc điểm sau: thường có tính l p l i và theo thông l ; tiêu chí ra ặ ạ ệquyết định và dữ liệu c n thu th p rõ ràng, th tầ ậ ủ ục xử lý d u rõ ràng (có th thu t toán ữ liệ ể ậhóa) và d dàng th c hi n bễ ự ệ ằng máy tính VD: Xác định số lượng đặt hàng, thời điểm mua hàng Nh ng quyữ ết định này thường do các nhà qu n lý c p th p (c p tác nghi p) hoả ấ ấ ấ ệ ặc cấp trung ra Quyết định bán cấu trúc: là nh ng quyữ ết định có tiêu chí ra quyết định không

rõ ràng, ho c d ặ ữ liệu c n thu th p không rõ ràng, ít có tính l p; th t c x lý d ầ ậ ặ ủ ụ ử ữ liệu không

rõ ràng nên khó thuật toán hóa và bi u di n trên máy tính ể ễ

Để ra được các quyết định này, các nhà quản lý phải một phần dựa trên tri thức và kinh nghiệm đã có kết h p v i s h ợ ớ ự ỗ trợ ủ c a máy tính VD: D báo bán hàng, D trù ngân ự ựsách, Phân tích rủi ro

Quyết định phi cấu trúc: là các quyết định có tiêu chí ra quyết định không rõ ràng

và dữ liệu c n thu th p không rõ ràng Th t c x lý dầ ậ ủ ụ ử ữ liệu không rõ ràng, không th ểthuật toán hóa và bi u diể ễn trên máy tính được V i các quyớ ết định này, nhà qu n lý phả ải

Trang 3

hiểu rõ các vấn đề được đặt ra để ự đánh giá và ra quyết đị t nh Máy tính chỉ có th hể ỗ trợmột số ph n viầ ệc VD: Thăng tiến cho nhân s , Giự ới thiệu công ngh m i ệ ớ

II Cấu trúc h ệ thố ng DSS

Một HTTT h ỗ trợ quyết định được t o thành b i 3 thành ph n: CSDL tr giúp quyạ ở ầ ợ ết định (DSS Database); cơ sở mô hình hỗ trợ quyết định (DSS Model) và hệ thống phần mềm hỗ trợ quyết định (DSS Software)

CSDL hỗ trợ quyết định: là một cơ sở ữ liệ d u ch a các dứ ữ liệu c n thi t c a tình ầ ế ủhuống và được qu n lý b i m t h qu n tr ả ở ộ ệ ả ị cơ sở d ữ liệu (DBMS – Data Base Management System) CSDL này được hình thành từ 2 nguồn: bên trong tổ chức (internal) và từ bên ngoài (external) Trong các tổ chức có ti m l c CNTT lề ự ớn, nó thường được k t n i vế ố ới kho d u (Data Warehouse) - ữ liệ chứa toàn b d u cộ ữ liệ ủa tổ ch c.ứ

Cơ sở mô hình DSS: là tập hợp các mô hình ra quyết định như các mô hình toán học, mô hình th ng kê và v n trù h c Mô hình là công c ố ậ ọ ụ biểu di n m i quan h gi a các ễ ố ệ ữbiến như: mô hình quy hoạch tuyến tính - tìm giá trị cực trị cho hàm mục tiêu thỏa mãn các ràng buộc cho trước; mô hình mô hình thống kê, phân tích, d báo; mô hình tính hi u ự ệquả vốn đầu tư: truy vấn d u (Query), phân tích What-If (Goalseek, Solver), phân tích ữ liệkịch bản (Scenario Analysis),…

Hệ thống ph n m m hầ ề ỗ trợ quyết định: là m t ph n m m cho phép qu n trộ ầ ề ả ị và s ửdụng CSDL, cơ sở mô hình, đồng thời tạo ra giao diện tương tác với người dùng

Trang 4

Mô hình dòng chảy dữ liệu(Data Pipeline) trong doanh nghi p ệ

Giải thích quy trình dòng chảy dữ liệu:

• Trong quá trình hoạt động của doanh nghi p, các nghi p v kinh t phát sinh ệ ệ ụ ế

sẽ được th c hi n qua ph n m m và t ph n m m sự ệ ầ ề ừ ầ ề ẽ chảy vào nơi lưu trữcủa hệ thống đó (database, SaaS apps, file,…) Chúng ta gọi chung các dữ liệu này ở ảnh trên là Datasource)

• Doanh nghi p hoệ ạt động càng lâu, thì d u sinh ra càng nhiữ liệ ều và để thuận

tiện cho việc phân tích và lưu trữ lâu dài thì nh ng dữ ữ ệu Datasource s li ở ẽđược tập trung tại một nơi gọi là Data Lake (H d u s ồ ữ liệ – ẽ được gi i thích ả

kỹ hơn ở ph n ti p theo khi nói v h ầ ế ề ệ thống BI) T ừ đây dữ liệu sẽ được trải qua quá trình ETL(Extract, Transform và Load) để đưa vào Data Warehouse với mục đích lưu trữ lâu dài và có th dể ùng để phân tích Quá trình dữ liệu

đi từ Data Lake tới Data Warehouse được gọi theo thuật ngữ chuyên ngành

là Ingest Data, kỹ thuật để làm việc đó là ETL và người tr c ti p giám sát ự ế

và vận hành quy trình đó trong doanh nghiệp được g i là Data Engineer (K ọ ỹ

sư dữ liệu)

Hai quy trình trên chính là th hi n c a ph n CSDL hể ệ ủ ầ ỗ trợ quyết định trong h ệ

thống hỗ ợ ra quyết định của doanh nghiệp (DSS) tr

• Dữ liệu được lưu trữ tại Data Warehouse sẽ được dùng v i mục đích phân ớtích cũng như xây dựng những mô hình áp dụng trực tiếp vào bài toán của doanh nghi p ệ

o Những người có nhiệm vụ phân tích dữ liệu trong doanh nghiệp để

hỗ trợ ra quyết định cho c p qu n lý có thấ ả ể được gọi v i các chớ ức danh như Data Analysis (Nhà phân tích dữ liệu) hoặc Business Intelligence Analysis Hai vai trò này tùy t ng công ty s khác nhau ừ ẽhoặc là cùng là 1 người Người có nhiệm vụ phân tích dữ liệu này có nhiệm v ph i tr l i cho các câu hụ ả ả ờ ỏi như “What happened?” (Chuyện

gì đã xảy ra) và “Why it happened” (Tại sao điều đó xảy ra) Để xử

lý hai câu h i trên, Data Analysis s s d ng nh ng ki n th c v ỏ ẽ ử ụ ữ ế ứ ềthống kê mô t (Descriptive Statistics) và th ng kê suy luả ố ận (Diagnostics Statistics) kết h p v i nh ng kợ ớ ữ ỹ thuậ ề trựt v c quan hóa

dữ liệu (Data Visualization) và k chuy n v i dể ệ ớ ữ liệu (Data

Trang 5

Storytelling) để đưa ra một cái nhìn toàn cảnh về tình hình của một vấn đề nào đó hoặc tổng thể doanh nghiệp

o Bên c nh nhạ ững người có nhi m v phân tích dệ ụ ữ liệu thì còn có những chuyên gia xây d ng nh ng mô hình h c máy (Machine ự ữ ọLearning) Những người này cũng lấy dữ liệu từ Data Warehouse để tiến hành xây d ng các mô hình giúp cho hoự ạt động c a doanh ủnghiệp Ví d ụ như: mô hình hồi quy tuyến tính(Linear Regression) để

dự báo chi phí, mô hình phân c m (Clustering) khách hàng trong viụ ệc tiếp c n cho chi n d ch marketing, mô hình cây quyậ ế ị ết định (Decision Trees) trong việc tính đi m tín dụng, mô hình mạng nơ ron tích chập ể(Convolutional Neural Network) trong việc phân tích d u ữ liệ ảnh,… Các công vi c trên là th hi n cệ ể ệ ủa phần Cơ sở mô hình DSS trong một hệ thống hỗ trợ ra quyết định (DSS) và kết quả của những công việc trên sẽ được th hi n ể ệ ởphần cu i cùng trong mô hình DSS là H ố ệ thống ph n mầ ềm hỗ trợ quyết định

III H ệ thống h ỗ trợ ra quyết định kinh doanh thông minh BI (Business Intelligence)

1 Khái Niệm BI (Business Intelligen ce)

Business Intelligence (g i t t là BI) là quy trình/h ọ ắ ệ thống công ngh cho phép phân ệtích và th hi n thông tin giúp cho các nhà quể ệ ản lý và ngườ ử ụi s d ng c a tủ ổ chức đưa ra các quyết định kinh doanh phù h p ợ

BI bao gồm một lo t các công c , ng d ng và ạ ụ ứ ụ phương thức cho phép các tổ chức thu th p thông tin t các hậ ừ ệ thống n i b và ngu n bên ngoài; chu n b s n sàng cho viộ ộ ồ ẩ ị ẵ ệc phân tích; phát tri n và ch y các truy vể ạ ấn đối v i d ớ ữ liệu; tạo các báo cáo, bảng điều khiển (dashboard) và hình ảnh hóa dữ liệu để cung c p k t qu phân tích cho nhấ ế ả ững ngườ ửi s dụng và những người ra quyết định

2 L ợi Ích BI (Business Intelligence) Đem Lại

BI làm tăng khả năng kiểm soát thông tin c a doanh nghi p m t cách chính xác, ủ ệ ộhiệu qu tả ừ đó có thể phân tích, khai phá tri thức giúp doanh nghi p có th dệ ể ự đoán về xu hướng c a giá cả d ch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để ra ủ ị đềcác chiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp

BI giúp cho các doanh nghi p s d ng thông tin m t cách hi u quệ ử ụ ộ ệ ả, chính xác đểthích ứng với môi trường thay đổi liên t c và c nh tranh khụ ạ ốc liệt trong kinh doanh

Trang 6

Ra các quyết định kinh doanh hi u quệ ả hơn:

• Xác định được vị trí và sức cạnh tranh của

• Doanh nghiệp Phân tích hành vi khách hàng

• Xác định m c đích và chiến lược Marketing ụ

• Dự đoán tương lai của doanh nghi p ệ

• Xây dựng chiến lược kinh doanh

• Giữ được khách hàng có giá trị và d ự đoán khách hành tiềm năng

3 Thực Trạng ng Dụng BI (Business Intelligence) Trên Th ế Giớ i

Quay tr v v i th i Business Intelligence truy n th ng khi mà các công c ở ề ớ ờ ề ố ụBusiness Intelligence (BI) d a trên nh ng mô hình làm viự ữ ệc đơn giản Vi c ra quyệ ết định của các doanh nghiệp ch y u d a vào nh ng b n báo cáo (report) do phòng IT làm ra và ủ ế ự ữ ả

đó chỉ là những báo cáo tĩnh không có tính tương tác với người dùng Điều này có nghĩa, khi người xem mu n xem chi ti t, c ố ế ụ thể hơn về một thông s ố nào đó trên báo cáo thì phải gửi yêu cầu đến phòng ban IT để ọ tiến hành đào lại dữ liệu và xây d ng báo cáo m h ự ới phù h p vợ ới yêu c u c a bên nghi p v ầ ủ ệ ụ đưa ra Quá trình yêu cầu báo cáo, làm báo cáo và đưa ra báo cáo một cách liên tục như vậy khiến cho việc đưa ra quyết định của doanh nghiệp bị chậm tr , c ng kễ ồ ềnh và tương đối ph c t p khi mà ph n lứ ạ ầ ớn người làm IT ít có kiến thức về nghi p vệ ụ để có thể phân tích và làm ra báo cáo m t cách nhanh chóng ộHiện nay khi mà các mô hình Business Intelligence hiện đại ngày càng phát tri n ểmạnh thì những người dùng bên nghi p v có th d dàng tệ ụ ể ễ ạo ra và tương tác với chính báo cáo d a trên nh ng công c Business Intelligence s n có D ự ữ ụ ẵ ữ liệu t các live report s ừ ẽcung cấp cho người dùng các thông tin c n thiầ ết để quyết định các vi c cệ ần làm ưu tiên để hoàn thành công vi c Ví d , thông qua các báo cáo hi n thệ ụ ể ị thời gian th c (real-time ựreport), người quản lý s n xu t có th theo dõi sát sao tình hình các c a hàng bán l và kả ấ ể ử ẻ ịp thời điều ch nh kế hoạch s n xuỉ ả ất, nếu có s t n kho quá cao Nhự ồ ững người ra quyết định trong doanh nghi p bây gi có th nhanh chóng truy c p các báo cáo d u theo th i gian ệ ờ ể ậ ữ liệ ờthực đó để làm căn cứ đưa ra các quyết định tốt nhất, đưa doanh nghiệp tiến lên Không chỉ thế, BI còn có th giúp c i thi n k ho ch s n xu t, ki m soát hàng t n kho, qu n lý ể ả ệ ế ạ ả ấ ể ồ ảtài chính và nhiều điều khác nữa

Những quyết định mang tầm chiến lược, định hướng công ty nhất định phải dựa trên những căn cứ chính xác, và “những con số biết nói” từ Business Intelligence chính là những thứ nhà quản lý cần Có thể nói nhân tố quan trọng nhất để giúp các nhà quản lý

Trang 7

đưa ra quyết định đúng đắn là việc truy cập và tiếp nhận các dữ liệu phù hợp – dữ liệu mà bạn có thể có được từ các công cụ BI tích hợp trong phần mềm ERP

Sử dụng BI cải thiện quá trình vận hành có thể tạo ra sự thay đổi đáng kể trong lợi nhuận, giúp công ty tăng trưởng mạnh mẽ Một nghiên cứu từ Genius ERP đã chỉ ra rằng với phần mềm ERP cập nhật thông tin theo thời gian thực, công ty có thểgiảm 23% chiphí hoạt động (operational cost) và giảm chi phí quản lý (administration cost) xuống 22% (nguồn:https://www.geniuserp.com/blog/seriously-excel is-not-an-erp) -

Các mô hình Business Intelligence hiện đại th c ch t m i ch xu t hi n trong ự ấ ớ ỉ ấ ệkhoảng 10 năm trở ại đây khi mà các ông lớ l n trong nhóm ngành này vẫn đang chạy đua

để tung ra những tính năng mới nhất như Microsoft, Salesforce, IBM, …

Với sự tăng trưởng m nh mạ ẽ như thế, yêu cầu đố ới Business Intelligence (BI) i vcủa các công ty, tập đoàn lớn trên toàn thế giới ngày càng cao Họ đã sẵn sàng chi tiền mạnh để có th xây dể ựng đội ngũ các chuyên viên giỏi có th ể triển khai, áp d ng Business ụIntelligence vào doanh nghiệp của họ Đội ngũ nhân viên tuyển d ng có s phân chia rõ ụ ựrang v các công vi c, nhi m về ệ ệ ụ được giao có th k tể ể ới như Business Intelligence Developer tập trung ch y u vào xây d ng, tri n khai h ủ ế ự ể ệ thống Business Intelligence, Data Engineer tập trung ch y u vào vi c xây d ng data pipeline và các tác vủ ế ệ ự ụ ETL đồng thời kết h p vợ ới Business Intelligence Developer để có th b o trì hể ả ệ thống Data Analysis có nhiệm vụ chủ y u là s dế ử ụng các công cụ trực quan hóa dữ liệu và áp d ng nh ng kiụ ữ ến thức chuyên môn để hân tích, tham mưu trong quá trình ra quyết đị p nh của doanh nghiệp,…

4 Thực Trạng ng Dụng BI (Business Intelligence) T i Việt Nam

Ở Việt Nam thì khái niệm về Business Intelligence (BI) còn khá m i mẻ có chăng ớtrước đó cũng chỉ có áp d ng mô hình Business Intụ elligence truyền th ng, và ch trong vài ố ỉnăm trở ại đây thì các doanh nghiệp cũng mớ l i manh nha triền khai xây dựng hệ thống Business Intelligence hiện đại hơn

Có nhi u cách th c xây d ng và tri n khai h ề ứ ự ể ệ thống Business Intelligence tùy thuộc vào hi n tr ng các h ệ ạ ệ thống thông tin c a doanh nghiủ ệp đang có Tuy nhiên, xu hướng ph ổbiến chung thường được thấy ở những doanh nghiệp trong nước là dựa trên và kế thừa những lợi ích t gi i pháp ERP và mừ ả ở r ng lên k t hộ ế ợp với Business Intelligence Việc triển khai thành công hệ ống ERP buộc các tổ chức ph i chuth ả ẩn hoá, tái cơ cấu và đơn

Trang 8

giản hóa các chức năng nghiệp vụ Hi u qu cệ ả ủa ERP cũng thúc đẩy s s n sàng tri n khai ự ẵ ểBusiness Intelligence để cả ếi ti n quy trình ra quyết định dựa trên phân tích dữ liệu Triển khai hệ thống Business Intelligence t i các doanh nghiạ ệp trong nước th t s là vậ ự ẫn còn gặp nhiều khó khăn như:

• Thứ nh t, viấ ệc ứng d ng BI vào các hoụ ạt động kinh doanh là m t quá trình phộ ức tạp so với m t s hoộ ố ạt động công ngh thông tin khác vì hệ ệ thống này đòi hỏi một lượng l n tài nguyên (dữ liệu, tài chính, nhân sự …) ớ

• Thứ hai, s nghi ng c a các nhà qu n lý khi ph i chi m t kho n ti n không h nh ự ờ ủ ả ả ộ ả ề ề ỏ

để xây d ng m t h ự ộ ệ thống mà h ọ chưa biết chắc có giúp ích được cho doanh nghiệp hay không

• Thứ ba, là s ự khó khăn trong hệ thống dữ liệu c a doanh nghi p D ủ ệ ữ liệu trong các

hệ thống doanh nghi p c a Vi t Nam vệ ủ ệ ẫn chưa được “sạch” vì vẫn chưa có một quy trình cụ thể nào cho việc “cleansing data” Hệ thống Business Intelligence cốt lõi n m ằ ở d ữ liệu, d ữ liệu “sạch” thì sẽ ố t n ít thời gian

IV KIẾN TRÚC HỆ THỐNG BUSINESS INTELLIGENCE

Dưới đây là một mô hình kiến trúc tổng thể của một hệ thống Business Intelligence

Từ mô hình kiến trúc tổng thể hệ thống Business Intelligence trên, ta có thể tạm chia

hệ thống Business Intelligence ra làm 4 tầng chính

Trang 9

• Tầng thứ nhất: Tầng dữ liệu thô (raw data layer) bao gồm thu thập dữ liệu từ nhiều nguồn khác nhau (CRM, ERP, Databases, files,…)

• Tầng thứ hai: Tầng xử lý (transformation layer) bao gồm quá trình tích hợp dữ liệu

từ nhiều nguồn khác nhau, xử lý, chuẩn hóa chúng rồi chuyển vào kho dữ liệu chung của công ty

• Tầng thứ ba: Tầng dữ liệu đã được chuẩn hóa hay có thể gọi là kho dữ liệu (Data Warehouse) là nơi chứa toàn bộ dữ liệu của công ty sau khi đã được tích hợp và chuẩn hóa

• Tầng thứ tư: Tầng business (business layer) là tầng xử lý nghiệp vụ chuyên môn từng mảng của công ty

Trên là 4 tầng chính trong kiến trúc hệ thống Business Intelligence, chi tiết từng tầng

ta sẽ đi sâu vào từng mục nhỏ

1 T ầng xử lý d ữ liệ u thô (raw data layer)

Tầng dữ liệu thô (raw data layer) đúng như tên gọi của nó, đây là tầng mà các dữ liệu thô (dữ liệu chưa được chuẩn hóa và rời rạc, phân tán) Các dữ liệu này được sinh ra và thu thập được trong quá trình hoạt động kinh doanh, sản xuất của công ty Chúng có thể bao gồm doanh số sản phẩm bán ra, thông tin khách hàng, phản hồi từ khách hàng, danh mục đầu tư, hàng tồn kho, email, kết quả hạch toán trên phần mềm,… hay bất cứ dữ liệu, thông tin nào phát sinh trong quá trình vận hành công ty Vì là dữ liệu được thu thập, tích góp từ nhiều nguồn khác nhau nên cấu trúc của chúng sẽ khác nhau, ta sẽ chia ra làm 3 kiểu dữ liệu khác nhau:

• Dữ liệu có cấu trúc (structured data): là những loại dữ liệu được tổ chức, sắp xếp theo một cấu trúc nhất định, và các thông tin của nó được đặt trong một trường (field) nhất định Để đơn giản, bạn có thể hình dung ra dữ liệu trong một file Excel, mỗi thông tin đều được thể hiện mạch lạc và rõ rang và cụ thể qua từng ô tính Dữ liệu có cấu trúc có thể bám theo CSDL (cơ sở dữ liệu) mà người thiết kế nó tạo ra

Ví dụ như bản thống kê doanh số của từng khu vực bán hàng, đối với loại dữ liệu

có cấu trúc này, ta có thể nhóm lại và đưa ra thống kê của từng nhóm hàng trong một hoặc nhiều khu vực cụ thể Có nhiều cách để quản lý loại dữ liệu có cấu trúc nhưng thông dụng nhất người ra vẫn hay dùng đó là ngôn ngữ truy vấn có cấu trúc (Structured Query Language SQL) – – một loại ngôn ngữ được phát triển bởi IBM dành cho các CSDL quan hệ

Trang 10

• Dữ liệu phi cấu trúc (unstructured data): là loại dữ liệu phổ biến và nhiều nhất hiện tại Dữ liệu phi cấu trúc không thể định dạng hàng, cột trong Excel hay tạo quan hệ trong CSDL quan hệ Ví dụ như một đoạn text trong văn bản hay mail từ đối tác là một trong những thứ rất khó tìm kiếm Thử tưởng tượng, một ngày bạn nhận tới hàng tram, thâm chí hàng nghìn mail phản hồi từ khách hàng, và bạn phải chắt lọc chúng và biến thành thông tin có ích thì đó mới gọi là dữ liệu Quả là một công việc mệt mỏi! Nhưng với sự tiến bộ không ngừng của khoa học cụ thể là trí tuệ nhân tạo (AI – Artificial Intelligence) mà giờ chúng ta có thể áp dụng những mô hình học máy (ML – Machine Learning) hay học sâu (DL – Deep Learning) để giải quyết vấn đề trên Một ví dụ khác của kiểu dữ liệu phi cấu trúc có thể kể tới như ảnh, phim, tệp âm thanh, hay thậm chí là cả thông tin từ cuộc gọi với khách hàng

• Dữ liệu bán cấu trúc (semi – structured data): ngoài dữ liệu có cấu trúc và dữ liệu phi cấu trúc thì còn một loại dữ liệu khác lai giữa 2 loại này chinh là kiểu dữ liệu bán cấu trúc Loại dữ liệu này có một số tính chất đồng nhất có thể xác định được nhưng lại không tạo thành một cấu trúc rõ ràng và không phù hợp với CSDL quan

hệ Một ví dụ đơn giản về kiểu dữ liệu bán cấu trúc đó là Email Bản chất nội dung email là loại dữ liệu phi cấu trúc nhưng các thông tin như người gửi, người nhận, thời gian,…lại có thể tổ chức và sắp xếp được dưới dạng dữ liệu có cấu trúc

2 T ầng xử lý (Transformation layer)

Dữ liệu sau khi được thu thập ở tầng thứ nhất (tầng dữ liệu thô) sẽ được lưu trữ ở trong một nơi gọi là staging area Lý do tồn tại khu vực này vì trong một hệ thống lớn quá trình ETL ở tầng thứ hai khá phức tạp Dữ liệu phải được làm sạch, chọn lọc, chuẩn hóa

Trang 11

Những công đoạn này nhìn chung thì phải cần rất nhiều temp table để lưu các dữ liệu đang được xử lý và các metadata về quá trình ETL Staging area cũng là nơi mà dữ liệu nguồn dung để lưu backup Bởi vì do quá trình ETL hoàn toàn có khả năng gặp trục trặc giữa chừng khi đang đưa dữ liệu từ tầng thứ nhất sang tầng Data Warehouse nên dữ liệu nguồn ban đầu cần phải lưu thêm một bản dự phòng đề phòng rủi ro trong tiến trình xử lý Một

ví dụ thực tế đơn giản như sau: Quá trình ETL được schedule (đặt lịch) chạy vào buổi tối

và dung dữ liệu của ngày hôm đó Vì một lý do quái dở nào đó mà quá trình ETL của ngày hôm đó không hoàn thành được Đến ngày hôm sau khi chạy quá trình ETL, ETL phải chạy trong chế độ recovery, ngoài việc phải tiếp tục với những dữ liệu đang được chuyển vào dang dở nó cần có được nguồn dữ liệu gốc ban đầu Nhưng chỗ dữ liệu gốc đó đã được thay thế bởi dữ liệu mới nhất của ngày hôm nay và thế là sẽ bị thất thoát và sai lệch

dữ liệu Nếu như dữ liệu của ngày hôm qua được lưu vào staging area của ngày hôm trước thì sẽ đảm bảo được tính toàn vẹn của dữ liệu

Như đã nhắc tới ở đoạn trước khá nhiều về quy trình ETL, ở đoạn này chúng ta sẽ

đi sâu và tìm hiểu xem ETL thực chất là gì ETL (Extract, Transform, Load) hiểu đơn giản

là một quá trình biến đổi dữ liệu thô thành dữ liệu đã được chuẩn hóa để lưu vào kho dữ liệu phục vụ cho mục địch lâu dài của doanh nghiệp

Giai đoạn Extract (E) – trích xuất dữ liệu: đây là phần đầu tiên của quá trình ETL

có vai trò trích xuất dữ liệu từ hệ thồng nguồn (tầng thứ nhất trong kiến trúc BI) Như ta

đã biết, hầu hết các doanh nghiệp thường quản lý dữ liệu tới từ nhiều nguồn khác nhau và

sử dụng một số công cụ phân tích dữ liệu để vận hành và tối ưu hóa quy trình quản trị, để

dữ liệu chuyển đến một kho chứa dữ liệu chung (Data Warehouse) thì việc đầu tiên cần làm là trích xuất dữ liệu từ các nguồn dữ liệu Mặc dù những dữ liệu thô này hoàn toàn có thể xử lý thủ công nhưng việc trích xuất thủ công này tốn khá nhiều thời gian và chưa chắc

Trang 12

đảm bảo là sẽ không xảy ra sai sót nên các công cụ ETL hiện đại với chức năng quản lý đặt giờ và thực hiện sẽ là một lựạ chọn sáng suốt hơn

Giai đoạn Transfomation (T) – chuyển đổi dữ liệu: trong quá trình này, dữ liệu thô sẽ được biến đổi và chuẩn hóa lại trước khi đưa vào kho dữ liệu tổng của công ty Quá trình biến đổi và chuẩn hóa dữ liệu này thường bao gồm những công đoạn sau:

● Data cleansing: nhằm lọc và loại bỏ những dữ liệu không liên quan thậm chí cả những dữ liệu sai chính tả hoặc lỗi

● Normalize: định dạng chuẩn cho tập dữ liệu như khai báo độ dài các trường (field), cách đặt tên, loại dữ liệu, trộn (merge) hoặc split (tách) dữ liệu từ nhiều nguồn

● Sort: phân chia dữ liệu theo từng loại và đối tượng sử dụng

● Ngoài ra còn các tác vụ khác tùy theo mục đích sử dụng và yêu cầu của công ty Giai đoạn Load (L) – tải dữ liệu vào kho đích: đây là bước cuối cùng trong tiến trình ETL

là tải hay nói cách khác là nạp dữ liệu vừa được chuyển đổi vào kho chứa dữ liệu địch (Data Warehouse) của công ty Dữ liệu được tải vào kho dữ liệu chính có thể được tải theo hai cách đó là tải toàn bộ hoặc tải tăng dần:

● Tải toàn bộ (full load): trong quá trình tải toàn bộ, dữ liệu đều được ghi thành các bản ghi mới nhưng với việc tải cùng lúc toàn bộ dữ liệu như này sẽ khiến cho việc quản lý và bảo trì trở nên khó khan hơn

● Tải tăng dần (incremental load): đây là một kiểu tải ít toàn diện hơn nhưng lại khiến cho việc quản lý dễ dàng hơn Dữ liệu trước khi tải vào sẽ đối chiếu với dữ liệu gốc

ở trong kho dữ liệu chính và sẽ chỉ tải vào và bổ sung những dữ liệu chưa có Kiểu tải này sẽ giúp tiết kiệm được rất nhiều dung lượng bộ nhớ và làm cho quá trình kinh doanh trở nên thông minh đúng với tên gọi Business Inteliigence hơn rất nhiều

Ta có thể lập một bảng so sánh giữa việc tải toàn bộ và tải tăng dần

Tải toàn bộ Tải tăng dần Đồng bộ giữa các dữ

liệu

Tất cả các dòng từ dữ liệu nguồn

Chỉ những dữ liệu mới hoặc cập nhật

Thời gian Tốn nhiều thời gian Tốn ít thời gian

Độ phức tạp Không phức tạp Độ phức tạp cao vì tiến

trình ETL phải check xem dữ liệu tại đích đã

Trang 13

tồn tại hay chưa Đồng thời quá trình recovery khó khăn

● Trong trường hợp tải tăng dần (incremental load) kho dữ liệu cần đồng hộ hóa với

dữ liệu nguồn nên việc triển khai quá trình ETL có thể gặp khó khan thế nên việc sắp xếp dữ liệu khi tải vào có thể giúp ta kiểm soát được dữ liệu thiếu xót trong quá trình tải

3 Kho dữ liệu (Data Warehouse)

Kho dữ liệu là nơi tập trung tất cả những dữ liệu đã được chuẩn hóa của doanh nghiệp bao gồm cả dữ liệu của quá khứ nhằm mục đích sử dụng lâu dài nên kiến trúc của kho dữ liệu tương đối phức tạp

Operational Data Store (ODS): Là một Database lưu trữ dữ liệu transactional hoặc

là dữ liệu không qua hoặc qua ít biến đổi Dữ liệu được lưu trong ODS là dữ liệu được cập nhật mới nhất từ dữ liệu nguồn cùng với các công cụ trợ giúp BI giúp ta đưa ra được quyết định nhanh chóng tức thời Tuy nhiên, dữ liệu được lưu ở ODS sẽ nhanh chóng bị ghi đè bởi luồng dữ liệu mới vậy nên ODS sẽ không thể lưu trữ dữ liệu quá khứ Nói chung, ODS được thiết kế với mục đích làm ra báo cáo và đưa ra ra một cái nhìn tổng thể về tình hình

Trang 14

của một khía cạnh nào đó nhằm giúp người quản lý hoặc người điều hành đưa ra quyết định trong ngay tức thì Ta cũng có thể lợi dụng điều này của ODS để xây dựng những báo cáo mang tính thời gian thực (real – time)

Data Warehouse (DW): là một trong những thành phần quan trọng nhất trong một

kiến trúc Business Inteliigence (BI) Theo Inmon (được coi là cha đẻ của Data Warehouse) định nghĩa Data Warehouse là “a subject oriented, integrat– ed, time – variant and non -

volatile collection of data in support of management ‘s decision making process” (tạm

dịch: “Data Warehouse là một tập hợp dữ liệu mang hướng chủ đề, tích hợp, biến đổi theo thời gian và ổn định nhằm giúp nhà quản lý trong quá trình đưa ra quyết định”)

● Sub – oriented (Hướng chủ đề): Dữ liệu trong Data Warehouse ngay từ đầu được xác định chỉ để phân tích về một số chủ đề nhất định ví dụ như doanh thu bán hàng, sản phầm,… chứ không phải nơi lưu trữ tất cả thông tin về mọi mặt của doanh nghiệp, tổ chức

● Integrated (Tích hợp): Dữ liệu trong Data Warehouse được tập hợp từ nhiều nguồn khác nhau và phải lưu trữ một cách nhất quán Ví dụ đơn giản, cùng một mặt hàng được quản lý bởi hai tên khác nhau ở hai phần mềm khác nhau Khi chúng ta thực hiện quá trình biên đổi (ETL) thì chúng phải được đặt tên giống nhau và duy nhất

để tránh xung đột và tính toán sai

● Time – variant (Biến đổi theo thời gian): Mỗi một dữ liệu được lưu trữ trong Data Warehouse đều có thêm chiều thời gian (time – dimension) để xác định ngày, tháng năm nhằm quan sát sự thay đổi hay xu hướng của dữ liệu đó trong khoảng thời gian nhất định Nói các khác, Data Warehouse lưu trữ cả những dữ liệu từ quá khứ và

sự biến đổi kể cả nhỏ nhất của nó

● Non – volatile (Ổn định): Dữ liệu mới thông qua quá trình ETL được thêm vào Data Warehouse hàng ngày Nhưng tất cả dữ liệu trong Data Warehouse là dữ liệu read – only (chỉ đọc) Nghĩa là người dung không thể tự ý cập nhật (update), ghi đè (over – written) hay xóa (delete) dữ liệu trong Data Warehouse

Đọc đến đây hẳn nhiều người vẫn còn chút băn khoăn về sự khác nhau giữa ODS

và Data Warehouse, ta sẽ làm một so sánh nhỏ sau:

● ODS được sử dụng như một khu lưu dữ liệu mới nhất tạm thời của Data Warehouse

Trang 15

● ODS được thiết kế để triển khai những câu truy vấn nhỏ lẻ và đơn giản Trong khi đó, Data Warehouse lại được thiết kế để phục vụ cho những câu truy vấn lớn trong một tập dữ liệu lớn gồm nhiều bảng tham gia

● Dữ liệu trong ODS được cập nhật lại liên tục nên có thể tận dụng để đưa lên bức tranh toàn cảnh về tình hình hiện tại của một khía cạnh nào đó trong doanh nghiệp, tổ chức Trong khi đó, Data Warehouse sẽ được thêm mới theo chu kỳ nhằm đưa lên một bức tranh toàn cảnh từ quá khứ đến hiện tại góp phần đưa ra chiến lược lâu dài cho doanh nghiệp, tổ chức

Data mart: Hiểu một cách đơn giản thì data mart là một mô hình thu nhỏ của Data

Warehouse Ở một số công ty thì nhiều data mart sẽ tạo thành một Data Warehouse Sự khác biệt giữa data mart và Data Warehouse ở chỗ data mart thường gắn liền với một business cụ thể Để cho dễ hình dung, thử tưởng tượng dữ liệu trong Data Warehouse lưu trữ gần như toàn bộ thông tin về hoạt động của công ty, nếu bạn muốn lấy ra một vài giá trị và join các bảng để tạo ra một báo cáo tài chính thì bạn sẽ cần phải xác định được những data nào bạn muốn lấy ra và chúng ở bảng nào và bảng đó lại có quan hệ với bảng nào Việc thực hiện nhiều lần công việc này là rất mệt và tốn thời gian, thay vào đó ta sẽ tạo một data mart chứa tất cả những data cần thiết cho việc lập báo cáo tài chính bao gồm những data cần thiết và quan hệ giữa các bảng với nhau, như thế hàng tháng hay thậm chí hàng ngày bạn có thể lấy data trực tiếp từ data mart ra để làm nên báo cáo tài chính mà không cần đi tìm trong một đống khổng lồ dữ liệu từ Data Warehouse Ngoài data mart phục vụ việc lập báo cáo tài chính, bạn cũng có thể tạo ra nhiều data mart khác với các business khác nhau để phục vụ cho các business khác nhau của doanh nghiệp, ví dụ như

về doanh thu bán hàng, marketing, đầu tư,

Khi bắt tay vào nghiên cứu về kiến trúc của Business Intelligence (BI), nhóm đã có một vài khó khăn trong việc phân biệt giữa Database Data Warehousethế nên chúng em quyết định bổ sung thêm phần so sánh giữa Database và Data Warehouse để người đọc không bị nhầm lẫn

Trước tiên ta sẽ tìm hiểu Database là gì?

“Cơ sở dữ liệu (Database) là một tập hợp các dữ liệu có tổ chức, thường được lưu trữ và truy cập điện tử từ hệ thống máy tính Khi cơ sở dữ liệu phức tạp hơn, chúng thường được phát triển bằng cách sử dụng các kỹ thuật thiết kế và mô hình hóa chính thức.” (Theo Wikipedia)

Ngày đăng: 19/05/2024, 16:23

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w