Lời nói đầu...11.DataWarehouse...2 3.Tại sao các doang nghiệp cần phải có Data warehouse...3 4.Tiềm năng trong ứng dụng doanh nghiệp...4 4.1.Hợp nhất tất cả dữ liệu về một nơi...4 4.2.Kh
Trang 1NGÂN HÀNG NHÀ NƯỚC VIỆT NAM BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH KHOA: HỆ THỐNG THÔNG TIN QUẢN LÝ
-
-TIỂU LUẬN MÔN: KHO DỮ LIỆU & HỆ HỖ TRỢ
RA QUYẾT ĐỊNH
CHỦ ĐỀ : TÌNH HUỐNG KHO DỮ LIỆU 1: EDUCATION
Giảng viên hướng dẫn: Nguyễn Hoàng Ân
Nhóm thực hiện: Nhóm 08
Lớp: D01
Tp Hồ Chí Minh tháng 01 năm 2024
Trang 2Bảng đánh giá mức độ tham gia
Trần Nguyễn Thành Trung 030237210200 25%
Trang 3Lời nói đầu 1
1.DataWarehouse 2
3.Tại sao các doang nghiệp cần phải có Data warehouse 3
4.Tiềm năng trong ứng dụng doanh nghiệp 4
4.1.Hợp nhất tất cả dữ liệu về một nơi 4
4.2.Khả năng kiểm soát các quyền truy cập và loại quyền truy cập của các đối tượng 5
4.3.Thích hợp cho Fast reporting (báo cáo nhanh) 5
5.Các Data platform hỗ trợ data warehousing workloads 5
6.Data warehouse vs Data lake 5
7.Kho dữ liệu hiện đại nâng cao hiệu suất của hệ thống công nghệ giáo dục đại học như thế nào? 6
Trang 4Lời nói đầu
Data warehouse đã đi một chặng đường dài trong 40 năm qua Nó bắt đầu như một bộ máy vật lý thực tế với chi phí khổng lồ đến một hệ thống có sẵn cho bất kỳ ai, ở bất kỳ đâu với chi phí phải chăng Nó có khả năng tập trung tất
cả dữ liệu của doanh nghiệp bạn, cho phép thực hiện các hoạt động phân tích nhanh hơn, KPI được tiêu chuẩn hóa và một nguồn thông tin đáng tin cậy duy nhất Tất cả các doanh nghiệp đều cần một kho dữ liệu để hoạt động nhanh chóng và hiệu quả với dữ liệu mà họ có thể dựa vào Câu hỏi không phải là bạn
có cần data warehouse hay không mà là bạn nên chọn loại data warehouse nào
Trang 5Data Warehouse (Kho dữ liệu) là một hệ thống quản lý dữ liệu được sử dụng để lưu trữ và tính toán dữ liệu, cho phép thực hiện các hoạt động phân tích như chuyển đổi (transforming) và chia sẻ (sharing) dữ liệu Nó giúp doanh nghiệp nắm bắt và lưu trữ dữ liệu từ các nguồn bên ngoài Các kỹ sư phân tích
và nhà phân tích dữ liệu sử dụng nó để truy vấn các tập dữ liệu bằng SQL, biến chúng thành các mô hình (models) và báo cáo dữ liệu mạnh mẽ Data warehouse là nguồn trung tâm cho bất kỳ ngăn xếp dữ liệu hiện đại nào Dữ liệu được nhập, chuyển đổi và chia sẻ (imported, transformed, and shared) với các công cụ khác từ kho Hiện tại, có 2 loại data warehouse chính: On-prem (tại chỗ) và Cloud (nền tảng đám mây) On-prem warehouse là một vị trí thực tế nơi các công ty cần duy trì phần cứng và phần mềm để lưu trữ dữ liệu Trong khi đó, cloud warehouse có sẵn ở mọi nơi và không bao gồm vị trí thực tế bạn cần truy cập, tuy nhiên, bạn sẽ phải trả tiền để sử dụng không gian lưu trữ và sức mạnh tính toán do một công ty thứ 3 khác cung cấp và duy trì Có thể kể đến như AWS (Amazon Web Services), GCP (Google Cloud Platform), …
2.Nguồn gốc của DataWarehouse
Mặc dù dữ liệu đã được lưu trữ trong suốt lịch sử nhưng phải đến những năm 1980, công nghệ mới bắt đầu tăng tốc và Data warehouse thức đầu tiên được tạo ra Đó là một on-prem warehouse bao gồm rất nhiều storage towers (tháp lưu trữ) và các vi xử lý máy tính, chiếm rất nhiều không gian Và như bạn
có thể tưởng tượng, điều này gây ra rất nhiều vấn đề Nó không chỉ chiếm nhiều không gian vật lý mà nhân viên còn phải bảo trì phần cứng và phần mềm của nhưng thiết bị cấu hình warehouse này Điều này nhanh chóng trở nên tốn kém và không thực tế đối với các công ty nhỏ hơn không có ngân sách hoặc
Trang 6không gian Khi Amazon bắt đầu mở rộng quy mô kho dữ liệu tại chỗ để hỗ trợ hoạt động kinh doanh của mình, họ nhận thấy cơ hội bán năng lực tính toán cho các doanh nghiệp khác để tiết kiệm chi phí Đây là lúc Redshift, sản phẩm cloud data warehouse củaAmazon ra đời Ngay sau đó, những gã khổng lồ công nghệ khác như Google và Microsoft cũng đang xây dựng cơ sở hạ tầng dữ liệu cũng làm theo Giờ đây, bạn có thể tiếp cận và sử dụng sức mạnh của cloud warehouse ở bất cứ đâu Bạn không cần phải tự mình duy trì cơ sở hạ tầng nữa mà có thể trả tiền cho một công ty để làm việc này cho bạn Điều này
rẻ hơn so với on-prem phải trả để duy trì hệ thống và cho phép khả năng dữ liệu nhanh hơn
3.Tại sao các doang nghiệp cần phải có Data warehouse
Data warehouse đã từng được cho không thực tế do chi phí liên quan đến chúng Giờ đây, kho lưu trữ đám mây cung cấp chúng cho gần như tất cả mọi người, chúng mang lại rất nhiều lợi ích cho doanh nghiệp Kho đám mây cho phép khả năng mở rộng, tính sẵn có, tiết kiệm chi phí và tăng cường bảo mật - tất cả đều do chính nhà cung cấp xử lý Các tiện ích có thể được liệt kê:
Scalability (Khả năng mở rộng): Data warehouse cho phép bạn mở rộng
quy mô tính toán lên hoặc xuống tùy thuộc vào tốc độ bạn cần chạy các phép biến đổi của mình và số tiền bạn sẵn sàng chi tiêu Bạn cũng có thể bật hoặc tắt tài nguyên máy tính để tiết kiệm chi phí
Availability (Sẵn có): Data warehouse luôn có sẵn Mặc dù độ trễ có thể
thay đổi tùy theo vị trí nguồn và đích nhưng dữ liệu của bạn có thể được truy cập ở mọi nơi, mọi lúc, rất tiện lợi Điều này trở nên lý tưởng trong xã hội hiện đại, nơi mọi người có thể làm việc từ bất cứ đâu
Cost savings (Tiết kiệm chi phí): So với on-prem warehouse, cloud
warehouse tiết kiệm hơn nhiều vì bạn không còn cần phải bảo trì tất cả cơ sở hạ tầng nên bạn có thể tiết kiệm chi phí liên quan đến bảo trì Các công ty kho dữ
Trang 7Discover more
from:
DM1001
Document continues below
Data mining
Trường Đại học Ngâ…
5 documents
Go to course
khai phá dữ liệu_ random forest
None
23
2023KPDL Kiem Tra -Bài tập tự luận Khai…
None
1
50 BÀI TẬP TỪ ĐỒNG NGHĨA Mức độ
Vat ly dai
14
Scarselli 2009 - mô hình neural network
Cơ sở dữ
20
Correctional
Administration
Criminology 96% (114)
8
Trang 8liệu quản lý rất nhiều dữ liệu nên họ có thể tiết kiệm chi phí mà bạn không thể
làm được
Security (Tính bảo mật): Data warehouse cung cấp các tính năng bảo
mật nâng cao để đảm bảo dữ liệu của bạn luôn được bảo mật Nó thường trực
tiếp xử lý các chiến lược tuân thủ nhất định cần thiết đối với từng loại dữ liệu
khác nhau , giúp bạn không cần phải tự mình thực hiện việc này Nó cũng có
các tính năng như vai trò và người dùng giúp bạn kiểm soát ai có quyền truy
cập vào dữ liệu của mình Nhưng chúng ta sẽ đi sâu vào vấn đề này sau
4.Tiềm năng trong ứng dụng doanh nghiệp
Các doanh nghiệp có thể tận dụng kho dữ liệu vì nhiều lý do khác nhau
Hầu hết những lý do này đều giúp tiết kiệm thời gian và tiền bạc cho doanh
nghiệp, dù trực tiếp hay gián tiếp
4 1.Hợp nhất tất cả dữ liệu về một nơi
Thay vì để tất cả dữ liệu của bạn trải rộng trên các nền tảng khác nhau, dữ
liệu đó có sẵn cho bạn ở một nơi Điều này cho phép bạn chuẩn hóa tất cả các
metrics (chỉ số cốt lõi) và definitions (định nghĩa dữ liệu) của mình, thay vì phụ
thuộc vào các chỉ số được tính toán bởi các nền tảng như Google và Facebook
Nếu bạn thấy rằng các số liệu khác nhau không phù hợp trên các nền tảng thì
data warehouse sẽ đóng vai trò là nguồn đáng tin cậy cho số liệu phù hợp Thay
vì dựa vào các nền tảng bên ngoài, giờ đây bạn đã có một nền tảng tập trung tất
cả dữ liệu của mình Chưa kể, bạn sẽ khiến kỹ sư (DE) và nhà phân tích dữ liệu
(DA) của mình phải đau đầu Nếu không, họ sẽ phải lấy dữ liệu cần thiết từ
nhiều nguồn khác nhau theo cách thủ công Việc không có một nguồn thông tin
chính xác duy nhất sẽ làm giảm chất lượng dữ liệu của bạn, lãng phí thời gian
của nhóm dữ liệu và gây khó khăn cho việc kết hợp dữ liệu từ các nguồn khác
nhau
English - huhu
Led hiển thị 100% (3)
10
Trang 94 2.Khả năng kiểm soát các quyền truy cập và loại quyền truy cập của các
đối tượng
Data warehouse có các tính năng bảo mật mở rộng cho phép bạn kiểm soát ai có quyền truy cập vào nội dung gì Bạn có khả năng cấp cho ai đó các quyền ít hoặc nhiều tùy theo ý muốn của bạn Nó cũng cung cấp cho bạn khả năng tạo người dùng và gán vai trò cho họ Mỗi vai trò có bộ quyền riêng đối với cơ sở dữ liệu và bảng mà nó có thể xem Sau đó, bạn cũng có thể chọn người được phép thực hiện query (truy vấn) các bảng đó hoặc thậm chí update (cập nhật) và delete (xóa) chúng Khi bất kỳ ai trong tổ chức của bạn có thể dễ dàng truy cập vào dữ liệu của bạn, điều tồi tệ có thể xảy ra Nguy cơ dữ liệu quan trọng có thể bị xóa, chỉnh sửa sai hoặc truy cập không thích hợp Người dùng, vai trò, chính sách và biện pháp bảo mật của kho dữ liệu có thể giúp đảm bảo dữ liệu nằm trong tay đúng người
4 3.Thích hợp cho Fast reporting (báo cáo nhanh)
Vì tất cả dữ liệu của bạn đều nằm ở cùng một nơi nên nó cho phép báo cáo nhanh hơn so với việc lấy dữ liệu từ nhiều nguồn khác nhau Vị trí trung tâm cho phép bạn truy cập và truy vấn nhanh chóng hàng triệu hàng dữ liệu, cho phép thực hiện chuyển đổi và báo cáo nhanh hơn nhiều
5.Các Data platform hỗ trợ data warehousing workloads
Hiện nay có nhiều các nền tảng cung cấp, hỗ trợ Data warehouse dưới dạng dịch vụ, có thể kể đến như:
Snowflake là một nền tảng được quản lý hoàn toàn để lưu trữ dữ liệu, hồ
dữ liệu (data lake), kỹ thuật dữ liệu, khoa học dữ liệu và phát triển ứng dụng dữ liệu
Trang 10Databricks là một nền tảng phân tích dữ liệu, kỹ thuật dữ liệu và khoa học
dữ liệu cộng tác dựa trên đám mây, kết hợp những gì tốt nhất của data warehouse và data lake vào kiến trúc lakehouse
Google BigQuery là một serverless (không máy chủ) warehouse, có khả năng mở rộng cao, đi kèm với công cụ truy vấn tích hợp
Amazon Redshift là data warehouse dựa trên đám mây có quy mô petabyte được quản lý hoàn toàn, được thiết kế để lưu trữ và phân tích tập dữ liệu quy mô lớn (biggg data)
PostgreSQL là một cơ sở dữ liệu quan hệ mã nguồn mở cấp doanh nghiệp nâng cao hỗ trợ cả truy vấn SQL (quan hệ) và JSON (không quan hệ)
6.Data warehouse vs Data lake
Data lake (hồ dữ liệu) là một hệ thống nơi bạn lưu trữ, xử lý và truy vấn
dữ liệu phi cấu trúc, bán cấu trúc và có cấu trúc ở hầu hết mọi quy mô Sự khác biệt chính giữa data warehouse và data lake là loại và cách lưu trữ dữ liệu Data warehouse chứa dữ liệu có cấu trúc nhằm tổ chức dữ liệu để sử dụng phân tích, trong hi đó Data lake có thể chứa khá nhiều loại dữ liệu—có cấu trúc hoặc không cấu trúc—và dữ liệu thường được giữ nguyên ở định dạng thô cho đến khi sẵn sàng sử dụng Hiểu đơn giản thì data lake chứa đủ mọi loại mọi kiểu dữ liệu tùm lum, một phần dữ liệu có cấu trúc trong data lake sẽ được load vào data warehouse trong quá trình ETL hoặc ELT
Các ứng dụng thường được sử dụng trong nhóm công nghệ giáo dục đại học: Các tổ chức sử dụng một mạng lưới công nghệ phức tạp, buộc phải theo dõi các hoạt động hàng ngày khác nhau Chúng ta hãy xem xét một vài ứng dụng phổ biến
Ngày làm việc (nhân sự) : Workday Sinh viên giúp các tổ chức giáo dục
chuẩn bị cho những thay đổi căn bản và chuẩn bị phục vụ cả sinh viên và giáo viên một cách hiệu quả Nó giúp kết nối sinh viên mọi lúc mọi nơi và được
Trang 11thiết kế linh hoạt để đáp ứng lượng sinh viên rộng lớn và đa dạng Hệ thống sinh viên được kết nối liền mạch với tài chính, nhân sự và lập kế hoạch, mang lại cho ban quản lý những hiểu biết sâu sắc theo thời gian thực về các hoạt động đang diễn ra trong khuôn viên trường Giải pháp Peoplesoft Campus vẫn đang được sử dụng tại các cơ sở và trường đại học lớn cho các hoạt động nhân
sự khác nhau
Đám mây giáo dục Salesforce: (CRM) Salesforce Education Cloud là bộ
công nghệ cung cấp giải pháp cho cả người học và tổ chức Nó giúp các tổ chức giáo dục hoạt động theo khuôn khổ từ đầu đến cuối bao gồm các mô-đun tuyển sinh, tuyển dụng nhân viên, thăng tiến và kinh nghiệm của sinh viên cũng như các hoạt động tổng thể của tổ chức Đây là nền tảng được tận dụng cho CRM và CX
Biểu ngữ: (ERP) Banner là một hệ thống ERP (Lập kế hoạch nguồn lực
doanh nghiệp) thương mại , được thiết kế dành riêng cho giáo dục đại học bao gồm một số mô-đun tích hợp chặt chẽ chia sẻ một cơ sở dữ liệu duy nhất Nó bao gồm các tùy chọn tự phục vụ dành cho sinh viên, nhân viên và quản trị viên để giúp họ truy cập các tính năng cần thiết khi đang di chuyển Đây là kiến trúc tham chiếu nhiều tầng chứa các tài nguyên cơ sở hạ tầng cần thiết để triển khai các phiên bản sẵn có của ứng dụng Banner trên Cơ sở hạ tầng đám mây của Oracle
Bảng đen (Lớp học và học tập) : Ứng dụng Blackboard miễn phí giúp
học sinh sử dụng thiết bị di động của mình để duy trì kết nối với Blackboard Learn; có sẵn cho các thiết bị iOS, Android và Windows Người học có thể ưu tiên công việc bằng cách sử dụng luồng hoạt động ưu tiên các sự kiện và hành động để theo kịp các bài tập và thời hạn sắp tới Nó thiết lập thông báo đẩy về điểm mới, bài kiểm tra sắp tới và ngày hết hạn trước đây, đồng thời giúp xem các thông báo, thảo luận, v.v
Tableau : (Phân tích Ed cao hơn)
- Tableau phân tích tỷ lệ đăng ký, thành tích và nhân khẩu học của sinh viên, đồng thời giúp các trường cao đẳng và đại học phát triển mối quan hệ cựu sinh viên tốt hơn và hợp lý hóa báo cáo giáo dục Cả
Trang 12trong lớp học và trong phòng thí nghiệm, ứng dụng đều nâng cao trải nghiệm học tập bằng cách cung cấp các phân tích dễ hiểu Nó giúp sinh viên đạt được các kỹ năng hiểu biết dữ liệu có giá trị và các nhà giáo dục có thể tinh chỉnh kế hoạch bài học của họ Đồng thời, người quản lý thời gian khám phá những cơ hội tốt nhất để khám phá Tableau tận dụng tối đa dữ liệu sẵn có và miễn phí cho sinh viên và người hướng dẫn năng động
- Tuy nhiên, dữ liệu riêng biệt từ các ứng dụng được đề cập ở trên
có các định dạng khác nhau và các bên liên quan gặp khó khăn trong việc có được cái nhìn 360 độ về dữ liệu này Chúng ta cũng hãy nhớ rằng mục tiêu của công nghệ ở bậc cao hơn là cho phép cộng tác toàn diện nhằm thúc đẩy tính toàn diện, cảm giác của một cộng đồng và cho phép tiếp cận, hỗ trợ và tạo động lực Giờ đây, điều này chỉ có thể thực hiện được nếu dữ liệu có trong tất cả các ứng dụng khác nhau tích hợp với các thành phần chính khác của nhóm công nghệ Tại sao? Chỉ cần xem xét sự chồng chéo đơn giản của dữ liệu ở đây Giả sử một học sinh mới được nhận vào lớp cao hơn và thông tin chi tiết của học sinh đó được nhập vào hệ thống thông tin học sinh Bây giờ, dữ liệu này cần được sao chép tự động trong hệ thống học tập dành cho giáo viên và trong ERP Tương tự như vậy, sự vắng mặt của anh ta cần phải được đưa vào ứng dụng học tập để giáo viên hiểu được vị trí của anh ta với việc học
7.Kho dữ liệu hiện đại nâng cao hiệu suất của hệ thống công
nghệ giáo dục đại học như thế nào?
Các tổ chức giáo dục đại học đang thu thập lượng lớn dữ liệu liên quan đến sinh viên, chương trình và cơ sở vật chất trong khuôn viên trường Việc sử
Trang 13dụng dữ liệu của người học, học thuật hoặc tổ chức để cải thiện nguồn lực, quy trình và quy trình công việc vẫn còn rất kém hiệu quả Hãy xem xét những điều sau:
- Được trang bị các phân tích cập nhật, các tổ chức có thể chọn các phương pháp tiếp cận sáng tạo để tăng cường sự tham gia của sinh viên
- Nó cũng có thể giúp cải thiện tỷ lệ giữ chân và tốt nghiệp, từ đó có thể tác động đến doanh thu bằng cách thỉnh thoảng nhận được thông báo về sự tham gia của sinh viên
- Bằng cách triển khai chatbot để cung cấp nội dung được cá nhân hóa cho sinh viên
- Bảng điều khiển, cảnh báo và liên lạc giữa giảng viên và sinh viên có thể giúp đưa ra lời khuyên học tập
- Theo dõi quyên góp của cựu sinh viên
Việc quản lý hợp lý các nguồn lực sẵn có để giáo dục đại học mang lại giá trị là điều bắt buộc đối với các trường đại học ngày nay Quản lý dữ liệu có sẵn trong ngăn xếp công nghệ bằng cách sử dụng kho dữ liệu hiện đại được tùy chỉnh là điểm khởi đầu