1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tiểu luận môn kho dữ liệu hệ hỗ trợ ra quyết định chủ đề tình huống kho dữ liệu 1 education

15 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tình Huống Kho Dữ Liệu 1: Education
Tác giả Trần Hiệp Phát, Hồ Văn Bảo Lộc, Nguyễn Phước Luân, Trần Nguyễn Thành Trung
Người hướng dẫn Nguyễn Hoàng Ân
Trường học Trường Đại Học Ngân Hàng Tp. Hồ Chí Minh
Chuyên ngành Hệ Thống Thông Tin Quản Lý
Thể loại tiểu luận
Năm xuất bản 2024
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 15
Dung lượng 2,5 MB

Nội dung

Lời nói đầu...11.DataWarehouse...2 3.Tại sao các doang nghiệp cần phải có Data warehouse...3 4.Tiềm năng trong ứng dụng doanh nghiệp...4 4.1.Hợp nhất tất cả dữ liệu về một nơi...4 4.2.Kh

Trang 1

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM BỘ GIÁO DỤC & ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH KHOA: HỆ THỐNG THÔNG TIN QUẢN LÝ

-

-TIỂU LUẬN MÔN: KHO DỮ LIỆU & HỆ HỖ TRỢ

RA QUYẾT ĐỊNH

CHỦ ĐỀ : TÌNH HUỐNG KHO DỮ LIỆU 1: EDUCATION

Giảng viên hướng dẫn: Nguyễn Hoàng Ân

Nhóm thực hiện: Nhóm 08

Lớp: D01

Tp Hồ Chí Minh tháng 01 năm 2024

Trang 2

Bảng đánh giá mức độ tham gia

Trần Nguyễn Thành Trung 030237210200 25%

Trang 3

Lời nói đầu 1

1.DataWarehouse 2

3.Tại sao các doang nghiệp cần phải có Data warehouse 3

4.Tiềm năng trong ứng dụng doanh nghiệp 4

4.1.Hợp nhất tất cả dữ liệu về một nơi 4

4.2.Khả năng kiểm soát các quyền truy cập và loại quyền truy cập của các đối tượng 5

4.3.Thích hợp cho Fast reporting (báo cáo nhanh) 5

5.Các Data platform hỗ trợ data warehousing workloads 5

6.Data warehouse vs Data lake 5

7.Kho dữ liệu hiện đại nâng cao hiệu suất của hệ thống công nghệ giáo dục đại học như thế nào? 6

Trang 4

Lời nói đầu

Data warehouse đã đi một chặng đường dài trong 40 năm qua Nó bắt đầu như một bộ máy vật lý thực tế với chi phí khổng lồ đến một hệ thống có sẵn cho bất kỳ ai, ở bất kỳ đâu với chi phí phải chăng Nó có khả năng tập trung tất

cả dữ liệu của doanh nghiệp bạn, cho phép thực hiện các hoạt động phân tích nhanh hơn, KPI được tiêu chuẩn hóa và một nguồn thông tin đáng tin cậy duy nhất Tất cả các doanh nghiệp đều cần một kho dữ liệu để hoạt động nhanh chóng và hiệu quả với dữ liệu mà họ có thể dựa vào Câu hỏi không phải là bạn

có cần data warehouse hay không mà là bạn nên chọn loại data warehouse nào

Trang 5

Data Warehouse (Kho dữ liệu) là một hệ thống quản lý dữ liệu được sử dụng để lưu trữ và tính toán dữ liệu, cho phép thực hiện các hoạt động phân tích như chuyển đổi (transforming) và chia sẻ (sharing) dữ liệu Nó giúp doanh nghiệp nắm bắt và lưu trữ dữ liệu từ các nguồn bên ngoài Các kỹ sư phân tích

và nhà phân tích dữ liệu sử dụng nó để truy vấn các tập dữ liệu bằng SQL, biến chúng thành các mô hình (models) và báo cáo dữ liệu mạnh mẽ Data warehouse là nguồn trung tâm cho bất kỳ ngăn xếp dữ liệu hiện đại nào Dữ liệu được nhập, chuyển đổi và chia sẻ (imported, transformed, and shared) với các công cụ khác từ kho Hiện tại, có 2 loại data warehouse chính: On-prem (tại chỗ) và Cloud (nền tảng đám mây) On-prem warehouse là một vị trí thực tế nơi các công ty cần duy trì phần cứng và phần mềm để lưu trữ dữ liệu Trong khi đó, cloud warehouse có sẵn ở mọi nơi và không bao gồm vị trí thực tế bạn cần truy cập, tuy nhiên, bạn sẽ phải trả tiền để sử dụng không gian lưu trữ và sức mạnh tính toán do một công ty thứ 3 khác cung cấp và duy trì Có thể kể đến như AWS (Amazon Web Services), GCP (Google Cloud Platform), …

2.Nguồn gốc của DataWarehouse

Mặc dù dữ liệu đã được lưu trữ trong suốt lịch sử nhưng phải đến những năm 1980, công nghệ mới bắt đầu tăng tốc và Data warehouse thức đầu tiên được tạo ra Đó là một on-prem warehouse bao gồm rất nhiều storage towers (tháp lưu trữ) và các vi xử lý máy tính, chiếm rất nhiều không gian Và như bạn

có thể tưởng tượng, điều này gây ra rất nhiều vấn đề Nó không chỉ chiếm nhiều không gian vật lý mà nhân viên còn phải bảo trì phần cứng và phần mềm của nhưng thiết bị cấu hình warehouse này Điều này nhanh chóng trở nên tốn kém và không thực tế đối với các công ty nhỏ hơn không có ngân sách hoặc

Trang 6

không gian Khi Amazon bắt đầu mở rộng quy mô kho dữ liệu tại chỗ để hỗ trợ hoạt động kinh doanh của mình, họ nhận thấy cơ hội bán năng lực tính toán cho các doanh nghiệp khác để tiết kiệm chi phí Đây là lúc Redshift, sản phẩm cloud data warehouse củaAmazon ra đời Ngay sau đó, những gã khổng lồ công nghệ khác như Google và Microsoft cũng đang xây dựng cơ sở hạ tầng dữ liệu cũng làm theo Giờ đây, bạn có thể tiếp cận và sử dụng sức mạnh của cloud warehouse ở bất cứ đâu Bạn không cần phải tự mình duy trì cơ sở hạ tầng nữa mà có thể trả tiền cho một công ty để làm việc này cho bạn Điều này

rẻ hơn so với on-prem phải trả để duy trì hệ thống và cho phép khả năng dữ liệu nhanh hơn

3.Tại sao các doang nghiệp cần phải có Data warehouse

Data warehouse đã từng được cho không thực tế do chi phí liên quan đến chúng Giờ đây, kho lưu trữ đám mây cung cấp chúng cho gần như tất cả mọi người, chúng mang lại rất nhiều lợi ích cho doanh nghiệp Kho đám mây cho phép khả năng mở rộng, tính sẵn có, tiết kiệm chi phí và tăng cường bảo mật - tất cả đều do chính nhà cung cấp xử lý Các tiện ích có thể được liệt kê:

Scalability (Khả năng mở rộng): Data warehouse cho phép bạn mở rộng

quy mô tính toán lên hoặc xuống tùy thuộc vào tốc độ bạn cần chạy các phép biến đổi của mình và số tiền bạn sẵn sàng chi tiêu Bạn cũng có thể bật hoặc tắt tài nguyên máy tính để tiết kiệm chi phí

Availability (Sẵn có): Data warehouse luôn có sẵn Mặc dù độ trễ có thể

thay đổi tùy theo vị trí nguồn và đích nhưng dữ liệu của bạn có thể được truy cập ở mọi nơi, mọi lúc, rất tiện lợi Điều này trở nên lý tưởng trong xã hội hiện đại, nơi mọi người có thể làm việc từ bất cứ đâu

Cost savings (Tiết kiệm chi phí): So với on-prem warehouse, cloud

warehouse tiết kiệm hơn nhiều vì bạn không còn cần phải bảo trì tất cả cơ sở hạ tầng nên bạn có thể tiết kiệm chi phí liên quan đến bảo trì Các công ty kho dữ

Trang 7

Discover more

from:

DM1001

Document continues below

Data mining

Trường Đại học Ngâ…

5 documents

Go to course

khai phá dữ liệu_ random forest

None

23

2023KPDL Kiem Tra -Bài tập tự luận Khai…

None

1

50 BÀI TẬP TỪ ĐỒNG NGHĨA Mức độ

Vat ly dai

14

Scarselli 2009 - mô hình neural network

Cơ sở dữ

20

Correctional

Administration

Criminology 96% (114)

8

Trang 8

liệu quản lý rất nhiều dữ liệu nên họ có thể tiết kiệm chi phí mà bạn không thể

làm được

Security (Tính bảo mật): Data warehouse cung cấp các tính năng bảo

mật nâng cao để đảm bảo dữ liệu của bạn luôn được bảo mật Nó thường trực

tiếp xử lý các chiến lược tuân thủ nhất định cần thiết đối với từng loại dữ liệu

khác nhau , giúp bạn không cần phải tự mình thực hiện việc này Nó cũng có

các tính năng như vai trò và người dùng giúp bạn kiểm soát ai có quyền truy

cập vào dữ liệu của mình Nhưng chúng ta sẽ đi sâu vào vấn đề này sau

4.Tiềm năng trong ứng dụng doanh nghiệp

Các doanh nghiệp có thể tận dụng kho dữ liệu vì nhiều lý do khác nhau

Hầu hết những lý do này đều giúp tiết kiệm thời gian và tiền bạc cho doanh

nghiệp, dù trực tiếp hay gián tiếp

4 1.Hợp nhất tất cả dữ liệu về một nơi

Thay vì để tất cả dữ liệu của bạn trải rộng trên các nền tảng khác nhau, dữ

liệu đó có sẵn cho bạn ở một nơi Điều này cho phép bạn chuẩn hóa tất cả các

metrics (chỉ số cốt lõi) và definitions (định nghĩa dữ liệu) của mình, thay vì phụ

thuộc vào các chỉ số được tính toán bởi các nền tảng như Google và Facebook

Nếu bạn thấy rằng các số liệu khác nhau không phù hợp trên các nền tảng thì

data warehouse sẽ đóng vai trò là nguồn đáng tin cậy cho số liệu phù hợp Thay

vì dựa vào các nền tảng bên ngoài, giờ đây bạn đã có một nền tảng tập trung tất

cả dữ liệu của mình Chưa kể, bạn sẽ khiến kỹ sư (DE) và nhà phân tích dữ liệu

(DA) của mình phải đau đầu Nếu không, họ sẽ phải lấy dữ liệu cần thiết từ

nhiều nguồn khác nhau theo cách thủ công Việc không có một nguồn thông tin

chính xác duy nhất sẽ làm giảm chất lượng dữ liệu của bạn, lãng phí thời gian

của nhóm dữ liệu và gây khó khăn cho việc kết hợp dữ liệu từ các nguồn khác

nhau

English - huhu

Led hiển thị 100% (3)

10

Trang 9

4 2.Khả năng kiểm soát các quyền truy cập và loại quyền truy cập của các

đối tượng

Data warehouse có các tính năng bảo mật mở rộng cho phép bạn kiểm soát ai có quyền truy cập vào nội dung gì Bạn có khả năng cấp cho ai đó các quyền ít hoặc nhiều tùy theo ý muốn của bạn Nó cũng cung cấp cho bạn khả năng tạo người dùng và gán vai trò cho họ Mỗi vai trò có bộ quyền riêng đối với cơ sở dữ liệu và bảng mà nó có thể xem Sau đó, bạn cũng có thể chọn người được phép thực hiện query (truy vấn) các bảng đó hoặc thậm chí update (cập nhật) và delete (xóa) chúng Khi bất kỳ ai trong tổ chức của bạn có thể dễ dàng truy cập vào dữ liệu của bạn, điều tồi tệ có thể xảy ra Nguy cơ dữ liệu quan trọng có thể bị xóa, chỉnh sửa sai hoặc truy cập không thích hợp Người dùng, vai trò, chính sách và biện pháp bảo mật của kho dữ liệu có thể giúp đảm bảo dữ liệu nằm trong tay đúng người

4 3.Thích hợp cho Fast reporting (báo cáo nhanh)

Vì tất cả dữ liệu của bạn đều nằm ở cùng một nơi nên nó cho phép báo cáo nhanh hơn so với việc lấy dữ liệu từ nhiều nguồn khác nhau Vị trí trung tâm cho phép bạn truy cập và truy vấn nhanh chóng hàng triệu hàng dữ liệu, cho phép thực hiện chuyển đổi và báo cáo nhanh hơn nhiều

5.Các Data platform hỗ trợ data warehousing workloads

Hiện nay có nhiều các nền tảng cung cấp, hỗ trợ Data warehouse dưới dạng dịch vụ, có thể kể đến như:

Snowflake là một nền tảng được quản lý hoàn toàn để lưu trữ dữ liệu, hồ

dữ liệu (data lake), kỹ thuật dữ liệu, khoa học dữ liệu và phát triển ứng dụng dữ liệu

Trang 10

Databricks là một nền tảng phân tích dữ liệu, kỹ thuật dữ liệu và khoa học

dữ liệu cộng tác dựa trên đám mây, kết hợp những gì tốt nhất của data warehouse và data lake vào kiến trúc lakehouse

Google BigQuery là một serverless (không máy chủ) warehouse, có khả năng mở rộng cao, đi kèm với công cụ truy vấn tích hợp

Amazon Redshift là data warehouse dựa trên đám mây có quy mô petabyte được quản lý hoàn toàn, được thiết kế để lưu trữ và phân tích tập dữ liệu quy mô lớn (biggg data)

PostgreSQL là một cơ sở dữ liệu quan hệ mã nguồn mở cấp doanh nghiệp nâng cao hỗ trợ cả truy vấn SQL (quan hệ) và JSON (không quan hệ)

6.Data warehouse vs Data lake

Data lake (hồ dữ liệu) là một hệ thống nơi bạn lưu trữ, xử lý và truy vấn

dữ liệu phi cấu trúc, bán cấu trúc và có cấu trúc ở hầu hết mọi quy mô Sự khác biệt chính giữa data warehouse và data lake là loại và cách lưu trữ dữ liệu Data warehouse chứa dữ liệu có cấu trúc nhằm tổ chức dữ liệu để sử dụng phân tích, trong hi đó Data lake có thể chứa khá nhiều loại dữ liệu—có cấu trúc hoặc không cấu trúc—và dữ liệu thường được giữ nguyên ở định dạng thô cho đến khi sẵn sàng sử dụng Hiểu đơn giản thì data lake chứa đủ mọi loại mọi kiểu dữ liệu tùm lum, một phần dữ liệu có cấu trúc trong data lake sẽ được load vào data warehouse trong quá trình ETL hoặc ELT

Các ứng dụng thường được sử dụng trong nhóm công nghệ giáo dục đại học: Các tổ chức sử dụng một mạng lưới công nghệ phức tạp, buộc phải theo dõi các hoạt động hàng ngày khác nhau Chúng ta hãy xem xét một vài ứng dụng phổ biến

Ngày làm việc (nhân sự) : Workday Sinh viên giúp các tổ chức giáo dục

chuẩn bị cho những thay đổi căn bản và chuẩn bị phục vụ cả sinh viên và giáo viên một cách hiệu quả Nó giúp kết nối sinh viên mọi lúc mọi nơi và được

Trang 11

thiết kế linh hoạt để đáp ứng lượng sinh viên rộng lớn và đa dạng Hệ thống sinh viên được kết nối liền mạch với tài chính, nhân sự và lập kế hoạch, mang lại cho ban quản lý những hiểu biết sâu sắc theo thời gian thực về các hoạt động đang diễn ra trong khuôn viên trường Giải pháp Peoplesoft Campus vẫn đang được sử dụng tại các cơ sở và trường đại học lớn cho các hoạt động nhân

sự khác nhau

Đám mây giáo dục Salesforce: (CRM) Salesforce Education Cloud là bộ

công nghệ cung cấp giải pháp cho cả người học và tổ chức Nó giúp các tổ chức giáo dục hoạt động theo khuôn khổ từ đầu đến cuối bao gồm các mô-đun tuyển sinh, tuyển dụng nhân viên, thăng tiến và kinh nghiệm của sinh viên cũng như các hoạt động tổng thể của tổ chức Đây là nền tảng được tận dụng cho CRM và CX

Biểu ngữ: (ERP) Banner là một hệ thống ERP (Lập kế hoạch nguồn lực

doanh nghiệp) thương mại , được thiết kế dành riêng cho giáo dục đại học bao gồm một số mô-đun tích hợp chặt chẽ chia sẻ một cơ sở dữ liệu duy nhất Nó bao gồm các tùy chọn tự phục vụ dành cho sinh viên, nhân viên và quản trị viên để giúp họ truy cập các tính năng cần thiết khi đang di chuyển Đây là kiến trúc tham chiếu nhiều tầng chứa các tài nguyên cơ sở hạ tầng cần thiết để triển khai các phiên bản sẵn có của ứng dụng Banner trên Cơ sở hạ tầng đám mây của Oracle

Bảng đen (Lớp học và học tập) : Ứng dụng Blackboard miễn phí giúp

học sinh sử dụng thiết bị di động của mình để duy trì kết nối với Blackboard Learn; có sẵn cho các thiết bị iOS, Android và Windows Người học có thể ưu tiên công việc bằng cách sử dụng luồng hoạt động ưu tiên các sự kiện và hành động để theo kịp các bài tập và thời hạn sắp tới Nó thiết lập thông báo đẩy về điểm mới, bài kiểm tra sắp tới và ngày hết hạn trước đây, đồng thời giúp xem các thông báo, thảo luận, v.v

Tableau : (Phân tích Ed cao hơn)

- Tableau phân tích tỷ lệ đăng ký, thành tích và nhân khẩu học của sinh viên, đồng thời giúp các trường cao đẳng và đại học phát triển mối quan hệ cựu sinh viên tốt hơn và hợp lý hóa báo cáo giáo dục Cả

Trang 12

trong lớp học và trong phòng thí nghiệm, ứng dụng đều nâng cao trải nghiệm học tập bằng cách cung cấp các phân tích dễ hiểu Nó giúp sinh viên đạt được các kỹ năng hiểu biết dữ liệu có giá trị và các nhà giáo dục có thể tinh chỉnh kế hoạch bài học của họ Đồng thời, người quản lý thời gian khám phá những cơ hội tốt nhất để khám phá Tableau tận dụng tối đa dữ liệu sẵn có và miễn phí cho sinh viên và người hướng dẫn năng động

- Tuy nhiên, dữ liệu riêng biệt từ các ứng dụng được đề cập ở trên

có các định dạng khác nhau và các bên liên quan gặp khó khăn trong việc có được cái nhìn 360 độ về dữ liệu này Chúng ta cũng hãy nhớ rằng mục tiêu của công nghệ ở bậc cao hơn là cho phép cộng tác toàn diện nhằm thúc đẩy tính toàn diện, cảm giác của một cộng đồng và cho phép tiếp cận, hỗ trợ và tạo động lực Giờ đây, điều này chỉ có thể thực hiện được nếu dữ liệu có trong tất cả các ứng dụng khác nhau tích hợp với các thành phần chính khác của nhóm công nghệ Tại sao? Chỉ cần xem xét sự chồng chéo đơn giản của dữ liệu ở đây Giả sử một học sinh mới được nhận vào lớp cao hơn và thông tin chi tiết của học sinh đó được nhập vào hệ thống thông tin học sinh Bây giờ, dữ liệu này cần được sao chép tự động trong hệ thống học tập dành cho giáo viên và trong ERP Tương tự như vậy, sự vắng mặt của anh ta cần phải được đưa vào ứng dụng học tập để giáo viên hiểu được vị trí của anh ta với việc học

7.Kho dữ liệu hiện đại nâng cao hiệu suất của hệ thống công

nghệ giáo dục đại học như thế nào?

Các tổ chức giáo dục đại học đang thu thập lượng lớn dữ liệu liên quan đến sinh viên, chương trình và cơ sở vật chất trong khuôn viên trường Việc sử

Trang 13

dụng dữ liệu của người học, học thuật hoặc tổ chức để cải thiện nguồn lực, quy trình và quy trình công việc vẫn còn rất kém hiệu quả Hãy xem xét những điều sau:

- Được trang bị các phân tích cập nhật, các tổ chức có thể chọn các phương pháp tiếp cận sáng tạo để tăng cường sự tham gia của sinh viên

- Nó cũng có thể giúp cải thiện tỷ lệ giữ chân và tốt nghiệp, từ đó có thể tác động đến doanh thu bằng cách thỉnh thoảng nhận được thông báo về sự tham gia của sinh viên

- Bằng cách triển khai chatbot để cung cấp nội dung được cá nhân hóa cho sinh viên

- Bảng điều khiển, cảnh báo và liên lạc giữa giảng viên và sinh viên có thể giúp đưa ra lời khuyên học tập

- Theo dõi quyên góp của cựu sinh viên

Việc quản lý hợp lý các nguồn lực sẵn có để giáo dục đại học mang lại giá trị là điều bắt buộc đối với các trường đại học ngày nay Quản lý dữ liệu có sẵn trong ngăn xếp công nghệ bằng cách sử dụng kho dữ liệu hiện đại được tùy chỉnh là điểm khởi đầu

Ngày đăng: 03/03/2024, 09:53

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w