Dữliệu được chia sẻ, lưu trữ và sử dụng như thế nào

Một phần của tài liệu 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp (Trang 63 - 70)

Dữ liệu mà tổ chức đang sở hữu là dữ liệu số, được lưu ở các định dạng khác nhau hư: file. excel, file .csv, file. parquet, file json, cdr, ...

- Dữ liệu được các phòng ban sử dụng phục vụ đa dạng mục đích:

+Phục vụ mục đích điều hành sản xuất kinh doanh: dữ liệu chủ yếu sử dụng đó là dữ liệu khác hàng, dữ liệu theo thời gian. Dữ liệu chủ yếu được sử dụng để xây dựng các báo cáo ngày, tuần, tháng, quý, năm để điều hành kinh doanh sản xuất công ty. Từ đó, cấp quản trị có thể đưa ra chiến lược một cách nhanh chóng, kịp thời. Từ đó tạo lợi thế cạnh tranh của tổ chức trong môi trường cạnh tranh ngày càng khắc nghiệt

+Phục vụ mục đích đối soát: Dữ liệu phản ánh sự thật tình trạng sức khỏe kinh doanh của một doanh nghiệp là như thế nào. Dữ liệu được lấy từ các nguồn, server được tổng hợp theo các chỉ tiêu, tạo báo cáo. Từ đó, phòng ban phụ trách

Khoá luận tốt nghiệp

công việc đối soát (ở đây là phòng tài chính và đối soát) sử dụng số liệu được cung cấp để đối chiếu, so sánh với bên cung cấp dịch vụ thứ 3 hoặc đối tác sử dụng dịch vụ trong việc chi trả chi phí như: chi phí phân bổ chạy quảng cáo, chi phí chiết khấu thu hộ, chi hộ, ...

+Phục vụ trong các bài toán dự đoán khai phá dữ liệu: Dữ liệu lớn được sử dụng để phục vụ trong các bài toán Machine Learning, Deep Learning, các bài toán phân tích hành vi khách hàng, trải nghiệm khách hàng, phân khúc khách hàng và dự đoán tỷ lệ rời bỏ,...Các bài toán này có vai trò lớn trong việc hiểu được hành vi, thói quen giao dịch của người dùng ÷ từ đó giúp tổ chức đưa ra được những dịch vụ chăm sóc khách hành tốt hơn, tăng trải nghiệm khác hàng

+Kết hợp với đối tác để nghiên cứu thực hiện các bài toán chung với đối tác. Hiện tại công ty đang hợp tác với hai ngân hàng lớn ở Việt Nam để thực hiện các bài toán lớn trong tính dụng như: Credit Scoring, Trusting Social, .

- Dữ liệu được lấy từ nhiều nguồn:

+ Các application (ứng dụng)

+ Databases (cơ sở dữ liệu)

+Hệ thống cơ sở dữ liệu viễn thông

- Mô tả tổng quát về khung quản lý dữ liệu của tổ chức

Hiện tại, công ty nghiên cứu đã xây dựng khung quản lý dữ liệu lớn. Đó là hệ sinh thái Bigdata Hortonwork Data Platform đến từ công ty Hortonwork. Và xây dựng mô hình dữ liệu tổng thể của doanh nghiệp X như sau:

tuy nhiên không theo một định dạng chuẩn về structured data nhưng json, xml

+Data Processing Layer

Dữ liệu được thu thập ở tầng Data Ingestion được xử lý ở tầng xử lý dữ liệu

(data processing). Tầng này bao gồm tập hợp các hành động: trích xuất, mã hóa,

biến đổi, đánh giá tương quan, làm giàu, phân loại, ... để đảm bảo chất lượng thông tin đáp ứng nhu cầu dữ liệu. Cụ thể, tầng này sẽ thực hiện một số hành động sau:

Khoá luận tốt nghiệp

Data Visualization Layer

Real-time Dashboard Intelligent Agents

Data Query Layer

Amazon Rcdshifi presto Analytics Engine Statistical Analytics Sementic Analysis Predictive Modeling Text Analytics

Data Storage Layer

Real-time Processing Hybrid Processing Batch Processing

Data Security Layer Data Monitoring Layer

Hình 14: Khung quản lý dữ liệu của tổ chức

Các thành phần của hệ thống là:

+Data Ingestion Layer (nhập dữ liệu)

Tầng data ingestion thực hiện kết nối, thu thậ, phát hiện thay đổi dữ liệu từ các nguồn dữ liệu khác nhau về lưu trữ trên khung Bigdata

+Data Storage Layer

Tầng lưu trữ dữ liệu lớn là nơi phục vụ cho việc lưu trữ tất cả các đối tượng /thực thể dữ liệu dưới dạng dữ liệu thô, đã qua xử lý hoặc ở bước trung gian. Dữ liệu lưu trữ trên Data Repository gồm 2 loại:

MetaData: loại dữ liệu mô tả, dùng để cung cấp thông tin về một hoặc một nhiều đặc tính khác nhau của dữ liệu, giúp cho việc sử dụng, khai thác trở nên thuận tiện hơn.

Data Store: Là tất cả các loại dữ liệu được chứa trong các thực thể dữ liệu được lưu trữ và khai thác, tính toán trên hệ thống

Dữ liệu lưu trữ trên tầng này được lưu trữ dưới các định dạng: dữ liệu không cấu trúc (không có định nghĩa để mô tả cấu trúc dữ liệu), dữ liệu có cấu trúc (dữ liệu có cấu trúc được định nghĩa trước), dữ liệu bán cấu trúc (là loại dữ liệu có cấu trúc,

Bùi Thị Doan Hằng- Lớp K19HTTTA 53

Mã hóa và loại bỏ dữ liệu nhạy cảm; Ánh xạ từ dữ liệu thành các định dạng dữ liệu có ý nghĩa có thể phân tích và sử dụng được; Kết hợp nhiều nguồn dữ liệu khác nhau để làm giàu dữ liệu, đưa ra một cái nhìn trọn vẹn hơn về thực thể; Phân loại dữ liệu, định hướng các mục đích sử dụng dữ liệu khác nhau.

+Data Query Layer

Thực hiện phân tích dữ liệu để tìm ra giá trị của dữ liệu, dự đoán xu hướng trên các mô hình học máy. Việc dự đoán và phân tích có thể thực hiện theo lô hoặc streaming

+Data Visualization Layer

Ở tầng này sẽ sử dụng các công cụ trực quan hóa dữ liệu để biểu diễn dữ liệu dưới dạng báo cáo, biểu đồ, bảng biểu để mô tả dữ liệu, giúp người dùng có thể nhìn dữ liệu theo nhiều chiều hướng, dễ quan sát và đánh giá dữ liệu

+Data Security Layer

Nhiệm vụ của tầng này là quản lý được các chính sách về quyền truy xuất và bảo mật thông tin. Cung cấp cơ chế phân quyền tập trung, cho phép quản lý được quyền truy xuất tới từng user/ nhóm user đến các tầng lưu trữ dữ liệu cuea hệ thống.

+Data Monitor Layer

Giám sát dữ liệu là một phần quan trọng của cơ chế quản trị dữ liệu. Công cụ Apache Flume dùng để ghi log xử lý dữ liệu. Apache Storm thực hiện giám sát hoạt động xử lý dữ liệu và học máy, .

Dữ liệu được lưu ở đâu?

Như đã nói ở trên, hiện tổ chức có khoảng 8 triệu khách hàng cá nhân, trong đó mỗi ngày có hơn 2 triệu khác hàng thường xuyên giao dịch. Điều đó có nghĩa là mỗi ngày, hệ thống sẽ được insert khoảng 5- 11 triệu bản ghi giao dịch của khách hàng. Bên cạnh đó, công ty còn tiến hành tổng hợp dữ liệu từ các nguồn khác

Khoá luận tốt nghiệp

(không chỉ là dữ liệu khác hàng) với dung lượng lớn. Với dung lượng dữ liệu khổng lồ như vậy, đòi hỏi tổ chức cần có khung công nghệ xử lý và lưu trữ mạnh để lưu trữ được hết lượng dữ liệu khổng lồ trên, phục vụ cho việc khai thác và sử dụng dữ liệu. Vậy dữ liệu được lưu trữ ở đâu? Và những phương thức lưu trữ dữ liệu là gì? Với lượng dữ liệu ngày càng tăng theo cấp số nhân như vậy, thì các cách thức lưu trữ theo kiểu truyền thống, như: ổ đĩa cứng dung lượng thấp, tài liệu giấy, băng kỹ thuật số, .. .không thể đáp ứng nổi. Dữ liệu hiện nay của tổ chức khi lấy từ các nguồn về được lưu trữ ở:

+ HDFS: hệ thống tập tin phân tán hadoop + Cơ sở dữ liệu:

+ Ổ cứng:

Dữ liệu được thu thập từ các nguồn khác nhau:

Hình 15: Luồng thu thập dữ liệu

+2 Luồng thu thập ở đây có hai nhánh: dữ liệu được thu thập từ các nguồn được lưu trữ trong databases và dữ liệu được thu thập từ các ứng dụng (applications)

+Luồng 1: dữ liệu được đưa vào spark xử lý liên tục hàng ngày. Sau khi được xử lý, mã hóa/ loại bỏ dữ liệu nhạy cảm, dữ liệu được đưa vào lưu trữ tại HDFS trong thư mục raw zone

+Luồng 2: Dữ liệu được thu thập từ các ứng dụng sẽ được đẩy vào Kafka, sau đó dữ liệu được lấy từ Kafka ra để xử lý trong Spark Streaming để mã hóa

Khoá luận tốt nghiệp

(Encryted) hoặc giảm mã (Decryted) rồi đẩy lên HDFS để phục vụ cho việc khai thác

- Dữ liệu được chia sẻ như thế nào?

Trong doanh nghiệp thực tập hiện tại, đối tượng được sử dụng, khai thác dữ liệu, sẽ được phân quyền phụ thuộc vào:

+Vị trị/vai trò của cá nhân: ví dụ như nhà khoa học dữ liệu, kỹ sư dữ liệu, nhà phân tích dữ liệu có thể truy cập và sử dụng, khai thác những dữ liệu thô để phục vụ cho các bài toán về khai phá dữ liệu, học máy hay phát hiện bất thường trong dữ liệu. Nhà marketing, kinh doanh có thể sử dụng những dữ liệu đã được biến đổi, làm sạch, được tổng hợp theo các chỉ tiêu dữ liệu kinh doanh để xây dựng báo cáo lên cấp trên. Đối với ban lãnh đạo, sử dụng các báo cáo có được từ việc tổng hợp dữ liệu, trực quan hóa để điều hành công việc kinh doanh, ...

+Vai trò của các phòng ban: Ví dụ phòng bán hàng số, phòng chiến lược sẽ có các yêu cầu khai thác dữ liệu khác với phòng marketing. Hay như phòng backend, phòng kiểm thử, phân tích dữ liệu sẽ cần đến dữ liệu thô chưa qua xử lý để phục vụ công việc cho mình.

+Dự án tham gia: tùy thuộc vào từng dự án tham gia mà các đối tượng sẽ được phân quyền tương ứng

Hiện tại, dữ liệu được chia sẻ trong tổ chức theo chiều ngang thông qua các công cụ và phương thức sau:

+Data Security Plaftorm: đây là khung chia sẻ dữ liệu chung trong toàn bộ tổ chức. Dữ liệu sau khi được tổng hợp, biến đổi phù hợp với yêu cầu, sẽ được đưa lên ứng dụng này và được chia sẻ tới phòng ban/ người có quyền truy cập

+ Confluence: là công cụ cộng tác, là phần mềm được phát triển bởi Atlassian, được sử dụng để giúp các nhóm dự án cộng tác và chia sẻ thông tin hiệu quả hơn. Trong Confulence, nội dung công việc được tạo và tổ chức bằng việc sử dụng spaces, pages, và blogs. Các nhóm có thể quản lý dự án dễ dàng hơn vì Confluence có không gian làm việc mở, chia sẻ thông tin với mọi người trong team. Một điều quan trọng, Confluence cho phép tạo và lưu trữ tài liệu ở một nơi, mà mọi người trong tổ chức có thể dễ dàng truy cập được. Đồng thời, nhờ vậy mà nội dung vài tài liệu được quản lý dễ dàng hơn. Việc chia sẻ dữ liệu, đặc biệt là siêu dữ liệu, mô

Khoá luận tốt nghiệp

hình dữ liệu, tài liệu lưu cấu trúc các bảng, cơ sở dữ liệu nội dung thường được đẩy lên các pages trong từng spaces cụ thể để lưu trữ và quản lý. Những người có nhiệm vụ tìm hiểu và khai thác dữ liệu, như: nhà khoa học dữ liệu (Data Scientist), nhà phân tích dữ liệu (Data Analyst) có thể dễ dàng tiếp cận.

+Email: Kênh chia sẻ này thường được áp dụng phổ biến, đặc biệt là dành cho các phòng ban phi kỹ thuật, như: phòn kinh doanh, marketing, tài chính và đối soát, bán hàng số.. .Khi có yêu cầu lấy dữ liệu, hoặc tổng hợp dữ liệu từ các phòng ban trên tới bộ phận chịu trách nhiệm chính về toàn bộ dữ liệu (Phòng Phân tích dữ liệu). Dữ liệu sẽ được tổng hợp từ HDFS

Một phần của tài liệu 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp (Trang 63 - 70)

Tải bản đầy đủ (DOCX)

(103 trang)
w