- Real-time Message Ingestion: Thu thập dữ liệu thời gian thực - như đã nói ở trên, dữ liệu được sinh ra từ nguồn Data Source có thể bao gồm dữ liệu thời gian thực ví dụ từ các thiết bị
GIỚI THIỆU TỔNG QUAN
Lời mở đầu
“Dữ liệu” luôn là “hot search” trong những năm qua khi thế giới công nghệ và kỹ thuật số đang ngày ngày phát triển với tốc độ chóng mặt Dữ liệu không chỉ là nguồn tài nguyên quý giá mà còn là yếu tố chính định hình các quyết định, các xu hướng và cả thị trường Đối diện với một lượng lớn thông tin được tạo ra hàng giây, việc quản lý và tận dụng dữ liệu trở thành một thách thức đối với cả các doanh nghiệp lớn và cá nhân. Đó là lý do tại sao, chúng ta sẽ khám phá về cách quản trị dữ liệu trong Big Data qua ống kính của Azure Purview - một công cụ hiệu quả, mạnh mẽ của Microsoft.
Mục tiêu đề tài
Trong báo cáo này, chúng ta sẽ bắt đầu bằng một cái nhìn tổng quan về nhập môn dữ liệu lớn, khám phá cách mà nó đã thay đổi cách chúng ta nghĩ về thông tin và ảnh hưởng của nó đến xã hội và kinh tế Tiếp theo, chúng ta sẽ thảo luận về nền tảng Big Data Framework gồm Microsoft Azure và Azure Purview, vai trò quan trọng của chúng trong việc xử lý và phân tích dữ liệu lớn
Sau đó, chúng ta sẽ dành thời gian để tìm hiểu cụ thể Azure Purview - một công cụ quản trị dữ liệu toàn diện từ Microsoft Chúng ta sẽ tìm hiểu về các tính năng và lợi ích của nó, cũng như cách nó tích hợp vào hệ sinh thái dữ liệu của Microsoft để cung cấp một giải pháp toàn diện cho việc quản lý dữ liệu.
Cuối cùng, thảo luận về các ứng dụng thực tế của Azure Purview trong việc phân tích dữ liệu Chúng ta sẽ khám phá cách mà nó có thể được sử dụng để tối ưu hóa quy trình phân tích dữ liệu, nâng cao hiệu suất và tuân thủ quy định về bảo mật và quyền riêng tư dữ liệu Chính qua những phần này, ta sẽ hiểu rõ hơn về cách Azure Purview có thể giúp chúng ta tận dụng tối đa giá trị từ dữ liệu lớn.
TỔNG QUAN VỀ NHẬP MÔN DỮ LIỆU LỚN
Khái niệm
- Big Data là các tập dữ liệu có khối lượng lớn và phức tạp Độ lớn đến mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý.
- Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc, không có cấu trúc và bán cấu trúc, mỗi tập có thể được khai thác để tìm hiểu insights
Lịch sử
- Big Data thực chất đã hình thành từ khoảng thập kỷ 80 - 90 của thế kỷ XX Năm
1984, tập đoàn Teradata đưa ra thị trường hệ thống xử lý dữ liệu song song DBC1012. Các hệ thống xử lý của Teradata là một trong những hệ thống đầu tiên lưu trữ và phân tích đến 1 terabyte dữ liệu vào năm 1992 Ổ đĩa cứng cũng đạt mức dung lượng 2,5GB vào năm 1991.
- Năm 2000, Seisint Inc (nay là Tập đoàn LexisNexis) đã phát triển một khung chia sẻ tệp dựa trên cấu cấu trúc C++ để lưu trữ và truy vấn dữ liệu Hệ thống này lưu trữ và phân phối dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc trên nhiều máy chủ Năm
2004, Google xuất bản một bài báo về quá trình MapReduce, cung cấp một mô hình xử lý song song và phát hành những ứng dụng liên quan để xử lý lượng dữ liệu khổng lồ.
- Năm 2005, nhiều doanh nghiệp đã bắt đầu nhận ra số lượng người dùng được tạo ra thông qua Youtube, Facebook và các dịch vụ trực tuyến khác là rất lớn Cùng năm đó, Hadoop đã được phát triển và NoSQL cũng bắt đầu trở nên phổ biến Sự phát triển của các framework ví dụ như Hadoop (hoặc gần đây là Spark) là cần thiết cho sự phát triển của Big Data, chúng khiến cho Big Data hoạt động dễ dàng hơn và lưu trữ rẻ hơn
Nói về sự lịch sử của Big Data thì chắc chắn cần phải gắn với sự phát triển của Hadoop Bởi hệ sinh thái ngày càng phát triển của công nghệ này.Hai cột mốc quan trọng trong sự phát triển của Hadoop cũng đã tạo thêm niềm tin vào Sức mạnh của nguồn mở và Công nghệ Big Data.
- Chỉ hai năm sau khi phát hành lần đầu tiên, vào năm 2008, Hadoop đã chiến thắng trong Terabyte Sort Benchmark.Và đây cũng là lần đầu tiên Java hoặc chương trình nguồn mở giành chiến thắng.Vào năm 2010, Facebook cũng đã tuyên bố rằng họ có Hadoop cluster lớn nhất thế giới với 21 PB dung lượng lưu trữ cho nền tảng nhắn tin của họ.
- Ngày qua ngày, thế giới internet lớn đang tạo ra 2,5 triệu triệu byte dữ liệu, theo thống kê tỷ lệ phần trăm dữ liệu được tạo ra từ năm 2021-2023 là 90% Dữ liệu này đến từ nhiều ngành công nghiệp như thông tin khí hậu được thu thập bởi cảm biến, các nội dung khác nhau từ các trang truyền thông xã hội, hình ảnh kỹ thuật số và video,các hồ sơ khác nhau về giao dịch mua hàng Đây chính là Big Data.
Kiến trúc
- Data Sources: Dữ liệu nguồn - nôm na là nơi dữ liệu được sinh ra, bao gồm dữ liệu có cấu trúc (structure), dữ liệu phi cấu trúc (un-structure) cũng như dữ liệu bán cấu trúc (semi-structured) Dữ liệu có thể đến từ rất nhiều nguồn khác nhau như dữ liệu từ các ứng dụng, cơ sở dữ liệu quan hệ (giao dịch mua/ bán hàng từ một hệ thống bán lẻ, giao dịch gửi tiền vào ngân hàng, …), hoặc dữ liệu file được tạo ra bởi các log của ứng dụng.
- Data Storage: Nơi lưu trữ dữ liệu - được thiết kế để lưu trữ lại khối lượng rất lớn các loại dữ liệu với các định dạng khác nhau được sinh ra bởi dữ liệu nguồn (Data Source) trong mô hình xử lý dữ liệu theo lô (Batch Processing).
- Batch Processing: Xử lý dữ liệu theo lô - thành phần này cho phép xử lý một lượng lớn dữ liệu thông qua việc đọc dữ liệu từ các file nguồn, lọc dữ liệu theo các điều kiện nhất định, tính toán trên dữ liệu, và ghi kết quả xuống 1 file đích Trong thành phần này bạn có thể sử dụng Spark, Hive, MapReduce,… với nhiều ngôn ngữ lập trình khác nhau như Java, Scala hoặc Python.
- Real-time Message Ingestion: Thu thập dữ liệu thời gian thực - như đã nói ở trên, dữ liệu được sinh ra từ nguồn (Data Source) có thể bao gồm dữ liệu thời gian thực (ví dụ từ các thiết bị IoT) do đó thành phần này cho phép một hệ thống Big Data có thể thu thập và lưu trữ các loại dữ liệu trong thời gian thực phục vụ cho việc xử lý dữ liệu theo luồng (Streaming Processing).
- Stream Processing: Xử lý dữ liệu theo luồng - tương tự như việc xử lý dữ liệu theo lô (Batch Processing), sau khi thu thập dữ liệu thời gian thực, dữ liệu cũng cần phải được lọc theo các điều kiện nhất định, tính toán trên dữ liệu, và ghi kết quả dữ liệu sau khi được xử lý Chúng ta có thể nhắc đến Apache Storm, Spark Streaming, …
- Analytical Data Store: Nơi lưu trữ dữ liệu phân tích - chịu trách nhiệm lưu trữ dữ liệu đã được xử lý theo định dạng có cấu trúc để phục vụ cho các công cụ phân tích dữ liệu (BI Tools).
- Analysis and Reporting: Phân tích và báo cáo - thành phần này đáp ứng việc tự khai thác dữ liệu data self-service Cho phép người dùng cuối trực quan hóa dữ liệu (data visualization), phân tích dữ liệu cũng như kết xuất các báo cáo khác nhau.
- Orchestration: Điều phối - thành phần này có nhiệm vụ điều phối các công việc trong một hệ thống Big Data để đảm bảo luồng xử lý dữ liệu được thông suốt, từ việc thu thập dữ liệu, lưu trữ dữ liệu đến lọc, tính toán trên dữ liệu Apache Oozie, Airflow,
Đặc trưng
2.4.1 Volume (dung lượng): Đặc trưng này thể hiện ở việc dung lượng thông tin có kích thước và khối lượng tăng lên không ngừng theo từng phút, từng giờ.
Việc dữ liệu trong big data không ngừng tăng lên đồng nghĩa với việc sự đa dạng của thông tin cũng tăng theo kéo theo dữ liệu phức tạp hơn Dữ liệu ở đây có thể là:
- Dữ liệu dạng cấu trúc: là những dữ liệu có tổ chức, dữ liệu đã được định dạng và độ dài được xác định.
- Dữ liệu dạng phi cấu trúc: là những dữ liệu không được tổ chức và không đếm được trong cấu trúc: video, hình ảnh,…
2.4.3 Velocity (vận tốc): Đặc trưng vận tốc ở đây có thể hiểu là việc tích lũy dữ liệu với tốc độ cao Bởi dữ liệu nếu không được cập nhật kịp thời thì sẽ không còn được quan tâm hay thậm chí là lỗi thời.
Việc xác định độ tin cậy và chính xác trong big data ngày càng khó khăn hơn bao giờ hết bởi những xu hướng, những chia sẻ của người dùng,… ngày càng gia tăng mạnh mẽ trước sự phát triển chóng mặt của mạng xã hội.
Giá trị của thông tin được đặc biệt quan tâm khi sử dụng big data bởi những dữ liệu không có giá trị đối với doanh nghiệp phải được loại bỏ ra ngoài Các doanh nghiệp cần có chiến lược rõ ràng về việc xác định giá trị những thông tin để từ đó phục vụ tốt cho hoạt động kinh doanh.
Ứng dụng
- Ứng dụng dữ liệu lớn trong giao thông:
Sử dụng số liệu CDR trong quá khứ để ước lượng các dòng giao thông trong thành phố vào các giờ cao điểm, từ đó có những kế hoạch phân luồng giao thông chi tiết, hợp lý giúp giảm thiểu kẹt xe Ngoài ra còn đưa ra thông tin cho người tham gia giao thông được biết nếu muốn đi từ nơi này đến nơi khác thì nên đi vào giờ nào để tránh kẹt xe, hoặc đi đường nào là ngắn nhất, v.v Ngoài ra, dữ liệu lớn còn giúp phân tích định vị người dùng thiết bị di động, ghi nhận chi tiết cuộc gọi trong thời gian thực; và giảm thiểu tình trạng ùn tắc giao thông
- Ứng dụng dữ liệu lớn trong y tế:
Trong y học các bác sĩ dựa vào số liệu trong các bệnh án để đưa ra dự đoán về nguy cơ mắc bệnh Đồng thời cũng đưa ra được xu hướng lây lan của bệnh Ví dụ, ứng dụng Google Flu Trend là một trong những ứng dụng thành công của Google ứng dụng này dựa trên từ khóa tìm kiếm ở một khu vực nào đó, sau đó bộ máy phân tích của Google sẽ phân tích và đối chiếu kết quả tìm kiếm đó, sau cùng là đưa ra dự báo về xu hướng dịch cúm tại khu vực đó Qua đó cho biết tình hình cúm tại khu vực đó sẽ diễn ra như thế nào để đưa ra các giải pháp
NỀN TẢNG BIGDATA FRAMEWORK - NGHIÊN CỨU AZURE PURVIEW
Microsoft Azure
3.1.1 Giới thiệu về Microsoft Azure:
- Azure là dịch vụ nền tảng điện toán đám mây được phát triển bởi Microsoft nhằm mang đến những giải pháp cho cuộc sống Azure giúp nhà phát triển xây dựng, vận hành và quản lý các ứng dụng trên dựa trên các nền tảng đám mây bạn chọn rất dễ dàng Azure cho phép người dùng chọn từ nhiều ngôn ngữ lập trình, khung và công cụ khác nhau để xây dựng và triển khai ứng dụng Nó cũng cung cấp nhiều dịch vụ khác nhau để phân tích, bảo mật, Internet vạn vật (IoT) và trí tuệ nhân tạo (AI) Với Azure, người dùng cũng có thể tận dụng khả năng mở rộng, độ tin cậy, phạm vi tiếp cận toàn cầu và khả năng tích hợp với các sản phẩm và dịch vụ khác của Microsoft.
- Cách thức hoạt động của Microsoft Azure:
Azure hoạt động bằng cách cung cấp các tài nguyên điện toán, lưu trữ và dịch vụ thông qua một mạng toàn cầu các trung tâm dữ liệu Người dùng có thể truy cập và quản lý tài nguyên của họ thông qua giao diện web Azure Portal hoặc các công cụ quản lý dòng lệnh Azure cung cấp tính linh hoạt cao, cho phép người dùng mở rộng và co giãn các tài nguyên theo nhu cầu của họ, giúp họ tiết kiệm chi phí và tăng tính sẵn sàng của ứng dụng.
- Microsoft Azure dùng để làm gì:
+ Triển khai ứng dụng: Bạn có thể phát triển và triển khai ứng dụng trên đám mây Azure bằng cách sử dụng dịch vụ có tên Azure App Service và Azure Functions sau khi triển khai ứng dụng mà người dùng cuối có thể truy cập nó.
+ Quản lý danh tính và truy cập: Ứng dụng và dữ liệu được triển khai và lưu trữ trong Microsoft Azure có thể được bảo mật với sự trợ giúp của Quản lý danh tính và truy cập Nó thường được sử dụng để đăng nhập một lần, xác thực đa yếu tố và quản trị danh tính.
+ Lưu trữ dữ liệu và cơ sở dữ liệu: Bạn có thể lưu trữ dữ liệu trong Microsoft
Azure trong dịch vụ như lưu trữ blob cho dữ liệu phi cấu trúc, lưu trữ bảng cho dữ liệu NoSQL, lưu trữ tệp và Cơ sở dữ liệu Azure SQL cho cơ sở dữ liệu quan hệ Dịch vụ có thể được mở rộng tùy thuộc vào lượng dữ liệu chúng tôi nhận được.
+ DevOps và Tích hợp liên tục/Triển khai liên tục (CI/CD): Azure DevOps sẽ cung cấp một số công cụ như kiểm soát phiên bản, tự động hóa bản dựng, quản lý bản phát hành và giám sát ứng dụng.
- 3 cấu trúc cơ bản của Microsoft Azure: IaaS, PasS, SaaS:
+ IaaS (viết tắt từ Infrastructure as a Service) hay còn coi là Dịch vụ cơ sở hạ tầng Với IaaS, Mircosoft Azure sẽ cung cấp cho bạn cơ sở hạ tầng máy vi tính, virtual machine (máy ảo) hay những tài nguyên khác như thư viện hình ảnh trong ổ đĩa máy ảo, tường lửa, địa chỉ IP, mạng cục bộ ảo…
+ PaaS (viết tắt của Platform-as-a-Service) được coi là Dịch vụ xây dựng nền tảng Microsoft Azure sẽ cung cấp cho bạn nền tảng điện toán đám mây bao gồm hệ điều hành, phát triển ứng dụng, nơi để viết ngôn ngữ lập trình, cơ sở dữ liệu và website Với PaaS, bạn không cần phải lo lắng về việc quản lý tài nguyên, dung lượng, cơ sở dữ liệu hay những việc liên quan đến việc vận hành ứng dụng.
- SaaS (viết tắt cho Software As A Service) được gọi là Dịch vụ phần mềm Với SaaS,
Azure sẽ cung cấp cho bạn quyền truy cập vào phần mềm của ứng dụng Bạn không cần phải quan tâm về việc cài đặt, thiết lập hay thử nghiệm ứng dụng, phần mềm Tất cả những điều đó sẽ được Dịch vụ phần mềm thực hiện và bạn chỉ cần kiếm khách hàng để trải nghiệm ứng dụng.
3.1.2 Các dịch vụ của Microsoft Azure:
- Dịch vụ điện toán: Các dịch vụ này có thể chạy máy ảo, bộ chứa cũng như ứng dụng web và thiết bị di động trên đám mây Azure cung cấp các dịch vụ như Azure Virtual Machines, Azure App Service và Azure Container Instances.
- Dịch vụ lưu trữ: Các dịch vụ này có thể lưu trữ và quản lý dữ liệu trên đám mây.
Azure cung cấp các dịch vụ như Azure Blob Storage, Azure Files và Azure Queue Storage.
- Dịch vụ quản lý dữ liệu có thể quản lý và phân tích dữ liệu trên đám mây Azure cung cấp các dịch vụ như Azure SQL Database, Azure Cosmos DB và Azure Data Factory.
- Dịch vụ mạng: Các dịch vụ này cung cấp khả năng kết nối và bảo mật tài nguyên trên đám mây Azure cung cấp các dịch vụ như Azure Virtual Network, Azure ExpressRoute và Azure DNS.
- Dịch vụ bảo mật: Các dịch vụ này cung cấp khả năng bảo vệ tài nguyên trên đám mây Azure cung cấp các dịch vụ như Azure Active Directory, Azure Key Vault và Azure Security Center.
- Dịch vụ Trí tuệ nhân tạo & Học máy: Các dịch vụ này cung cấp khả năng áp dụng trí thông minh cho các ứng dụng và dịch vụ Azure cung cấp các dịch vụ như Azure Cognitive Services, Azure Machine Learning và Azure Databricks.
- Các dịch vụ Internet of Things có thể kết nối và quản lý các thiết bị IoT trên đám mây Azure cung cấp các dịch vụ như Azure IoT Hub, Azure IoT Central và Azure IoT Edge.
Azure purview
- Azure Purview là một giải pháp quản trị dữ liệu hợp nhất trên mọi khu vực dữ liệu.
Nó giúp bạn sử dụng và quản lý dữ liệu trên on-premise, multicloud và các SaaS Với Azure Purview, bạn dễ dàng tạo một bản đồ tổng thể, cập nhật về bối cảnh dữ liệu của bạn với tính năng khám phá dữ liệu tự động, phân loại dữ liệu nhạy cảm và dòng dữ liệu end-to-end Cho phép người tiêu dùng dữ liệu tìm thấy dữ liệu có giá trị, đáng tin cậy.
- Azure Purview sẽ giúp bạn:
+ Tự động khám phá, phân loại và xác định dòng dữ liệu.
+ Lập bản đồ hợp nhất các loại dữ liệu và lập liên kết để quản trị dữ liệu hiệu quả
+ Tạo bảng chú giải với các thuật ngữ tìm kiếm kinh doanh và kỹ thuật để hỗ trợ khám phá dữ liệu
+ Thông tin vị trí và di chuyển của các tài liệu quan trọng của doanh nghiệp
3.2.2 Các tính năng chính của Azure Purview:
* Tạo bản đồ hợp nhất toàn bộ dữ liệu doanh nghiệp:
- Thiết lập nền tảng cho việc quản lý và sử dụng dữ liệu hiệu quả với Bản đồ dữ liệu Azure Purview.
+ Tự động hóa và quản lý siêu dữ liệu từ các nguồn kết hợp.
+ Phân loại dữ liệu bằng cách sử dụng các bộ phân loại tích hợp và tùy chỉnh cũng như nhãn nhạy cảm của Microsoft Information Protection.
+ Gắn nhãn dữ liệu nhạy cảm một cách nhất quán trên SQL Server, Azure, Microsoft 365 và Power BI.
+ Dễ dàng tích hợp tất cả các hệ thống dữ liệu của bạn bằng cách sử dụng API Apache Atlas.
* Khám phá dữ liệu dễ dàng hơn:
- Tối đa hóa giá trị kinh doanh của dữ liệu khách hàng với Azure Purview Data Catalog.
+ Làm cho dữ liệu có thể dễ dàng tìm thấy bằng cách sử dụng các cụm từ tìm kiếm kỹ thuật và kinh doanh quen thuộc.
+ Loại bỏ nhu cầu về từ điển dữ liệu Excel với bảng thuật ngữ kinh doanh cấp doanh nghiệp.
+ Hiểu nguồn gốc dữ liệu của bạn với tính năng trực quan hóa dòng dữ liệu tương tác.
+ Cung cấp cho các nhà khoa học dữ liệu, kỹ sư và nhà phân tích dữ liệu họ cần cho BI, phân tích, AI và học máy.
* Xem xét toàn cảnh về các dữ liệu nhạy cảm:
- Hiểu toàn diện về các hoạt động quản lý dữ liệu của bạn với Azure Purview Data Insights.
+ Xem toàn bộ di sản dữ liệu của bạn và sự phân bổ của nó theo thứ nguyên nội dung như loại nguồn, phân loại và kích thước tệp.
+ Nhận cập nhật trạng thái về số lần quét thành công, không thành công hoặc bị hủy.
+ Có được thông tin chi tiết chính để thêm hoặc phân phối lại các thuật ngữ thuật ngữ để có kết quả tìm kiếm tốt hơn.
3.2.3 Tại sao lại sử dụng Azure Purview?
- Azure Purview là dịch vụ quản trị dữ liệu thống nhất giúp tổ chức:
+ Hiểu rõ dữ liệu của họ: Azure Purview tự động phát hiện, phân loại và xác định dòng dữ liệu trên các nguồn tại chỗ, đa đám mây và SaaS.
+ Quản lý và chi phối dữ liệu hiệu quả: Azure Purview cung cấp bản đồ thống nhất về tài sản dữ liệu và các mối quan hệ của chúng, giúp bạn dễ dàng quản lý quyền truy cập, bảo mật và tuân thủ.
+ Tìm kiếm và truy cập dữ liệu dễ dàng: Azure Purview giúp người dùng tìm thấy dữ liệu có giá trị và đáng tin cậy một cách nhanh chóng.
- Lợi ích của việc sử dụng Azure Purview:
+ Tăng khả năng hiển thị dữ liệu: Azure Purview cung cấp một cái nhìn tổng quan thống nhất về tất cả dữ liệu của bạn, bất kể nó được lưu trữ ở đâu.
+ Cải thiện bảo mật dữ liệu: Azure Purview giúp bạn xác định và bảo vệ dữ liệu nhạy cảm.
+ Tuân thủ quy định: Azure Purview giúp bạn tuân thủ các quy định về bảo mật dữ liệu.
+ Tăng hiệu quả hoạt động: Azure Purview giúp bạn tự động hóa các tác vụ quản trị dữ liệu, giúp bạn tiết kiệm thời gian và tiền bạc.
ỨNG DỤNG AZURE PURVIEW VÀO PHÂN TÍCH THỰC TẾ
Ứng dụng Azure Purview vào phân tích cụ thể
4.1.1 Khi nào daonh nghiệp cần sử dụng?
Doanh nghiệp cần sử dụng Azure Purview khi họ cần quản lý và tổ chức dữ liệu của mình một cách hiệu quả hơn
+ Quản lý dữ liệu phức tạp: Doanh nghiệp có lượng lớn dữ liệu từ nhiều nguồn khác nhau, bao gồm cả dữ liệu cấu trúc và bán cấu trúc Azure Purview giúp tổ chức và quản lý dữ liệu này một cách hiệu quả.
+ Yêu cầu về bảo mật và tuân thủ pháp lý cao: Doanh nghiệp cần đảm bảo rằng dữ liệu của họ được bảo vệ một cách an toàn và tuân thủ các quy định pháp lý. Azure Purview cung cấp các tính năng bảo mật mạnh mẽ và giúp tự động phân loại dữ liệu để đáp ứng các yêu cầu này.
+ Sử dụng hệ sinh thái Azure: Doanh nghiệp đã sử dụng hoặc đang dự định triển khai các dịch vụ và công cụ trong hệ sinh thái Azure Azure Purview tích hợp tốt với các dịch vụ khác của Azure, giúp doanh nghiệp tận dụng các ưu điểm của việc sử dụng một hệ sinh thái đồng nhất.
+ Nhu cầu phân tích dữ liệu : Doanh nghiệp muốn tìm kiếm, phân tích và hiểu rõ hơn về dữ liệu của mình để đưa ra các quyết định thông minh và cải thiện hiệu suất làm việc Azure Purview cung cấp các công cụ để thực hiện các tác vụ này một cách hiệu quả.
+ Tính linh hoạt và mở rộng: Doanh nghiệp cần một giải pháp linh hoạt và có thể mở rộng để đáp ứng nhu cầu về quản lý dữ liệu trong tương lai Azure Purview cung cấp các tính năng và khả năng mở rộng để phù hợp với sự phát triển của doanh nghiệp.
4.1.2 Một số chú ý khi doanh nghiệp sử dụng:
Khi doanh nghiệp sử dụng Azure Purview trong quá trình kinh doanh, có một số chú ý quan trọng cần xem xét:
+ Xác định mục tiêu cụ thể: Trước khi triển khai Azure Purview, doanh nghiệp cần xác định rõ mục tiêu kinh doanh cụ thể của mình Điều này bao gồm việc xác định các vấn đề cụ thể trong quản lý dữ liệu mà Azure Purview có thể giải quyết, như tăng cường bảo mật dữ liệu, tối ưu hóa quy trình làm việc, hoặc nâng cao khả năng phân tích dữ liệu.
+ Phân tích nhu cầu về dữ liệu: Doanh nghiệp cần phân tích kỹ lưỡng về nhu cầu về dữ liệu của mình, bao gồm loại dữ liệu, nguồn gốc, quy mô, và cách sử dụng. Điều này giúp đảm bảo rằng Azure Purview được cấu hình và triển khai một cách phù hợp và hiệu quả.
+ Thiết lập quy trình và tiêu chuẩn: Trước khi triển khai, doanh nghiệp cần thiết lập các quy trình và tiêu chuẩn cho việc sử dụng Azure Purview Điều này bao gồm việc xác định các quy trình tự động hóa, quy trình phân loại dữ liệu, và quy trình bảo mật dữ liệu.
+ Đảm bảo tuân thủ pháp lý và bảo mật: Doanh nghiệp cần đảm bảo rằng việc sử dụng Azure Purview tuân thủ các quy định pháp lý liên quan đến dữ liệu, bao gồmGDPR, HIPAA, và các chuẩn bảo mật khác Họ cũng cần đảm bảo rằng dữ liệu được bảo vệ một cách an toàn và chỉ có người dùng có quyền truy cập được phép.
+ Đào tạo nhân viên: Cuối cùng, doanh nghiệp cần đào tạo nhân viên về cách sử dụng Azure Purview một cách hiệu quả, cung cấp đào tạo về các tính năng và chức năng của Azure Purview, cũng như việc hướng dẫn về các quy trình và tiêu chuẩn sử dụng
4.1.3 Những điểm nổi trội của Azure Purview:
Azure Purview nổi trội so với các ứng dụng có chức năng tương tự nhờ vào các điểm sau:
+ Tích hợp và hệ sinh thái: Microsoft Azure là một nền tảng đám mây toàn diện cung cấp một loạt các dịch vụ đa dạng từ tính toán đám mây, lưu trữ, dịch vụ trí tuệ nhân tạo đến phát triển ứng dụng và quản lý dữ liệu Azure Purview là một phần của hệ sinh thái Azure, điều này mang lại sự linh hoạt và khả năng tích hợp cao với các dịch vụ và công cụ khác trong Azure.
+ Tính toàn diện và tự động hóa: Azure Purview không chỉ cung cấp các tính năng quản lý dữ liệu như phân loại, tìm kiếm và khám phá dữ liệu mà còn sử dụng trí tuệ nhân tạo để tự động hóa các quy trình này Điều này giúp tiết kiệm thời gian và công sức của doanh nghiệp trong việc quản lý và tối ưu hóa dữ liệu của họ.
+ Bảo mật và tuân thủ pháp lý: Azure Purview đều cung cấp các tính năng bảo mật mạnh mẽ và giải pháp tuân thủ pháp lý, bao gồm mã hóa dữ liệu, quản lý danh sách kiểm soát truy cập và bảo vệ dữ liệu tại chỗ Điều này làm cho Azure trở thành lựa chọn ưa thích cho các doanh nghiệp đang tìm kiếm giải pháp đám mây an toàn và tuân thủ.
+ Hỗ trợ và cộng đồng: Microsoft có một cộng đồng người dùng rộng lớn và cung cấp hỗ trợ chặt chẽ cho Azure Purview thông qua tài liệu hướng dẫn, diễn đàn và dịch vụ hỗ trợ kỹ thuật Điều này giúp các doanh nghiệp có được sự hỗ trợ cần thiết khi triển khai và quản lý giải pháp của họ trên Azure.
4.1.4 Một số công cụ có chức năng tương tự:
- AWS Glue: Dịch vụ ETL (Extract, Transform, Load) của Amazon Web Services
(AWS) được sử dụng để chuẩn bị và chuyển đổi dữ liệu từ nguồn đến đích trong môi trường đám mây.
- Google Cloud Data Catalog: Cung cấp khả năng tự động phát hiện, tổ chức và quản lý dữ liệu trên Google Cloud Platform.
- Informatica Enterprise Data Catalog: Cung cấp khả năng tự động khám phá, tổ chức và hiểu dữ liệu trong một số nguồn khác nhau.
- Collibra Catalog : Một nền tảng quản lý dữ liệu để tự động khám phá, tổ chức và hiểu dữ liệu, cũng như quản lý các tài nguyên dữ liệu và metadata.
Hướng dẫn sử dụng Azure Purview đơn giản
4.2.1 Các bước đăng ký Microsoft Azure free 200$:
- Bước 1: Link đăng ký tài khoản: https://azure.microsoft.com/en-us/free
- Bước 2: Nhấn “Star free” và chuyển đến trang đăng nhập Microsoft.
+ Dùng tài khoản Microsoft để đăng nhập.
+ Trường hợp chưa có tài khoản Microsoft thì nhấn tạo tài khoản để đăng ký, hoặc nếu dùng email sinh viên thì bạn cần tiến hành đăng ký sau đó quay lại bước trên.
+ Sau khi hoàn tất đăng nhập, Microsoft sẽ chuyển đến trang chờ kích hoạt và tiếp tục làm theo hướng dẫn.
- Bước 3: Điền thông tin cá nhân và xác thực số điện thoại.
+ Nhập thông tin số điện thoại, sau đó bấm “Text me” hệ thống sẽ nhắn mã xác thực hoặc “Call me” thì hệ thống sẽ gọi để cung cấp mã xác thực và nhập mã vào ô
“Verification code”, sau đó thì nhấn Verify code để hoàn tất xác thực.
- Bước 4: Xác thực thẻ tín dụng.
+ Để hạn chế bị spam đăng ký dịch vụ của Microsoft và vì gói trải nghiệm trí giá đến gần 1000$ nên rất nhiều người có ý xấu và đăng ký hàng loạt để sử dụng vào mục đích cá nhân Vì thế, Azure còn yêu cầu xác thực thêm bằng thẻ tín dụng.
+ Bạn nhập các thông tin thẻ như yêu cầu, sau đó tài khoản sẽ bị trừ 1$ Tuy nhiên, sau 3 – 5 ngày thì Azure sẽ hoàn lại số tiền này cho bạn.
- Bước 5: Sau khi đăng ký xong, hệ thống sẽ chuyển trang đến trang chính của Microsoft Azure, và bạn được cung cấp free 200$ để sử dụng các dịch vụ của Azure trong 30 ngày.
4.2.2 Các bước khởi tạo Azure Purview:
- Bước 1: Bấm trên thanh tìm kiếm “Microsoft Purview account”.
+ Nhấn “Create” để tạo account Microsoft Purview.
- Bước 2: Tạo nhóm tài nguyên mới
- Bước 3: Tạo tên tài khoản.
+ Tạo tên tài khoản tùy ý nhưng cũng cần tuân theo một số quy tắc đặt tên Truy cập vào trang web “Azure Naming Convention” để tham khảo quy tắc đặt tên https://learn.microsoft.com/en-us/azure/cloud-adoption-framework/ready/azure-best- practices/resource-naming
Và chọn vị trí khu vực mà bạn đang sinh sống và ở đây chúng ta chọn Đông Nam ÁSau đó nhấn “Next: Configuration”.
- Bước 4: Trong tình huống lý tưởng, thì chúng ta nên cung cấp một số thẻ như là
+ Sau đó nhấn “Next Review + Create” để xem lại.
- Bước 5: Xem lại và tiến hành tạo tài khoản.
+ Khi bạn mới đăng ký thì có thể gặp một số lỗi xác thực mà các nhà cung cấp nhóm tài nguyên như Microsoft dot Storage chưa được đăng ký nên bạn sẽ có tùy chọn đăng ký tại đây bằng cách nhấp vào nút để xác thực của bạn sẽ được thông qua.
+ Nếu lỗi thì nó sẽ hiện đỏ và có một cái link để bạn có thể đăng ký xác thực.
+ Sau khi xác thực, chúng ta có thể tạo tài khoản này bằng cách nhấn “Create” Quá trình này có thể mất vài phút
- Bước 6: Tạo tài khoàn thành công.
+ Nhấn “Go to resources” để truy cập tài nguyên.
- Bộ dữ liệu drinks.csv.
Cột Kiểu Dữ liệu Đơn vị
Giá trị Định nghĩa country string - Afghanistan,
Tên của quốc gia beer_servings integer ly 0, 89, 25, Số lượng bia được phục vụ spirit_servings Integer ly 0, 132, 0, Số lượng rượu mạnh được phục vụ wine_servings integer ly 0, 54, 14, Số lượng rượu vang được phục ly total_litres_of_pure_alcohol float lít 0.0, 4.9, 0.7, Tổng số lít rượu nguyên chất tiêu thụ continent string - AS, EU, AF, Tên lục địa
- Bộ dữ liệu restaurants.csv.
Giá trị Định nghĩa total_bill Float 16.99, 10.34, Tổng hóa đơn tính (đơn vị tiền tệ) tip Float 1.01, 1.66, Số tiền boa (đơn vị tiền tệ) sex String Male, Female Giới tính của người thanh toán (Male:
Nam, Female: Nữ) smoker String Yes, No Tình trạng hút thuốc của người thanh toán day String Sun, Sat, Thur, Fri Ngày trong tuần time String Lunch, Dinner Thời gian đến nhà hàng ăn size Integer 2, 3, Số lượng người trong nhóm khách hàng
4.2.4 Hướng dẫn sử dụng dataset:
- Đầu tiên, chúng ta cần phải mở cổng thông tin Microsoft Purview Governance Portal.
- Nhấp vào link tài khoản mà chúng ta đã tạo trước đó.
- Sau đó kéo xuống thì ta sẽ thấy cổng thông tin Microsoft Purview Governance Portal và click vào, các bạn có thể chọn bản new hoặc bản classic tùy chọn.
- Sau khi click vào thì nó sẽ mở ra một tab mới.
- Đây là giao diện bản new và bản classic, và ở đây nhóm sẽ chọn bản new để dễ sử dụng hơn.
Tạo Bản đồ và Bộ sưu tập Dữ liệu.
- Để tạo một bản đồ dữ liệu, chúng ta sẽ chọn ‘Miền’ thì sẽ hiện như hình dưới.
- Chọn “New collection” để tạo bộ sưu tập mới
- Đặt tên cho bộ sưu tập và quản trị viên
- Sau đó nhấn Create để đăng ký
- Có thể tạo thêm một số collection phụ tùy ý
- Sau đó vào phần “Data source”,chúng ta sẽ có được một bản đồ dữ liệu
Đăng ký nguồn dữ liệu.
- Nhấn “Register” để đăng kí nguồn dữ liệu.
- Khi đăng ký nguồn dữ liệu, bạn phải đảm bảo được rằng bạn đang đăng ký trong bộ sưu tập phù hợp
- Ví dụ thì ở đây chúng ta sẽ đăng ký dữ liệu Azure Data Lake Storage Gen2 và mình sẽ đăng ký theo cách mà bất kỳ bộ sưu tập nào thuộc Big data report hoặc thậm chí cả bộ sưu tập Big data report đều có thể quét dữ liệu hoặc siêu dữ liệu từ Data Lake.
- Sau khi nhấn “Register” thì nó sẽ hiện ra như hình dưới mà chúng ta sẽ tìm kiếm
“Azure Data Lake Storage Gen2” rồi nhấn “Continue”.
- Vì không có tài khoản lưu trữ Lake nên mình sẽ truy cập lại cổng Azure Purview.
- Nếu có tài khoản lưu trữ rồi thì có thể bỏ qua bước này.
- Điền thông tin và nhấn “Review+create”
- Nhấn “Create” để tạo tài khoản lưu trữ.
- Tài khoản lưu trữ Data Lake đã được tạo thành công, truy cập tài nguyên
- Nhấp vào cùng “Container” và ta sẽ tạo một vùng chứa mới ở đây, sau đó nhấn
- Đi đến phần “Overview” và chọn “Upload” thì cửa sổ Upload blob hiện ra
- Tải lên 2 file csv và nhấn “Upload” để tải lên
- Sau khi tải lên thành công, bây giờ chúng ta sẽ truy cập 2 file này trên Azure Purview
- Quay trở lại trang Data source hồi nãy và thực hiện đăng ký tiếp.
Mục “Storage account name” thì chúng ta sẽ Refresh và chọn vào tên tài khoản lưu trữ mà ta mới đăng ký ở bước trên.
- Còn mục collection thì ta sẽ chọn đường dẫn cho bộ sưu tập Mình muốn tài khoản lưu trữ này được truy cập để quét trong bản đồ dữ liệu Azure bởi bất kỳ bộ sưu tập nào, vì vậy ta sẽ tạo hoặc đăng ký nguồn dữ liệu này trong chính bộ sưu tập gốc và nhấp vào “Register”.
- Ở đây, chúng ta thấy tài khoản lưu trữ Azure Data Lake đã được thêm vào bộ sưu tập gốc.
Chạy lần quét Purview đầu tiên.
- Cần cung cấp một số quyền cho Azure cho mỗi chế độ xem.
- Ta đi đến tài khoản lưu trữ Data Lake và bấm chọn Access Control (IAM) - kiểm soát truy cập và nhấn “Add” → “Add role assignment”.
- Nhấp vào thanh tìm kiếm và tìm kiếm “blob”.
- Nó sẽ hiện ra rất nhiều vai trò khác nhau, ta sẽ nhấp vào “ Storage Blob Data Contributor” và nhấn “Next”.
- Tiếp theo, ta cần cấp quyền cho Azure Purview để quét thành công siêu dữ liệu từ tài khoản lưu trữ Data Lake.
- Nhấp vào “Select members” thì sẽ hiện ra bảng Select managed identities
Ta cần điền thông tin và nhấn “Select”.
- Chọn “Review+assign” để xem lại và cấp quyền.
- Quay trở lại với trang Data source.
- Bây giờ ta có thể truy cập nguồn dữ liệu trên Purview và để quét nguồn dữ liệu,chúng ta có một nút quét ở đây.
- Ở đây thì chúng ta có thể đặt tên quét như bất kỳ tên nào mà ta muốn.
- Khi bạn đã thêm nguồn hoặc đăng ký nguồn trong bộ sưu tập gốc thì nó có thể được quét ở bất kì đâu trong các bộ sưu tập phụ.
- Giả sử chúng ta muốn test tệp restaurant trong Big data reporting thì chúng ta sẽ chọn nó ở phần collection và nhấn “Test connection”.
- Để xem nó có thành công hay không, ta nhấn vào “Continue”.
- Ở đây nó sẽ cho bạn tùy chọn để chọn phạm vi của bộ sưu tập mà bạn có thể chọn toàn bộ thư mục sẽ quét trong một bộ sưu tập hoặc cũng có thể chọn chọn các thư mục cụ thể để quét trong các bộ sưu tập khác nhau.
- Giả sử sample-data phải được quét trong bộ sưu tập Big data reporting nhưng có một số thư mục cần được quét trong data visualization để có thể thực hiện được trong tài khoản Data Lake.
- Bạn có thể đặt lịch quét định kỳ bằng cách đặt thời gian xảy ra và các ngày cụ thể trong tháng và nhấn “Continue”
- Để xem nó có thành công hay không, ta nhấn vào “Continue”.