Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu

13 9 1
Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu triển khai kiến trúc dữ liệu, chuẩn hóa các phương pháp và giao thức, cũng như hệ thống thu thập, lưu trữ, quản lý và chia sẻ dữ liệu trong toàn tổ chức, doanh nghiệp để cải thiện việc ra quyết định. Trong các tổ chức, doanh nghiệp hiện đại, hầu hết các quyết định được đưa ra trong thời gian thực và để tạo điều kiện cho cơ sở hạ tầng quản lý dữ liệu theo thời gian thực và hiệu quả, kiến trúc sư dữ liệu đặt nền tảng hoặc kế hoạch chi tiết cơ bản cho quản lý dữ liệu của tổ chức, doanh nghiệp. Mời các bạn cùng tham khảo!

LAKEHOUSE CUỘC TIẾN HÓA CỦA NỀN TẢNG LƯU TRỮ DỮ LIỆU Bùi Mạnh Trường Khoa Công nghệ Thông tin Trường Đại học Tài – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Các tổ chức doanh nghiệp có hiểu biết sâu sắc phong phú họ tập hợp tất liệu có liên quan, từ tất nguồn để phân tích Để phân tích lượng liệu khổng lồ này, họ cố gắng thu thập liệu rời rạc tổng hợp tất liệu vị trí để triển khai việc phân tích áp dụng lĩnh vực công nghệ trực tiếp Mục đích việc triển khai kiến trúc liệu chuẩn hóa phương pháp giao thức, hệ thống thu thập, lưu trữ, quản lý chia sẻ liệu toàn tổ chức, doanh nghiệp để cải thiện việc định Trong tổ chức, doanh nghiệp đại, hầu hết định đưa thời gian thực để tạo điều kiện cho sở hạ tầng quản lý liệu theo thời gian thực hiệu quả, kiến trúc sư liệu đặt tảng kế hoạch chi tiết cho quản lý liệu tổ chức, doanh nghiệp Từ khóa: Kho liệu, Hồ liệu, Lakehouse, kiến trúc lưu trữ liệu ĐẶT VẤN ĐÈ Cùng gia tăng nhanh chóng số lượng ứng dụng ngày làm xuất vấn đề tính tồn vẹn liệu Vấn đề nói tới với số lượng ứng dụng lớn tạo liệu giống nhiều nơi lại có giá trị khác Để định, người dùng phải xem xét phiên liệu phù hợp ứng dụng Nếu người dùng khơng tìm phiên liệu dẫn tới định sai lầm Hình 1: Minh họa tình phiên liệu khác 193 Đây lý cho cần thiết phương pháp xây dựng tảng khác nhằm tìm liệu định, Kho liệu giải pháp 1.1 Kho liệu Kho liệu buộc liệu sinh từ ứng dụng khác lưu trữ nơi lưu trữ vật lý riêng biệt Các nhà thiết kế phải xây dựng sở hạ tầng hoàn toàn xung quanh Kho liệu Dữ liệu có cấu trúc Kho liệu Khóa Siêu liệu Phân loại Bản ghi Nguồn Mơ hình QUẢN LÝ VÀ Lịch sử Tóm tắt QUẢN TRỊ DỮ LIỆU KPI Văn Giao dịch Chi tiết BI phân tích SQL Hình 2:: Mơ hình sở hạ tầng phân tích xung quanh Kho liệu Cơ sở hạ tầng phân tích xây dựng xung quanh Kho liệu chứa thành phần sau : a Siêu liệu (Metadata) : Hướng dẫn liệu nằm đâu b Mơ hình liệu : Mơ tả liệu tìm thấy Kho liệu c Lịch sử liệu : Lưu giữ nguồn gốc, việc chuyển đổi liệu Kho liệu d Bản tóm tắt : Bản mơ tả cơng việc thuật tốn thiết kế tạo liệu 194 e KPI (Key Performance Indicator) : Chỉ số đánh giá hiệu suất f ETL : Cho phép liệu ứng dụng chuyển đổi thành liệu tổ chức Các hạn chế Kho liệu xuất chủng loại liệu cần lưu trữ gia tăng văn bản, hình ảnh, âm thanh, video, internet vạn vật… hoạt động cùa tổ chức Ngoài ra, việc trỗi dậy lĩnh vực Máy học (ML – Machine Learning) Trí tuệ nhân tạo (AI – Artificial Intelligence) làm xuất thuật tốn lặp địi hỏi việc truy cập liệu trực tiếp khơng cịn dựa SQL 1.2 Các kiểu liệu tổ chức Kho liệu tập trung vào liệu có cấu trúc vốn chiếm phần lớn tạo thành liệu quan trọng hữu ích, có kiểu liệu khác tồn tổ chức bao gồm: a Dữ liệu có cấu trúc Phổ biến liệu giao dịch sinh từ hoạt động vận hành hàng ngày tổ chức b Dữ liệu văn Là liệu sinh từ thư từ, thư điện tử, văn trò chuyện diễn tổ chức c Dữ liệu cấu trúc Là liệu xuất phát từ nguồn khác liệu Internet vạn vật (IoT – Internet of Things), hình ảnh, video liệu dạng tương tự (analog) Có cấu trúc Văn Khơng có cấu trúc Hình 3: Các kiẻu liệu tổ chức 195 HỒ DỮ LIỆU (Data Lake) Hồ liệu pha trộn tất kiểu liệu sinh tất hoạt động tổ chức, nơi mà tổ chức tải lên xuống liệu mạng nội với hệ thống lưu trữ chi phí thấp Giao diện chương trình ứng dụng (API – Application Program Interface) dùng để lưu trữ liệu tổng quát theo định dạng tập tin mở Apache Parquet ORC Việc sử dụng định dạng tập tin mở giúp cho liệu Hồ liệu truy cập trực tiếp từ nhiều loại chế phân tích khác hệ thống Máy học Các tổ chức tạo giá trị kinh doanh thành công từ liệu họ hoạt động tốt so với tổ chức khác Một khảo sát Aberdeen cho thấy tổ chức triển khai Data Lake vượt trội công ty tương tự 9% mức tăng trưởng doanh thu trả phí Những nhà lãnh đạo thực loại phân tích Máy học qua nguồn tập tin nhật ký, liệu từ luồng nhấp chuột, mạng xã hội thiết bị kết nối internet lưu trữ Hồ liệu Điều giúp họ xác định hành động theo hội phát triển kinh doanh nhanh cách thu hút giữ chân khách hàng, thúc đẩy suất, chủ động bảo trì thiết bị đưa định sáng suốt Mục tiêu việc xây dựng Hồ liệu cung cấp nhìn chưa tinh chỉnh liệu cho nhà khoa học liệu Hình 4: Mơ hình hoạt động Hồ liệu 196 Khi Hồ liệu xuất hiện, người thường nghĩ Hồ liệu cần liệu trích xuất để đưa vào Hồ liệu Khi Hồ liệu có liệu người dùng cuối việc đắm chìm Hồ để tìm liệu thực tác vụ phân tích Tuy nhiên, tổ chức nhanh chóng phát việc sử dụng liệu Hồ liệu câu chuyện hoàn toàn khác so với việc đơn giản lấy liệu có Hồ liệu Nhiều mong đợi, kỳ vọng Hồ liệu không trở thành thực thiếu số chức quan trọng ví dụ việc hỗ trợ giao dịch, nâng cao chất lượng liệu, quản trị liệu việc tối ưu kết hoạt động Kết là, phần lớn Hồ liệu tổ chức trở thành đầm lầy liệu 2.1 Các thách thức kiến trúc liệu Do hạn chế Hồ liệu, cách tiếp cận việc sử dụng hỗn hợp hệ thống với gồm Hồ liệu, nhiều Kho liệu hệ thống chuyên dụng khác Sự kết hợp lại dẫn đến 03 vấn đề sau : a Thiếu độ mở Kho liệu khóa liệu thành định dạng chiếm hữu làm tăng chi phí di chuyển liệu khối lượng công việc sang hệ thống khác Kho liệu chất cung cấp quyền truy cập SQL nên khó khăn vận hành chế phân tích khác hệ thống Máy học Ngồi ra, Kho liệu có chi phí cao với việc truy cập liệu trực tiếp SQL, nên việc tích hợp với cơng nghệ khác trở nên khó khăn b Hỗ trợ hệ thống Máy học hạn chế Mặc dù có nhiều nghiên cứu hợp Máy học việc quản trị liệu, khơng có hệ thống Máy học hàng đầu TensorFlow, PyTorch XGBoost làm việc tốt với Kho liệu tốt Không giống công cụ kinh doanh thông minh (BI – Business Intelligence) địi hỏi trích xuất số lượng nhỏ liệu, hệ thống Máy học xử lý tập liệu lớn đoạn mã phi SQL phức tạp Do tình này, nhà cung cấp Kho liệu đề xuất việc xuất liệu thành tập tin, dù làm tăng cao độ phức tạp khơng cịn giá trị sử dụng 197 c Sự đánh đổi bắt buộc Hồ liệu Kho liệu Hơn 90% liệu tổ chức lưu trữ Hồ liệu tính linh hoạt từ việc truy cập mở trực tiếp tới tập tin với chi phí thấp bắt nguồn từ việc sử dụng thiết bị lưu trữ chi phí thấp Để giải việc thiếu hiệu hoạt động vấn đề chất lượng liệu Hồ liệu, tổ chức thực tác ETL (Extract – Transforms - Load) số lượng nhỏ liệu vào Hồ liệu để tải liệu Kho liệu nhằm hỗ trợ việc định quan trọng hỗ trợ ứng dụng Kinh doanh thông minh (BI) Kiến trúc hệ thống đôi đòi hỏi việc vận hành liên tục để ETL liệu Hồ liệu Kho liệu Mỗi bước ETL tiềm ẩn rủi ro thất bại gây lỗi làm giảm chất lượng liệu, việc trì Hồ liệu Kho liệu ổn định khó khăn chi phí cao Ngồi việc phí cho tác vụ ETL liên tục, người dùng phải trả gấp đơi chi phí cho việc chép liệu vào Kho liệu SỰ NỔI LÊN CỦA KIÊN TRÚC LAKEHOUSE Hiện thị trường xuất lớp kiến trúc liệu gọi Data Lakehouse, hệ thống chuẩn hóa thiết kế có độ mở nhằm thực cấu trúc liệu giống công cụ quản trị liệu giống Kho liệu việc truy cập liệu trực tiếp với thành phần lưu trữ liệu chi phí thấp Hồ liệu Khái niệm Data Lakehouse xuất lần vào năm 2017 có liên quan tới tảng Snowflake Năm 2019, AWS sử dụng thuật ngữ Data Lakehouse để mô tả dịch vụ Amazon Redshift Spectrum mình, dịch vụ cho phép người dùng dich vụ Kho liệu Amazon Redshift tìm kiếm liệu lưu trữ Amazon S3 Năm 2020, thuật ngữ Data Lakehouse sử dụng rộng rãi, công ty Databricks sử dụng thuật ngữ cho tảng Delta Lake Kiến trúc Data Lakehouse có tương lai tươi sáng phía trước tổ chức, doanh nghiệp nhiều lĩnh vực, ngành nghề ứng dụng triển khai Trí tuệ nhân tạo (AI) để cải thiện hoạt động dịch vụ, giới thiệu sản phẩm cải tiến dịch vụ đính hướng thành cơng ngành marketing Dữ liệu có cấu trúc từ hệ thống vận hành truyền vào Kho liệu thường không phù hợp cho hoạt động phân tích thơng minh, Hồ liệu khơng thiết kế cho hoạt động thực tiễn quản trị liệu mạnh mẽ, bảo mật cao tương thích với quy tắc ACID 198 Hình 5: Mơ hình hoạt động Data Lakehouse Kiến trúc Data Lakehouse tập trung vào thách thức kiến trúc liệu trình bày trên, ví dụ : a Cho phép truy cập mở trực tiếp định dạng mở Apache Parquet b Cung cấp lớp cho lĩnh vực Khoa học liệu Máy học c Tối đa hiệu suất hoạt động với độ tin cậy cao thiết bị lưu trữ chi phí thấp 3.1 Kiên trúc Data Lakehouse Kiến trúc tổng quát Data Lakehouse minh họa hình dưới, ta chia Data Lake thành tầng quan trọng: 199 Hình : Kiến trúc Data Lakehouse a Tầng nạp liệu (Ingestion tier) Dữ liệu tải vào Data Lakehouse từ nhiều nguồn (Data source) theo thời gian thực theo lô (Batches) Nạp liệu việc cung cấp triển khai công cụ đồng tiền xử lý liệu để đưa vào Data Lakehouse (Hiện có nhiều công cụ hỗ trợ đa dạng loại liệu cách thức đồng bộ) b Tầng khai phá (Insights tier) Sử dụng liệu từ hệ thống Các truy vấn SQL, NoSQL, SQL MapReduce sử dụng để khai thác phân tích liệu c Tầng lưu trữ (Stogare) Tầng hầu hết hệ thống sử dụng HDFS với ưu điểm chi phí, tính linh hoạt, chịu lỗi khả mở rộng dễ dàng đặc biệt hiệu với liệu cấu trúc phi cấu trúc Đây tầng lưu trữ toàn liệu hệ thống Việc lưu trữ liệu Data Lakehouse đòi hỏi phải có tính mở rộng, chi phí thấp cho phép truy cập nhanh tới liệu cần khai phá đặc biệt hỗ trợ đa định dạng 200 d Tầng tiền xử lý (Distillation tier) Vai trò lấy liệu trực tiếp từ tầng lưu trữ sau làm và chuyển sang liệu có cấu trúc, giúp dễ dàng cho việc phân tích e Tầng xử lý (Processing tier) Xử lý chạy thuật toán phân tích, hỗ trợ người dùng truy vấn thời gian thực, tương tác theo lơ với mục đích sinh liệu có cấu trúc để dề dàng phân tích f Tầng giám sát, vận hành (Operations tier) Chi phối quản lý giám sát hệ thống, bao gồm việc quản lý chất lượng liệu, danh mục liệu, bảo mật quy trình khai thai, sử dụng hệ thống 3.2 Lợi ích Data Lakehouse Một số đặc trưng khác mang đến lợi ích kiến trúc Data Lakehouse kể sau : a Tính mở Các định dạng tập tin mở : Xây dựng dựa định dạng tập tin mở chuẩn hóa Apache Parquet ORC Giao diện chương trình ứng dụng (API) mở : Cung cấp API mở nhằm giúp việc truy cập trực tiếp liệu cách hiệu mà không cần sử dụng chế tham gia nhà cung cấp Hỗ trợ ngôn ngữ : Hỗ trợ không SQL để truy cập liệu mà cịn hỗ trợ nhiều cơng cụ chế khác, bao gồm hệ thống Máy học thư viện ngôn ngữ Python, R b Hệ thống Máy học hỗ trợ Hỗ trợ đa dạng kiểu liệu: Việc lưu trữ, sàng lọc, phân tích truy cập liệu dùng cho nhiều ứng dụng khác nhau, bao gồm hình ảnh, video, âm thanh, liệu bán cấu trúc văn Truy cập liệu trực tiếp phi SQL hiệu quả: Khả truy cập trực tiêp lượng lớn liệu để vận hành thí nghiệp Máy học sử dụng thư viện ngôn ngữ Python, R 201 Hỗ trợ API cho DataFrame: Việc tích hợp sẵn DataFrame API tối ưu hóa truy vấn truy cập liệu tác vụ Máy học xuất phát từ thực tiễn hệ thống Máy học TensorFlow, PyTorch XGBoost tích hợp sẵn DataFrame trở thành yếu tố xử lý liệu Các phiên liệu cho tác vụ Máy học: Cung cấp khung nhìn liệu cho đội ngũ khoa học liệu Máy học để truy cập chuyển đổi phiên liệu trước phục vụ cho công tác hậu kiểm triển khai tái sử dụng cho tác vụ Máy học c Tăng hiệu suất tối đa độ tin cậy với chi phí thấp Tối ưu hóa hiệu suất: Cho phép kỹ thuật tối ưu khác việc sử dụng nhớ truy cập nhanh, gom khối liệu đa chiều nhảy liệu cách tác động số liệu thống kê tập tin nén liệu giúp giảm độ lớn tập tin vừa đủ Tuân thủ lược đồ tổ chức liệu quản trị liệu : Hỗ trợ kiến trúc lược đồ lưu trữ liệu Kho liệu lược đồ hình sao/bơng tuyết cung cấp chế mạnh mẽ quản trị liệu hậu kiểm liệu Hỗ trợ giao dịch: Tuân thủ chặt chẽ quy tắc ACID để đảm bảo tính tồn vẹn liệu có nhiều bên đồng thời truy cập liệu, ví dụ sử dụng SQL Chi phí lưu trữ thấp: Kiến trúc Lakehouse xây dựng dựa thiết bị lưu trữ chi phí thấp Amazon S3, Azure Blob Storage Google Cloud Storage 3.3 So sánh Kho liệu, Hồ liệu Lakehouse Kho liệu Hồ liệu Mở Lakehouse Định dạng liệu Đóng, chiếm hữu Kiểu liệu Có cấu trúc Tất kiểu liệu : Có cấu trúc, bán cấu trúc, văn bản, khơng có cấu trúc Truy cập liệu Chỉ có SQL APIs mở để truy APIs mở để truy cập trực tiếp tập cập trực tiếp tập Tất kiểu Ít hỗ trợ bán cấu liệu : Có cấu trúc, bán cấu trúc, văn trúc bản, khơng có cấu trúc Mở 202 Kho liệu Hồ liệu Không truy cập trực tin tiếp tập tin Độ tin cậy Lakehouse SQL, tin Python, R … SQL, Python, R … Dữ liệu có chất Chất lượng thấp lượng cao, độ tin Đầm liệu cậy cao tuân thủ Dữ liệu có chất lượng cao, độ tin quy tắc ACID quy tắc ACID giao dịch giao dịch cậy cao tuân thủ Quản trị Bảo mật Bảo mật liệu Quản trị liệu Bảo mật liệu cao chi tiết Bảo mật cần cao chi tiết Quản trị liệu tới áp dụng tới Quản trị liệu tới cấp độ dòng/cột tập tin cấp độ dòng/cột bảng bảng Hiệu suất Cao Thấp Cao Khả mở rộng Dễ mở rộng Dễ mở rộng Dễ mở rộng Mở rộng khiến Do đặc trưng trích Do đặc trưng trích chi phí tăng theo xuất số lượng nhỏ cấp số nhân liệu để xử lý nên việc mở rộng không bị ảnh hưởng với tất kiểu liệu xuất số lượng nhỏ liệu để xử lý nên việc mở rộng không bị ảnh hưởng với tất kiểu liệu Hỗ trợ tình Cịn hạn chế với Cịn hạn chế Là kiến trúc liệu cụ thể ứng dụng sử lĩnh vực Máy học phù hợp cho dụng SQL, BI hỗ ứng dụng sử dụng trợ định SQL, BI lĩnh vực Máy học Lược đồ Hình tuyết sao, bơng Khơng có lược độ Tuân thủ lược đồ mặc định áp dụng Truy vấn Dễ truy vấn Hiệu suất truy vấn Hiệu suất truy vấn tối ưu tối ưu cao 203 Kho liệu Người dùng Tất Hồ liệu Lakehouse Nhà phân tích kinh Lãnh đạo tổ chức, doanh, nhà khoa doanh nghiệp học liệu, kỹ sư đội ngũ chuyên liệu kiến trúc trách liệu sư liệu Phân tích Cơ Nâng cao Phù hợp với phân tích dịng liệu cơng việc, gồm phân tích nâng cao BI TRIỂN VỌNG CỦA KIẾN TRÚC LAKEHOUSE Kho liệu vốn công nghệ quen thuộc sử dụng doanh nghiệp, giúp họ tận dụng tiềm rộng lớn Big Data Tuy nhiên, công nghệ lưu trữ liệu Data Lakehouse - tạo thay đổi cách doanh nghiệp tiếp cận sử dụng liệu Dựa tính chất khả loại, Data warehouse dường lựa chọn tốt cho doanh nghiệp muốn tận dụng liệu Trong đó, Data Lakehouse cho phép người dùng khai thác tối đa khả mà liệu mang lại, nhiên, nhiệm vụ khó khăn cho người dùng thơng thường với kỹ không đủ chuyên sâu Chắc chắn hai công nghệ lưu trữ liệu tiếp tục phát triển khả để nhà cung cấp phát triển giải pháp kết hợp nhằm mục đích giúp việc sử dụng liệu trở nên nhanh hơn, linh hoạt đáng tin cậy Hiện có nhóm ứng dụng phổ biển Data Lakehouse cho doanh nghiệp: a Thành phố thơng (Smart city) b Internet vạn vật (IoT) c Khoa học đời sống d An ninh mạng Bảo mật e Khách hàng Marketing f Tư vấn hỗ trợ 204 Tuy nhiên, Data Lakehouse có hạn chế, hạn chế lớn phải kể đến cơng nghệ kiến trúc cịn chưa hồn chỉnh, khơng thể đảm bảo kiến trúc tồn để đạt kỳ vọng hay khơng Có thể vài năm để kiến trúc hoàn thiện cạnh tranh với giải pháp lưu trữ liệu lớn hoàn thiện Nhưng với tốc độ cải tiến đại, khó để dự đốn giải pháp lưu trữ liệu hiệu kiến trúc Data Lakehouse Việc xây dựng Data Lakehouse từ viên gạch phức tạp, phải gần phải sử dụng tảng có sẵn để hỗ trợ kiến trúc Data Lakehouse mở Vì thế, cần phải tìm kiếm mạnh khác từ tảng triển khai trước định sở hữu Data Lakehouse 205 ... lý cho cần thiết phương pháp xây dựng tảng khác nhằm tìm liệu định, Kho liệu giải pháp 1.1 Kho liệu Kho liệu buộc liệu sinh từ ứng dụng khác lưu trữ nơi lưu trữ vật lý riêng biệt Các nhà thiết... Kho liệu, Hồ liệu Lakehouse Kho liệu Hồ liệu Mở Lakehouse Định dạng liệu Đóng, chiếm hữu Kiểu liệu Có cấu trúc Tất kiểu liệu : Có cấu trúc, bán cấu trúc, văn bản, khơng có cấu trúc Truy cập liệu. .. công cụ quản trị liệu giống Kho liệu việc truy cập liệu trực tiếp với thành phần lưu trữ liệu chi phí thấp Hồ liệu Khái niệm Data Lakehouse xuất lần vào năm 2017 có liên quan tới tảng Snowflake

Ngày đăng: 31/12/2022, 12:09

Tài liệu cùng người dùng

Tài liệu liên quan