Bài viết Nền tảng dữ liệu đám mây hiện đại - Sự trỗi dậy của nền tảng lưu trữ dữ liệu Lakehouse nền tảng kiến trúc dữ liệu mới xuất hiện và liên tục phát triển trong nhiều thập kỷ qua để đáp ứng nhu cầu thực tiễn của các tổ chức khi xây dựng các lợi thế cạnh tranh của mình. Mời các bạn cùng tham khảo!
NỀN TẢNG DỮ LIỆU ĐÁM MÂY HIỆN ĐẠI SỰ TRỖI DẬY CỦA NỀN TÀNG LƯU TRỮ DỮ LIỆU LAKEHOUSE Bùi Mạnh Trường Khoa Công nghệ Thông tin Trường Đại học Tài – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Dữ liệu ln sinh tồn suốt q trình hoạt động tổ chức cấp độ vận hành hoạt động Sự phát triển cơng nghệ làm thay đổi mơ hình hoạt động kế hoạch chiến lược hoạt động tổ chức nâng tầm quan trọng liệu loại nhằm giúp tổ chức hiểu rõ mình, đối thủ khách hàng Các tổ chức hàng đầu giới hiểu tầm quan trọng việc xây dựng liệu chất lượng cao truy cập được, sử dụng có độ tin cậy cao Các tảng kiến trúc liệu xuất liên tục phát triển nhiều thập kỷ qua để đáp ứng nhu cầu thực tiễn tổ chức xây dựng lợi cạnh tranh Từ khóa: Data, Data warehouse, Data lake, specialized systems, Lake house, on-premise, cloud GIỚI THIỆU Khi liệu trở nên quan trọng với doanh nghiệp, nhu cầu cần biết họ có liệu để kiếm tiền từ liệu này, tảng cho phát triển thành công Điều với tất doanh nghiệp, doanh nghiệp công nghệ truyền thống hay không Nhu cầu không quan trọng thời gian tới, chí liệu tạo sử dụng cách hiệu trở thành lợi cạnh tranh Việc tập trung tăng số luọng chuyên gia liệu làm việc chung với thành đội thành cộng đồng để xây dựng liệu riêng tổ chức đó, chun gia liệu làm việc độc lập không tạo thành Sự hợp sức phòng ban chức khác chia sẻ đóng góp liệu quan trọng Theo cách truyền thống, vai trị liệu tồn riêng biệt so với 04 lĩnh vực nghề nghiệp liệu bao gồm : Nhà khoa học liệu, kỹ sư liệu, kiến trúc sư liệu nhà phân tích liệu Mặc dù vai trò thành phần tổ chức trước lại hoàn toàn phụ thuộc vào cơng cụ quy trình khác làm việc với liệu kho liệu riêng biệt Hình thức tổ chức khiến cho độ phức tạp 206 chi phí doanh nghiệp tăng cao, thời gian nhiều khó khăn để trích xuất ý nghĩa từ liệu chuyên gia liệu hoạt động riêng lẻ Ngày nay, doanh nghiệp hàng đầu coi trọng liệu chuyển đổi theo hướng ứng dụng kiến trúc thống để đáp ứng nhu cầu chuyên gia liệu TẦM QUAN TRỌNG CỦA NỀN TẢNG ĐÁM MÂY VỚI CÁC DOANH NGHIỆP COI TRỌNG DỮ LIỆU Theo khảo sát hãng McKinsey vào năm 219 cho thấy doanh nghiệp có tốc độ tăng trưởng lợi nhuận cao 03 năm gần đóng góp tối thiểu 20% vào phát triển trực tiếp phát minh sáng tạo liệu họ Các doanh nghiệp ăn nên làm sử dụng chiến lược kiềng 03 chân, họ liên kết chiến lược dài hạn rõ ràng liệu Tiếp theo, họ ni dưỡng văn hóa lấy liệu làm trung tâm việc biến liệu thành phần công việc nhân viên doanh nghiệp đào tạo nhân viên quản lý liệu cách Cuối cùng, doanh nghiệp sử dụng tảng liệu hỗ trợ hoạt động liên quan đến liệu cấp độ công việc Năm 2020, hãng O’Reilly hợp tác với hãng Databricks thực khảo sát toàn cầu với 3.000 chuyên gia liệu để xác định tình trạng cấu trúc tảng liệu đám mây đại Người trả lời khảo sát yêu cầu đánh giá cấu trúc tảng liệu tại, đặc biệt thách thức họ gặp phải thách thức ảnh hưởng tới doanh nghiệp đội ngũ chuyên gia liệu doanh nghiệp Người trả lời khảo sát yêu cầu đề xuất tiêu chí xem quan trọng đánh giá nhiều loại kiến trúc liệu Kết khảo sát cho thấy 81% người trả lời khảo sát thừa nhận tổ chức họ chuyển để thích nghi với dịch vụ đám mây sở hạ tầng kiến trúc đám mây cho phù hợp với số chức tổ chức mình, điều cho thấy giới liệu đắm chìm tảng đám mây Chỉ có khoảng 10 tổ chức (19%) khơng chuyển khối lượng liệu lên tảng đám mây Kiến trúc tảng liệu mà doanh nghiệp sử dụng bao gồm tảng lưu trữ liệu chỗ tảng lưu trữ liệu đám mây kết hợp hai tảng Kết khảo sát doanh nghiệp sau : Kho liệu (Data warehouses) : 57% Hồ liệu (Data lakes) : 53% Hệ thống đặc thù (Specialized systems) : 54% 207 Bao gồm Hệ quản trị sở liệu đặc thù SAS ERP Oracle PeopleSoft hoạt động chỗ, Salesforce Workday hoạt động tảng đám mây Không áp dụng tảng : 04% Kết cho thấy nhiều doanh nghiệp vận hành công tác quản lý liệu nhiều kiến trúc tảng lưu trữ liệu, tất nhiên điều dẫn đến số khó khăn sau : a Sự phức tạp vận hành Hơn 70% doanh nghiệp thừa nhận việc trì sở hạ tầng ổn định nơi liệu hoạt động môi trường thực toán nan giải, khó khăn Đây khó khăn lớn vận hành đồng thời nhiều kiến trúc liệu b Đảm bảo chất lượng liệu Khi liệu thu thập lưu trữ nhiều nơi lưu trữ khác tất yếu khó tránh khỏi trùng lặp không đồng Điều chắn ảnh hưởng nghiêm trọng tới định kinh doanh định dựa vào liệu lưu trữ Kho liệu Hồ liệu Doanh nghiệp cần liệu có độ tin cậy cao định Kết khảo sát 67% cho thấy nhu cầu cấp bách doanh nghiệp khó khăn c Quản lý liệu Yêu cầu quản lý liệu có tầm quan trọng tương ứng so với việc đảm bảo chất lượng (66%) phải đảm bảo tính bảo mật số lượng liệu tăng lên theo thời gian Việc quản lý ngày quan trọng liên quan đến liệu có tính riêng tư quy định bảo vệ liệu nhạy cảm ngày nhiều để tránh cá nhân truy cập bất hợp pháp d Chi phí vận hành Khó khăn cuối tác động đáng kể tới doanh nghiệp vận hành nhiều nơi lưu trữ liệu chi phí trì hoạt động (60%) Từ thực tiễn vận hành sử dụng nhiều kiến trúc tảng liệu phục vụ cho hoạt động phần toàn diện chức doanh nghiệp, khó khăn kể trên, đa số doanh nghiệp chủ động tìm kiếm đánh giá 208 kiến trúc liệu để tối ưu hệ thống Để hiểu rõ kiến trúc tảng liệu mà doanh nghiệp ứng dụng họ mong muốn tìm kiếm giải pháp đại, ta tìm hiểu kiến trúc tảng liệu lợi ích khó khăn tảng kiến trúc liệu Ba kiến trúc tảng liệu cần xem xét Kho liệu, Hồ liệu Hệ thống liệu đặc thù, ba kiến trúc tảng hoạt động chỗ đám mây 2.1 Kho liệu Kho liệu nơi lưu trữ trung tâm tích hợp liệu từ nhiều nguồn khác sử dụng phân tích báo cáo kinh doanh Kho liệu coi tảng lực doanh nghiệp để thúc đẩy liệu cho ứng dụng Trí tuệ kinh doanh (Business Intelligence) Một đặc tính quan trọng kho liệu tính cấu trúc cao Dữ liệu lưu trữ kho liệu chuẩn bị chuyển đổi, làm sạch, xóa liệu trùng lắp định dạng phù hợp với tiêu chuẩn theo yêu cầu Thực ra, liệu thường không đưa vào Kho liệu chuyên gia liệu không đảm bảo liệu sử dụng với mục đích Phần lớn kho liệu, dù chỗ đám mây, tuân thủ theo hướng dẫn khung Ralph Kimball & Bill Inmon quy định từ thập kỷ 1980 Về bản, kho liệu thay đổi cách doanh nghiệp phân tích liệu định cấp chiến lược Trước có kho liệu, liệu giao dịch vận hành lưu trữ riêng lẻ gây khó khăn đảm bảo tính đồng thống mặt ngữ nghĩa tồn quy mơ tổ chức giao liệu cho nhân doanh nghiệp để thực công việc, cuối khơng thể có nhìn tồn cảnh hoạt động doanh nghiệp Ngày nay, kho liệu trở nên phổ biến tảng liệu sử dụng nhiều Mặc dù kho liệu truyền thống vận hành chỗ, kho liệu đám mây phát triển nhanh chóng với lợi chi phí, khả mở rộng quy mơ giải phóng tổ chức khỏi ràng buộc phải mua sắm, triển khai trì sở hạ tầng cần thiết để vận hành kho liệu Lợi ích Kho liệu Lợi ích quan trọng Kho liệu giúp tổ chức định tốt hơn, ngồi giúp chuyên gia liệu người sử dụng liệu thực tốt chức nhiệm vụ tổ chức Các lợi ích kể sau : 209 a Góp phần xây dựng trí tuệ kinh doanh Việc tập trung liệu từ nhiều nguồn khác vào kho liệu cấp quyền truy cập cho nhân có thẩm quyền tổ chức có nghĩa tổ chức khơng cịn phải phụ thuộc vào nhân viên nhà quản lý để định quan trọng, liệu thực hỗ trợ định b Cải thiện hoạt động truy vấn liệu Những truy vấn thường xuyên từ nhân tổ chức làm sập sở hạ tầng phân tích kho liệu nhỏ sở liệu truyền thống vốn có nhiều hạn chế Kho liệu quản lý hiệu truy vấn, giảm tải cho toàn hệ sinh thái c Cải thiện liệu chất lượng định Dữ liệu chuyển đổi trước đưa vào kho liệu, nghĩa liệu từ nhiều nguồn chuyển định dạng chuẩn nhân tổ chức xem, truy cập Thơng tin đồng cho phép nhân lèo lái công việc theo hướng mục tiêu chung thống tổ chức d Công với liệu Gần đây, nhờ phát triển thân sở liệu cơng cụ phân tích trực quan, tổ chức coi trọng liệu hàng đầu nỗ lực dân chủ hóa liệu tồn diện quy mơ tồn tổ chức việc cho phép nhiều nhân tổ chức quyền truy cập kho liệu Điều vơ tình gây khó khăn lớn cho kho liệu khả mở rộng quy mơ Thách thức kho liệu Mặc dù lợi ích kho liệu to lớn, song song tồn số thách thức không nhỏ Kho liệu thường sở liệu khổng lồ nên việc thiết kế triển khai đòi hỏi khối lượng công việc lớn việc hoạch định, cộng tác liên kết hai nguồn lực người tài nguyên Sau thách thức kho liệu : a Chi phí thực cao Chi phí cao ln trở ngại lớn lựa chọn giải pháp kho liệu, dù triển khai chỗ tảng đám mây Đối với việc triển khai chỗ, chi phí quyền cao ln khiến cho chi phí chung tăng cao Tiếp theo chi phí vận hành, bao gồm nhiệm 210 vụ mua sắm, cài đặt trì hạ tầng sở cho kho liệu tổ chức Khi kho liệu nở rộng to lớn chắn cần thêm nhân lực tài nguyên vận hành Đặc biệt rơi vào khoảng thời gian cao điểm với khối lượng công việc tăng lên lớn tương ứng với khoảng thời gian cao điểm, để đảm bảo chức tính tốn lưu trữ, sở hạ tầng liệu tổ chức bị tải, ví dụ nhà bán lẻ phải chuẩn bị cho khoảng thời gian cao điểm mùa mua sắm kỳ nghỉ lễ dài ngày Nếu chọn hình thức phổ biến thuê tảng liệu đám mây tổ chức phải tốn theo nhu cầu mong muốn Dù hình thức tiết kiệm chi phí vận hành cho tài nguyên không dùng tới phải chịu chi phí cao kho liệu phát triển to lớn b Vận hành phức tạp Vận hành kho liệu thực phức tạp Đối với kho liệu chỗ, phận tin học đội ngũ liệu tham gia toàn diện vào việc triển khai, nâng cấp công tác bảo mật với hoạt động khác Điều cần thiết tảng liệu cần tinh chỉnh thường xuyên để đảm bảo ổn định hoạt động tổ chức theo thời gian, đặc biệt khối lượng liệu tăng lên để giúp kho liệu không dễ bị tổn thương, thiếu hiệu không hoạt động Việc vận hành kho liệu tảng đám mây phức tạp dù hỗ trợ chi phí hạ tầng sở Giống dịch vụ đám mây giải pháp đám mây khác, thị trường kho liệu đám mây q trình hồn thiện Các nhà cung cấp dịch vụ khác áp dụng cấu tính phí khác nhau, việc hỗ trợ tiếp cận sở hạ tầng khác Một số tác vụ cấp độ nghiệp vụ bắt buộc phải tuân thủ thỏa thuận mức dịch vụ (Service-Level Agreement) để tích hợp kho liệu hai hình thức chỗ đám mây với quy trình tác vụ nhằm đảm bảo tính bảo mật khả phục hồi cố tồn vẹn nhanh chóng Một số tổ chức thực theo hình thức đưa liệu vào hồ liệu để nhiều dòng liệu đưa liệu vào kho liệu Trong trường hợp kho liệu có thay đổi, dịng liệu đưa liệu quay trở ngược lại hồ liệu theo yêu cầu 211 Khả mở rộng quy mô Khả mở rộng quy mô toán thực tế kho liệu chỗ khó khăn Bộ phận tin học phải thận trọng để đảm bảo có đủ tài nguyên thời điểm, đặc biệt gặp phải xung đột bất ngờ đường truyền Việc mở rộng quy mô nhiệm vụ tốn thời gian tốn tài nguyên thường kéo theo việc mua sắm cài đặt phần cứng Đối với kho liệu đám mây việc mở rộng quy mơ khơng phải vấn đề, tổ chức mua sắm nhiều máy tính hay dung lượng lưu trữ nhiều cần thiết, đường truyền đông đúc Tuy nhiên, khả mở rộng quy mơ khó khăn khó để trì hàng trăm, hàng nghìn dịng liệu để cung cấp liệu cho Kho liệu lớn xây dựng loại báo cáo khác Ngồi cịn có 02 yếu tố khác suy yếu khả mở rộng quy mơ : - Phần lớn khách hàng có nhiều nhà cung cấp giải pháp Kho liệu kiến trúc liệu - Kiến trúc liệu chia cho nhiều nhà cung cấp giải pháp đám mây Hệ thống độc quyền khép kín Nhiều kho liệu chỗ không tương tác tốt với hệ thống khác, việc phong tỏa gây nhiều khó khăn tổ chức muốn chuyển đổi qua giải pháp kho liệu khác Ngay với hệ thống đám mây khơng tránh khỏi tình trạng khó khăn này, nhà cung cấp hệ thống đám mây khác có chức năng, lực khác nhau, ví dụ chuyển đổi liệu kho liệu từ dịch vụ đám mây Google Cloud qua Microsoft Azure khơng phải quy trình liên tục Từ xuất kỷ nguyên kỹ thuật số việc nhà cung cấp phong tỏa chức hoạt động kho liệu gây khó khăn cho tổ chức nhà sản xuất phần cứng phần mềm muốn cột chân tổ chức hợp tác với Khó khăn tiếp tục làm phiền lòng chuyên gia liệu thời đại liệu đóng vai trị quan trọng Thiếu hỗ trợ nhà khoa học liệu Máy học Kho liệu xây dựng dựa công nghệ 40 tuổi thiết kế để xử lý liệu có cấu trúc Các loại liệu khác âm thanh, video chuỗi ký tự ngôn ngữ tự nhiên kiểu liệu phi cấu trúc khác không phù hợp với lược đồ kho 212 liệu Sự phổ biến kiểu liệu ngày tăng lên liệu đầu vào lĩnh vực khoa học liệu máy học, tiền đề cho trỗi dậy tảng hồ liệu xuất thêm khó khăn khác tổ chức phải cố gắng trì hai tảng hồ liệu kho liệu kiến trúc liệu tổ chức 2.2 Hồ liệu Hồ liệu hệ thống liệu hay gọi nơi lưu trữ liệu lưu trữ với dạng thô, tự nhiên, thường dạng file đối tượng blob (Binary Large OBject) Hồ liệu lưu trữ liệu có cấu trúc phi cấu trúc theo dạng thơ, bao gồm liệu có cấu trúc từ sở liệu quan hệ sở liệu giao dịch (dòng cột), liệu bán cấu trúc (file liệu dạng csv, nhật ký liệu lịch sử, XML, JSON), liệu phi cấu trúc (thư điện tử, văn bản, file văn định dạng PDF) liệu nhị phân (hình ảnh, âm thanh, video) Mục tiêu hồ liệu chuyển đổi tất liệu có sẵn khai thác chúng để xây dựng báo cáo, biểu diễn trực quan hóa thực phân tích nâng cao ứng dụng máy học để cuối đạt lợi cạnh tranh kinh doanh Hồ liệu kho liệu đơi bị hiểu nhầm giống đặc tính sau đây: - Là trung tâm lưu trữ liệu; - Có thể hoạt động tảng chỗ tảng đảm mây; - Các tổ chức sử dụng 02 phương pháp phân phối rộng rãi liệu tổ chức Sự khác biệt lớn Hồ liệu Kho liệu kiểu liệu tốn tình xử lý, ngồi cịn có khác biệt sau : Bảng: Những khác biệt Hồ liệu Kho liệu Hồ liệu Kho liệu Kiểu liệu lưu trữ xử lý Dữ liệu cấu trúc, bán cấu Dữ liệu cấu trúc bán cấu trúc, phi cấu trúc trúc Mục đích liệu Không rõ ràng Người sử dụng Nhà khoa học liệu kỹ Người sử dụng thông thường sư liệu Cấu trúc Mềm dẻo dễ thay đổi Cụ thể theo tình Cứng nhắc khó thay đổi 213 Lợi ích hồ liệu Hồ liệu có số lợi ích đáng kể so với kho liệu sau : a Hồ liệu chấp nhận lưu trữ tất liệu doanh nghiệp Không thể biết trước liệu cần khai thác theo nhu cầu lĩnh vực Khoa học liệu Máy học chí Trí tuệ kinh doanh, tất liệu sinh suốt trình hoạt động tổ chức tổ chức thu thập lưu trữ vào Hồ liệu, độ mềm dẻo Hồ liệu Dữ liệu lưu trữ vô thời hạn tạo điều kiện cho tổ chức kiểm tra tái kiểm tra liệu lịch sử cần b Hồ liệu lưu trữ xử lý tất liệu Trước luồng liệu nhật ký liệu lịch sử máy chủ vận hành trang web, số liệu từ thiết bị cảm ứng, hoạt động mạng xã hội, chuỗi ký tự hình ảnh khó khăn tốn để lưu trữ phân tích, hồ liệu chấp nhận tất liệu c Hồ liệu cho phép tất người dùng truy cập toàn liệu Có 03 loại người sử dụng liệu tiêu biểu: Người sử dụng tổ chức, nhà phân tích liệu nhà khoa học liệu (nhà Khoa học liệu, Kỹ sư liệu chuyên gia liệu) Trước đây, kho liệu phục vụ 03 loại người sử dụng liệu tùy theo nhu cầu công việc loại người sử dụng, đặc biệt Nhà khoa học liệu thường không sử dụng Kho liệu hạn chế nó, họ thường quan tâm vào phân tích thống kê sâu cơng cụ Trí tuệ nhân tạo Trong Hồ liệu phục vụ 03 loại người sử dụng liệu công d Hồ liệu thay đổi dễ dàng Hồ liệu lưu trữ tất liệu dạng thô cho phép tất người dùng truy cập sử dụng liệu theo kiểu họ quan trọng Hồ liệu sử dụng khung schema-onread quy trình Trích xuất-Nạp liệu thơ-Chuyển đổi cần (Extract – Load Transform), điều cho phép người dùng xây dựng mơ hình, khai phá liệu lược đồ theo yêu cầu Bất kết xử lý liệu khơng hữu ích dễ dàng loại bỏ mà không làm thay đổi cấu trúc liệu can thiệp hỗ trợ phận tin học, điều giúp Hồ liệu mềm dẻo vơ hạn khơng địi hỏi thay đổi cấu trúc để trả lời yêu cầu 214 e Hồ liệu cung cấp nhiều giải pháp khả thi nhanh chóng Hồ liệu lưu trữ tất liệu kiểu liệu cho phép tất người dùng truy cập liệu trước cấu trúc chuyển đổi, người dùng thu kết nhanh mà không cần chuyên gia liệu làm tiêu chuẩn hóa liệu cho họ Thật khơng may, hồ liệu trở thành đầm lầy liệu khơng khác mớ hổ lốn chứa khối lượng liệu lớn khơng tương thích với tiêu chuẩn Khó khăn Hồ liệu a Quản lý liệu Do khối lượng liệu to lớn bên hồ liệu, loại người dùng chìm đắm vào liệu, truy vấn, sử dụng lập báo cáo tùy thích, điều xem thách thức đáng kể muốn đảm bảo liệu bảo mật riêng tư b Dữ liệu lộn xộn không tin cậy Do hồ liệu tích lũy liệu liên tục nhiều cấu trúc định dạng khác nên việc bảo vệ liệu ổn định nhiệm vụ khó khăn Kiến trúc hồ liệu hướng tới việc phân phối liệu với ràng buộc định dạng quy mô liệu lưu trữ so với kho liệu Hồ liệu thời gian để ghi nhận việc truyền liệu người sử dụng yêu cầu, điều thể truy vấn cho thấy liệu không đồng nút hHồ liệu đồng Ngồi ra, hồ liệu khơng có chế cảnh bảo người dùng việc truyền liệu thất bại, chí phải nhiều tuần tháng để phát tập liệu bị hư hỏng khơng tồn vẹn c Vận hành phức tạp Hồ liệu chỗ có khó khăn vận hành tương tự kho liệu chỗ, việc bảo đảm kết hoạt động bảo mật yêu cầu hàng đầu phận tin học phải giữ cho hồ liệu hoạt động chức năng, hệ thống hoạt động đạt tối ưu lúc gọi thành công Việc xây dựng, chuyển đổi trì hồ liệu tảng đám mây hoạt động hiệu khó khăn, đặc biệt tổ chức phải quản lý tảng chỗ tảng đám mây Ngoài ra, giải pháp sử dụng nhiều tảng đám mây ngày trở nên phổ biến 03 lý sau : - Các tổ chức thường cần đa dạng hóa sở hạ tầng nhằm tương thích với quy định giảm thiểu rủi ro 215 - Việc định độc lập tổ chức lớn thường khiến cho phận khác đầu tư vào giải pháp nhà cung cấp tảng đám mây khác - Hoạt động Sát nhập Thâu tóm (Merger and Acquisition) buộc tổ chức thâu tóm phải chấp nhận cơng nghệ có sẵn tổ chức bị thâu tóm Tóm lại, dù có nhiều khó khăn ứng dụng hồ liệu khác với khó khăn sử dụng kho liệu, tổ chức có xu hướng chuyển sang hồ liệu tính mềm dẻo khả truy cập tất liệu có 2.3 Hệ thống đặc thù Do có ứng dụng muốn sử dụng nơi lưu trữ liệu lớn để phục vụ kiểu liệu cụ thể nên xuất kiến trúc tảng liệu gọi hệ thống đặc thù, ví dụ ứng dụng Salesforce nơi lưu trữ liệu lớn mà nhiều doanh nghiệp ứng dụng để quản lý liệu hệ thống Quản lý Quan hệ Khách hàng (Customer Relationship Management), ứng dụng Workday lưu trữ liệu để quản lý cơng tác nhân Lợi ích hệ thống đặc thù liệu kiểm soát chặt chẽ tổ chức theo yêu cầu đặc thù ứng dụng nhà cung cấp tảng Có nhiều cách hay đề truy vấn hệ thống thiết lập báo cáo theo chủ đề quan tâm Thách thức tổ chức muốn tích hợp liệu hệ thống đặc thù với hệ thống khác, ví dụ kết hợp liệu hóa đơn tính tiền kho liệu tảng chỗ với liệu khách hàng lưu trữ tảng đám mây Salesforce Các tổ chức ứng dụng kiến trúc tảng liệu hệ thống đặc thù cho khó khăn lớn gặp phải vận hành phức tạp Ngồi cịn có khó khăn khác quan trọng Sự tích hợp, dù API cho phép việc tích hợp trở nên dễ dàng việc khó khăn loại bỏ nhiều nơi lưu trữ liệu phát sinh từ hệ thống đặc thù Việc ánh xạ liệu, làm chủ liệu, loại bỏ liệu trùng lắp quan trọng di chuyển liệu từ định dạng có tính chất độc quyền, gặp có lẽ khó khăn hệ thống đặc thù ẢNH HƯỞNG CỦA DỮ LIỆU TRONG KINH DOANH Dữ liệu tạo khác biệt Đây nhận thức tuyên bố tổ chức nói vai trò liệu việc hỗ trợ hoạt động tổ chức, việc xây dựng kế 216 hoach hành động, chiến lược phát triển việc xây dựng lợi cạnh tranh Địi hỏi tổ chức kiến trúc tảng lưu trữ liệu đại tóm tắt sau : Dữ liệu phải lưu trữ tập trung Dữ liệu phải có tính mở Kiến trúc tảng lưu trữ liệu phải tương thích, phù hợp, bảo vệ đặc trưng hoạt động sản xuất kinh doanh tổ chức Đây xem yếu tố quan trọng Kiến trúc tảng lưu trữ phải hoạt động tảng đám mây toàn diện Đây xem yếu tố bắt buộc phải có Hiệu hoạt động, vận hành với chi phí hợp lý Hỗ trợ tất người sử dụng Phần lớn tổ chức ưu tiên tầm nhìn dài hạn đầu tư vào liệu thành ngắn hạn giảm chi phí kinh doanh tăng trưởng doanh thu, điều phản ánh quan điểm chung tổ chức khả sử dụng liệu hiệu cao hiệu suất cao giúp tổ chức tiếp tục phát triển tương lai Trong nhiều năm qua, khuôn mẫu quản lý liệu hỗ trợ kiểu liệu phát triển Kể từ xuất cuối thập niên 1980, kho liệu tiến hóa để thích nghi với nhu cầu hỗ trợ định trí tuệ kinh doanh tổ chức Mặc dù kho liệu hoạt động tốt với liệu có cấu trúc tổ chức ngày lưu trữ khối lượng khổng lồ liệu có cấu trúc bán cấu trúc để sử dụng, lý tổ chức bắt đầu xây dựng hồ liệu từ đầu thập kỷ 2010 Dù hồ liệu lưu trữ liệu thô hỗ trợ liệu có cấu trúc bán cấu trúc Hồ liệu lưu trữ khối lượng lớn liệu hỗ trợ giao dịch, quản lý liệu yếu thiếu tính ổn định độc lập gây khó khăn kết hợp việc thêm liệu đọc liệu thực công việc theo lô truyền liệu Điều khiến cho hồ liệu không hứa hẹn mong muốn tổ chức có nhiều hệ thống liệu hoạt động mạnh mẽ mềm dẻo cao gồm khả xử lý nhiều tốn tình đa dạng bao trùm lực phân tích SQL, giám sát theo thời gian thực lĩnh vực Khoa học liệu, Trí tuệ nhân tạo Máy học 217 Sự phát triển Trí tuệ nhân tạo thời gian gần tập trung vào xử lý liệu phi cấu trúc chuỗi ký tự, hình ảnh video, kho liệu khơng thể lưu trữ kiểu liệu hồ liệu giải pháp tối ưu cho tốn tình Trong nhiều tình huống, tổ chức triển khai quản lý nhiều hệ thống, gồm hồ liệu vài kho liệu Hệ thống đặc thù sở liệu hình ảnh, đồ họa, chuỗi thời gian dịng liệu Từ khó khăn kể trên, cấu trúc xuất lựa chọn đáng ý so với kiến trúc di sản trước gọi Lakehouse 3.1 Lakehouse Lakehouse kết hợp đặc trưng tốt hồ liệu kho liệu, Lakehouse có cấu trúc liệu đặc trưng quản lý liệu tương tự kho liệu sử dụng phận lưu trữ mềm dẻo, chi phí thấp Nói cách khác, Lakehouse giống kho liệu kho liệu thiết kế thời đại bây giờ, thời đại mà lưu trữ liệu có độ tin cậy cao, chi phí thấp gọi nơi lưu trữ đối tượng Mỗi tảng lưu trữ liệu có điểm mạnh điểm yếu khác tóm tắt hình sau : Hình: Tóm tắt điểm mạnh, điểm yếu tảng 218 3.2 Đặc trưng Lakehouse a Hỗ trợ giao dịch Lakehouse thường sử dụng SQL nhiều dòng liệu để liên tục ghi đọc liệu đồng thời Lakehouse hỗ trợ nguyên tắc ACID giao dịch (Atomicity – Độ chi tiết tối đa, Consistency – Đồng nhất, Isolation – Độc lập, Durability – Độ bền vững) để đảm bảo quán chất lượng liệu b Tuân thủ lược đồ Quản lý Lakehouse hỗ trợ việc tuân thủ lược đồ phát triển tảng lưu trữ liệu, bao gồm mơ hình lược đồ kho liệu lược đồ Ngôi sao, lược đồ Bơng tuyết Lakehouse có khả thực tích hợp liệu với vận hành chế hậu kiểm quản lý mạnh mẽ c Hỗ trợ Trí tuệ kinh doanh Lakehouse hỗ trợ tổ chức vận hành cơng cụ trí tuệ kinh doanh trực tiếp Hồ liệu Việc giúp cập nhật liệu kịp thời, giảm độ trễ giảm chi phí lưu trữ hỗ trợ liệu hồ liệu kho liệu d Lưu trữ tách biệt với tính tốn Do phận Lưu trữ phận Tính tốn sử dụng cluster nhớ khác nên Lakehouse mở rộng quy mô hoạt động phục vụ đồng thời nhiều người sử dụng quy mô liệu lớn e Độ mở Định dạng nhớ mà Lakehouse sử dụng (ví dụ Apache Parquet, Delta Lake Apache HUDI) mở chuẩn hóa cung cấp API để nhiều loại công cụ chế (gồm Máy học thư viện ngơn ngữ lập trình Python/R) truy cập trực tiếp liệu cách hiệu f Hỗ trợ đa dạng kiểu liệu gồm liệu có cấu trúc phi cấu trúc Lakehouse dùng để lưu trữ, lọc, phân tích truy cập kiểu liệu cần thiết để phục vụ ứng dụng đòi hỏi liệu có cấu trúc, liệu phi cấu trúc gồm hình ảnh, video chuỗi ký tự 219 g Hỗ trợ nhiều loại khối lượng liệu Lakehouse hỗ trợ tất tốn tình nhiều loại khối lượng liệu thuộc lĩnh vực Khoa học liệu, Máy học, SQL phân tích Nhiều cơng cụ cần để hỗ trợ loại khối lượng liệu này, chúng đòi hỏi phải nơi lưu trữ liệu h Đường truyền liệu khép kín Các loại báo cáo theo thời gian thực quy chuẩn nhiều tổ chức, Lakehouse hỗ trợ truyền liệu mà không cần yêu cầu hệ thống riêng lẻ chuyên dùng cho ứng dụng liệu theo thời gian thực tảng liệu khác Tất đặc trưng quan trọng giúp cho Lakehouse thu hút nhiều ý quan tâm so với có kho liệu hồ liệu KẾT LUẬN Các công ty thành công thập kỷ tới công ty liệu, dù công ty hoạt động kinh doanh ngành nghề cụ thể khác nhau, ví dụ tổ chức ngân hàng Việt Nam ngày nhanh chóng xây dựng phân nghiên cứu liệu với liệu để từ xây dựng kế họach, chiến lược chí tham mưu, đóng góp vào việc xây dựng sách nhà nước nhà bán lẻ, đặc biệt nhà bán lẻ trực tuyến sử dụng liệu để “giam cầm” khách hàng “buộc” họ phải trung thành với nhà bán lẻ hiểu rõ nhu cầu, sở thích mong muốn khách hàng để từ dồn khách hàng vào lưới khổng lồ chạy Để thực thành cơng cách mạng chuyển đổi số đòi hỏi tổ chức phải tập hợp tất người dùng, tập hợp tất liệu cung cấp công cụ liệu hạ tầng sở để có hiểu biết sâu sắc từ liệu Các tổ chức cần tảng để lưu trữ vận hành hoạt động dựa liệu xây dựng tiêu chuẩn mở nhằm phục vụ phận đội ngũ nhân tổ chức Đối với tổ chức lưỡng lự với tảng liệu khó khăn hữu áp dụng cách tiếp cận lên đưa toàn giải pháp tảng chỗ lên tảng đám mây, không sử dụng tảng đám mây cách tồn diện, 220 tổ chức tự thay kiến trúc liệu lỗi thời kiến trúc khác mà không làm thay đổi ưu dài hạn Ngoài ra, tổ chức cần quản lý tảng lưu trữ khai thác liệu quan trọng quản lý tổ chức, quan tâm, đầu tư cho công tác bảo mật toàn tảng, đặc biệt với tảng đám mây phải xử lý khối lượng liệu khổng lồ cần phải kiểm soát chặt chẽ Việc tự động hóa cơng tác mở rộng quy mơ hoạt động cần phải ưu tiên xem xét, đánh giá toàn diện tổ chức nhằm phục vụ cho nhu cầu, hoạt động tổ chức vận hành liên tục, an toàn hiệu thời điểm hoạt động nhằn nâng cao lực hoạt động sản xuất, kinh doanh xây dựng lợi cạnh tranh mạnh mẽ, bền vững kinh tế cạnh tranh mang tính tồn cầu ngày TÀI LIỆU THAM KHẢO [1] Matt Aslett, AWS re:Invests lake house architecture for data and analytics, S&P Global, 01/05/2021 [2] Micheal Armbrust, Ali Ghodsi, Reynold Xin, Matei Zaharia, Lakehouse : A new generation of open platforms that unify data warehousing and advanced analytics, CIDR, 01/2021 [3] M Armbrust, T Das, L Sun, B Yavuz, S Zhu, M Murthy, J Torres, H van Hovell, A Ionescu, A undefineduszczak, M undefinedwitakowski, M Szafrański, X Li, T Ueshin, M Mokhtar, P Boncz, A Ghodsi, S Paranjpye, P Senster, R Xin, M Zaharia, Delta Lake: High-performance ACID table storage over cloud object stores, VLDB, 2020 [4] D Davis, AI unleashes the power of unstructured data, https://www.cio.com/article/3406806/, 2019 [5] Darja Solodovnikova and Laila Niedrite, towards a data warehouse architecture for managing big data evolution, Science and Technology publications Ltds, 2018 [6] Dariusz DymekEmail authorWojciech KomnataPiotr Szwed, Proposal of a new data warehouse architecture reference model, Communications in Computer and Information Science, Springer, 2015 [7] Yourdon, E., Modern structured analysis, 2nd edition Prentice Hall PTR, Upper Saddle River, 2000 [8] Dymek, D., Komnata, W., Kotulski, L., Szwed, P., Data warehouse architectures reference model and formal architecture description, AGH University of Science and Technology Press, 2015 221 ... đám mây Kiến trúc tảng liệu mà doanh nghiệp sử dụng bao gồm tảng lưu trữ liệu chỗ tảng lưu trữ liệu đám mây kết hợp hai tảng Kết khảo sát doanh nghiệp sau : Kho liệu (Data warehouses) : 57% Hồ liệu. .. lợi cạnh tranh Địi hỏi tổ chức kiến trúc tảng lưu trữ liệu đại tóm tắt sau : Dữ liệu phải lưu trữ tập trung Dữ liệu phải có tính mở Kiến trúc tảng lưu trữ liệu phải tương thích, phù hợp, bảo vệ... kiến trúc liệu tổ chức 2.2 Hồ liệu Hồ liệu hệ thống liệu hay gọi nơi lưu trữ liệu lưu trữ với dạng thô, tự nhiên, thường dạng file đối tượng blob (Binary Large OBject) Hồ liệu lưu trữ liệu có cấu