Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu

10 35 0
Xây dựng kho dữ liệu thư viện trong kỷ nguyên khoa học dữ liệu

Đang tải... (xem toàn văn)

Thông tin tài liệu

Mỗi thư viện khi xây dựng được kho dữ liệu cho mình với một công cụ truy vấncho phép khai thác triệt để tất cả các nội dung của kho sẽ mang lại hiệu quả to lớn, góp phần hỗ trợ tích cự[r]

(1)

TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU

Nguyễn Thị Minh Phượng1* Tóm tắt: Khoa học liệu lĩnh vực thiếu cho nhu

cầu phát triển xã hội thời đại cách mạng công nghiệp 4.0, sử dụng nhằm mục đích hỗ trợ việc đưa định hoặc dự đốn Kho liệu cho phép tích hợp siêu liệu từ các nguồn mang lại tiềm khai thác thông tin cho người sử dụng Triển vọng thư viện xây dựng kho liệu tích hợp liệu nghiên cứu mang lại hiệu tích cực hỗ trợ nghiên cứu, học tập.

Từ khóa: Kho liệu; Khoa học liệu; Dữ liệu; Thư viện.

Ngày nay, thông tin trở thành nguồn tài nguyên quan trọng cần quản lý khai thác hiệu Chính vậy, u cầu phương tiện có khả lưu trữ liệu khối lượng lớn, xử lý thông tin nhanh dẫn đến đời kho liệu Mục tiêu ban đầu kho liệu tạo điều kiện cho việc truyền liệu từ hệ thống vận hành sang hệ thống định

Khoa học liệu thuật ngữ mẻ nước ta thời đại công nghiệp 4.0 dần trở thành xu hướng doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ việc sử dụng thơng tin phân tích công nghệ mang lại Khi cách mạng công nghiệp 4.0 bùng nổ, quốc gia phải dựa nhiều vào khoa học công nghệ, vào thông tin vào liệu

(2)

Thông tin có sẵn mạng internet tăng theo cấp số nhân không đảm bảo chất lượng nên dẫn đến tình trạng thơng tin tìm thấy khơng liên quan khơng có giá trị khoa học Ngày có nhiều báo tài liệu khoa học chuyên ngành dành cho liệu nghiên cứu Dữ liệu nghiên cứu dường lĩnh vực mà chuyên gia lưu trữ thông tin (thủ thư, lưu trữ viên…) phải vươn tới để thực sứ mệnh hỗ trợ nhà nghiên cứu Vì vậy, việc thư viện nghiên cứu xây dựng kho liệu từ việc tích hợp liệu xu tất yếu thời đại khoa học liệu

1 KHÁI NIỆM KHO DỮ LIỆU, HỒ DỮ LIỆU

Kho liệu (Data Warehouse) khái niệm định nghĩa theo nhiều cách khác William H Inmon, người xem kiến trúc sư xây dựng kho liệu định nghĩa: “Kho liệu tập hợp liệu hướng chủ đề, tích hợp, gắn với thời gian ổn định, thiết kế cho việc hỗ trợ trình định người quản lý”[2]

Devlin định nghĩa kho liệu sau: “Kho liệu kho lưu trữ đầy đủ thống liệu thu từ nhiều nguồn khác có sẵn để người dùng theo cách họ hiểu sử dụng bối cảnh kinh doanh” [1]

(3)

Thuật ngữ “kho liệu” sử dụng nhiều từ cuối năm 90 Tuy nhiên, gần đây, khái niệm hồ liệu (Data Lakes) trở nên phổ biến đến độ số người tin thay kho.Hồ liệu hiểu kho lưu trữ tập trung cho tất liệu, bao gồm liệu có cấu trúc, bán cấu trúc không cấu trúc Trong thực tế, hai loại hệ thống có khác biệt quan trọng không sử dụng theo cách

Kho liệu tập hợp lượng lớn liệu tích lũy từ nguồn liệu khác Nó sử dụng để đưa định Mặt khác, hồ liệu kho lưu trữ sử dụng để chứa lượng liệu thô khổng lồ định dạng ban đầu người dùng cần Hồ liệu kho liệu bật số điểm: liệu, xử lý liệu, lưu trữ, bảo mật người dùng Kho liệu chứa liệu có cấu trúc Hồ liệu có khả lưu trữ liệu có cấu trúc, bán cấu trúc khơng cấu trúc

Đối với việc xử lý liệu có liên quan, liệu tải vào kho liệu phải trải qua giai đoạn viết lược đồ bao gồm việc cung cấp cho chúng biểu mẫu cấu trúc (mơ hình) Trong hồ liệu, liệu lưu trữ dạng thơ người dùng định hình cần Lưu trữ kho liệu tốn kém, đặc biệt khối lượng liệu lớn Lưu trữ hồ liệu thường rẻ hơn, hầu hết cơng nghệ liệu lớn dựa vào phần mềm nguồn mở thiết kế để cài đặt phần cứng chi phí thấp Kho liệu chủ yếu sử dụng nhà quản lý doanh nghiệp, hồ liệu thườngđược nhà khoa học liệu sử dụng lĩnh vực khoa học

2 ĐẶC TÍNH CỦA KHO DỮ LIỆU

Có ba kiểu kho liệu thường gặp:

- Kho liệu doanh nghiệp (Enterprise Data Warehouse): Kho liệu loại cung cấp tập hợp liệu trung tâm tổ chức hỗ trợ cho việc định cơng ty (xí nghiệp)

(4)

được sử dụng cho hoạt động thường nhật Kho liệu tác nghiệp khác kho liệu doanh nghiệp chỗ bị giới hạn tính lịch sử liệu cập nhật liệu thường xuyên

- Kho liệu chuyên đề (Data Mart): kho cỡ nhỏ hỗ trợ cho nghiệp vụ chuyên biệt cho chức nghiệp vụ cụ thể

Về chất, kho liệu hướng vào việc cung cấp kiến trúc, công cụ để phát triển liệu hệ thống hỗ trợ định Dữ liệu phát sinh từ hoạt động hàng ngày thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể tổ chức thường gọi liệu tác nghiệp Các hoạt động thu thập xử lý liệu tác nghiệp gọi xử lý giao dịch trực tuyến (Online Transaction Processing) Trái lại, kho liệu phục vụ cho việc phân tích kết mang thơng tin mức cao Các hệ thống thông tin thu thập xử lý liệu loại gọi xử lý phân tích trực tuyến (Online Analytical Processing) Kho liệu thường lớn tới hàng trăm GB hay chí hàng Terabyte Nó xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu liệu khác cho kết hợp ứng dụng công nghệ đại kế thừa từ hệ thống có sẵn từ trước

Đặc điểm kho liệu tập hợp liệu có tính chất sau:

- Tính tích hợp: Đây đặc tính quan trọng kho liệu Dữ liệu tập hợp từ nhiều nguồn khác nhau, trộn ghép với tạo thành thể thống

- Dữ liệu gắn với thời gian tính lịch sử: Mỗi ghi kho liệu chứa yếu tố thời gian Toàn liệu kho tạo gắn liền với giá trị thời gian định

(5)

- Dữ liệu tổng hợp chi tiết: Dữ liệu chi tiết thông tin mức thấp lưu trữ kho liệu Dữ liệu tổng hợp tích hợp lại qua nhiều giai đoạn khác

3 NHỮNG LỢI ÍCH KHI THƯ VIỆN XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU

3.1 Đối với người quản trị kho liệu

- Lưu trữ dung lượng lớn liệu khứ: Dữ liệu tổng hợp từ nguồn khác kho liệu cho phép lưu trữ khối lượng lớn liệu lịch sử từ hệ điều hành nên dễ dàng lưu trữ kho giai đoạn khác chủ đề

- Tăng cường tính bảo mật liệu: Kho liệu cho phép tăng cường bảo mật cách cung cấp tính bảo mật nâng cao tích hợp cấu hình

- Tính ổn định liệu: Khi liệu nằm kho liệu, ổn định khơng thay đổi Dữ liệu không biến không thay đổi theo thời gian Do thấy tiến hóa theo thời gian liệu Tuy nhiên, mức độ lưu trữ liên quan đến chất liệu tất liệu có giá trị lưu giữ

- Thiết kế kho linh hoạt: Kho thiết kế mềm dẻo giúp dễ dàng tích hợp liệu mới, tạo báo cáo theo yêu cầu người khai thác liệu

3.2 Đối với người khai thác, sử dụng kho liệu

- Phân tích khai thác liệu nhanh gọn, đầy đủ, xác Kho liệu cho phép truy cập vào tất liệu cần thiết vài phút mà không cần dùng đến truy vấn phức tạp nào, đồng thời không cần đến hỗ trợ chuyên gia kỹ thuật 24/7 để giải vấn đề truy xuất thông tin

(6)

nhau, nguồn tạo kết đồng hóa với nguồn khác Điều đảm bảo chất lượng tính quán liệu

- Khai thác liệu theo chủ đề với khoảng thời gian khác nhau: Người dùng phân tích liệu theo chủ đề lĩnh vực cụ thể với lịch sử liệu theo thời gian Vai trò kho liệu đảm bảo ổn định liệu đặc biệt cung cấp liên kết trích dẫn cho tác giả nhờ định danh vĩnh viễn

- Phù hợp với trình độ người khai thác, sử dụng kho liệu: Kho liệu thiết kế giúp thực truy vấn nhanh, cung cấp thơng lượng liệu cao đủ tính linh hoạt cho người dùng cuối, đồng thời cung cấp cho người dùng cuối báo cáo

4 THƯ VIỆN XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆU

Hiện nay, phương pháp xây dựng kho liệu phát triển lý thuyết thực tế Lý thuyết xây dựng kho liệu hình thành rõ nét, bên cạnh nhà cung cấp phần mềm đưa công cụ để xây dựng, lưu trữ, trì phát triển kho liệu Một kho liệu có khả quản lý liệu, khai thác thông tin để đưa định nhanh chóng phù hợp

Với tài liệu truyền thống, tài liệu số đưa vào kho để phục vụ bạn đọc, tài liệu cần phải xử lý nghiệp vụ để đáp ứng nhu cầu tra cứu với kho liệu, liệu cần phải xử lý

- Bổ sung kho liệu:Đây q trình tích hợp liệu kho Việc tích hợp liệu kho liệu trình xác định chất lượng số lượng thơng tin có sẵn phục vụ cho nhu cầu tin người khai thác, sử dụng Dữ liệu đến từ nguồn không đồng Mỗi nguồn sử dụng định dạng khác nên khâu bổ sung kho liệu thực theo bước sau:

(7)

+ Gia tăng liệu: Bước liệt kê nguồn liệu khác nhau, liệu nguồn liên quan chủ đề kho liệu thư viện tích hợp Cần kiểm tra liệu có kho hay chưa, bảo đảm không chèn ghi giống hệt ghi có để tránh bổ sung trùng lặp Ngồi ra, nhà khoa học, nhà nghiên cứu gửi chia sẻ liệu nghiên cứu họ lên kho liệu thư viện

- Chuẩn hóa nguồn liệu khơng đồng nhất: Việc chuẩn hóa nguồn liệu bao gồm việc điều chỉnh sơ đồ nguồn liệu cho ứng dụng sơ đồ mục tiêu Việc sử dụng sơ đồ trung gian giúp giữ liệu dạng nguồn, xử lý xác định định dạng đầu vào cho liệu trước tích hợp vào kho Đối với nguồn, người quản lý phải tạo thành “thư viện” truy vấn để truy vấn trích xuất liệu liên quan cách cấu thành định danh liệu nguồn Sau đó, liệu trích xuất vào khu vực chuẩn bị liệu cho phép

- Lập mục cho kho liệu: Các chủ đề kho cần lập mục cơng cụ tìm kiếm Đó tham chiếu liệu với liên kết đến tảng lưu trữ liệu kho

- Liên kết tích hợp liệu: Trong nhiều trường hợp, liệu ghi lại liên quan đến đối tượng nhiều hệ thống nguồn Những tập tin trước tiên phải liên kết hợp trước tải vào kho liệu Người quản lý kho phải nắm tiêu chí nguồn để khớp liệu định Khi tải liệu vào kho, liệu thay đổi theo thời gian, cần phải đặt hệ thống quản lý phiên liệu Ngoài ra, phải giữ tương ứng liệu nguồn liệu kho việc giữ mã định danh nguồn mã định danh kho liệu

(8)

làm liệu chia thành vấn đề đơn nguồn đa nguồn mức lược đồ Nhờ lỗi phát nhờ phương tiện kiểm tra tính quán nguồn liệu

- Trợ giúp lựa chọn liệu: Cách tiếp cận truyền thống truy vấn liệu kho tham khảo nội dung CSDL để kiểm tra xem tài liệu tìm kiếm có kho hay khơng u cầu thực khối lượng liệu tự động khối lượng liệu lớn Truy vấn CSDL thường thực cách sử dụng SQL (Structured Query Language) - ngơn ngữ truy vấn có cấu trúc Như vậy, siêu liệu nhập vào trường tương ứng có cơng cụ hình thành u cầu SCDL theo tham số xác định người dùng

- Giấy phép cấp phép: Nếu kho cho phép chia sẻ liệu nghiên cứu nhà khoa học, có tình trạng sử dụng lại liệu vào nghiên cứu khác Để sử dụng liệu có quyền, cần thiết phải có ủy quyền từ chủ sở hữu, trừ trường hợp có ngoại lệ hợp pháp Để mở cách hợp pháp cho liệu, người quản lý phải gán cho liệu giấy phép Lớp liệu bảo vệ giấy phép CC (Creative Commons) Giấy phép tương thích bảo vệ liệu việc sử dụng lại liệu từ việc nghiên cứu phụ thuộc vào khả sử dụng lại thơng tin Tuy nhiên, tồn kho liệu không để dạng truy cập mở, cần phải hạn chế truy cập cách cấm chép, chuyển xuất liệu sang phận thứ ba; tái sử dụng liệu số trường hợp

- Phí khai thác kho liệu: Ngay tảng truy cập mở, quyền truy cập vào liệu khơng thiết phải hồn tồn miễn phí Thư viện xây dựng kho tảng thư viện Như vậy, người dùng phải đăng ký trước truy nhập

(9)

nhất bối cảnh nguồn thông tin ngày lớn, phát triển với tốc độ nhanh

5 YÊU CẦU ĐỐI VỚI KHO DỮ LIỆU THƯ VIỆN

- Kho liệu có phải có khả lưu trữ quản lý số lượng khổng lồ liệu tổng hợp Kho liệu lớn lên theo thời gian, có thêm liệu giữ lại liệu lịch sử cho thời gian dài mà khơng bị q tải, đảm bảo tính ổn định hoạt động

- Kho liệu phải định hướng theo chủ đề Kho liệu xây dựng đưa vào khai thác để trả lời cho câu hỏi như: đối tượng sử dụng ai? nhu cầu sử dụng thông tin liệu nào? …

- Thông tin kho liệu phải truy cập đáng tin cậy (có chất lượng cao) Để trì khả truy nguyên thông tin, thông tin lưu trữ kho liệu khơng thể bị xóa Dữ liệu lịch sử cần thiết để theo dõi phát triển giá trị khác số theo thời gian phân tích Do đó, khung thời gian tham chiếu phải liên kết với liệu phép nhận dạng

- Thiết kế kho liệu phải khoa học, dễ tìm kiếm, dễ sử dụng Kho liệu thiết kế đặc biệt để phân tích liệu, bao gồm việc đọc lượng lớn liệu để hiểu mối quan hệ xu hướng liệu Kho phải có khả lắp ráp liệu từ nguồn khác theo định dạng quán

- An ninh, an toàn, bảo mật liệu:Để có kho liệu an tồn trước hết cần phải có hệ quản trị kho liệu an toàn Kho liệu cần phải bảo vệ với tính bảo mật thực nhờ chế bảo mật sau:

+ Khả bảo mật hệ điều hành: Khi thiết kế kho, cần tận dụng hết khả an tồn sẵn có hệ điều hành mạng hệ quản trị CSDL, thực thao tác quản trị cần thiết để phát huy tối đa khả sẵn có hệ thống

(10)

+ Khả bảo mật: Hệ điều hành cần phải có khả mã hóa hồn tồn Để tăng tính bảo mật, cần xây dựng tường lửa cho liệu Thông tin kho liệu cần phải cập nhật, bổ sung người quản lý kho phải mã hóa liệu

Bảo mật, an toàn an ninh kho liệu nhiệm vụ cần thiết vô quan trọng, phải thực đồng bộ, chặt chẽ tất khâu từ việc nâng cao nhận thức ý thức người sử dụng đến công tác lãnh đạo, đạo, quản lý điều hành Bên cạnh đó, cần đẩy mạnh hợp tác, chia sẻ kinh nghiệm quan để kịp thời ngăn chặn nguy an tồn thơng tin / liệu

- Kho liệu thư viện phải đáp ứng nhu cầu đa dạng người dùng

THAY LỜI KẾT

Như với hệ thống công nghệ thông tin nào, kiến trúc kỹ thuật kho liệu chọn có kích thước tính đến khối lượng, số lượng người dùng hoạt động tiềm Việc sử dụng kho liệu cho phép tích hợp siêu liệu từ nguồn mang đến tiềm khai thác thông tin cho người sử dụng chứa tất thơng tin giúp người dùng tìm kiếm tài liệu có tham chiếu thời gian Do đó, người dùng không cần phải tham khảo số trang Web khác để có thơng tin mà họ cần để đưa định

Mỗi thư viện xây dựng kho liệu cho với công cụ truy vấncho phép khai thác triệt để tất nội dung kho mang lại hiệu to lớn, góp phần hỗ trợ tích cực việc hỗ trợ học tập, nghiên cứu người sử dụng

TÀI LIỆU THAM KHẢO

1 Devlin, Barry (1997), “Data warehouse: from architecture to implementation”, Addison – Wesley, p.42

Ngày đăng: 07/05/2021, 23:13

Tài liệu cùng người dùng

Tài liệu liên quan