Khoa học dữ liệu là lĩnh vực không thể thiếu cho nhu cầu phát triển của xã hội trong thời đại cách mạng công nghiệp 4.0, được sử dụng nhằm mục đích hỗ trợ việc đưa ra quyết định hoặc dự đoán. Kho dữ liệu cho phép tích hợp các siêu dữ liệu từ các nguồn mang lại tiềm năng khai thác thông tin cho người sử dụng.
XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU Nguyễn Thị Minh Phượng* Tóm tắt: Khoa học liệu lĩnh vực thiếu cho nhu cầu phát triển xã hội thời đại cách mạng công nghiệp 4.0, sử dụng nhằm mục đích hỗ trợ việc đưa định dự đốn Kho liệu cho phép tích hợp siêu liệu từ nguồn mang lại tiềm khai thác thông tin cho người sử dụng Triển vọng thư viện xây dựng kho liệu tích hợp liệu nghiên cứu mang lại hiệu tích cực hỗ trợ nghiên cứu, học tập Từ khóa: Kho liệu; Khoa học liệu; Dữ liệu; Thư viện Ngày nay, thông tin trở thành nguồn tài nguyên quan trọng cần quản lý khai thác hiệu Chính vậy, u cầu phương tiện có khả lưu trữ liệu khối lượng lớn, xử lý thông tin nhanh dẫn đến đời kho liệu Mục tiêu ban đầu kho liệu tạo điều kiện cho việc truyền liệu từ hệ thống vận hành sang hệ thống định Khoa học liệu thuật ngữ mẻ nước ta thời đại công nghiệp 4.0 dần trở thành xu hướng doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ việc sử dụng thông tin phân tích cơng nghệ mang lại Khi cách mạng công nghiệp 4.0 bùng nổ, quốc gia phải dựa nhiều vào khoa học công nghệ, vào thông tin vào liệu ∗ Thạc sĩ, Thư viện Học viện Hành Quốc gia XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU Thơng tin có sẵn mạng internet tăng theo cấp số nhân không đảm bảo chất lượng nên dẫn đến tình trạng thơng tin tìm thấy khơng liên quan khơng có giá trị khoa học Ngày có nhiều báo tài liệu khoa học chuyên ngành dành cho liệu nghiên cứu Dữ liệu nghiên cứu dường lĩnh vực mà chuyên gia lưu trữ thông tin (thủ thư, lưu trữ viên…) phải vươn tới để thực sứ mệnh hỗ trợ nhà nghiên cứu Vì vậy, việc thư viện nghiên cứu xây dựng kho liệu từ việc tích hợp liệu xu tất yếu thời đại khoa học liệu KHÁI NIỆM KHO DỮ LIỆU, HỒ DỮ LIỆU Kho liệu (Data Warehouse) khái niệm định nghĩa theo nhiều cách khác William H Inmon, người xem kiến trúc sư xây dựng kho liệu định nghĩa: “Kho liệu tập hợp liệu hướng chủ đề, tích hợp, gắn với thời gian ổn định, thiết kế cho việc hỗ trợ trình định người quản lý”[2] Devlin định nghĩa kho liệu sau: “Kho liệu kho lưu trữ đầy đủ thống liệu thu từ nhiều nguồn khác có sẵn để người dùng theo cách họ hiểu sử dụng bối cảnh kinh doanh” [1]. Thuật ngữ “Kho liệu” được hiểu sở liệu (CSDL) sử dụng để thu thập, đặt hàng, ghi nhật ký lưu trữ thông tin từ CSDL hoạt động cung cấp hỗ trợ định kinh doanh Như vậy, kho liệu xem CSDL lớn tập trung liệu từ nhiều nguồn Việc sử dụng kho liệu tạo đồng thông tin từ kho liệu người dùng nhận tiêu phân tích hay dùng công cụ hỗ trợ để theo dõi tiêu cần quan tâm Vì thế, kho liệu xem mơi trường có cấu trúc hệ thống thông tin, cung cấp cho người dùng thơng tin khó truy nhập biểu diễn CSDL tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc định mang tính lịch sử 743 744 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Thuật ngữ “kho liệu” sử dụng nhiều từ cuối năm 90. Tuy nhiên, gần đây, khái niệm hồ liệu (Data Lakes) trở nên phổ biến đến độ số người tin thay kho. Hồ liệu hiểu kho lưu trữ tập trung cho tất liệu, bao gồm liệu có cấu trúc, bán cấu trúc khơng cấu trúc Trong thực tế, hai loại hệ thống có sự khác biệt quan trọng và không sử dụng theo cách Kho liệu tập hợp lượng lớn liệu tích lũy từ nguồn liệu khác Nó sử dụng để đưa định Mặt khác, hồ liệu kho lưu trữ sử dụng để chứa lượng liệu thô khổng lồ định dạng ban đầu người dùng cần Hồ liệu kho liệu bật số điểm: dữ liệu, xử lý liệu, lưu trữ, bảo mật người dùng Kho liệu chứa liệu có cấu trúc Hồ liệu có khả lưu trữ liệu có cấu trúc, bán cấu trúc khơng cấu trúc Đối với việc xử lý liệu có liên quan, liệu tải vào kho liệu phải trải qua giai đoạn viết lược đồ bao gồm việc cung cấp cho chúng biểu mẫu cấu trúc (mơ hình) Trong hồ liệu, liệu lưu trữ dạng thơ người dùng định hình cần Lưu trữ kho liệu có thể tốn kém, đặc biệt khối lượng liệu lớn. Lưu trữ hồ liệu thường rẻ hơn, hầu hết cơng nghệ liệu lớn dựa vào phần mềm nguồn mở thiết kế để cài đặt phần cứng chi phí thấp Kho liệu chủ yếu sử dụng nhà quản lý doanh nghiệp, hồ liệu thường nhà khoa học liệu sử dụng lĩnh vực khoa học ĐẶC TÍNH CỦA KHO DỮ LIỆU Có ba kiểu kho liệu thường gặp: - Kho liệu doanh nghiệp (Enterprise Data Warehouse): Kho liệu loại cung cấp tập hợp liệu trung tâm tổ chức hỗ trợ cho việc định công ty (xí nghiệp) - Kho liệu tác nghiệp (Operational Data Store): Kho liệu loại dùng cho công ty có phạm vi rộng, khơng giống với kho liệu doanh nghiệp Ở liệu làm XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU sử dụng cho hoạt động thường nhật Kho liệu tác nghiệp khác kho liệu doanh nghiệp chỗ bị giới hạn tính lịch sử liệu cập nhật liệu thường xuyên - Kho liệu chuyên đề (Data Mart): kho cỡ nhỏ hỗ trợ cho nghiệp vụ chuyên biệt cho chức nghiệp vụ cụ thể Về chất, kho liệu hướng vào việc cung cấp kiến trúc, công cụ để phát triển liệu hệ thống hỗ trợ định Dữ liệu phát sinh từ hoạt động hàng ngày thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể tổ chức thường gọi liệu tác nghiệp Các hoạt động thu thập xử lý liệu tác nghiệp gọi xử lý giao dịch trực tuyến (Online Transaction Processing) Trái lại, kho liệu phục vụ cho việc phân tích kết mang thơng tin mức cao Các hệ thống thông tin thu thập xử lý liệu loại gọi xử lý phân tích trực tuyến (Online Analytical Processing) Kho liệu thường lớn tới hàng trăm GB hay chí hàng Terabyte Nó xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu liệu khác cho kết hợp ứng dụng công nghệ đại kế thừa từ hệ thống có sẵn từ trước Đặc điểm kho liệu tập hợp liệu có tính chất sau: - Tính tích hợp: Đây đặc tính quan trọng kho liệu Dữ liệu tập hợp từ nhiều nguồn khác nhau, trộn ghép với tạo thành thể thống - Dữ liệu gắn với thời gian tính lịch sử: Mỗi ghi kho liệu chứa yếu tố thời gian Toàn liệu kho tạo gắn liền với giá trị thời gian định - Dữ liệu có tính ổn định khơng biến động: Được lấy từ nhiều nguồn liệu hệ thống tác nghiệp có sẵn, kho liệu tách rời vật lý với môi trường tác nghiệp nên liệu kho liệu đọc, không chỉnh sửa thêm người sử dụng cuối 745 746 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM - Dữ liệu tổng hợp chi tiết: Dữ liệu chi tiết thông tin mức thấp lưu trữ kho liệu Dữ liệu tổng hợp tích hợp lại qua nhiều giai đoạn khác NHỮNG LỢI ÍCH KHI THƯ VIỆN XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU 3.1 Đối với người quản trị kho liệu - Lưu trữ dung lượng lớn liệu khứ: Dữ liệu tổng hợp từ nguồn khác kho liệu cho phép lưu trữ khối lượng lớn liệu lịch sử từ hệ điều hành nên dễ dàng lưu trữ kho giai đoạn khác chủ đề - Tăng cường tính bảo mật liệu: Kho liệu cho phép tăng cường bảo mật cách cung cấp tính bảo mật nâng cao tích hợp cấu hình nó. - Tính ổn định liệu: Khi liệu nằm kho liệu, ổn định khơng thay đổi Dữ liệu khơng biến không thay đổi theo thời gian Do thấy tiến hóa theo thời gian liệu Tuy nhiên, mức độ lưu trữ liên quan đến chất liệu tất liệu có giá trị lưu giữ - Thiết kế kho linh hoạt: Kho thiết kế mềm dẻo giúp dễ dàng tích hợp liệu mới, tạo báo cáo theo yêu cầu người khai thác liệu 3.2 Đối với người khai thác, sử dụng kho liệu - Phân tích khai thác liệu nhanh gọn, đầy đủ, xác Kho liệu cho phép truy cập vào tất liệu cần thiết vài phút mà không cần dùng đến truy vấn phức tạp nào, đồng thời không cần đến hỗ trợ chuyên gia kỹ thuật 24/7 để giải vấn đề truy xuất thơng tin - Tiêu chuẩn hóa cung cấp quán: Một lợi ích quan trọng khác việc sử dụng kho liệu tiêu chuẩn hóa liệu lớn. Người dùng tận dụng việc lưu trữ liệu bảng liệu theo cách xếp kho. Vì kho liệu lưu trữ liệu từ nhiều nguồn khác XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU nhau, nguồn tạo kết đồng hóa với nguồn khác. Điều đảm bảo chất lượng tính quán liệu. - Khai thác liệu theo chủ đề với khoảng thời gian khác nhau: Người dùng phân tích liệu theo chủ đề lĩnh vực cụ thể với lịch sử liệu theo thời gian Vai trò kho liệu đảm bảo ổn định liệu đặc biệt cung cấp liên kết trích dẫn cho tác giả nhờ định danh vĩnh viễn - Phù hợp với trình độ người khai thác, sử dụng kho liệu: Kho liệu thiết kế giúp thực truy vấn nhanh, cung cấp thơng lượng liệu cao đủ tính linh hoạt cho người dùng cuối, đồng thời cung cấp cho người dùng cuối báo cáo THƯ VIỆN XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆU Hiện nay, phương pháp xây dựng kho liệu phát triển lý thuyết thực tế Lý thuyết xây dựng kho liệu hình thành rõ nét, bên cạnh nhà cung cấp phần mềm đưa công cụ để xây dựng, lưu trữ, trì phát triển kho liệu Một kho liệu có khả quản lý liệu, khai thác thông tin để đưa định nhanh chóng phù hợp Với tài liệu truyền thống, tài liệu số đưa vào kho để phục vụ bạn đọc, tài liệu cần phải xử lý nghiệp vụ để đáp ứng nhu cầu tra cứu với kho liệu, liệu cần phải xử lý - Bổ sung kho liệu: Đây q trình tích hợp liệu kho Việc tích hợp liệu kho liệu trình xác định chất lượng số lượng thông tin có sẵn phục vụ cho nhu cầu tin người khai thác, sử dụng Dữ liệu đến từ nguồn không đồng Mỗi nguồn sử dụng định dạng khác nên khâu bổ sung kho liệu thực theo bước sau: + Hoàn tất liệu: Tất liệu nguồn phù hợp trích xuất, tích hợp kho Dữ liệu nguồn nhận trực tiếp dạng tệp lấy trực tiếp cách truy vấn CSDL ứng dụng nguồn Dữ liệu xếp theo chủ đề lĩnh vực mà thư viện hướng đến Dữ liệu phải kiểm tra chất lượng trước tích hợp vào kho 747 748 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM + Gia tăng liệu: Bước liệt kê nguồn liệu khác nhau, liệu nguồn liên quan chủ đề kho liệu thư viện tích hợp Cần kiểm tra liệu có kho hay chưa, bảo đảm khơng chèn ghi giống hệt ghi có để tránh bổ sung trùng lặp Ngoài ra, nhà khoa học, nhà nghiên cứu gửi chia sẻ liệu nghiên cứu họ lên kho liệu thư viện - Chuẩn hóa nguồn liệu khơng đồng nhất: Việc chuẩn hóa nguồn liệu bao gồm việc điều chỉnh sơ đồ nguồn liệu cho ứng dụng sơ đồ mục tiêu Việc sử dụng sơ đồ trung gian giúp giữ liệu dạng nguồn, xử lý xác định định dạng đầu vào cho liệu trước tích hợp vào kho Đối với nguồn, người quản lý phải tạo thành “thư viện” truy vấn để truy vấn trích xuất liệu liên quan cách cấu thành định danh liệu nguồn Sau đó, liệu trích xuất vào khu vực chuẩn bị liệu cho phép - Lập mục cho kho liệu: Các chủ đề kho cần lập mục cơng cụ tìm kiếm Đó tham chiếu liệu với liên kết đến tảng lưu trữ liệu kho - Liên kết tích hợp liệu: Trong nhiều trường hợp, liệu ghi lại liên quan đến đối tượng nhiều hệ thống nguồn Những tập tin trước tiên phải liên kết hợp trước tải vào kho liệu Người quản lý kho phải nắm tiêu chí nguồn để khớp liệu định Khi tải liệu vào kho, liệu thay đổi theo thời gian, cần phải đặt hệ thống quản lý phiên liệu Ngoài ra, phải giữ tương ứng liệu nguồn liệu kho việc giữ mã định danh nguồn mã định danh kho liệu - Chỉnh sửa làm liệu: Làm liệu cách chuyển đổi phần chiến lược cải tiến chất lượng liệu bao gồm việc lựa chọn áp dụng phép biến đổi liệu để giải vấn đề định dạng không quán khác nhau, nguồn liệu số nguồn liệu không đồng Để XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU làm liệu chia thành vấn đề đơn nguồn đa nguồn mức lược đồ Nhờ lỗi phát nhờ phương tiện kiểm tra tính quán nguồn liệu - Trợ giúp lựa chọn liệu: Cách tiếp cận truyền thống truy vấn liệu kho tham khảo nội dung CSDL để kiểm tra xem tài liệu tìm kiếm có kho hay khơng Yêu cầu thực khối lượng liệu tự động khối lượng liệu lớn Truy vấn CSDL thường thực cách sử dụng SQL (Structured Query Language) - ngôn ngữ truy vấn có cấu trúc Như vậy, siêu liệu nhập vào trường tương ứng có cơng cụ hình thành u cầu SCDL theo tham số xác định người dùng - Giấy phép cấp phép: Nếu kho cho phép chia sẻ liệu nghiên cứu nhà khoa học, có tình trạng sử dụng lại liệu vào nghiên cứu khác Để sử dụng liệu có quyền, cần thiết phải có ủy quyền từ chủ sở hữu, trừ trường hợp có ngoại lệ hợp pháp Để mở cách hợp pháp cho liệu, người quản lý phải gán cho liệu giấy phép Lớp liệu bảo vệ giấy phép CC (Creative Commons) Giấy phép tương thích bảo vệ liệu việc sử dụng lại liệu từ việc nghiên cứu phụ thuộc vào khả sử dụng lại thông tin Tuy nhiên, tồn kho liệu khơng để dạng truy cập mở, cần phải hạn chế truy cập cách cấm chép, chuyển xuất liệu sang phận thứ ba; tái sử dụng liệu số trường hợp - Phí khai thác kho liệu: Ngay tảng truy cập mở, quyền truy cập vào liệu không thiết phải hồn tồn miễn phí Thư viện xây dựng kho tảng thư viện Như vậy, người dùng phải đăng ký trước truy nhập - Phổ biến liệu: Phổ biến liệu cách chọn lọc thỏa mãn nhu cầu người dùng tin Người làm thư viện quản lý kho liệu phải có trình độ chun mơn tốt, áp dụng tốt kỹ xử lý thông tin Việc phổ biến liệu dạng cung cấp liệu có giá trị, mang hàm lượng khoa học cao mang lại lợi ích không nhỏ cho người dùng, 749 750 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM bối cảnh nguồn thông tin ngày lớn, phát triển với tốc độ nhanh YÊU CẦU ĐỐI VỚI KHO DỮ LIỆU THƯ VIỆN - Kho liệu có phải có khả lưu trữ quản lý số lượng khổng lồ liệu tổng hợp Kho liệu lớn lên theo thời gian, có thêm liệu giữ lại liệu lịch sử cho thời gian dài mà không bị tải, đảm bảo tính ổn định hoạt động - Kho liệu phải định hướng theo chủ đề Kho liệu xây dựng đưa vào khai thác để trả lời cho câu hỏi như: đối tượng sử dụng ai? nhu cầu sử dụng thông tin liệu nào? … - Thông tin kho liệu phải truy cập đáng tin cậy (có chất lượng cao) Để trì khả truy nguyên thông tin, thông tin lưu trữ kho liệu khơng thể bị xóa Dữ liệu lịch sử cần thiết để theo dõi phát triển giá trị khác số theo thời gian phân tích Do đó, khung thời gian tham chiếu phải liên kết với liệu phép nhận dạng - Thiết kế kho liệu phải khoa học, dễ tìm kiếm, dễ sử dụng Kho liệu thiết kế đặc biệt để phân tích liệu, bao gồm việc đọc lượng lớn liệu để hiểu mối quan hệ xu hướng liệu Kho phải có khả lắp ráp liệu từ nguồn khác theo định dạng quán - An ninh, an toàn, bảo mật liệu: Để có kho liệu an tồn trước hết cần phải có hệ quản trị kho liệu an toàn Kho liệu cần phải bảo vệ với tính bảo mật thực nhờ chế bảo mật sau: + Khả bảo mật hệ điều hành: Khi thiết kế kho, cần tận dụng hết khả an toàn sẵn có hệ điều hành mạng hệ quản trị CSDL, thực thao tác quản trị cần thiết để phát huy tối đa khả sẵn có hệ thống + Khả phân quyền hệ quản trị kho liệu: Hệ quản trị kho liệu cho phép phân quyền sử dụng kho, thao tác sử dụng kho (quyền đọc, quyền chép …) Các quyền nên phân nhỏ tới trường Đồng thời, phải tăng chế kiểm soát lượt truy nhập XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU 751 + Khả bảo mật: Hệ điều hành cần phải có khả mã hóa hồn tồn Để tăng tính bảo mật, cần xây dựng tường lửa cho liệu Thông tin kho liệu cần phải cập nhật, bổ sung người quản lý kho phải mã hóa liệu Bảo mật, an toàn an ninh kho liệu nhiệm vụ cần thiết vô quan trọng, phải thực đồng bộ, chặt chẽ tất khâu từ việc nâng cao nhận thức ý thức người sử dụng đến công tác lãnh đạo, đạo, quản lý điều hành Bên cạnh đó, cần đẩy mạnh hợp tác, chia sẻ kinh nghiệm quan để kịp thời ngăn chặn nguy an tồn thơng tin / liệu - Kho liệu thư viện phải đáp ứng nhu cầu đa dạng người dùng THAY LỜI KẾT Như với hệ thống công nghệ thông tin nào, kiến trúc kỹ thuật kho liệu chọn có kích thước tính đến khối lượng, số lượng người dùng hoạt động tiềm Việc sử dụng kho liệu cho phép tích hợp siêu liệu từ nguồn mang đến tiềm khai thác thơng tin cho người sử dụng chứa tất thông tin giúp người dùng tìm kiếm tài liệu có tham chiếu thời gian. Do đó, người dùng khơng cần phải tham khảo số trang Web khác để có thơng tin mà họ cần để đưa định Mỗi thư viện xây dựng kho liệu cho với cơng cụ truy vấncho phép khai thác triệt để tất nội dung kho mang lại hiệu to lớn, góp phần hỗ trợ tích cực việc hỗ trợ học tập, nghiên cứu người sử dụng TÀI LIỆU THAM KHẢO Devlin, Barry (1997), “Data warehouse: from architecture to implementation”, Addison – Wesley, p.42 Inmon, William H (2002), “Building a Data Warehouse”, John Wiley & Sons, p 81 ... khơng giống với kho liệu doanh nghiệp Ở liệu làm XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN KHOA HỌC DỮ LIỆU sử dụng cho hoạt động thư? ??ng nhật Kho liệu tác nghiệp khác kho liệu doanh nghiệp... phí thấp Kho liệu? ?chủ yếu sử dụng nhà quản lý doanh nghiệp, hồ liệu thư? ??ng nhà khoa học liệu sử dụng lĩnh vực khoa học ĐẶC TÍNH CỦA KHO DỮ LIỆU Có ba kiểu kho liệu thư? ??ng gặp: - Kho liệu doanh... dụng kho liệu tiêu chuẩn hóa liệu lớn. Người dùng tận dụng việc lưu trữ liệu bảng liệu theo cách xếp kho. Vì kho liệu lưu trữ liệu từ nhiều nguồn khác XÂY DỰNG KHO DỮ LIỆU THƯ VIỆN TRONG KỶ NGUYÊN