NGHIÊN CỨU - TRAO ĐỔI KHAI PHÁ DỮ LIỆU TRONG THƯ VIỆN SỐ TS Đậu Mạnh Hoàn Trung tâm Học liệu, Trường Đại học Quảng Bình Tóm tắt: Dựa đặc trưng kỹ thuật khai phá liệu tổ chức thư viện số, viết trình bày khả khai thác kỹ thuật khai phá liệu thư viện số sau đề xuất áp dụng kỹ thuật khai phá liệu thư viện số khía cạnh: Cải thiện tốc độ; nâng cấp chất lượng dịch vụ thông tin thư viện; hỗ trợ định thư viện; dịch vụ thơng tin cá nhân; tự động hóa xử lý thông tin; hỗ trợ công việc khác nhằm nâng cao hiệu sử dụng khai thác thư viện số Từ khóa: Khai phá liệu; thư viện số Data mining in digital library Abstract: Based on the characteristics of data mining and digital library, the article discusses some benefits and possibilities of data mining in digital library, including: speed improvement; information service improvement; decision - making support; personal information service support; information processing automation, and other activities to improve the performance and utility of digital library Keywords: Data mining; digital library Giới thiệu Khai phá liệu trở thành lĩnh vực nghiên cứu nóng, thu hút quan tâm nhiều người, nhiều tổ chức nước giới Mục đích khai phá liệu tìm mơ hình phân loại hữu ích liệu phục vụ cho mục đích dự đốn mơ tả khai thác thơng tin lĩnh vực khác Sự đời phát triển khai phá liệu đáp ứng giải nhiều vấn đề ứng dụng đời sống, mang lại hiệu cao Khai phá liệu kỹ thuật có nhiều ưu việt, sử dụng rộng rãi lĩnh vực ứng dụng rộng rãi không gian thư viện số Trên phương diện xây dựng thông tin kỹ thuật số, tối ưu hóa xử lý thơng tin tự động, chất lượng dịch vụ thông tin phát triển kinh doanh, vai trò khai phá liệu tự động hóa thư viện kỹ thuật số quan trọng Thư viện số nguồn tài nguyên thơng tin số vơ to lớn có phương tiện truyền thông với nhiều nội dung đa dạng khác Nó cịn hệ thống thơng tin kỹ thuật số đời hỗ trợ nhiều công nghệ cao đại, hệ phương thức quản lý tài nguyên thông tin Internet, loại chế dịch vụ thuận tiện cung cấp thông tin cho độc giả Thư viện kỹ thuật số giải vấn đề Internet, giải phân tán, thiếu đồng bất tiện sử dụng khai phá tài nguyên số Bằng cách áp dụng kỹ thuật mới, thư viện số không thay đổi dịch vụ thư viện truyền thống, phương tiện truyền thông phương pháp quản lý, mà sử dụng nguồn tài nguyên kỹ thuật số cách phong phú, đồng thời khai phá lợi kỹ thuật để phát triển ý tưởng tạo công cụ mới, tăng cường chức thư THÔNG TIN VÀ TƯ LIỆU - 3/2017 15 NGHIÊN CỨU - TRAO ĐỔI viện số, cung cấp dịch vụ cho giáo dục, ứng dụng đời sống nghiên cứu khoa học Trong tương lai, thương mại điện tử trở thành dịch vụ cốt lõi giới số, điều làm tăng trưởng lợi điểm thư viện số động lực để thư viện số ngày phát triển Khai phá liệu thư viện số 2.1 Khai phá liệu Khai phá liệu (Data mining) khái niệm bao hàm nhiều kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy kho liệu lưu trữ [1, 2] Khai phá liệu lĩnh vực nghiên cứu khoa học máy tính nói chung, trí tuệ nhân tạo, xử lý tri thức thơng minh nói riêng Khai phá liệu bước quy trình khai phá tri thức CSDL (Knowledge Discovery in Database- KDD) Nó đề cập đến việc khai phá liệu tri thức từ số lượng lớn liệu thông tin [3] Khai phá liệu ứng dụng loại hình cung cấp dịch vụ lưu trữ thông tin nào, chẳng hạn như: kho liệu, CSDL quan hệ, CSDL giao dịch, CSDL hướng đối tượng, CSDL quan hệ hướng đối tượng, CSDL không gian, CSDL thời gian, CSDL văn bản, CSDL đa phương tiện, CSDL Web, CSDL tri thức Đặc biệt, thành công hướng nghiên cứu khai phá văn góp phần to lớn phát triển thư viện số Kỹ thuật sử dụng để dự đốn thơng tin tiềm ẩn từ CSDL có quy mơ lớn từ kho liệu, khai phá phương thức tiềm năng, tự động dự đoán tri thức hành vi, tự động khám phá mẫu trước chưa biết Các mẫu chiết xuất từ khai phá liệu tri thức thể khái niệm, quy tắc, mẫu tri thức 16 THÔNG TIN VÀ TƯ LIỆU - 3/2017 Quá trình khai phá liệu chia thành giai đoạn: giai đoạn chuẩn bị liệu, giai đoạn khai phá tri thức giai đoạn trình bày thể kết [4, 5] Quá trình khai phá tri thức lặp lặp lại với tham gia người sử dụng Có khác biệt định khai phá liệu khai phá tri thức Nói chung, khai phá liệu bước cụ thể trình khai phá tri thức Nó sử dụng thuật tốn đặc biệt để trích xuất mơ hình từ CSDL, từ thơng qua q trình giải thích hệ thống việc đánh giá mô đun, chuyển đổi vào hệ thống tri thức mà người sử dụng hiểu Tuy nhiên, cách tổng quát, khai phá tri thức thường coi trình bao gồm: chuẩn bị liệu, trích xuất mơ hình, biểu diễn tri thức bước khác Khai phá liệu truy vấn thơng tin có khác biệt định, điều thể chỗ: truy vấn thông tin xác định mục tiêu, nhu cầu người sử dụng cần phải đặt cách rõ ràng yêu cầu truy vấn, khai phá liệu ngẫu nhiên, kết khơng thể đốn trước Mục tiêu truy vấn thông tin để giúp người dùng tìm tài liệu đáp ứng yêu cầu truy vấn từ số lượng lớn tài liệu, khai phá liệu để khám phá kiến thức tiềm ẩn tài liệu Tuy nhiên, hai kỹ thuật bổ sung cho Có thể sử dụng kết nghiên cứu khai phá liệu để cải thiện độ xác hiệu truy hồi thông tin cải thiện biểu kết tìm kiếm, hệ thống truy hồi thông tin phát triển lên tầm cao OLAP (On-line analytical processing- OLAP) cơng cụ phân tích, hai có khác biệt rõ ràng Cơng nghệ phân tích xử lý trực tuyến khơng phải q trình tự động Khi người dùng đặt câu hỏi, hệ thống phân tích xử lý trực tuyến có trách nhiệm trích xuất thơng tin chi tiết vấn đề Q trình khai phá liệu thường tự động, người dùng khơng cần phải trình bày vấn đề xác, ưu điểm NGHIÊN CỨU - TRAO ĐỔI trình khai phá kiến thức ẩn sung vào nội dung [8] Khai phá liệu q trình hồn chỉnh, từ việc xác định vùng đối tượng, chuẩn bị liệu, tiến trình khai phá trình bày đến phân tích kết [6, 7] Trên giới, thư viện điện tử áp dụng sớm Các hệ thống tùy biến tài nguyên, tùy biến trang, nguồn tài nguyên nhất, quản lý cá nhân, sưu tập liên kết cá nhân, tổ chức thư viện chức hỗ trợ truy vấn áp dụng Thư viện số tương lai chắn phát triển nhanh chóng Việc áp dụng công nghệ khai phá liệu nguồn thông tin rộng lớn lựa chọn lớn công cụ khai phá tri thức thuật toán, cá nhân hoá dịch vụ thư viện số trở thành phần thiếu xây dựng hỗ trợ kỹ thuật [9] 2.2 Thư viện số Hiện nay, có nhiều tổ chức nghiên cứu nước xây dựng hệ thống thư viện số với quy mô lớn, hệ thống phù hợp với mơ hình tương tác dịch vụ thư viện hệ thống dịch vụ cá nhân Nó dựa lợi ích cá nhân nhu cầu học tập người dùng thông qua trang web để thu thập, tổ chức liên kết vùng tài nguyên kỹ thuật số mà cá nhân quan tâm đến Khi người dùng truy cập lần hệ thống thư viện số, họ nhận nội dung liên quan đến yêu cầu họ Dịch vụ hoạt động sau, cán thư viện chuyên nghiệp tạo danh sách tài nguyên thư viện trực tuyến kỹ thuật số loại tài nguyên theo chủ đề cho người sử dụng, hệ thống cung cấp cho người dùng tài khoản đăng nhập, người dùng sử dụng tài khoản đăng nhập để vào trang web thư viện, nơi cung cấp danh sách yêu cầu cần thiết để lựa chọn tài nguyên nguồn tài nguyên Web khác, bổ sung vào hệ thống thư viện Ngoài ra, hệ thống thư viện cung cấp thông tin liên lạc nhất, thư mục cá nhân chức đánh dấu, dịch vụ khác, người dùng tùy chỉnh dịch vụ mà họ yêu cầu Hệ thống dựa thông tin đăng ký người dùng nội dung cho người dùng để tạo tập tin sách, bao gồm thơng tin cá nhân người sử dụng nguồn lực kỹ thuật số đại diện cho người dùng lựa chọn danh sách thông số Tập tin lưu trữ hình thức ổ cứng máy tính máy chủ sở liệu người sử dụng, người dùng truy cập trang, hệ thống thư viện trích xuất, theo tùy chọn bổ Khả khai phá liệu thư viện số Dựa vào cấu trúc nội dung thư viện số đề xuất khả khai thác khai phá liệu thư viện số sau: 3.1 Khai phá cấu trúc thư viện số Thư viện số thiết kế cấu trúc trang web, sử dụng ngôn ngữ thiết kế web với siêu liên kết để tổ chức thông tin Trên sở đó, thơng qua siêu liên kết tổ chức trang, kết nối, thư mục, nội dung mà chúng liên kết đến khám phá kiến thức bổ ích Các kỹ thuật khai phá trang web (web mining) khai thác cách triệt để để thu thông tin ý nghĩa 3.2 Khai phá người sử dụng thư viện số Khi người sử dụng khai thác tài nguyên thư viện số, phiên giao dịch ghi lại tất lần người sử dụng trình duyệt web theo thời gian để hình thành sở liệu giao dịch, kết thu thập lưu trữ lại thông tin người sử dụng sưu tập đặc biệt thông qua chế độ duyệt web, từ sử dụng kỹ thuật để khai phá thơng tin Sử dụng thuật tốn khai phá luật kết hợp để tìm giao dịch tập hợp có tần số truy cập vượt THÔNG TIN VÀ TƯ LIỆU - 3/2017 17 NGHIÊN CỨU - TRAO ĐỔI ngưỡng định, sau sử dụng kết để phân loại liệu [10] Trên sở tìm tính sở liệu giao dịch mà truy cập thường xuyên, lưu trữ chúng sở kiến thức máy chủ cách sử dụng luật kết hợp phân tích liên kết Khi người dùng duyệt trang, đại lý mạng trước kết nối trang có liên quan theo quy định, để cải thiện tốc độ phản ứng Sử dụng khai phá web để có mơ hình chuỗi truy cập người dùng trước thực truyền trang người dùng đọc theo dự đoán 3.3 Khai phá nội dung thư viện số Dựa nội dung trang web, nội dung có thư viện số bao gồm: văn có cấu trúc, văn phi cấu trúc, loại văn bản, bảng, liệu đa phương tiện, âm thanh, ảnh, Có thể khai phá nội dung từ thư viện kỹ thuật số thơng qua hình thức sau: - Sử dụng kỹ thuật tóm tắt văn để khai phá tóm tắt (abstract) từ file liệu Đây phần nội dung quan trọng trọng tâm tài liệu, phản ảnh nội dung tài liệu Tóm tắt văn kỹ thuật vơ hữu ích trình tìm hiểu xem liệu văn dài đáp ứng nhu cầu người sử dụng có nội dung đáng đọc để biết thêm thơng tin hay khơng Với văn lớn, kỹ thuật tóm tắt tài liệu thường thực tóm tắt thời gian người sử dụng tiến hành đọc đoạn Mục đích cốt lõi việc tóm tắt để giảm độ dài chi tiết tài liệu giữ điểm ý nghĩa tổng thể - Phân loại văn bản: Tự động phân loại văn sở tài liệu người dùng, kết phân loại phục vụ tìm kiếm khai thác người sử dụng Kết phân loại tiền đề để giải lớp toán phục vụ thao tác văn - Phân cụm kỹ thuật sử dụng để nhóm tài liệu tương tự tập 18 THÔNG TIN VÀ TƯ LIỆU - 3/2017 liệu vào cụm cho đối tượng cụm tương đồng Kết phân cụm giúp cho người sử dụng xác định tài liệu tương tự hay có nhóm nội dung - Dự đốn đánh giá tìm thông tin mới, định từ liệu có thơng qua q trình quan sát xử lý Kết dự đoán đưa hậu tình đó, xác định lỗi, định giá chúng từ sử dụng để phân tích đánh giá liệu Áp dụng kỹ thuật khai phá liệu cho thư viện số 4.1 Nâng cao tốc độ Nâng cao tốc độ hoạt động thư viện dịch vụ người dùng mục tiêu mà thư viện số hướng tới Nâng cao tốc độ nhằm đáp ứng thời gian truy cập thông tin cần thiết cho người sử dụng, đáp ứng khả trao đổi thông tin, truy xuất thông tin, khai thác dịch vụ cách hiệu 4.2 Nâng cấp chất lượng dịch vụ thông tin Sử dụng kỹ thuật để xây dựng thư viện phát triển theo hướng phần mềm thông minh, bao gồm dịch vụ truy vấn thông tin Cải tiến công cụ phục hồi truyền thống thân thiện, dễ hiểu tương tác theo kết Tìm kiếm thông tin thông minh không hỗ trợ việc thu hồi khái niệm, tìm kiếm mờ, kết hợp thu hồi phục hồi đa ngơn ngữ, mà cịn nhanh chóng sử dụng thuật tốn phân cụm, phân tích kết truy vấn, để thuận tiện cho việc lựa chọn người sử dụng, lúc xác định tìm kiếm thêm sở Ngồi ra, sử dụng thuật tốn mơ hình quan tâm đến đánh giá người sử dụng tiềm năng, thực phân tích thơng tin trực tuyến theo thời gian thực Trực tiếp phân tích liệu văn mối quan hệ chúng, để xác định kiến thức chưa biết hữu ích trình 4.3 Hỗ trợ định thư viện Mức độ quản lý thấp NGHIÊN CỨU - TRAO ĐỔI yếu tố ảnh hưởng đến phát triển thư viện Trước đây, việc đưa định thư viện chủ yếu dựa vào kinh nghiệm, điều chủ quan, chiều, thiếu thông tin, đáp ứng yêu cầu thời đại Công nghệ khai phá liệu cung cấp thơng tin bảo đảm cho việc định lãnh đạo quản lý thư viện, cụ thể: - Khai phá liệu lúc thu thập liệu nội thơng tin bên ngồi có liên quan đến hệ thống thông tin thư viện, sau xử lý, chuyển đổi, tạo thành thông tin tập trung, thống có sẵn, để tránh việc đưa định sai lầm thiếu thông tin - Sử dụng công cụ hệ thống OLAP kho liệu để so sánh với việc tích hợp liệu đa chiều, xem xét xác minh giả thiết định sách, để nâng cao tính khả thi độ tin cậy định, sử dụng hợp lý nguồn tài nguyên hạn chế, đồng thời tối ưu hóa phân bổ nguồn lực vào thư viện - Sử dụng công cụ khai phá liệu để tìm mơ hình tiềm ẩn từ liệu lịch sử dự báo tự động sở mơ hình 4.4 Cung cấp dịch vụ thông tin cá nhân Việc áp dụng công nghệ khai phá liệu làm cho dịch vụ thông tin thư viện hoạt động tốt hơn, giúp nâng cao hiệu dịch vụ thông tin thư viện Sử dụng công nghệ khai phá liệu CSDL duyệt web người dùng để tìm mơ hình sử dụng người sử dụng chủ động cung cấp dịch vụ cá nhân theo mơ hình quan tâm người dùng Những dịch vụ thông tin cần đáp ứng như: Thông báo cho người sử dụng cách kịp thời tìm thấy thơng tin thư mục liệu mới; Quảng bá thông tin có liên quan người dùng truy cập dựa vào mức độ quan tâm người dùng; Theo dõi nhu cầu người dùng, phát nhu cầu người sử dụng; Cung cấp báo cáo dự báo tương ứng, phân tích động lợi ích người sử dụng Các chức phản ánh trang đăng nhập người dùng, mục tiêu thư viện kỹ thuật số, tích hợp vào cổng thơng tin có liên quan đến thư viện kỹ thuật số, miễn người sử dụng tùy biến dịch vụ tương ứng, theo kết việc khai phá liệu, hệ thống nhắc nhở người dùng xem thông tin trang chủ cá nhân qua e-mail điện thoại di động thơng qua tin nhắn hình thức khác, giúp người sử dụng tự tạo khơng gian thơng tin 4.5 Tự động hóa xử lý thơng tin Từ xu hướng phát triển thư viện kỹ thuật số, nguồn lực bao gồm tài liệu giấy, sách điện tử, tạp chí điện tử, sở liệu đĩa CD, liệu đa phương tiện liệu Web, tất loại liệu mức độ tăng trưởng nhanh Vì vậy, yêu cầu tự động hóa việc xử lý thông tin ngày cấp bách, đặc biệt việc áp dụng công nghệ khai phá liệu trình xử lý tự động liệu văn Khai phá văn hay khai phá liệu văn gọi khám phá tri thức từ sở liệu văn Khai phá văn đề cập đến trình chiết xuất mẫu tri thức từ tài liệu văn Khai phá văn thực tự động hóa xử lý thông tin, thư viện kỹ thuật số mang lại hiệu cao khai thác tài nguyên văn phi cấu trúc để thực truy hồi văn bản, phân loại, tổng hợp, trả lời câu hỏi, phân tích tâm lý người dùng, mục tiêu khác 4.6 Hỗ trợ công việc khác Đối với phận cung cấp tài nguyên: Bộ phận sử dụng chức khai phá liệu để phân tích sử dụng nguồn kinh phí cách hiệu Làm để việc sử dụng nguồn kinh phí hạn chế dành cho việc mua sách- đảm bảo chất lượng tính hợp lý hệ thống tài ngun THƠNG TIN VÀ TƯ LIỆU - 3/2017 19 NGHIÊN CỨU - TRAO ĐỔI thơng tin thư viện Chính vậy, việc định vị xác nhu cầu độc giả yếu tố quan trọng để nâng cao tỷ lệ sử dụng nguồn lực Việc sử dụng phân nhóm khai phá liệu công nghệ phát độ lệch phương pháp câu hỏi độc giả cung cấp tảng cho việc phân tích phân nhóm, phân tích kết khảo sát, hiểu nhu cầu độc giả thông qua việc sử dụng sách, thông tin phản hồi độc giả, qua đưa định phù hợp cho công tác bổ sung nguồn tài liệu Đối với phận phục vụ: Sử dụng phương pháp phân tích kết hợp khai phá liệu để phân tích liệu mượn trả Những sách có số lượng giao dịch lớn dành vị trí ưu tiên Những người mượn thường xuyên sách bị hư hỏng cần phải có hình thức phản hồi nhanh chóng cho phận cung cấp tài nguyên để tăng số lượng thay đổi số lượng Ngoài hoạt động khác tự động hóa để đồng quản lý thư viện Kết luận Ngày nay, thư viện số có vai trị ý nghĩa vơ to lớn trường đại học nói chung tổ chức nói riêng Thư viện số hình thành ngày làm giá trị Khai phá liệu cung cấp hỗ trợ kỹ thuật cho tổ chức quản lý nguồn tài nguyên kỹ thuật số, thúc đẩy mở rộng chất lượng dịch vụ dịch vụ, lúc làm cho phương pháp nghiên cứu công nghệ khai phá liệu phát triển quy mơ lẫn chiều sâu Tuy nhiên, ngồi liệu văn lớn, thư viện số có số lượng lớn liệu đa phương tiện Vì vậy, làm để sử dụng cơng nghệ khai phá liệu cách hiệu để kích hoạt xử lý tính văn có kích thước lớn, mơ tả xác đặc tính thơng tin đa phương tiện, xác hóa quy trình thực khơng gian khái niệm, cải thiện tốc độ tất loại thông tin Trong tương lai, thư viện số chắn phát triển 20 THÔNG TIN VÀ TƯ LIỆU - 3/2017 nhanh chóng Cơng nghệ có từ khai phá tri thức ứng dụng tri thức thông minh phát huy tốt phát triển thư viện số Kỹ thuật khai phá liệu sử dụng nguồn thơng tin rộng lớn hoạt động khai phá thông minh, lựa chọn lớn cơng cụ khai phá thuật tốn, cá nhân hoá dịch vụ thư viện số trở thành phần thiếu xây dựng hỗ trợ kỹ thuật cho thư viện số _ TÀI LIỆU THAM KHẢO Oded Maimon, Lior Rokach (2010) Data Mining and Knowledge Discovery Handbook, Second Edition, Springer New York Dordrecht Heidelberg London, April 2010 Han, J.; Kamber, M (2006) Data Mining: Concepts and Techniques Morgan Kaufmann, Burlington, US Cios, K J.; Swiniarski, R W.; Pedrycz, W.; Kurgan, L A The Knowledge Discovery Process (2007) Data Mining: A Knowledge Discovery Approach Springer, New York, USA, 2007, p 9-24 Na, C Data Mining Research Status and Development Direction Computer and Information Technology, 2006 Rui, W., Tao, M., Chen, C (2007) Data Mining and Its Application Status Analysis Computer Application Technology Hui, L., Daiji, H (2006) Data mining technology development and its application Gansu Science and Technology Zhao, Z., Yan, F (2001) Commerce technology research and application of data mining study P.4 Hunan Economic Management Institute Xiaolan, F (2011) Data mining application in digital libraries Heihe Sciences Zhao, C.-Y (2007) Data mining technology and its application in University Library Beijing College of Political Science, 10 Shan, Z., Tingting, X (2010) Web-based data mining in e-commerce application Xiaogan University (Ngày Tòa soạn nhận bài: 4-2-2017; Ngày phản biện đánh giá: 1-3-2017; Ngày chấp nhận đăng: 28-4-2017)