Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	16
Dung lượng	379,87 KB

Nội dung

Bài viết mô tả các kỹ thuật khai phá dữ liệu, giới thiệu quy trình khai phá dữ liệu, nghiên cứu kỹ thuật phân cụm và luật kết hợp trong khai phá dữ liệu để phân tích dữ liệu người dùng, tạo ra hệ thống khuyến nghị nhằm nâng cao dịch vụ thư viện số.

ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ Nguyễn Thị Yên* Tóm tắt: Việc phát triển thư viện số trở thành xu hướng mạnh mẽ giới Việt Nam Làm để sử dụng tài nguyên cách hiệu để nâng cao chất lượng dịch vụ thư viện số vấn đề quan trọng Bài viết mô tả kỹ thuật khai phá liệu, giới thiệu quy trình khai phá liệu, nghiên cứu kỹ thuật phân cụm luật kết hợp khai phá liệu để phân tích liệu người dùng, tạo hệ thống khuyến nghị nhằm nâng cao dịch vụ thư viện số Các hồ sơ mượn sách thư viện kiểm tra phân cụm theo số đặc điểm độc giả, sử dụng quy tắc kết hợp làm kỹ thuật khai phá liệu để khám phá điểm tương đồng sở thích người dùng hành vi mượn sách, xây dựng dịch vụ giới thiệu cho người đọc để tìm kiếm sách từ Web chủ động tìm kiếm sách phù hợp cho người đọc Từ khóa: Khai phá liệu; Thư viện số; Phân cụm; Luật kết hợp GIỚI THIỆU Công nghệ ngày phát triển nhanh chóng, buộc người lĩnh vực xã hội phải thay đổi, thích ứng, có hoạt động thư viện Thư viện số đời để nâng cấp chất lượng dịch vụ thư viện truyền thống cách sử dụng tự động hóa thơng tin công nghệ mạng Tuy nhiên, ngày nguồn thông tin internet ngày đa dạng nguồn liệu thông tin thư viện số ngày tăng lên nhanh chóng * Thạc sĩ, Khoa Thơng tin Thư viện, Đại học Văn hóa Hà Nội ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ Trong nghiên cứu trước đây, hầu hết nhà nghiên cứu phân tích nội dung tài liệu số Sau đó, họ cố gắng khám phá mối quan hệ tài liệu, tài liệu người dùng Tuy nhiên, ngày có nhiều định dạng cho ấn phẩm kỹ thuật số âm thanh, video, hình ảnh, Trong trường hợp này, thật khó để phân tích từ khóa nội dung để tinh chỉnh thơng tin đề xuất cho người dùng Bài viết trình bày cách thiết lập hệ thống khuyến nghị dựa phương pháp khai phá liệu, quy tắc liên kết phân cụm áp dụng để khám phá độc giả thích ứng với sách Đầu tiên, hồ sơ mượn thư viện số nhóm lại theo số đặc điểm độc giả Cách tiếp cận đề xuất sử dụng tính phân cụm tự động Thuật toán phân cụm đàn kiến (Ant Colony Clustering Algorithm) để gom thành nhóm người dùng có đặc điểm giống Sau đó, dựa độ hỗ trợ tối thiểu độ tin cậy, liên kết đối tượng để tạo quy tắc đề xuất Các quy tắc liên kết đánh giá sách mượn độc giả cụm sử dụng làm sở giới thiệu sách tương tự Cuối cùng, hệ thống khuyến nghị trực tuyến tự động đề xuất Bài báo khơng trình bày cách xây dựng dịch vụ khuyến nghị cho người đọc tìm kiếm sách từ trang Web mà cịn chủ động tìm sách phù hợp cho người đọc TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 2.1 Khai phá liệu (KPDL) khám phá tri thức Khai phá liệu (Data mining) khái niệm bao hàm nhiều kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy kho liệu lưu trữ [1],[4] Khai phá liệu bước q trình khám phá tri thức sở liệu (Knowledge Discovery in Database - KDD), trình bao gồm bước sau:  Xác định vùng đối tượng (Determine area object): bước có ý nghĩa quan trọng cho việc rút tri thức hữu ích chọn 893 894 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM phương pháp KPDL thích hợp cho phù hợp với mục đích ứng dụng chất liệu  Chuẩn bị liệu (Data preparation): Giai đoạn chia thành bước: - Chọn lọc liệu (Data selection): Trong bước này, đơn giản loại bỏ số liệu dư thừa không liên quan trích chọn tập liệu cần khai phá từ tập liệu lớn (databases, data warehouses) - Tiền xử lý liệu (Data preprocessing): Là bước làm liệu (xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán, ), rút gọn liệu (sử dụng phương pháp thu gọn liệu, histograms, lấy mẫu, ), rời rạc hoá liệu (dựa vào histograms, entropy, phân khoảng,…) Phần lớn sở liệu nhiều mang tính khơng qn Vì gom liệu mắc số lỗi liệu không đầy đủ, chặt chẽ không lôgic (bị trùng lặp, giá trị bị sai lệch, ) Do cần phải “tiền xử lý” trước khai phá liệu không gây nên kết sai lệch nghiêm trọng - Chuyển đổi liệu (Data conversion): Trong giai đoạn này, liệu chuyển đổi dạng thuận tiện để tiến hành thuật toán khám phá liệu  Khai phá liệu (Data mining): Đây bước quan trọng tốn nhiều thời gian trình khám phá tri thức, áp dụng kỹ thuật khai phá (phần lớn kỹ thuật machine learning) để khai phá, trích chọn mẫu (pattern) thông tin, mối liên hệ đặc biệt liệu  Đánh giá biểu diễn tri thức (Knowledge representation & Evaluation): Dùng kỹ thuật hiển thị liệu để trình bày mẫu thơng tin (tri thức) mối liên hệ đặc biệt liệu khai phá bước biểu diễn theo dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật,… Đồng thời, bước đánh giá tri thức khai phá theo tiêu chí định ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ KPDL giai đoạn trình khám phá tri thức Về chất giai đoạn tìm thơng tin mới, thơng tin tiềm ẩn có sở liệu chủ yếu phục vụ cho mô tả dự đoán Dự đoán thực việc suy luận liệu để đưa dự báo nhằm phân tích tập liệu huấn luyện tạo mơ hình cho phép dự đốn mẫu, mơ hình chưa biết Mơ tả liệu tổng kết diễn tả đặc điểm chung thuộc tính liệu kho liệu mà người hiểu Q trình KPDL bao gồm bước sau:  Xác định nhiệm vụ: xác định xác vấn đề cần giải  Xác định liệu liên quan: dùng để xây dựng giải pháp  Thu thập tiền xử lý liệu: thu thập liệu liên quan tiền xử lý chúng cho thuật tốn KPDL hiểu Đây q trình khó khăn, gặp phải nhiều vướng mắc như: liệu phải nhiều (nếu chiết xuất vào tệp), quản lý tập liệu, phải lặp lặp lại tồn q trình (nếu mơ hình liệu thay đổi), …  Thuật toán KPDL: lựa chọn thuật tốn KPDL thực việc KPDL để tìm mẫu có ý nghĩa, mẫu biểu diễn dạng luật kết hợp, định, luật sản xuất, … tương ứng với ý nghĩa Đặc điểm mẫu phải (ít hệ thống đó) Độ đo tương ứng với độ thay đổi liệu (bằng cách so sánh giá trị với giá trị trước giá trị mong muốn), tri thức (mối liên hệ phương pháp tìm phương pháp cũ nào) Thường độ mẫu đánh giá hàm logic hàm đo độ mới, độ bất ngờ mẫu Ngồi ra, mẫu cịn phải có khả sử dụng tiềm tàng Các mẫu sau xử lý diễn giải phải dẫn đến hành động có ích đánh giá hàm lợi ích Mẫu khai thác phải có giá trị liệu với độ xác 895 896 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Hình Quá trình khai phá liệu Kỹ thuật KPDL thực chất phương pháp không hồn tồn Nó kế thừa, kết hợp mở rộng kỹ thuật nghiên cứu từ trước máy học, nhận dạng, thống kê (hồi quy, xếp loại, phân cụm), mô hình đồ thị, mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, v.v… Tuy nhiên, với kết hợp tài tình KPDL, kỹ thuật có ưu hẳn phương pháp trước đó, đem lại nhiều triển vọng việc ứng dụng phát triển nghiên cứu khoa học 2.2 Một số kỹ thuật khai phá liệu Hiện có nhiều kỹ thuật KPDL khác nhau, nhiên chúng phân thành nhóm chính:  Kỹ thuật KPDL dự đốn: Sử dụng số biến trường sở liệu để đốn giá trị khơng biết có biến ý khác, sử dụng dự đoán dựa vào suy diễn liệu Các kỹ thuật bao gồm: phân lớp (classification), hồi quy (regression), … Là trình xếp đối tượng vào lớp biết trước (VD: Phân lớp bệnh nhân theo liệu hồ sơ bệnh án, …) Kỹ thuật thường sử dụng số kỹ thuật học máy định (decision tree), mạng noron nhân tạo (neural network), …  Kỹ thuật KPDL mô tả: Tập trung vào việc tìm kiếm mẫu mà người hiểu để mô tả liệu, mô tả tính chất đặc tính chung liệu sở liệu có Các kỹ thuật bao gồm: phân ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ cụm (clustering), khái quát hóa (summerization), phát thay đổi độ lệch (Evolution and deviation analyst), mơ hình hóa phụ thuộc, phân tích luật kết hợp (Association Rule)… Phân cụm: mơ tả chung việc tìm tập xác định nhóm hay loại để mơ tả liệu Các nhóm tách riêng, phân cấp, chồng lên Khái qt hóa: bao gồm phương thức để tìm kiếm mô tả cho tập liệu Mơ hình hóa phụ thuộc: bao gồm việc tìm kiếm mơ hình để mơ tả phụ thuộc biến Các mơ hình phụ thuộc tồn có hai mức: mức cấu trúc mơ hình xác định biến phụ thuộc cục với nhau, mức định lượng mơ hình xác định phụ thuộc theo quy tắc Phát thay đổi độ lệch: tập trung vào khai thác thay đổi đáng kể liệu từ giá trị chuẩn đo trước Luật kết hợp: mô tả mối quan hệ kết hợp thuộc tính khác Bài báo nghiên cứu cách áp dụng luật kết hợp thuật toán phân cụm để trích xuất sở thích độc giả giới thiệu sách cho họ Những điều giải thích ngắn gọn sau: 2.2.1 Luật kết hợp (Association Rule - AR) Thuật toán Apriori đề xuất Agrawal Srikant (1994), thuật toán tiếng vùng khai phá luật kết hợp Trong lĩnh vực Data mining, mục đích luật kết hợp tìm mối quan hệ đối tượng khối lượng lớn liệu Nội dung luật kết hợp tóm tắt sau: Cho sở liệu gồm giao dịch T tập giao dịch t1, t2, …, tn T = {t1, t2, …, tn} T gọi sở liệu giao dịch (Transaction Database) Mỗi giao dịch ti bao gồm tập đối tượng I (gọi itemset) I = {i1, i2, …, im} Một itemset gồm k items gọi k-itemset 897 898 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Mục đích luật kết hợp tìm kết hợp (association) hay tương quan (correlation) items Những luật kết hợp có dạng X → Y Hai tiêu chí quan trọng việc đo lường luật kết hợp độ hỗ trợ (support) độ tin cậy (confidence) Cơng thức tính độ hỗ trợ độ tin cậy luật kết hợp X→Y [1]: Trong đó: n(X): Số giao dịch chứa X N: Tổng số giao dịch Các luật kết hợp có độ hỗ trợ độ tin cậy lớn độ hỗ trợ tối thiểu (min_sup) độ tin cậy tối thiểu (min_conf) gọi luật mạnh, min_sup min_conf gọi giá trị ngưỡng (threshold) xác định trước sinh luật kết hợp [1] 2.2.2 Phân cụm liệu (Clustering) Kỹ thuật phân cụm hoạt động cách xác định nhóm người dùng có sở thích giống phân chia nhóm có sở thích khác Phân cụm liệu qui trình tìm cách nhóm đối tượng cho vào cụm (clusters), cho đối tượng cụm giống (similar) tốt đối tượng khác cụm khác (dissimilar) tốt [5] Mục đích phân cụm tìm chất bên nhóm liệu Có nhiều kỹ thuật phân cụm, phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ Tuy nhiên, khơng có tiêu chí xem tốt để đánh giá hiệu phân tích phân cụm, điều phụ thuộc vào mục đích tốn phân cụm [5] Thuật tốn K-Means thường sử dụng để tiến hành phân cụm phân cụm cách nhanh chóng Tuy nhiên, Thuật ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ tốn K-Means có nhược điểm khó xác định số cụm mà khơng gian liệu có mà phù hợp cụm hình cầu, ngồi nhạy cảm với nhiễu mẫu cá biệt Bài viết trình bày kết hợp thuật toán tối ưu đàn kiến với phân cụm liệu để có giải pháp tối ưu hóa tồn cục Cách tiếp cận làm giảm bớt nhược điểm khiến Thuật toán K-Means dễ rơi vào tình khó xử giải pháp tối ưu hóa cục có sai sót [3] 2.3 Thuật tốn tối ưu đàn kiến (Ant Colony Optimization – ACO) ACO phương pháp nghiên cứu lấy cảm hứng từ việc mô hành vi đàn kiến tự nhiên nhằm mục tiêu giải toán tối ưu phức tạp Được giới thiệu lần vào năm 1991 A Colorni M Dorigo Trong tự nhiên, kiến thật có khả tìm đường ngắn từ nguồn thức ăn đến tổ chúng chúng giao tiếp với khác cách khai thác thông tin vết mùi (pheromone) Trên đường đi, kiến để lại chất hóa học pheromone gọi vết mùi dùng để đánh dấu đường Bằng cách cảm nhận vết mùi, kiến lần theo đường đến nguồn thức ăn kiến khác khám phá theo phương thức chọn ngẫu nhiên có định hướng theo nồng độ vết mùi để xác định đường ngắn từ tổ đến nguồn thức ăn Vết mùi bay dần theo thời gian, củng cố kiến khác tiếp tục đường lần Dần dần, kiến theo sau lựa chọn đường với lượng mùi dày đặc hơn, chúng làm gia tăng nồng độ mùi đường yêu thích Các đường với nồng độ mùi bị loại bỏ cuối cùng, tất đàn kiến kéo đường mà có khuynh hướng trở thành đường ngắn từ tổ đến nguồn thức ăn chúng (Dorigo Gambardella, 1996) Ý tưởng từ đàn kiến tự nhiên chuyển sang kiến nhân tạo Kiến nhân tạo có nhớ riêng, có khả ghi nhớ đỉnh thăm hành trình tính độ dài đường chọn Ngồi ra, kiến trao đổi thơng tin với nhau, thực tính tốn cần thiết, cập nhật mùi… 899 900 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Thuật tốn ACO tóm tắt sau: - Các dấu vết ảo tích lũy đoạn đường - Đường lựa chọn cách lựa chọn ngẫu nhiên dựa lượng dấu vết đoạn đường từ nút bắt đầu - Các kiến đến điểm tiếp theo, lựa chọn đường tiếp sau - Tiếp tục đến nút bắt đầu - Mỗi hành trình kết thúc giải pháp - Hành trình phân tích để tối ưu 2.4 Vấn đề sử dụng khai phá liệu thư viện số Trong nghiên cứu mình, Borgman cho thư viện số tập hợp tài nguyên kỹ thuật liên quan để tạo, tìm kiếm sử dụng thông tin [2] Do phổ biến thương mại điện tử xu hướng cá nhân hóa, kỹ thuật khai phá liệu sử dụng rộng rãi để phân tích hành vi người dùng Điều để xác định sở thích cá nhân cung cấp thông tin sản phẩm nhằm nâng cao mức tiêu thụ (Agrawal cộng sự, 1993) Áp dụng kỹ thuật khai phá liệu dịch vụ thư viện số coi xu hướng tự động lọc thơng tin hữu ích theo hồ sơ người dùng chức phân tích thống kê Ví dụ: lọc chủ đề phổ biến từ lịch sử mượn giúp thúc đẩy lưu thơng sách thư viện Thư viện số sử dụng khai phá liệu để phân tích thống kê cung cấp thông tin sách, báo, chủ đề dịch vụ cá nhân khác nhằm thúc đẩy lưu thông Thư viện số tương lai chắn phát triển nhanh chóng Việc áp dụng cơng nghệ khai phá liệu nguồn thông tin rộng lớn lựa chọn lớn công cụ khai phá tri thức thuật toán, cá nhân hoá dịch vụ thư viện số trở thành phần thiếu xây dựng hỗ trợ kỹ thuật cho thư viện số PHƯƠNG PHÁP LUẬN Khi người dùng truy cập thư viện số, họ thường nhập từ khóa thích hợp sử dụng chức “Tìm kiếm” để khám phá thơng tin ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ họ muốn Tuy nhiên, lúc kết tìm kiếm khiến người dùng hài lịng Trước đây, có số nghiên cứu tìm kiếm theo từ khóa Tuy nhiên, từ khóa cung cấp tác giả tài liệu (nhà xuất thủ thư) [8], không thiết phải phản ánh kỳ vọng ngữ nghĩa người dùng Do đó, có số nghiên cứu sâu cố gắng xây dựng số khuyến nghị cho người dùng để hỗ trợ tìm kiếm từ khóa Năm 1999, Luis dẫn đầu dự án có tên “Active Recommendation Project” (ARP) Phịng thí nghiệm Quốc gia Los Alamos Dự án phát triển nghiên cứu hệ thống khuyến nghị cho sở liệu lớn Web tồn giới (www), thích ứng với mong đợi người dùng [7] Tiếp sau có Heylighen Bollen (2002) đề xuất hệ thống khuyến nghị dựa thuật tốn Hebbian [6] Bài viết trình bày phương pháp xây dựng dịch vụ khuyến nghị thư viện số cách khai phá liệu hai giai đoạn thơng qua phân tích hành vi truy cập độc giả Trước tiến hành khai thác liệu, nguồn liệu (hồ sơ mượn thư viện) cần xử lý trước Tính đầy đủ liệu nguồn chìa khóa cho thành cơng việc khai phá liệu Các nhiệm vụ tiền xử lý liệu bao gồm làm liệu, tích hợp liệu chuyển đổi liệu Để đảm bảo mức độ tinh khiết liệu, cần phải xác định ngoại lệ làm mịn liệu nhiễu Sau liệu làm Giai đoạn đầu sử dụng thuật toán phân cụm đàn kiến làm phương pháp khai phá liệu tách người dùng thành số cụm tùy thuộc vào lịch sử truy cập họ Những người dùng có sở thích hành vi gom cụm Giai đoạn thứ hai, sử dụng luật kết hợp làm phương pháp khai phá liệu phát liên kết sở thích hành vi truy cập người dùng Sau đó, xây dựng quy tắc cho dịch vụ khuyến nghị Quá trình thể hình 901 902 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Hình 2: Quá trình KPDL hai giai đoạn Sau mô tả chi tiết phương pháp khai phá liệu: 3.1 Thuật toán phân cụm đàn kiến (Ant Colony Clustering Algorithm - ACCA) Các nguyên tắc thuật toán đơn giản: kiến được mơ tác nhân di chuyển ngẫu nhiên môi trường chúng, lưới vuông với điều kiện tuần hoàn Các mục liệu nằm rải rác mơi trường tác nhân nhặt, vận chuyển thả Các hoạt động nhặt thả bị sai lệch giống mật độ mục liệu khu vực lân cận kiến: kiến có khả nhặt mục liệu bị khác với liệu cịn lại chúng có xu hướng thả liệu vùng liệu tương tự lân cận Bằng cách này, việc phân nhóm xếp phần tử thu thập lưới Trong trình phân cụm dựa nguyên tắc tìm kiếm thức ăn kiến, liệu phân nhóm coi kiến có đặc tính khác trung tâm phân nhóm coi nguồn thức ăn cần tìm kiếm Do đó, q trình phân cụm liệu coi q trình kiến tìm kiếm nguồn thức ăn Trong chu trình tìm kiếm, kiến sẽ tính tốn xác suất chuyển tiếp (liên quan đến lượng thông tin đến tâm cụm) thơng tin heuristic để định vị trí chuyển tiếp ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ Ý tưởng: Bước khởi tạo tham số, nhóm kiến nhân tạo Mỗi kiến xây dựng cụm riêng Khi kiến đã hoàn thành cụm chúng, phương sai cụm(CVintra ) tính tốn Phần trăm nút xa chọn để nhóm lại thành cụm có khoảng cách đến tâm Ocenter(M) ngắn Nếu phương sai (CV’intra) nhỏ CVintra, nút cụm cập nhật gần giống so với cụm trước Trong áp dụng cụm mới, kiến cập nhật lượng pheromone hành trình (áp dụng quy tắc cập nhật cục bộ) Sau tất kiến đã tạo giải pháp, giải pháp tốt cập nhật cho toàn hệ thống (bằng cách áp dụng quy tắc cập nhật toàn cục) cho lần lặp Quá trình kết thúc sau lần lặp xác định trước Thuật toán phân cụm đàn kiến hồn chỉnh tóm tắt đây: Các ký hiệu: NC: số lượng cụm; M: tổng số kiến; Mk: tập hợp M thực kiến k; pk(r, s): xác suất mà kiến k chọn để di chuyển từ nút r tới nút s; τ(r, u): lượng pheromone cạnh (r, u); pk : giá trị trung bình pk(r, s) tập Mk ; η (r, u): hàm heuristic tính nghịch đảo khoảng cách nút r u; β: tham số cân nhắc tầm quan trọng tương đối pheromone; q: giá trị chọn ngẫu nhiên với xác suất đồng [0,1]; q0: tham số xác định tầm quan trọng tương đối khai thác so với thăm dò (0 q0 ≤ 1); S: biến ngẫu nhiên chọn theo pk(r,s) α: tham số bay pheromone cập nhật toàn cục (0 < α CVintra , sau kiến qua cạnh, lượng pheromone cạnh tăng lên, việc cập nhật vệt mùi cạnh áp dụng theo công thức: (3) Bước 5: cập nhật vệt mùi toàn cục, tất kiến xây dựng hành trình mình, vệt mùi tồn hệ thống cập nhật theo cơng thức: ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ 905 (4) Trong CV tổng CVintra nhỏ CVintra Bước Quá trình lặp lại thỏa mãn điều kiện cuối 3.2 Luật kết hợp Giai đoạn thứ hai phương pháp khai phá liệu tìm mẫu chung mối quan hệ cụm luật kết hợp Trước thực hiện, liệu phải tích hợp Bài báo trình bày cách sử dụng thuật tốn Apriori để khai phá luật kết hợp. Có hai bước để khai phá luật kết hợp: Bước 1: Tìm tất tập mục lớn (1) Độ hỗ trợ tập mục lớn phải lớn độ hỗ trợ tối thiểu người dùng xác định (2) Nếu có k mục tập lớn, gọi tập k mục lớn Bước 2: Sử dụng tập mục lớn tạo bước để tạo tất quy tắc kết hợp: (1) Tính độ tin cậy: (2) Nếu độ tin cậy quy tắc kết hợp lớn độ tin cậy tối thiểu người dùng xác định, hiệu Thuật tốn kết thúc khơng có tập hợp mục xây dựng cho vịng tiếp theo. Sau giới thiệu sách dựa vào quy tắc liên kết Kiến trúc hệ thống khuyến nghị hiển thị hình 906 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Độc giả Giao diện thư viện số Web server Database server Data mining server Giới thiệu sách Thư viện số Hình 3: Kiến trúc hệ thống khuyến nghị KẾT LUẬN Sự phát triển mạnh mẽ công nghệ thông tin làm cho chức dịch vụ cá nhân trở nên quan trọng trước Thư viện số hình thành ngày khẳng định giá trị quan, tổ chức Khai phá liệu cung cấp hỗ trợ kỹ thuật cho tổ chức quản lý nguồn tài nguyên kỹ thuật số, thúc đẩy mở rộng chất lượng dịch vụ, lúc làm cho phương pháp nghiên cứu công nghệ khai phá liệu phát triển quy mô lẫn chiều sâu Bài báo thảo luận cách ứng dụng công nghệ khai phá liệu để xây dựng dịch vụ khuyến nghị cho người dùng dựa sở thích người dùng Bằng cách sử dụng Thuật toán phân cụm đàn kiến quy tắc kết hợp để thiết kế quy trình khai phá liệu hai giai đoạn để tạo hệ thống khuyến nghị Bài báo khơng trình bày cách xây dựng chế giới thiệu cho người đọc việc tìm kiếm sách từ trang Web mà cịn chủ động tìm kiếm sách phù hợp cho độc giả Từ đó, nhà quản lý thư viện dự kiến sẽ mua sách cốt lõi hấp dẫn để đáp ứng yêu cầu độc giả với việc quảng bá dịch vụ thư viện số ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Đức Thuần (2013), Nhập môn khai phá liệu quản trị tri thức, NXB Thông tin Truyền thông, 2013 Tiếng Anh Borgman, C.L (1999), “What are digital libraries? Competing visions”, Information Processing & Management, Vol 35, pp 227-43 Chen, A.P and Chen, C.C (2006), “A new efficient approach for data clustering in electronic library using ant colony clustering algorithm”, The Electronic Library, Vol 24 No 4, pp 548-59 Guo, Yike., & Grossman, R.L (2002). High Performance Data Mining Scaling Algorithms, Applications and Systems (1st ed.) Springer US Han, Jiawei, & Kamber, Micheline (2006), Data mining : concepts and techniques (2nd ed.), Morgan Kaufmann, San Diego Heylighen, F and Bollen, J (2002), “Hebbian algorithms for a digital library recommendation system”, Proceedings of International Conference on Parallel Processing Workshops, Vancouver, pp 439-44 Rocha, L.M (1999), “TalkMine and the Adaptive Recommendation Project, Proceedings of the Association for Computing Machinery (ACM) – Digital Libraries”, University Of California, Berkeley, CA, pp 242-3 Rocha, L.M and Bollen, J (2001), “Biologically motivated distributed designs for adaptive knowledge management”, in Segel, L and Cohen, I (Eds), Design Principles for the Immune System and other Distributed Autonomous Systems, Santa Fe Institute Series in the Sciences of Complexity, Oxford University Press, Oxford, pp 305-34 907 ... nhà quản lý thư viện dự kiến sẽ mua sách cốt lõi hấp dẫn để đáp ứng yêu cầu độc giả với việc quảng bá dịch vụ thư viện số ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ TÀI LIỆU THAM... thư viện số PHƯƠNG PHÁP LUẬN Khi người dùng truy cập thư viện số, họ thư? ??ng nhập từ khóa thích hợp sử dụng chức “Tìm kiếm” để khám phá thơng tin ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN... tả liệu, mơ tả tính chất đặc tính chung liệu sở liệu có Các kỹ thuật bao gồm: phân ỨNG DỤNG KHAI PHÁ DỮ LIỆU NÂNG CAO DỊCH VỤ THƯ VIỆN SỐ cụm (clustering), khái quát hóa (summerization), phát

Ngày đăng: 21/04/2021, 10:17