Còn các ph ươ ng pháp.[r]
(1)ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ DỮ LIỆU WEB
Đỗ Quang Khơi1
Tóm tắt: World Wide Web kho liệu khổng lồ, việc khai phá Web
để khám phá thơng tin, tri thức hữu ích mang ý nghĩa quan trọng Với mục đích đó, báo trình bày tổng quan khai phá liệu Web, hướng tiếp cận phân cụm tài liệu Web Qua đó, báo giới thiệu mơ hình tiếp cận phân cụm tài liệu Web kỹ thuật phân cụm liệu mờ trình bày cụ thể trình tìm kiếm và phân cụm tài liệu Web kỹ thuật phân cụm liệu mờ với thuật toán Fuzzy C-Means
1 Giới thiệu
Các phương pháp phân tích liệu truyền thống (dữ liệu rõ) tập trung phân tích tập liệu ban đầu thành cụm liệu có tính tự nhiên đối tượng liệu thuộc cụm liệu, phương pháp phù hợp với việc khám phá cụm có mật độ cao rời nhau, với đường biên cụm xác định tốt Tuy nhiên, thực tế, đường biên cụm mờ, cụm chồng lên nhau, nghĩa số đối tượng liệu thuộc nhiều cụm khác Do đó, phương pháp phân cụm truyền thống khơng mơ tả liệu thực Vì vậy, người ta
đã áp dụng lý thuyết tập mờ phân cụm liệu (PCDL) để giải cho trường hợp Cách thức kết hợp gọi PCDL mờ (gọi tắt phân cụm mờ)
Hơn nữa, World Wide Web (WWW) kho thông tin khổng lồ với tiềm
được coi khơng có giới hạn Để đáp ứng phần nhu cầu tìm kiếm sử dụng nguồn tri thức này, người ta xây dựng cơng cụ tìm kiếm xử lý thông tin cách áp dụng kỹ thuật khai phá liệu (KPDL) khai phá tài nguyên Web Trong đó, PCDL Web tốn điển hình khai phá tài ngun Web
Hiện có số thuật tốn PCDL sử dụng phân cụm tài liệu
các thuật toán phân cụm phân hoạch, thuật toán phân cụm phân cấp,… Tuy nhiên, thực tế nội dung trang Web thuộc vào nhiều nhóm chủ đề khác Vì vậy, phân cụm theo nội dung trang Web với hướng tiếp cận truyền thống tỏ nhiều hạn chế Để giải vấn đề này, hướng nghiên cứu áp dụng kỹ thuật PCDL theo cách tiếp cận mờ KPDL Web
Bài báo xem xét khía cạnh sử dụng kỹ thuật phân cụm liệu mờ KPDL Web thực nghiệm chương trình ứng dụng thực tìm kiếm Web sau phân cụm kết tìm kiếm hai kỹ thuật phân cụm: phân cụm rõ với thuật toán k-means phân cụm mờ với thuật toán Fuzzy C-Means (FCM)
(2)
2 Tổng quan khai phá liệu Web
Với phát triển nhanh chóng Internet, thông tin WWW trở thành kho liệu khổng lồ hầu hết lĩnh vực kinh tế, xã hội, trị, giáo dục, khoa học, WWW chứa sưu tập thông tin phong phú đa dạng nội dung trang web với cấu trúc siêu văn đa phương tiện, thông tin siêu liên kết, truy cập sử dụng thông tin, cung cấp nguồn liệu đồ sộ cho KPDL
Hình Phân loại KPDL Web
Có nhiều khái niệm khác KPDL Web Tuy nhiên, theo [6], [8], ta có khái niệm tổng quát sau: KPDL Web việc sử dụng kỹ thuật KPDL để khám phá thông tin, tri thức hữu ích từ cấu trúc siêu liên kết, nội dung trang web liệu sử dụng Dựa kiểu liệu sử dụng q trình khai phá, KPDL Web có thểđược phân thành ba loại: khai phá nội dung, khai phá cấu trúc khai phá theo sử dụng [8]
• Khai phá nội dung Web:
Khai phá nội dung Web nhằm trích lọc khai thác thơng tin hữu ích, tri thức từ nội dung trang Khai phá nội dung Web có thểđược phân biệt hai cách tiếp cận: tiếp cận dựa hành động tiếp cận dựa CSDL Cách tiếp cận thứ nhằm mục đích cải thiện việc tìm kiếm trích lọc thông tin Cách tiếp cận thứ hai nhằm mục
đích mơ hình hóa liệu Web thành dạng có cấu trúc để áp dụng vào truy vấn CSDL ứng dụng KPDL
• Khai phá cấu trúc Web:
Khai phá cấu trúc Web nhằm phát tri thức hữu ích từ siêu liên kết, siêu liên kết đặc trưng cho cấu trúc Web Ví dụ, từ liên kết, khám phá trang web quan trọng, chúng kỹ thuật quan trọng
được sử dụng máy tìm kiếm KPDL truyền thống khơng thực
(3)• Khai phá theo sử dụng Web:
Khai phá theo sử dụng Web đề cập đến khám phá mẫu truy cập người dùng từ ghi sử dụng Web (Web log records) Phân tích q trình đăng nhập Web người dùng giúp cho việc xây dựng dịch vụ Web theo yêu cầu
đối với người dùng riêng lẻ tốt Một vấn đề quan trọng khai phá theo sử dụng Web tiền xử lý luồng liệu nhấp chuột ghi sử dụng nhằm đem lại liệu đắn để khai phá
3 Các hướng tiếp cận phân cụm tài liệu Web
Có nhiều phương pháp tiếp cận phân cụm tài liệu Web đề xuất Mỗi hướng tiếp cận theo cách khác nhau, như: kiểu liệu thuộc tính; độ đo tương tự, Dựa đặc trưng hay thuộc tính tài liệu, hướng tiếp cận thuật toán phân cụm tài liệu Web chia làm loại sau [9]:
• Phân cụm dựa văn bản:
Hướng tiếp cận phân cụm tài liệu Web dựa văn đặc tả tài liệu theo nội dung nó, tức từ (hoặc đoạn văn bản) chứa Ý tưởng hướng tiếp cận hai tài liệu có chứa nhiều từ chung với có khả
năng hai tài liệu giống
Các kỹ thuật phân cụm tài liệu Web dựa văn như: phân cụm phân hoạch, phân cụm phân cấp, phân cụm mờ, phân cụm dựa vào mạng nơron, phân cụm dựa vào xác suất,
• Phân cụm dựa liên kết:
Các phương pháp phân cụm dựa văn phát triển để sử dụng tài liệu tĩnh, đồng nhỏ Ngược lại, WWW tập khổng lồ trang web
đồng liên kết với Hơn nữa, trang web lại có thêm thơng tin
được đính kèm theo lại hữu ích cho trình phân cụm, như: siêu liệu, siêu liên kết
Ý tưởng hướng tiếp cận hai tài liệu kết nối thơng qua liên kết có mối quan hệ mặt ngữ nghĩa chúng sở cho việc phân hoạch tài liệu cụm
Hai thuật toán tiêu biểu phát triển dựa theo hướng tiếp cận là: thuật toán PageRank (S Brin đồng nghiệp, 1998) thuật tốn HITS (J M Kleinberg, 1998) Trong đó, thuật tốn PageRank lập mục cho liên kết website xác định giá trị liên kết trang web (gọi PageRank) Dựa vào PageRank này, thuật toán xác định thứ tự xếp trang kết tìm kiếm Trong
đó, thuật toán HITS xếp thứ hạng tài liệu dựa thơng tin liên kết tập tài liệu • Phân cụm lai ghép:
(4)phân cụm tài liệu Web dựa văn đặc tả tài liệu từ chứa Mặc dù liên kết dẫn đến trang khác từ trang khơng có mục đích giống trang Các thuật tốn phân cụm cho kết có hiệu khơng cao mật độ cấu trúc liên kết thu nhiều q Cịn thuật tốn phân cụm dựa văn lại có vấn đề tiếp cận với ngôn ngữ khác hay với đặc thù ngơn ngữ, ví dụ như: từ đồng nghĩa, từ trái nghĩa, Mặt khác, thông tin trang web khơng chỉở dạng văn mà cịn hình ảnh, âm thanh, hay đa phương tiện
Chính lý trên, phương pháp phân cụm lai ghép hai phương pháp đề xuất để kết hợp ưu điểm hạn chế nhược điểm cho Các thuật toán phát triển theo hướng tiếp cận là: thuật toán Phân cụm nội dung-liên kết (Weiss đồng nghiệp, 1996), Toric k-means (Modha & Spangler, 2000),
Tóm lại, việc lựa chọn phương pháp phân cụm tài liệu Web tốt vấn đề không dễ dàng, trước hết, phương pháp có ưu nhược điểm riêng Thứ hai, hiệu phương pháp phụ thuộc vào tập liệu cụ thể
và lĩnh vực ứng dụng
4 Kỹ thuật PCDL mờ phân cụm kết tìm kiếm Web 4.1 Hướng tiếp cận
Việc phân cụm tài liệu Web nhằm phân trang Web có mức độ quan trọng tương đương cụm Có nhiều phương pháp để đánh giá mức độ quan trọng trang Web, có phương pháp dựa vào liên kết trang để xác định trọng số cho trang Các thuật toán PageRank, HITS, dựa phương pháp Một cách tiếp cận khác đểđánh giá mức độ quan trọng dựa vào nội dung trang Web để xác định trọng số, trang Web có nội dung tương tự có mức
độ quan trọng tương đương thuộc cụm
(5)Sử dụng kỹ thuật phân cụm mờ để phân tập trang Web với liệu chuẩn hóa truy vấn từ liệu Web thành c cụm cho trang Web cụm tương tự nội dung, trang Web cụm khác không tương tự Dựa vào đặc trưng trang Web, kỹ thuật phân cụm mờ xác định
độ thuộc trang Web vào cụm trọng tâm cụm để thực q trình phân cụm kết tìm kiếm Mơ hình tiếp cận Hình trình tìm kiếm phân cụm kết sẽđược trình bày cụ thể mục dây
4.2 Kỹ thuật phân cụm kết quả tìm kiếm
4.2.1 Mơ hình biểu diễn tài liệu Web
Hầu hết thuật toán phân cụm yêu cầu tập liệu cần phân cụm
dạng tập véctơ xj = {xj1, xj2, …, xjm} không gian m chiều Mỗi tài liệu j
được mô tả véctơxj – gọi véctơđặc trưng (feature vector) phần tử
véctơđặc trưng tương ứng với từ tập tài liệu Việc tách lọc đặc trưng cần thiết thông qua véctơđặc trưng phụ thuộc nhiều vào lĩnh vực Số chiều véctơ đặc trưng nhân tố chủ chốt thời gian chạy thuật tốn nhưđộ lớn
Trong phân cụm tài liệu Web, hầu hết kỹ thuật phân cụm thường sử dụng mơ hình khơng gian véctơ (vector space) để biểu diễn đối tượng liệu Mỗi trang Web
được biểu diễn véctơ pj = {tfj1, tfj2, …, tfjn} tfjk (k = 1, …, n) tần
suất xuất (TF-Term Frequency) từtk trang Web pj Để biểu diễn tất
các trang Web với tập từ cần tách tất từ tìm tổng trang Web sử dụng chúng véctơđặc trưng Theo mơ hình TF trọng sốwjk
từtk trang Web pj xác định theo công thức sau [10]: wjk = tf jk
hoặc wjk = + log(tfjk)
Ngoài mơ hình TF, đối tượng liệu biểu diễn dựa mơ hình nghịch đảo tần suất xuất (IDF-Inverse Document Frequency) Theo [10], nghịch
đảo tần suất xuất từ tk trang trang Web pj định nghĩa idfjk =
log(n/hk) Trong đó, n tổng số trang Web hk số lượng trang Web có chứa từtk
Một mơ hình biểu diễn liệu khác thường sử dụng phân cụm tài liệu Web mơ hình kết hợp TF-IDF Với mơ hình này, trọng số wjk từ tk
trong trang Web pjđược định nghĩa sau [10]: x
jk jk jk
w =tf idf (4.1)
Trong đó:
tfjk: tần suất xuất từtk trang Web pj;
idfjk = log(n/hk) nghịch đảo tần suất xuất từtk trang Web pj;
n: tổng số trang Web tập trang Web C;
hk: số lượng trang Web có chứa từtk
(6)Về bản, trình tìm kiếm phân cụm kết tìm kiếm kỹ thuật phân cụm mờ diễn theo bước sau [9]:
i Tìm kiếm dữ liệu Web:
Nhiệm vụ chủ yếu giai đoạn dựa vào từ khóa tìm kiếm để tìm kiếm trả tập trang Web bao gồm nội dung, tiêu đề, mơ tả tóm tắt, URL,… tương
ứng với trang
ii. Tiền xử lý dữ liệu:
Đây giai đoạn vô quan trọng, ảnh hưởng lớn đến trình thực phân cụm Nhiệm vụ giai đoạn làm giảm số từ tài liệu, có tác dụng làm giảm độ phức tạp tính tốn giai đoạn sau nâng cao hiệu
cho giai đoạn Đây trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp
Giai đoạn bao gồm cơng việc sau:
Chuẩn hóa văn bản: chuyển văn thô dạng văn cho việc xử lý sau dễ dàng, đơn giản, thuật tiện, xác so với việc xử lý trực tiếp văn thơ mà ảnh hưởng đến kết xử lý, như: xóa thẻ HTML loại thẻ khác để
trích từ/cụm từ; Chuyển ký tự hoa thành ký tự thường; Xóa bỏ dấu câu, xoá ký tự trắng dư thừa,
Loại bỏ stop-words: stop-words từ mà xuất nhiều kết
nhưng khơng giúp ích việc phân biệt nội dung tài liệu Ví dụ: Trong tiếng Việt từ “thì”, “mà”, “và”, “hoặc”, ; tiếng Anh từ “a”, “an”, “the”, “of”, “to”, “on”, “by”, ; Vì đặc điểm stop-words nên chúng loại bỏ mà không ảnh hưởng đến giai đoạn sau
Chuyển đổi từ gốc: loại bỏ tiền tố hậu tố từđể biến đổi thành từ gốc Vì thực tế từ gốc có nhiều hình thái biến đổi, chẳng hạn nhưđộng từ, danh từ, tính từ, trạng từ; chúng có mối quan hệ ngữ nghĩa Ví dụ từ: “clusters”, “clustering”, “clustered” có mối quan hệ với từ “cluster”
iii.Xây dựng từđiển:
Từđiển bao gồm từ riêng biệt tập trang Web từ kết truy vấn Từ điển bảng bao gồm từ, số từđiển xếp theo thứ
tự Theo [5], [7], [10] từđiển xây dựng với 500 phần tử sau chuẩn hóa phù hợp
iv.Tạo ma trận tài liệu:
Ma trận tài liệu Tđược tạo cách đếm số lần xuất từ từti
mỗi trang Web pj
v.Véctơ hóa tài liệu:
Giai đoạn tính tf idf, xác định trọng sốW theo công thức (4.1) cho tất từ trang Web véc tơ hóa tất trang Web
(7)1 ( ) ; ( ) n m ik k k i n m ik k u x
v i c
u = = =∑ ≤ ≤ ∑ 1
; ;1
ik
m c
ik j jk
u k n i c
d d − = = ≤ ≤ ≤ ≤ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ∑ Tư tưởng thuật toán:
Thuật toán FCM thực phân cụm chuỗi phép lặp công thức [4]: (4.2), và:
(4.3)
để tối ưu phân hoạch mờ tập liệu dựa việc tính tốn độ tương tự có trọng số đối tượng xk trọng tâm cụm i Sau vịng lặp, thuật tốn tính tốn
cập nhật lại phần tử ujk ma trận phân hoạch U Thuật toán dừng lại (k 1) k
ij ij
u + −u <ξ, ξ∈ [0, 1] ngưỡng kết thúc cho trước
Phát biểu toán:
Input: số cụm c; tham số mờm∈ [1, ∞), số vòng lặp tối đa Kmax ngưỡng kết thúc ξ∈ [0, 1]
Output: c cụm liệu cho hàm tiêu chuẩn [4]:
1
( , ) n c ( )m ( , )
m ik k i
k i
J U V u d x v
= =
=∑∑ đạt giá trị cực tiểu
Thuật toán [4]:
1. Khởi tạo ma trận U = [uij], chọn ma trận ban đầu U(0) Mfc;
Tại bước k, k = 0, 1, , Kmax:
2. Cập nhật trọng tâm cụm vi( )k , i = 1, 2, , c theo công thức (4.2);
3. Cập nhật ma trận thành viên (độ thuộc) U(k+1) =[uik(k+1)] theo công thức (4.3);
4. Nếu U(k+1) −U( )k <ξ
thực bước 5; ngược lại, đặt U(k) = U(k+1), quay lại bước 2;
5. Đưa cụm kết
Thuật tốn FCM phân cụm kết quả tìm kiếm trang Web:
1 Khởi tạo ngẫu nhiên ma trận độ thuộc ban đầu U(0) = [uij], với uij độ thuộc