Áp dụng kỹ thuật phân cụm liệu phân cụm kết tìm kiếm The Application of data clustering technique in the result classification data searching Vũ Đức Thi1, Hoàng Văn Dũng2 Abstract Nowadays, searching information with big data is one of main subjects for data mining In this paper we would like to introduce an approach to search and classify web documents by using data clustering technique, we solve the mathematical problem according to three main phases: search Web documents, data preprocessing, presenting data with vector models and cluster web documents Từ khóa: data mining, phân cụm liệu, phân cụm Web… Giới thiệu Ngày nay, nhờ cải tiến không ngừng Search engine chức tìm kiếm lẫn giao diện giúp cho người sử dụng dễ dàng việc tìm kiếm thông tin web Tuy nhiên, người sử dụng thường phải duyệt qua hàng trăm chí hàng ngàn trang Web tìm kiếm thứ mà họ cần Theo tâm lý chung, người dùng xem qua vài chục kết đầu tiên, họ thiếu kiên nhẫn không đủ thời gian để xem qua tất kết mà search engine trả Nhằm giải vấn đề này, ta nhóm kết tìm kiếm thành nhóm theo chủ đề, người dùng bỏ qua nhóm mà họ khơng quan tâm để tìm đến nhóm chủ đề quan tâm Điều giúp cho người dùng thực cơng việc tìm kiếm cách hiệu Tuy nhiên vấn đề phân cụm tài liệu Web chọn chủ đề thích hợp để mơ tả nội dung trang vấn đề không đơn giản Trong báo này, ta xem xét khía cạnh sử dụng kỹ thuật phân cụm để phân nhóm tài liệu Web dựa kho liệu tìm kiếm lưu trữ Viện CNTT, Viện Khoa học - Công nghệ Việt Nam Trường ĐH Quảng Bình LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hướng tiếp cận kỹ thuật phân cụm Hiện nay, để xác định mức độ quan trọng trang web có nhiều cách đánh PageRank, HITS, …Tuy nhiên, phương pháp đánh giá chủ yếu dựa vào liên kết để xác định trọng số cho trang Ta tiếp cận cách đánh giá mức độ quan trọng theo hướng khác dựa vào nội dung tài liệu để xác định trọng số cho trang, tài liệu "tương tự" mặt nội dung có mức độ quan trọng tương đương thuộc nhóm Giả sử S tập trang web xem xét, tìm tập S trang chứa nội dung truy vấn ta tập R Sử dụng thuật toán phân cụm để phân tập R thành k cụm (k xác định) cho phần tử cụm “tương tự” phần tử cụm khác “phi tương tự” với Từ tập S-R, ta tìm cách đưa phần tử vào k cụm thiết lập Những phần tử “tương tự” với trọng tâm cụm (theo ngưỡng xác định đó) đưa vào cụm này, phần tử không thỏa mãn xem không phù hợp với truy vấn loại bỏ khỏi tập kết Kế tiếp, ta đánh trọng số cho cụm trang tập kết theo thuật toán sau: Đầu vào: tập liệu D chứa trang gồm k cụm k trọng tâm Đầu ra: trọng số trang Phương pháp B1: Mỗi cụm liệu thứ m trọng tâm Cm ta gán cho trọng số tsm Với trọng tâm Ci, Cj ta có tsi>tsj ti tương tự với truy vấn tj B2: Với trang p cụm m ta xác định trọng số trang pw Với pi, pj ta ln có pwi>pwj pi gần trọng tâm pj Hình Thuật tốn đánh trọng số cụm trang Như vậy, theo cách tiếp cận giải vấn đề sau: + Kết tìm kiếm phân thành cụm theo chủ đề khác nhau, tùy vào yêu cầu cụ thể người dùng xác định chủ đề mà họ cần để tìm kiếm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com + Quá trình tìm kiếm xác định trọng số cho trang chủ yếu tập trung vào nội dung trang dựa vào liên kết trang + Giải vấn đề từ/cụm từ đồng nghĩa truy vấn + Có thể kết hợp phương pháp phân cụm lĩnh vực khai phá liệu với phương pháp tìm kiếm có nhằm nâng cao chất lượng tìm kiếm Hiện tại, có số thuật tốn phân cụm liệu thường sử dụng phân cụm văn thuật toán phân cụm phân hoạch (k-means, PAM, CLARA), thuật toán phân cụm phân cấp (BIRCH, STC), Trong thực tế phân cụm theo nội dung tài liệu Web, tài liệu thuộc vào nhiều nhóm chủ đề khác Để giải vấn đề ta sử dụng thuật toán phân cụm theo cách tiếp cận mờ Quá trình tìm kiếm phân cụm tài liệu Về bản, trình phân cụm kết tìm kiếm diễn theo bước thể Hình [14]: - Tìm kiếm trang Web từ Website thỏa mãn nội dung truy vấn - Trích rút thơng tin mơ tả từ trang lưu trữ với URL tương ứng - Sử dụng kỹ thuật phân cụm liệu để phân cụm tự động trang Web thành cụm, cho trang cụm “tương tự” nội dung với trang cụm Dữ liệu web Biểu diễn kết Tìm kiếm trích rút liệu Tiền xử lý Phân cụm xác định trọng số trang Biểu diễn liệu Hình Các bước phân cụm kết tìm kiếm Web LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.1 Tìm kiếm liệu Web Nhiệm vụ chủ yếu giai đoạn dựa vào tập từ khóa tìm kiếm để tìm kiếm trả tập gồm tồn văn tài liệu, tiêu đề, mơ tả tóm tắt, URL,… tương ứng với trang Nhằm nâng cao tốc độ xử lý, ta tiến hành tìm kiếm lưu trữ tài liệu kho liệu để sử dụng cho trình tìm kiếm lần sau (tương tự Search Engine Yahoo, Google,…) Mỗi phần tử gồm tồn văn tài liệu, tiêu đề, đoạn mơ tả nội dung, URL,… 3.2 Tiền xử lý liệu Quá trình làm liệu chuyển dịch tài liệu thành dạng biểu diễn liệu thích hợp cho trình xử lý Giai đoạn bao gồm cơng việc sau: Chuẩn hóa văn bản, xóa bỏ từ dừng, kết hợp từ có từ gốc, 3.2.1 Chuẩn hóa văn Đây giai đoạn chuyển văn thô dạng văn cho việc xử lý sau dễ dàng, đơn giản, thuật tiện, xác so với việc xử lý trực tiếp văn thô mà ảnh hưởng đến kết xử lý Bao gồm: + Xóa thẻ HTML loại thẻ khác để dễ dàng trích từ/cụm từ phục vụ cho trình biểu diễn + Chuyển ký tự hoa thành ký tự thường + Xóa bỏ dấu câu, xoá ký tự trắng dư thừa, tab, ký tự xuống dịng, 3.2.2 Xóa bỏ từ dừng Trong văn có từ mang thơng tin q trình xử lý, từ có tần số xuất thấp, từ xuất với tần số lớn khơng quan trọng cho q trình xử lý loại bỏ Theo số nghiên cứu gần [2] cho thấy việc loại bỏ từ dừng giảm khoảng 20-30% tổng số từ văn Có nhiều từ xuất với tần số lớn khơng hữu ích cho q trình xử lý Ví dụ tiếng Anh từ a, an, the, of, and, to, on, by, tiếng Việt từ “thì”, “mà”, “là”, “và”, “hoặc”, từ xuất với tần số lớn loại bỏ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Để đơn giản ứng dụng thực tế, ta tổ chức thành danh sách từ dừng để xố bỏ sử dụng định luật Zipf để xóa bỏ từ có tần số xuất thấp cao 3.2.3 Kết hợp từ có gốc Hầu hết ngơn ngữ có nhiều từ có chung nguồn gốc với nhau, chúng mang ý nghĩa tương tự Để giảm bởt số chiều biểu diễn văn bản, ta kết hợp từ có gốc thành từ Theo số nghiên cứu[2] việc kết hợp giảm khoảng 40-50% kích thước chiều biểu diễn văn Ví dụ tiếng Anh từ user, users, used, using có từ gốc quy use; từ engineering, engineered, engineer có từ gốc quy engineer Ví dụ xử lý từ gốc tiếng Anh: - Nếu từ kết thúc “ing” xóa “ing”, ngoại trừ trường hợp sau xóa lại ký tự lại “th” - Nếu từ kết thúc “ies” “eies” “aies” thay “ies” “y” - Nếu từ kết thúc “es” bỏ “s” - Nếu từ kết thúc "s" đứng trước phụ âm khác “s” xóa “s” - Nếu từ kết thúc “ed”, trước phụ âm xóa “ed” ngoại trừ sau xóa từ cịn lại ký tự, đứng trước nguyên âm “i” đổi “ied” thành “y” 3.3 Biểu diễn tài liệu Đây giai đoạn số hoá đưa văn dạng thuận lợi cho trình xử lý, ta sử dụng mơ hình vector để biểu diễn tài liệu 3.3.1 Xây dựng từ điển Việc xây dựng từ điển quan trọng trình vector hóa văn bản, từ điển gồm từ/cụm từ riêng biệt toàn tập tài liệu Có thể tổ chức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com lưu trữ từ điển bảng hai chiều gồm từ/cụm từ với số từ điển xếp theo thứ tự Một số báo đề xuất [14] để nâng cao chất lượng phân cụm liệu cần xem xét đến việc xử lý cụm từ ngữ cảnh khác Theo đề xuất Zemir [10][14] nên xây dựng từ điển có 500 phần tử phù hợp 3.3.2 Tách từ Tách từ công việc quan trọng biểu diễn văn bản, trình tách từ, vector hóa tài liệu q trình tìm kiếm từ thay số từ từ điển 3.3.3 Vector hố văn Ở ta sử dụng mơ hình tốn học TF, IDF, TFIDF, để biểu diễn văn Chúng ta sử dụng mảng W (trọng số) hai chiều có kích thước m x n, với n số tài liệu, m số thuật ngữ từ điển (số chiều), hàng thứ j vector biểu diễn tài liệu thứ j sở liệu, cột thứ i thuật ngữ thứ i từ điển Wij giá trị trọng số thuật ngữ i tài liệu j Giai đoạn thực thống kê tần số thuật ngữ ti xuất tài liệu dj số tài liệu chứa ti Từ xây dựng bảng trọng số ma trận W theo công thức sau: Cơng thức tính trọng số theo mơ hình IF-IDF: Wij= tf ij idf ij [1 log( tf ij )] log( n ) hi ti dj ngược lại (ti dj) Trong đó: tfij tần số xuất ti tài liệu dj idfij tần số văn nghịch đảo thuật ngữ ti hi số tài liệu mà ti xuất n tổng số tài liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4 Phân cụm tài liệu Sau tìm kiếm, trích rút liệu, tiền xử lý biểu diễn văn ta sử dụng kỹ thuật phân cụm để phân cụm tài liệu Đầu vào: Tập gồm n tài liệu k cụm Đầu ra: Các cụm Ci (i=1, ,k) cho hàm tiêu chuẩn đạt giá trị cực tiểu Phương pháp B1 Khởi tạo ngẫu nhiên k vector làm đối tượng trọng tâm k cụm B2 Với tài liệu dj xác định độ tương tự trọng tâm cụm theo độ đo tương tự thường dùng (như Dice, Jaccard, Cosine, Overlap, Euclidean, Manhattan) Xác định trọng tâm tương tự cho tài liệu đưa tài liệu vào cụm B3 Cập nhận lại đối tượng trọng tâm Đối với cụm ta xác định lại trọng tâm cách xác định trung bình cộng vector tài liệu cụm B4 Lặp lại bước trọng tâm không thay đổi Hình Thuật tốn k-means phân cụm nội dung tài liệu Web Trong thuật toán k-means, chất lượng phân cụm đánh giá thông qua k hàm tiêu chuẩn E x i 1 ( x m ) , x vector biểu diễn tài CD i i liệu, mi trọng tâm cụm, k số cụm, Ci cụm thứ i Độ phức tạp thuật toán k-means O((n.k.d).r) Trong đó: n số đối tượng liệu, k số cụm liệu, d số chiều, r số vòng lặp Sau phân cụm xong tài liệu, trả kết cụm liệu trọng tâm tương ứng 3.5 Biểu diễn kết Sau phân cụm xong, ta sử dụng thuật toán phần để xác định trọng số cho cụm trang cụm Sau tiến hành biểu diễn trực quan hố kết gần gũi với người dùng, cụm có trọng số lớn xếp trước; cụm, trang có trọng số lớn xếp trước dãy kết trả Trong giai đoạn bao gồm công việc xác định chủ đề cho cụm, chủ đề phải mô tả nội dung trang cụm (vấn đề trình bày sau) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thực nghiệm + Dữ liệu thực nghiệm trang Web lấy từ nguồn sau: - Các trang lấy tự động từ Website Internet, việc tìm kiếm thực cách sử dụng Yahoo để tìm kiếm tự động, chương trình dựa vào URL để lấy tồn văn tài liệu lưu trữ lại phục vụ cho trình tìm kiếm sau (dưa liệu gồm 4000 chủ đề “data mining”, “web mining”, “Cluster algorithm”, “Sport”) - Tìm kiếm có chọn lọc, phần tiến hành lấy thủ công, nguồn liệu chủ yếu lấy từ Web site: http://www.baobongda.com.vn/ http://bongda.com.vn/ http://vietnamnet.vn http://www.24h.com Gồm 250 báo chủ đề “bóng đá” - Việc xây dựng từ điển, sau thống kê tần số xuất từ tập tài liệu, ta áp dụng định luật Zipf để loại bỏ từ có tần số xuất cao loại bỏ từ có tần số thấp, ta thu từ điển gồm 500 từ Thời gian trung bình (giây) Số tài liệu Số cụm Tiền xử lý biểu diễn văn Phân cụm tài liệu 50 10 0,206 0,957 50 15 0,206 1,156 100 10 0,353 2,518 100 15 0,353 3,709 150 10 0,515 4,553 150 15 0,515 5,834 250 10 0,824 9,756 250 15 0,824 13,375 Hình Bảng đo thời gian thực thuật toán phân cụm Ta thấy thời gian thực thuật toán phụ vào độ lớn liệu số cụm cần phân cụm Ngoài ra, với thuật tốn k-means cịn phụ thuộc vào k trọng tâm khởi tạo ban đầu Nếu k trọng tâm xác định tốt chất lượng thời gian thực cải thiện nhiều LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO [1] Athena Vakali, Web data clustering Current research status & trends, Aristotle University,Greece, 2004 [2] Bing Liu, Web mining, Springer, 2007 [3] Ho Tu Bao, Knowledge Discovery and Data Mining, 2000 [4] Hua-Jun Zeng, Qi-Cai He, Zheng Chen, Wei-Ying Ma, Jinwen Ma, Learning to Cluster Web Search Results, ACM, 2004 [5] Jitian Xiao, Yanchun Zhang, Xiaohua Jia, Tianzhu Li, Measuring Similarity of Interests for Clustering Web-Users, IEEE, 2001 [6] Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois at Urbana-Champaign, 1999 [7] Lizhen Liu, Junjie Chen, Hantao Song, The research of Web Mining, IEEE, 2002 [8] Maria Rigou, Spiros Sirmakessis, and Giannis Tzimas, A Method for Personalized Clustering in Data Intensive Web Applications, 2006 [9] Miguel Gomes da Costa Júnior, Zhiguo Gong, Web Structure Mining: An Introduction, IEEE, 2005 [10] Oren Zamir and Oren Etzioni, Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM, 1998 [11] Periklis Andritsos, Data Clusting Techniques, University Toronto,2002 [12] Raghu Krishnapuram, Anupam Joshi, and Liyu Yi, A Fuzzy Relative of the K Medoids Algorithm with Application toWeb Document and Snippet Clustering, 2001 [13] Wang Jicheng, Huang Yuan, Wu Gangshan, and Zhang Fuyan, Web Mining: Knowledge Discovery on the Web, IEEE, 1999 [14] Wenyi Ni, A Survey of Web Document Clustering, Southern Methodist University, 2004 [15] Zifeng Cui, Baowen Xu , Weifeng Zhang, Junling Xu, Web Documents Clustering with Interest Links, IEEE, 2005 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tại, có số thuật tốn phân cụm liệu thường sử dụng phân cụm văn thuật toán phân cụm phân hoạch (k-means, PAM, CLARA), thuật toán phân cụm phân cấp (BIRCH, STC), Trong thực tế phân cụm theo nội... tài liệu Web, tài liệu thuộc vào nhiều nhóm chủ đề khác Để giải vấn đề ta sử dụng thuật tốn phân cụm theo cách tiếp cận mờ Quá trình tìm kiếm phân cụm tài liệu Về bản, trình phân cụm kết tìm kiếm. .. trang cụm “tương tự” nội dung với trang cụm Dữ liệu web Biểu diễn kết Tìm kiếm trích rút liệu Tiền xử lý Phân cụm xác định trọng số trang Biểu diễn liệu Hình Các bước phân cụm kết tìm kiếm Web