Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai LỜI MỞ ĐẦU Ngày với bùng nổ thông tin , Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ quý giá Nó cung cấp cho thông tin lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đơi với thuận lợi có vấn đề đặt làm để truy cập khai phá nguồn tài nguyên hiệu Từ vấn đề người ta nghiên cứu tạo Máy truy tìm web(Web search engine) Máy có khả tìm kiếm thơng tin linh hoạt , nhanh chóng dễ sử dụng Người sử dụng cần đặt câu hỏi truy vấn vấn đề cần quan tâm có tập kết liên quan đến câu hỏi truy vấn đó.Hiện Google1, Altavista2, HotBot3, Lycos4, AllTheWeb5 máy truy tìm hiệu sử dụng rộng rãi Ngoài ra, người ta tạo thư mục Web , chẳng hạn Yahoo6 ,Open Directory Project7 Theo kiểu tài liệu Web xếp thành thư có phân cấp, người sử dụng tìm thơng tin bắng cách duyệt thư mục xác định tài liệu cần tìm Thế việc tìm kiếm thơng tin theo kiểu không hiệu , chiếm nhiều thời gian vì: -Khối lượng liệu khổng lồ tính động trang Web, nên máy truy tìm xếp phần mục Web -Người sử dụng đặt câu hỏi truy vấn ngắn, định họ , mà tập kết tìm kiếm Web chung chung Từ ảnh hưởng hai nhân tố tập kết tìm kiếm Web từ hàng nghìn đến hang triệu tài liệu, tìm tài liệu cần cơng việc vơ khó khăn http://www.google.com http://www.altavista.com http://www.hotbot.com http://www.lycos.com http://www.alltheweb.com http://www.yahoo.com http://www.dmoz.org 11 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai CHƯƠNG I VẤN ĐỀ TÌM KIẾM THƠNG TIN TRÊN WEB Như biết www từ điển bách khoa toàn thư , thư viện khổng lồ sẵn sàng phục vụ quan tâm thông qua việc truy cập internet Đối với nguồn tài ngun thơng tin có giá trị nhất, khơng có hoạt động hang ngày hiệu Nhưng vấn đề đặt phải truy cập sử dụng nguồn tài nguyên nhhư để có hiệu Để tìm thơng tin cần tìm nguồn tài nguyên khổng lồ thách thức lớn Chính mà có nhiều hướng nghiên cứu để giải vấn đề 1.1 Máy truy tìm Web Một thành công nghiên cứu giải vấn đề việc tạo máy truy tìm Web Máy có nhiệm vụ giúp người sử dụng tìm tài liệu quan tâm Các tài liệu chủ yếu có dạng HTML, PDF, PS, MS Word MS PowerPoint Giao diện máy truy tìm thân thiện dễ sử dụng , người sử dụng cần đặt câu hỏi truy vấnvà lệnh tìm Máy trả tập kết tìm kiếm(được gọi sinppet) liên quan đến câu hỏi truy vấn Snippet miêu tả ngắn gọn nội dung tài liệu Web(trang Web), thường bao gồm tựa đề , địa web tài liệu (được gọi URL)và đoạn text trình bày nội dung liên quan đến câu hỏi truy vấn Cấu trúc phương thức hoạt động máy truy tìm Web sau: 22 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai 1.1.1 Web Crawler Web Crawler hai thành phần trực tiếp tương tác với internet, cịn gọi web spider robot Cơng việc Web Crawler phát nguồn tài nguyên Web Nó giải vấn đề cách thực tìm kiếm đệ quy theo đường link từ tất trang duyệt Trong khai phá nguồn tài nguyên Internet, Web Crawler cịn có nhiệm vụ kiểm tra xem trang có cịn hợp lệ khơng cập nhật hay chưa Mục đích cơng việc giúp cho máy truy tìm cập nhật tất tài liệu Web(kể tài liệu cũ mới) 1.1.2 Document Index (lập mục tài liệu) Mục đích việc lập mục tài liệu hỗ trợ tìm kiếm Tìm tài liệu có chứa từ câu hỏi truy vấn? Để thực cơng việc đa số máy truy tìm sử dụng biến liệu có cấu trúc inverted index Inverted index giống danh sách mục phần cuối sách – với từ danh sách liên kết tài liệu có từ xuất Biến có khả giúp máy truy tìm xác định xác tài liệu có chứa từ câu hỏi truy vấn Với 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai bảng mục , máy truy tìm thực tìm kiếm theo nhóm từ tìm kiếm từ lân cận 1.1.3 Document Cache(lưu trữ tài liệu) Nhiều máy phục vụ tìm kiếm vừa lưu trữ bảng mục tài liệu theo từ (document index), vừa lưu trữ bảng mục tài liệu gốc Mục đích việc lưu trữ bảng mục tài liệu gốc (tài liệu đầy đủ) tạo sippet phục vụ cho việc lưu trữ phiên tài liệu 1.1.4 Document Ranking Chắc chắn mơi trường www, chí câu hỏi truy vấn hoàn thiện xác , tập kết trả tìm kiếm hang ngàn hàng triệu tài liệu Do , cần phải có cơng nghệ thực xếp tập kết thu theo mức độ liên quan mức độ quan tâm Và công việc Document Ranking 1.1.5 Query Processor(bộ xử lý truy vấn) Vai trò Query Processor phối hợp với để thực trả lời câu hỏi truy vấn người sử dụng Cụ thể , trình thực Query Processor kết hợp thành phần document index, document cache, document ranking để tạo tập kết tìm kiếm liên quan đến câu hỏi truy vấn 1.1.6 Presentation interface(giao diện trình bày) 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai Kết tìm kiếm Web đưa đến người sử dụng thông qua giao diện Do presentation interface đóng vai trị vơ quan trọng, ảnh hưởng tồn chất lượng máy truy tìm Bởi người sử dụng cần quan tâm kết nhận thông qua giao diện mà không quan tâm máy hoạt động xử lý tìm kiếm web 2.1 Trình bày kết tìm kiếm máy truy tìm Web Google Cách biểu diễn tập kết tìm kiếm đến người sử dụng đóng vai trị vơ quan trọng Nó giúp người sử dụng xác định tài lệu họ cần tìm Giao diện trình bày kết tìm kiếm đánh giá tốt không để người sử dụng gặp tài liệu cho không liên quan đến vấn đề cần tìm đầu danh sách kết tìm kiếm Tuy nhiên , tiêu chuẩn khắt khe - Hầu hết người sử dụng thường đặt câu hỏi ngắn chung chung cho máy truy tìm - Trong đặt câu hỏi cho máy truy tìm ,người sử dụng khơng đặt câu hỏi ý định , vì: người sử dụng muốn tìm thơng tin Web , nghĩa suy nghĩ họ hình thành khái niệm muốn tìm Khái niệm chuyển thành tập từ.Tập từ sử dụng để đặt câu hỏi truy vấn Thế tính xác việc chuyển đổi khái niệm tập từ lại phụ thuộc vào nhiều yếu tố, chẳng hạn kinh nghiệm tìm kiếm , kiến thức liên quan đến khái niệm , thành thạo ngơn ngữ Do tạo nên khơng cân xứng khái niệm câu hỏi truy vấn Vì máy truy tìm khơng thể biết chủ đề người sử dụng thực quan tâm Hiện máy truy tìm chưa đáp ứng tiêu chuẩn trên, sử dụng phương thức trình bày kết Ranked list Theo phương thức tập kết 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai thu từ câu hỏi truy vấn xếp theo mối liên quan đến câu hỏi truy vấn - tài liệu liên quan xếp đầu danh sách sn ippet Tù a ®Ị Mô t ả ur l Mc dự vy cỏch sp xếp cịn nhiều nhược điểm : -Vì Ranked list trình bày kết theo mối quan hệ với câu hỏi truy vấn Do có nhiều 24 kết tìm kiếm ranked list trở thành không thực tế việc duyệt kết -Phương thức ranked list yêu cầu khắt khe thứ tự kết tìm kiếm với giả thuyết snippet ln so sánh với Tuy nhiên với câu hỏi truy vấn chung chung, có kết trả mà chứa chủ đề , việc so sánh kết không cân xứng 66 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai Lý tạo động lực cho người ta nghiên cứu xây dựng phương thức trình bày kết khắc phục tất nhược điểm phương thức cũ Phân cụm tập kết tìm kiếm Web phương thức nhiều người quan tâm nghiên cứu 77 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai CHƯƠNG II PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 2.1 Khái niệm phân cụm Phân cụm nhóm đối tượng lại thành cụm cho thoả mãn : -Các đối tượng cụm giống gần xác định độ tương tự Hay nói cách khác, đối tượng cụm tương tự -Những đối tượng không cụm không tương tự Cần phân biệt phân lớp với phân cụm: Phân lớp cịn gọi học có giám sát Là trình xếp đối tượng vào lớp biết trước Ví dụ phân lớp bệnh nhân theo liệu hồ sơ bệnh án Phân cụm cịn gọi học khơng giám sát Là trình xếp đối tưọng theo cụm tự nhiên, tức số lượng tên cụm chưa biết trước Yêu cầu việc phân cụm xuất phát từ lĩnh vực thống kê, áp dụng cho liệu số Tuy nhiên, lĩnh vực khoa học máy tính khai phá liệu khái niệm mở rộng cho liệu text multimedia 2.2 Phân cụm tập kết tìm kiếm Web 2.2.1 Khái niệm Phân cụm tập kết Web tổ chức xếp tập kết tìm kiếm thành số nhóm chủ đề riêng theo cách bố cục tổng thể đến chi tiết, giống thư mục Ví dụ câu hỏi truy vấn “Clinton” kết trình bày theo chủ đề như:”Bill Clinton”, “Hillary Clinton”, “George Clinton”, v.v… Theo cách trình bày người sử dụng khơng có kinh nghiệm việc đặt câu hỏi truy vấn dễ dàng xác định nhanh chóng xác tài liệu quan tâm Mặt khác, người sử dụng đặt câu hỏi chung 88 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai chung với mục đích biết thêm chủ đề nhiều thời gian Thay vào , họ cần duyệt theo nhóm chủ đề 2.2.2 Phép đo độ tương tự Bản chất cơng việc phân cụm nhóm đối tượng tương tự với vào nhóm Vậy cần phải có phép đo để đo độ tương tự đối tượng Đối với đối tượng tài liệu người ta thường hay sử dụng phép đo hệ số góc cosin để đo độ tương tự hai tài liệu (mỗi tài liệu biểu diễn dạng vector) Công thức đo độ tương tự sau: t ∑x y Cosin(X,Y) = i =1 t ∑ xi2 + i =1 i i ∑ yi2 − t ∑x y i =1 i i Trong -X (x1 ,x2 , … ,xt) Y(y1 ,y2 ,… ,yt) vector biểu diễn hai tài liệu -xi ,yi trọng số thành phần thứ I vector X,Y tương ứng Chú ý: -Khi hệ số góc cosin =1 nghĩa hai snippet hồn tồn tương tự nhau(trùng nhau) -Khi hệ số góc cosin =0 nghĩa hai snippet khơng hồn tồn tương tự nhau(trùng nhau) -Các tài liệu biểu diễn dạng vector, điểm khơng gian nhiều chiều Ví dụ: tài liệu doc1 doc2, sau trích chọn thuộc tính đặc trưng snippet Trong doc1:từ computer xuất lần, từ finace xuất lần Trong doc2:từ computer xuất lần, từ finace xuất lần Biểu diễn dạng vector, doc1 biểu diễn (3i+1j) doc2 biểu diễn (2i+4j) 99 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai Biểu diễn dạng điểm không gian nhiều chiều, doc1 biểu diễn (3,1) doc2 c biu din (2,4) Hình1: Các đối t-ợng đ-ợc biểu diễn d-ới dạng vector Hình2: Các đối t-ợng đ-ợc biểu diễn d-ới dạng điểm 2.2.3 c im 1100 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai b Sau trích chọn từ đặc trưng, ta xây dựng ma trận tần số documentterms : TF=[tfi,j]NxM Trong đó, N số snippet D M số từ trích chọn tồn tập D tfi,j số lần xuất từ j snippet di Mỗi dòng TF[i] ma trận TF thể đặc trưng snippet di thông qua tần số xuất từ c Sau áp dụng phương pháp trọng số TF*IDF ma trận TF để tạo ma trận số document-terms W = [wi,j]NxM wi,j = tfij * log(n/dfi) Trong wi,j trọng số từ j snippet di Mỗi dòng W[i] ma trận W thể đặc trưng snippet di thông qua trọng số từ Chú ý: Phải áp dụng phương pháp trọng số TF*IDF (term frequency – inverse document frequency) từ xuất nhiều lần (nhân tố TF) tài liệu góp phần thể nội dung tài liệu nhiều so với từ xuất vài lần Tuy nhiên, từ mà xuất thường xun tồn tập tài liệu D khơng có ý nghĩa nhiều việc phân biệt nội dung tài liệu, nhân tố idf phải sử dụng để làm giảm vai trò từ thường xuyên xuất toàn tập tài liệu D Ví dụ: Cho tập D= {d1, d2, d3, d4, d5, d6) 2277 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai Doc Title d1 Languege modeling approach to information retrieval: the importance of a query term d2 Title language model for information retrieval d3 Two-stage language models for information retrieval d4 Building a web theaurus from web link structure d5 Implicit link analysis for small web search d6 Query type classification for web document retrieval Bảng 1: Tập snippet từ trích chọn (từ gạch chân) Information Web Query Retrieval Model Language d1 1 1 d2 0 1 d3 0 1 d4 0 0 d5 0 0 d6 1 0 Document/Term Bảng 2: Ma trận tần số xuất document-terms Document/Term Information Web Query Retrieval Model Language d1 0.301 0.4771 0.1761 d2 0.301 0 0.1761 0.4771 0.301 d3 0.301 0 0.1761 0.4771 0.301 d4 0.6021 0 0 d5 0.301 0 0 d6 0.301 0.4771 0.1761 0 0.301 Bảng 3: Ma trận trọng số document-terms 2288 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai 3.1.3 Sinh lớp tolerance Mỗi từ tập D có tập từ tương tự theo quan hệ tolerance (quan hệ xuất snippet lớn ngưỡng θ cho trước) Vậy từ D sinh lớp tolerance Do cần phải thực pha trước để tối ưu việc tính tốn, đảm bảo tính tốn xấp xỉ tập từ D nhanh chóng Các bước thực hiện: Ma trận tần số xuất (term co-occurrence) có dạng sau: TC = [tcx,y] MxM đó, tcx,y số lần xuất hai từ x y snippet tập D Lúc này, quan hệ tolerance R từ định nghĩa sau: xRy ⇔ tcx,y > θ Vậy, độ phức tạp tính tốn O(NxM2) ( độ phức tính tốn bước O(NxM), độ phức tính tốn bước O(M2)) 2299 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai Ví dụ: Bước 1: Dựa vào ma trận tần số xuất TF để tính ma trận xuất nhị phân OC Tuy nhiên trường hợp OC=TF Document/Term Information Web Query Retrieval Model Language d1 1 1 d2 0 1 d3 0 1 d4 0 0 d5 0 0 d6 1 0 Bước 2: Tính ma trận tần số xuất (term co-occurrence) COC Term Information Web Query Retrieval Model Language Information 3 Web 1 0 Query 1 2 Retrieval Model 0 2 Language 3 Bước3:Tính ma trận nhị phân tolerance(term tolerance binary)TOL với θ > Term Information Web Query Retrieval Model Language Information 1 1 Web 1 0 Query 1 1 Retrieval 1 1 1 Model 0 1 Language 1 1 Từ ma trận TOL xác định lớp tolerance từ D 3300 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai Term Lớp Tolerance Information Information, query, retrieval, model, language Web Web, query, retrieval Query Information, web, query, retrieval, language Retrieval Information, web, query, retrieval, model,language Model Information, retrieval, model,language Language Information, query, retrieval, model,language Giải thuật : Sinh lớp Tolerance Input: TF – ma trận tần số xuất từ snippet , θ - ngưỡng xuất Output: TOL - ma trận nhị phân tolerance từ dùng để xác định lớp tolerance từ Tính ma trận xuất nhị phân OC dựa ma trận tần số xuất document–term TF sau: OC = [oci,j]NxM, ⎧1 if tf i , j > oci , j = ⎨ otherwise ⎩0 Mỗi cột OC vector bit biểu diễn từ xuất snippet, từ xuất snippet bit thiết lập giá trị Lập ma trận từ tần số xuất (term co-occurrence) COC = [cocx,y]MxM sau: cocx,y = card(OCx AND OCy) đó, cocx,y số lần từ x y xuất snippet D Lập ma trận nhị phân tolerance ( term tolerance binary) TOL = [tolx,y] theo công thức sau: ⎧1 if coc x , y ≥ θ tol x , y = ⎨ otherwise ⎩0 3311 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai Mỗi dòng ma trận TOL tạo nên vector bit biểu diễn lớp tolerance từ D 3.1.4 Giải thuật phân cụm K-means Giải thuật thực để sinh K nhóm ( K chọn phụ thuộc vào chiều dài (số lượng snippet) D) Giải thuật Input: D – tập N snippet, K- số nhóm, δ - ngưỡng tương tự với … Output: K nhóm snippet từ tập D (có thể nạp chồng) với giá trị thuộc mờ Khởi tạo đại diện nhóm C1, C2 , …., CK chọn ngẫu nhiên K snippet từ tập D K đại diện nhóm ký hiệu sau: R1, R2, …, RK repeat for each di ∈ D for each cluster Ck, k=1,…,K Tính mức độ tương tự xấp xỉ sniptet di với phần tử đại diện Rk : S(UR(di), Rk) ( sử dụng phép đo lường theo hệ số góc cosin) if S(UR(di), Rk) > δ then gán di vào nhóm Ck , với mức độ tương tự giá hàm thuộc vào nhóm: m(di, Ck) = S(UR(di), Rk) 10 11 12 end if end for end for for each cluster Ck Xác định lại đại diện nhóm Rk ( determine_cluster_representatives(RK)) 3322 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai 13 14 end for until thay đổi thay đổi it giá trị hàm thuộc /* Vì yêu cầu ràng buộc mức độ tương tự snippet phải lớn ngưỡng δ, mà sau tất vòng lặp tồn số snippet khơng gắn vào nhóm Lúc có giải pháp đặt ra: + Tạo nhóm đặc biệt “Other” gắn tất snippet chưa thuộc nhóm vào nhóm “Other” + Gắn tài liệu vào nhóm mà chúng có láng giềng gần nhóm Trong chọn giải pháp */ 15 16 for each du chưa phân lớp (chưa gắn vào nhóm nào) Tìm láng giềng gần du ký hiệu NN(du) với mức độ tương tự khác khơng 17 Trong số nhóm mà NN(du) thuộc về, chọn nhóm Ck mà NN(du) có hàm thuộc mạnh 18 Gán du vào nhóm Ck tính giá trị hàm thuộc (tính mức độ phụ thuộc du vào nhóm Ck) sau: m(du, Ck) = m(NN(du),Ck) * S(UR(du),UR (NN(du))) 19 end for 20 if cần thiết ta xác định lại phần tử đại diện nhóm Rk nhóm có thay đổi * Giải thuật xác định đại diện nhóm (determine_cluster_representatives(RK)) Đại diện nhóm Rk thể nét đặc trưng tiêu biểu nhóm k, : - Mỗi snippet di nhóm Ck phải chứa từ Rk 3333 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai - Những từ Rk phải xuất hầu hết snippet thuộc nhóm Ck - Khơng phải từ Rk cần phải xuất snippet thuộc nhóm Ck Trọng số từ tj Rk tính sau: wij = {d ∑ i d i ∈C k wij ∈ Ck t j ∈ d i } Giải thuật: Rk= ∅ for all di ∈ Ck and tj ∈ di if f f C (t j ) / C k > σ k Rk = Rk ∪ tj end if end for if di ∈ Ck and di ∩ Rk = ∅ then Rk = Rk ∪ argmax Rk ∪ arg max t ∈d w j i ij end if f C (t j ) số tài liệu nhóm Ck có chứa từ tj k 3.1.5 Tạo nhãn cho nhóm Pha tạo nhãn cho nhóm chủ đề cơng việc vơ quan trọng Vì nhãn thể đặc trưng chung nhóm việc tạo ảnh hưởng đến chất lượng toàn giải thuật phân cụm 3344 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai Giải thuật tạo nhãn thực dựa phương pháp n_gram để trích chọn nhóm từ phần tử đại diện nhóm Nhóm từ chọn làm nhãn (tên chủ đề) nhóm Theo phương pháp n_gram để nhóm từ thể tính sinh động nhóm phải chọn theo tiêu chuẩn sau: + Mức độ thường xuyên xuất nhóm từ toàn tập D + Mức độ thường xuyên xuất nhóm từ nhóm + Chiều dài nhóm (số từ hình thành nên nhóm từ) Do vậy, quan sát trực quan phương pháp TD*IDF thấy nhóm từ tương đối xuất toàn tập D xuất thường xuyên snippet nhóm ứng cử viên sáng giá cho việc chọn làm nhãn nhóm 3.2 Một số thuật tốn phân cụm khơng giám sát 3.2.1 Phương pháp phân hoạch • Thuật tốn K-means • Thuật toán K-medoids Thuật toán K-Medoids thực cách chọn đối tượng gần tâm cụm làm đại diện cho cụm (medoid) Nhưng so với K-Means K-Medoids có độ phức tạp tính tốn lớn Cả hai thuật tốn đề có nhược điểm chung số lượng cụm K cung cấp người dùng 3.2.2 Phương pháp phân cấp Phân cụm phân cấp chia thành hai phương pháp : top-down bottom-up Phương pháp bottom-up: Phương pháp thiết kế theo chiến lược từ lên (bottom-up) Phương pháp bắt đầu với đối 3355 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai tượng khởi tạo tương ứng với cụm riêng biệt, sau ghép cụm thành cụm lớn tất đối tượng nằm cụm cho tối gặp điều kiện dừng Phương pháp top-down: Phương pháp thiết kế theo chiến lược xuống (top-down), thực ngược lại so với phương pháp bottom-up, tức chia nhỏ cụm lớn thành cụm nhỏ đối tượng chứa cụm riêng lẻ gặp điều kiện dừng như: đạt đến số lượng cụm cho phép, khoảng cách hai cụm gần lớn khoảng cách ngưỡng • Thuật tốn CURE CURE thuật tốn sử dụng chiến lược bottom-up phương pháp phân cụm phân cấp Khác với hai thuật toán phân cụm phân hoạch thuật toán CURE sử dụng nhiều đối tượng để biểu diễn cho cụm thay sử dụng trọng tâm hay đối tượng tâm Các đối tượng đại diện cụm ban đầu chọn rải rác vị trí khác nhau, sau chúng di chuyển cách co lại theo tỉ lệ định Khi hai cụm có cặp đối tượng đại diện gần trộn lại thành cụm • Thuật tốn BIRCH BIRCH thuật toán phân cụm phân cấp sử dụng chiến lược Top-down Tư tưởng BIRCH khơng lưu tồn đối tượng liệu cụm nhớ mà lưu tham số thống kê Đối với cụm liệu, BIRCH lưu ba (N, LS, SS), N số đối tượng cụm, LS tổng giá trị thuộc tính đối tượng cụm, SS tổng bình phương giá trị thuộc tính đối tượng cụm Bộ ba gọi đặc trưng cụm (Cluster Feature- CF) Khi cụm tập liệu ban đầu cho dạng CF 3366 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai Cây CF cân nhằm lưu đặc trưng cụm Một CF chứa nút cha lá, nút cha chứa nút con, nút khơng có Nút cha lưu giữ tổng đặc trưng cụm nút Cây CF có hai đặc trưng : -Yếu tố nhánh: nhằm xác định số lượng nút tối đa nút cha - Ngưỡng: nhằm xác định khoảng cách tối đa cặp đối tượng nút CF, khoảng cách đường kính cụm lưu lại nút 3377 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com PPhh©©nn ccơơmm ttậậpp kkếếtt qquuảả ttììmm kkiiếếmm wweebb ddựựaa vvààoo ttậậpp tthhôô dduunngg ssaaii CHƯƠNG IV: MỘT SỐ GIAO DIỆN KHI CHẠY CHƯƠNG TRÌNH 4.1 Giao diện chương trình chính(menu) 4.2 Giao diện chương trình phân cụm liệu 4.2.1 Giao diện chương trình sinh mã 3388 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com PPhhâânn ccụụmm ttậậpp kkếếtt qquuảả ttììmm kkiiếếmm wweebb ddựựaa vvààoo ttậậpp tthhôô dduunngg ssaaii m kim cụm m 4.2.2 Giao diện chương trìình tìm 4.2.3 Giao diện chương trìình K-M Means 3399 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com PPhh©©nn ccơơmm ttËËpp kkÕÕtt qquuảả ttììmm kkiiếếmm wweebb ddựựaa vvààoo ttậậpp tthhôô dduunngg ssaaii 4.3 Giao diện chương trình thuật tốn phân cụm K-means 4400 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com PPhhâânn ccụụmm ttậậpp kkếếtt qquuảả ttììmm kkiiếếmm wweebb ddựựaa vvààoo ttËËpp tthh«« dduunngg ssaaii TÀI LIỆU THAM KHẢO Tolerance rough set approach to clustering web search result, Ngô Chi Lăng -2003 Unsupervised Word Discriimation by Clustering Similar Contexts,Amruta Purandare -2004 Valued Tolerance and Decision Rlues, Jerzy Stefanowski From n_gramn to collocation an evaluation of xtract 4411 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai CHƯƠNG II PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THƠ DUNG SAI 2.1 Khái niệm phân cụm Phân cụm nhóm đối tượng lại thành cụm cho thoả... download : add luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai Chương III Giải thuật phân cụm tập kết tìm kiếm web 3.1 Giải thuật Input : Tập D gồm N snippet d1, d2,….,... luanvanchat@agmail.com Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai -Phân cụm tập kết có tính phụ thuộc vào câu hỏi truy vấn người sử dụng tạo nhóm chủ đề khơng thể dự tính mà hồn tồn phụ thuộc -Kết phân