Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
1,72 MB
Nội dung
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN BÀITẬP LỚN MÔN HỌC: Lýthuyếttậpthơứngdụng ĐỀ TÀI : Tìmhiểuứngdụnglýthuyếttậpthơ tốn “Phâncụmtậpkếttìmkiếmweb” Giáo viên hướng dẫn: Lớp: KHMT1 – K7 Nhóm thực hiên: Hà Nội, tháng 12 năm 2015 Page |0 LỜI NÓI ĐẦU Ngày với bùng nổ thông tin , Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ quý giá Nó cung cấp cho thơng tin lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đơi với thuận lợi có vấn đề đặt làm để truy cập khai phá nguồn tài nguyên hiệu Từ vấn đề người ta nghiên cứu tạo Máy truy tìm web(Web search engine) Máy có khả tìmkiếm thơng tin linh hoạt , nhanh chóng dễ sử dụng Người sử dụng cần đặt câu hỏi truy vấn vấn đề cần quan tâm có tậpkết liên quan đến câu hỏi truy vấn đó.Hiện Google1 , Altavista2 , HotBot3 , Lycos4 , AllTheWeb5 máy truy tìmhiệu sử dụng rộng rãi Ngoài ra, người ta tạo thư mục Web , chẳng hạn Yahoo6 ,Open Directory Project7 Theo kiểu tài liệu Web xếp thành thư có phân cấp, người sử dụngtìm thơng tin bắng cách duyệt thư mục xác định tài liệu cần tìm Thế việc tìmkiếm thơng tin theo kiểu khơng hiệu , chiếm nhiều thời gian vì: -Khối lượng liệu khổng lồ tính động trang Web, nên máy truy tìm xếp phần mục Web -Người sử dụng đặt câu hỏi truy vấn ngắn, định họ , mà tậpkếttìmkiếm Web chung chung Từ ảnh hưởng hai nhân tố tậpkếttìmkiếm Web từ hàng nghìn đến hang triệu tài liệu, tìm tài liệu cần cơng việc vơ khó khăn Từ nhằm giải vấn đề này, tốn phân cụm đưa áp dụngBài báo cáo sau bước đâu tìmhiểu làm rõ kỹ thuật “phâncụmtậpkếttìmkiếmweb” để người đọc có nhìn hơn, rõ ràng lĩnh vực đem lại kếttìmkiếm web có chất lượng Page |1 MỤC LỤC LỜI NĨI ĐẦU MỤC LỤC CHƯƠNG 1: LÝTHUYẾTTẬPTHÔ I.GIỚI THIỆU II.HỆ THÔNG TIN III.QUAN HỆ BẤT KHẢ PHÂN BIỆT 1.Sự dư thừa thông tin 4 2.Quan hệ tương đương – Lớp tương đương 3.Thuật toán xác định lớp tương đương IV.XẤP XỈ TẬP HỢP V.SỰ KHÔNG CHẮC CHẮN VÀ HÀM THUỘC 10 VI.SỰ PHỤ THUỘC GIỮA CÁC TẬP THUỘC TÍNH VII.RÚT GỌN THUỘC TÍNH 1.Khái niệm 12 13 13 2.Ma trận phân biệt, hàm phân biệt 15 CHƯƠNG 2: BÀI TỐN PHÂN CỤMTẬPKẾTQUẢTÌMKIẾM WEB 18 I.GIỚI THIỆU BÀITOÁN 18 II.ỨNG DỤNGLÝTHUYẾTTẬPTHƠTRONG GIẢI QUYẾT BÀI TỐN 1.KHÁI NIỆM CƠ BẢN 19 19 2.GIẢI THUẬT PHÂN CỤMTẬPKẾTQUẢTÌMKIẾM WEB 21 CHƯƠNG 3: MỘT SỐ GIAO DIỆN KHI CHẠY CHƯƠNG TRÌNH DEMO 29 1.Giao diện chương trình 29 2.Giao diện kết thuật toán phân cụm K-means TÀI LIỆU THAM KHẢO 29 30 Page |2 CHƯƠNG 1: LÝTHUYẾTTẬPTHÔ I.GIỚI THIỆU Lýthuyếttậpthô (rough set theory) lần đề xuất Z Pawlak nhanh chóng xem công cụ xử lý thông tin mơ hồ không chắn Lýthuyếttậpthô dựa giả thiết để định nghĩa tập hợp, cần phải có thơng tin đối tượng tập vũ trụ Ví dụ, đối tượng bệnh nhân bị bệnh định triệu chứng bệnh tạo thành thông tin bệnh nhân Như tậpthơ có quan điểm hồn tồn khác với quan điểm truyền thống tập hợp, tập hợp định nghĩa phần tử mà khơng cần biết thông tin phần tử tập hợp Rõ ràng, tồn số đối tượng giống số thông tin đó, ta nói chúng có quan hệ bất khả phân biệt với Đây quan hệ mấu chốt điểm xuất phát lýthuyếttậpthô : biên giới tậpthô không rõ ràng, để xác định phải xấp xỉ tập hợp khác nhằm mục đích cuối trả lời (tất nhiên xác tốt) đối tượng có thuộc tập hợp hay khơng II.HỆ THƠNG TIN Một tập liệu thể dạng bảng, dòng thể cho trường hợp, kiện, bệnh nhân hay đơn giản đối tượng Mỗi cột bảng thể thuộc tính (là giá trị, quan sát, đặc điểm, …) “đo lường” cho đối tượng Ngoài giá trị thuộc tính cung cấp chuyên gia hay người sử dụng Một bảng gọi môt hệ thông tin (information system) Một cách hình thức, hệ thơng tin cặp A =(U,A) U tập hữu hạn đối tượng gọi tập vũ trụ, A tập hữu hạn khơng rỗng thuộc tính cho với Tập gọi Tập giá trị thuộc tính a Page |3 Ví dụ 1-1: Bảng liệu cho ta hình ảnh hệ thống tin với đối tượng thuộc tính Age LEMS x1 16 – 30 50 x2 16 – 30 x3 31 – 45 – 25 x4 31 – 45 – 25 x5 46 – 60 26 – 49 x6 16 – 30 26 – 49 x7 46 – 60 26 – 49 Bảng 1- : Một hệ thông tin đơn giản Ta dễ dàng nhận thấy bảng trên, cặp đối tượng x3, x4 x5, x7 có giá trị thuộc tính Khi ta nói đối tượng khơng phân biệt đơi với tập thuộc tính {Age, LEMS} Trong nhiều ứng dụng, tập vũ trụ phân chia thành tập đối tượng tập thuộc tính phân biệt gọi tập thuộc tính định Nói cách khác tập vũ trụ phân lớp thuộc tính định Hệ thơng tin trường hợp gọi hệ định Như hệ định hệ thông tin có dạng A = (U , C ∪ D) A = C ∪ D , C D gọi tập thuộc tính điều kiện tập thuộc tính định hệ thơng tin III.QUAN HỆ BẤT KHẢ PHÂN BIỆT 1.Sự dư thừa thông tin Một hệ định (hay bảng định) thể tri thức đối tượng giới thực Tuy nhiên nhiều trường hợp bảng tinh giảm tồn hai khả dư thừa thông tin sau đây: Page |4 Nhiều đối tượng giống nhau, hay phân biệt thể lặp lại nhiều lần Một số thuộc tính dư thừa, theo nghĩa bỏ thuộc tính thơng tin bảng định cung cấp mà quan tâm không bị mát Ví dụ 1-2 : Trong bảng Bảng 1-2 đây, quan tâm tới tập thuộc tính {a, b, c} đối tượng ta có nhận xét: bỏ thuộc tính c mà thơng tin đối tượng khơng đổi, chẳng hạn ta có đối tượng với hai thuộc tính a , b nhận hai giá trị 0, nói giá trị thuộc tính c Bảng 1- : Một bảng liệu dư thừa thông tin 2.Quan hệ tương đương – Lớp tương đương Chúng ta bắt đầu xem xét vấn đề dư thừa thông tin nói qua khái niệm quan hệ tương đương Một quan hệ ngôi gọi quan hệ tương đương khi: R quan hệ phản xạ: R quan hệ đối xứng : R quan hệ bắc cầu : Một quan hệ tương đương R phân hoạch tập đối tượng thành lớp tương đương, Page |5 lớp tương đương đối tượng x tập tất đối tượng có quan hệ R với x Tiếp theo, xét hệ thông tin A=(U,A) Khi tập thuộc tính tạo tương ứng quan hệ tương đương INDA: INDA(B) = INDA(B) gọi quan hệ B – bất khả phân biệt Nếu INDA(B) đối tượng x x2 phân biệt với quatập thuộc tính B Với đối tượng , lớp tương đương x quan hệ INDA(B) kí hiệu [ x] B Cuối cùng, quan hệ B – bất khả phân biệt phân hoạch tập đối tượng U thành lớp tương đương mà ta kí hiệu 3.Thuật toán xác định lớp tương đương Vào: Tập đối tượng O Tập thuộc tính B Ra: Tập lớp tương đương L Thuật toán : Bước : L = Bước : Nếu O = Thì : Thực bước Ngược lại thực bươc Page |6 Bước : Xét O P = {x} O = O\{x} Với phần tử O: Nếu x y phân biệt quatập thuộc tính B Thì: P=P {y} O = O\{y} L=L {P} Bước : Thực bước Bước : Kết thúc IV.XẤP XỈ TẬP HỢP Cho hệ thơng tin , tập thuộc tính , tập đối tượng Chúng ta xấp xỉ tập hợp X cách sử dụng thuộc tính B từ việc xây dựngtập hợp B – xấp xỉ B – xấp xỉ định nghĩa sau : B – xấp xỉ tập X : B – xấp xỉ tập X : Tập hợp tập đối tượng U mà sử dụng thuộc tính B ta biết chắn chúng phần tử X Tập hợp tập đối tượng U mà sử dụng thuộc tín B ta nói chúng phần tử X Page |7 Tập hợp BNB(X) = gọi B – Biên tập X chứa đối tượng mà sử dung thuộc tính B ta khơng thể xác định chúng có thuộc tập X hay khơng Tập hợp U\ gọi B – tập X, gồm đối tượng mà sử dụngtập thuộc tính B ta biết chắn chúng không thuộc tập X Một tập hợp gọi thô đường biên khơng rỗng, ngược lại ta nói tập rõ Lưu ý rằng, khái niệm tậpthô gắn liền với tập thuộc tính Page |8 Một số tính chất tập hợp xấp xỉ : Chúng ta kết thúc mục với thuật toán xác định xấp xỉ xấp xỉ tập đối tượng theo tập thuộc tính cho trước Thuật toán xác định xấp xỉ Vào : Tập đối tượng X Tập thuộc tính B Ra : Tập đối tượng B X Thuật toán : Bước 1: Khởi tạo B X =∅ Xác định tập phân hoạch P tập vũ trụ U tạo B Bước 2: U1 = U Page |9 tượng thuộc hai lớp tương đương Xi Xj, hay nói cij tập thuộc tính phân biệt x1 x2 x3 x4 x1 {} {b} {a} {} x2 {b} {} {a, b} {b} x3 {a} {a, b} {} {a} x4 {} {b} {a} {} Hình 1- : Ma trận phân biệt hệ thông tin Bảng 1- xây dựngtập thuộc tính {a, b} hai lớp tương đương Xi Xj Rõ ràng, ma trận phân biệt lớp tương đương giữ nguyên giá trị thông tin ma trận phân biệt cặp đối tượng, ngồi kích thước ma trận phân biệt giảm đáng kể Một số lưu ý hàm phân biệt: Các toán tử ∧ ∨ sử dụng hàm phân biệt tốn tử Boolean chúng khơng nhận giá trị true hay false mà thể cho ngữ nghĩa có mặt hay khơng có mặt thuộc tính Theo đó, hàm phân biệt: fA = (a ∨ b ∨ c ∨ f ) ∧ (b ∨ d ) ∧ (a ∨ d ∨ e ∨ f ) ∧ (a ∨ b ∨ c ∨ d ) ∧ (b ∨ d ∨ e ∨ f ) ∧ (d ∨ c) hiểu sau: đối tượng hệ thơng tin phân biệt với cách sử dụng (thuộc tính a b c f ) (thuộc tính b d ) (thuộc tính a d e f ) (thuộc tính a b c d ) (thuộc tính b d e f ) (thuộc tính d c) Hàm phân biệt xem tậptập hợp Ví dụ, hàm phân biệt lưu ý tương đương với tập: C = {{a, b, c, f}, {b, d}, {a, d, e, f}, {a, b, c, d}, {b, d, e, f}, {d , c}} Và giống với ma trận phân biệt, tập nhỏ có giao với tất phần tử C rút gọn hệ thơng tin tương ứng Ví dụ : {a, d} tập nhỏ P a g e | 17 có giao với tất phần tử C nên rút gọn hệ thơng tin P a g e | 18 CHƯƠNG 2: BÀI TỐN PHÂN CỤMTẬPKẾTQUẢTÌMKIẾM WEB I.GIỚI THIỆU BÀI TỐN Sự phát triển nhanh chóng mạng Internet sinh khối lượng khổng lồ liệu dạng siêu văn (dữ liệu Web) Các tài liệu siêu văn chứa đựng văn thường nhúng liên kết đến tài nguyên khác phân bố Web Ngày nay, Web bao gồm hàng tỷ tài liệu hàng triệu tác giả tạo phân tán qua hàng triệu máy tính kết nối qua đường dây điện thoại, cáp quang, sóng radio v.v Web sử dụng phổ biến nhiều lĩnh vực báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, tổ chức thương mại, phủ v.v Chính lĩnh vực Web mining hay tìmkiếm tự động thơng tin phù hợp có giá trị Web chủ đề quan trọng Data Mining vấn đề quan trọng đơn vị, tổ chức có nhu cầu thu thập tìmkiếm thơng tin Internet Hiện nay, hệ thống tìmkiếm thơng tin hay nói ngắn gọn máy tìmkiếm Web thông thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc danh sách dài để có tài liệu phù hợp Ngồi thơng tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người dụng việc lấy thông tin cần thiết Có nhiều hướng tiếp cận khác để giải vấn đề Các hướng thường ý giảm nhập nhằng phương pháp lọc hay thêm tùy chọn để cắt bớt thông tin hướng biểu diễn thông tin trả máy tìmkiếm thành cụm người dùng dễ dàng tìm thơng tin mà họ cần Đã có nhiều thuật tốn phân cụm tài liệu dựa phân cụm ngoại tuyến toàntập tài liệu Tuy nhiên việc tập hợp tài liệu máy tìmkiếm q lớn ln thay đổi khó phân cụm ngoại tuyến Do đó, việc phân cụm phải ứngdụngtập tài liệu nhỏ trả từ truy vấn thay trả danh sách dài thông tin gây nhập nhằng cho người sử dụng cần có phương pháp tổ chức lại kếttìmkiếm cách hợp lý P a g e | 19 II.ỨNG DỤNGLÝTHUYẾTTẬPTHƠTRONG GIẢI QUYẾT BÀI TỐN 1.KHÁI NIỆM CƠ BẢN a.Phân cụm Phân cụm nhóm đối tượng lại thành cụm cho thoả mãn : -Các đối tượng cụm giống gần xác định độ tương tự Hay nói cách khác, đối tượng cụm tương tự -Những đối tượng không cụm không tương tự Cần phân biệt phân lớp với phân cụm: Phân lớp gọi học có giám sát Là trình xếp đối tượng vào lớp biết trước Ví dụ phân lớp bệnh nhân theo liệu hồ sơ bệnh án Phân cụm gọi học khơng giám sát Là trình xếp đối tưọng theo cụm tự nhiên, tức số lượng tên cụm chưa biết trước Việc phân cụm có ích đưa nhìn tổng quan tồn thể liệu Để đạt điều đó, cụm cần tạo nhãn chủ đề, điểu giúp cho việc định hướng người dùng tài liệu cụm Việc tạo nhãn cho cụm vấn đề quan trọng nhiều nghiên cứu quan tâm Yêu cầu việc phân cụm xuất phát từ lĩnh vực thống kê, áp dụng cho liệu số Tuy nhiên, lĩnh vực khoa học máy tính khai phá liệu khái niệm mở rộng cho liệu text multimedia b.Phân cụmtậpkếttìmkiếm web Phân cụmtậpkết Web tổ chức xếp tậpkếttìmkiếm thành số nhóm chủ đề riêng theo cách bố cục tổng thể đến chi tiết, giống thư mục Ví dụ câu hỏi truy vấn “Clinton” kết trình bày theo chủ đề như:”Bill Clinton”, “Hillary Clinton”, “George Clinton”, v.v… Theo cách trình bày người sử dụng khơng có kinh nghiệm việc đặt câu hỏi truy vấn dễ dàng xác định nhanh chóng xác tài liệu quan tâm Mặt khác, người sử dụng đặt câu hỏi chung chung với mục đích biết thêm chủ đề nhiều thời gian Thay vào , họ cần duyệt theo nhóm chủ đề P a g e | 20 c.Hiệu Việc phân tài liệu thành nhóm chứng minh có hiệu trình duyệt tập lớn tài liệu Do việc phân cụmtậpkết có ưu điểm sau: - Việc tổ chức tậpkếttìmkiếm thành chủ để tạo điều kiện thuận lợi duyệt lớn kếttìmkiếm - Tên chủ đề giúp người sử dụng phát chủ để xác định nhanh chóng chủ để quan tâm - Việc phân chia tậpkết thành chủ để giúp người sử dụng nghiên cứu thêm tài liệu liên quan đến chủ để khác mà họ thường bỏ qua duyệt danh sách kếttìmkiếm trình bày theo phương thức truyền thống ranked list, tài liệu xa trang đầu d.Yêu cầu - Liên quan: Phân cụm phải tạo nhóm chủ đề khác biệt từ tậpkếttìmkiếm web, kết có liên quan với xếp vào nhóm khơng liên quan nhóm khác - Tính tổng thể: Nhãn chủ đề phải ngắn gọn xác Như giúp người sử dụng xác định nhanh chóng chủ để quan tâm tránh phải duyệt rải rác tồn tậpkết - Nạp chồng: Vì tài liệu thuộc nhiều chủ để tài liệu có thuộc vào nhiều nhóm khác - Tốc độ: Vì sử dụng hệ thông online, yêu cầu tốc độ xử lý phân cụm vô quan trọng để khơng làm chậm q trình xử lý truy vấn P a g e | 21 2.GIẢI THUẬT PHÂN CỤMTẬPKẾTQUẢTÌMKIẾM WEB a Giải thuật Input : Tập D gồm N snippet d1, d2,…., dN Output : K nhóm chủ đề khác biệt Mơ hình liệu: * Áp dụng mơ hình khơng gian vector để biểu diễn kếttìmkiếm snippet Cụ thể: - Mỗi snippet biểu diễn vector nhiều chiều Mỗi chiều tương ứng với từ snippet - Giả sử tập N snippet có M từ riêng biệt Khi đó, snippet biểu diễn dạng vector sau: di= (wi1, wi2 , , wiM) , wij trọng số từ thứ j snippet di Vì snippet D có chiều dài riêng (có số lượng từ khác nhau) Do để giải thuật phân cụm cho kết xác cần chuẩn hóa số chiều vectơ tương ứng với snippet D Như vây, với tập D tạo thành ma trận document-terms Giải thật phân cụm gồm có pha: Tiền xử lý snippet Trích chọn từ đặc trưng snippet (những từ thể nội dung snippet) Sinh lớp tolerance Phân cụm Tạo nhãn cho nhóm P a g e | 22 Ví dụ: Cho tập D= {d1, d2, d3, d4, d5, d6) Doc Title D1 Language modeling approach to information retrieval: the importance of a query term D2 Title language model for information retrieval D3 Two-stage language models for information retrieval D4 Building a web theaurus from web link structure D5 Implicit link analysis for small web search D6 Query type classification for web document retrieval Bước 1: Dựa vào ma trận tần số xuất TF để tính ma trận xuất nhị phân OC Tuy nhiên trường hợp OC=TF: Document/Term Information web Query Retrieval Model Language D1 1 1 D2 0 1 D3 0 1 D4 0 0 D5 0 0 D6 1 0 P a g e | 23 Bước 2: Tính ma trận tần số xuất (term co-occurrence) COC Term Information web Query Retrieval Model Language Information 3 web 1 0 Query 1 2 Retrieval Model 0 2 Language 3 Bước3: Tính ma trận nhị phân tolerance(term tolerance binary)TOL với θ > Term Information web Query Retrieval Model Language Information 1 1 web 1 0 Query 1 1 Retrieval 1 1 1 Model 0 1 Language 1 1 P a g e | 24 Từ ma trận TOL xác định lớp tolerance từ D Term Lớp Tolerance Information Information, query, retrieval, model, language web Web, query, retrieval Query Information, web, query, retrieval, language Retrieval Information, web, query, retrieval, model,language Model Information, retrieval, model,language Language Information, query, retrieval, model,language Giải thuật thực để sinh K nhóm ( K chọn phụ thuộc vào chiều dài (số lượng snippet) D) Giải thuật Input: D – tập N snippet, K- số nhóm, δ - ngưỡng tương tự với … Output: K nhóm snippet từ tập D (có thể nạp chồng) với giá trị thuộc mờ P a g e | 25 * Giải thuật xác định đại diện nhóm (determine_cluster- _representatives(RK)) Đại diện nhóm Rk thể nét đặc trưng tiêu biểu nhóm k, : - Mỗi snippet di nhóm Ck phải chứa từ Rk - Những từ Rk phải xuất hầu hết snippet thuộc nhóm Ck - Khơng phải từ Rk cần phải xuất snippet thuộc nhóm Ck P a g e | 26 Trọng số từ tj Rk tính sau: Giải thuật: Rk= ∅ for all di ∈ Ck and tj ∈ di if f fC t j Ck > σ k ( )/ Rk = Rk ∪ tj end if end for if di ∈ Ck and di ∩ Rk = ∅ then Rk = Rk ∪ argmax j diwij Rk ∪ maxt ∈ arg end if Tạo nhãn cho nhóm Pha tạo nhãn cho nhóm chủ đề cơng việc vơ quan trọng Vì nhãn thể đặc trưng chung nhóm việc tạo ảnh hưởng đến chất lượng toàn giải thuật phân cụm Giải thuật tạo nhãn thực dựa phương pháp n_gram để trích chọn nhóm từ phần tử đại diện nhóm Nhóm từ chọn làm nhãn (tên chủ đề) nhóm Theo phương pháp n_gram để nhóm từ thể tính sinh động nhóm phải chọn theo tiêu chuẩn sau: + Mức độ thường xuyên xuất nhóm từ toàntập D P a g e | 27 + Mức độ thường xuyên xuất nhóm từ nhóm + Chiều dài nhóm (số từ hình thành nên nhóm từ) Do vậy, quan sát trực quan phương pháp TD*IDF thấy nhóm từ tương đối xuất tồn tập D xuất thường xuyên snippet nhóm ứng cử viên sáng giá cho việc chọn làm nhãn nhóm b Một số thuật tốn phân cụm khơng giám sát b.1 Phương pháp phân hoạch • Thuật tốn K-means • Thuật tốn K-medoids b.2 Phương pháp phân cấp Phân cụm phân cấp chia thành hai phương pháp : top-down bottom-up - Phương pháp bottom-up: Phương pháp thiết kế theo chiến lược từ lên (bottom-up) Phương pháp bắt đầu với đối tượng khởi tạo tương ứng với cụm riêng biệt, sau ghép cụm thành cụm lớn tất đối tượng nằm cụm cho tối gặp điều kiện dừng - Phương pháp top-down: Phương pháp thiết kế theo chiến lược xuống (top-down), thực ngược lại so với phương pháp bottom-up, tức chia nhỏ cụm lớn thành cụm nhỏ đối tượng chứa cụm riêng lẻ gặp điều kiện dừng như: đạt đến số lượng cụm cho phép, khoảng cách hai cụm gần lớn khoảng cách ngưỡng • Thuật tốn CURE CURE thuật toán sử dụng chiến lược bottom-up phương pháp phân cụm phân cấp Khác với hai thuật toán phân cụm phân hoạch thuật toán CURE sử dụng nhiều đối tượng để biểu diễn cho cụm thay sử dụngtrọng tâm hay đối tượng tâm Các đối tượng đại diện cụm ban đầu chọn rải rác vị trí khác nhau, sau chúng di P a g e | 28 chuyển cách co lại theo tỉ lệ định Khi hai cụm có cặp đối tượng đại diện gần trộn lại thành cụm • Thuật tốn BIRCH BIRCH thuật toán phân cụm phân cấp sử dụng chiến lược Top-down Tư tưởng BIRCH khơng lưu tồn đối tượng liệu cụm nhớ mà lưu tham số thống kê Đối với cụm liệu, BIRCH lưu ba (N, LS, SS), N số đối tượng cụm, LS tổng giá trị thuộc tính đối tượng cụm, SS tổng bình phương giá trị thuộc tính đối tượng cụm Bộ ba gọi đặc trưng cụm (Cluster Feature- CF) Khi cụmtập liệu ban đầu cho dạng P a g e | 29 CHƯƠNG 3: MỘT SỐ GIAO DIỆN KHI CHẠY CHƯƠNG TRÌNH DEMO 1.Giao diện chương trình 2.Giao diện kết thuật toán phân cụm K-means P a g e | 30 TÀI LIỆU THAM KHẢO Tolerance rough set approach to clustering web search result, Ngô Chi Lăng -2003 Unsupervised Word Discriimation by Clustering Similar Contexts,Amruta Purandare -2004 Valued Tolerance and Decision Rlues, Jerzy Stefanowski From n_gramn to collocation an evaluation of xtract P a g e | 31 ... đề này, toán phân cụm đưa áp dụng Bài báo cáo sau bước đâu tìm hiểu làm rõ kỹ thuật “phân cụm tập kết tìm kiếm web” để người đọc có nhìn hơn, rõ ràng lĩnh vực đem lại kết tìm kiếm web có chất... kiếm cách hợp lý P a g e | 19 II .ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG GIẢI QUYẾT BÀI TOÁN 1.KHÁI NIỆM CƠ BẢN a.Phân cụm Phân cụm nhóm đối tượng lại thành cụm cho thoả mãn : -Các đối tượng cụm giống gần... CÁC TẬP THUỘC TÍNH VII.RÚT GỌN THUỘC TÍNH 1.Khái niệm 12 13 13 2.Ma trận phân biệt, hàm phân biệt 15 CHƯƠNG 2: BÀI TOÁN PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB 18 I.GIỚI THIỆU BÀI TỐN 18 II .ỨNG DỤNG LÝ