Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai Mục lục CHƯƠNG VẤN ĐỀ TÌM KIẾM THƠNG TIN TRÊN WEB 1.1 Máy truy tìm Web 1.1.1 Web Crawler 1.1.2 Document Index (lập mục tài liệu) 1.1.3 Document Cache(lưu trữ tài liệu) 1.1.4 Document Ranking 1.1.5 Query Processor(bộ xử lý truy vấn) .7 1.1.6 Presentation interface(giao diện trình bày) 2.1 Trình bày kết tìm kiếm máy truy tìm Web Google CHƯƠNG II 10 PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 10 2.1 Khái niệm phân cụm .10 2.2 Phân cụm tập kết tìm kiếm Web 10 2.2.1 Khái niệm .10 2.2.2 Phép đo độ tương tự 11 2.2.3 Đặc điểm 12 2.2.4 Hiệu 13 2.2.5 Yêu cầu 13 2.3 Lý thuyết tập thô 14 2.3.1 Giới thiệu 14 2.3.2 Quan hệ phân biệt 15 2.3.3 Hàm thuộc thô 16 2.3.4 Định nghĩa Hệ thông tin 16 2.3.5 Không gian xấp xỉ tổng quát (Generalized approximation spaces) 18 2.4 Mơ hình tập thơ dung sai (TRSM) .20 2.4.1 Không gian tolerance từ 20 2.4.2 Biểu diễn tài liệu .22 Phương pháp trọng số mở rộng xấp xỉ 22 Chương III Giải thuật phân cụm tập kết tìm kiếm web 24 3.1 Giải thuật 24 3.1.1 Tiền xử lý snippet .24 3.1.2 Trích chọn từ đặc trưng snippet 26 3.1.3 Sinh lớp tolerance 28 3.1.4 Giải thuật phân cụm K-means 30 3.1.5 Tạo nhãn cho nhóm 33 3.2 Một số thuật tốn phân cụm khơng giám sát 33 3.2.1 Phương pháp phân hoạch .33 3.2.2 Phương pháp phân cấp 34 Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai LỜI CẢM ƠN Sau thời gian làm đồ án, lời em xin cảm ơn thầy giáo huớng dẫn Th.s Nguyễn Trọng Thể tận tình hướng dẫn, bảo tạo điều kiện thuận lợi để em hoàn thành tốt đồ án tốt nghiệp giao Em xin chân thành cảm ơn thầy cô giáo khoa công nghệ thông tin trường Đại học dân lập Hải Phòng giảng dạy cung cấp tất kiến thức chuyên mơn cần thiết q giá Ngồi chúng em rèn luyện tinh thần học tập sáng tạo Đây tính cách cần thiết để thành cơng bắt tay vào công việc tương lai Cuối em xin gửi lời cảm ơn tới tất người thân, bạn bè giúp đỡ, động viên đóng góp nhiều ý kiến quý báu cho em trình làm báo cao tốt nghiệp Em xin trân trọng cảm ơn! Hải Phòng, tháng năm 2007 Sinh viên Nguyễn Thị Việt Ánh Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai LỜI MỞ ĐẦU Ngày với bùng nổ thông tin , Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ q giá Nó cung cấp cho thơng tin lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đôi với thuận lợi có vấn đề đặt làm để truy cập khai phá nguồn tài nguyên hiệu Từ vấn đề người ta nghiên cứu tạo Máy truy tìm web(Web search engine) Máy có khả tìm kiếm thơng tin linh hoạt , nhanh chóng dễ sử dụng Người sử dụng cần đặt câu hỏi truy vấn vấn đề cần quan tâm có tập kết liên quan đến câu hỏi truy vấn đó.Hiện Google 1, Altavista2, HotBot3, Lycos4, AllTheWeb5 máy truy tìm hiệu sử dụng rộng rãi Ngoài ra, người ta tạo thư mục Web , chẳng hạn Yahoo ,Open Directory Project7 Theo kiểu tài liệu Web xếp thành thư có phân cấp, người sử dụng tìm thơng tin bắng cách duyệt thư mục xác định tài liệu cần tìm Thế việc tìm kiếm thơng tin theo kiểu khơng hiệu , chiếm nhiều thời gian vì: -Khối lượng liệu khổng lồ tính động trang Web, nên máy truy tìm xếp phần mục Web -Người sử dụng đặt câu hỏi truy vấn ngắn, định họ , mà tập kết tìm kiếm Web chung chung Từ ảnh hưởng hai nhân tố tập kết tìm kiếm Web từ hàng nghìn đến hang triệu tài liệu, tìm tài liệu cần cơng việc vơ khó khăn http://www.google.com http://www.altavista.com http://www.hotbot.com http://www.lycos.com http://www.alltheweb.com http://www.yahoo.com http://www.dmoz.org 3 Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai CHƯƠNG I VẤN ĐỀ TÌM KIẾM THƠNG TIN TRÊN WEB Như biết www từ điển bách khoa toàn thư , thư viện khổng lồ sẵn sàng phục vụ quan tâm thông qua việc truy cập internet Đối với nguồn tài ngun thơng tin có giá trị nhất, khơng có hoạt động hang ngày hiệu Nhưng vấn đề đặt phải truy cập sử dụng nguồn tài nguyên nhhư để có hiệu Để tìm thơng tin cần tìm nguồn tài nguyên khổng lồ thách thức lớn Chính mà có nhiều hướng nghiên cứu để giải vấn đề 1.1 Máy truy tìm Web Một thành công nghiên cứu giải vấn đề việc tạo máy truy tìm Web Máy có nhiệm vụ giúp người sử dụng tìm tài liệu quan tâm Các tài liệu chủ yếu có dạng HTML, PDF, PS, MS Word MS PowerPoint Giao diện máy truy tìm thân thiện dễ sử dụng , người sử dụng cần đặt câu hỏi truy vấnvà lệnh tìm Máy trả tập kết tìm kiếm(được gọi sinppet) liên quan đến câu hỏi truy vấn Snippet miêu tả ngắn gọn nội dung tài liệu Web(trang Web), thường bao gồm tựa đề , địa web tài liệu (được gọi URL)và đoạn text trình bày nội dung liên quan đến câu hỏi truy vấn Cấu trúc phương thức hoạt động máy truy tìm Web sau: Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai 1.1.1 W eb Crawler Web Crawler hai thành phần trực tiếp tương tác với internet, cịn gọi web spider robot Cơng việc Web Crawler phát nguồn tài nguyên Web Nó giải vấn đề cách thực tìm kiếm đệ quy theo đường link từ tất trang duyệt Trong khai phá nguồn tài nguyên Internet, Web Crawler cịn có nhiệm vụ kiểm tra xem trang có cịn hợp lệ khơng cập nhật hay chưa Mục đích cơng việc giúp cho máy truy tìm cập nhật tất tài liệu Web(kể tài liệu cũ mới) 1.1.2 Document Index (lập mục tài liệu) Mục đích việc lập mục tài liệu hỗ trợ tìm kiếm Tìm tài liệu có chứa từ câu hỏi truy vấn? Để thực cơng việc đa số máy truy tìm sử dụng biến liệu có cấu trúc inverted index Inverted index giống danh sách mục phần cuối sách – với từ danh sách liên kết tài liệu có từ xuất Biến có khả giúp máy truy tìm xác định xác tài liệu có chứa từ câu hỏi truy vấn Với bảng mục , máy truy tìm thực tìm kiếm theo nhóm từ tìm kiếm từ lân cận Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai 1.1.3 Document Cache(lưu trữ tài liệu) Nhiều máy phục vụ tìm kiếm vừa lưu trữ bảng mục tài liệu theo từ (document index), vừa lưu trữ bảng mục tài liệu gốc Mục đích việc lưu trữ bảng mục tài liệu gốc (tài liệu đầy đủ) tạo sippet phục vụ cho việc lưu trữ phiên tài liệu 1.1.4 Document Ranking Chắc chắn môi trường www, chí câu hỏi truy vấn hồn thiện xác , tập kết trả tìm kiếm hang ngàn hàng triệu tài liệu Do , cần phải có cơng nghệ thực xếp tập kết thu theo mức độ liên quan mức độ quan tâm Và cơng việc Document Ranking 1.1.5 Query Processor(bộ xử lý truy vấn) Vai trò Query Processor phối hợp với để thực trả lời câu hỏi truy vấn người sử dụng Cụ thể , trình thực Query Processor kết hợp thành phần document index, document cache, document ranking để tạo tập kết tìm kiếm liên quan đến câu hỏi truy vấn 1.1.6 Presentation interface(giao diện trình bày) Kết tìm kiếm Web đưa đến người sử dụng thông qua giao diện Do presentation interface đóng vai trị vơ quan trọng, ảnh hưởng tồn chất lượng máy truy tìm Bởi người sử dụng cần quan tâm kết Phân cụm tập kết tìm kiếm web dựa vào tập thô dung sai nhận thông qua giao diện mà không quan tâm máy hoạt động xử lý tìm kiếm web 2.1 Trình bày kết tìm kiếm máy truy tìm Web Google Cách biểu diễn tập kết tìm kiếm đến người sử dụng đóng vai trị vơ quan trọng Nó giúp người sử dụng xác định tài lệu họ cần tìm Giao diện trình bày kết tìm kiếm đánh giá tốt không để người sử dụng gặp tài liệu cho không liên quan đến vấn đề cần tìm đầu danh sách kết tìm kiếm Tuy nhiên , tiêu chuẩn khắt khe - Hầu hết người sử dụng thường đặt câu hỏi ngắn chung chung cho máy truy tìm - Trong đặt câu hỏi cho máy truy tìm ,người sử dụng khơng đặt câu hỏi ý định , vì: người sử dụng muốn tìm thơng tin Web , nghĩa suy nghĩ họ hình thành khái niệm muốn tìm Khái niệm chuyển thành tập từ.Tập từ sử dụng để đặt câu hỏi truy vấn Thế tính xác việc chuyển đổi khái niệm tập từ lại phụ thuộc vào nhiều yếu tố, chẳng hạn kinh nghiệm tìm kiếm , kiến thức liên quan đến khái niệm , thành thạo ngơn ngữ Do tạo nên không cân xứng khái niệm câu hỏi truy vấn Vì máy truy tìm khơng thể biết chủ đề người sử dụng thực quan tâm Hiện máy truy tìm chưa đáp ứng tiêu chuẩn trên, sử dụng phương thức trình bày kết Ranked list Theo phương thức tập kết thu từ câu hỏi truy vấn xếp theo mối liên quan đến câu hỏi truy vấn - tài liệu liên quan xếp đầu danh sách Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai snippet Tựa đề Mô tả url Mc dự vy cách xếp nhiều nhược điểm : -Vì Ranked list trình bày kết theo mối quan hệ với câu hỏi truy vấn Do có nhiều 24 kết tìm kiếm ranked list trở thành không thực tế việc duyệt kết -Phương thức ranked list yêu cầu khắt khe thứ tự kết tìm kiếm với giả thuyết snippet ln so sánh với Tuy nhiên với câu hỏi truy vấn chung chung, có kết trả mà chứa chủ đề , việc so sánh kết không cân xứng Lý tạo động lực cho người ta nghiên cứu xây dựng phương thức trình bày kết khắc phục tất nhược điểm phương thức cũ Phân cụm tập kết tìm kiếm Web phương thức nhiều người quan tâm nghiên cứu Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai CHƯƠNG II PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 2.1 Khái niệm phân cụm Phân cụm nhóm đối tượng lại thành cụm cho thoả mãn : -Các đối tượng cụm giống gần xác định độ tương tự Hay nói cách khác, đối tượng cụm tương tự -Những đối tượng không cụm không tương tự Cần phân biệt phân lớp với phân cụm: Phân lớp cịn gọi học có giám sát Là trình xếp đối tượng vào lớp biết trước Ví dụ phân lớp bệnh nhân theo liệu hồ sơ bệnh án Phân cụm cịn gọi học khơng giám sát Là trình xếp đối tưọng theo cụm tự nhiên, tức số lượng tên cụm chưa biết trước Yêu cầu việc phân cụm xuất phát từ lĩnh vực thống kê, áp dụng cho liệu số Tuy nhiên, lĩnh vực khoa học máy tính khai phá liệu khái niệm mở rộng cho liệu text multimedia 2.2 Phân cụm tập kết tìm kiếm Web 2.2.1 Khái niệm Phân cụm tập kết Web tổ chức xếp tập kết tìm kiếm thành số nhóm chủ đề riêng theo cách bố cục tổng thể đến chi tiết, giống thư mục Ví dụ câu hỏi truy vấn “Clinton” kết trình bày theo chủ đề như:”Bill Clinton”, “Hillary Clinton”, “George Clinton”, v.v… Theo cách trình bày người sử dụng khơng có kinh nghiệm việc đặt câu hỏi truy vấn dễ dàng xác định nhanh chóng xác tài liệu quan tâm Mặt khác, người sử dụng đặt câu hỏi chung Phân cụm tập kết tìm kiếm web dựa vào tập thơ dung sai chung với mục đích biết thêm chủ đề nhiều thời gian Thay vào , họ cần duyệt theo nhóm chủ đề 2.2.2 Phép đo độ tương tự Bản chất cơng việc phân cụm nhóm đối tượng tương tự với vào nhóm Vậy cần phải có phép đo để đo độ tương tự đối tượng Đối với đối tượng tài liệu người ta thường hay sử dụng phép đo hệ số góc cosin để đo độ tương tự hai tài liệu (mỗi tài liệu biểu diễn dạng vector) Công thức đo độ tương tự sau: t x y i Cosin(X,Y) = i i 1 t  xi2  i 1  yi2  t x y i i i 1 Trong -X (x1 ,x2 , … ,xt) Y(y1 ,y2 ,… ,yt) vector biểu diễn hai tài liệu -xi ,yi trọng số thành phần thứ I vector X,Y tương ứng Chú ý: -Khi hệ số góc cosin =1 nghĩa hai snippet hồn tồn tương tự nhau(trùng nhau) -Khi hệ số góc cosin =0 nghĩa hai snippet khơng hồn tồn tương tự nhau(trùng nhau) -Các tài liệu biểu diễn dạng vector, điểm khơng gian nhiều chiều Ví dụ: tài liệu doc1 doc2, sau trích chọn thuộc tính đặc trưng snippet Trong doc1:từ computer xuất lần, từ finace xuất lần Trong doc2:từ computer xuất lần, từ finace xuất lần Biểu diễn dạng vector, doc1 biểu diễn (3i+1j) doc2 biểu diễn (2i+4j) 10

Định dạng
Số trang	41
Dung lượng	1,81 MB