Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
1,42 MB
Nội dung
Luận văn Phân cụm tập kết quả t ìm kiếm web dựa vào tập thô dung sai Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 1 1 1 Mục lục CHƢƠNG 1 4 VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB 4 1.1. Máy truy tìm Web 4 1.1.1. Web Crawler 5 1.1.2. Document Index (lập chỉ mục tài liệu) 5 1.1.3. Document Cache(lƣu trữ tài liệu) 6 1.1.4. Document Ranking 6 1.1.5. Query Processor(bộ xử lý truy vấn) 6 1.1.6. Presentation interface(giao diện trình bày) 6 2.1. Trình bày kết quả tìm kiếm của máy truy tìm Web Google 7 CHƢƠNG II 10 PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 10 2.1. Khái niệm phân cụm 10 2.2. Phân cụm tập kết quả tìm kiếm Web 10 2.2.1. Khái niệm 10 2.2.2. Phép đo độ tƣơng tự 11 2.2.3. Đặc điểm 12 2.2.4. Hiệu quả 13 2.2.5. Yêu cầu 13 2.3. Lý thuyết tập thô 14 2.3.1. Giới thiệu 14 2.3.2. Quan hệ không thể phân biệt 15 2.3.3. Hàm thuộc thô 16 2.3.4. Định nghĩa Hệ thông tin 16 2.3.5. Không gian xấp xỉ tổng quát (Generalized approximation spaces) 19 2.4. Mô hình tập thô dung sai (TRSM) 21 2.4.1. Không gian tolerance của các từ 21 2.4.2. Biểu diễn tài liệu 23 3. Phƣơng pháp trọng số mở rộng đối với xấp xỉ trên 24 Chƣơng III Giải thuật phân cụm tập kết quả tìm kiếm web 26 3.1. Giải thuật 26 3.1.1. Tiền xử lý snippet 27 3.1.2. Trích chọn những từ đặc trƣng của mỗi snippet 28 3.1.3. Sinh lớp tolerance 31 3.1.4. Giải thuật phân cụm K-means 34 3.1.5. Tạo nhãn cho mỗi nhóm 36 3.2. Một số thuật toán phân cụm không giám sát 37 3.2.1. Phƣơng pháp phân hoạch 37 3.2.2. Phƣơng pháp phân cấp 37 Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 2 2 2 LỜI CẢM ƠN Sau thời gian làm đồ án, lời đầu tiên em xin cảm ơn thầy giáo huớng dẫn Th.s Nguyễn Trọng Thể đã tận tình hướng dẫn, chỉ bảo và tạo mọi điều kiện thuận lợi để em hoàn thành tốt đồ án tốt nghiệp được giao. Em xin chân thành cảm ơn các thầy cô giáo trong khoa công nghệ thông tin trường Đại học dân lập Hải Phòng đã giảng dạy và cung cấp tất cả các kiến thức chuyên môn cần thiết và quý giá nhất. Ngoài ra chúng em còn được rèn luyện một tinh thần học tập và sáng tạo. Đây chính là tính cách hết sức cần thiết để có thể thành công khi bắt tay vào công việc trong tương lai. Cuối cùng em xin gửi lời cảm ơn tới tất cả người thân, bạn bè đã giúp đỡ, động viên và đóng góp nhiều ý kiến quý báu cho em trong quá trình làm báo cao tốt nghiệp này. Em xin trân trọng cảm ơn! Hải Phòng, tháng 8 năm 2007 Sinh viên Nguyễn Thị Việt Ánh Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 3 3 3 LỜI MỞ ĐẦU Ngày nay với sự bùng nổ thông tin , Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ và quý giá. Nó cung cấp cho chúng ta thông tin về mọi lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đi đôi với sự thuận lợi ấy có một vấn đề được đặt ra là chúng ta làm thế nào để truy cập và khai phá được nguồn tài nguyên ấy hiệu quả nhất. Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Web search engine). Máy này có khả năng tìm kiếm thông tin linh hoạt , nhanh chóng và rất dễ sử dụng . Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan tâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google 1 , Altavista 2 , HotBot 3 , Lycos 4 , AllTheWeb 5 là những máy truy tìm hiệu quả và đang được sử dụng rộng rãi . Ngoài ra, người ta cũng đã tạo ra các thư mục Web , chẳng hạn như Yahoo 6 ,Open Directory Project 7 . Theo kiểu này thì các tài liệu Web được sắp xếp thành các thư có phân cấp, người sử dụng có thể tìm thông tin bắng cách duyệt các cây thư mục và xác định tài liệu mình cần tìm. Thế nhưng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệu quả , chiếm nhiều thời gian vì: -Khối lượng dữ liệu khổng lồ và tính động của các trang Web, nên máy truy tìm chỉ có thể sắp xếp một phần các chỉ mục của Web. -Người sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện được hết ý định của họ , do vậy mà tập kết quả tìm kiếm Web là chung chung. Từ ảnh hưởng hai nhân tố trên tập kết quả tìm kiếm Web có thể từ hàng nghìn đến hang triệu tài liệu, do đó tìm được đúng tài liệu mình cần là công việc vô cùng khó khăn. 1 http://www.google.com 2 http://www.altavista.com 3 http://www.hotbot.com 4 http://www.lycos.com 5 http://www.alltheweb.com 6 http://www.yahoo.com 7 http://www.dmoz.org Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 4 4 4 CHƢƠNG I VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB Như chúng ta đều biết www như là từ điển bách khoa toàn thư , là thư viện khổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cập internet. Đối với chúng ta nó là một trong những nguồn tài nguyên thông tin có giá trị nhất, nếu không có nó thì mọi hoạt động hang ngày sẽ kém hiệu quả. Nhưng vấn đề đặt ra là chúng ta phải truy cập và sử dụng nguồn tài nguyên ấy nhhư thế nào để có hiệu quả nhất. Để tìm được đúng thông tin cần tìm trong nguồn tài nguyên khổng lồ là một thách thức lớn . Chính vì vậy mà hiện nay đã và đang có rất nhiều hướng nghiên cứu để giải quyết vấn đề này. 1.1. Máy truy tìm Web Một trong những thành công nhất trong nghiên cứu và giải quyết vấn đề trên là việc tạo ra được máy truy tìm Web. Máy này có nhiệm vụ giúp người sử dụng tìm tài liệu mình quan tâm. Các tài liệu chủ yếu có dạng HTML, PDF, PS, MS Word và MS PowerPoint. Giao diện máy truy tìm thân thiện và rất dễ sử dụng , người sử dụng chỉ cần đặt câu hỏi truy vấnvà ra lệnh tìm. Máy sẽ trả về tập kết quả tìm kiếm(được gọi là các sinppet) liên quan đến câu hỏi truy vấn đó. Snippet miêu tả ngắn gọn nội dung của tài liệu Web(trang Web), nó thường bao gồm tựa đề , địa chỉ web của tài liệu (được gọi là URL)và một đoạn text trình bày nội dung liên quan đến câu hỏi truy vấn . Cấu trúc và phƣơng thức hoạt động của máy truy tìm Web nhƣ sau: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 5 5 5 1.1.1. Web Crawler Web Crawler là một trong hai thành phần trực tiếp tương tác với internet, nó còn được gọi là web spider hoặc robot. Công việc chính của Web Crawler là phát hiện những nguồn tài nguyên mới trên Web. Nó giải quyết vấn đề này bằng cách thực hiện tìm kiếm đệ quy theo các đường link từ tất cả các trang đã được duyệt . Trong khi khai phá các nguồn tài nguyên mới trên Internet, Web Crawler còn có nhiệm vụ kiểm tra xem các trang có còn hợp lệ không và chúng ta đã được cập nhật hay chưa. Mục đích của công việc này là giúp cho máy truy tìm cập nhật được tất cả tài liệu của Web(kể cả các tài liệu cũ và mới). 1.1.2. Document Index (lập chỉ mục tài liệu) Mục đích chính của việc lập chỉ mục tài liệu là hỗ trợ tìm kiếm. Tìm tài liệu có chứa những từ trong câu hỏi truy vấn? Để thực hiện công việc này thì đa số các máy truy tìm sử dụng biến dữ liệu có cấu trúc inverted index. Inverted index giống như danh sách chỉ mục ở phần cuối của cuốn sách – trong đó với mỗi một từ là một danh sách liên kết các tài liệu có từ đó xuất hiện. Biến này có khả năng giúp máy truy tìm xác định chính xác tài liệu có chứa các từ trong câu hỏi truy vấn. Với Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 6 6 6 bảng chỉ mục như vậy , máy truy tìm có thể thực hiện tìm kiếm theo nhóm từ hoặc tìm kiếm từ lân cận. 1.1.3. Document Cache(lƣu trữ tài liệu) Nhiều máy phục vụ tìm kiếm vừa lưu trữ bảng chỉ mục tài liệu theo từ (document index), vừa lưu trữ bảng chỉ mục tài liệu gốc .Mục đích của việc lưu trữ bảng chỉ mục các tài liệu gốc (tài liệu đầy đủ) là tạo ra các sippet và phục vụ cho việc lưu trữ các phiên bản của tài liệu. 1.1.4. Document Ranking Chắc chắn rằng trong môi trường www, thậm chí đối với cả những câu hỏi truy vấn hoàn thiện và chính xác , thì tập kết quả trả tìm kiếm vẫn là hang ngàn hoặc hàng triệu tài liệu. Do vậy , cần phải có công nghệ thực hiện sắp xếp tập kết quả thu về theo mức độ liên quan và mức độ quan tâm. Và đây chính là công việc của Document Ranking. 1.1.5. Query Processor(bộ xử lý truy vấn) Vai trò của Query Processor là phối hợp với các bộ trên để thực hiện trả lời câu hỏi truy vấn của người sử dụng. Cụ thể , trong quá trình thực hiện Query Processor kết hợp các thành phần document index, document cache, document ranking để tạo ra tập kết quả tìm kiếm liên quan đến câu hỏi truy vấn. 1.1.6. Presentation interface(giao diện trình bày) Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 7 7 7 Kết quả tìm kiếm Web được đưa đến người sử dụng thông qua giao diện này. Do vậy presentation interface đóng vai trò vô cùng quan trọng, nó ảnh hưởng toàn bộ chất lượng của máy truy tìm. Bởi vì người sử dụng chỉ cần quan tâm kết quả nhận được thông qua giao diện mà không quan tâm máy hoạt động xử lý tìm kiếm web như thế nào. 2.1. Trình bày kết quả tìm kiếm của máy truy tìm Web Google Cách biểu diễn tập kết quả tìm kiếm đến người sử dụng đóng vai trò vô cùng quan trọng . Nó giúp người sử dụng xác định được tài lệu họ cần tìm. Giao diện trình bày kết quả tìm kiếm được đánh giá tốt nếu không để người sử dụng gặp ngay những tài liệu được cho là không liên quan đến vấn đề cần tìm ở ngay đầu danh sách kết quả tìm kiếm . Tuy nhiên , tiêu chuẩn này quá khắt khe vì - Hầu hết người sử dụng thường đặt câu hỏi ngắn và chung chung cho máy truy tìm - Trong khi đặt câu hỏi cho máy truy tìm ,người sử dụng không đặt được câu hỏi đúng như ý định , bởi vì: khi người sử dụng muốn tìm một thông tin trên Web , nghĩa là trong suy nghĩ của họ đã hình thành khái niệm về cái mình muốn tìm. Khái niệm này được chuyển thành tập từ.Tập từ này được sử dụng để đặt câu hỏi truy vấn . Thế nhưng tính chính xác của việc chuyển đổi giữa khái niệm và tập từ lại phụ thuộc vào nhiều yếu tố, chẳng hạn như kinh nghiệm tìm kiếm , kiến thức cơ bản liên quan đến khái niệm đó , hoặc sự thành thạo về ngôn ngữ. Do đó đã tạo nên sự không cân xứng giữa khái niệm và câu hỏi truy vấn. Vì thế máy truy tìm không thể biết được chủ đề người sử dụng thực sự quan tâm. Hiện nay các máy truy tìm vẫn chưa đáp ứng được tiêu chuẩn trên, vì sử dụng phương thức trình bày kết quả Ranked list . Theo phương thức này tập kết Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 8 8 8 quả thu về từ câu hỏi truy vấn được sắp xếp theo mối liên quan đến câu hỏi truy vấn - những tài liệu liên quan nhất được xếp đầu danh sách. Tùa ®Ò snippet M« t¶ url Mặc dù vậy cách sắp xếp này vẫn còn nhiều nhược điểm : -Vì Ranked list trình bày kết quả theo mối quan hệ với câu hỏi truy vấn . Do vậy có nhiều hơn 24 kết quả tìm kiếm thì ranked list trở thành không thực tế đối với việc duyệt kết quả. -Phương thức ranked list yêu cầu khắt khe về thứ tự giữa các kết quả tìm kiếm với giả thuyết rằng các snippet luôn có thể so sánh được với nhau .Tuy nhiên với câu hỏi truy vấn chung chung, sẽ có những kết quả trả về mà nó chỉ chứa chủ đề con , do vậy việc so sánh giữa các kết quả không cân xứng . Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 9 9 9 Lý do trên đã tạo động lực cho người ta nghiên cứu và xây dựng phương thức trình bày kết quả mới khắc phục tất cả những nhược điểm của phương thức cũ . Phân cụm tập kết quả tìm kiếm Web là một trong những phương thức mới đang được nhiều người quan tâm nghiên cứu [...]... nhng khụng 24 24 Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai xut hin trong ti liu di bao gi cng cú trng s nh hn trng s ca bt k mt t no trong ti liu di Sau ú chun húa chiu di vector ca tt c cỏc vector ti liu bng cụng thc sau: wij wij t k d i ( wij ) 2 25 25 Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai Chng III Gii thut phõn cm tp kt qu tỡm kim web 3.1 Gii thut Input : Tp D gm N snippet... Language 1 0 1 1 1 1 T ma trn TOL xỏc nh lp tolerance ca cỏc t trong D 32 32 Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai Term Lp Tolerance Information Information, query, retrieval, model, language Web Web, query, retrieval Query Information, web, query, retrieval, language Retrieval Information, web, query, retrieval, model,language Model Information, retrieval, model,language Language Information,...Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai CHNG II PHN CM TP KT QU TèM KIM WEB DA VO TP THễ DUNG SAI 2.1 Khỏi nim phõn cm Phõn cm l nhúm cỏc i tng li thnh cỏc cm sao cho tho món : -Cỏc i tng trong mi cm l ging nhau hoc gn nhau c xỏc nh bng tng t Hay núi cỏch... (3i+1j) v doc2 c biu din (2i+4j) 11 11 Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai Biu din di dng mt im trong khụng gian nhiu chiu, doc1 c biu din (3,1) v doc2 c biu din (2,4) Hình1: Các đối t-ợng đ-ợc biểu diễn d-ới dạng vector Hình2: Các đối t-ợng đ-ợc biểu diễn d-ới dạng điểm 2.2.3 c im 12 12 Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai -Phõn cm tp kt qu cú tớnh ph thuc vo cõu hi truy vn ca... phn th hin ni dung ca ti liu nhiu hn so vi nhng t ch xut hin mt vi ln Tuy nhiờn, nhng t m xut hin thng xuyờn trong ton tp ti liu D thỡ s khụng cú ý ngha nhiu trong vic phõn bit ni dung gia nhng ti liu, vỡ vy nhõn t idf phi c s dng lm gim vai trũ ca t thng xuyờn xut hin trong ton tp ti liu D Vớ d: Cho tp D= {d1, d2, d3, d4, d5, d6) 29 29 Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai Doc Title... for information retrieval d3 Two-stage language models for information retrieval d4 Building a web theaurus from web link structure d5 Implicit link analysis for small web search d6 Query type classification for web document retrieval Bng 1: Tp cỏc snippet v nhng t c trớch chn (t c gch chõn) Information Web Query Retrieval Model Language d1 1 0 1 1 0 1 d2 1 0 0 1 1 1 d3 1 0 0 1 1 1 d4 0 1 0 0 0 0 d5... cm tp kt qu tỡm kim web da vo tp thụ dung sai Vớ d: Bc 1: Da vo ma trn tn s xut hin TF tớnh ma trn xut hin nh phõn OC Tuy nhiờn trong trng hp ny OC=TF Document/Term Information Web Query Retrieval Model Language d1 1 0 1 1 0 1 d2 1 0 0 1 1 1 d3 1 0 0 1 1 1 d4 0 1 0 0 0 0 d5 0 1 0 0 0 0 d6 0 1 1 1 0 0 Bc 2: Tớnh ma trn cựng tn s xut hin (term co-occurrence) COC Term Information Web Query Retrieval... t1, , tM} Thụng qua mụ hỡnh khụng gian vect, mi ti liu di c biu din bi mt vect cú trng s [wi1, wi2, ., wiM], vi wij l trng s ca t j trong ti liu 21 21 Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai di Trong mụ hỡnh tp thụ dung sai, khụng gian tolerance c nh ngha da trờn ton b cỏc t trong D U= T = {t1, t1, , tM} Mc ớch t ra l cn c vo mi quan h gia cỏc t thc hin phõn lp cỏc ti liu Vi mc ớch ny, quan... trn tn s xut hin document-terms Document/Term Information Web Query Retrieval Model Language d1 0.301 0 0.4771 0.1761 0 d2 0.301 0 0 0.1761 0.4771 0.301 d3 0.301 0 0 0.1761 0.4771 0.301 d4 0 0.6021 0 0 0 0 d5 0 0.301 0 0 0 0 d6 0 0.301 0.4771 0.1761 0 0 0.301 Bng 3: Ma trn trng s document-terms 30 30 Phõn cm tp kt qu tỡm kim web da vo tp thụ dung sai 3.1.3 Sinh lp tolerance Mi mt t trong tp D u cú th... Trong khụng gian xp x A thỡ cỏc xp x ca tp X U c nh ngha nh sau: LA(X) = {x U : P(I(X)) =1 (x, X) =1 } U A(X) = {x U : P(I(X)) =1 (x, X) >0 } 2.4 Mụ hỡnh tp thụ dung sai (TRSM) Vi kh nng gii quyt linh hot tớnh gn ỳng v tớnh m, tp thụ dung sai c ỏnh giỏ l mt cụng c y ha hn xỏc nh mi quan h gia t v ti liu Bt c vn no trong lnh vc thu thp thụng tin, c bit trong vic phõn cm ti liu thỡ vic nh ngha mi quan . bày kết quả tìm kiếm của máy truy tìm Web Google 7 CHƢƠNG II 10 PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 10 2.1. Khái niệm phân cụm 10 2.2. Phân cụm tập kết quả tìm kiếm Web. tập kết quả tìm kiếm web dựa vào tập thô dung sai 1 1 1 0 0 0 CHƢƠNG II PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 2.1. Khái niệm phân cụm Phân cụm. Luận văn Phân cụm tập kết quả t ìm kiếm web dựa vào tập thô dung sai Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 1 1 1