Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
1,24 MB
Nội dung
TiểuluậnPhâncụmtậpkếtquảtìmkiếmwebdựavàotậpthôdungsaiPhâncụmtậpkếtquảtìmkiếmwebdựavàotậpthôdungsai 1 1 1 LỜI MỞ ĐẦU Ngày nay với sự bùng nổ thông tin , Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ và quý giá. Nó cung cấp cho chúng ta thông tin về mọi lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đi đôi với sự thuận lợi ấy có một vấn đề được đặt ra là chúng ta làm thế nào để truy cập và khai phá được nguồn tài nguyên ấy hiệu quả nhất. Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Web search engine). Máy này có khả năng tìmkiếm thông tin linh ho ạt , nhanh chóng và rất dễ sử dụng . Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan tâm là có được tậpkếtquả liên quan đến câu hỏi truy vấn đó.Hiện nay Google 1 , Altavista 2 , HotBot 3 , Lycos 4 , AllTheWeb 5 là những máy truy tìm hiệu quả và đang được sử dụng rộng rãi . Ngoài ra, người ta cũng đã tạo ra các thư mục Web , chẳng hạn như Yahoo 6 ,Open Directory Project 7 . Theo kiểu này thì các tài liệu Web được sắp xếp thành các thư có phân cấp, người sử dụng có thể tìm thông tin bắng cách duyệt các cây thư mục và xác định tài liệu mình cần tìm. Thế nhưng việc tìmkiếm thông tin theo những kiểu trên vẫn không hiệu quả , chiếm nhiều thời gian vì: -Khối lượng dữ liệu khổng lồ và tính động của các trang Web, nên máy truy tìm chỉ có thể sắp xếp một phần các chỉ mục của Web. -Người sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện được hết ý định của họ , do vậy mà tậpkếtquảtìmkiếmWeb là chung chung. Từ ảnh hưởng hai nhân tố trên tậpkếtquảtìmkiếmWeb có thể từ hàng nghìn đến hang triệu tài liệu, do đó tìm được đúng tài liệu mình cần là công việc vô cùng khó khăn. 1 http://www.google.com 2 http://www.altavista.com 3 http://www.hotbot.com 4 http://www.lycos.com 5 http://www.alltheweb.com 6 http://www.yahoo.com 7 http://www.dmoz.org Phâncụmtậpkếtquảtìmkiếmwebdựavàotậpthôdungsai 2 2 2 CHƯƠNG I VẤN ĐỀ TÌMKIẾM THÔNG TIN TRÊN WEB Như chúng ta đều biết www như là từ điển bách khoa toàn thư , là thư viện khổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cập internet. Đối với chúng ta nó là một trong những nguồn tài nguyên thông tin có giá trị nhất, nếu không có nó thì mọi hoạt động hang ngày sẽ kém hiệu quả. Nhưng vấn đề đặt ra là chúng ta phải truy cập và sử dụng nguồn tài nguyên ấy nhhư thế nào để có hiệu quả nhất. Để tìm được đúng thông tin cần tìm trong nguồn tài nguyên khổng lồ là một thách thức lớn . Chính vì vậy mà hiện nay đã và đang có rất nhiều hướng nghiên cứu để giải quyết vấn đề này. 1.1. Máy truy tìmWeb Một trong những thành công nhất trong nghiên cứu và giải quyết vấn đề trên là việc tạo ra được máy truy tìm Web. Máy này có nhiệm vụ giúp người sử dụngtìm tài liệu mình quan tâm. Các tài liệu chủ yếu có dạng HTML, PDF, PS, MS Word và MS PowerPoint. Giao diện máy truy tìm thân thiện và rất dễ sử dụng , người sử dụng chỉ cần đặt câu hỏi truy vấnvà ra lệnh tìm. Máy sẽ trả về tậpkếtquảtìm kiếm(được gọi là các sinppet) liên quan đến câu hỏi truy vấ n đó. Snippet miêu tả ngắn gọn nội dung của tài liệu Web(trang Web), nó thường bao gồm tựa đề , địa chỉ web của tài liệu (được gọi là URL)và một đoạn text trình bày nội dung liên quan đến câu hỏi truy vấn . Cấu trúc và phương thức hoạt động của máy truy tìmWeb như sau: Phâncụmtậpkếtquảtìmkiếmwebdựavàotậpthôdungsai 3 3 3 1.1.1. Web Crawler Web Crawler là một trong hai thành phần trực tiếp tương tác với internet, nó còn được gọi là web spider hoặc robot. Công việc chính của Web Crawler là phát hiện những nguồn tài nguyên mới trên Web. Nó giải quyết vấn đề này bằng cách thực hiện tìmkiếm đệ quy theo các đường link từ tất cả các trang đã được duyệt . Trong khi khai phá các nguồn tài nguyên mới trên Internet, Web Crawler còn có nhiệm vụ kiểm tra xem các trang có còn hợp lệ không và chúng ta đã được cập nhật hay chưa. Mục đích của công việc này là giúp cho máy truy tìm cập nhật được tất cả tài liệu của Web(kể cả các tài liệu cũ và mới). 1.1.2. Document Index (lập chỉ mục tài liệu) Mục đích chính của việc lập chỉ mục tài liệu là hỗ trợ tìm kiếm. Tìm tài liệu có chứa những từ trong câu hỏi truy vấn? Để thực hiện công việc này thì đa số các máy truy tìm sử dụng biến dữ liệu có cấu trúc inverted index. Inverted index giống như danh sách chỉ mục ở phần cuối của cuốn sách – trong đó với mỗi một từ là một danh sách liên kết các tài liệu có từ đó xuất hiện. Biến này có khả năng giúp máy truy tìm xác định chính xác tài liệu có chứa các từ trong câu hỏi truy vấn. Với Phâncụmtậpkếtquảtìmkiếmwebdựavàotậpthôdungsai 4 4 4 bảng chỉ mục như vậy , máy truy tìm có thể thực hiện tìmkiếm theo nhóm từ hoặc tìmkiếm từ lân cận. 1.1.3. Document Cache(lưu trữ tài liệu) Nhiều máy phục vụ tìmkiếm vừa lưu trữ bảng chỉ mục tài liệu theo từ (document index), vừa lưu trữ bảng chỉ mục tài liệu gốc .Mục đích của việc lưu trữ bảng chỉ mục các tài liệu gốc (tài liệu đầy đủ) là tạo ra các sippet và phục vụ cho việc lưu trữ các phiên bản của tài liệu. 1.1.4. Document Ranking Chắc chắn rằng trong môi trường www, thậm chí đối với cả những câu hỏi truy vấn hoàn thiện và chính xác , thì tậpkếtquả trả tìmkiếm vẫn là hang ngàn hoặc hàng triệu tài liệu. Do vậy , cần phải có công nghệ thực hiện sắp xếp tậpkếtquả thu về theo mức độ liên quan và mức độ quan tâm. Và đây chính là công việc của Document Ranking. 1.1.5. Query Processor(bộ xử lý truy vấn) Vai trò của Query Processor là phố i hợp với các bộ trên để thực hiện trả lời câu hỏi truy vấn của người sử dụng. Cụ thể , trong quá trình thực hiện Query Processor kết hợp các thành phần document index, document cache, document ranking để tạo ra tậpkếtquảtìmkiếm liên quan đến câu hỏi truy vấn. 1.1.6. Presentation interface(giao diện trình bày) Phâncụmtậpkếtquảtìmkiếmwebdựavàotậpthôdungsai 5 5 5 KếtquảtìmkiếmWeb được đưa đến người sử dụng thông qua giao diện này. Do vậy presentation interface đóng vai trò vô cùng quan trọng, nó ảnh hưởng toàn bộ chất lượng của máy truy tìm. Bởi vì người sử dụng chỉ cần quan tâm kếtquả nhận được thông qua giao diện mà không quan tâm máy hoạt động xử lý tìmkiếmweb như thế nào. 2.1. Trình bày kếtquảtìmkiếm của máy truy tìmWeb Google Cách biểu diễn tậpkếtquảtìmkiếm đến người sử dụng đóng vai trò vô cùng quan trọng . Nó giúp người sử dụng xác định được tài lệu họ cần tìm. Giao diện trình bày kếtquảtìmkiếm được đánh giá tốt nếu không để người sử dụng gặp ngay những tài liệu được cho là không liên quan đến vấn đề cần tìm ở ngay đầu danh sách kết quảtìmkiếm . Tuy nhiên , tiêu chuẩn này quá khắt khe vì - Hầu hết người sử dụng thường đặt câu hỏi ngắn và chung chung cho máy truy tìm - Trong khi đặt câu hỏi cho máy truy tìm ,người sử dụng không đặt được câu hỏi đúng như ý định , bởi vì: khi người sử dụng muốn tìm một thông tin trên Web , nghĩa là trong suy nghĩ của họ đã hình thành khái niệm về cái mình muốn tìm. Khái niệm này được chuyển thành tập từ.Tập từ này được sử dụng để đặt câu h ỏi truy vấn . Thế nhưng tính chính xác của việc chuyển đổi giữa khái niệm và tập từ lại phụ thuộc vào nhiều yếu tố, chẳng hạn như kinh nghiệm tìmkiếm , kiến thức cơ bản liên quan đến khái niệm đó , hoặc sự thành thạo về ngôn ngữ. Do đó đã tạo nên sự không cân xứng giữa khái niệm và câu hỏi truy vấn. Vì thế máy truy tìm không thể biết được chủ đề người sử dụng thực sự quan tâm. Hiện nay các máy truy tìm vẫn chưa đáp ứng được tiêu chuẩn trên, vì sử dụng phương thức trình bày kếtquả Ranked list . Theo phương thức này tậpkếtPhâncụmtập kết quảtìmkiếm web dựavàotậpthôdungsai 6 6 6 quả thu về từ câu hỏi truy vấn được sắp xếp theo mối liên quan đến câu hỏi truy vấn - những tài liệu liên quan nhất được xếp đầu danh sách. Tùa ®Ò snippet M« t ¶ url Mặc dù vậy cách sắp xếp này vẫn còn nhiều nhược điểm : -Vì Ranked list trình bày kếtquả theo mối quan hệ với câu hỏi truy vấn . Do vậy có nhiều hơn 24 kết quảtìmkiếm thì ranked list trở thành không thực tế đối với việc duyệt kết quả. -Phương thức ranked list yêu cầu khắt khe về thứ tự giữa các kết quảtìmkiếm với giả thuyết rằng các snippet luôn có thể so sánh đượ c với nhau .Tuy nhiên với câu hỏi truy vấn chung chung, sẽ có những kếtquả trả về mà nó chỉ chứa chủ đề con , do vậy việc so sánh giữa các kếtquả không cân xứng . Phâncụmtập kết quảtìmkiếm web dựavàotậpthôdungsai 7 7 7 Lý do trên đã tạo động lực cho người ta nghiên cứu và xây dựng phương thức trình bày kếtquả mới khắc phục tất cả những nhược điểm của phương thức cũ . PhâncụmtậpkếtquảtìmkiếmWeb là một trong những phương thức mới đang được nhiều người quan tâm nghiên cứu Phâncụmtậpkếtquảtìmkiếmwebdựavàotậpthôdungsai 8 8 8 CHƯƠNG II PHÂNCỤMTẬPKẾTQUẢTÌMKIẾMWEBDỰAVÀOTẬPTHÔDUNGSAI 2.1. Khái niệm phâncụmPhâncụm là nhóm các đối tượng lại thành các cụm sao cho thoả mãn : -Các đối tượng trong mỗi cụm là giống nhau hoặc gần nhau được xác định bằng độ tương tự . Hay nói cách khác, các đối tượng trong mỗi cụm là tương tự nhau. -Những đối tượng không cùng một cụm là không tương tự nhau. Cần phân biệt giữa phân lớp với phân cụm: Phân lớp còn được gọi học có giám sát . Là quá trình xếp m ột đối tượng vào trong những lớp đã biết trước . Ví dụ phân lớp các bệnh nhân theo dữ liệu hồ sơ bệnh án . Phâncụm còn được gọi học không giám sát .Là quá trình xếp các đối tưọng theo từng cụm tự nhiên, tức là số lượng và tên cụm chưa được biết trước . Yêu cầu về việc phâncụm xuất phát từ lĩnh vực thống kê, nó được áp dụng cho dữ liệu số . Tuy nhiên, trong lĩnh vực khoa học máy tính và khai phá dữ liệu thì khái niệm này được mở rộng cho cả dữ liệu text hoặc multimedia. 2.2. PhâncụmtậpkếtquảtìmkiếmWeb 2.2.1. Khái niệm PhâncụmtậpkếtquảWeb là tổ chức sắp xếp tậpkếtquảtìmkiếm thành một số nhóm chủ đề riêng theo cách bố cục tổng thể đến chi tiết, giống như các thư mục. Ví d ụ đối với câu hỏi truy vấn “Clinton” thì kếtquả được trình bày theo các chủ đề như:”Bill Clinton”, “Hillary Clinton”, “George Clinton”, v.v…. Theo cách trình bày này cả những người sử dụng không có kinh nghiệm trong việc đặt câu hỏi truy vấn cũng có thể dễ dàng xác định nhanh chóng và chính xác tài liệu quan tâm . Mặt khác, đối với những người sử dụng đặt câu hỏi chung Phâncụmtậpkếtquảtìmkiếmwebdựavàotậpthôdungsai 9 9 9 chung với mục đích biết thêm những chủ đề con sẽ không phải mất nhiều thời gian .Thay vào đó , họ chỉ cần duyệt theo từng nhóm chủ đề. 2.2.2. Phép đo độ tương tự Bản chất công việc phâncụm là nhóm những đối tượng tương tự với nhau vào cùng một nhóm . Vậy cần phải có phép đo để đo độ tương tự giữa các đối tượ ng. Đối với các đối tượng là tài liệu thì người ta thường hay sử dụng phép đo hệ số góc cosin để đo độ tương tự giữa hai tài liệu (mỗi tài liệu được biểu diễn dưới dạng một vector). Công thức đo độ tương tự như sau: Cosin(X,Y) = ∑∑∑ ∑ == = −+ t i t i iiii t i ii yxyx yx 11 22 1 Trong đó -X (x 1 ,x 2 , … ,x t ) và Y(y 1 ,y 2 ,… ,y t ) là vector biểu diễn hai tài liệu -x i ,y i là trọng số thành phần thứ I của vector X,Y tương ứng . Chú ý: -Khi hệ số góc cosin =1 nghĩa là hai snippet đó hoàn toàn tương tự nhau(trùng nhau) -Khi hệ số góc cosin =0 nghĩa là hai snippet đó không hoàn toàn tương tự nhau(trùng nhau) -Các tài liệu có thể được biểu diễn dưới dạng vector, điểm trong không gian nhiều chiều. Ví dụ: 2 tài liệu doc1 và doc2, sau khi trích chọn các thuộc tính đặc trưng của snippet Trong doc1:từ computer xuất hiện 3 lần, và từ finace xuất hiện 1 lần Trong doc2:từ computer xuất hiện 2 lần, và từ finace xuất hiện 4 lần Biểu diễn dưới dạng vector, doc1 được biểu diễn (3i+1j) và doc2 được biểu diễn (2i+4j) [...]... Language 1 0 1 1 1 1 T ma trn TOL xỏc nh lp tolerance ca cỏc t trong D 30 30 Phõn cm tp kt qu tỡm kim web da vo tp thụ dungsai Term Lp Tolerance Information Information, query, retrieval, model, language Web Web, query, retrieval Query Information, web, query, retrieval, language Retrieval Information, web, query, retrieval, model,language Model Information, retrieval, model,language Language Information,...Phõn cm tp kt qu tỡm kim web da vo tp thụ dungsai Biu din di dng mt im trong khụng gian nhiu chiu, doc1 c biu din (3,1) v doc2 c biu din (2,4) Hình1: Các đối t-ợng đ-ợc biểu diễn d-ới dạng vector Hình2: Các đối t-ợng đ-ợc biểu diễn d-ới dạng điểm 2.2.3 c im 10 10 Phõn cm tp kt qu tỡm kim web da vo tp thụ dungsai -Phõn cm tp kt qu cú tớnh ph thuc vo cõu hi truy vn ca... phn th hin ni dung ca ti liu nhiu hn so vi nhng t ch xut hin mt vi ln Tuy nhiờn, nhng t m xut hin thng xuyờn trong ton tp ti liu D thỡ s khụng cú ý ngha nhiu trong vic phõn bit ni dung gia nhng ti liu, vỡ vy nhõn t idf phi c s dng lm gim vai trũ ca t thng xuyờn xut hin trong ton tp ti liu D Vớ d: Cho tp D= {d1, d2, d3, d4, d5, d6) 27 27 Phõn cm tp kt qu tỡm kim web da vo tp thụ dungsai Doc Title... for information retrieval d3 Two-stage language models for information retrieval d4 Building a web theaurus from web link structure d5 Implicit link analysis for small web search d6 Query type classification for web document retrieval Bng 1: Tp cỏc snippet v nhng t c trớch chn (t c gch chõn) Information Web Query Retrieval Model Language d1 1 0 1 1 0 1 d2 1 0 0 1 1 1 d3 1 0 0 1 1 1 d4 0 1 0 0 0 0 d5... cm tp kt qu tỡm kim web da vo tp thụ dungsai Vớ d: Bc 1: Da vo ma trn tn s xut hin TF tớnh ma trn xut hin nh phõn OC Tuy nhiờn trong trng hp ny OC=TF Document/Term Information Web Query Retrieval Model Language d1 1 0 1 1 0 1 d2 1 0 0 1 1 1 d3 1 0 0 1 1 1 d4 0 1 0 0 0 0 d5 0 1 0 0 0 0 d6 0 1 1 1 0 0 Bc 2: Tớnh ma trn cựng tn s xut hin (term co-occurrence) COC Term Information Web Query Retrieval... cỏc ti liu, D={d1, d2,., dN } v T l tp cỏc t cú trong D, T={t1, t1, , tM} 19 19 Phõn cm tp kt qu tỡm kim web da vo tp thụ dungsai Thụng qua mụ hỡnh khụng gian vect, mi ti liu di c biu din bi mt vect cú trng s [wi1, wi2, ., wiM], vi wij l trng s ca t j trong ti liu di Trong mụ hỡnh tp thụ dung sai, khụng gian tolerance c nh ngha da trờn ton b cỏc t trong D U= T = {t1, t1, , tM} Mc ớch t ra l cn c vo... ca bt k mt t no trong ti liu di Sau ú chun húa chiu di vector ca tt c cỏc vector ti liu bng cụng thc sau: wij = wij t k d i ( wij ) 2 23 23 Phõn cm tp kt qu tỡm kim web da vo tp thụ dungsai Chng III Gii thut phõn cm tp kt qu tỡm kim web 3.1 Gii thut Input : Tp D gm N snippet d1, d2,., dN Output : K nhúm ch khỏc bit Mụ hỡnh d liu: * p dng mụ hỡnh khụng gian vector biu din kt qu tỡm kim snippet C... trn tn s xut hin document-terms Document/Term Information Web Query Retrieval Model Language d1 0.301 0 0.4771 0.1761 0 d2 0.301 0 0 0.1761 0.4771 0.301 d3 0.301 0 0 0.1761 0.4771 0.301 d4 0 0.6021 0 0 0 0 d5 0 0.301 0 0 0 0 d6 0 0.301 0.4771 0.1761 0 0 0.301 Bng 3: Ma trn trng s document-terms 28 28 Phõn cm tp kt qu tỡm kim web da vo tp thụ dungsai 3.1.3 Sinh lp tolerance Mi mt t trong tp D u cú th... tp D s to thnh mt ma trn document-terms Gii tht phõn cm TRC gm cú 5 pha: 1 Tin x lý snippet 2 Trớch chn t c trng ca mi snippet (nhng t th hin ni dung chớnh ca snippet) 3 Sinh cỏc lp tolerance 4 Phõn cm 24 24 Phõn cm tp kt qu tỡm kim web da vo tp thụ dungsai 5 To nhón cho tng nhúm 3.1.1 Tin x lý snippet õy l mt pha vụ cựng quan trng, nú nh hng rt ln n quỏ trỡnh thc hin phõn cm Nhim v ca pha ny l lm... Trong khụng gian xp x A thỡ cỏc xp x ca tp X U c nh ngha nh sau: LA(X) = {x U : P(I(X)) =1 (x, X) =1 } U A(X) = {x U : P(I(X)) =1 (x, X) >0 } 2.4 Mụ hỡnh tp thụ dungsai (TRSM) Vi kh nng gii quyt linh hot tớnh gn ỳng v tớnh m, tp thụ dungsai c ỏnh giỏ l mt cụng c y ha hn xỏc nh mi quan h gia t v ti liu Bt c vn no trong lnh vc thu thp thụng tin, c bit trong vic phõn cm ti liu thỡ vic nh ngha mi quan . Tiểu luận Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai 1 1 1 LỜI. kiếm web dựa vào tập thô dung sai 8 8 8 CHƯƠNG II PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 2.1. Khái niệm phân cụm Phân cụm là nhóm các