Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
32,53 MB
Nội dung
Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I KHOA CÔNG NGHỆ Phạm Thị Thanh Nam MỘT SỔ GIẢI PHÁP CHO BÀI TỐN TÌM KIẾM TRONG C SỞ DỮ LIỆU HYPERTEXT Chuyên ngành: Công nghệ Thông tin Mã SỐ: 01.01.10 LUẬN V Ă N TH Ạ C S ĩ K H O A HỌC NGUỜI HƯỚNG DẦN KHOA HỌC: TS HÀ QUANG THUỴ Hà Nội - Năm 2003 Một số giải pháp cho tốn tím kiếm thơng tin CSDL Hypertext PHẦN MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ WEB-MINING 1.1 Giới thiệu vé sở liêu Fulltext Hypertext 1.1.1 1.1.2 Cơ sở liệu Fulltext Cơ sở liệu Hypertext 12 1.1.3 So sánh đặc điểm liêu Fulltextvà liệu trang web .15 1.2 Tổng quan vể phương pháp biểu diễn vàn sở liệu irang web 16 1.2.1 Giới thiệu sơ phương pháp biểu diễn trang web 17 1.2.2 Cách tiếp cận theo web site 19 Kết luận chương 28 CHUONG n MỘT SỐ PHUCJNG pháp BỂU diễn trang web Và giải pháp kết HỢP 29 2.1 Phương pháp biểu diễn máy tìm kiếm 30 2.1.1 Cấu trúc hoạt động máy tìm kiếm .31 2.1.2 Phương pháp biểu diễn liêu máy tìm kiếm 34 2.2 Phương pháp biểu diễn trang web theo mơ hình vector 45 2.2.1 Phương pháp biểu diễn vector 45 2.2.2 Phương pháp biểu diễn trang web theo mơ hình vector 48 2.3 Đé xuất giải pháp biểu diễn vector máy tìm kiếm 55 Kết luận chương 59 CHUƠNG m MÁY TÌM KIẾM VIETSEEK VÀ THỬNGHIỆM THUẬT TỐN TÌM KEM THEO NỘI DUNG 61 3.1 Máy tìm kiếm VietSeek 61 3.1.1 Các đặc điểm Vietseek 61 3.1.2 3.2 Cơ sở liệu Vietseek 62 Đề xuất thuật tốn tìm kiếm cho máy tìm kiếm VietSeek 69 3.2.1 Những sở để đề xuất thuậi toán 69 3.2.2 Thuật toán 71 Kết luận chương 74 PHẦN KẾT LUẬN 75 TÀI LIỆU THAM KHẢO 77 Phạm Thị Thanh N am - Luận văn cao học Một số giải pháp cho toán tim kiểm thông tin CSDL Hypertext PHẨN M Ở ĐẦU Trong năm gần đây, sở phát triển ứng dụng công nghệ Internet, khối lượng liệu máy tính tăng trường khơng ngừng theo hai phương diện tạo thu thập Sự mở rộng liệu khoa học địa lý, địa chất, khí tượng vệ tinh thu thập, giới thiệu quảng bá mã vạch hầu hết sản phẩm thương mại, việc tin học hoá sâu rộng thương vụ giao dịch, phát triển việc ứng dụng CNTT quản lý hành nhà nước phát sinh khối lượng liệu khổng lổ Mặt khác, bối cảnh tảng cho xã hội thông tin, nhu cầu nhận thơng tin cách nhanh chóng, xác nhu cầu thu nhận "tri thức" từ khối lượng thơng tin khổng lổ nói trở nên cấp thiết Bối cảnh địi hỏi phương pháp tiếp cận mà điển hình phương pháp thuộc lĩnh vực khai phá liệu khám phá tri thức s liệu [7,9] Sự tăng trưởng hàng năm sô' lượng cơng trình cơng bố, hội thảo khoa học quốc tế liên quan đến việc nghiên cứu, giải bước nhiều tốn đién hình thuộc lĩnh vục thể đầy đủ phát triển vượt bậc lĩnh vực nói Các tốn biểu diễn liệu, hiu trữ liệu, tìm kiếm liệu, phân lớp liệu, phân cụm liệu [2-4,6,8-14] tốn điển hình Trong xu tăng ưưcmg không ngừng nguồn liệu, thông qua phát triển công nghệ Web, dạng liệu phi cấu trúc nửa cấu trúc (đién hình hệ thống trang web Internet) tăng trưởng theo tốc độ nhảy vọt Đây dạng liệu gần gũi với người, mà qua chúng người mong muốn lưu trữ thông tin, tri thức chuyển tải cho nhiểu người khác Trong năm gần WWW trị thành kênh thơng tin quan trọng cho việc phân tán thông tin cá nhân, khoa học thương mại Một lý việc WWW phát triển nhanh chóng giá cho việc tạo xuất trang web rẻ So sánh với phương pháp khác sản xuất tờ rơi hay quảng cáo Ưên báo tạp chí trang web rẻ nhiều lại cập nhật thường xuyên đến hàng tỷ người sử dụng, mà cơng ty nhỏ có khả đưa sản phẩm dịch vụ họ lên WWW Hơn Phạm Thị Thanh Nam - Luận vãn cao học Một số giấi pháp cho tốn tìm kiếm thơng tin CSDL Hypertext có nhiều cơng ty hoạt động bán hàng trực tuyến Internet, mà nhu cầu đưa thông tin lên WWW hồn tồn tự nhiên Nhưng với việc tâng khơng ngừng site việc tìm trang hay chí site mà cá nhân cần lại thực vấn đề ngày khó khăn Việc nghiên cứu toán liên quan đến hệ thống liệu dạng (biểu diễn văn bản, tìm kiếm phân lớp vản bản) với việc đề xuất giải pháp toán ln vấn đề khoa học cơng nghê thời [1-4,6,8-14] Chẳng hạn, vấn đề phát website thực thú vị cho người sử dụng vấn đề chưa quan tâm mức Các hệ tìm kiếm Internet Yahoo, Altavista, Google hệ triển khai để giải tốn tìm kiếm dược sử dụng phổ biến Tuy nhiên có vấn đề chưa thoả mãn nhu cầu thực tế người sử dụng Đó sử dụng dịch vụ tìm kiếm site tìm trang thơng tin theo điều kiện tìm kiếm giản đơn Thêm vào đó, có nhiều trường hợp mục từ khồng trọn vẹn đơi q hạn khơng dược cập nhật thường xuyên Hơn dịch vụ tìm kiếm khồng cung cấp tất lĩnh vực chuyên sâu hơn, lĩnh vực hẹp cho số người sử dụng đặc biệt Các hệ chưa cho phép khai thác thông tin truy nhập người sử dụng khơng có chế phản hổi thông tin đổ sử dụng kết tìm kiếm trước vào lần tìm kiếm Cơ chế cần thiết làm hiệu độ xác tìm kiếm chắn nâng cao Một vấn đề hệ tìm kiếm thường xử lý yêu cầu tìm kiếm dạng từ khố tìm kiếm Khi có nhiều từ khố hệ tìm kiếm xử lý từ khoá theo cách thức mà khơng có chế cho phép người sử dụng xác định độ quan trọng khác cho từ khố tìm kiếm Cũng vậy, hệ tìm kiếm điển hình chưa quan tâm đến vấn đề đồng nghĩa đa nghĩa từ khóa, q trình tìm kiếm bỏ qua nhiều kết tìm kiếm Nhiều nghiên cứu liên quan đẻ xuất số phương pháp biểu diễn văn cho phép thi hành khía cạnh để cập [2-4,8-14] Phạm Thị Thanh N am - Luận vân cao hoc Một số giải pháp cho tốn tìm kiếm ¡hơng tin CSDL Hypertext Từ việc tìm hiểu phân tích ưu, nhược điểm phương pháp tiếp cận khác nhau, dựa ý tưởng nâng cao hiệu tìm kiếm, luận văn đề cập việc sử dụng mơ hình vector biểu diễn trang web máy tìm kiếm phép dễ dàng bổ sung trọng số cho từ khố tìm kiếm tăng cường ngữ nghĩa nội dung văn vào trình tìm kiếm Với mục tiêu đề xuất phương pháp biểu diễn vector cho trang web máy tìm kiếm để nâng cao hiệu tìm kiếm, nội dung luận văn định hướng vào vấn để sau: - Giới thiệu, phân tích đánh giá số phương pháp biểu diễn trang web điển hình, - Trên sờ số phương pháp biểu diễn văn trang web theo mơ hình vector, luận văn nghiên cứu việc cải tiến phương pháp biểu diễn để nhận phương pháp biểu điên ưang web, - Nghiên cứu, đề xuất việc bổ sung thêm biểu diễn vector cho trang web máy tìm kiếm theo phương pháp mới, thời bổ sung chức tìm kiếm trang Web "theo nội dung" cho hệ tìm kiếm Vietseek Luận văn bao gồm Phẩn mở đầu, ba chương nội dung Phần kết luận mà nội dung chương trình bày Chương với tiêu đề Tổng quan web-mining giới thiệu sơ nội dung tổng quan sở đữ liệu Fulltext, sở đữ liệu Hypertext, sở liệu trang web phương pháp biểu diễn vector Trong chương cách tiếp cận theo website trình bày chi tiết khía cạnh biểu diễn website lăn giải pháp cho tốn tìm kiếm theo website Luận vân đề xuất thuật toán xây dựng website theo cách tiếp cận Tiêu để chương Một sổ phương pháp biểu diễn liệu web vổ giải pháp kết hợp Nội dung chương xem xét đánh giá số phương pháp biểu diễn trang web điển hình Đầu tiên luận văn giới thiệu biểu diễn trang web máy tìm kiếm, sau luận văn giới thiệu cách tiếp cận theo mơ hình vector để biểu điên Phạm Thị Thanh Nam - Luận văn cao học Một số giải pháp cho tốn tìm kiếm thông tin CSDL Hypertext trang web đề xuất cách biểu diễn trang web Phần cuối chương trình bày đề xuất luận văn bổ sung cách biểu diễn cho trang web vào máy tìm kiếm sơ thuật tốn tim kiếm theo nội dung Chương Máy tìm kiếm ViSeek thử nghiệm thuật tốn tìm kiếm theo nội dung giới thiệu chi tiết máy tìm kiếm VietSeek, thiết kế lôgic liệu theo biểu diễn vector thuật tốn tìm kiếm theo nội dung sở luận văn đề xuất Phần kết luận tổng hợp kết nghiên cứu luận vãn, số hạn chế chưa hoàn thiện cài đặt thực Đồng thời luận văn đề xuất số hướng nghiên cứu cụ thể cùa tác giả luận văn Phạm Thị Thanh Nam - Luận vãn cao học Một số giải pháp cho tốn tìm kiếm thơng tin CSDL Hypertext L i c ả m n Em xin bày tỏ lịng kính trọng biết ơn sâu sắc tới Thầy giáo Tiến sĩ Hà Quang Thuỵ, người tận tình hướng dẫn luận văn cho em Em xin cám ơn Thầy Cô khoa Công nghệ, Đại học Quốc Gia Hà Nội, nhóm Xemina chun mơn "Data Mining KDD" thuộc môn Các Hệ thống Thông tin, khoa Công nghệ, người giúp đỡ cho em suốt trình học tập nghiên cứu, đặc biệt bạn Bùi Quang Minh Đoàn Sơn Em xin bày tỏ lòng biết ơn sâu sắc tới gia đình, đồng nghiệp Viện Cơng nghệ Thông tin, Đại học Quốc gia Hà Nội, bạn bè giúp đỡ vò động viên em suốt trình học tập, nghiên cứu làm việc Hà Nội ngày 1510412003 Học viên Phạm Thị Thanh Nam Phạm Thị Thanh Nam - Luận văn cao học Một số giải pháp cho tốn tìm kiếm thơng tin (rong CSDL Hypertext BẢNG CHÚ GIẢI MỘT số CỤM TỪ VIẾT TẮT CSDL: Cơ sỏ liệu (DataBase) CNTT: Công nghệ thông tin (Information Technology) kNN: k Nearest Neighbour KPDL: Khai phá liệu (Data Mining) KPTTCSDL: Khám phá ưi thức CSDL (Knowledge Discovery in Databases) SVM: Support Vector Machine WWW: Hệ thống trang Web (World Wide Web) BẢNG CHÚ GIẢI MỘT số THUẬT NGỮ TIẾNG VIỆT Bayes tự nhiên: Naive Bayes k người láng giểng gần nhất: k Nearest Neighbour Mạng nơron: Neural Net Máy tìm kiếm: Search engine Bộ điều khiển tìm duyệt: Crawl Control Bơ tìm duyệt: Bộ tạo mục: Crawler Indexer Module Bô phân tích lập: Collection Analysis Modele Bộ truy vấn: Query Engine Bộ xếp hạng: Ranking Bộ phần tích URL: URLresolver Chỉ mục cấu ưúc: Structure Index Chỉ mục liên kết ngược: Inverted Index Chỉ mục nội dung: Text Index Chỉ mục tiện ích: Utility Index Hạng hiển thị: Rank Hạng trang web (Hạng): Page Rank Kho trang web: Page Repository Tải trang: Download Máy vector trợ giúp: Support Vector Machine Phạm Thị Thanh Nam - Luận văn cao học Một sỏ'giải pháp cho tốn tìm kiếm thơng tin CSDL Hypertext Mơ hình (khơng gian) vector: Vector (Space) Model Siêu liên kết: Hyperlink Siêu văn bản: Hypertext Tìm kiếm theo nội dung: text-based retrieval Trang web: web page, HTML page, HTML document Phạm Thị Thanh Nam - Luận ván cao học Một sơ' giải pháp cho tốn tìm kiếm CSDL Hypertext CHƯƠNG I TỔNG QUAN VỂ WEB-MINING 1.1 G iớ i thiệu sở liệu Fu lltext Hypertext 1.1.1 Cơ sở đữ liệu Fulltext • Giới thiệu chung Cơ sở liệu Fulltext sở liệu phi cấu trúc mà liệu chứa bao gồm nội dung text thuộc tính tài liệu văn với nội dung Dữ liệu sở liệu Fulltext thường tổ chức kết hợp hai phần: phần sở liệu thông thường quản lý thuộc tính tài liệu, phần tập hợp nội dung tài ìiệu quản lý Chúng ta hình dung sở đữ liệu Fulltext tổ chức sau: Hình ỉ.ỉ Mơ hỉnh tổ chức sở liệu Fuiltexi Trong trường hợp phổ biến, nội dung tài liệu lưu giữ gián tiếp sở liệu theo nghĩa hệ thống quản lý ưỏ (địa chỉ) trỏ tới địa chứa nội dung tài liệu (một ví dụ dễ thấy mạng Internet, trang web thường lưu giữ địa chỉ tới nơi có lưu nội dung trang thơng tin cụ thể mà người sử dụng muốn xem) Còn trỏ (địa chỉ) thuộc tính khác lưu trực tiếp sở liệu hệ quản trị có cấu trúc Phạm Thị Thanh Nam - Luận văn cao học 64 M ột s ố giải p háp cho tốn tìm kiếm thông tin CSD L H ypertext ♦ Bảng wordurl (lưu giữ thông tin từ sở liệu, ghi tương ứng với từ) Tên trường word Miêu tả Lưu giữ từ khoá word_id Lưu giữ mã từ khố Lưu giữ thơng tin site URL mà từ xuất Nếu kích thước thơng tin lớn 1000 byte giá trị trường rỗng urls thồng tin lưu giữ file riêng biệt khác có tên wordurl.urls urlcount Tổng số lượng trang web (URL) chứa từ khóa totalcount Tổng số lần xuất hiộn từ khóa tất trang web (URL) ♦ Bảng citation (lưu giữ thông tin mục đảo siêu liên kết) Tên trường url_id referrers Miêu tả Mã nhận dạng URL Một mảng gồm url_id trang có liên kết đến trang ❖ Phần 2: liệu mục lưu file nhị phân ♦ File wordurl.urls (file lưu trữ thông tin vể site URL mà từ khóa xuất hiện, kích thước phần Ưong giới hạn 1000 byte lưu trữ trường urls thuộc bảng wordurt) Các thông tin site, xếp theo site id Offset Độ dài Miêu tả chi tiết Giá trị offset bắt đầu thông tin site thứ mà từ xuất Phạm T hị Thanh N a m - Luận vân cao học 65 M ột s ố giải pháp cho tốn tìm kiếm thông tin CSD L H ypertext 4 Mã nhận dạng site thứ nơi từ xuất Giá trị offset bắt đầu thông tin site thứ hai mà từ xuất 12 Mã nhận dạng site thứ hai nơi từ xuất (N -l)*8 + 4 Giá trị offset bắt đầu site thứ N, với N có giá trị tổng số site mà từ xuất (N -l)*8 + Mã nhận dạng site thứ N nơi từ xuất Thông tin URL, lưu trữ tiếp sau thông tin vê' site Giá trị offset tính từO url_id trang thứ site thứ phần thông tin site Tổng số từ ưong URL Vị trí thứ Vị trí thứ hai + (N -l)*2 Vị trí thứ N, với N tổng số từ xuất hiên URL Lặp lại với thông tin cho URL site, có url id lớn url_id phần Lặp lại với thông ùn URL site phần thông tin site ❖ Ví cách lưu trữ liệu CSDL Vietseek Ví dụ đơn giản sau cho phép hình dung cách lưu trữ liệu Vietseek P hạm Thị T hanh N a m - Luận văn cao học 66 M ột sơ' giải p h p cho tốn tìm kiếm thông Ún CSD L H ypertext Giả sử có hai site http://www.vanban.vn http://www.Iuat.vn, số trang nẳm hai site chúng gán cho mã nhận dạng Chúng ta nhận bảng thông tin sau: ♦ Bảng sites site iđ Nội dung htttp://www.vanban.vn htttp://www.luat.vn ♦ Bảng urlworđ (đã lược bớt số trường không quan trọng) url_id S ite jd Nội đung 1 htttp://www vanban.vn/index 1.htm htttp://www.vanban.vn/index2.htm htttp://www.vanban.vn/index3.htm htttp://www.vanban.vn/index4.htm htttp://www vanban.vnyindex5.htm htttp://www.vanban.vn/index6.htm htttp://www luat.vn/ínđexl.htm htttp://www Iuatvn/index2.htm htttp://www Iuat.vn/inđex3.htm 10 htttp://www Iuat.vnyindex4.htm 11 htttp://www Iuat.vn/index5.htm 12 htttp://www luat.vn/inđexó.htm Ví dụ nội dung ưang htttp://www.vanban.vn/index3.htm " giới thiệu luật giao thơng Luật có hiệu lực (ừngày I/Ỉ/Ỉ999 " Nội dung trang htttp://www.vanban.vnyindex5.htm " giới thiệu luật hình Bộ luậĩ có 300 điều Luật có hiệu lực từ ngày 1ỈỈỈỈ999 " Nội dung trang htttp://www.luat.vn/mđex2.htm "bộ luật hình sự" P hạm T hị T hanh N am - Luận vãn cao học 67 M ột s ố giải pháp cho tốn tìm kiếm (hông tin CSD L H ypertext ♦ Bảng wordurl lưu giữ tất xuất từ trang, kích thước nên trường urls bảng lưu file nhị phân Đối vứi từ “luật” lưu bảng wordurl file nhị phân tương ứng sau: word luật word_iđ urls urlcount (Thông tin từ có URL, kết nối đến file nhị phân wordu.rl.urls) totalcount ♦ Nội dung cùa fiie nhị phân wordurl.urls sau: url Vị trí byte Giá trị 16 (offset bắt đầu thông tin site thứ mà từ xuất hiện) l (site-id site thứ nhất) 12 16 38 (offset bắt đầu thông tin site thứ hai mà từ xuất hiện) (site-id site thứ 2) (URL thứ site 1) 20 (xuất lần) 22 (từ thứ URL 3) 24 (từ thứ URL 3) 26 (URL thứ site 1) 30 (xuất lần) 32 (từ thứ URL 5) 34 (từ thứ URL 5) 36 11 (từ thứ 11 URL 5) 38 (URL thứ site 2) 42 (xuất lần) 44 (từ thứ URL 8) P hạm T hị Thanh N a m - Luận vãn cao học 68 M ộl sơ' giải pháp cho tốn tỉm kiếm CSD L H ypertext Vietseek xây dựng xong chức nâng tìm kiếm theo văn bản, chức tìm kiếm hình ảnh xây dựng Các kết tìm kiếm trả nhanh xác thực hiên việc tính hạng trang web dựa vào liên kết từ tạo mục cho trang việc xếp hạng hiển thị trang kết tính tốn dựa theo bốn tiêu chí nêu phần 3.1.1 Vietseek chuyển đổi tất loại mã tiếng Việt khác (TCVN, VNI, VIQR) sang mã Unicode, kết trả lại dạng mã Unicode Tuy nhiên, số vấn đề mà Vietseek chưa giải Thứ nhất, chưa phân tán sở liệu vào nút lưu trữ khác nhau, nên V ie t S T r o g iũ a e e k r 09 T e le x VNI c V IQ < V ỉe tS e e e e e e e e e e e c k ► Két 2 i I BS¿1112 rip - Welcome toN+tNamtSP&1CPcorporation [Ut