Khai phá dữ liệu web và máy tìm kiếm

Luận văn tốt nghiệp Khai phá liệu Web máy tìm kiếm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Mục lục Chương Tổng quan khai phá liệu Web máy tìm kiếm 1.1 Khai phá liệu Web 1.1.1 Tổng quan khai phá liệu Web 1.1.2 Các toán đặt khai phá Web 1.1.3 Các lĩnh vực khai phá liệu Web 1.1.3.1 Khai phá nội dung Web (Web content mining): 1.1.3.2 Khai phá cấu trúc web (web structure mining): 1.1.3.3 Khai phá sử dụng web (web usage mining) 1.1.4 Khó khăn .7 1.1.4.1 Web dường lớn để tổ chức thành kho liệu phục vụ Dataming 1.1.4.2 Độ phức tạp trang Web lớn nhiều so với tài liệu văn truyền thống khác 1.1.4.3 Web nguồn tài ngun thơng tin có độ thay đổi cao 1.1.4.4 Web phục vụ cộng đồng người dùng rộng lớn đa dạng 1.1.4.5 Chỉ phần nhỏ thông tin Web thực hữu ích 1.1.5 Thuận lợi .9 1.2 Tổng quan máy tìm kiếm 1.2.1 Nhu cầu: 1.2.2 Cơ chế hoạt động máy tìm kiếm 10 1.2.3 Cấu trúc điển hình máy tìm kiếm 11 Chương Tổng quan xử lý song song 34 3.1 Máy tính song song .34 3.1.2 Phân loại máy tính song song 35 3.1.2.1 Phân loại dựa chế điều khiển chung 35 3.1.2.2 Cách phân loại dựa tương tác BXL 37 3.2 Mơ hình lập trình song song 38 3.2.1 Mô hình nhiệm vụ - kênh liên lạc 38 3.2.1.1 Đặc điểm mô hình nhiệm vụ-kênh liên lạc 38 3.2.1.2 Đặc điểm mơ hình nhiệm vụ - kênh liên lạc 39 3.2.2 Mơ hình chia sẻ nhớ chung 40 3.3 Hiệu xử lý song song 40 3.3.1 Khả tăng tốc độ tính tốn: 40 3.3.3 Cân tải 43 3.3.4 Sự bế tắc .44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.4 Môi trường lập trình song song 45 3.4.1 Mơ hình MPI (Message Passing Interface) 46 3.4.2 PVM (Parallel Virtual Machine) 46 3.4.3 So sánh MPI PVM .46 3.5 Giao thức truyền thông điệp MPI 47 Chương 2: Giới thiệu module Crawler máy tìm kiếm 13 2.1 Tổng quan: 13 2.2 Cấu trúc crawler .15 2.2.1 Frontier .16 2.2.2 History kho chứa trang web .17 2.2.3 Tải trang web (fetching) 18 2.2.4 Duyệt nội dung (parsing) 19 2.2.4.1 Quá trình lấy chuẩn hóa URL 20 2.2.4.2 Loại bỏ từ dừng chuyển dạng thức từ sang dạng gốc 21 2.2.4.3 Xây dựng thẻ HTML 21 2.3 Các crawler đa luồng (Multi-threaded crawlers) 22 2.4 Các thuật toán crawling 24 2.4.1 Thuật tốn Nạve tốt .24 2.4.2 Thuật toán SharkSearch 25 2.4.3 Crawler có trọng tâm (focused crawler) 26 2.3.4 Các crawler tập trung theo ngữ cảnh (context focused crawler) 27 2.4 Các tiêu chuẩn đánh giá crawler 29 2.4.1 Độ quan trọng trang web 29 2.4.2 Các phân tích tổng hợp 31 Chương Giới thiệu máy tìm kiếm ASPseek đề xuất giải pháp song song hóa 50 4.1 Giới thiệu chung máy tìm kiếm ASPseek 50 4.1.1 Một số tính ASPseek .50 4.1.2 Các thành phần ASPseek .51 a Module đánh số (indexing) 51 b Module tìm kiếm (searchd) 52 c Module tìm kiếm s.cgi 52 4.2 Cấu trúc sở liệu máy tìm kiếm ASPseek 52 4.2.1 Cấu trúc số bảng sở liệu ASPseek .53 4.2.2 Cấu trúc số file nhị phân sở liệu ASPseek 56 4.2.2.1 Cấu trúc file nhị phân thư mục xxw: 56 4.3 Tìm hiểu việc thực thi trình crawler module index máy tìm kiếm VietSeek 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3.1Quá trình crawler ASPseek 60 4.3.2 Đề xuất giải pháp song song hóa 63 4.3.2.1 Giải pháp song song hóa 63 4.3.2.2 Cơ chế phân công công việc xử lý 65 4.3.2.3 Tổng hợp kết sau trình song song: 65 4.3.2.4 Vấn đề tương tranh xử lý: 66 4.3.2.5 Đánh giá giải pháp song song hóa 66 4.3.3 Tài liệu tham khảo: .68 Phụ lục: Một số hàm bổ sung Mơđun indexing song song hóa LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Tổng quan khai phá liệu Web máy tìm kiếm 1.1 Khai phá liệu Web 1.1.1 Tổng quan khai phá liệu Web Ngày nay, phát triển nhanh chóng mạng Internet Intranet sinh khối lượng khổng lồ liệu dạng siêu văn (dữ liệu Web) Trong năm gần Intrnet trở thành kênh khoa học, thông tin kinh tế, thương mại quảng cáo Một lý cho phát triển chi phí thấp để trì trang Web Internet So sánh với dịch vụ khác đăng tin hay quảng cáo tờ báo hay tạp chí, trang Web "địi" rẻ nhiều cập nhật nhanh chóng tới hàng triệu người dùng khắp nơi giới Có thể nói Internet từ điển Bách khoa toàn thư với nội dung hình thức đa dạng Nó xã hội ảo, bao gồm thơng tin mặt đời sống kinh tế, xã hội trình bày dạng văn bản, hình ảnh, âm WWW Knowledge Hình 1.1: Khai phá web, cơng việc không dễ dàng Tuy nhiên, Internet môi trường đa phương tiện động bao gồm kết hợp sở liệu không đồng nhất, chương trình giao tiếp người dùng Rõ ràng, khai phá liệu text lĩnh vực nhỏ môi trường Khai phá liệu Internet, hay thường gọi khai phá web việc cần khai phá nội dung trang văn bản, phải khai thác nguồn lực mối quan hệ chúng Khai phá Web, giao thoa khai phá liệu Word-Wide-Web, phát triển mạnh mẽ bao gồm nhiều lĩnh vực nghiên LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com cứu trí tuệ nhân tạo, truy xuất thơng tin (information retrival) hay lĩnh vực khác Các công nghệ Agent-base, truy xuất thông tin dựa khái niệm (conceptbased), truy xuất thông tin sử dụng case-base reasoning tính hạng văn dựa đặc trưng (features) siêu liên kết thường xem lĩnh vực nhỏ khai phá web Khai phá Web chưa định nghĩa cách rõ ràng chủ đề tiếp tục mở rộng Tuy vậy, hiểu khai phá web việc trích thành phần quan tâm hay đánh giá có ích thơng tin tiềm từ tài nguyên hoạt động liên quan tới World-Wide Web[] Hình 1.2 thể phân loại lĩnh vực nghiên cứu quen thuộc khai phá Web Người ta thường phân khai phá web thành lĩnh vực chính: khai phá nội dung web (web content mining), khai phá cấu trúc web (web structure mining) khai phá việc sử dụng web (web usage mining) WEB MINING Web Content Web Page Content Web Structure Search Result General Access Pattent Web Usage Customized Usage Hình 1.2: Các nội dung khai phá Web 1.1.2 Các toán đặt khai phá Web - Tìm kiếm thơng tin cần thiết: Web lớn đa dạng, việc tìm thông tin cần thiết không đơn giản Công việc giải máy tìm kiếm - Tạo tri thức từ thông tin có sẵn Web: Vấn đề coi vấn đề toán Ở ta mặc định có tập liệu Web, ta cần lấy thơng tin hữu ích từ liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - Cá nhân hóa thơng tin: Mỗi người dùng thường có mối quan tâm khác thích cách biểu diễn thông tin khác tương tác với giới Web Các nghiên cứu lĩnh vực cung cấp thơng tin hữu ích cho nhà cung cấp thông tin Web để họ đạt mục đích - Tìm hiểu người tiêu thụ sản phẩm cá nhân người dùng: Các nghiên cứu phục vụ đắc lực để giải vấn đề Nó tìm hiểu điều mà người tiêu dùng muốn làm Điều giúp chun biệt hóa thơng tin cho người dùng, giúp thiết kế quản lý web site cách hiệu quả, vấn đề liên quan tới maketing 1.1.3 Các lĩnh vực khai phá liệu Web 1.1.3.1 Khai phá nội dung Web (Web content mining): Phần lớn tri thức World-Wide Web chứa nội dung văn Khai phá nội dung web trình xử lý để lấy tri thức từ nội dung trang văn mơ tả chúng Có hai chiến lược khai phá nội dung web: khai phá trực tiếp nội dung trang web, nâng cao khả tìm kiếm nội dung cơng cụ khác máy tìm kiếm - Web Page summarization: liên quan tới việc truy xuất thơng tin từ văn có cấu trúc, văn siêu liên kết, hay văn bán cấu trúc Lĩnh vực liên quan chủ yếu tới việc khai phá thân nội dung văn - Search engine result summarization: Tìm kiếm kết Trong máy tìm kiếm, sau tìm trang Web thoả mãn yêu cầu người dùng, cơng việc khơng phần quan trọng, phải xếp, chọn lọc kết theo mức độ hợp lệ với yêu cầu người dùng Quá trình thường sử dụng thông tin tiêu đề trang, URL, content-type, liên kết trang web để tiến hành phân lớp đưa tập kết tốt cho người dùng 1.1.3.2 Khai phá cấu trúc web (web structure mining): Nhờ vào kết nối văn siêu liên kết, World-Wide Web chứa đựng nhiều thông tin thơng tin bên văn Ví dụ, liên kết trỏ tới trang web mức độ quan trọng trang web đó, liên kết từ trang web thể trang có liên quan tới chủ đề đề cập trang Và nội dung khai phá cấu trúc Web trình xử lý nhằm rút tri thức từ cách tổ chức liên kết tham chiếu trang web LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1.1.3.3 Khai phá sử dụng web (web usage mining) Khai phá sử dụng web (web usage mining) hay khai phá hồ sơ web (web log mining) việc xử lý để lấy thơng tin hữu ích hồ sơ truy cập Web Thông thường web server thường ghi lại tích lũy liệu tương tác người dùng nhận yêu cầu truy cập Việc phân tích hồ sơ truy cập web web site khác dự đoán tương tác người dùng họ tương tác với Web tìm hiểu cấu trúc Web, từ cải thiện thiết kế hệ thống liên quan Có hai xu hướng khai phá sử dụng web General Access Pattern Tracking Customizied Usage tracking - General Access Pattern tracking: phân tích hồ sơ web để biết mẫu xu hướng truy cập Các phân tích giúp cấu trúc lại site phân nhóm hiệu hơn, hay xác định vị trí quảng cáo hiệu nhất, gắn quảng cáo sản phẩm định cho người dùng định để đạt hiệu cao - Cusomized Usage tracking: phân tích xu hướng cá nhân Mục đích để chun biệt hóa web site cho lớp đối tượng người dùng Các thông tin hiển thị, độ sâu cấu trúc site định dạng tài nguyên, tất chuyên biệt hóa cách tự động cho người dùng theo thời gian dựa mẫu truy cập họ 1.1.4 Khó khăn World Wide Web hệ thống lớn phân bố rộng khắp, cung cấp thông tin lĩnh vực khoa học, xã hội, thương mại, văn hóa, Web nguồn tài nguyên giàu có cho Khai phá liệu Những quan sát sau cho thấy Web đưa thách thức lớn cho công nghệ Khai phá liệu [1] 1.1.4.1 Web dường lớn để tổ chức thành kho liệu phục vụ Dataming Các CSDL truyền thống có kích thước khơng lớn thường lưu trữ nơi, kích thước Web lớn, tới hàng terabytes thay đổi liên tục, khơng cịn phân tán nhiều máy tính khắp nơi giới Một vài nghiên cứu kích thước Web đưa số liệu sau: Hiện Internet có khoảng tỷ trang Web cung cấp cho người sử dụng., giả sử kích thước trung bình trang 5-10Kb tổng kích thước LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com khoảng 10 terabyte Còn tỷ lệ tăng trang Web thật gây ấn tượng Hai năm gần số trang Web tăng gấp đơi cịng tiếp tục tăng hai năm tới Nhiều tổ chức xã hội đặt hầu hết thông tin công cộng họ lên Web Như việc xây dựng kho liệu (datawarehouse) để lưu trữ, chép hay tích hợp liệu Web gần 1.1.4.2 Độ phức tạp trang Web lớn nhiều so với tài liệu văn truyền thống khác Các liệu CSDL truyền thống thường loại liệu đồng (về ngôn ngữ, định dạng,…), cịn liệu Web hồn tồn khơng đồng Ví dụ ngơn ngữ liệu Web bao gồm nhiều loại ngôn ngữ khác (Cả ngôn ngữ diễn tả nội dung lẫn ngơn ngữ lập trình), nhiều loại định dạng khác (Text, HTML, PDF, hình ảnh âm thanh,…), nhiều loại từ vựng khác (Địa Email, liên kết (links), mã nén (zipcode), số điện thoại) Nói cách khác, trang Web thiếu cấu trúc thống Chúng coi thư viện kỹ thuật số rộng lớn, nhiên số khổng lồ tài liệu thư viện khơng xếp tuân theo tiêu chuẩn đặc biệt nào, không theo phạm trù, tiêu đề, tác giả, số trang hay nội dung, Điều thử thách lớn cho việc tìm kiếm thơng tin cần thiết thư viện 1.1.4.3 Web nguồn tài ngun thơng tin có độ thay đổi cao Web khơng có thay đổi độ lớn mà thơng tin trang Web cập nhật liên tục Theo kết nghiên cứu [], 500.000 trang Web tháng 23% trang thay đổi hàng ngày, khoảng 10 ngày 50% trang tên miền biến mất, nghĩa địa URL khơng cịn tồn Tin tức, thị trường chứng khốn, cơng ty quản cáo trung tâm phục vụ Web thường xuyên cập nhật trang Web họ Thêm vào kết nối thông tin truy cập ghi cập nhật 1.1.4.4 Web phục vụ cộng đồng người dùng rộng lớn đa dạng Internet nối với khoảng 50 triệu trạm làm việc [1], cộng đồng người dùng nhanh chóng lan rộng Mỗi người dùng có kiến thức, mối quan tâm, sở thích khác Nhưng hầu hết người dùng khơng có kiến thức tốt cấu trúc mạng thơng tin, khơng có ý thức cho tìm kiếm, dễ bị "lạc" LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com "mị mẫm" "bóng tối" mạng chán tìm kiếm mà nhận mảng thơng tin khơng hữu ích 1.1.4.5 Chỉ phần nhỏ thông tin Web thực hữu ích Theo thống kê, 99% thơng tin Web vơ ích với 99% người dùng Web Trong phần Web không quan tâm lại bị búi vào kết nhận tìm kiếm Vậy ta cần phải khai phá Web để nhận trang web chất lượng cao theo tiêu chuẩn người dùng? Như thấy điểm khác việc tìm kiếm CSDL truyền thống với vviệc tìm kiếm Internet Những thách thức đẩy mạnh việc nghiên cứu khai phá sử dụng tài nguyên Internet 1.1.5 Thuận lợi Bên cạnh thử thách trên, cơng việc khai phá Web có thuận lợi: Web bao gồm khơng có trang mà cịn có hyperlink trỏ từ trang tới trang khác Khi tác giả tạo hyperlink từ trang ông ta tới trang A có nghĩa A trang có hữu ích với vấn đề bàn luận Nếu trang A nhiều Hyperlink từ trang khác trỏ đến chứng tỏ trang A quan trọng Vì số lượng lớn thơng tin liên kết trang cung cấp lượng thông tin giàu có mối liên quan, chất lượng, cấu trúc nội dung trang Web, nguồn tài nguyên lớn cho khai phá Web Một máy chủ Web thường đăng ký ghi đầu vào (Weblog entry) cho lần truy cập trang Web Nó bao gồm địa URL, địa IP, timestamp Dữ liệu Weblog cung cấp lượng thông tin giàu có trang Web động Với thơng tin địa URL, địa IP,… cách hiển thị đa chiều cấu trúc nên dựa CSDL Weblog Thực phân tích OLAP đa chiều đưa N người dùng cao nhất, N trang Web truy cập nhiều nhất, khoảng thời gian nhiều người truy cập nhất, xu hướng truy cập Web 1.2 Tổng quan máy tìm kiếm 1.2.1 Nhu cầu Như đề cập phần trên, Internet kho thông tin khổng lồ phức tạp Thông tin trang Web đa dạng mặt nội dung hình thức Tuy nhiên LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com redir =URLID trang Web bị chuyển hướng không origin =URLID trang Web ban đầu trang Web sao, khơng có giá trị Bảng UrlwordNN (NN số từ 00 – 15): Các bảng chứa thông tin chi tiết nội dung Url đánh số sở liệu Việc url ghi vào bảng 16 bảng phụ thuộc vào giá trị url_id mod 16 Tên trường Miêu tả url_id Số định danh URL deleted Được đặt máy chủ trả lỗi, file “robots.txt” không cho phép đánh số trang Web wordcount Số lượng từ khác nội dung index trang totalcount Tổng tất từ nội dung đánh số trang content-type Tiêu đề “Content-Type” trả máy chủ charset Bộ chữ sử dụng nội dung tài liệu, thông tin lấy từ thẻ META title 128 ký tự tiêu đề trang Web txt 255 ký tự đầu tiên, khơng tính thẻ HTML, nội dung trang Web docsize Kích thước trang Web keywords 255 ký tự từ từ khóa trang Web description 100 ký tự phần mô tả trang Web words Nội dung nén URL hrefs Danh sách xếp URL liên kết (outgoing) từ trang Bảng wordurl: chứa thông tin từ khóa (khơng phải từ dừng) xuất trang Web tải Tên trường Miêu tả LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com word word_id urls urlcount totalcount thân từ khóa, khơng phải từ dừng Số định danh từ( khóa chính) Thơng tin site url mà từ khóa xuất hiện.Trường rỗng kích thước lớn 1000 byte, trường hợp thơng tin lưu trữ file nhị phân Số lượng url có chứa từ khóa Tổng số lần xuất từ khóa tất tài liệu Bảng wordurl1: chứa thông tin từ khóa sở liệu thời gian thực Tên trường word word_id urls urlcount totalcount Miêu tả Nội dung từ khóa (khơng phải từ dừng) Số định danh từ ( khóa chính) Thơng tin site url mà từ khóa xuất hiện.Trường ln ln khác rỗng, kích thước Số lượng url có chứa từ khóa Tổng số lần xuất từ tất tài liệu index Bảng Stat: chứa thông tin thống kê câu truy vấn người dùng Tên trường Miêu tả addr Địa IP máy tính có câu truy vấn tới máy tìm kiếm ASPSeek proxy Địa IP máy chủ proxy query Nội dung câu truy vấn ul Giới hạn URL sử dụng để áp đặt lên câu truy vấn sp Không gian Web áp đặt lên câu truy vấn site SiteID dùng để hạn chế khơng gian tìm kiếm sites Số lượng site tìm thấy thỏa mãn câu truy vấn urls Số lượng Url tìm thấy thỏa mãn câu truy vấn referer URLID trang Web có yêu cầu truy vấn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2.2 Cấu trúc số file nhị phân sở liệu ASPseek Cấu trúc file thư mục sau: - 100 thư mục 00w -> 99w:các thư mục chứa nội dung index ngược trang web, phục vụ cho việc ánh xạ từ từ khóa sang địa URL - Thư mục citations: chứa file nhị phân phục vụ cho q trình tính hạng (ranking) trang web - Thư mục deltas: chứa file nhị phân trung gian trình index, sau trình index kết thúc nộidung file bị xóa bỏ 4.2.2.1 Cấu trúc file nhị phân thư mục xxw: Các file nhị phân thư mục xxw có nhiệm vụ lưu nội dung index ngược trang web index Nội dung file giá trị trường urls bảng wordurl trường hợp kích thước trường lớn 1000 bytes Mục đích phục vụ cho q trình tìm kiếm trang web theo từ khóa người dùng Các file cấu trúc theo cách thức dễ dàng tìm url_id có chứa từ khóa word_id, đồng thời ta dễ dàng tìm số lượng vị trí xuất word_id url_id Aspseek có chế để lưu file nhị phân, chế lưu sử dụng CompactStorage không sử dụng CompactStorage Chế độ mặc định có sử dụng Người dùng bật tắt chế độ việc điều chỉnh tham số file cấu hình hệ thống aspseek.conf search.conf Cơ chế không CompactStorage giữ lại để tương thích với phiên cũ Aspseek, phiên mặc định sử dụng chế độ CompactStorage chế độ việc làm giảm lượng nhớ cần để lưu trữ thông tin, cịn giúp làm tăng đáng kể tốc độ tìm kiếm trang web Sau tơi xin giới thiệu hai chế này: a Cách lưu file nhị phân theo chế thông thường Thông tin index ngược từ khóa sở liệu lưu file nhị phân riêng biệt có tên trùng với word_id từ Nội dung file thư mục nnw với nn= word_id mod 100 Thông tin word_id lưu file nhị phân nội dung trường urls bảng wordurl lớn 1000 byte Cấu trúc file là: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các thông tin site, xếp theo site_id Offset Độ dài Miêu tả chi tiết Giá trị offset bắt đầu thông tin site thứ nơi từ xuất 4 Mã nhận dạng url_id site thứ nơi từ xuất Giá trị offset bắt đầu thông tin site thứ hai nơi từ xuất 12 Mã nhận dạng site thứ nơi từ xuất (N-1)*8+4 Giá trị offset bắt đầu thông tin site thứ N, N tổng số site mà từ xuất (N-1)*8+8 Mã nhận dạng site thứ N nơi từ xuất Thông tin URL, lưu trữ tiếp sau thơng tin site Giá trị offset tính từ 0 url_id trang thứ site thứ phần thông tin site Tổng số từ URL Vị trí thứ Vị trí thứ hai 6+(N-1)*2 Vị trí thứ N, N tổng số từ xuất URL Lặp lại với thông tin cho URL site, có url_id lớn Lặp lại với thông tin URL site phần thông tin site b Cách lưu file nhị phân theo chế CompactStorage Thay lưu thông tin từ site trên, nội dung index ngược tất từ có giá word_id mod 100 lưu chung file thư mục file nhị phân có số word_id mod 100 Đó file: ind, sites, urls Nội dung file sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com i File ind: chứa thơng tin word có giá trị word_id mod 100 Nội dung dãy liên tiếp phần tử, phần tử mô tả thông tin word có kiểu struct WordInd, kiểu có dạng: Struct { ULONG ULONG ULONG ULONG }WordInd; m_offset; m_siteCount; m_urlCount; m_totalCount; Trong đó: m_offset: vị trí kết thúc nội dung word_id bảng sites m_siteCount: số lượng site có chứa url chứa từ khóa m_urlCount: tổng số url có chứa từ khóa tất site m_totalCount: tổng số lần xuất word_id tất url, tất sites ii File sites:chứa thông tin site mà site có chứa url chứa word file ind trên, nội dung dãy liên tiếp phần tử, phần tử mô tả thông tin site có kiểu SiteInd, kiểu có dạng: Struct{ ULONG m_siteID; ULONG m_offset; }SiteInd; Trong đó: m_siteID: site_id site chứa từ khóa m_offset: vị trí kết thúc thơng tin url site file urls iii File urls: file chứa nội dung url thuộc site file sites nói có chứa từ nêu bảng ind Cấu trúc file sau: Thông tin từ (đã mô tả file ind) url, url thuộc vào site mô tả file sites Vị trí Độ rộng Mơ tả url_id url 4 Count: số lần xuất từ url Vị trí xuất lần thứ từ url LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com N*2+4 Vị trí xuất lần thứ N từ url, N tổng số lần xuất từ url Lặp lại với url khác có chứa từ site Lặp lại với url khác có chứa từ thuộc site khác Lặp lại với từ khóa khác file ind Ba file ind, sites, urls liên hệ phụ thuộc chặt chẽ vào Khi cần lưu thêm thông tin từ lấy thông tin ta cần phải truy cập vào file lúc Mối liên hệ chúng thể sơ đồ sau: IND Thông tin từ word_id=NN Thông tin từ word_id=NN+100 Offset SiteCount UrlCount TotalCount Offset SiteCount UrlCount TotalCount SITES Thông tin site word_id=NN Thông tin site word_id=NN+100 Site_id Site_id Offset Site_id Offset Offset Site_id Offset URLS Url_id Count 1stpos nstpos st st Url_id Count pos n pos Ttin url site_id chứa word_id=NN Ttin url site_id n chứa word_id=NN Thơng tin url word_id=NN Hình 4.: Sơ đồ liên hệ file nhị phân theo chế CompactStorage LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chẳng hạn cần tìm kiếm urls có chứa từ khóa word với mã word_id, ta cần tìm thư mục word_id mod 100 Địa bắt đầu thông tin từ word file ind (word_id div 100)*sizeof(WordInd) (do từ file ind viết nhau, từ viết WordInd word_id từ lưu tiếp sau word_id từ phía trước cộng 100) Từ ta xác định giá trị trường m_offset tức địa offset bắt đầu kết thúc lưu thơng tin site file sites Từ ta xác định địa offset file urls bắt đầu thông tin url thuộc site có chứa từ khóa Cứ với url thuộc site khác 4.3 Tìm hiểu việc thực thi trình crawler module index máy tìm kiếm VietSeek 4.3.1 Quá trình crawler ASPseek nhu cầu song song hóa Aspseek sử dụng cấu trúc liệu bảng băm để làm hàng đợi lưu url cần index Các URL hàng đợi nhóm theo site, url thuộc site nhóm vào danh sách FIFO gọi CSiteUrls Khi có url thuộc vào site cần đưa vào hàng đợi, url thêm vào cuối danh sách url site thuộc vào Tồn hàng đợi bảng băm CsiteUrls có trỏ trỏ tới site duyệt Khi cần lấy url để duyệt tiếp, url đỉnh danh sách site trích Cấu trúc hàng đợi sau: CSiteUrls CSiteUrls CSiteUrls m_current Hình 4.a:Cấu trúc hàng đợi frontierCSiteQueue ASPseek Trong đó: CsiteUrls danh sách chiều mảng chứa url thuộc site Và CurlLinks mảng gồm 100 url liên tiếp CUrlLinks CUrlLinks m_first CUrlLinks m_last Hình 4.b:Cấu trúc phần tử CSiteUrls LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Start Duyệt file cấu hình URL hạt nhân URL outgoing từ trang web tải URL ∈CSDL Có Cần index lại? Khơng Lưu URL vào CSDL Có Thêm URL vào hàng đợi Kết thúc? Đúng End Sai Thêm URL từ CSDL vào Hđợi Đúng URL∈Hđoi

Định dạng
Số trang	69
Dung lượng	1,62 MB