Kiến trúc Nutch

4.2.4.1 Kiến trúc các thành phần

Kiến trúc của Nutch được phân chia một cách tự nhiên thành hai thành phần chính: crawler, indexer và searcher. Crawler thực hiện thu thập các tài liệu, phân tách các tài liệu, kết quả của crawler là một tập dữ liệu segments gồm nhiều segments. Indexer lấy dữ liệu do crawler tạo ra để tạo chỉ mục ngược. Searcher sẽ đáp ứng các truy vấn tìm kiếm từ người dùng dựa trên tập chỉ mục ngược do indexer tạo ra.

Hình 3-4 Tổng quan các thành phần của Nutch Chi tiết các thành phần sẽ được mô tả chi tiết sau đây:

4.2.4.1.1 Crawler

Thành phần Crawler gồm các thành phần như hình sau:

Quá trình crawl được khởi động bằng việc module injector tiêm một danh sách các URL vao crawldb để khởi tạo crawldb.

Hình 3-5 Kiến trúc các thành phần và quá trình thực hiện crawler

Crawler gồm có bốn thành phần chính là generator, fetcher, parser và updater hoạt động liên tiếp nhau tạo thành một vòng lặp. Tại mỗi lần lặp, crawler sẽ tạo ra một segment.

Tại khởi điểm của vòng lặp, generator sẽ dò tìm trong crawldb các URL cần nạp và phát sinh ra một danh sách các url sẽ nạp. Đồng thời lúc này generator sẽ phát sinh ra một segment mới, lưu danh sách URL sẽ nạp vào segment/crawl_fetch.

Tiếp theo, fetcher sẽ lấy danh sách URL cần nạp từ segment/crawl_generate, thực hiện tải các tài liệu theo từng URL. Fetcher s ẽ lưu nội dung thô của từng tài liệu vào segment/content và lưu trạng thái nạp của từng URL vào segment/crawl_fetch.

Sau đó, parser sẽ thực hiện lấy dữ liệu thô của các tài liệu từ segment/content và thực hiện phân tách các tài liệu để trích lấy các thông tin văn bản:

Cuối cùng, crawldb sẽ sử dụng thông tin về các trạng thái nạp của từng URL trong segment/crawl_fetch và danh sách các URL mới phân tách được trong segment/crawl_parse để cập nhật lại crawldb.

Quá trình trên được lặp đi lặp lại. Số lần lặp của vòng lặp này được gọi là độ sâu (depth).

4.2.4.1.2 Indexer và Searcher

Hình 3-6 Các thành phần và quá trình thực hiện index và search

Link Invertor sẽ lấy dữ liệu từ tất cả các segment để xây dựng linkdb. Linkdb chứa tất cả các URL mà hệ thống biết cùng với các inlink của chúng (xem cấu trúc của linkdb tại 4.2.3.2.4 )

Với từng segment trong segments, indexer sẽ tạo chỉ mục ngược cho segments. Sau đó, nó sẽ thực hiện trọn tất cả các phần chỉ mục này lại với nhau trong indexes.

User của hệ thống sẽ tương tác với các chương trình tìm kiếm phía client. Bản thân Nutch cũng đã hỗ trợ sẵn một ứng dụng web để thực hiện tìm kiếm. Các chương trình phía client này nhận các query từ người dùng, gửi đến searcher. Searcher thực hiện tìm kiếm trên tập chỉ mục và gửi trả kết quả lại cho chương trình phía client để hiển thị kết quả ra cho người dùng.

4.2.4.2 Plugin-based

Hầu hết các thành phần của Nutch đều sử dụng các plugin để thực hiện các chức năng của mình. Điều này làm cho các tính năng của Nutch có thể dễ dàng được mở rộng bằng cách thêm vào các plugin. Hình 3-7 cho thấy toàn cảnh các thành phần sử dụng plugin của Nutch.

Sau đây ta sẽ xem xét các giao diện chức năng từng plugin 4.2.4.2.1 URL Norlmalize và Filter Plugins

Các plugin này được gọi khi có một URL mới được đưa vào hệ thống. Một plugin Normalizer sẽ thực hiện chuẩn hoá các URL thành một dạng tiêu chuẩn nhằm dễ dàng so sánh các URL và tránh được các lỗi URL không hợp lệ. Các thao tác chuẩn hoá như chuyển tất cả sang dạng viết thường (lower case), loại bỏ các chỉ port mặc định (ví dụ như port 80 cho protocol http).

Một plugin Filter sẽ làm nhiệm vụ quyết định xem có cho phép một URL được vào hệ thống hay không. Một filter plugin sẽ được sử dụng để giới hạn việc crawling trong một domain nào đó, để có thể crawling trong một intranet hay một miền nào đó có internet. Các filter plugin hiện có của Nutch sử dụng regular expresstion để lọc các URL, chia làm hai loại: White list và black list.

4.2.4.2.2 Protocol plugins

Mỗi một protocol plugin sẽ thực hiện nhiệm vụ tải nội dung của tài liệu từ một URL với một protocol nào đó. Ta có thể có plugin chuyên tải các URL HTTP, plugin tải URL FTP, plugin tải URL File… Các plugin này được sử dụng trong quá tình nạp các tài liệu. Chúng ta có thể dễ dàng mở rộng các protocol mà Nutch có thể hoạt động bằng cách phát triển và đăng thêm các protocol plugin để tải dữ liệu theo một protocol nào đó.

4.2.4.2.3 Parser plugins

Từ dữ liệu thô có được từ các protocol plugin, các parser plugin có nhiệm vụ phân tách dữ liệu của tài liệu như text, link hay metadata…của một loại tài liệu nào đó. Các plugin này được dùng bởi parser.

Nutch đã xây dựng sẵn các parser plugin khác nhau cho các định dạng nh ư PDF, Word, Exel, RTF, HTML, XML…

4.2.4.2.4 Index plugins và query plugins

Nutch sử dụng Lucene cho việc tạo chỉ mục và tìm kiếm. Khi tạo chỉ mục, mỗi tài liệu đã đươc phân tách sẽ được gửi đến cho các plugin index để thực hiện tạo các

tài liệu Lucene và phát sinh chỉ mục. Các plugin index sẽ quyết định xem trường dữ liệu nào được tạo chỉ mục và sẽ tạo như thế nào.

Các câu truy vấn tìm kiếm trong Nutch được phân tách thành một cây truy vấn. Sau đó cây truy vấn này sẽ được gửi đến cho các query plugin, các plugin này sẽ phát sinh ra một Lucene query để có thể thực thi.

Hadoop Distributed File System (HDFS)

Giới thiệu điều khiển truy cập