Hướng dẫn cài đặt Nutch tích hợp với Solr. Trong báo cáo này ta sử dụng Nutch 1.6 và Solr 4.8.0.
Cài đặt Nutch
Tải tệp tin apache-nutch-1.6-src.tar.gz từ địa chỉ https://archive.apache.org/dist/nutch/1.6/.
Giải nén tệp tin và chuyển thư mục tới đường dẫn /usr/local/nutch.
$ tar –xvzf apache-nutch-1.6-src.tar.gz
$ sudo mv apache-nutch-1.6-src /usr/local/nutch
Đi đến thư mục cài đặt Nutch bằng câu lệnh cd /usr/local/nutch. Chỉnh sửa tệp tin nutch-default.xml bằng câu lệnh sudo gedit
conf/nutch-default.xml, thêm những dòng sau vào cuối nội dung tệp tin:
<property>
<name>http.agent.name</name> <value>My Nutch Spider</value> </property>
Chạy câu lệnh:
$ cd /usr/local/nutch $ ant runtime
Kiểm tra cài đặt Nutch thành công bằng câu lệnh sau
$ cd /usr/local/nutch/runtime/deploy $ bin/nutch
Nếu kết quả có dạng như sau thì có nghĩa việc cài đặt Nutch đã hoàn tất:
Usage: nutch [-core] COMMAND ...
Cài đặt Solr
Tải về tệp tin solr-4.8.0.tgz từ địa chỉ
https://archive.apache.org/dist/lucene/solr/4.8.0/.
Giải nén tệp tin và di chuyển tới địa chỉ /usr/local/solr bằng câu lệnh:
$ tar –xvzf solr-4.8.0.tgz
$ sudo mv solr-4.8.0.tgz /usr/local/solr
Hình 0.8: Giao diện làm việc của Solr
Đi đến thư mục example của Solr và khởi động Solr bằng câu lệnh:
$cd /usr/local/solr/example
$java –jar start.jar
Sau khi khởi động Solr ta có thể kiểm tra hoàn tất cài đặt Solr bằng cách truy cập trình duyệt web theo đường dẫn sau:
http://localhost:8983/solr/
Tích hợp Solr với Nutch
Sao chép tệp tin /usr/local/nutch/conf/schema-solr4.xml vào thư mục conf ở đường dẫn /usr/local/solr/example/solr/conf và đổi tên tệp tin thành schema.xml
Thêm dòng sau vào tệp tin schema.xml sau dòng <field
<field name="_version_" type="long" indexed="true" stored ="true"/>
Khởi động Solr bằng câu lệnh
$cd /usr/local/solr/example
$java –jar start.jar
Ta có thể truy cập vào địa chỉ web http://localhost:8983/solr/