CHƯƠNG 3 THỬ NGHIỆM THUẬT TOÁN ĐÁNH GIÁ Ý KIẾN TRÊN MẠNG XÃ HỘI
3.5. Thực hiện tìm kiếm thử nghiệm trên tập chỉ mục đã thu thập được
Sau khi thực hiện thu thập dữ liệu ta có thể truy cập trang http://localhost:8983/solr để thực hiện câu lệnh truy vấn ngay. Kết quả của các câu lệnh truy vấn này có thể ở nhiều dạng khác nhau rất dễ dàng tích hợp với các ứng dụng web. Có nhiều định dạng khác nhau được Solr sử dụng như định dạng PHP, XML, Json …
Hình 0.13: Giao diện trang web tìm kiếm trên Solr
Ta có thể dễ dàng xây dựng một giao diện web để thực hiện giao tiêp với Solr.
Việc giao tiếp này bao gồm các công việc gửi từ truy vấn đến Solr, sau khi nhận được yêu cầu truy vấn Solr thực hiện tìm kiếm và trả lại kết quả. Kết quả này sẽ được trang web phân tích và hiển thị cho người dùng. Có nhiều bộ thư viện cho phép ta làm các công việc trên. Báo cáo này sử dụng một bộ thư viện giao tiếp với Solr có tên gọi là AJAX SOLR. AJAX SOLR cung cấp các thư viện cho phép giao tiếp với Solr và rất dễ sử dụng.
Để thực hiện tìm kiếm thử trên Nutch cho kết quả rõ ràng hơn, báo cáo này đã thực hiện thu thập dữ liệu của các nhóm học sinh của một số trường trong tỉnh Hòa Bình:
1. https://www.facebook.com/groups/1573580766273010
2. https://www.facebook.com/Trường-THPT-Công-Nghiệp-Hòa-Bình 3. https://www.facebook.com/pages/THPT-chuyên-Hoàng-Văn-Thụ
Tổng số tài liệu mà việc thu thập đã thực hiện là khoảng 2000 trang(bao gồm các trang mạng cá nhân và các trang fanpage tập thể của học sinh). Với dung lượng dữ liệu lên đến khoảng 2GB. Kết quả tìm kiếm thử nghiệm theo một số chủ đề phổ biến được ghi lại ở bảng sau:
Bảng 0.2: Một số kết quả truy vấn theo chủ đề Từ khóa Thời gian tìm kiếm (1/1000 giây) Số kết quả
Giáo dục 103 2910
Tuyển sinh 94 4361
Bóng đá 10 3689
Tình yêu 3 5743
Luật pháp 31 3713
Lớp 54 4078
Gia đình 3 4333
Đồng phục 2 3477
Toán 30 4118
Văn 2 4103
Tiếng Anh 6 3570
Một yêu cầu bắt buộc của các chương trình tìm kiếm dữ liệu là yêu cầu về thời gian. Một chương trình tìm kiếm phải đảm bảo đáp ứng thời gian tìm kiếm nhanh hơn rất nhiều so với đại đa số các nhiệm vụ trên dữ liệu lớn khác. Theo đánh giá ban đầu kết quả tìm kiếm trên tập dữ liệu là tương đối khả quan với điều kiện phần cứng trung bình. Các kết quả truy vấn không có thời gian vượt quá hàng phút đáp ứng được yêu cầu về thời gian tìm kiếm trên môi trường web.
Chương 3 trình bày cách xây dựng một cụm máy Hadoop hoàn chỉnh với thử nghiệm trên môi trường phân tán ảo so sánh khả năng hoạt động của Hadoop trên môi trường phân tán ảo và với duy nhất một máy tính. Thực nghiệm cho thấy khả năng hoạt động của Hadoop phụ thuộc rất nhiều vào dung lượng của RAM và khả năng tính toán của chip xử lý, tốc độ của Hadoop chỉ thực sự tăng lên khi cụm máy Hadoop được mở rộng quy mô về RAM cũng như chip xử lý. Việc thực hiện thử nghiệm Hadoop trên mội trường phân tán ảo, tuy vậy, cung đem lại nhiều kết quả rất tích cực ta có thể thấy thực tế quá trình nhân bản dữ liệu qua các máy trong cùng một mạng của Hadoop, ta có thể thấy được khả năng phục hồi dữ liệu khi xảy ra sự cố của Hadoop.
Cách mà Hadoop phân chia các quá trình con của công việc thu thập dữ liệu bằng Nutch trên cụm máy phân tán. Theo dõi các công việc con hoạt động trong MapReduce, quá trình tạo cấu trúc dữ liệu của Nutch.
Chương 3 cũng thực hiện việc cấu hình Nutch với một chương trình đánh chỉ mục và tìm kiếm nguồn mở được sử dụng rộng rãi là Solr. Solr cho kết quả truy vấn trên chỉ mục tương đối khả quan với điều kiện phần cứng và dữ liệu ở mức trung bình.
Hoàn thành được việc xây dựng một trang web tìm kiêm đơn giản giao tiếp với Solr thay thế cho giao diện tìm kiếm mặc định của Solr.