WebCrawler áp dụng cho luận văn:

Một phần của tài liệu Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa (Trang 31 - 34)

4. Bố cục trình bày của luận văn:

3.1.7.WebCrawler áp dụng cho luận văn:

Trên thế giới tồn tại nhiều công cụWebCrawler một sốcó phí như winwebcrawler [11],v.v.tuy nhiên cũng có một số open source miễn phínhư crawler4j [10],v.v.

Công cụ mã nguồn mở crawler4j [12] được viết bằng Java và hoàn toàn miễn phí với giao diện dễ sử dụng và dễ dàng can thiệp tùy chỉnh theo nhu cầu của mỗi người. Công cụ với một số đặc điểm nổi bật như :

Hỗ trợ chia thành nhiều luồn trong việc thu thập dữ liệu, xử lý dữ liệu,v.v. để tận dụng sức mạnh của CPU và sức mạnh của đường truyền mạng,v.v.

Công cụ hỗ trợ xử lý loại bỏ những hình ảnh, âm thanh,Video,v.v. Tuy nhiên nếu muốn giữ lại hình ảnh trên các trang web thu thập người dùng có thể tùy chỉnh để tải về một thư mục nào đó.

Để áp dụng công cụ WebCrawler cho luận văn cần phải chỉnh sửa lại công cụ theo mục đích riêng của luận văn như:

Định nghĩa cho công cụ biết trang web mình cần lấy thông tin về.

Tải về thư viện (jsoup-1.7.3.jar)hỗ trợ xử lý DOM để phân tích các trang web mà công cụ tải vềvà lấy ra các nội dung cần thiết.

Chỉnh sửa Code lại giúp các kết quả lấy về xuất ra các tập tin XML phục vụ cho việc xử lý sau này cho luận văn.

Sau khi dùng công cụ WebCrawler thu thập dữ liệuchúng ta sẽ được các kết quả như sau:

Hình 3.2. Dữ liệu lấy về bằng WebCrawler

Sau khi WebCrawler thu thập dữ liệu về dạng XML tác giả xử lý dữ liệu trên theo dạng XML để đọc ra các nội dung cần thiết cho luận văn bao gồm: tiêu đề, phần mô tả ngắn của bài báo, nội dung bài báo và ghi các nội dung đó ra một tập tin văn bản và tập tin XML phục vụ cho luận văn như sau:

Hình 3.3. Dữ liệu lấy về bằng WebCrawler sau khi đã xử lý

3.2.Xử lý văn bản:

Một phần của tài liệu Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa (Trang 31 - 34)