Xây dựng hệ thống

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 48 - 52)

CHƢƠNG III ĐỘ TƢƠNG TỰ VĂN BẢN-VĂN BẢN

3.3.Xây dựng hệ thống

Hình 8: Giao diện chính của hệ thống

3.3.1. Nhập trực tiếp 2 văn bản

Trong tab đầu tiên là tính độ tƣơng tự 2 văn bản, ta có thể gõ trực tiếp nội dung của hai văn bản. Sau đó nhấn nút “Tính độ tƣơng tự” ta sẽ đƣợc kết quả cần tìm.

 Ví dụ trƣớc khi nhấn nút:

Hình 9: Giao diện cho phép nhập trực tiếp hai văn bản

 Sau khi nhấn nút tính, văn bản đƣợc tách từ và ta có kết quả độ tƣơng tự giữa hai văn bản Sim(text1, text2) (là một số nằm trong khoảng [0,1]).

Hình 10: Giao diện kết quả độ tƣơng tự sau khi nhập hai văn bản

 Khi nhấn nút “Reset”, văn bản đƣợc thiết lập lại trạng thái lúc đầu khi ngƣời dùng nhập vào (tức văn bản khi chƣa tách từ).

 Khi nhấn nút “Văn bản khác”, hai văn bản đƣợc chọn ngẫu nhiên trong phần mã nguồn, giúp ta có thể test nhanh chƣơng trình.

 Khi nhấn nút “Xóa”, hệ thống cho phép ngƣời dùng nhập vào hai văn bản mới.

3.3.2. Nhập 2 văn bản từ file

Để tính độ tƣơng tự giữa hai file văn bản lƣu trong máy tính, ta chọn tab thứ hai trong phần giao diện chính: “Độ tƣơng tự 2 files”. Giao diện của lựa chọn này nhƣ sau:

Hình 11: Giao diện nhập hai văn bản từ file

 Đầu tiên, muốn chọn hai file văn bản nào, ta nháy vào nút “…”, sau đó chọn đƣờng dẫn tới file cần nhập.

 Sau đó, ta nháy vào nút “Lấy nội dung các file”, toàn bộ nội dung của hai file này sẽ đƣợc hiển thị trong phần Text 1 và Text 2.

 Cuối cùng nhấn nút “Tính độ tƣơng tự” để xem kết quả Sim(text1, text2).

Hình 12: Giao diện kết quả sau khi nhập hai văn bản từ file

3.3.3. Lấy nội dung 2 văn bản từ URL

Phần này có sử dụng mã nguồn mở từ một dự án nghiên cứu khác, trong mã nguồn mở này có sử dụng thƣ viện phân tích nội dung HTML của dự án VietSpider (file VSHTMLParser.jar).

Địa chỉ gốc của tiện ích phân tích và bóc tách nội dung một số trang tin tức Việt Nam: http://code.google.com/p/vn-news-parser/downloads/list. Đây là một project mã nguồn mở, tuy đơn giản nhƣng nó có đủ các tính năng để cài đặt phục vụ test chƣơng trình.

Bộ phân tích nội dung HTML (HTMLParser) lấy từ dự án phần mềm miễn phí VietSpider tại địa chỉ: http://sourceforge.net/projects/binhgiang/files/. VietSpider là bộ phần mềm khai thác, tổng hợp thông tin từ Internet, ở đây chỉ sử dụng một file thƣ viện trong bộ phần mềm này.

Hình 13: Giao diện tính độ tƣơng tự nội dung của hai trang Web  Đầu tiên, ta nhập địa chỉ của hai trang web vào URL 1 và URL 2.

 Nhấn nút “Xử lý lấy nội dung” để lấy ra nội dung văn bản của hai trang web này. Khi đó, tồn bộ nội dung của chúng sẽ đƣợc hiển thị lần lƣợt tại Text 1 và Text 2.

 Nhấn nút “Tính độ tƣơng tự” để tìm kết quả Sim(text1, text2).

 Muốn lấy nội dung của hai trang web khác, nhấn vào nút “Xét URL khác”.  Nhấn nút “Thoát” để ra khỏi hệ thống.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 48 - 52)