Kết quả thử nghiệm

Một phần của tài liệu Ứng dụng cây hậu tố để so khớp độ giống nhau giữa các tài liệu (Trang 44 - 51)

CHƯƠNG 3. XÂY DỰNG ỨNG DỤNG VÀ THỬ NGHIỆM

3.3. Kết quả thử nghiệm và đánh giá

3.3.1. Kết quả thử nghiệm

Chúng tôi đã xây dựng một ứng dụng với các chức năng nhƣ: so khớp theo câu và từ, hiển thị kết quả, lưu lịch sử so khớp.

Kết quả thử nghiệm nhƣ sau:

 Đánh giá phương pháp đo độ tương đồng văn bản với tập dữ liệu thử nghiệm:

Chúng tôi tạo bộ dữ liệu thử nghiệm gồm các văn bản tiếng Việt bằng cách tạo hai tài liệu A và B có nội dung hoàn toàn khác nhau. Mỗi tài liệu có 500 từ riêng biệt (không kể các từ dừng). Sau đó, chọn trong tài liệu A 100 từ (chiếm 20% tổng số từ của

tài liệu) để thay thế cho một vài câu trong tài liệu B cũng có 100 từ đƣợc chọn. Nhƣ vậy, chúng ta có thể ước lượng chính xác tỉ lệ giống nhau giữa chúng là 20%. Tương tự, chúng tôi đã tạo ra các tài liệu có tỉ lệ giống nhau là 40%, 60%, 80% và 100%.

Để kiểm tra tính chính xác của thuật toán, khi so sánh một tài liệu bất kỳ với tài liệu đầu tiên (Thu_1.docx) thì kết quả tính toán của thuật toán đƣợc so sánh với giá trị ước lượng. Dưới đây là bảng mô tả các trường hợp thử nghiệm.

Bảng 3.1. Các tài liệu mẫu để so với giá trị ước lượng

Trường hợp thử nghiệm Tài liệu Ước lượng tỉ lệ giống nhau (%)

TH1 Thu_2.docx 0

TH2 Thu_3.docx 20

TH3 Thu_4.docx 40

TH4 Thu_5.docx 60

TH5 Thu_6.docx 80

TH6 Thu_1.docx 100

Kết quả chương trình đều cho kết quả so sánh có giá trị là 100% khi hai văn bản giống nhau hoàn toàn và kết quả là 0% khi hai văn bản không có bất kỳ từ vựng nào giống nhau (khác nhau hoàn toàn). Trong các trường hợp còn lại, kết quả của chương trình so với giá trị ước lượng có độ chênh lệch tương đối, cụ thể như số liệu ở bảng 3.2.

Bảng 3.2. Kết quả của chương trình so với giá trị ước lượng

Trường hợp thử nghiệm Kết quả (%) Ước lượng tỉ lệ giống nhau (%)

TH1 0 0

TH2 24.07 20

TH3 46.23 40

TH4 60.30 60

TH5 83.54 80

TH6 100 100

Hình 3.1 minh họa giao diện chương trình.

Các hình 3.2, 3.3 thể hiện kết quả thực hiện chương trình bằng hình thức nhập nội dung trực tiếp hoặc chọn tài liệu trong kho dữ liệu.

Hình 3.1. Giao diện chương trình

Hình 3.2. So sánh 2 văn bản giống nhau hoàn toàn cho kết quả tỉ lệ so khớp là 100%

Hình 3.3. So sánh 2 văn bản khác nhau hoàn toàn cho kết quả tỉ lệ so khớp là 0%

Thời gian và dung lƣợng tiêu tốn cho quá trình so khớp phụ thuộc vào độ dài của văn bản so khớp (tức số lƣợng từ vựng có trong văn bản).

 Đánh giá các phương pháp đo độ tương đồng văn bản với tập dữ liệu thực nghiệm:

Dưới đây là kết quả thử nghiệm trên bộ dữ liệu với 100 luận văn tốt nghiệp và cho kết quả so sánh dựa trên đơn vị từ và đơn vị câu theo giao diện nhƣ hình 3.4 và số liệu thống kê tỉ lệ giống nhau nhƣ bảng 3.3 và bảng 3.4.

Hình 3.4 thể hiện kết quả thực hiện chương trình khi so sánh hai tài liệu bất kỳ trong kho dữ liệu.

Hình 3.4. So sánh 2 văn bản bất kỳ

Hình 3.5 hiển thị lịch sử chương trình, có 2 chức năng: làm mới danh sách lịch sử và xóa danh sách lịch sử.

Xem lịch sử chương trình, ngoài lưu kết quả, ta có thể biết thời gian thực hiện của mỗi pha so khớp.

Hình 3.5. Xem lịch sử chương trình

Bảng 3.3. Thống kê tỉ lệ giống nhau của văn bản 1 (VB1) so với các văn bản khác trong kho dữ liệu theo từ và câu

Ký hiệu văn bản

Tỉ lệ giống nhau

so sánh theo Ký hiệu văn bản

Tỉ lệ giống nhau so sánh theo

Từ Câu Từ Câu

VB01 100% 100% VB51 54.86% 28.95%

VB02 57.28% 31.43% VB52 49.91% 27.36%

VB03 57.59% 29.21% VB53 50.41% 30.87%

VB04 56.61% 34.43% VB54 53.50% 30.51%

VB05 49.47% 31.72% VB55 52.77% 28.68%

VB06 56.73% 30.87% VB56 57.67% 29.65%

VB07 51.89% 29.45% VB57 54.12% 30.54%

VB08 51.93% 30.22% VB58 55.93% 27.84%

VB09 54.33% 30.38% VB59 53.21% 26.02%

VB10 57.23% 28.49% VB60 51.80% 25.72%

VB11 56.11% 31.60% VB61 41.75% 17.04%

VB12 80.17% 79.23% VB62 52.58% 30.20%

VB13 52.34% 27.78% VB63 45.09% 25.84%

VB14 45.46% 24.98% VB64 50.33% 26.03%

VB15 46.38% 27.98% VB65 58.44% 29.33%

VB16 53.08% 28.15% VB66 46.03% 25.20%

VB17 54.74% 27.19% VB67 35.77% 32.07%

VB18 41.25% 26.91% VB68 56.76% 31.51%

VB19 45.55% 25.35% VB69 55.74% 31.73%

VB20 52.58% 29.41% VB70 51.91% 30.54%

VB21 51.05% 26.76% VB71 46.45% 29.20%

VB22 54.32% 29.46% VB72 43.14% 28.44%

VB23 50.20% 27.27% VB73 53.48% 28.87%

VB24 45.62% 29.25% VB74 49.84% 28.24%

VB25 45.40% 24.81% VB75 55.48% 26.17%

VB26 56.12% 26.63% VB76 51.97% 26.46%

VB27 46.03% 27.40% VB77 51.02% 26.27%

VB28 53.11% 26.88% VB78 49.41% 29.61%

VB29 41.43% 39.67% VB79 51.67% 26.43%

VB30 49.71% 24.94% VB80 53.47% 27.17%

VB31 51.82% 26.98% VB81 41.25% 25.67%

VB32 50.46% 26.62% VB82 55.10% 27.85%

VB33 53.30% 24.78% VB83 48.50% 30.10%

VB34 55.39% 29.71% VB84 54.16% 27.30%

VB35 61.53% 32.75% VB85 49.53% 23.79%

VB36 57.18% 31.67% VB86 44.44% 24.16%

VB37 55.49% 31.10% VB87 44.10% 18.31%

VB38 45.55% 24.13% VB88 43.44% 25.53%

VB39 41.50% 24.82% VB89 49.66% 26.82%

VB40 49.84% 29.03% VB90 44.09% 27.28%

VB41 46.06% 25.85% VB91 55.49% 27.24%

VB42 52.24% 30.65% VB92 44.67% 23.42%

VB43 54.79% 27.17% VB93 56.70% 27.23%

VB44 44.35% 26.70% VB94 48.06% 25.39%

VB45 59.27% 31.35% VB95 51.79% 26.18%

VB46 52.35% 27.04% VB96 45.89% 27.25%

VB47 48.97% 25.17% VB97 49.00% 28.32%

VB48 41.25% 25.67% VB98 57.67% 29.65%

VB49 53.16% 28.68% VB99 55.33% 27.74%

VB50 43.60% 29.44% VB100 54.86% 30.09%

Bảng 3.4. Thống kê tỉ lệ giống nhau của hai văn bản bất kỳ

Một phần của tài liệu Ứng dụng cây hậu tố để so khớp độ giống nhau giữa các tài liệu (Trang 44 - 51)

Tải bản đầy đủ (PDF)

(71 trang)