CHƯƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ VÀ ỨNG DỤNG
3.3 Thực nghiệm và đánh giá thu gọn không gian đối sánh
3.3.2 Thực nghiệm và đánh giá
Để thực nghiệm các vấn đề của bài toán, em tiến hành thu thập các từ tiếng việt (gần 2000 từ, với các từ khác nhau).
Thực nghiệm thu gọn không gian thông qua các đối: d, k. Trong đó, d thể hiện khống chế về độ đo Levenshtein, k thể hiện hiệu độ dài giữa P và T.
* Thuật toán:
- Input: - D, K (K = |n-m|) - Chuỗi ban đầu
- Output: Đƣa ra 1 tập các chuỗi phù hợp với chuỗi ban đầu, và phụ thuộc vào D, K. (D, K: khống chế không gian tìm kiếm)
- Thực hiện:
B1: Duyệt tất cả các chuỗi phù hợp với D, K cho trước (D được tính theo giải thuật Levenshtein)
B2: Sắp xếp các chuỗi tăng dần theo D B3: Đƣa ra tất cả các chuỗi <= D ban đầu.
Bài toán thực nghiệm với dữ liệu mẫu sau:
Bảng 3.1: Các từ/chuỗi được xây dựng làm thực nghiệm thu gọn không gian đối sánh.
Máy Công Lệnh tìm kiếm Tuyến tính
Máy tính Công nghệ Phương Kỹ sư phần mềm
Khoa Công nghệ phần mềm Phương pháp Kỹ sư máy tính
khoa học Công cộng Phương thức Kỹ sư hệ thống
khoa học máy tính Công khai Kỹ Hệ
khoa học thưởng
thức Công chúng Kỹ thuật Hệ thống
Máy tính để bàn Công chúa Kỹ sƣ Hệ thông thông tin
Máy tính điện tử Công bằng Kỹ sƣ điện Hệ thống phần mềm Máy tính lƣợng tử Công văn Kỹ thuật điện Hệ thống mạng Máy tính song
song Cộng Điện Hệ thống điện
Siêu máy tính Cộng tác Điện tử Hệ thống máy tính
Máy chủ Cộng thân Điện học Hệ thống tìm kiếm
Phần mềm máy tìm kiếm Điện máy
Phần Tìm Tính
Phần cứng Tìm kiếm Tính toán
Dựa trên các bảng dữ liệu của hệ thống, em tiến hành thực nghiệm về giảm không gian đối sánh với giải pháp thu gọn không gian đối sánh chỉ ra ở chương 2.
Thực nghiệm với các giá trị khác nhau của D và K. Nhằm cung cấp thông tin lựa chọn cho D và K sao cho hệ thống sửa đổi và gợi ý để có thể
cung cấp các kết quả tốt nhất với hệ thống. Với hệ thống sửa đổi thì cần không chế không gian hẹp hơn với thệ thống gợi ý.
- Thực nghiệm với chuỗi ―Hệ thống‖ chọn D = 15 và K = 15
Hình 3.5: Thu gọn không gian với từ khóa “Hệ thống” D=15 và K=15 - Thực nghiệm với chuỗi ―Hệ thống‖ chọn D = 10 và K = 15
Hình 3.6: Thu gọn không gian với từ khóa “Hệ thống” D=10 và K=15
Hệ thống thực hiện thực nghiệm thu gọn không gian đối sánh bằng cách khống chế độ đo Levenshtein cho thấy các kết quả đã đƣợc lựa chọn tốt hơn, không còn các chuỗi với khoảng cách Levenshtein vƣợt quá độ đo không chế này. Với các chuỗi có độ lệch về khoảng cách lớn hơn khoảng cách K đƣợc quy định sẽ không tham gia đối sánh. Thao tác thực hiện lấy về độ dài chuỗi sẽ dễ dàng hơn thao tác đối sánh.
Trong hình 3.5 và 3.6 các chuỗi đƣợc trả về theo cách thu hẹp không gian đối sánh là khá nhiều. Nhƣng khi thu gọn không gian tới mức nào đó (giảm khoảng cách D và K) (hình 3.7) thì kết quả cho thấy giảm đối sánh một cách rõ ràng.
- Thực nghiệm với chuỗi ―Hệ thống‖ chọn D = 5 và K = 10
Hình 3.7: Thu gọn không gian với chuỗi “Hệ thống”có D = 5, K = 5
Với kết quả của thực nghiệm D = 5 và K = 5 có thể thấy chỉ tìm đƣợc 2 chuỗi thích hợp cho đối sánh là ―Hệ thống‖ và ―thống‖. Nhƣ vậy có thể rút ra một kết luận ở đây là: Nếu nhƣ không gian càng nhỏ thì kết quả trả về của hệ thống theo thuật toán đối sánh chuỗi sẽ cho ít kết quả, các kết quả là các chuỗi có độ xấp xỉ cao, sẽ phù hợp hơn cho hệ thống sửa đổi từ.
Nếu nhƣ không gian đối sánh càng nhỏ thì sẽ có ít kết quả hơn cho hệ thống gợi ý truy vấn tìm kiếm.
- Thu hẹp: Từ khóa: ―Hệ thống thông tin‖ với thông số D = 30 và K = 15
Hình 3.8: Thu hẹp không gian với chuỗi “Hệ thống thông tin” với D=30;K=20
Với thực nghiệm thu hẹp không gian D = 30 và K = 20, hệ thống sẽ trả về cho chuỗi gợi ý ―Hệ thống thông tin‖ với kết quả 14 chuỗi thích hợp và phù hợp trong hệ thống có.
- Thu hẹp: Từ khóa: ―Hệ thống thông tin‖ với thông số D = 10 và K = 15
Hình 3.9: Thu gọn không gian với chuỗi “hệ thống thông tin” với D=10; K=15
Dựa vào các hình 3.4, 3.5 và 3.6 cho thấy được một ý tưởng và cũng là nhận xét: Không gian đối sánh đƣợc giảm làm cho hệ thống chạy hiệu quả hơn (đối sánh với chuỗi có độ dài và khoảng cách phù hợp, loại bỏ các chuỗi không phù hợp tham gia đối sánh). Nếu cho D, K càng lớn tương tưng ứng với càng nhiều chuỗi đối sánh và sẽ có nhiều kết quả trả về, phương pháp này phù hợp cho hệ thống hỗ trợ gợi ý. Nếu D, K càng nhỏ thì kết quả sẽ ít hơn, phù hợp hơn cho hệ thống sửa đổi từ sai chính tả.
- Chọn D = 5; K = 5; Từ khóa: ―Hệ thống thông tin‖ với kết quả:
Hình 3.10: Thu gọn không gian với “chuỗi hệ thống thông tin” D=5 và K=5 Thu gọn với với không gian hẹp D=5 và K=5, hệ thống trả về duy nhất một kết quả.
* Đánh giá về thu hẹp không gian:
- Khoảng cách Levenshtein của chuỗi T đối sánh với chuỗi P càng nhỏ thì chuỗi T càng giống chuỗi P. Trong trường hợp đặc biệt khoảng cách này là 0 thì T và P là trùng nhau. Nhƣ vậy nếu khoảng cách này càng lớn thì T và P thể hiện độ xấp xỉ càng nhỏ.
- Nếu khoảng Levenshtein nhỏ thì có thể áp dụng cho sửa lỗi các từ khóa. Còn với các câu thì không thể sử dụng đƣợc. Lý do đơn giản mỗi từ trong Tiếng Việt tương ứng với các độ dài 1, 2, 3, 4, 5, 6 kí tự như thế muốn trả về kết quả gợi ý thì cần phải thay đổi khoảng cách độ đo Lenvenshtein nằm trong khoảng [1,6] hoặc thậm trí là dài hơn, ở đây có thể sử dụng đến khoảng [1..12].
- Nếu khoảng cách Levenshtein càng lớn thì kết quả đối sánh cho hệ thống càng nhiều. Nhƣng đối với hệ thống gợi ý thì lại một điểm cần chú ý.
Lý do rất đơn giản, hệ thống gợi ý bao gồm cả gợi ý từ và gợi ý câu. Với gợi ý câu mà lại dùng độ đo nhỏ là không hợp lý bởi kết quả sẽ trả về các câu là rất ít (không có hoặc 1 vài câu), trường hợp này phải sử dụng khoảng cách độ đo lớn hơn gợi ý từ để có thể cho nhiều kết quả hơn.