Chương 4 Thực nghiệm và kết quả
4.3. Xây dựng cơ sở dữ liệu thơ
Thơng số lọc thơ
Chúng tơi tạo ra cặp thí sinh bằng cách ghép mỗi trang tiếng Anh với tất cả trang tiếng Việt trong một site. Vì vậy số cặp thí sinh là rất lớn. Và Bộ lọc thơ cĩ nhiệm vụ xác định giới hạn rộng, nhưng vẫn đảm bảo lọc bỏ nhiều cặp thí sinh để cho những giai đoạn sau giảm thời gian chạy của hệ thống.
Tất cả đặc trưng (thuộc tính) được tận dụng để lọc thơ. Các giới hạn (biên) để lọc thơ, được thiết lập rộng bằng tay, nên khơng phải kiểm nghiệm nhiều. Sau đây là những đặc trưng và giới hạn (biên) để lọc thơ:
Tỉ lệ kích thước (tính theo byte) của hai trang web, thường thì các câu tiếng Anh khi được dịch sang tiếng Việt sẽ thành câu dài hơn, tương ứng thì kích thước trang web tiếng Việt thường lớn hơn nên giá trị thiết lập là: low = 0.8, high = 1.25.
Khoảng cách thực ra trong hệ thống được tính theo mili giây nhưng chúng tơi quy về ngày. Khoảng cách ngày hai webpage tiếng anh được modify và up lên khác nhau nhỏ hơn max là 7.0 ngày.
Tỉ lệ giống nhau giữa hai tên file. Với những website tuân thủ chặt chẽ tỉ lệ này thì cũng rất cĩ lợi nếu chỉ xét những website này, nhưng vì nhiều website khơng chặt về đặc trưng này nên đặc trưng này khơng lọc được nhiều lắm. Ví dụ về tên hai trang web, index_en.html và index.html dùng lập trình động sẽ đưa ra kết quả là 0.8695652173913043. Biên của đặc trưng này là min = 0.3.
Tỉ lệ giống nhau của tên các thư mục con. Cách tính như sau lấy số tên thư mục con giống nhau nhân hai chia cho tổng số thư mục con, nên nhớ tên thư mục con sẽ được thay thế bằng xâu cố định nếu tên thư mục chỉ ra ngơn ngữ của trang web. Ví dụ:
...\htx\english\c1330\ và ...\htx\vietnamese\...
Khi cho hai xâu chỉ thư mục con này qua tiền xử lý sẽ trở thành: ...\htx\***\c1330\ và ...\htx\***\...
Sau đĩ dùng lập trình động để tìm ra phần chung và tính độ tương đồng và kết quả là 2 * 2 / (3 + 2) = 0.8 với việc dĩng hàn htx – htx, *** – *** (english – vietnamese).
Giá trị biên được thiết lập cho đặc trưng này là min = 0.1.
Tỉ lệ khác nhau của số thư mục con. Với đặc trưng này, chúng tơi coi rằng đã là trang web song ngữ thì cấu trúc thư mục là cĩ cấu trúc song song. Đặc tính thể hiện hai trang web nằm trong cấu trúc song song và khác nhau khơng quá xa. Cách tính lấy trị tuyệt đối hiệu số thư mục con chia cho tổng số thư mục con của url của hai trang web. Ví dụ:
...\htx\english\c1330\ và ...\htx\vietnamese\... Chỉ cần đếm và tính kết quả là |5 – 4| / 5 = 0.2.
Giá trị biên của đặc trưng tương đồng số thư mục con là max = 0.334. Tỉ lệ số âm tiết của hai webpage, âm tiết được tách bởi ký tự khơng phải chữ cái và khơng phải là „-‟, bởi vậy số âm tiết là số âm tiết của tất cả ngơn ngữ. Giá trị biên của đặc trưng này là: low = 0.3, high = 1.25. tại sao lại lệch so với 1.0 thế? Là vì tỉ lệ ở đây là số âm tiết của trang tiếng Anh chia cho số âm tiết của trang tiếng Việt mà một câu tiếng Việt là bản dịch thì thường cĩ độ dài hơn câu tiếng Anh. Tỉ lệ số chunk. Đặc trưng này rất cĩ ý nghĩa là vì đã là bản dịch thì việc cấu trúc thẻ tương tự nhau thì khi dĩng hàng số chunk cũng tương tự nhau. Nếu hai trang web cĩ số chunk lệch nhau quá lớn thì khơng thể là bản dịch được. Giá trị biên của đặc trưng này là: low = 0.7, high = 1.35.
Một trang web mà số chunk quá ít hoặc số âm tiết quá nhỏ thì khơng cĩ ý nghĩa cho các lĩnh vực khác bởi vậy lọc số chunk, số âm
tiết là cần thiết để tiết kiệm thời gian cho hệ thống. Cịn nếu số chunk mà quá lớn thì khi dĩng hàng lập trình động cần lượng bộ nhớ lớn để lưu trữ. Cũng tương tự với văn bản của trang web mà quá lớn nếu khơng cẩn thận thì khi dĩng hàng nội dung hoặc dĩng hàng câu của các ứng dụng khác khơng chạy được vì thiếu bộ nhớ. Bằng kiểm tra và trong quá trình thực hành giá trị biên dần được điều chỉnh cho phù hợp và giá trị của biên là số âm tiết min = 40; số min chunk là 20, max số chunk là 15000.
Tuy bốn đặc trưng dp, n, r,p thể hiện chất lượng dĩng hàng, nhưng qua đây ta cũng cĩ thể lọc chúng để cho kích thước cặp thí sinh giảm xuống cho cả phần lọc cấu trúc và lọc nội dung (nếu hệ thống cĩ). Chúng tơi gán cố định cho p là 0.01 để đảm bảo độ chặt chẽ của r. Bởi vậy qua tham khảo và kiểm nghiệm một số cặp chúng tơi đặt các biên rộng một chút đảm bảo khơng lọc lỗi các cặp là bản dịch. Cụ thể là: max dp = 0.25, max n = 40, min r = 0.9, ngồi ra một thơng số n chia cho tổng số text nonmarkup đã được dĩng hàng với biên là max 0.25.
Kết quả lọc thơ
Kết quả sau khi sau xác định ngơn ngữ , tạo cặp và lọc thơ ta cĩ tương ứng với mỗi website cĩ số lượng cặp trang web thí sinh như sau:
Bảng 3: Các website và số lượng, tỉ lệ cặp thí sinh Số thứ tự website song ngữ số cặp thí sinh Tỉ lệ so với tổng số cặp thí sinh
2 www.undp.org.vn 23545 56.25% 3 www.na.gov.vn 18169 43.40% 4 www.vietnamtourism.com 10 0.024% 5 www.vietnamnet.vn và english.vietnamnet.vn 0 0% 6 www.toyotavn.com.vn 16 0.038% 7 www.cpv.org.vn 0 0% 8 www.vietnamgateway.org:100 0 0% 9 www.nhandan.com.vn 0 0% 10 www.voanews.com 14 0.033% 11 www.bbc.co.uk và news.bbc.co.uk 0 0% 12 ukinvietnam.fco.gov.uk 65 0.155% tổng số 41861 100%