, , , , cịn loại khơng có ý nghĩa: , , Sau chuyển sang tuyến tính (hoặc tạo cây) để dóng hàng, số đặc trưng 1, tỉ lệ thẻ khơng dóng hàng, tỉ lệ tối ưu học máy kết hợp với đặc trưng khác hệ thống Theo [5] STRAND lấy modul so sánh cấu trúc thẻ html làm trái tim hệ thống STRAND có nhiều phiên bản, phiên cũ, hệ thống khai phá web qua ba bước: Locating - xác định trang có lẽ có dịch song ngữ Generating - tạo cặp thí sinh có lẽ dịch Structure filtering - lọc cấu trúc bỏ cặp không dịch Trong bước locating, STRAND sử dụng trình tìm kiếm AltaVista để tìm kiếm hai kiểu trang web là: cha anh em Một trang cha trang chứa link đến nhiều phiên khác tài liệu; ví dụ: Hình 1: Ví dụ trang cha Nhìn vào ví dụ trên, trang cha chứa link đến phiên khác nội dung Các phiên tiếng Anh, tiếng Trung, tiếng Việt Sau để tạo cặp trang web thí sinh cần lấy hai link hai tiếng Việt Tiếng Anh với Trang anh em trang ngôn ngữ chứa link đến ngơn ngữ khác Ví dụ: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 2: Ví dụ trang anh em Nhìn vào ví dụ trên, trang chứa link đến khác tiếng Anh Để ghép tạo cặp thí sinh cần ghép trang với tiếng Anh tương ứng Trong bước generating, cho cặp url có khả chứa dịch qua modul so sánh url STRAND tạo luật để so sánh, chẳng hạn, en -> Ngoài ra, modul STRAND có thêm tính hỗ trợ thay thế, loại bỏ nhiều đoạn url, ví dụ: Hình 3: Ví dụ loại bỏ nhiều đoạn Bước structure filtering trình bày phần lọc cấu trúc Trong STRAND phiên có thêm modul so sánh content, trình bày đoạn lọc nội dung Theo [4] PCMS nói chung giống STRAND Nhưng có số điểm khác biệt Thứ nhất, phần tính độ tương tự cấu trúc url hai trang web hệ thống tính tốn cụ thể cịn STRAND PTMiner thay LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong khóa luận, dùng substring định nghĩa trước, substring tìm thấy url, ngơn ngữ trang tương ứng với substring Chúng tơi dùng substring sau: Substring kết hợp english, eng, en, e, tienganh, vietnamese, vietnam, vn, v, tiengviet, substring kết hợp với *., \*\, \*., _, -, lang=, language= Bảng sau substring tạo ra: Bảng 2a: Những substring ngôn ngữ có url trang web Ngơn ngữ * \*\ \* _* English english \english\ \english _english Eng eng \eng\ \eng _eng En en \en\ \en _en E e \e\ \e _e tienganh tienganh \tienganh\ \tienganh _tienganh vietnamese vietnamese \vietnamese\ \vietnamese _vietnamese vietnam vietnam \vietnam\ \vietnam _vietnam Vn \vn\ \vn _vn V v \v\ \v _v tiengviet tiengviet \tiengviet\ \tiengviet _tiengviet 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Và Bảng 2b: Những substring ngôn ngữ có url trang web Ngơn ngữ *_ *- -* lang= English _english english- -english language= lang=englis language=engl h ish Eng _eng eng- -eng lang=eng language=eng En _en en- -en lang=en language=en E _e e- -e lang=e language=e Tienga _tiengan tiengan nh h h- Vietna _vietna vietnam mese mese ese- Vietna m _vietna m vietnam lang=vietna language=viet vietnam m nam Vn _vn vn- -vn lang=vn language=vn V _v v- -v lang=v language=v tiengan h lang=tienga language=tien nh ganh lang=vietna language=viet vietnam mese namese ese lang=tieng Tiengvi _tiengvi tiengvie tiengvie et tviet et t language=tien gviet 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chẳng hạn, số url website chứa substring nêu trên: http://www.bbc.co.uk/vietnamese/ , http://www.vietnamtourism.com/v_pages/ , Đếm số âm tiết Nếu url trang web khơng có thơng tin ngơn ngữ, với cách xác định ngơn ngữ cách đếm số âm tiết ngôn ngữ Anh Việt Sau tính tier lệ số âm tiết tổng số âm tiết trang web(gồm âm tiết tiếng Anh lẫn tiếng Việt) xác định giới hạn tỉ lệ Việc xác định giới hạn này, sau nhiều lần khảo sát tay gán sau: Đặt te tỉ lệ âm tiết tiếng anh, đặt tv tỉ lệ âm tiết tiếng việt, ta có điều kiện xác định ngôn ngữ sau: Nếu tv > 0.7 te < 0.3 webpage tiếng việt Nếu không te > 0.7 tv < 0.2 webpage tiếng anh Bằng kết hợp substring ngôn ngữ đếm số âm tiết, số lượng trang web tiếng Anh tiếng Việt bảng 4.3 Xây dựng sở liệu thô Thông số lọc thơ Chúng tơi tạo cặp thí sinh cách ghép trang tiếng Anh với tất trang tiếng Việt site Vì số cặp thí sinh lớn Và Bộ lọc thơ có nhiệm vụ xác định giới hạn rộng, đảm bảo lọc bỏ nhiều cặp thí sinh giai đoạn sau giảm thời gian chạy hệ thống 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tất đặc trưng (thuộc tính) tận dụng để lọc thơ Các giới hạn (biên) để lọc thô, thiết lập rộng tay, nên kiểm nghiệm nhiều Sau đặc trưng giới hạn (biên) để lọc thơ: Tỉ lệ kích thước (tính theo byte) hai trang web, thường câu tiếng Anh dịch sang tiếng Việt thành câu dài hơn, tương ứng kích thước trang web tiếng Việt thường lớn nên giá trị thiết lập là: low = 0.8, high = 1.25 Khoảng cách thực hệ thống tính theo mili giây chúng tơi quy ngày Khoảng cách ngày hai webpage tiếng anh modify up lên khác nhỏ max 7.0 ngày Tỉ lệ giống hai tên file Với website tuân thủ chặt chẽ tỉ lệ có lợi xét website này, nhiều website khơng chặt đặc trưng nên đặc trưng khơng lọc nhiều Ví dụ tên hai trang web, index_en.html index.html dùng lập trình động đưa kết 0.8695652173913043 Biên đặc trưng = 0.3 Tỉ lệ giống tên thư mục Cách tính sau lấy số tên thư mục giống nhân hai chia cho tổng số thư mục con, nên nhớ tên thư mục thay xâu cố định tên thư mục ngơn ngữ trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Khi cho hai xâu thư mục qua tiền xử lý trở thành: \htx\***\c1330\ \htx\***\ 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sau dùng lập trình động để tìm phần chung tính độ tương đồng kết * / (3 + 2) = 0.8 với việc dóng hàn htx – htx, *** – *** (english – vietnamese) Giá trị biên thiết lập cho đặc trưng = 0.1 Tỉ lệ khác số thư mục Với đặc trưng này, chúng tơi coi trang web song ngữ cấu trúc thư mục có cấu trúc song song Đặc tính thể hai trang web nằm cấu trúc song song khác không xa Cách tính lấy trị tuyệt đối hiệu số thư mục chia cho tổng số thư mục url hai trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Chỉ cần đếm tính kết |5 – 4| / = 0.2 Giá trị biên đặc trưng tương đồng số thư mục max = 0.334 Tỉ lệ số âm tiết hai webpage, âm tiết tách ký tự chữ „-‟, số âm tiết số âm tiết tất ngôn ngữ Giá trị biên đặc trưng là: low = 0.3, high = 1.25 lại lệch so với 1.0 thế? Là tỉ lệ số âm tiết trang tiếng Anh chia cho số âm tiết trang tiếng Việt mà câu tiếng Việt dịch thường có độ dài câu tiếng Anh Tỉ lệ số chunk Đặc trưng có ý nghĩa dịch việc cấu trúc thẻ tương tự dóng hàng số chunk tương tự Nếu hai trang web có số chunk lệch q lớn khơng thể dịch Giá trị biên đặc trưng là: low = 0.7, high = 1.35 Một trang web mà số chunk số âm tiết nhỏ khơng có ý nghĩa cho lĩnh vực khác lọc số chunk, số âm 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tiết cần thiết để tiết kiệm thời gian cho hệ thống Còn số chunk mà q lớn dóng hàng lập trình động cần lượng nhớ lớn để lưu trữ Cũng tương tự với văn trang web mà q lớn khơng cẩn thận dóng hàng nội dung dóng hàng câu ứng dụng khác khơng chạy thiếu nhớ Bằng kiểm tra trình thực hành giá trị biên dần điều chỉnh cho phù hợp giá trị biên số âm tiết = 40; số chunk 20, max số chunk 15000 Tuy bốn đặc trưng dp, n, r,p thể chất lượng dóng hàng, qua ta lọc chúng kích thước cặp thí sinh giảm xuống cho phần lọc cấu trúc lọc nội dung (nếu hệ thống có) Chúng tơi gán cố định cho p 0.01 để đảm bảo độ chặt chẽ r Bởi qua tham khảo kiểm nghiệm số cặp đặt biên rộng chút đảm bảo không lọc lỗi cặp dịch Cụ thể là: max dp = 0.25, max n = 40, r = 0.9, ngồi thơng số n chia cho tổng số text nonmarkup dóng hàng với biên max 0.25 Kết lọc thô Kết sau sau xác định ngôn ngữ , tạo cặp lọc thơ ta có tương ứng với website có số lượng cặp trang web thí sinh sau: Bảng 3: Các website số lượng, tỉ lệ cặp thí sinh Số thứ tự số cặp website song ngữ www.honda.com.vn thí Tỉ lệ so với tổng số sinh cặp thí sinh 42 0.1% 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com www.undp.org.vn 23545 56.25% www.na.gov.vn 18169 43.40% www.vietnamtourism.com 10 0.024% 0% www.vietnamnet.vn english.vietnamnet.vn www.toyotavn.com.vn 16 0.038% www.cpv.org.vn 0% www.vietnamgateway.org:100 0% www.nhandan.com.vn 0% 10 www.voanews.com 14 0.033% 11 www.bbc.co.uk news.bbc.co.uk 0% 12 ukinvietnam.fco.gov.uk 65 0.155% 41861 100% tổng số 4.4 Xây dựng phân loại kết phân loại Chương thực bước 5,6,7,8 sơ đồ tổng quan hệ thống hình Chuẩn bị liệu 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Từ 41861 cặp trang web thí sinh, chúng tơi lấy ngẫu nhiên 5000 cặp huấn luyện 1000 cặp test không giống với cặp huấn luyện Sau chúng tơi gán nhãn tay cho tất cặp huấn luyện cặp test Sau gán nhãn, thống kê cho thấy: tập huấn luyện có 687 cặp có nhãn true, tập test có 128 cặp nhãn true Dữ liệu huấn luyện: teaching/teaching teaching/teaching-labeled Dữ liệu kiểm tra: teaching/testing teaching/testing-labeled Mỗi cặp thí sinh có thơng số cho tất thuộc tính, theo thứ tự sau: Bảng 4: Thuộc tính (đặc trưng) thứ hạng theo xắp sếp sẵn dp n ration r sizeratio datedistanc filenamesi e m dirnumdi ff 10 dirnamesi wordrati chunkrati m o o Từ số thay cho tên thuộc tính ví dụ thuộc tính dp, thuộc tính filenamesim, Mơ hình định Từ liệu huấn luyện, chúng tơi xây dựng mơ hình tool jaDTi-0.5.1 Jean-Marc Francois để tạo mơ hình Chúng tơi xây dựng hai mơ hình, mơ hình thứ gồm ba thuộc tính, mơ hình thứ hai gồm tất thuộc tính Hai mơ hình tạo chứa 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com hai file teaching/teaching-labeled3.dot teaching/teachinglabeled11.dot tương ứng, sau chúng tơi dùng tool Graphviz 2.22 để từ mơ hình tạo mơ định hai file ảnh: teaching/teaching-labeled3.jpg teaching/eaching-labeled3.jpg Kết trực quan thấy định dùng tất thuộc tính nhỏ gọn định dùng ba thuộc tính dp, n, r Kết thống kê bảng sau: Bảng 5: Độ xác recall decision tree số lượng thuộc tính sử precision dụng recall số lượng cặp song ngữ 0.55932203 0.515625 5221 11 0.92741935 0.898438 5404 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: /data3.paired, /data11.paired Mơ hình Naive Bayes Trước tạo mơ hình Naive Bayes, phải chuẩn hóa giá trị thuộc tính Và việc chuẩn hóa cần thơng số gap khoảng cách thuộc tính Giá trị gap thiết lập tay, qua nhiều lần kiểm nghiệm Kiểm nghiệm cách, lần cho tạo mơ hình Naive Bayes, cho chạy tập test, tính precison recall, thuộc tính, precison recall tăng gap thuộc tính bị chia nhỏ precision recall không tăng., tăng không đáng kể so với tỉ lệ gap bị chia 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com nhỏ (gap nhỏ số lượng giá trị thuộc tính nhiều, liệu bị phân mảnh, định giảm tính khái quát) Dữ liệu huấn luyện chuẩn hóa: teaching/teaching-labeledstandarded Dữ liệu test chuẩn hóa: teaching/testing-labeled-standarded Riêng Naive Bayes, thiết kế hệ thống để với tổ hợp thuộc tính đưa precison, recall toàn cặp song ngữ liệu ban đầu Chúng tơi đưa thuộc tính để tính tốn precison recall, thứ gồm dp, n, r gồm filenamesim dirnamesim (6 8), có recall precision cao liệt kê file teaching/combinning-attributes.prerec Kết thống kê bảng sau: 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng 6: Độ xác recall Naive Bayes số lượng thuộc tính số lượng precision recall sử dụng Tối ưu (6,8) cặp song ngữ 0.44339622641509435 0.3671875 0.967479674796748 0.9296875 4718 5198 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: / data-nb013.paired, / data-nb68.paired 4.5 Hướng dẫn sử dụng chương trình Cài đặt tool/wget-1.11.4-1-setup.exe Chạy từ command line dùng wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma -i urls.txt Hoặc wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma url Urls.txt chứa sites mà bạn muốn download, url site mà bạn muốn download Sử dụng: java -Xms128m -Xmx1300m -jar StructureIndexes.jar Với path input_example_sites.txt để dóng hàng tạo số khác chi tiết xem file output, config/input_example_sites.txt Sử dụng: java -jar CreatingData.jar 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Với path input_teaching.txt để tạo liệu training testing chi tiết xem file input_teaching.txt Sử dụng: java -Xmx1300m -jar jaDTi-0.5.1.jar để tạo mơ hình định, thống kế độ xác, tạo file dot, list tất cặp thỏa mãn, chọn 11 (tất thuộc tính) chọn dp, n, r làm thuộc tính tạo trỏ đến thư mục chứa tất liêu Dùng tool/graphviz-2.22.2.msi để từ file dot chứa mơ hình tạo có nhìn trực quan Sử dụng: java -jar NaiveBayes.jar Với trỏ đến naivebayes-1.txt naivebayes-2.txt naivebayes-3.txt muốn thống kê độ xác recall tất tổ hợp thuộc tính hay đưa danh sách tất cặp song ngữ từ cặp dự thí ban đầu hay thống kê độ xác recall tổ hợp thuộc tính cụ thể có file config 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Chúng tơi tìm hiểu, nghiên cứu công nghệ mô hình DOM tree, so sánh cấu trúc html, so sánh content, trang web Xây dựng hệ thống khai phá liệu song ngữ world wide web cho cặp ngôn ngữ Anh –Việt Tuy nhiều nguyên nhân nên hệ thống tích hợp khơng hết cơng nghệ mà đến so sánh cấu trúc html sử dụng số tiêu chí khác tương đồng cấu trúc url, tên file, 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết đạt khả quan, dùng định độ xác 92,74%, cịn Naive Bayes 96,74% Định hướng phát triển, tích hợp thêm tiêu chí tương đồng nội dung điều chỉnh lại hệ thống cho hoàn thiện Tài liệu tham khảo 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [1] Van B Dang, Ho Bao-Quoc 2007 Automatic Construction of English-Vietnamese Parallel Corpus through Web Mining Proceedings of 5th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future (RIVF‟2007), Hanoi, Vietnam [2] Christopher D Manning and Hinrich Schütze Foundations of Statistical Natural Language Processing MIT Press, 1999 [3] Jian-Yun Nie, Jiang Chen, Exploiting the Web as Parallel Corpora for Cross language Information Retrieval, 2008 [4] Bo li, Juan Liu, Mining Chinese-English Parallel Corpora from the Web [5] P Resnik and N A Smith 2003 The Web as a Parallel Corpus Computational Linguistics, 2003, [6] Lei Shi, Cheng Niu, Ming Zhou, Jianfeng Gao 2006 A DOM Tree Alignment Model for Mining Parallel Data from the Web ACL 2006 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ World Wide Web cho cặp ngôn ngữ Anh –Việt Phần 1.2 trình bày cách tóm tắt nghiên cứu khai. .. cầu văn song ngữ cho cặp ngôn ngữ Anh- Việt Cụ thể luận văn tập trung vào hai nhiệm vụ chính: Tìm hiểu, nghiên cứu, phát triển cơng nghệ tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song. .. liệu song ngữ Văn song ngữ tài ngun ngơn ngữ giàu có cho nhiệm vụ quản lý văn đa ngữ khác nhau, gồm trích rút văn ngơn ngữ bắt chéo, khai phá văn đa ngữ ngôn ngữ máy tính Một tập văn song ngữ