, , , , cịn loại khơng có ý nghĩa: , , Sau chuyển sang tuyến tính (hoặc tạo cây) để dóng hàng, số đặc trưng 1, tỉ lệ thẻ không dóng hàng, tỉ lệ tối ưu học máy kết hợp với đặc trưng khác hệ thống Theo [5] STRAND lấy modul so sánh cấu trúc thẻ html làm trái tim hệ thống STRAND có nhiều phiên bản, phiên cũ, hệ thống khai phá web qua ba bước: Locating - xác định trang có lẽ có dịch song ngữ Generating - tạo cặp thí sinh có lẽ dịch Structure filtering - lọc cấu trúc bỏ cặp không dịch Trong bước locating, STRAND sử dụng trình tìm kiếm AltaVista để tìm kiếm hai kiểu trang web là: cha anh em Một trang cha trang chứa link đến nhiều phiên khác tài liệu; ví dụ: Hình 1: Ví dụ trang cha Nhìn vào ví dụ trên, trang cha chứa link đến phiên khác nội dung Các phiên tiếng Anh, tiếng Trung, tiếng Việt Sau để tạo cặp trang web thí sinh cần lấy hai link hai tiếng Việt Tiếng Anh với Trang anh em trang ngơn ngữ chứa link đến ngơn ngữ khác Ví dụ: Hình 2: Ví dụ trang anh em Nhìn vào ví dụ trên, trang chứa link đến khác tiếng Anh Để ghép tạo cặp thí sinh cần ghép trang với tiếng Anh tương ứng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong bước generating, cho cặp url có khả chứa dịch qua modul so sánh url STRAND tạo luật để so sánh, chẳng hạn, en -> Ngoài ra, modul STRAND có thêm tính hỗ trợ thay thế, loại bỏ nhiều đoạn url, ví dụ: Hình 3: Ví dụ loại bỏ nhiều đoạn Bước structure filtering trình bày phần lọc cấu trúc Trong STRAND phiên có thêm modul so sánh content, trình bày đoạn lọc nội dung Theo [4] PCMS nói chung giống STRAND Nhưng có số điểm khác biệt Thứ nhất, phần tính độ tương tự cấu trúc url hai trang web hệ thống tính tốn cụ thể STRAND PTMiner thay loại bỏ kiểm tra chúng có giống hay khơng PCMS tiền xử lý thư mục url mà xác định ngôn ngữ trang web PCMS thay chúng chuỗi ký tự Ví dụ url: /english/ file.htm thành /***/ file.htm Tiếp đó, số tiêu chí tính tốn sau: Tỉ lệ số thư mục url hai trang web Công thức là: URL diff (A, B) = | len( A) len( B) | len( A) len( B ) Trong công thức len(A) số thư mục url A, len(B) số thư mục url B Nếu số thư mục A B tỉ lệ khác Tỉ lệ thư mục có tên giống Cơng thức là: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com URL dirsim(A, B) = * comdir ( A, B) len( A) len( B) Trong công thức trên, comdir(PA,PB) số thư mục có tên giống Thứ hai, modul so sánh nội dung, PCMS triển khai mơ hình khơng gian vecto song ngữ Ý tưởng mơ hình trang web đại diện vecto mục từ, tập trang web ngơn ngữ khơng gian vecto có số chiều số từ vựng ngơn ngữ Vì số mục từ hai ngơn ngữ khác nên PCMS đưa cách chuyển đổi số chiều không gian vecto ngôn ngữ số chiều không gian vecto ngôn ngữ Và công thức cosine coefficient sử dụng để tính độ tương tự Cơng thức sau: p xi yi i 1 Cosine ecoefficient = p i 1 p x i2 * y i2 i 1 Với p số mục từ tiếng Anh Theo [5], modul so sánh nội dung hai trang web quan trọng hệ thống Và so sánh toàn nội dung quy so sánh đoạn, so sánh đoạn dựa mơ hình ánh xạ từ -từ Hai đoạn dóng hàng với thỏa mãn điều kiện số từ dóng hàng lớn ngưỡng Tổng số từ dóng hàng trang web tổng tất đoạn Đặc trưng rút số từ dóng hàng tổng số từ hai trang web Theo [6] Một hệ thống xây dựng, tự động khai phá liệu song ngữ dựa dóng hàng DOM Tree Ý tưởng hay chỗ vào thực tế cấu trúc html trang web cấu trúc khơng phải tuyến tính Mơ hình DOM Tree có nhược điểm nắm bắt khó hơn, liên quan đến xác suất có điều kiện Thời gian chạy dóng hàng DOM nhiều so với dóng hàng tuyến tính Ví dụ DOM Tree: Hình 4: Sự khác mơ hình DOM chuẩn mơ hình DOM sau thu gọn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mơ hình dóng hàng DOM định nghĩa dóng hàng tiến trình khơng thay đổi thứ tự Ví dụ node A dóng hàng với node B A bị xóa dóng hàng với B Để thẩm tra cặp trang web thí sinh có song song, phân lớp dựa maximum entropy nhị phân sử dụng Tiêu chi tương đồng cấu trúc hẻ html tính sau: tất thẻ html trang web nối thành chuỗi Sau khoảng cách nhỏ hai chuỗi thẻ liên quan đến cặp thí sinh tính toán, độ tương đồng thẻ html tỉ lệ số thẻ giống chia cho tổng số thẻ Điểm cho dóng hàng câu định nghĩa tỉ lệ số câu dóng hàng tổng số câu hai file 1.3 Mục tiêu tiếp cận giải vấn đề Với vai trò, tầm quan trọng liệu song ngữ ứng dụng xử lý ngôn ngữ tự nhiên, đồng thời thúc đẩy việc thiếu sở liệu song ngữ Anh -Việt cho nhiều nghiên cứu khác, luận văn tập trung vào cơng việc: Tìm hiểu, nghiên cứu, phát triển cơng nghệ tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ World Wide Web cho cặp ngơn ngữ Anh –Việt Phần 1.2 trình bày cách tóm tắt nghiên cứu khai phá liệu song ngữ Có thể chia làm hai tiếp cận tiếp cận dựa nội dung tiếp cận dựa cấu trúc trang web Đối với tiếp cận dựa nội dung, phải sử dụng từ điển song ngữ Do việc từ điển song ngữ Anh – Việt có nhiều nhập nhằng, thời gian có hạn nên chúng tơi tập trung vào nghiên cứu theo tiếp cận thứ hai dựa vào cấu trúc văn (trang web) Phương pháp sử dụng phát triển dựa nghiên cứu [3,5], với hai phần: Xác định thuộc tính dùng để đo độ tương tự hai trang html Áp dụng thuật toán học máy để xây dựng mơ hình tập thuộc tính Đối với phần thứ nhất, sử dụng thuộc tính sau: So sánh độ tương đồng tên file trang web So sánh độ tương đồng cấu trúc url LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng Naive Bayes cho mơ hình phân loại luận văn Những ứng dụng Bayes thường dựa giả thuyết có tính triết học Bayesian probability ngầm định độ bất định kỳ vọng tính tốn giống xác suất Với Bayes ngây thơ ngồi giả thuyết Bayes, cịn giả thuyết ngây thơ, giả thuyết ngây thơ đặc trưng cặp trang web độc lập với Áp dụng cho xây dựng mơ hình ngơn ngữ: Gọi C lớp hay nhãn cặp thí sinh Giá trị C true false Cịn tập thuộc tính ký hiệu As tương ứng với tập đặc trưng hay tiêu chí phân lớp, tức là: As = a1 a2 an Mỗi nhận giá trị nguyên vj As = v1v2 Vậy với cặp trang web, việc gán nhãn phục thuộc vào hai xác suất có điều kiện sau: P(C=true/a1=v1a2=v2 an=vn) P(C=false/a1=v1a2=v2 an=vn) Xác suất lớn cặp trang web có nhãn tương ứng Theo định lý Bayes ta có: P(C=true/ a1=v1a2=v2 an=vn) = P(C=false/ a1=v1a2=v2 an=vn) = P(a v1a v a n v n /C true) P(C true) P(a1 v1a v a n v n ) P(a v1a v a n v n /C false ) P(C false) P(a1 v1 a v a n v n ) Khi so sánh hai xác suất P(C=true/As=v1v2 vn) P(C=false/As=v1v2 vn), vế phải khai triển Bayes có mẫu chung ta bỏ qua Chỉ cần so sánh tử thơi Vì có giả định ngây thơ đặc trưng độc lập với nhau, nên ta có: P(a1=v1a2=v2 an=vn/C=true)P(C=true) = P(a1=v1/C=true) P(a2=v2/C=true) P(an=vn/C=true) P(C=true) P(a1=v1a2=v2 an=vn/C=false)P(C=false) = P(a1=v1/C=false) P(a2=v2/C=false) P(an=vn/C=false) P(C=false) 25 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Từ ta cần tính xác suất thành phần bên phải, sau tích lại so sánh xem lớn gán nhãn tương ứng Ta có xác suất thành phần tính dựa thống kê: P(C=true) = count(nhãn true) / số cặp tập huấn luyện P(a1=v1/C=true) = count(nhãn true, có thuộc tính a1 có giá trị v1) / count(nhãn true) P(a2=v2/C=true) = count(nhãn true, có thuộc tính a2 có giá trị v2) / count(nhãn true) P(an=vn/C=true) = count(nhãn true, có thuộc tính an có giá trị vn) / count(nhãn true) P(C=false) = count(nhãn false) / số cặp tập huấn luyện P(a1=v1/C=false) = count(nhãn false, có thuộc tính a1 có giá trị v1) / count(nhãn false) P(a2=v2/C=false) = count(nhãn false, có thuộc tính a2 có giá trị v2) / count(nhãn false) P(an=vn/C=false) = count(nhãn false, có thuộc tính an có giá trị vn) / count(nhãn false) Và mơ hình ngơn ngữ Bayes tất xác suất cho tất giá trị tất thuộc tính hai class true false, với mẫu bất kỳ, ví dụ: (input= u1u2 un) nhãn ví dụ phụ thuộc vào kết hai biểu thức: P(a1=u1/C=false) P(a2=u2/C=false) P(an=un/C=false) P(C=false) P(a1=u1/C=true) P(a2=u2/C=true) P(an=un/C=true) P(C=true) Cách tính thành phần tìm nơi lưu trữ xác suất thành phần lấy giá trị phù hợp, chẳng hạn P(a1=u1/C=false) = P(a1=v1/C=false) với v1=u1 26 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Thực nghiệm kết 4.1 Kiến trúc tổng quan hệ thống Sơ đồ kiến trúc tổng quan Hình 8: Sơ đồ kiến trúc hệ thống Bước 1,2: hệ thống dùng tool GNU Wget để dowload toàn file html tĩnh động website máy Bước 3,4: bước làm nhiệm vụ tính tốn tất thông số, đưa vào liệu ban đầu, đồng thời với lọc thơ làm giảm kích thước liệu làm giảm thời gian chạy cho giai đoạn sau Dữ liệu “Data with indexes” cặp trang web hai ngôn ngữ Anh-Việt với số đặc trưng phụ Bước 5,6: Để có hệ thống tốt cần phải có mơ hình huấn luyện kiểm tra, bước có nhiệm vụ tạo liệu huấn luyện, kiểm tra cách lấy ngẫu nhiên Sau dùng định, Bayes ngây thơ Bước 7,8: Với mơ hình có, tất liệu ban đầu qua, kết cuối Parallel text 27 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2 Bộ công cụ download xác định ngôn ngữ Download Có hai cách tìm kiếm download website tiếng Việt Thứ nhất, làm tay, tìm kiếm xác định địa website song ngữ Anh-Việt, sau dùng tool GNU Wget để download trang web Thứ hai, chạy tự động dùng tool GNU Wget download site trang web số lượng đó, tồn số lượng trang web tiếng Anh-Việt lớn giới hạn download trang web Luận văn sử dụng cách thứ nhất, với địa website tiếng Việt thực cửa sổ command line câu lệnh: wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma pdf,mp3,mp4 -i urls.txt liệt kê địa vào file dùng câu lệnh wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma,pdf,mp3,mp4 url Một số website download xong, số chưa Kết download sau: Bảng 1: Các websites số lượng trang web tiếng Anh, tiếng Việt down Số thứ tự số trang web số trang web website song ngữ tiếng Anh tiếng Việt 27 465 www.honda.com.vn www.undp.org.vn 1652 1278 www.na.gov.vn 6352 5184 www.vietnamtourism.com 1410 1234 www.vietnamnet.vn english.vietnamnet.vn 2060 17549 www.toyotavn.com.vn 169 www.cpv.org.vn 1920 16640 www.vietnamgateway.org:100 441 8640 www.nhandan.com.vn 453 3263 10 ww.voanews.com 2587 2863 11 www.bbc.co.uk news.bbc.co.uk 6274 1232 12 ukinvietnam.fco.gov.uk 447 255 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Xác định ngôn ngữ Thường website song ngữ, substring tính song song ngơn ngữ trang web Bởi vậy, url webpage có chứa thơng tin liên quan đến ngơn ngữ tiếng Anh tiếng Việt cho url trang web vào danh sách ngôn ngữ tương ứng Trong khóa luận, dùng substring định nghĩa trước, substring tìm thấy url, ngơn ngữ trang tương ứng với substring Chúng tơi dùng substring sau: Substring kết hợp english, eng, en, e, tienganh, vietnamese, vietnam, vn, v, tiengviet, substring kết hợp với language= Bảng sau substring tạo ra: *., \*\, \*., _, -, lang=, Bảng 2a: Những substring ngơn ngữ có url trang web Ngôn ngữ * \*\ \* _* English english \english\ \english _english Eng eng \eng\ \eng _eng En en \en\ \en _en E e \e\ \e _e tienganh tienganh \tienganh\ \tienganh _tienganh vietnamese vietnamese \vietnamese\ \vietnamese _vietnamese vietnam vietnam \vietnam\ \vietnam _vietnam Vn \vn\ \vn _vn V v \v\ \v _v tiengviet tiengviet \tiengviet\ \tiengviet _tiengviet 29 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Và Bảng 2b: Những substring ngơn ngữ có url trang web Ngôn ngữ *_ *- -* lang= language= English _english english- -english lang=english language=english Eng _eng eng- -eng lang=eng language=eng En _en en- -en lang=en language=en E _e e- -e lang=e language=e Tienganh _tienganh tienganh- -tienganh lang=tienganh language=tienganh Vietnamese _vietnamese vietnamese- -vietnamese lang=vietnamese language=vietnamese Vietnam _vietnam vietnam- -vietnam lang=vietnam language=vietnam Vn _vn vn- -vn lang=vn language=vn V _v v- -v lang=v language=v Tiengviet _tiengviet tiengviet- -tiengviet lang=tiengviet language=tiengviet Chẳng hạn, số url website chứa substring nêu trên: http://www.bbc.co.uk/vietnamese/ , http://www.vietnamtourism.com/v_pages/ , Đếm số âm tiết Nếu url trang web khơng có thơng tin ngơn ngữ, với cách xác định ngơn ngữ cách đếm số âm tiết ngôn ngữ Anh Việt Sau tính tier lệ số âm tiết tổng số âm tiết trang web(gồm âm tiết tiếng Anh lẫn tiếng Việt) xác định giới hạn tỉ lệ Việc xác định giới hạn này, sau nhiều lần khảo sát tay gán sau: Đặt te tỉ lệ âm tiết tiếng anh, đặt tv tỉ lệ âm tiết tiếng việt, ta có điều kiện xác định ngơn ngữ sau: Nếu tv > 0.7 te < 0.3 webpage tiếng việt Nếu khơng te > 0.7 tv < 0.2 webpage tiếng anh 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bằng kết hợp substring ngôn ngữ đếm số âm tiết, số lượng trang web tiếng Anh tiếng Việt bảng 4.3 Xây dựng sở liệu thô Thơng số lọc thơ Chúng tơi tạo cặp thí sinh cách ghép trang tiếng Anh với tất trang tiếng Việt site Vì số cặp thí sinh lớn Và Bộ lọc thơ có nhiệm vụ xác định giới hạn rộng, đảm bảo lọc bỏ nhiều cặp thí sinh giai đoạn sau giảm thời gian chạy hệ thống Tất đặc trưng (thuộc tính) tận dụng để lọc thô Các giới hạn (biên) để lọc thô, thiết lập rộng tay, nên kiểm nghiệm nhiều Sau đặc trưng giới hạn (biên) để lọc thơ: Tỉ lệ kích thước (tính theo byte) hai trang web, thường câu tiếng Anh dịch sang tiếng Việt thành câu dài hơn, tương ứng kích thước trang web tiếng Việt thường lớn nên giá trị thiết lập là: low = 0.8, high = 1.25 Khoảng cách thực hệ thống tính theo mili giây quy ngày Khoảng cách ngày hai webpage tiếng anh modify up lên khác nhỏ max 7.0 ngày Tỉ lệ giống hai tên file Với website tuân thủ chặt chẽ tỉ lệ có lợi xét website này, nhiều website khơng chặt đặc trưng nên đặc trưng không lọc nhiều Ví dụ tên hai trang web, index_en.html index.html dùng lập trình động đưa kết 0.8695652173913043 Biên đặc trưng = 0.3 Tỉ lệ giống tên thư mục Cách tính sau lấy số tên thư mục giống nhân hai chia cho tổng số thư mục con, nên nhớ tên thư mục thay xâu cố định tên thư mục ngơn ngữ trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Khi cho hai xâu thư mục qua tiền xử lý trở thành: \htx\***\c1330\ \htx\***\ Sau dùng lập trình động để tìm phần chung tính độ tương đồng kết * / (3 + 2) = 0.8 với việc dóng hàn htx – htx, *** – *** (english – vietnamese) 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giá trị biên thiết lập cho đặc trưng = 0.1 Tỉ lệ khác số thư mục Với đặc trưng này, coi trang web song ngữ cấu trúc thư mục có cấu trúc song song Đặc tính thể hai trang web nằm cấu trúc song song khác khơng q xa Cách tính lấy trị tuyệt đối hiệu số thư mục chia cho tổng số thư mục url hai trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Chỉ cần đếm tính kết |5 – 4| / = 0.2 Giá trị biên đặc trưng tương đồng số thư mục max = 0.334 Tỉ lệ số âm tiết hai webpage, âm tiết tách ký tự chữ ‘-’, số âm tiết số âm tiết tất ngôn ngữ Giá trị biên đặc trưng là: low = 0.3, high = 1.25 lại lệch so với 1.0 thế? Là tỉ lệ số âm tiết trang tiếng Anh chia cho số âm tiết trang tiếng Việt mà câu tiếng Việt dịch thường có độ dài câu tiếng Anh Tỉ lệ số chunk Đặc trưng có ý nghĩa dịch việc cấu trúc thẻ tương tự dóng hàng số chunk tương tự Nếu hai trang web có số chunk lệch lớn khơng thể dịch Giá trị biên đặc trưng là: low = 0.7, high = 1.35 Một trang web mà số chunk số âm tiết q nhỏ khơng có ý nghĩa cho lĩnh vực khác lọc số chunk, số âm tiết cần thiết để tiết kiệm thời gian cho hệ thống Còn số chunk mà lớn dóng hàng lập trình động cần lượng nhớ lớn để lưu trữ Cũng tương tự với văn trang web mà lớn không cẩn thận dóng hàng nội dung dóng hàng câu ứng dụng khác không chạy thiếu nhớ Bằng kiểm tra trình thực hành giá trị biên dần điều chỉnh cho phù hợp giá trị biên số âm tiết = 40; số chunk 20, max số chunk 15000 Tuy bốn đặc trưng dp, n, r,p thể chất lượng dóng hàng, qua ta lọc chúng kích thước cặp thí sinh giảm xuống cho phần lọc cấu trúc lọc nội dung (nếu hệ thống có) Chúng gán cố định cho p 0.01 để đảm bảo độ chặt chẽ r Bởi qua tham khảo kiểm nghiệm số cặp đặt biên rộng chút đảm bảo không lọc lỗi cặp dịch Cụ thể là: max dp = 0.25, max n = 40, r = 0.9, ngồi thơng số n chia cho tổng số text nonmarkup dóng hàng với biên max 0.25 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết lọc thô Kết sau sau xác định ngôn ngữ , tạo cặp lọc thô ta có tương ứng với website có số lượng cặp trang web thí sinh sau: Bảng 3: Các website số lượng, tỉ lệ cặp thí sinh Số số cặp Tỉ lệ so với tổng số thí sinh cặp thí sinh 42 0.1% website song ngữ thứ tự www.honda.com.vn www.undp.org.vn 23545 56.25% www.na.gov.vn 18169 43.40% www.vietnamtourism.com 10 0.024% 0% www.vietnamnet.vn english.vietnamnet.vn www.toyotavn.com.vn 16 0.038% www.cpv.org.vn 0% www.vietnamgateway.org:100 0% www.nhandan.com.vn 0% 10 www.voanews.com 14 0.033% 11 www.bbc.co.uk news.bbc.co.uk 0% 12 ukinvietnam.fco.gov.uk 65 0.155% 41861 100% tổng số 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.4 Xây dựng phân loại kết phân loại Chương thực bước 5,6,7,8 sơ đồ tổng quan hệ thống hình Chuẩn bị liệu Từ 41861 cặp trang web thí sinh, chúng tơi lấy ngẫu nhiên 5000 cặp huấn luyện 1000 cặp test không giống với cặp huấn luyện Sau chúng tơi gán nhãn tay cho tất cặp huấn luyện cặp test Sau gán nhãn, thống kê cho thấy: tập huấn luyện có 687 cặp có nhãn true, tập test có 128 cặp nhãn true Dữ liệu huấn luyện: teaching/teaching teaching/teaching-labeled Dữ liệu kiểm tra: teaching/testing teaching/testing-labeled Mỗi cặp thí sinh có thơng số cho tất thuộc tính, theo thứ tự sau: Bảng 4: Thuộc tính (đặc trưng) thứ hạng theo xắp sếp sẵn dp n ration r sizeratio 10 datedistance filenamesim dirnumdiff dirnamesim wordratio chunkratio Từ số thay cho tên thuộc tính ví dụ thuộc tính dp, thuộc tính filenamesim, Mơ hình định Từ liệu huấn luyện, chúng tơi xây dựng mơ hình tool jaDTi-0.5.1 Jean-Marc Francois để tạo mơ hình Chúng tơi xây dựng hai mơ hình, mơ hình thứ gồm ba thuộc tính, mơ hình thứ hai gồm tất thuộc tính Hai mơ hình tạo chứa hai file teaching/teaching-labeled3.dot teaching/teachinglabeled11.dot tương ứng, sau chúng tơi dùng tool Graphviz 2.22 để từ mơ hình tạo mơ định hai file ảnh: teaching/teaching-labeled3.jpg teaching/eaching-labeled3.jpg Kết trực quan thấy định dùng tất thuộc tính nhỏ gọn định dùng ba thuộc tính dp, n, r 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết thống kê bảng sau: Bảng 5: Độ xác recall decision tree số lượng thuộc tính sử dụng precision recall số lượng cặp song ngữ 0.55932203 0.515625 5221 11 0.92741935 0.898438 5404 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: /data3.paired, /data11.paired Mơ hình Naive Bayes Trước tạo mơ hình Naive Bayes, phải chuẩn hóa giá trị thuộc tính Và việc chuẩn hóa cần thơng số gap khoảng cách thuộc tính Giá trị gap thiết lập tay, qua nhiều lần kiểm nghiệm Kiểm nghiệm cách, lần cho tạo mơ hình Naive Bayes, cho chạy tập test, tính precison recall, thuộc tính, precison recall tăng gap thuộc tính bị chia nhỏ precision recall không tăng., tăng không đáng kể so với tỉ lệ gap bị chia nhỏ (gap nhỏ số lượng giá trị thuộc tính nhiều, liệu bị phân mảnh, định giảm tính khái quát) Dữ liệu huấn luyện chuẩn hóa: teaching/teaching-labeled-standarded Dữ liệu test chuẩn hóa: teaching/testing-labeled-standarded Riêng Naive Bayes, thiết kế hệ thống để với tổ hợp thuộc tính đưa precison, recall toàn cặp song ngữ liệu ban đầu Chúng tơi đưa thuộc tính để tính tốn precison recall, thứ gồm dp, n, r gồm filenamesim dirnamesim (6 8), có recall precision cao liệt kê file teaching/combinning-attributes.prerec Kết thống kê bảng sau: Bảng 6: Độ xác recall Naive Bayes 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com số lượng thuộc tính số lượng cặp precision recall sử dụng song ngữ 0.44339622641509435 0.3671875 4718 Tối ưu (6,8) 0.967479674796748 0.9296875 5198 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: / data-nb013.paired, / data-nb68.paired 4.5 Hướng dẫn sử dụng chương trình Cài đặt tool/wget-1.11.4-1-setup.exe Chạy từ command line dùng wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma -i urls.txt Hoặc wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma url Urls.txt chứa sites mà bạn muốn download, url site mà bạn muốn download Sử dụng: java -Xms128m -Xmx1300m -jar StructureIndexes.jar Với path input_example_sites.txt để dóng hàng tạo số khác chi tiết xem file output, config/input_example_sites.txt Sử dụng: java -jar CreatingData.jar Với path input_teaching.txt để tạo liệu training testing chi tiết xem file input_teaching.txt Sử dụng: java -Xmx1300m -jar jaDTi-0.5.1.jar để tạo mơ hình định, thống kế độ xác, tạo file dot, list tất cặp thỏa mãn, chọn 11 (tất thuộc tính) chọn dp, n, r làm thuộc tính tạo trỏ đến thư mục chứa tất liêu 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Dùng tool/graphviz-2.22.2.msi để từ file dot chứa mơ hình tạo có nhìn trực quan Sử dụng: java -jar NaiveBayes.jar Với trỏ đến naivebayes-1.txt naivebayes-2.txt naivebayes-3.txt muốn thống kê độ xác recall tất tổ hợp thuộc tính hay đưa danh sách tất cặp song ngữ từ cặp dự thí ban đầu hay thống kê độ xác recall tổ hợp thuộc tính cụ thể có file config 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Chúng tơi tìm hiểu, nghiên cứu công nghệ mô hình DOM tree, so sánh cấu trúc html, so sánh content, trang web Xây dựng hệ thống khai phá liệu song ngữ world wide web cho cặp ngôn ngữ Anh –Việt Tuy nhiều nguyên nhân nên hệ thống tích hợp khơng hết cơng nghệ mà đến so sánh cấu trúc html sử dụng số tiêu chí khác tương đồng cấu trúc url, tên file, Kết đạt khả quan, dùng định độ xác 92,74%, cịn Naive Bayes 96,74% Định hướng phát triển, tích hợp thêm tiêu chí tương đồng nội dung điều chỉnh lại hệ thống cho hoàn thiện 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo [1] Van B Dang, Ho Bao-Quoc 2007 Automatic Construction of English-Vietnamese Parallel Corpus through Web Mining Proceedings of 5th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future (RIVF’2007), Hanoi, Vietnam [2] Christopher D Manning and Hinrich Schütze Foundations of Statistical Natural Language Processing MIT Press, 1999 [3] Jian-Yun Nie, Jiang Chen, Exploiting the Web as Parallel Corpora for Cross language Information Retrieval, 2008 [4] Bo li, Juan Liu, Mining Chinese-English Parallel Corpora from the Web [5] P Resnik and N A Smith 2003 The Web as a Parallel Corpus Computational Linguistics, 2003, [6] Lei Shi, Cheng Niu, Ming Zhou, Jianfeng Gao 2006 A DOM Tree Alignment Model for Mining Parallel Data from the Web ACL 2006 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... cứu phát triển kỹ thuật khai phá sở liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể trang web song ngữ định dạng html Nhiệm vụ khai phá liệu song ngữ tự động tìm hai thành phần có ngữ. .. hiểu, nghiên cứu, phát triển cơng nghệ tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ world wide web cho cặp ngôn ngữ Anh –Việt LUAN... liệu song ngữ Văn song ngữ tài nguyên ngơn ngữ giàu có cho nhiệm vụ quản lý văn đa ngữ khác nhau, gồm trích rút văn ngôn ngữ bắt chéo, khai phá văn đa ngữ ngơn ngữ máy tính Một tập văn song ngữ