Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt

Tóm tắt Cơ sở liệu song ngữ, bao gồm cặp văn song ngữ hay cặp câu song ngữ, đóng vai trò quan trọng nhiều ứng dụng ngôn ngữ tự nhiên, dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ Việc xây dựng sở liệu tay việc tốn nhiều chi phí thời gian May mắn thay có nhiều liệu song ngữ dạng khác Internet Việc khai phá thành phần tương đương (song ngữ) với chất lượng cao tạo nên sở liệu song ngữ lớn phục vụ cho nhiều ứng dụng khác Luận văn tập trung vào nghiên cứu phát triển kỹ thuật khai phá sở liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể trang web song ngữ định dạng html Nhiệm vụ khai phá liệu song ngữ tự động tìm hai thành phần có ngữ nghĩa tương ứng tập văn thuộc hai ngôn ngữ khác Hai thành phần dóng hàng ghép cặp nhỏ thông tin hay tri thức thu từ lớn Thành phần văn bản, đoạn, câu từ, Loại thành phần mà xét đến luận văn văn Để ghép cặp văn html tập văn hai ngôn ngữ mà luận văn khai thác tiếng Anh tiếng Việt, tìm hiểu công nghệ nghiên cứu tại, xác định ưu điểm nhược điểm tính khả thi để ứng dụng thực tiễn luận văn Có hai tiếp cận toán dựa nội dung (thông thường dựa đối sánh cặp từ dịch – từ điển song ngữ), dựa tương đồng cấu trúc trang html Trong phạm vi luận văn này, theo tiếp cận dựa cấu trúc Cụ thể khảo sát đặc trưng cấu trúc khác độ tương đồng cấu trúc thẻ văn bản, độ tương đồng cấu trúc url văn bản, nhiều yếu tố phụ để giảm thời gian chạy hệ thống Đồng thời theo tiếp cận học máy (theo [5]), áp dụng phương pháp học định cho toán Đặc biệt mô hình hóa toán cho phân loại Naïve Bayes áp dụng lựa chọn thuộc tính cho kết dóng hàng văn tốt sử dụng định [5] Để thực nghiệm, xây dựng hệ thống làm nhiệm vụ: chuẩn bị sở liệu thô từ Internet; số bước tiền xử lý ngôn ngữ; mô đun dóng hàng văn Kết đạt khả quan với độ xác dóng hàng văn khoảng 96% mô hình phân loại Bayes Mục lục Tóm tắt Mục lục Mở đầu Chương Giới thiệu 1.1 Vai trò tầm quan trọng liệu song ngữ 1.2 Các nghiên cứu liên quan .7 1.3 Mục tiêu tiếp cận giải vấn đề 12 1.4 Cấu trúc luận văn 14 Chương Các tiếp cận kỹ thuật cho toán khai phá liệu song ngữ .15 2.1 Lọc theo cấu trúc 15 2.2 Lọc theo nội dung 19 2.3 Các đặc trưng khác 22 2.4 Thuật toán lập trình động .23 Chương Mô hình học máy cho toán đối sánh văn 26 3.1 Mô hình phân loại theo định 27 3.2 Mô hình phân loại Naive Bayes 32 Chương Thực nghiệm kết .36 4.1 Kiến trúc tổng quan hệ thống .36 4.2 Bộ công cụ download xác định ngôn ngữ .37 4.3 Xây dựng sở liệu thô 42 4.4 Xây dựng phân loại kết phân loại 46 4.5 Hướng dẫn sử dụng chương trình 50 Kết luận 52 Tài liệu tham khảo 53 Mở đầu Văn song ngữ có vai trò thiết yếu số lĩnh vực xử lý ngôn ngữ tự nhiên, dịch máy thống kê, tìm kiếm thông tin môi trường đa ngữ, Trong dịch máy thống kê, kho liệu song ngữ bao gồm nhiều cặp văn với chất lượng dịch cao nguồn tài nguyên quan trọng định chất lượng hệ dịch Đối với số cặp ngôn ngữ, việc tạo kho liệu song ngữ không khó (nếu cặp ngôn ngữ phổ biến rộng rãi giới, ví dụ với cặp tiếng Anh tiếng Pháp) Tuy nhiên thật không may cho nhiều cặp ngôn ngữ Anh-Việt, có ngôn ngữ phổ biến tiếng Việt, việc xây dựng kho liệu song ngữ khó khăn Điều chủ yếu số lượng văn song ngữ khai thác chất lượng dịch chưa cao Thực công việc tay việc nặng nề tốn Đây trở ngại lớn cho việc phát triển ứng dụng xử lý ngôn ngữ tự nhiên dựa tiếp cận thống kê, cho cặp ngôn ngữ Anh - Việt Hiện lượng thông tin Internet lớn, nhu cầu giao lưu quốc tế, số lượng trang web có hai ngôn ngữ Anh Việt trở nên phổ biến Đây nguồn tài nguyên quý giá việc khai thác liệu song ngữ Internet Hơn nữa, tiếng Việt, nghiên cứu khai phá tự động liệu song ngữ với kết hạn chế, chưa có kho ngữ liệu song ngữ công bố rộng rãi Do vậy, việc nghiên cứu phát triển phương pháp tự động xây dựng kho liệu song ngữ cho cặp ngôn ngữ Anh – Việt chủ đề nghiên cứu ý nghĩa mặt nghiên cứu có tính thực tiễn cao Trong luận văn giới hạn mức liệu mức văn bản, tức khai phá văn song ngữ Anh Việt (không phải mức câu hay mức từ) Chúng với luận văn mong muốn với lý thuyết đưa hệ thống thực nghiệm hi vọng đáp ứng phần nhu cầu văn song ngữ cho cặp ngôn ngữ Anh-Việt Cụ thể luận văn tập trung vào hai nhiệm vụ chính: Tìm hiểu, nghiên cứu, phát triển công nghệ toán khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ World Wide Web cho cặp ngôn ngữ Anh –Việt Chương Giới thiệu 1.1 Vai trò tầm quan trọng liệu song ngữ Văn song ngữ tài nguyên ngôn ngữ giàu có cho nhiệm vụ quản lý văn đa ngữ khác nhau, gồm trích rút văn ngôn ngữ bắt chéo, khai phá văn đa ngữ ngôn ngữ máy tính Một tập văn song ngữ tài nguyên cho tạo sở tri thức ngôn ngữ đa ngữ dịch máy từ điển theo chủ đề đa ngữ Với phát triển World Wide Web, thông tin điện tử truy cập có số lượng ngôn ngữ ngày tăng Có thông tin nói rằng, năm 2005, 50% nội dung trang web thuộc ngôn ngữ khác tiếng Anh Với đa dạng vậy, Web thực tập hợp khổng lồ tài liệu đa ngữ tạo nơi lưu trũ văn lớn cho việc xây dựng liệu song ngữ Trong xử lý ngôn ngữ tự nhiên, điều cần đặc biệt lưu ý cần phát triển tài nguyên từ vựng chuyên sâu gồm từ vựng ( ví dụ tập từ vựng cho ngữ pháp có tính rõ ràng mặt ngôn ngữ, cho tập mẫu cho hệ thống trích thông tin, thể cho chống nhập nhằng nghĩa) Tài nguyên thiết yếu cho tăng khả hệ thống thay đổi lĩnh vực dễ Ví dụ, để tin cậy, hệ thống trích thông tin cần truy cập tới từ điển ngôn ngữ chất lượng cao Hầu hết tài nguyên từ điển ngôn ngữ phát triển tay với chuyên gia tạo từ điển ngôn ngữ Dự án đắt đỏ kết tài nguyên có mức độ bao phủ thường giới hạn, yêu cầu tập trung mức độ cao cho miền Thu thập tự động từ vựng hứa hẹn nhiều tiếp cận hiệu để thực hành tăng khả đứng vững có phát triển gần xử lý ngôn ngữ tự nhiên, kỹ thuật học máy liệu liệu song ngữ ngày phát triển liệu Anh-Việt đóng góp cho đề tài liên quan đến hai ngôn ngữ Cơ sở cặp câu song ngữ đóng vai trò thiết yếu dịch máy thống kê Theo [2], dịch máy thống kê mô hình dịch máy dịch tạo tảng mô hình thống kê mà tham số chúng lấy từ phân tích kho văn song ngữ Tiếp cận thống kê tương phản với tiếp cận dựa luật dịch máy dịch máy dựa mẫu tiếp cận mang lại thành công đối lĩnh vực dịch máy Cross-language information retrieval (CLIR) truy tìm tài liệu liên quan dựa sở câu hỏi đưa người trả lại tập hợp tài liệu thỏa mãn câu hỏi ngôn ngữ khác ngôn ngữ câu hỏi Hệ thống CLIR có ba hướng tiếp cận chủ yếu: dịch máy, liệu song ngữ hay có tính so sánh, từ điển mà máy đọc Đối với tiếp cận sử dụng liệu song ngữ, truy vấn dịch sở mục từ trích từ tập tài liệu song ngữ so sánh Trong tập văn song ngữ, cặp hay tập tài liệu xác định ngôn ngữ khác Một văn so sánh chứa tài liệu ngôn ngữ khác Từ mô tả lĩnh vực yêu cầu văn song ngữ lĩnh vực thấy văn song ngữ đóng vai trò quan trọng xử lý ngôn ngữ tự nhiên 1.2 Các nghiên cứu liên quan Web tài nguyên khổng lồ miễn phí cho tất người Và xuất phát từ nhu cầu văn song ngữ lĩnh vực khác xử lý ngôn ngữ tự nhiên, nhiều nhà nghiên cứu phát triển xây dựng hệ thống tự động khai phá liệu song ngữ từ Web Theo [1, 3] website song ngữ thường đặt tên tương tự cho trang web song ngữ Chủ website song ngữ đặt để giữ lại dấu vết trang web theo ngôn ngữ chúng Những tên trang web gồm có substring chung tính song song song trang web, với substring khác sử dụng cờ ngôn ngữ ngôn ngữ tài liệu cụ thể Như cờ ngôn ngữ thường nối vào đằng trước, cuối substring chung cặp tài liệu song ngữ Hơn nữa, cờ ngôn ngữ thường nối tới phần chung ký tự gạch ngang ‘-’ gạch ‘_’ Ví dụ, trang web tiếng Anh với tên “document-en.htm” tạo dịch tiếng việt “document-vn.htm” để tính song song để dễ quản lý website Ở trường hợp khác cờ ngôn ngữ nối tới tên file tài liệu ngôn ngữ cụ thể Ví dụ, tài liệu tiếng Anh gọi “document.htm” tạo tiếng Việt document-vn.htm để khác biệt ngôn ngữ Tất điều hỗ trợ tài liệu web song ngữ qua model so sánh tên file - modul quan trọng PTMiner PTMiner có cách tiếp cận so sánh cấu trúc thẻ html trang web Trong tiếp cận này, hệ thống phân hai loại thẻ, loại có ý nghĩa - ảnh hưởng đến cấu trúc giao diện trang web, loại thẻ lại ý nghĩa tức ảnh hưởng đến cấu trúc trang web, ví dụ: với loại có ý nghĩa: , , , , loại ý nghĩa: , , Sau chuyển sang tuyến tính (hoặc tạo cây) để dóng hàng, số đặc trưng 1, tỉ lệ thẻ không dóng hàng, tỉ lệ tối ưu học máy kết hợp với đặc trưng khác hệ thống Theo [5] STRAND lấy modul so sánh cấu trúc thẻ html làm trái tim hệ thống STRAND có nhiều phiên bản, phiên cũ, hệ thống khai phá web qua ba bước: Locating - xác định trang có lẽ có dịch song ngữ Generating - tạo cặp thí sinh có lẽ dịch Structure filtering - lọc cấu trúc bỏ cặp không dịch Trong bước locating, STRAND sử dụng trình tìm kiếm AltaVista để tìm kiếm hai kiểu trang web là: cha anh em Một trang cha trang chứa link đến nhiều phiên khác tài liệu; ví dụ: Hình 1: Ví dụ trang cha Nhìn vào ví dụ trên, trang cha chứa link đến phiên khác nội dung Các phiên tiếng Anh, tiếng Trung, tiếng Việt Sau để tạo cặp trang web thí sinh cần lấy hai link hai tiếng Việt Tiếng Anh với Trang anh em trang ngôn ngữ chứa link đến ngôn ngữ khác Ví dụ: Hình 2: Ví dụ trang anh em Nhìn vào ví dụ trên, trang chứa link đến khác tiếng Anh Để ghép tạo cặp thí sinh cần ghép trang với tiếng Anh tương ứng Trong bước generating, cho cặp url có khả chứa dịch qua modul so sánh url STRAND tạo luật để so sánh, chẳng hạn, en -> Ngoài ra, modul STRAND có thêm tính hỗ trợ thay thế, loại bỏ nhiều đoạn url, ví dụ: Hình 3: Ví dụ loại bỏ nhiều đoạn Bước structure filtering trình bày phần lọc cấu trúc Trong STRAND phiên có thêm modul so sánh content, trình bày đoạn lọc nội dung Theo [4] PCMS nói chung giống STRAND Nhưng có số điểm khác biệt Thứ nhất, phần tính độ tương tự cấu trúc url hai trang web hệ thống tính toán cụ thể STRAND PTMiner thay loại bỏ kiểm tra chúng có giống hay không PCMS tiền xử lý thư mục url mà xác định ngôn ngữ trang web PCMS thay chúng chuỗi ký tự Ví dụ url: /english/ file.htm thành /***/ file.htm Tiếp đó, số tiêu chí tính toán sau: Tỉ lệ số thư mục url hai trang web Công thức là: URL diff (A, B) = | len( A) − len( B) | len( A) +len( B) Trong công thức len(A) số thư mục url A, len(B) số thư mục url B Nếu số thư mục A B tỉ lệ khác 10 tiengviet tiengviet \tiengviet\ 40 \tiengviet _tiengviet Và Bảng 2b: Những substring ngôn ngữ có url trang web Ngôn ngữ *_ *- -* lang= language= English _english english- -english lang=engli sh language=engl ish Eng _eng eng- -eng lang=eng language=eng En _en en- -en lang=en language=en E _e e- -e lang=e language=e Tienga nh _tienga nh tiengan h- tiengan h lang=tieng anh language=tien ganh Vietna mese _vietna mese vietnam lang=vietn vietnam eseamese ese language=viet namese Vietna m _vietna m vietnam lang=vietn vietnam am language=viet nam Vn _vn vn- -vn lang=vn language=vn V _v v- -v lang=v language=v Tiengvi _tiengvi tiengvie lang=tieng tiengvie et et tviet t language=tien gviet Chẳng hạn, số url website chứa substring nêu trên: 41 http://www.bbc.co.uk/vietnamese/ , http://www.vietnamtourism.com/v_pages/ , Đếm số âm tiết Nếu url trang web thông tin ngôn ngữ, với cách xác định ngôn ngữ cách đếm số âm tiết ngôn ngữ Anh Việt Sau tính tier lệ số âm tiết tổng số âm tiết trang web(gồm âm tiết tiếng Anh lẫn tiếng Việt) xác định giới hạn tỉ lệ Việc xác định giới hạn này, sau nhiều lần khảo sát tay gán sau: Đặt te tỉ lệ âm tiết tiếng anh, đặt tv tỉ lệ âm tiết tiếng việt, ta có điều kiện xác định ngôn ngữ sau: Nếu tv > 0.7 te < 0.3 webpage tiếng việt Nếu không te > 0.7 tv < 0.2 webpage tiếng anh Bằng kết hợp substring ngôn ngữ đếm số âm tiết, số lượng trang web tiếng Anh tiếng Việt bảng 4.3 Xây dựng sở liệu thô Thông số lọc thô Chúng tạo cặp thí sinh cách ghép trang tiếng Anh với tất trang tiếng Việt site Vì số cặp thí sinh lớn Và Bộ lọc thô có nhiệm vụ xác định giới hạn rộng, đảm bảo lọc bỏ nhiều cặp thí sinh giai đoạn sau giảm thời gian chạy hệ thống Tất đặc trưng (thuộc tính) tận dụng để lọc thô Các giới hạn (biên) để lọc thô, thiết lập rộng tay, nên kiểm nghiệm nhiều Sau đặc trưng giới hạn (biên) để lọc thô: 42 Tỉ lệ kích thước (tính theo byte) hai trang web, thường câu tiếng Anh dịch sang tiếng Việt thành câu dài hơn, tương ứng kích thước trang web tiếng Việt thường lớn nên giá trị thiết lập là: low = 0.8, high = 1.25 Khoảng cách thực hệ thống tính theo mili giây quy ngày Khoảng cách ngày hai webpage tiếng anh modify up lên khác nhỏ max 7.0 ngày Tỉ lệ giống hai tên file Với website tuân thủ chặt chẽ tỉ lệ có lợi xét website này, nhiều website không chặt đặc trưng nên đặc trưng không lọc nhiều Ví dụ tên hai trang web, index_en.html index.html dùng lập trình động đưa kết 0.8695652173913043 Biên đặc trưng = 0.3 Tỉ lệ giống tên thư mục Cách tính sau lấy số tên thư mục giống nhân hai chia cho tổng số thư mục con, nên nhớ tên thư mục thay xâu cố định tên thư mục ngôn ngữ trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Khi cho hai xâu thư mục qua tiền xử lý trở thành: \htx\***\c1330\ \htx\***\ Sau dùng lập trình động để tìm phần chung tính độ tương đồng kết * / (3 + 2) = 0.8 với việc dóng hàn htx – htx, *** – *** (english – vietnamese) Giá trị biên thiết lập cho đặc trưng = 0.1 Tỉ lệ khác số thư mục Với đặc trưng này, coi trang web song ngữ cấu trúc thư mục có cấu 43 trúc song song Đặc tính thể hai trang web nằm cấu trúc song song khác không xa Cách tính lấy trị tuyệt đối hiệu số thư mục chia cho tổng số thư mục url hai trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Chỉ cần đếm tính kết |5 – 4| / = 0.2 Giá trị biên đặc trưng tương đồng số thư mục max = 0.334 Tỉ lệ số âm tiết hai webpage, âm tiết tách ký tự chữ ‘-’, số âm tiết số âm tiết tất ngôn ngữ Giá trị biên đặc trưng là: low = 0.3, high = 1.25 lại lệch so với 1.0 thế? Là tỉ lệ số âm tiết trang tiếng Anh chia cho số âm tiết trang tiếng Việt mà câu tiếng Việt dịch thường có độ dài câu tiếng Anh Tỉ lệ số chunk Đặc trưng có ý nghĩa dịch việc cấu trúc thẻ tương tự dóng hàng số chunk tương tự Nếu hai trang web có số chunk lệch lớn dịch Giá trị biên đặc trưng là: low = 0.7, high = 1.35 Một trang web mà số chunk số âm tiết nhỏ ý nghĩa cho lĩnh vực khác lọc số chunk, số âm tiết cần thiết để tiết kiệm thời gian cho hệ thống Còn số chunk mà lớn dóng hàng lập trình động cần lượng nhớ lớn để lưu trữ Cũng tương tự với văn trang web mà lớn không cẩn thận dóng hàng nội dung dóng hàng câu ứng dụng khác không chạy thiếu nhớ Bằng kiểm tra trình thực hành giá trị biên dần điều chỉnh cho phù 44 hợp giá trị biên số âm tiết = 40; số chunk 20, max số chunk 15000 Tuy bốn đặc trưng dp, n, r,p thể chất lượng dóng hàng, qua ta lọc chúng kích thước cặp thí sinh giảm xuống cho phần lọc cấu trúc lọc nội dung (nếu hệ thống có) Chúng gán cố định cho p 0.01 để đảm bảo độ chặt chẽ r Bởi qua tham khảo kiểm nghiệm số cặp đặt biên rộng chút đảm bảo không lọc lỗi cặp dịch Cụ thể là: max dp = 0.25, max n = 40, r = 0.9, thông số n chia cho tổng số text nonmarkup dóng hàng với biên max 0.25 Kết lọc thô Kết sau sau xác định ngôn ngữ , tạo cặp lọc thô ta có tương ứng với website có số lượng cặp trang web thí sinh sau: Bảng 3: Các website số lượng, tỉ lệ cặp thí sinh Số thứ tự số cặp website song ngữ www.honda.com.vn thí sinh Tỉ lệ so với tổng số cặp thí sinh 42 0.1% www.undp.org.vn 23545 56.25% www.na.gov.vn 18169 43.40% www.vietnamtourism.com 10 0.024% 0% www.vietnamnet.vn english.vietnamnet.vn 45 www.toyotavn.com.vn 16 0.038% www.cpv.org.vn 0% www.vietnamgateway.org:100 0% www.nhandan.com.vn 0% 10 www.voanews.com 14 0.033% 11 www.bbc.co.uk news.bbc.co.uk 0% 12 ukinvietnam.fco.gov.uk 65 0.155% 41861 100% tổng số 4.4 Xây dựng phân loại kết phân loại Chương thực bước 5,6,7,8 sơ đồ tổng quan hệ thống hình Chuẩn bị liệu Từ 41861 cặp trang web thí sinh, lấy ngẫu nhiên 5000 cặp huấn luyện 1000 cặp test không giống với cặp huấn luyện Sau gán nhãn tay cho tất cặp huấn luyện cặp test Sau gán nhãn, thống kê cho thấy: tập huấn luyện có 687 cặp có nhãn true, tập test có 128 cặp nhãn true Dữ liệu huấn luyện: teaching/teaching teaching/teaching-labeled Dữ liệu kiểm tra: teaching/testing teaching/testing-labeled Mỗi cặp thí sinh có thông số cho tất thuộc tính, theo thứ tự sau: 46 Bảng 4: Thuộc tính (đặc trưng) thứ hạng theo xắp sếp sẵn dp n ration r sizeratio datedistanc filenamesi e m dirnumdi ff 10 dirnamesi wordrati chunkrati m o o Từ số thay cho tên thuộc tính ví dụ thuộc tính dp, thuộc tính filenamesim, Mô hình định Từ liệu huấn luyện, xây dựng mô hình tool jaDTi-0.5.1 Jean-Marc Francois để tạo mô hình Chúng xây dựng hai mô hình, mô hình thứ gồm ba thuộc tính, mô hình thứ hai gồm tất thuộc tính Hai mô hình tạo chứa hai file teaching/teaching-labeled3.dot teaching/teachinglabeled11.dot tương ứng, sau dùng tool Graphviz 2.22 để từ mô hình tạo mô định hai file ảnh: teaching/teaching-labeled3.jpg teaching/eaching-labeled3.jpg Kết trực quan thấy định dùng tất thuộc tính nhỏ gọn định dùng ba thuộc tính dp, n, r Kết thống kê bảng sau: Bảng 5: Độ xác recall decision tree 47 số lượng thuộc tính sử precision dụng recall số lượng cặp song ngữ 0.5593220 0.51562 5221 11 0.9274193 0.89843 5404 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: /data3.paired, /data11.paired Mô hình Naive Bayes Trước tạo mô hình Naive Bayes, phải chuẩn hóa giá trị thuộc tính Và việc chuẩn hóa cần thông số gap khoảng cách thuộc tính Giá trị gap thiết lập tay, qua nhiều lần kiểm nghiệm Kiểm nghiệm cách, lần cho tạo mô hình Naive Bayes, cho chạy tập test, tính precison recall, thuộc tính, precison recall tăng gap thuộc tính bị chia nhỏ precision recall không tăng., tăng không đáng kể so với tỉ lệ gap bị chia nhỏ (gap nhỏ số lượng giá trị thuộc tính nhiều, liệu bị phân mảnh, định giảm tính khái quát) Dữ liệu huấn luyện chuẩn hóa: teaching/teaching-labeledstandarded Dữ liệu test chuẩn hóa: teaching/testing-labeled-standarded Riêng Naive Bayes, thiết kế hệ thống để với tổ hợp thuộc tính đưa precison, recall toàn cặp song ngữ liệu ban đầu 48 Chúng đưa thuộc tính để tính toán precison recall, thứ gồm dp, n, r gồm filenamesim dirnamesim (6 8), có recall precision cao liệt kê file teaching/combinning-attributes.prerec Kết thống kê bảng sau: 49 Bảng 6: Độ xác recall Naive Bayes số lượng thuộc tính precision recall sử dụng Tối ưu (6,8) số lượng cặp song ngữ 0.4433962264150943 0.3671875 4718 0.967479674796748 5198 0.9296875 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: / data-nb013.paired, / data-nb68.paired 4.5 Hướng dẫn sử dụng chương trình Cài đặt tool/wget-1.11.4-1-setup.exe Chạy từ command line dùng wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma -i urls.txt Hoặc wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma url Urls.txt chứa sites mà bạn muốn download, url site mà bạn muốn download Sử dụng: java -Xms128m -Xmx1300m -jar StructureIndexes.jar Với path input_example_sites.txt để dóng hàng tạo số khác chi tiết xem file output, config/input_example_sites.txt 50 Sử dụng: java -jar CreatingData.jar Với path input_teaching.txt để tạo liệu training testing chi tiết xem file input_teaching.txt Sử dụng: java -Xmx1300m -jar jaDTi-0.5.1.jar để tạo mô hình định, thống kế độ xác, tạo file dot, list tất cặp thỏa mãn, chọn 11 (tất thuộc tính) chọn dp, n, r làm thuộc tính tạo trỏ đến thư mục chứa tất liêu Dùng tool/graphviz-2.22.2.msi để từ file dot chứa mô hình tạo có nhìn trực quan Sử dụng: java -jar NaiveBayes.jar Với trỏ đến naivebayes-1.txt naivebayes-2.txt naivebayes-3.txt muốn thống kê độ xác recall tất tổ hợp thuộc tính hay đưa danh sách tất cặp song ngữ từ cặp dự thí ban đầu hay thống kê độ xác recall tổ hợp thuộc tính cụ thể có file config 51 Kết luận Chúng tìm hiểu, nghiên cứu công nghệ mô hình DOM tree, so sánh cấu trúc html, so sánh content, trang web Xây dựng hệ thống khai phá liệu song ngữ world wide web cho cặp ngôn ngữ Anh –Việt Tuy nhiều nguyên nhân nên hệ thống tích hợp không hết công nghệ mà đến so sánh cấu trúc html sử dụng số tiêu chí khác tương đồng cấu trúc url, tên file, 52 Kết đạt khả quan, dùng định độ xác 92,74%, Naive Bayes 96,74% Định hướng phát triển, tích hợp thêm tiêu chí tương đồng nội dung điều chỉnh lại hệ thống cho hoàn thiện Tài liệu tham khảo 53 [1] Van B Dang, Ho Bao-Quoc 2007 Automatic Construction of English-Vietnamese Parallel Corpus through Web Mining Proceedings of 5th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future (RIVF’2007), Hanoi, Vietnam [2] Christopher D Manning and Hinrich Schütze Foundations of Statistical Natural Language Processing MIT Press, 1999 [3] Jian-Yun Nie, Jiang Chen, Exploiting the Web as Parallel Corpora for Cross language Information Retrieval, 2008 [4] Bo li, Juan Liu, Mining Chinese-English Parallel Corpora from the Web [5] P Resnik and N A Smith 2003 The Web as a Parallel Corpus Computational Linguistics, 2003, [6] Lei Shi, Cheng Niu, Ming Zhou, Jianfeng Gao 2006 A DOM Tree Alignment Model for Mining Parallel Data from the Web ACL 2006 54 [...]... song ngữ đối với các ứng dụng xử lý ngôn ngữ tự nhiên, đồng thời được thúc đẩy bởi việc thiếu 12 cơ sở dữ liệu song ngữ Anh -Việt cho nhiều nghiên cứu khác, luận văn tập trung vào các công việc: Tìm hiểu, nghiên cứu, phát triển các công nghệ trong bài toán khai phá dữ liệu song ngữ, cụ thể cho xây dựng các cặp văn bản song ngữ Xây dựng công cụ khai phá các cặp văn bản song ngữ trên World Wide Web cho. .. văn bản song ngữ trên World Wide Web cho cặp ngôn ngữ Anh –Việt Phần 1.2 đã trình bày một cách tóm tắt những nghiên cứu trong khai phá dữ liệu song ngữ Có thể chia làm hai tiếp cận chính là tiếp cận dựa trên nội dung và tiếp cận dựa trên cấu trúc của trang web Đối với tiếp cận dựa trên nội dung, chúng ta phải sử dụng từ điển song ngữ Do việc từ điển song ngữ Anh – Việt có quá nhiều nhập nhằng, hơn nữa... không phải tất cả bản dịch trong giống bản gốc Hơn nữa tương đồng theo cấu trúc chỉ áp dụng cho tập dữ liệu có đánh dấu, và chắc chắn rằng nhiều bộ sưu tập đa ngôn ngữ trên www tồn tại nhiều văn bản song ngữ không có cấu trúc thẻ Cuối cùng, những ứng dụng khác cho phát hiện những bản dịch vẫn tiếp tục được nghiên cứu như dóng hàng văn bản tài liệu con, phát hiện trùng lặp Tất cả nhận xét trên chỉ ra rằng... đặc trưng có thể trích ra các đặc trưng có thể dùng làm đặc trưng phân loại Chương 3 Mô hình học máy cho bài toán đối sán h văn bản Chương 4 Đưa ra kiến trúc hệ thống dùng để thực nghiệm và kết quả phân loại Kết luận đánh giá kết quả hướng phát triển của hệ thống 14 Chương 2 Các tiếp cận và kỹ thuật cho bài toán khai phá dữ liệu song ngữ 2.1 Lọc theo cấu trúc Trên World Wide Web tồn tại nhiều dữ liệu,... không phục thuộc vào độ tương đồng cấu trúc Dưới dây chỉ ra cách tính chỉ số độ tương đồng nội dung Chúng ta định nghĩa chỉ số tương đồng nội dung là tsim cho hai văn bản theo mô hình đối xứng từ-từ của văn bản song ngữ Theo đó một link là một cặp (x,y) với x là từ trong ngôn ngữ L1 và y là từ trong ngôn ngữ L2 Mô hình chứa một từ điển song ngữ có chứa xác suất của tất cả kiểu link Trong đó có một kiểu... thuận tiện cho việc sử dụng lại nghiệm của các bài toán con, chúng ta lưu lại các nghiệm đã tính vào một bảng Tóm lại, để giải một bài toán bằng quy hoạch động, chúng ta cần thực hiện các bước sau: Đưa ra cách tính nghiệm của các bài toán con đơn giản nhất Tìm ra các công thức (hoặc các quy tắc) xây dựng nghiệm của bài toán thông qua nghiệm của các bài toán con Thiết kế bảng để lưu nghiệm của các bài... các tiêu chí đại diện cho độ tương đồng cấu trúc html của trang web không phát huy hiệu quả thì các tiêu chí tương đồng nội 19 dung của trang web sẽ là lựa chọn tốt cho kiểm tra một cặp có đúng là bản dịch không Tiếp cận này đưa ra chỉ số tốt hơn so với so chỉ số cấu trúc tài liệu, bởi vì nó đi thẳng vào vấn đề Hai trang web là bản dịch của nhau tức là nội dung của trang này là bản dịch sang ngôn ngữ. .. hai là dựa vào cấu trúc văn bản (trang web) Phương pháp được chúng tôi sử dụng và phát triển dựa trên nghiên cứu [3,5], với hai phần: Xác định các thuộc tính dùng để đo độ tương tự giữa hai trang html Áp dụng thuật toán học máy để xây dựng mô hình trên tập các thuộc tính trên Đối với phần thứ nhất, chúng tôi sẽ sử dụng các thuộc tính sau: So sánh độ tương đồng tên file của trang web So sánh độ tương đồng... xhtml, doc, pdf, và luận văn chỉ sử dụng văn bản định dạng html – trang web (có thể là html động khi download lưu vào ổ cứng nó có thêm đuôi html, ví dụ: *.cfm.html) Các trang web có nền tảng là text, có chứa thẻ đánh dấu, chỉ thị cho chương trình về cách hiển thị hay xử lý văn bản Trong html có bốn loại phần tử đánh dấu: Đánh dấu có cấu trúc miêu tả mục đích của phần văn bản (ví dụ, Golf... chuyển các thẻ nội dung của file html thành cấu trúc tuyến tính hay chuỗi tuần tự của các từ tố của các thẻ cho các trang web của hai ngôn ngữ mà hệ thống quan tâm ở đây là Anh và Việt, với modul này nội dung trang web được đưa về chuỗi của bốn loại từ tố: [start:label], label là tên thẻ html, ví dụ, [start:html], [start:script] [end:label] [chunk:length], length số ký tự khác ‘trắng’ của văn bản đánh ... triển công nghệ toán khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ World Wide Web cho cặp ngôn ngữ Anh –Việt Phần 1.2 trình bày cách tóm... song ngữ Xây dựng công cụ khai phá cặp văn song ngữ World Wide Web cho cặp ngôn ngữ Anh –Việt Chương Giới thiệu 1.1 Vai trò tầm quan trọng liệu song ngữ Văn song ngữ tài nguyên ngôn ngữ giàu có cho. .. cầu văn song ngữ cho cặp ngôn ngữ Anh- Việt Cụ thể luận văn tập trung vào hai nhiệm vụ chính: Tìm hiểu, nghiên cứu, phát triển công nghệ toán khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song

Định dạng
Số trang	54
Dung lượng	410 KB