1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt

54 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Công Cụ Khai Phá Các Cặp Văn Bản Song Ngữ Trên World Wide Web Cho Cặp Ngôn Ngữ Anh – Việt
Trường học Trường Đại Học
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn
Định dạng
Số trang 54
Dung lượng 478,18 KB

Nội dung

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Cơ sở liệu song ngữ, bao gồm cặp văn song ngữ hay cặp câu song ngữ, đóng vai trị quan trọng nhiều ứng dụng ngôn ngữ tự nhiên, dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngơn ngữ Việc xây dựng sở liệu tay việc tốn nhiều chi phí thời gian May mắn thay có nhiều liệu song ngữ dạng khác Internet Việc khai phá thành phần tương đương (song ngữ) với chất lượng cao tạo nên sở liệu song ngữ lớn phục vụ cho nhiều ứng dụng khác Luận văn tập trung vào nghiên cứu phát triển kỹ thuật khai phá sở liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể trang web song ngữ định dạng html Nhiệm vụ khai phá liệu song ngữ tự động tìm hai thành phần có ngữ nghĩa tương ứng tập văn thuộc hai ngôn ngữ khác Hai thành phần dóng hàng ghép cặp nhỏ thơng tin hay tri thức thu từ lớn Thành phần văn bản, đoạn, câu từ, Loại thành phần mà xét đến luận văn văn Để ghép cặp văn html tập văn hai ngôn ngữ mà luận văn khai thác tiếng Anh tiếng Việt, chúng tơi tìm hiểu cơng nghệ nghiên cứu tại, xác định ưu điểm nhược điểm tính khả thi để ứng dụng thực tiễn luận văn Có hai tiếp cận tốn dựa nội dung (thông thường dựa đối sánh cặp từ dịch – từ điển song ngữ), dựa tương đồng cấu trúc trang html Trong LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com phạm vi luận văn này, theo tiếp cận dựa cấu trúc Cụ thể khảo sát đặc trưng cấu trúc khác độ tương đồng cấu trúc thẻ văn bản, độ tương đồng cấu trúc url văn bản, nhiều yếu tố phụ để giảm thời gian chạy hệ thống Đồng thời theo tiếp cận học máy (theo [5]), áp dụng phương pháp học định cho toán Đặc biệt chúng tơi mơ hình hóa tốn cho phân loại Nạve Bayes áp dụng lựa chọn thuộc tính cho kết dóng hàng văn tốt sử dụng định [5] Để thực nghiệm, xây dựng hệ thống làm nhiệm vụ: chuẩn bị sở liệu thô từ Internet; số bước tiền xử lý ngơn ngữ; mơ đun dóng hàng văn Kết đạt khả quan với độ xác dóng hàng văn khoảng 96% mơ hình phân loại Bayes Mục lục Tóm tắt Mục lục Mở đầu Chương Giới thiệu 1.1 Vai trò tầm quan trọng liệu song ngữ 1.2 Các nghiên cứu liên quan 1.3 Mục tiêu tiếp cận giải vấn đề 12 1.4 Cấu trúc luận văn 13 Chương Các tiếp cận kỹ thuật cho toán khai phá liệu song ngữ 14 2.1 Lọc theo cấu trúc 14 2.2 Lọc theo nội dung 19 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.3 Các đặc trưng khác 22 2.4 Thuật toán lập trình động 23 Chương Mơ hình học máy cho tốn đối sánh văn 26 3.1 Mơ hình phân loại theo định 26 3.2 Mơ hình phân loại Naive Bayes 32 Chương Thực nghiệm kết 36 4.1 Kiến trúc tổng quan hệ thống 36 4.2 Bộ công cụ download xác định ngôn ngữ 37 4.3 Xây dựng sở liệu thô 41 4.4 Xây dựng phân loại kết phân loại 45 4.5 Hướng dẫn sử dụng chương trình 49 Kết luận 51 Tài liệu tham khảo Mở đầu Văn song ngữ có vai trị thiết yếu số lĩnh vực xử lý ngơn ngữ tự nhiên, dịch máy thống kê, tìm kiếm thông tin môi trường đa ngữ, Trong dịch máy thống kê, kho liệu song ngữ bao gồm nhiều cặp văn với chất lượng dịch cao nguồn tài nguyên quan trọng định chất lượng hệ dịch Đối với số cặp ngôn ngữ, việc tạo kho liệu song ngữ khơng khó (nếu cặp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ngơn ngữ phổ biến rộng rãi giới, ví dụ với cặp tiếng Anh tiếng Pháp) Tuy nhiên thật không may cho nhiều cặp ngơn ngữ Anh-Việt, có ngơn ngữ phổ biến tiếng Việt, việc xây dựng kho liệu song ngữ khó khăn Điều chủ yếu số lượng văn song ngữ khai thác cịn chất lượng dịch chưa cao Thực công việc tay việc nặng nề tốn Đây trở ngại lớn cho việc phát triển ứng dụng xử lý ngôn ngữ tự nhiên dựa tiếp cận thống kê, cho cặp ngôn ngữ Anh - Việt Hiện lượng thông tin Internet lớn, nhu cầu giao lưu quốc tế, số lượng trang web có hai ngơn ngữ Anh Việt trở nên phổ biến Đây nguồn tài nguyên quý giá việc khai thác liệu song ngữ Internet Hơn nữa, tiếng Việt, nghiên cứu khai phá tự động liệu song ngữ với kết hạn chế, chưa có kho ngữ liệu song ngữ cơng bố rộng rãi Do vậy, việc nghiên cứu phát triển phương pháp tự động xây dựng kho liệu song ngữ cho cặp ngôn ngữ Anh – Việt chủ đề nghiên cứu ý nghĩa mặt nghiên cứu có tính thực tiễn cao Trong luận văn giới hạn mức liệu mức văn bản, tức khai phá văn song ngữ Anh Việt (không phải mức câu hay mức từ) Chúng với luận văn mong muốn với lý thuyết đưa hệ thống thực nghiệm hi vọng đáp ứng phần nhu cầu văn song ngữ cho cặp ngôn ngữ Anh-Việt Cụ thể luận văn tập trung vào hai nhiệm vụ chính: Tìm hiểu, nghiên cứu, phát triển cơng nghệ toán khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Xây dựng công cụ khai phá cặp văn song ngữ World Wide Web cho cặp ngôn ngữ Anh –Việt Chương Giới thiệu 1.1 Vai trò tầm quan trọng liệu song ngữ Văn song ngữ tài ngun ngơn ngữ giàu có cho nhiệm vụ quản lý văn đa ngữ khác nhau, gồm trích rút văn ngơn ngữ bắt chéo, khai phá văn đa ngữ ngơn ngữ máy tính Một tập văn song ngữ tài nguyên cho tạo sở tri thức ngôn ngữ đa ngữ dịch máy từ điển theo chủ đề đa ngữ Với phát triển World Wide Web, thông tin điện tử truy cập có số lượng ngơn ngữ ngày tăng Có thơng tin nói rằng, năm 2005, 50% nội dung trang web thuộc ngơn ngữ khác ngồi tiếng Anh Với đa dạng vậy, Web thực tập hợp khổng lồ tài liệu đa ngữ tạo nơi lưu trũ văn lớn cho việc xây dựng liệu song ngữ Trong xử lý ngôn ngữ tự nhiên, điều cần đặc biệt lưu ý cần phát triển tài nguyên từ vựng chuyên sâu gồm từ vựng ( ví dụ tập từ vựng cho ngữ pháp có tính rõ ràng mặt ngơn ngữ, cho tập mẫu cho hệ thống trích thơng tin, thể cho chống nhập nhằng nghĩa) Tài nguyên thiết yếu cho tăng khả hệ thống thay đổi lĩnh vực dễ Ví dụ, để tin cậy, hệ thống trích thơng tin cần truy cập tới từ điển ngôn ngữ chất lượng cao Hầu hết tài nguyên từ điển ngôn ngữ phát triển tay với chuyên gia tạo từ điển ngôn ngữ Dự án đắt đỏ kết LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tài nguyên có mức độ bao phủ thường giới hạn, yêu cầu tập trung mức độ cao cho miền Thu thập tự động từ vựng hứa hẹn nhiều tiếp cận hiệu để thực hành tăng khả đứng vững có phát triển gần xử lý ngôn ngữ tự nhiên, kỹ thuật học máy liệu liệu song ngữ ngày phát triển liệu Anh-Việt đóng góp cho đề tài liên quan đến hai ngôn ngữ Cơ sở cặp câu song ngữ đóng vai trị thiết yếu dịch máy thống kê Theo [2], dịch máy thống kê mơ hình dịch máy dịch tạo tảng mơ hình thống kê mà tham số chúng lấy từ phân tích kho văn song ngữ Tiếp cận thống kê tương phản với tiếp cận dựa luật dịch máy dịch máy dựa mẫu tiếp cận mang lại thành công đối lĩnh vực dịch máy Cross-language information retrieval (CLIR) truy tìm tài liệu liên quan dựa sở câu hỏi đưa người trả lại tập hợp tài liệu thỏa mãn câu hỏi ngôn ngữ khác ngơn ngữ câu hỏi Hệ thống CLIR có ba hướng tiếp cận chủ yếu: dịch máy, liệu song ngữ hay có tính so sánh, từ điển mà máy đọc Đối với tiếp cận sử dụng liệu song ngữ, truy vấn dịch sở mục từ trích từ tập tài liệu song ngữ so sánh Trong tập văn song ngữ, cặp hay tập tài liệu xác định ngôn ngữ khác Một văn so sánh chứa tài liệu ngôn ngữ khác Từ mô tả lĩnh vực yêu cầu văn song ngữ lĩnh vực thấy văn song ngữ đóng vai trị quan trọng xử lý ngôn ngữ tự nhiên LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1.2 Các nghiên cứu liên quan Web tài nguyên khổng lồ miễn phí cho tất người Và xuất phát từ nhu cầu văn song ngữ lĩnh vực khác xử lý ngôn ngữ tự nhiên, nhiều nhà nghiên cứu phát triển xây dựng hệ thống tự động khai phá liệu song ngữ từ Web Theo [1, 3] website song ngữ thường đặt tên tương tự cho trang web song ngữ Chủ website song ngữ đặt để giữ lại dấu vết trang web theo ngôn ngữ chúng Những tên trang web ln gồm có substring chung tính song song song trang web, với substring khác sử dụng cờ ngôn ngữ ngôn ngữ tài liệu cụ thể Như cờ ngôn ngữ thường nối vào đằng trước, cuối substring chung cặp tài liệu song ngữ Hơn nữa, cờ ngôn ngữ thường nối tới phần chung ký tự gạch ngang „-‟ gạch „_‟ Ví dụ, trang web tiếng Anh với tên “document-en.htm” tạo dịch tiếng việt “document-vn.htm” để tính song song để dễ quản lý website Ở trường hợp khác cờ ngôn ngữ nối tới tên file tài liệu ngôn ngữ cụ thể Ví dụ, tài liệu tiếng Anh gọi “document.htm” tạo tiếng Việt document-vn.htm để khác biệt ngôn ngữ Tất điều hỗ trợ tài liệu web song ngữ qua model so sánh tên file - modul quan trọng PTMiner PTMiner có cách tiếp cận so sánh cấu trúc thẻ html trang web Trong tiếp cận này, hệ thống phân hai loại thẻ, loại có ý nghĩa - ảnh hưởng đến cấu trúc giao diện trang web, cịn loại thẻ cịn lại khơng có ý nghĩa tức khơng có ảnh hưởng đến cấu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com trúc trang web, ví dụ: với loại có ý nghĩa:

, , , , cịn loại khơng có ý nghĩa: , , Sau chuyển sang tuyến tính (hoặc tạo cây) để dóng hàng, số đặc trưng 1, tỉ lệ thẻ khơng dóng hàng, tỉ lệ tối ưu học máy kết hợp với đặc trưng khác hệ thống Theo [5] STRAND lấy modul so sánh cấu trúc thẻ html làm trái tim hệ thống STRAND có nhiều phiên bản, phiên cũ, hệ thống khai phá web qua ba bước: Locating - xác định trang có lẽ có dịch song ngữ Generating - tạo cặp thí sinh có lẽ dịch Structure filtering - lọc cấu trúc bỏ cặp không dịch Trong bước locating, STRAND sử dụng trình tìm kiếm AltaVista để tìm kiếm hai kiểu trang web là: cha anh em Một trang cha trang chứa link đến nhiều phiên khác tài liệu; ví dụ: Hình 1: Ví dụ trang cha Nhìn vào ví dụ trên, trang cha chứa link đến phiên khác nội dung Các phiên tiếng Anh, tiếng Trung, tiếng Việt Sau để tạo cặp trang web thí sinh cần lấy hai link hai tiếng Việt Tiếng Anh với Trang anh em trang ngôn ngữ chứa link đến ngơn ngữ khác Ví dụ: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 2: Ví dụ trang anh em Nhìn vào ví dụ trên, trang chứa link đến khác tiếng Anh Để ghép tạo cặp thí sinh cần ghép trang với tiếng Anh tương ứng Trong bước generating, cho cặp url có khả chứa dịch qua modul so sánh url STRAND tạo luật để so sánh, chẳng hạn, en -> Ngoài ra, modul STRAND có thêm tính hỗ trợ thay thế, loại bỏ nhiều đoạn url, ví dụ: Hình 3: Ví dụ loại bỏ nhiều đoạn Bước structure filtering trình bày phần lọc cấu trúc Trong STRAND phiên có thêm modul so sánh content, trình bày đoạn lọc nội dung Theo [4] PCMS nói chung giống STRAND Nhưng có số điểm khác biệt Thứ nhất, phần tính độ tương tự cấu trúc url hai trang web hệ thống tính tốn cụ thể cịn STRAND PTMiner thay LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong khóa luận, dùng substring định nghĩa trước, substring tìm thấy url, ngơn ngữ trang tương ứng với substring Chúng tơi dùng substring sau: Substring kết hợp english, eng, en, e, tienganh, vietnamese, vietnam, vn, v, tiengviet, substring kết hợp với *., \*\, \*., _, -, lang=, language= Bảng sau substring tạo ra: Bảng 2a: Những substring ngôn ngữ có url trang web Ngơn ngữ * \*\ \* _* English english \english\ \english _english Eng eng \eng\ \eng _eng En en \en\ \en _en E e \e\ \e _e tienganh tienganh \tienganh\ \tienganh _tienganh vietnamese vietnamese \vietnamese\ \vietnamese _vietnamese vietnam vietnam \vietnam\ \vietnam _vietnam Vn \vn\ \vn _vn V v \v\ \v _v tiengviet tiengviet \tiengviet\ \tiengviet _tiengviet 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Và Bảng 2b: Những substring ngôn ngữ có url trang web Ngơn ngữ *_ *- -* lang= English _english english- -english language= lang=englis language=engl h ish Eng _eng eng- -eng lang=eng language=eng En _en en- -en lang=en language=en E _e e- -e lang=e language=e Tienga _tiengan tiengan nh h h- Vietna _vietna vietnam mese mese ese- Vietna m _vietna m vietnam lang=vietna language=viet vietnam m nam Vn _vn vn- -vn lang=vn language=vn V _v v- -v lang=v language=v tiengan h lang=tienga language=tien nh ganh lang=vietna language=viet vietnam mese namese ese lang=tieng Tiengvi _tiengvi tiengvie tiengvie et tviet et t language=tien gviet 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chẳng hạn, số url website chứa substring nêu trên: http://www.bbc.co.uk/vietnamese/ , http://www.vietnamtourism.com/v_pages/ , Đếm số âm tiết Nếu url trang web khơng có thơng tin ngơn ngữ, với cách xác định ngơn ngữ cách đếm số âm tiết ngôn ngữ Anh Việt Sau tính tier lệ số âm tiết tổng số âm tiết trang web(gồm âm tiết tiếng Anh lẫn tiếng Việt) xác định giới hạn tỉ lệ Việc xác định giới hạn này, sau nhiều lần khảo sát tay gán sau: Đặt te tỉ lệ âm tiết tiếng anh, đặt tv tỉ lệ âm tiết tiếng việt, ta có điều kiện xác định ngôn ngữ sau: Nếu tv > 0.7 te < 0.3 webpage tiếng việt Nếu không te > 0.7 tv < 0.2 webpage tiếng anh Bằng kết hợp substring ngôn ngữ đếm số âm tiết, số lượng trang web tiếng Anh tiếng Việt bảng 4.3 Xây dựng sở liệu thô Thông số lọc thơ Chúng tơi tạo cặp thí sinh cách ghép trang tiếng Anh với tất trang tiếng Việt site Vì số cặp thí sinh lớn Và Bộ lọc thơ có nhiệm vụ xác định giới hạn rộng, đảm bảo lọc bỏ nhiều cặp thí sinh giai đoạn sau giảm thời gian chạy hệ thống 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tất đặc trưng (thuộc tính) tận dụng để lọc thơ Các giới hạn (biên) để lọc thô, thiết lập rộng tay, nên kiểm nghiệm nhiều Sau đặc trưng giới hạn (biên) để lọc thơ: Tỉ lệ kích thước (tính theo byte) hai trang web, thường câu tiếng Anh dịch sang tiếng Việt thành câu dài hơn, tương ứng kích thước trang web tiếng Việt thường lớn nên giá trị thiết lập là: low = 0.8, high = 1.25 Khoảng cách thực hệ thống tính theo mili giây chúng tơi quy ngày Khoảng cách ngày hai webpage tiếng anh modify up lên khác nhỏ max 7.0 ngày Tỉ lệ giống hai tên file Với website tuân thủ chặt chẽ tỉ lệ có lợi xét website này, nhiều website khơng chặt đặc trưng nên đặc trưng khơng lọc nhiều Ví dụ tên hai trang web, index_en.html index.html dùng lập trình động đưa kết 0.8695652173913043 Biên đặc trưng = 0.3 Tỉ lệ giống tên thư mục Cách tính sau lấy số tên thư mục giống nhân hai chia cho tổng số thư mục con, nên nhớ tên thư mục thay xâu cố định tên thư mục ngơn ngữ trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Khi cho hai xâu thư mục qua tiền xử lý trở thành: \htx\***\c1330\ \htx\***\ 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sau dùng lập trình động để tìm phần chung tính độ tương đồng kết * / (3 + 2) = 0.8 với việc dóng hàn htx – htx, *** – *** (english – vietnamese) Giá trị biên thiết lập cho đặc trưng = 0.1 Tỉ lệ khác số thư mục Với đặc trưng này, chúng tơi coi trang web song ngữ cấu trúc thư mục có cấu trúc song song Đặc tính thể hai trang web nằm cấu trúc song song khác không xa Cách tính lấy trị tuyệt đối hiệu số thư mục chia cho tổng số thư mục url hai trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Chỉ cần đếm tính kết |5 – 4| / = 0.2 Giá trị biên đặc trưng tương đồng số thư mục max = 0.334 Tỉ lệ số âm tiết hai webpage, âm tiết tách ký tự chữ „-‟, số âm tiết số âm tiết tất ngôn ngữ Giá trị biên đặc trưng là: low = 0.3, high = 1.25 lại lệch so với 1.0 thế? Là tỉ lệ số âm tiết trang tiếng Anh chia cho số âm tiết trang tiếng Việt mà câu tiếng Việt dịch thường có độ dài câu tiếng Anh Tỉ lệ số chunk Đặc trưng có ý nghĩa dịch việc cấu trúc thẻ tương tự dóng hàng số chunk tương tự Nếu hai trang web có số chunk lệch q lớn khơng thể dịch Giá trị biên đặc trưng là: low = 0.7, high = 1.35 Một trang web mà số chunk số âm tiết nhỏ khơng có ý nghĩa cho lĩnh vực khác lọc số chunk, số âm 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tiết cần thiết để tiết kiệm thời gian cho hệ thống Còn số chunk mà q lớn dóng hàng lập trình động cần lượng nhớ lớn để lưu trữ Cũng tương tự với văn trang web mà q lớn khơng cẩn thận dóng hàng nội dung dóng hàng câu ứng dụng khác khơng chạy thiếu nhớ Bằng kiểm tra trình thực hành giá trị biên dần điều chỉnh cho phù hợp giá trị biên số âm tiết = 40; số chunk 20, max số chunk 15000 Tuy bốn đặc trưng dp, n, r,p thể chất lượng dóng hàng, qua ta lọc chúng kích thước cặp thí sinh giảm xuống cho phần lọc cấu trúc lọc nội dung (nếu hệ thống có) Chúng tơi gán cố định cho p 0.01 để đảm bảo độ chặt chẽ r Bởi qua tham khảo kiểm nghiệm số cặp đặt biên rộng chút đảm bảo không lọc lỗi cặp dịch Cụ thể là: max dp = 0.25, max n = 40, r = 0.9, ngồi thơng số n chia cho tổng số text nonmarkup dóng hàng với biên max 0.25 Kết lọc thô Kết sau sau xác định ngôn ngữ , tạo cặp lọc thơ ta có tương ứng với website có số lượng cặp trang web thí sinh sau: Bảng 3: Các website số lượng, tỉ lệ cặp thí sinh Số thứ tự số cặp website song ngữ www.honda.com.vn thí Tỉ lệ so với tổng số sinh cặp thí sinh 42 0.1% 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com www.undp.org.vn 23545 56.25% www.na.gov.vn 18169 43.40% www.vietnamtourism.com 10 0.024% 0% www.vietnamnet.vn english.vietnamnet.vn www.toyotavn.com.vn 16 0.038% www.cpv.org.vn 0% www.vietnamgateway.org:100 0% www.nhandan.com.vn 0% 10 www.voanews.com 14 0.033% 11 www.bbc.co.uk news.bbc.co.uk 0% 12 ukinvietnam.fco.gov.uk 65 0.155% 41861 100% tổng số 4.4 Xây dựng phân loại kết phân loại Chương thực bước 5,6,7,8 sơ đồ tổng quan hệ thống hình Chuẩn bị liệu 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Từ 41861 cặp trang web thí sinh, chúng tơi lấy ngẫu nhiên 5000 cặp huấn luyện 1000 cặp test không giống với cặp huấn luyện Sau chúng tơi gán nhãn tay cho tất cặp huấn luyện cặp test Sau gán nhãn, thống kê cho thấy: tập huấn luyện có 687 cặp có nhãn true, tập test có 128 cặp nhãn true Dữ liệu huấn luyện: teaching/teaching teaching/teaching-labeled Dữ liệu kiểm tra: teaching/testing teaching/testing-labeled Mỗi cặp thí sinh có thơng số cho tất thuộc tính, theo thứ tự sau: Bảng 4: Thuộc tính (đặc trưng) thứ hạng theo xắp sếp sẵn dp n ration r sizeratio datedistanc filenamesi e m dirnumdi ff 10 dirnamesi wordrati chunkrati m o o Từ số thay cho tên thuộc tính ví dụ thuộc tính dp, thuộc tính filenamesim, Mơ hình định Từ liệu huấn luyện, chúng tơi xây dựng mơ hình tool jaDTi-0.5.1 Jean-Marc Francois để tạo mơ hình Chúng tơi xây dựng hai mơ hình, mơ hình thứ gồm ba thuộc tính, mơ hình thứ hai gồm tất thuộc tính Hai mơ hình tạo chứa 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com hai file teaching/teaching-labeled3.dot teaching/teachinglabeled11.dot tương ứng, sau chúng tơi dùng tool Graphviz 2.22 để từ mơ hình tạo mơ định hai file ảnh: teaching/teaching-labeled3.jpg teaching/eaching-labeled3.jpg Kết trực quan thấy định dùng tất thuộc tính nhỏ gọn định dùng ba thuộc tính dp, n, r Kết thống kê bảng sau: Bảng 5: Độ xác recall decision tree số lượng thuộc tính sử precision dụng recall số lượng cặp song ngữ 0.55932203 0.515625 5221 11 0.92741935 0.898438 5404 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: /data3.paired, /data11.paired Mơ hình Naive Bayes Trước tạo mơ hình Naive Bayes, phải chuẩn hóa giá trị thuộc tính Và việc chuẩn hóa cần thơng số gap khoảng cách thuộc tính Giá trị gap thiết lập tay, qua nhiều lần kiểm nghiệm Kiểm nghiệm cách, lần cho tạo mơ hình Naive Bayes, cho chạy tập test, tính precison recall, thuộc tính, precison recall tăng gap thuộc tính bị chia nhỏ precision recall không tăng., tăng không đáng kể so với tỉ lệ gap bị chia 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com nhỏ (gap nhỏ số lượng giá trị thuộc tính nhiều, liệu bị phân mảnh, định giảm tính khái quát) Dữ liệu huấn luyện chuẩn hóa: teaching/teaching-labeledstandarded Dữ liệu test chuẩn hóa: teaching/testing-labeled-standarded Riêng Naive Bayes, thiết kế hệ thống để với tổ hợp thuộc tính đưa precison, recall toàn cặp song ngữ liệu ban đầu Chúng tơi đưa thuộc tính để tính tốn precison recall, thứ gồm dp, n, r gồm filenamesim dirnamesim (6 8), có recall precision cao liệt kê file teaching/combinning-attributes.prerec Kết thống kê bảng sau: 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng 6: Độ xác recall Naive Bayes số lượng thuộc tính số lượng precision recall sử dụng Tối ưu (6,8) cặp song ngữ 0.44339622641509435 0.3671875 0.967479674796748 0.9296875 4718 5198 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: / data-nb013.paired, / data-nb68.paired 4.5 Hướng dẫn sử dụng chương trình Cài đặt tool/wget-1.11.4-1-setup.exe Chạy từ command line dùng wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma -i urls.txt Hoặc wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma url Urls.txt chứa sites mà bạn muốn download, url site mà bạn muốn download Sử dụng: java -Xms128m -Xmx1300m -jar StructureIndexes.jar Với path input_example_sites.txt để dóng hàng tạo số khác chi tiết xem file output, config/input_example_sites.txt Sử dụng: java -jar CreatingData.jar 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Với path input_teaching.txt để tạo liệu training testing chi tiết xem file input_teaching.txt Sử dụng: java -Xmx1300m -jar jaDTi-0.5.1.jar để tạo mơ hình định, thống kế độ xác, tạo file dot, list tất cặp thỏa mãn, chọn 11 (tất thuộc tính) chọn dp, n, r làm thuộc tính tạo trỏ đến thư mục chứa tất liêu Dùng tool/graphviz-2.22.2.msi để từ file dot chứa mơ hình tạo có nhìn trực quan Sử dụng: java -jar NaiveBayes.jar Với trỏ đến naivebayes-1.txt naivebayes-2.txt naivebayes-3.txt muốn thống kê độ xác recall tất tổ hợp thuộc tính hay đưa danh sách tất cặp song ngữ từ cặp dự thí ban đầu hay thống kê độ xác recall tổ hợp thuộc tính cụ thể có file config 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Chúng tơi tìm hiểu, nghiên cứu công nghệ mô hình DOM tree, so sánh cấu trúc html, so sánh content, trang web Xây dựng hệ thống khai phá liệu song ngữ world wide web cho cặp ngôn ngữ Anh –Việt Tuy nhiều nguyên nhân nên hệ thống tích hợp khơng hết cơng nghệ mà đến so sánh cấu trúc html sử dụng số tiêu chí khác tương đồng cấu trúc url, tên file, 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết đạt khả quan, dùng định độ xác 92,74%, cịn Naive Bayes 96,74% Định hướng phát triển, tích hợp thêm tiêu chí tương đồng nội dung điều chỉnh lại hệ thống cho hoàn thiện Tài liệu tham khảo 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [1] Van B Dang, Ho Bao-Quoc 2007 Automatic Construction of English-Vietnamese Parallel Corpus through Web Mining Proceedings of 5th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future (RIVF‟2007), Hanoi, Vietnam [2] Christopher D Manning and Hinrich Schütze Foundations of Statistical Natural Language Processing MIT Press, 1999 [3] Jian-Yun Nie, Jiang Chen, Exploiting the Web as Parallel Corpora for Cross language Information Retrieval, 2008 [4] Bo li, Juan Liu, Mining Chinese-English Parallel Corpora from the Web [5] P Resnik and N A Smith 2003 The Web as a Parallel Corpus Computational Linguistics, 2003, [6] Lei Shi, Cheng Niu, Ming Zhou, Jianfeng Gao 2006 A DOM Tree Alignment Model for Mining Parallel Data from the Web ACL 2006 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ World Wide Web cho cặp ngôn ngữ Anh –Việt Phần 1.2 trình bày cách tóm tắt nghiên cứu khai. .. cầu văn song ngữ cho cặp ngôn ngữ Anh- Việt Cụ thể luận văn tập trung vào hai nhiệm vụ chính: Tìm hiểu, nghiên cứu, phát triển cơng nghệ tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song. .. liệu song ngữ Văn song ngữ tài ngun ngơn ngữ giàu có cho nhiệm vụ quản lý văn đa ngữ khác nhau, gồm trích rút văn ngơn ngữ bắt chéo, khai phá văn đa ngữ ngôn ngữ máy tính Một tập văn song ngữ

Ngày đăng: 11/10/2022, 16:32

HÌNH ẢNH LIÊN QUAN

Hình 2: Ví dụ về trang anh em - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Hình 2 Ví dụ về trang anh em (Trang 10)
Hình 4: Sự khác nhau giữa mơ hình DOM chuẩn và mơ hình DOM sau thu gọn  - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Hình 4 Sự khác nhau giữa mơ hình DOM chuẩn và mơ hình DOM sau thu gọn (Trang 12)
Hình 7: đồ thị của Entropy với dữ liệu cĩ hai nhãn - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Hình 7 đồ thị của Entropy với dữ liệu cĩ hai nhãn (Trang 32)
Hình 8: Sơ đồ kiến trúc hệ thống - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Hình 8 Sơ đồ kiến trúc hệ thống (Trang 37)
Bảng 1: Các websites và số lượng trang web tiếng Anh, tiếng Việt đã down được  - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Bảng 1 Các websites và số lượng trang web tiếng Anh, tiếng Việt đã down được (Trang 39)
Bảng 2a: Những substring ngơn ngữ cĩ thể cĩ trong url của trang web - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Bảng 2a Những substring ngơn ngữ cĩ thể cĩ trong url của trang web (Trang 40)
Bảng 2b: Những substring ngơn ngữ cĩ thể cĩ trong url của trang web - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Bảng 2b Những substring ngơn ngữ cĩ thể cĩ trong url của trang web (Trang 41)
Bảng 3: Các website và số lượng, tỉ lệ cặp thí sinh Số   - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Bảng 3 Các website và số lượng, tỉ lệ cặp thí sinh Số (Trang 45)
Kết quả thống kê trong bảng sau: - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
t quả thống kê trong bảng sau: (Trang 48)
Bảng 6: Độ chính xác và recall của NaiveBayes số lượng thuộc  - Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho cặp ngôn ngữ anh –việt
Bảng 6 Độ chính xác và recall của NaiveBayes số lượng thuộc (Trang 50)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w