KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB

40 2 0
KHAI PHÁ dữ LIỆU SONG NGỮ từ WEB

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Văn Vinh KHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEB KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán hướng dẫn: Lê Anh Cường HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Cơ sở liệu song ngữ, bao gồm cặp văn song ngữ hay cặp câu song ngữ, đóng vai trị quan trọng nhiều ứng dụng ngơn ngữ tự nhiên, dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngơn ngữ Việc xây dựng sở liệu tay việc tốn nhiều chi phí thời gian May mắn thay có nhiều liệu song ngữ dạng khác Internet Việc khai phá thành phần tương đương (song ngữ) với chất lượng cao tạo nên sở liệu song ngữ lớn phục vụ cho nhiều ứng dụng khác Luận văn tập trung vào nghiên cứu phát triển kỹ thuật khai phá sở liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể trang web song ngữ định dạng html Nhiệm vụ khai phá liệu song ngữ tự động tìm hai thành phần có ngữ nghĩa tương ứng tập văn thuộc hai ngơn ngữ khác Hai thành phần dóng hàng ghép cặp nhỏ thơng tin hay tri thức thu từ lớn Thành phần văn bản, đoạn, câu từ, Loại thành phần mà xét đến luận văn văn Để ghép cặp văn html tập văn hai ngôn ngữ mà luận văn khai thác tiếng Anh tiếng Việt, chúng tơi tìm hiểu công nghệ nghiên cứu tại, xác định ưu điểm nhược điểm tính khả thi để ứng dụng thực tiễn luận văn Có hai tiếp cận toán dựa nội dung (thông thường dựa đối sánh cặp từ dịch – từ điển song ngữ), dựa tương đồng cấu trúc trang html Trong phạm vi luận văn này, theo tiếp cận dựa cấu trúc Cụ thể khảo sát đặc trưng cấu trúc khác độ tương đồng cấu trúc thẻ văn bản, độ tương đồng cấu trúc url văn bản, nhiều yếu tố phụ để giảm thời gian chạy hệ thống Đồng thời theo tiếp cận học máy (theo [5]), áp dụng phương pháp học định cho toán Đặc biệt chúng tơi mơ hình hóa tốn cho phân loại Naïve Bayes áp dụng lựa chọn thuộc tính cho kết dóng hàng văn tốt sử dụng định [5] Để thực nghiệm, xây dựng hệ thống làm nhiệm vụ: chuẩn bị sở liệu thô từ Internet; số bước tiền xử lý ngơn ngữ; mơ đun dóng hàng văn Kết đạt khả quan với độ xác dóng hàng văn khoảng 96% mơ hình phân loại Bayes LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Tóm tắt Mục lục Mở đầu Chương Giới thiệu 1.1 Vai trò tầm quan trọng liệu song ngữ .4 1.2 Các nghiên cứu liên quan 1.3 Mục tiêu tiếp cận giải vấn đề .9 1.4 Cấu trúc luận văn 10 Chương Các tiếp cận kỹ thuật cho toán khai phá liệu song ngữ .11 2.1 Lọc theo cấu trúc 11 2.2 Lọc theo nội dung 14 2.3 Các đặc trưng khác 16 2.4 Thuật tốn lập trình động .17 Chương Mơ hình học máy cho tốn đối sánh văn .20 3.1 Mơ hình phân loại theo định .20 3.2 Mơ hình phân loại Bayes 24 Chương Thực nghiệm kết 27 4.1 Kiến trúc tổng quan hệ thống 27 4.2 Bộ công cụ download xác định ngôn ngữ 28 4.3 Xây dựng sở liệu thô 31 4.4 Xây dựng phân loại kết phân loại 34 4.5 Hướng dẫn sử dụng chương trình 36 Kết luận 38 Tài liệu tham khảo LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở đầu Văn song ngữ có vai trò thiết yếu số lĩnh vực xử lý ngôn ngữ tự nhiên, dịch máy thống kê, tìm kiếm thơng tin mơi trường đa ngữ, Trong dịch máy thống kê, kho liệu song ngữ bao gồm nhiều cặp văn với chất lượng dịch cao nguồn tài nguyên quan trọng định chất lượng hệ dịch Đối với số cặp ngôn ngữ, việc tạo kho liệu song ngữ khơng khó (nếu cặp ngơn ngữ phổ biến rộng rãi giới, ví dụ với cặp tiếng Anh tiếng Pháp) Tuy nhiên thật không may cho nhiều cặp ngôn ngữ Anh-Việt, có ngơn ngữ phổ biến tiếng Việt, việc xây dựng kho liệu song ngữ khó khăn Điều chủ yếu số lượng văn song ngữ khai thác cịn q chất lượng dịch chưa cao Thực công việc tay việc nặng nề tốn Đây trở ngại lớn cho việc phát triển ứng dụng xử lý ngôn ngữ tự nhiên dựa tiếp cận thống kê, cho cặp ngôn ngữ Anh - Việt Hiện lượng thông tin Internet lớn, nhu cầu giao lưu quốc tế, số lượng trang web có hai ngơn ngữ Anh Việt trở nên phổ biến Đây nguồn tài nguyên quý giá việc khai thác liệu song ngữ Internet Hơn nữa, tiếng Việt, nghiên cứu khai phá tự động liệu song ngữ cịn với kết cịn hạn chế, chưa có kho ngữ liệu song ngữ công bố rộng rãi Do vậy, việc nghiên cứu phát triển phương pháp tự động xây dựng kho liệu song ngữ cho cặp ngôn ngữ Anh – Việt chủ đề nghiên cứu ý nghĩa mặt nghiên cứu có tính thực tiễn cao Trong luận văn giới hạn mức liệu mức văn bản, tức khai phá văn song ngữ Anh Việt (không phải mức câu hay mức từ) Chúng với luận văn mong muốn với lý thuyết đưa hệ thống thực nghiệm hi vọng đáp ứng phần nhu cầu văn song ngữ cho cặp ngôn ngữ Anh-Việt Cụ thể luận văn tập trung vào hai nhiệm vụ chính: Tìm hiểu, nghiên cứu, phát triển cơng nghệ tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ world wide web cho cặp ngôn ngữ Anh –Việt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Giới thiệu 1.1 Vai trò tầm quan trọng liệu song ngữ Văn song ngữ tài ngun ngơn ngữ giàu có cho nhiệm vụ quản lý văn đa ngữ khác nhau, gồm trích rút văn ngơn ngữ bắt chéo, khai phá văn đa ngữ ngơn ngữ máy tính Một tập văn song ngữ tài nguyên cho tạo sở tri thức ngôn ngữ đa ngữ dịch máy từ điển theo chủ đề đa ngữ Với phát triển World Wide Web, thơng tin điện tử truy cập có số lượng ngơn ngữ ngày tăng Có thơng tin nói rằng, năm 2005, 50% nội dung trang web thuộc ngơn ngữ khác ngồi tiếng Anh Với đa dạng vậy, Web thực tập hợp khổng lồ tài liệu đa ngữ tạo nơi lưu trũ văn lớn cho việc xây dựng liệu song ngữ Trong xử lý ngôn ngữ tự nhiên, điều cần đặc biệt lưu ý cần phát triển tài nguyên từ vựng chuyên sâu gổm từ vựng ( ví dụ tập từ vựng cho ngữ pháp có tính rõ ràng mặt ngơn ngữ, cho tập mẫu cho hệ thống trích thơng tin, thể cho chống nhập nhằng nghĩa) Tài nguyên thiết yếu cho tăng khả hệ thống thay đổi lĩnh vực dễ Ví dụ, để tin cậy, hệ thống trích thơng tin cần truy cập tới từ điển ngôn ngữ chất lượng cao Hầu hết tài nguyên từ điển ngôn ngữ phát triển tay với chuyên gia tạo từ điển ngôn ngữ Dự án đắt đỏ kết tài nguyên có mức độ bao phủ thường giới hạn, yêu cầu tập trung mức độ cao cho miền Thu thập tự động từ vựng hứa hẹn nhiều tiếp cận hiệu để thực hành tăng khả đứng vững có phát triển gần xử lý ngơn ngữ tự nhiên, kỹ thuật học máy liệu liệu song ngữ ngày phát triển liệu Anh-Việt đóng góp cho đề tài liên quan đến hai ngôn ngữ Cơ sở cặp câu song ngữ đóng vai tro thiết yếu dịch máy thống kê Theo [2], dịch máy thống kê mơ hình dịch máy dịch tạo tảng mô hinh thống kê mà tham số chúng lấy từ phân tích kho văn song ngữ Tiếp cận thống kê tương phản với tiếp cận dựa luật dịch máy dịch máy dựa mẫu tiếp cận mang lại thành công đối lĩnh vực dịch máy Cross-language information retrieval (CLIR) truy tìm tài liệu liên quan dựa sở câu hỏi đưa người trả lại tập hợp tài LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com liệu thỏa mãn câu hỏi ngôn ngữ khác ngơn ngữ câu hỏi Hệ thống CLIR có ba hướng tiếp cận chủ yếu: dịch máy, liệu song ngữ hay có tính so sánh, từ điển mà máy đọc Đối với tiếp cận sử dụng liệu song ngữ, truy vấn dịch sở mục từ trích từ tập tài liệu song ngữ so sánh Trong tập văn song ngữ, cặp hay tập tài liệu xác định ngôn ngữ khác Một văn so sánh chứa tài liệu ngôn ngữ khác Từ mô tả lĩnh vực yêu cầu văn song ngữ lĩnh vực thấy văn song ngữ đóng vai trị quan trọng xử lý ngôn ngữ tự nhiên 1.2 Các nghiên cứu liên quan Web tài nguyên khổng lồ miễn phí cho tất người Và xuất phát từ nhu cầu văn song ngữ lĩnh vực khác xử lý ngôn ngữ tự nhiên, nhiều nhà nghiên cứu phát triển xây dựng hệ thống tự động khai phá liệu song ngữ từ Web Theo [1, 3] website song ngữ thường đặt tên tương tự cho trang web song ngữ Chủ website song ngữ đặt để giữ lại dấu vết trang web theo ngôn ngữ chúng Những tên trang web ln gồm có substring chung tính song song song trang web, với substring khác sử dụng cờ ngôn ngữ ngôn ngữ tài liệu cụ thể Như cờ ngôn ngữ thường nối vào đằng trước, cuối substring chung cặp tài liệu song ngữ Hơn nữa, cờ ngôn ngữ thường nối tới phần chung ký tự gạch ngang ‘-’ gạch ‘_’ Ví dụ, trang web tiếng Anh với tên “document-en.htm” tạo dịch tiếng việt “documentvn.htm” để tính song song để dễ quản lý website Ở trường hợp khác cờ ngôn ngữ nối tới tên file tài liệu ngơn ngữ cụ thể Ví dụ, tài liệu tiếng Anh gọi “document.htm” tạo tiếng Việt document-vn.htm để khác biệt ngôn ngữ Tất điều hỗ trợ tài liệu web song ngữ qua model so sánh tên file - modul quan trọng PTMiner PTMiner có cách tiếp cận so sánh cấu trúc thẻ html trang web Trong tiếp cận này, hệ thống phân hai loại thẻ, loại có ý nghĩa - ảnh hưởng đến cấu trúc giao diện trang web, loại thẻ lại khơng có ý nghĩa tức khơng có LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ảnh hưởng đến cấu trúc trang web, ví dụ: với loại có ý nghĩa:

, , , , cịn loại khơng có ý nghĩa: , , Sau chuyển sang tuyến tính (hoặc tạo cây) để dóng hàng, số đặc trưng 1, tỉ lệ thẻ không dóng hàng, tỉ lệ tối ưu học máy kết hợp với đặc trưng khác hệ thống Theo [5] STRAND lấy modul so sánh cấu trúc thẻ html làm trái tim hệ thống STRAND có nhiều phiên bản, phiên cũ, hệ thống khai phá web qua ba bước: Locating - xác định trang có lẽ có dịch song ngữ Generating - tạo cặp thí sinh có lẽ dịch Structure filtering - lọc cấu trúc bỏ cặp không dịch Trong bước locating, STRAND sử dụng trình tìm kiếm AltaVista để tìm kiếm hai kiểu trang web là: cha anh em Một trang cha trang chứa link đến nhiều phiên khác tài liệu; ví dụ: Hình 1: Ví dụ trang cha Nhìn vào ví dụ trên, trang cha chứa link đến phiên khác nội dung Các phiên tiếng Anh, tiếng Trung, tiếng Việt Sau để tạo cặp trang web thí sinh cần lấy hai link hai tiếng Việt Tiếng Anh với Trang anh em trang ngơn ngữ chứa link đến ngơn ngữ khác Ví dụ: Hình 2: Ví dụ trang anh em Nhìn vào ví dụ trên, trang chứa link đến khác tiếng Anh Để ghép tạo cặp thí sinh cần ghép trang với tiếng Anh tương ứng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong bước generating, cho cặp url có khả chứa dịch qua modul so sánh url STRAND tạo luật để so sánh, chẳng hạn, en -> Ngoài ra, modul STRAND có thêm tính hỗ trợ thay thế, loại bỏ nhiều đoạn url, ví dụ: Hình 3: Ví dụ loại bỏ nhiều đoạn Bước structure filtering trình bày phần lọc cấu trúc Trong STRAND phiên có thêm modul so sánh content, trình bày đoạn lọc nội dung Theo [4] PCMS nói chung giống STRAND Nhưng có số điểm khác biệt Thứ nhất, phần tính độ tương tự cấu trúc url hai trang web hệ thống tính tốn cụ thể STRAND PTMiner thay loại bỏ kiểm tra chúng có giống hay khơng PCMS tiền xử lý thư mục url mà xác định ngôn ngữ trang web PCMS thay chúng chuỗi ký tự Ví dụ url: /english/ file.htm thành /***/ file.htm Tiếp đó, số tiêu chí tính tốn sau: Tỉ lệ số thư mục url hai trang web Công thức là: URL diff (A, B) = | len( A)  len( B) | len( A) len( B ) Trong công thức len(A) số thư mục url A, len(B) số thư mục url B Nếu số thư mục A B tỉ lệ khác Tỉ lệ thư mục có tên giống Cơng thức là: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com URL dirsim(A, B) = * comdir ( A, B) len( A)  len( B) Trong công thức trên, comdir(PA,PB) số thư mục có tên giống Thứ hai, modul so sánh nội dung, PCMS triển khai mơ hình khơng gian vecto song ngữ Ý tưởng mơ hình trang web đại diện vecto mục từ, tập trang web ngơn ngữ khơng gian vecto có số chiều số từ vựng ngơn ngữ Vì số mục từ hai ngơn ngữ khác nên PCMS đưa cách chuyển đổi số chiều không gian vecto ngôn ngữ số chiều không gian vecto ngôn ngữ Và công thức cosine coefficient sử dụng để tính độ tương tự Cơng thức sau: p  xi yi i 1 Cosine ecoefficient = p  i 1 p x i2 *  y i2 i 1 Với p số mục từ tiếng Anh Theo [5], modul so sánh nội dung hai trang web quan trọng hệ thống Và so sánh toàn nội dung quy so sánh đoạn, so sánh đoạn dựa mơ hình ánh xạ từ -từ Hai đoạn dóng hàng với thỏa mãn điều kiện số từ dóng hàng lớn ngưỡng Tổng số từ dóng hàng trang web tổng tất đoạn Đặc trưng rút số từ dóng hàng tổng số từ hai trang web Theo [6] Một hệ thống xây dựng, tự động khai phá liệu song ngữ dựa dóng hàng DOM Tree Ý tưởng hay chỗ vào thực tế cấu trúc html trang web cấu trúc khơng phải tuyến tính Mơ hình DOM Tree có nhược điểm nắm bắt khó hơn, liên quan đến xác suất có điều kiện Thời gian chạy dóng hàng DOM nhiều so với dóng hàng tuyến tính Ví dụ DOM Tree: Hình 4: Sự khác mơ hình DOM chuẩn mơ hình DOM sau thu gọn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mơ hình dóng hàng DOM định nghĩa dóng hàng tiến trình khơng thay đổi thứ tự Ví dụ node A dóng hàng với node B A bị xóa dóng hàng với B Để thẩm tra cặp trang web thí sinh có song song, phân lớp dựa maximum entropy nhị phân sử dụng Tiêu chi tương đồng cấu trúc hẻ html tính sau: tất thẻ html trang web nối thành chuỗi Sau khoảng cách nhỏ hai chuỗi thẻ liên quan đến cặp thí sinh tính toán, độ tương đồng thẻ html tỉ lệ số thẻ giống chia cho tổng số thẻ Điểm cho dóng hàng câu định nghĩa tỉ lệ số câu dóng hàng tổng số câu hai file 1.3 Mục tiêu tiếp cận giải vấn đề Với vai trò, tầm quan trọng liệu song ngữ ứng dụng xử lý ngôn ngữ tự nhiên, đồng thời thúc đẩy việc thiếu sở liệu song ngữ Anh -Việt cho nhiều nghiên cứu khác, luận văn tập trung vào cơng việc: Tìm hiểu, nghiên cứu, phát triển cơng nghệ tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ World Wide Web cho cặp ngơn ngữ Anh –Việt Phần 1.2 trình bày cách tóm tắt nghiên cứu khai phá liệu song ngữ Có thể chia làm hai tiếp cận tiếp cận dựa nội dung tiếp cận dựa cấu trúc trang web Đối với tiếp cận dựa nội dung, phải sử dụng từ điển song ngữ Do việc từ điển song ngữ Anh – Việt có nhiều nhập nhằng, thời gian có hạn nên chúng tơi tập trung vào nghiên cứu theo tiếp cận thứ hai dựa vào cấu trúc văn (trang web) Phương pháp sử dụng phát triển dựa nghiên cứu [3,5], với hai phần: Xác định thuộc tính dùng để đo độ tương tự hai trang html Áp dụng thuật toán học máy để xây dựng mơ hình tập thuộc tính Đối với phần thứ nhất, sử dụng thuộc tính sau: So sánh độ tương đồng tên file trang web So sánh độ tương đồng cấu trúc url LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng Naive Bayes cho mơ hình phân loại luận văn Những ứng dụng Bayes thường dựa giả thuyết có tính triết học Bayesian probability ngầm định độ bất định kỳ vọng tính tốn giống xác suất Với Bayes ngây thơ ngồi giả thuyết Bayes, cịn giả thuyết ngây thơ, giả thuyết ngây thơ đặc trưng cặp trang web độc lập với Áp dụng cho xây dựng mơ hình ngơn ngữ: Gọi C lớp hay nhãn cặp thí sinh Giá trị C true false Cịn tập thuộc tính ký hiệu As tương ứng với tập đặc trưng hay tiêu chí phân lớp, tức là: As = a1 a2 an Mỗi nhận giá trị nguyên vj As = v1v2 Vậy với cặp trang web, việc gán nhãn phục thuộc vào hai xác suất có điều kiện sau: P(C=true/a1=v1a2=v2 an=vn) P(C=false/a1=v1a2=v2 an=vn) Xác suất lớn cặp trang web có nhãn tương ứng Theo định lý Bayes ta có: P(C=true/ a1=v1a2=v2 an=vn) = P(C=false/ a1=v1a2=v2 an=vn) = P(a  v1a  v a n  v n /C  true) P(C  true) P(a1  v1a  v a n  v n ) P(a  v1a  v a n  v n /C  false ) P(C  false) P(a1  v1 a  v a n  v n ) Khi so sánh hai xác suất P(C=true/As=v1v2 vn) P(C=false/As=v1v2 vn), vế phải khai triển Bayes có mẫu chung ta bỏ qua Chỉ cần so sánh tử thơi Vì có giả định ngây thơ đặc trưng độc lập với nhau, nên ta có: P(a1=v1a2=v2 an=vn/C=true)P(C=true) = P(a1=v1/C=true) P(a2=v2/C=true) P(an=vn/C=true) P(C=true) P(a1=v1a2=v2 an=vn/C=false)P(C=false) = P(a1=v1/C=false) P(a2=v2/C=false) P(an=vn/C=false) P(C=false) 25 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Từ ta cần tính xác suất thành phần bên phải, sau tích lại so sánh xem lớn gán nhãn tương ứng Ta có xác suất thành phần tính dựa thống kê: P(C=true) = count(nhãn true) / số cặp tập huấn luyện P(a1=v1/C=true) = count(nhãn true, có thuộc tính a1 có giá trị v1) / count(nhãn true) P(a2=v2/C=true) = count(nhãn true, có thuộc tính a2 có giá trị v2) / count(nhãn true) P(an=vn/C=true) = count(nhãn true, có thuộc tính an có giá trị vn) / count(nhãn true) P(C=false) = count(nhãn false) / số cặp tập huấn luyện P(a1=v1/C=false) = count(nhãn false, có thuộc tính a1 có giá trị v1) / count(nhãn false) P(a2=v2/C=false) = count(nhãn false, có thuộc tính a2 có giá trị v2) / count(nhãn false) P(an=vn/C=false) = count(nhãn false, có thuộc tính an có giá trị vn) / count(nhãn false) Và mơ hình ngơn ngữ Bayes tất xác suất cho tất giá trị tất thuộc tính hai class true false, với mẫu bất kỳ, ví dụ: (input= u1u2 un) nhãn ví dụ phụ thuộc vào kết hai biểu thức: P(a1=u1/C=false) P(a2=u2/C=false) P(an=un/C=false) P(C=false) P(a1=u1/C=true) P(a2=u2/C=true) P(an=un/C=true) P(C=true) Cách tính thành phần tìm nơi lưu trữ xác suất thành phần lấy giá trị phù hợp, chẳng hạn P(a1=u1/C=false) = P(a1=v1/C=false) với v1=u1 26 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Thực nghiệm kết 4.1 Kiến trúc tổng quan hệ thống Sơ đồ kiến trúc tổng quan Hình 8: Sơ đồ kiến trúc hệ thống Bước 1,2: hệ thống dùng tool GNU Wget để dowload toàn file html tĩnh động website máy Bước 3,4: bước làm nhiệm vụ tính tốn tất thông số, đưa vào liệu ban đầu, đồng thời với lọc thơ làm giảm kích thước liệu làm giảm thời gian chạy cho giai đoạn sau Dữ liệu “Data with indexes” cặp trang web hai ngôn ngữ Anh-Việt với số đặc trưng phụ Bước 5,6: Để có hệ thống tốt cần phải có mơ hình huấn luyện kiểm tra, bước có nhiệm vụ tạo liệu huấn luyện, kiểm tra cách lấy ngẫu nhiên Sau dùng định, Bayes ngây thơ Bước 7,8: Với mơ hình có, tất liệu ban đầu qua, kết cuối Parallel text 27 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2 Bộ công cụ download xác định ngôn ngữ Download Có hai cách tìm kiếm download website tiếng Việt Thứ nhất, làm tay, tìm kiếm xác định địa website song ngữ Anh-Việt, sau dùng tool GNU Wget để download trang web Thứ hai, chạy tự động dùng tool GNU Wget download site trang web số lượng đó, tồn số lượng trang web tiếng Anh-Việt lớn giới hạn download trang web Luận văn sử dụng cách thứ nhất, với địa website tiếng Việt thực cửa sổ command line câu lệnh: wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma pdf,mp3,mp4 -i urls.txt liệt kê địa vào file dùng câu lệnh wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma,pdf,mp3,mp4 url Một số website download xong, số chưa Kết download sau: Bảng 1: Các websites số lượng trang web tiếng Anh, tiếng Việt down Số thứ tự số trang web số trang web website song ngữ tiếng Anh tiếng Việt 27 465 www.honda.com.vn www.undp.org.vn 1652 1278 www.na.gov.vn 6352 5184 www.vietnamtourism.com 1410 1234 www.vietnamnet.vn english.vietnamnet.vn 2060 17549 www.toyotavn.com.vn 169 www.cpv.org.vn 1920 16640 www.vietnamgateway.org:100 441 8640 www.nhandan.com.vn 453 3263 10 ww.voanews.com 2587 2863 11 www.bbc.co.uk news.bbc.co.uk 6274 1232 12 ukinvietnam.fco.gov.uk 447 255 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Xác định ngôn ngữ Thường website song ngữ, substring tính song song ngơn ngữ trang web Bởi vậy, url webpage có chứa thơng tin liên quan đến ngơn ngữ tiếng Anh tiếng Việt cho url trang web vào danh sách ngôn ngữ tương ứng Trong khóa luận, dùng substring định nghĩa trước, substring tìm thấy url, ngơn ngữ trang tương ứng với substring Chúng tơi dùng substring sau: Substring kết hợp english, eng, en, e, tienganh, vietnamese, vietnam, vn, v, tiengviet, substring kết hợp với language= Bảng sau substring tạo ra: *., \*\, \*., _, -, lang=, Bảng 2a: Những substring ngơn ngữ có url trang web Ngôn ngữ * \*\ \* _* English english \english\ \english _english Eng eng \eng\ \eng _eng En en \en\ \en _en E e \e\ \e _e tienganh tienganh \tienganh\ \tienganh _tienganh vietnamese vietnamese \vietnamese\ \vietnamese _vietnamese vietnam vietnam \vietnam\ \vietnam _vietnam Vn \vn\ \vn _vn V v \v\ \v _v tiengviet tiengviet \tiengviet\ \tiengviet _tiengviet 29 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Và Bảng 2b: Những substring ngơn ngữ có url trang web Ngôn ngữ *_ *- -* lang= language= English _english english- -english lang=english language=english Eng _eng eng- -eng lang=eng language=eng En _en en- -en lang=en language=en E _e e- -e lang=e language=e Tienganh _tienganh tienganh- -tienganh lang=tienganh language=tienganh Vietnamese _vietnamese vietnamese- -vietnamese lang=vietnamese language=vietnamese Vietnam _vietnam vietnam- -vietnam lang=vietnam language=vietnam Vn _vn vn- -vn lang=vn language=vn V _v v- -v lang=v language=v Tiengviet _tiengviet tiengviet- -tiengviet lang=tiengviet language=tiengviet Chẳng hạn, số url website chứa substring nêu trên: http://www.bbc.co.uk/vietnamese/ , http://www.vietnamtourism.com/v_pages/ , Đếm số âm tiết Nếu url trang web khơng có thơng tin ngơn ngữ, với cách xác định ngơn ngữ cách đếm số âm tiết ngôn ngữ Anh Việt Sau tính tier lệ số âm tiết tổng số âm tiết trang web(gồm âm tiết tiếng Anh lẫn tiếng Việt) xác định giới hạn tỉ lệ Việc xác định giới hạn này, sau nhiều lần khảo sát tay gán sau: Đặt te tỉ lệ âm tiết tiếng anh, đặt tv tỉ lệ âm tiết tiếng việt, ta có điều kiện xác định ngơn ngữ sau: Nếu tv > 0.7 te < 0.3 webpage tiếng việt Nếu khơng te > 0.7 tv < 0.2 webpage tiếng anh 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bằng kết hợp substring ngôn ngữ đếm số âm tiết, số lượng trang web tiếng Anh tiếng Việt bảng 4.3 Xây dựng sở liệu thô Thơng số lọc thơ Chúng tơi tạo cặp thí sinh cách ghép trang tiếng Anh với tất trang tiếng Việt site Vì số cặp thí sinh lớn Và Bộ lọc thơ có nhiệm vụ xác định giới hạn rộng, đảm bảo lọc bỏ nhiều cặp thí sinh giai đoạn sau giảm thời gian chạy hệ thống Tất đặc trưng (thuộc tính) tận dụng để lọc thô Các giới hạn (biên) để lọc thô, thiết lập rộng tay, nên kiểm nghiệm nhiều Sau đặc trưng giới hạn (biên) để lọc thơ: Tỉ lệ kích thước (tính theo byte) hai trang web, thường câu tiếng Anh dịch sang tiếng Việt thành câu dài hơn, tương ứng kích thước trang web tiếng Việt thường lớn nên giá trị thiết lập là: low = 0.8, high = 1.25 Khoảng cách thực hệ thống tính theo mili giây quy ngày Khoảng cách ngày hai webpage tiếng anh modify up lên khác nhỏ max 7.0 ngày Tỉ lệ giống hai tên file Với website tuân thủ chặt chẽ tỉ lệ có lợi xét website này, nhiều website khơng chặt đặc trưng nên đặc trưng không lọc nhiều Ví dụ tên hai trang web, index_en.html index.html dùng lập trình động đưa kết 0.8695652173913043 Biên đặc trưng = 0.3 Tỉ lệ giống tên thư mục Cách tính sau lấy số tên thư mục giống nhân hai chia cho tổng số thư mục con, nên nhớ tên thư mục thay xâu cố định tên thư mục ngơn ngữ trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Khi cho hai xâu thư mục qua tiền xử lý trở thành: \htx\***\c1330\ \htx\***\ Sau dùng lập trình động để tìm phần chung tính độ tương đồng kết * / (3 + 2) = 0.8 với việc dóng hàn htx – htx, *** – *** (english – vietnamese) 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giá trị biên thiết lập cho đặc trưng = 0.1 Tỉ lệ khác số thư mục Với đặc trưng này, coi trang web song ngữ cấu trúc thư mục có cấu trúc song song Đặc tính thể hai trang web nằm cấu trúc song song khác khơng q xa Cách tính lấy trị tuyệt đối hiệu số thư mục chia cho tổng số thư mục url hai trang web Ví dụ: \htx\english\c1330\ \htx\vietnamese\ Chỉ cần đếm tính kết |5 – 4| / = 0.2 Giá trị biên đặc trưng tương đồng số thư mục max = 0.334 Tỉ lệ số âm tiết hai webpage, âm tiết tách ký tự chữ ‘-’, số âm tiết số âm tiết tất ngôn ngữ Giá trị biên đặc trưng là: low = 0.3, high = 1.25 lại lệch so với 1.0 thế? Là tỉ lệ số âm tiết trang tiếng Anh chia cho số âm tiết trang tiếng Việt mà câu tiếng Việt dịch thường có độ dài câu tiếng Anh Tỉ lệ số chunk Đặc trưng có ý nghĩa dịch việc cấu trúc thẻ tương tự dóng hàng số chunk tương tự Nếu hai trang web có số chunk lệch lớn khơng thể dịch Giá trị biên đặc trưng là: low = 0.7, high = 1.35 Một trang web mà số chunk số âm tiết q nhỏ khơng có ý nghĩa cho lĩnh vực khác lọc số chunk, số âm tiết cần thiết để tiết kiệm thời gian cho hệ thống Còn số chunk mà lớn dóng hàng lập trình động cần lượng nhớ lớn để lưu trữ Cũng tương tự với văn trang web mà lớn không cẩn thận dóng hàng nội dung dóng hàng câu ứng dụng khác không chạy thiếu nhớ Bằng kiểm tra trình thực hành giá trị biên dần điều chỉnh cho phù hợp giá trị biên số âm tiết = 40; số chunk 20, max số chunk 15000 Tuy bốn đặc trưng dp, n, r,p thể chất lượng dóng hàng, qua ta lọc chúng kích thước cặp thí sinh giảm xuống cho phần lọc cấu trúc lọc nội dung (nếu hệ thống có) Chúng gán cố định cho p 0.01 để đảm bảo độ chặt chẽ r Bởi qua tham khảo kiểm nghiệm số cặp đặt biên rộng chút đảm bảo không lọc lỗi cặp dịch Cụ thể là: max dp = 0.25, max n = 40, r = 0.9, ngồi thơng số n chia cho tổng số text nonmarkup dóng hàng với biên max 0.25 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết lọc thô Kết sau sau xác định ngôn ngữ , tạo cặp lọc thô ta có tương ứng với website có số lượng cặp trang web thí sinh sau: Bảng 3: Các website số lượng, tỉ lệ cặp thí sinh Số số cặp Tỉ lệ so với tổng số thí sinh cặp thí sinh 42 0.1% website song ngữ thứ tự www.honda.com.vn www.undp.org.vn 23545 56.25% www.na.gov.vn 18169 43.40% www.vietnamtourism.com 10 0.024% 0% www.vietnamnet.vn english.vietnamnet.vn www.toyotavn.com.vn 16 0.038% www.cpv.org.vn 0% www.vietnamgateway.org:100 0% www.nhandan.com.vn 0% 10 www.voanews.com 14 0.033% 11 www.bbc.co.uk news.bbc.co.uk 0% 12 ukinvietnam.fco.gov.uk 65 0.155% 41861 100% tổng số 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.4 Xây dựng phân loại kết phân loại Chương thực bước 5,6,7,8 sơ đồ tổng quan hệ thống hình Chuẩn bị liệu Từ 41861 cặp trang web thí sinh, chúng tơi lấy ngẫu nhiên 5000 cặp huấn luyện 1000 cặp test không giống với cặp huấn luyện Sau chúng tơi gán nhãn tay cho tất cặp huấn luyện cặp test Sau gán nhãn, thống kê cho thấy: tập huấn luyện có 687 cặp có nhãn true, tập test có 128 cặp nhãn true Dữ liệu huấn luyện: teaching/teaching teaching/teaching-labeled Dữ liệu kiểm tra: teaching/testing teaching/testing-labeled Mỗi cặp thí sinh có thơng số cho tất thuộc tính, theo thứ tự sau: Bảng 4: Thuộc tính (đặc trưng) thứ hạng theo xắp sếp sẵn dp n ration r sizeratio 10 datedistance filenamesim dirnumdiff dirnamesim wordratio chunkratio Từ số thay cho tên thuộc tính ví dụ thuộc tính dp, thuộc tính filenamesim, Mơ hình định Từ liệu huấn luyện, chúng tơi xây dựng mơ hình tool jaDTi-0.5.1 Jean-Marc Francois để tạo mơ hình Chúng tơi xây dựng hai mơ hình, mơ hình thứ gồm ba thuộc tính, mơ hình thứ hai gồm tất thuộc tính Hai mơ hình tạo chứa hai file teaching/teaching-labeled3.dot teaching/teachinglabeled11.dot tương ứng, sau chúng tơi dùng tool Graphviz 2.22 để từ mơ hình tạo mơ định hai file ảnh: teaching/teaching-labeled3.jpg teaching/eaching-labeled3.jpg Kết trực quan thấy định dùng tất thuộc tính nhỏ gọn định dùng ba thuộc tính dp, n, r 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết thống kê bảng sau: Bảng 5: Độ xác recall decision tree số lượng thuộc tính sử dụng precision recall số lượng cặp song ngữ 0.55932203 0.515625 5221 11 0.92741935 0.898438 5404 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: /data3.paired, /data11.paired Mơ hình Naive Bayes Trước tạo mơ hình Naive Bayes, phải chuẩn hóa giá trị thuộc tính Và việc chuẩn hóa cần thơng số gap khoảng cách thuộc tính Giá trị gap thiết lập tay, qua nhiều lần kiểm nghiệm Kiểm nghiệm cách, lần cho tạo mơ hình Naive Bayes, cho chạy tập test, tính precison recall, thuộc tính, precison recall tăng gap thuộc tính bị chia nhỏ precision recall không tăng., tăng không đáng kể so với tỉ lệ gap bị chia nhỏ (gap nhỏ số lượng giá trị thuộc tính nhiều, liệu bị phân mảnh, định giảm tính khái quát) Dữ liệu huấn luyện chuẩn hóa: teaching/teaching-labeled-standarded Dữ liệu test chuẩn hóa: teaching/testing-labeled-standarded Riêng Naive Bayes, thiết kế hệ thống để với tổ hợp thuộc tính đưa precison, recall toàn cặp song ngữ liệu ban đầu Chúng tơi đưa thuộc tính để tính tốn precison recall, thứ gồm dp, n, r gồm filenamesim dirnamesim (6 8), có recall precision cao liệt kê file teaching/combinning-attributes.prerec Kết thống kê bảng sau: Bảng 6: Độ xác recall Naive Bayes 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com số lượng thuộc tính số lượng cặp precision recall sử dụng song ngữ 0.44339622641509435 0.3671875 4718 Tối ưu (6,8) 0.967479674796748 0.9296875 5198 Toàn cặp song ngữ lấy từ liệu ban đầu nằm hai file tương ứng với hai thuộc tính: / data-nb013.paired, / data-nb68.paired 4.5 Hướng dẫn sử dụng chương trình Cài đặt tool/wget-1.11.4-1-setup.exe Chạy từ command line dùng wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma -i urls.txt Hoặc wget.exe -r -nc -x -E reject css,js,jpg,gif,wmv,wma url Urls.txt chứa sites mà bạn muốn download, url site mà bạn muốn download Sử dụng: java -Xms128m -Xmx1300m -jar StructureIndexes.jar Với path input_example_sites.txt để dóng hàng tạo số khác chi tiết xem file output, config/input_example_sites.txt Sử dụng: java -jar CreatingData.jar Với path input_teaching.txt để tạo liệu training testing chi tiết xem file input_teaching.txt Sử dụng: java -Xmx1300m -jar jaDTi-0.5.1.jar để tạo mơ hình định, thống kế độ xác, tạo file dot, list tất cặp thỏa mãn, chọn 11 (tất thuộc tính) chọn dp, n, r làm thuộc tính tạo trỏ đến thư mục chứa tất liêu 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Dùng tool/graphviz-2.22.2.msi để từ file dot chứa mơ hình tạo có nhìn trực quan Sử dụng: java -jar NaiveBayes.jar Với trỏ đến naivebayes-1.txt naivebayes-2.txt naivebayes-3.txt muốn thống kê độ xác recall tất tổ hợp thuộc tính hay đưa danh sách tất cặp song ngữ từ cặp dự thí ban đầu hay thống kê độ xác recall tổ hợp thuộc tính cụ thể có file config 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Chúng tơi tìm hiểu, nghiên cứu công nghệ mô hình DOM tree, so sánh cấu trúc html, so sánh content, trang web Xây dựng hệ thống khai phá liệu song ngữ world wide web cho cặp ngôn ngữ Anh –Việt Tuy nhiều nguyên nhân nên hệ thống tích hợp khơng hết cơng nghệ mà đến so sánh cấu trúc html sử dụng số tiêu chí khác tương đồng cấu trúc url, tên file, Kết đạt khả quan, dùng định độ xác 92,74%, cịn Naive Bayes 96,74% Định hướng phát triển, tích hợp thêm tiêu chí tương đồng nội dung điều chỉnh lại hệ thống cho hoàn thiện 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo [1] Van B Dang, Ho Bao-Quoc 2007 Automatic Construction of English-Vietnamese Parallel Corpus through Web Mining Proceedings of 5th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future (RIVF’2007), Hanoi, Vietnam [2] Christopher D Manning and Hinrich Schütze Foundations of Statistical Natural Language Processing MIT Press, 1999 [3] Jian-Yun Nie, Jiang Chen, Exploiting the Web as Parallel Corpora for Cross language Information Retrieval, 2008 [4] Bo li, Juan Liu, Mining Chinese-English Parallel Corpora from the Web [5] P Resnik and N A Smith 2003 The Web as a Parallel Corpus Computational Linguistics, 2003, [6] Lei Shi, Cheng Niu, Ming Zhou, Jianfeng Gao 2006 A DOM Tree Alignment Model for Mining Parallel Data from the Web ACL 2006 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... cứu phát triển kỹ thuật khai phá sở liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể trang web song ngữ định dạng html Nhiệm vụ khai phá liệu song ngữ tự động tìm hai thành phần có ngữ. .. hiểu, nghiên cứu, phát triển cơng nghệ tốn khai phá liệu song ngữ, cụ thể cho xây dựng cặp văn song ngữ Xây dựng công cụ khai phá cặp văn song ngữ world wide web cho cặp ngôn ngữ Anh –Việt LUAN... liệu song ngữ Văn song ngữ tài nguyên ngơn ngữ giàu có cho nhiệm vụ quản lý văn đa ngữ khác nhau, gồm trích rút văn ngôn ngữ bắt chéo, khai phá văn đa ngữ ngơn ngữ máy tính Một tập văn song ngữ

Ngày đăng: 01/11/2022, 15:55

Tài liệu cùng người dùng

Tài liệu liên quan