Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 40 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
40
Dung lượng
671,66 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Văn Vinh
KHAI PHÁDỮLIỆUSONGNGỮTỪWEB
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: Lê Anh Cường
HÀ NỘI - 2009
1
Tóm tắt
Cơ sở dữliệusong ngữ, bao gồm các cặp văn bản songngữ hay các cặp câu
song ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữtự nhiên,
như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xây
dựng cơ sở dữliệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắn
thay là có rất nhiều dữliệusongngữ ở các dạng khác nhau trên Internet. Việc khaiphá
ra các thành phần tương đương (song ngữ) với chất lượng cao sẽ tạo nên một cơ sở dữ
liệu songngữ rất lớn phục vụ cho nhiều ứng dụng khác nhau.
Luận văn tập trung vào nghiên cứu và phát triển các kỹ thuật trong khaiphá cơ sở
dữ liệusongngữ Anh-Việt từ World Wide Web (WWW), cụ thể là trên các trang web
song ngữ trong định dạng html. Nhiệm vụ của khaiphádữliệusongngữ là tự động tìm ra
hai thành phần có ngữ nghĩa tương ứng trong tập những văn bản thuộc hai ngôn ngữ khác
nhau. Hai thành phần được dóng hàng hoặc được ghép cặp này càng nhỏ thì thông tin hay
tri thức thu được từ đó càng lớn. Thành phần ở đây có thể là văn bản, đoạn, câu và từ,
Loại thành phần mà chúng tôi xét đến trong luận văn này là văn bản.
Để ghép cặp những văn bản html trong một tập văn bản trong hai ngôn ngữ mà
luận văn khai thác là tiếng Anh và tiếng Việt, chúng tôi tìm hiểu các công nghệ trong
các nghiên cứu hiện tại, xác định ưu điểm nhược điểm và tính khả thi để ứng dụng trong
thực tiễn luận văn này. Có hai tiếp cận đối với bài toán này là dựa trên nội dung (thông
thường là dựa trên đối sánh các cặp từ là bản dịch của nhau – từ điển song ngữ), hoặc là
dựa trên sự tương đồng về cấu trúc trang html. Trong phạm vi luận văn này, chúng tôi
theo tiếp cận dựa trên cấu trúc. Cụ thể chúng tôi khảo sát các đặc trưng cấu trúc khác
nhau như độ tương đồng cấu trúc thẻ của văn bản, độ tương đồng cấu trúc url của văn
bản, và nhiều yếu tố phụ để giảm thời gian chạy của hệ thống. Đồng thời chúng tôi cũng
theo tiếp cận học máy (theo [5]), và áp dụng phương pháp học cây quyết định cho bài
toán này. Đặc biệt chúng tôi đã mô hình hóa bài toán cho bộ phân loại Naïve Bayes và
áp dụng lựa chọn thuộc tính và cho kết quả dóng hàng văn bản tốt hơn khi sử dụng cây
quyết định như trong [5]. Để thực nghiệm, chúng tôi xây dựng một hệ thống làm các
nhiệm vụ: chuẩn bị cơ sở dữliệu thô từ Internet; một số bước tiền xử lý ngôn ngữ; và
các mô đun dóng hàng văn bản. Kết quả đạt được là khá khả quan với độ chính xác dóng
hàng văn bản khoảng 96% đối với mô hình phân loại Bayes.
2
Mục lục
Tóm tắt
Mục lục
Mở đầu 3
Chương 1 Giới thiệu 4
1.1. Vai trò tầm quan trọng của dữliệusongngữ 4
1.2. Các nghiên cứu liên quan 5
1.3. Mục tiêu và tiếp cận giải quyết vấn đề 9
1.4. Cấu trúc luận văn 10
Chương 2. Các tiếp cận và kỹ thuật cho bài toán khaiphádữliệusongngữ 11
2.1. Lọc theo cấu trúc 11
2.2. Lọc theo nội dung 14
2.3 Các đặc trưng khác 16
2.4. Thuật toán lập trình động 17
Chương 3. Mô hình học máy cho bài toán đối sánh văn bản 20
3.1 Mô hình phân loại theo cây quyết định 20
3.2. Mô hình phân loại Bayes 24
Chương 4. Thực nghiệm và kết quả 27
4.1. Kiến trúc tổng quan hệ thống 27
4.2. Bộ công cụ download và xác định ngôn ngữ 28
4.3. Xây dựng cơ sở dữliệu thô 31
4.4. Xây dựng bộ phân loại và kết quả phân loại 34
4.5. Hướng dẫn sử dụng chương trình 36
Kết luận 38
Tài liệu tham khảo
3
Mở đầu
Văn bản songngữ có vai trò thiết yếu trong một số lĩnh vực của xử lý ngôn ngữ
tự nhiên, như dịch máy thống kê, tìm kiếm thông tin trong môi trường đa ngữ,
Trong dịch máy thống kê, các kho dữliệusongngữ bao gồm nhiều cặp văn bản
với chất lượng dịch cao là nguồn tài nguyên quan trọng nhất quyết định chất lượng của
hệ dịch. Đối với một số cặp ngôn ngữ, việc tạo ra kho dữliệusongngữ là không khó
(nếu như cặp ngôn ngữ đó đều phổ biến rộng rãi trên thế giới, ví dụ với cặp tiếng Anh
và tiếng Pháp). Tuy nhiên thật không may cho khá nhiều cặp ngôn ngữ như Anh-Việt,
trong đó có một ngôn ngữ ít phổ biến hơn như tiếng Việt, việc xây dựng các kho dữ
liệu songngữ rất khó khăn. Điều này chủ yếu do số lượng các văn bản songngữ có thể
khai thác được còn quá ít và chất lượng dịch chưa cao. Thực hiện công việc này bằng
tay là một việc nặng nề và tốn kém. Đây là một trở ngại lớn cho việc phát triển các ứng
dụng xử lý ngôn ngữtự nhiên dựa trên tiếp cận thống kê, nhất là cho các cặp ngôn ngữ
như Anh - Việt.
Hiện nay lượng thông tin trên Internet rất lớn, và do nhu cầu giao lưu quốc tế,
số lượng trang web có hai ngôn ngữ Anh và Việt cũng trở nên phổ biến hơn. Đây là
nguồn tài nguyên quý giá đối với việc khai thác dữliệusongngữ trên Internet. Hơn
nữa, đối với tiếng Việt, các nghiên cứu về khaiphátự động dữliệusongngữ còn ít với
kết quả còn hạn chế, hầu như chưa có kho ngữliệusongngữ nào được công bố rộng
rãi. Do vậy, việc nghiên cứu phát triển các phương pháp tự động xây dựng các kho dữ
liệu songngữ cho các cặp ngôn ngữ Anh – Việt là một chủ đề nghiên cứu rất ý nghĩa.
về mặt nghiên cứu và có tính thực tiễn cao. Trong luận văn này chúng tôi giới hạn mức
dữ liệu ở mức văn bản, tức là khaiphá các văn bản songngữ Anh Việt (không phải
mức câu hay mức từ). Chúng tôi với luận văn này mong muốn với lý thuyết đưa ra và
hệ thống thực nghiệm hi vọng sẽ đáp ứng phần nào nhu cầu về văn bản songngữ cho
cặp ngôn ngữ Anh-Việt. Cụ thể luận văn sẽ tập trung vào hai nhiệm vụ chính:
Tìm hiểu, nghiên cứu, phát triển các công nghệ trong bài toán khaiphádữliệu
song ngữ, cụ thể cho xây dựng các cặp văn bản song ngữ.
Xây dựng công cụ khaiphá các cặp văn bản songngữ trên world wide web cho
cặp ngôn ngữ Anh –Việt.
4
Chương 1 Giới thiệu
1.1. Vai trò tầm quan trọng của dữliệusongngữ
Văn bản songngữ là tài nguyên ngôn ngữ giàu có cho nhiệm vụ quản lý văn
bản đa ngữ khác nhau, gồm trích rút văn bản ngôn ngữ bắt chéo, khaiphá văn bản đa
ngữ và ngôn ngữ máy tính. Một tập văn bản songngữ là tài nguyên cơ bản cho tạo cơ
sở tri thức ngôn ngữ đa ngữ như dịch máy và từ điển theo chủ đề đa ngữ. Với sự phát
triển của World Wide Web, thông tin điện tử có thể truy cập có số lượng ngôn ngữ
ngày càng tăng. Có thông tin nói rằng, ở trong năm 2005, hơn 50% nội dung trang web
là thuộc về những ngôn ngữ khác ngoài tiếng Anh. Với sự đa dạng như vậy, Web thực
sự là tập hợp khổng lồ tài liệu đa ngữ bởi nó tạo ra nơi lưu trũ văn bản lớn cho việc
xây dựng dữliệusong ngữ.
Trong xử lý ngôn ngữtự nhiên, điều cần đặc biệt lưu ý là cần phát triển tài
nguyên từ vựng chuyên sâu gổm từ vựng ( ví dụ tập từ vựng cho ngữ pháp có tính rõ
ràng về mặt ngôn ngữ, cho tập mẫu cho hệ thống trích thông tin, những bản thể cho
chống nhập nhằng nghĩa). Tài nguyên này là thiết yếu cho tăng khả năng của hệ thống
và thay đổi giữa các lĩnh vực dễ hơn. Ví dụ, để tin cậy, một hệ thống trích thông tin
cần truy cập tới từ điển ngôn ngữ chất lượng cao. Hầu hết các tài nguyên từ điển ngôn
ngữ đều được phát triển bằng tay với chuyên gia tạo từ điển ngôn ngữ. Dự án như vậy
là đắt đỏ và kết quả tài nguyên có mức độ bao phủ thường giới hạn, và yêu cầu tập
trung mức độ cao cho miền mới. Thu thập tự động từ vựng đang hứa hẹn nhiều và tiếp
cận hiệu quả để thực hành và tăng khả năng đứng vững khi có sự phát triển gần đây
của xử lý ngôn ngữtự nhiên, kỹ thuật học máy và dữliệu trong đó dữliệusongngữ
ngày càng phát triển và trong đó dữliệu Anh-Việt cũng đóng góp cho các đề tài liên
quan đến hai ngôn ngữ này.
Cơ sở các cặp câu songngữ đóng vai tro thiết yếu trong dịch máy thống kê.
Theo [2], dịch máy thống kê là một mô hình dịch máy trong đó những bản dịch được
tạo ra trên nền tảng mô hinh thống kê mà tham số của chúng đã được lấy từ sự phân
tích kho văn bản song ngữ. Tiếp cận thống kê tương phản với tiếp cận dựa trên luật
trong dịch máy như là dịch máy dựa trên mẫu và hiện là tiếp cận mang lại thành công
nhất đối trong lĩnh vực dịch máy.
Cross-language information retrieval (CLIR) là sự truy tìm những tài liệu liên
quan dựa trên cơ sở những câu hỏi được đưa ra bởi con người và trả lại một tập hợp tài
5
liệu thỏa mãn câu hỏi trong những ngôn ngữ khác ngôn ngữ của câu hỏi. Hệ thống
CLIR có ba hướng tiếp cận chủ yếu: dịch máy, dữliệusongngữ hay có tính so sánh,
và từ điển mà máy có thể đọc. Đối với tiếp cận sử dụng dữliệusong ngữ, các truy vấn
được dịch trên cơ sở của mục từ được trích từ tập tài liệusongngữ hoặc so sánh.
Trong tập văn bản song ngữ, cặp hay một tập tài liệu được xác định trong những ngôn
ngữ khác nhau. Một văn bản so sánh được chứa những tài liệu trong những ngôn ngữ
khác nhau.
Từ các mô tả những lĩnh vực và yêu cầu văn bản songngữ của từng lĩnh vực thì
chúng ta có thể thấy rằng văn bản songngữ đóng một vai trò quan trọng trong xử lý
ngôn ngữtự nhiên.
1.2. Các nghiên cứu liên quan
Web là tài nguyên khổng lồ và hầu như miễn phí cho tất cả mọi người. Và xuất
phát từ nhu cầu văn bản songngữ của các lĩnh vực khác trong xử lý ngôn ngữtự
nhiên, nhiều nhà nghiên cứu đã phát triển và xây dựng các hệ thống tự động khaiphá
dữ liệusongngữtừ Web.
Theo [1, 3] các website songngữ thường đặt tên tương tự nhau cho các trang
web song ngữ. Chủ website songngữ đặt như vậy để giữ lại dấu vết của những trang
web theo ngôn ngữ của chúng. Những tên trang web luôn gồm có một substring chung
chỉ ra tính songsongsong của những trang web, cùng đi với một substring khác được
sử dụng như là cờ ngôn ngữ chỉ ra ngôn ngữ của mỗi tài liệu cụ thể. Như vậy những cờ
ngôn ngữ thường nối vào đằng trước, ở giữa và cuối của substring chung của cặp tài
liệu song ngữ. Hơn nữa, những cờ ngôn ngữ thường được nối tới phần chung bằng các
ký tự gạch ngang ‘-’ hoặc gạch dưới ‘_’. Ví dụ, khi một trang web tiếng Anh với tên là
“document-en.htm” được tạo thì một bản dịch của nó trong tiếng việt sẽ là “document-
vn.htm” để chỉ ra tính songsong để dễ quản lý website. Ở trường hợp khác cờ ngôn
ngữ chỉ được nối tới tên file của những tài liệu của một ngôn ngữ cụ thể. Ví dụ, nếu tài
liệu tiếng Anh được gọi là “document.htm” được tạo thì bản tiếng Việt của nó sẽ là
document-vn.htm để chỉ ra sự khác biệt ngôn ngữ. Tất cả những điều trên sẽ hỗ trợ các
tài liệuwebsongngữ qua được model so sánh tên file - modul quan trọng nhất trong
PTMiner.
PTMiner có một cách tiếp cận trong so sánh cấu trúc thẻ html của trang web.
Trong tiếp cận này, hệ thống phân ra hai loại thẻ, một loại có ý nghĩa - ảnh hưởng đến
cấu trúc giao diện của trang web, còn loại thẻ còn lại sẽ không có ý nghĩa tức không có
6
ảnh hưởng đến cấu trúc trang web, ví dụ: với loại có ý nghĩa: <p>, <h1>, <table>,
<td>, còn loại không có ý nghĩa: <meta>, <font>, Sau khi đã chuyển sang tuyến tính
(hoặc có thể tạo cây) để dóng hàng, và số đặc trưng chỉ là 1, tỉ lệ thẻ không được dóng
hàng, tỉ lệ này cũng có thể tối ưu bằng học máy kết hợp với các đặc trưng khác của hệ
thống.
Theo [5] STRAND lấy modul so sánh cấu trúc thẻ html làm trái tim của hệ
thống. STRAND có nhiều phiên bản, ở phiên bản cũ, hệ thống khaipháweb qua ba
bước:
Locating - xác định những trang có lẽ có bản dịch songngữ
Generating - tạo các cặp thí sinh có lẽ là bản dịch
Structure filtering - lọc cấu trúc bỏ ra những cặp không là bản dịch
Trong bước locating, STRAND sử dụng trình tìm kiếm AltaVista để tìm kiếm
hai kiểu trang web đó là: cha và anh em.
Một trang cha là một trang chứa những link đến nhiều phiên bản khác nhau của
một tài liệu; ví dụ:
Hình 1: Ví dụ về trang cha
Nhìn vào ví dụ trên, trang cha chứa link đến các phiên bản khác nhau của cùng một
nội dung. Các phiên bản là tiếng Anh, tiếng Trung, tiếng Việt. Sau đó để tạo cặp trang
web thí sinh thì chỉ cần lấy hai link của hai bản tiếng Việt và Tiếng Anh với nhau.
Trang anh em là trang trong một ngôn ngữ và nó chứa một link đến bản đó
trong ngôn ngữ khác. Ví dụ:
Hình 2: Ví dụ về trang anh em
Nhìn vào ví dụ trên, trang này chứa một link đến một bản khác trong tiếng Anh.
Để ghép tạo cặp thí sinh thì chỉ cần ghép trang này với bản tiếng Anh tương ứng.
7
Trong bước generating, cho những cặp url có khả năng chứa bản dịch qua
modul so sánh url. STRAND cũng tạo các luật để so sánh, chẳng hạn, en -> vn. Ngoài
ra, trong modul này của STRAND có thêm tính năng hỗ trợ thay thế, loại bỏ nhiều
đoạn trong url, ví dụ:
Hình 3: Ví dụ về loại bỏ nhiều đoạn
Bước structure filtering thì sẽ được trình bày ở phần lọc cấu trúc.
Trong STRAND phiên bản mới có thêm modul so sánh content, sẽ trình bày ở
đoạn lọc nội dung.
Theo [4] PCMS nói chung là giống STRAND. Nhưng có một số điểm khác
biệt.
Thứ nhất, trong phần tính độ tương tự cấu trúc url của hai trang web thì hệ
thống tính toán cụ thể còn STRAND và PTMiner chỉ thay thế loại bỏ kiểm tra chúng
có giống nhau hay không. PCMS tiền xử lý những thư mục con trong url mà xác định
ngôn ngữ của trang web. PCMS thay thế chúng bằng chuỗi ký tự duy nhất. Ví dụ url:
/english/ file.htm sẽ thành /***/ file.htm. Tiếp đó, một số tiêu chí được tính
toán như sau:
Tỉ lệ số thư mục con của url của hai trang web. Công thức là:
URL diff (A, B) =
)()(
|)()(|
BlenAlen
BlenAlen
Trong công thức trên len(A) là số thư mục con của url A, và len(B) là số thư
mục con của url B. Nếu số thư mục con của A và B như nhau thì tỉ lệ khác nhau sẽ
là 0.
Tỉ lệ thư mục con có tên giống nhau. Công thức là:
8
URL dirsim(A, B) =
)()(
),(*2
BlenAlen
BAcomdir
Trong công thức trên, comdir(PA,PB) là số thư mục con có tên giống nhau.
Thứ hai, trong modul so sánh nội dung, PCMS triển khai mô hình không gian
vecto song ngữ. Ý tưởng của mô hình này là mỗi trang web được đại diện bởi một
vecto các mục từ, và tập trang web của một ngôn ngữ là một không gian vecto có số
chiều bằng số từ vựng của ngôn ngữ đó. Vì số mục từ của hai ngôn ngữ bất kỳ là khác
nhau nên PCMS đưa ra cách chuyển đổi số chiều của không gian vecto của ngôn ngữ
này bằng số chiều của không gian vecto của ngôn ngữ kia. Và công thức cosine
coefficient được sử dụng để tính độ tương tự. Công thức như sau:
Cosine ecoefficient =
p
i
i
p
i
i
p
i
ii
yx
yx
1
2
1
2
1
*
Với p là số mục từ tiếng Anh.
Theo [5], modul so sánh nội dung của hai trang web là quan trọng nhất của hệ
thống. Và so sánh toàn bộ nội dung được quy về so sánh đoạn, so sánh đoạn dựa trên
mô hình ánh xạ từ -từ Hai đoạn đã được dóng hàng với nhau đã thỏa mãn điều kiện số
từ được dóng hàng lớn hơn một ngưỡng nào đó. Tổng số từ được dóng hàng của cả
trang web bằng tổng của tất cả các đoạn. Đặc trưng rút ra là số từ được dóng hàng trên
tổng số từ của hai trang web.
Theo [6] Một hệ thống được xây dựng, tự động khaiphádữliệusongngữ dựa trên
dóng hàng DOM Tree. Ý tưởng này rất hay ở chỗ nó đi vào thực tế của cấu trúc html của
trang web là cấu trúc cây chứ không phải là tuyến tính. Mô hình DOM Tree có nhược
điểm là nắm bắt khó hơn, liên quan đến xác suất có điều kiện. Thời gian chạy của dóng
hàng cây DOM nhiều hơn so với dóng hàng tuyến tính. Ví dụ về DOM Tree:
Hình 4: Sự khác nhau giữa mô hình DOM chuẩn và mô hình DOM sau thu gọn
9
Mô hình dóng hàng cây DOM định nghĩa dóng hàng như tiến trình không thay
đổi thứ tự cây. Ví dụ node A được dóng hàng với node B thì con của A sẽ bị xóa hoặc
được dóng hàng với con của B.
Để thẩm tra một cặp trang web thí sinh có đúng là song song, một bộ phân lớp
dựa trên maximum entropy nhị phân được sử dụng.
Tiêu chi tương đồng cấu trúc hẻ html được tính như sau: tất cả thẻ html của
trang web được nối thành một chuỗi. Sau đó khoảng cách nhỏ nhất giữa hai chuỗi thẻ
liên quan đến cặp thí sinh được tính toán, và độ tương đồng thẻ html là tỉ lệ số thẻ
giống nhau chia cho tổng số thẻ.
Điểm cho dóng hàng câu được định nghĩa là tỉ lệ số câu đã dóng hàng và tổng
số câu trong cả hai file.
1.3. Mục tiêu và tiếp cận giải quyết vấn đề
Với vai trò, tầm quan trọng của dữliệusongngữ đối với các ứng dụng xử lý
ngôn ngữtự nhiên, đồng thời được thúc đẩy bởi việc thiếu cơ sở dữliệusongngữ Anh
-Việt cho nhiều nghiên cứu khác, luận văn tập trung vào các công việc:
Tìm hiểu, nghiên cứu, phát triển các công nghệ trong bài toán khaiphádữliệu
song ngữ, cụ thể cho xây dựng các cặp văn bản song ngữ.
Xây dựng công cụ khaiphá các cặp văn bản songngữ trên World Wide Web
cho cặp ngôn ngữ Anh –Việt.
Phần 1.2 đã trình bày một cách tóm tắt những nghiên cứu trong khaiphádữliệu
song ngữ. Có thể chia làm hai tiếp cận chính là tiếp cận dựa trên nội dung và tiếp cận
dựa trên cấu trúc của trang web. Đối với tiếp cận dựa trên nội dung, chúng ta phải sử
dụng từ điển song ngữ. Do việc từ điển songngữ Anh – Việt có quá nhiều nhập nhằng,
hơn nữa do thời gian có hạn nên chúng tôi tập trung vào nghiên cứu theo tiếp cận thứ
hai là dựa vào cấu trúc văn bản (trang web). Phương pháp được chúng tôi sử dụng và
phát triển dựa trên nghiên cứu [3,5], với hai phần:
Xác định các thuộc tính dùng để đo độ tương tự giữa hai trang html
Áp dụng thuật toán học máy để xây dựng mô hình trên tập các thuộc tính trên.
Đối với phần thứ nhất, chúng tôi sẽ sử dụng các thuộc tính sau:
So sánh độ tương đồng tên file của trang web
So sánh độ tương đồng cấu trúc url
[...]... hướng phát triển của hệ thống 10 Chương 2 Các tiếp cận và kỹ thuật cho bài toán khai phádữliệu song ngữ 2.1 Lọc theo cấu trúc Trên World Wide Web tồn tại nhiều dữ liệu, và nhiều kiểu định dạng dữ liệu, chẳng hạn htm, xhtml, doc, pdf, và luận văn chỉ sử dụng văn bản định dạng html – trang web (có thể là html động khi download lưu vào ổ cứng nó có thêm đuôi html, ví dụ: *.cfm.html) Các trang web có... đối xứng từ- từ của văn bản songngữ Theo đó một link là một cặp (x,y) với x là từ trong ngôn ngữ L1 và y là từ trong ngôn ngữ L2 Mô hình chứa một từ điển songngữ có chứa xác suất của tất cả kiểu link Trong đó có một kiểu đặc biệt, là một từ có thể là Null, nhưng không thể cả hai Mô hình này không quan tâm đến trật tựtừ Một ví dụ như sau: Hình 6: Ví dụ về hai văn bản có những link giữa các từ Tiếp... ngôn ngữ Thường trong các website song ngữ, các substring chỉ tính songsong thì cũng là chỉ ngôn ngữ của trang web đó Bởi vậy, nếu trong url của webpage có chứa thông tin liên quan đến ngôn ngữ tiếng Anh hoặc tiếng Việt thì sẽ được cho url trang web vào danh sách ngôn ngữ tương ứng Trong khóa luận, dùng các substring định nghĩa trước, nếu một trong substring được tìm thấy trong url, thì ngôn ngữ trang... thương các trang web lớn và songsong thì ngoài cấu trúc thư mục thì cả tên file cũng songsong thậm chí là giống nhau nếu thư mục khác nhau Bởi vậy chỉ số này rất tốt cho phân loại đối với web site tuân thủ chặt chẽ về tên file Chẳng hạn với www.undp.org.vn Directory number difference và directory name similarity, các web site songngữ thường có cấu trúc thư mục phân cấp và song song, hai yếu tố này... sánh cấu trúc html của cặp trang web Và một số tiêu chí khác để làm giảm thời gian chạy của hệ thống như ngày sửa, tỉ lệ âm tiết, tỉ lệ chunk Đối với thuật toán học máy, chúng tôi mô hình hóa và áp dụng cho hai thuật toán là Naïve Bayes và Decision Tree (cây quyết định) 1.4 Cấu trúc luận văn Chương 1 Giới thiệu vai trò của dữ liệusongngữ và bài toán khai phádữliệu song ngữ đặt ra Chương 2 Đưa ra lý... tạo dữ liệu huấn luyện, và kiểm tra bằng cách lấy ngẫu nhiên Sau đó dùng cây quyết định, và Bayes ngây thơ Bước 7,8: Với mô hình đã có, tất cả dữliệu ban đầu sẽ được đi qua, và kết quả cuối cùng sẽ ở Parallel text 27 4.2 Bộ công cụ download và xác định ngôn ngữ Download Có hai cách tìm kiếm và download những website tiếng Việt Thứ nhất, làm bằng tay, tìm kiếm và xác định các địa chỉ website song ngữ. .. dùng tool GNU Wget để dowload toàn bộ file html tĩnh và động của website nào đó về máy Bước 3,4: bước này làm nhiệm vụ tính toán tất cả thông số, đưa vào dữ liệu ban đầu, đồng thời với bộ lọc thô sẽ làm giảm kích thước dữliệu làm giảm thời gian chạy cho các giai đoạn sau Dữliệu trong “Data with indexes” là các cặp trang web trong hai ngôn ngữ Anh-Việt cùng với chỉ số của các đặc trưng chính và phụ Bước... khác nhau của số thư mục con Với đặc trưng này, chúng tôi coi rằng đã là trang websongngữ thì cấu trúc thư mục là có cấu trúc songsong Đặc tính thể hiện hai trang web nằm trong cấu trúc songsong và khác nhau không quá xa Cách tính lấy trị tuyệt đối hiệu số thư mục con chia cho tổng số thư mục con của url của hai trang web Ví dụ: \htx\english\c1330\ và \htx\vietnamese\ Chỉ cần đếm và tính kết quả... precision recall số lượng cặp songngữ 3 0.55932203 0.515625 5221 11 0.92741935 0.898438 5404 Toàn bộ cặp songngữ lấy từdữliệu ban đầu nằm trong hai file tương ứng với hai bộ thuộc tính: /data3.paired, /data11.paired Mô hình Naive Bayes Trước khi tạo được mô hình Naive Bayes, chúng ta phải chuẩn hóa các giá trị của từng thuộc tính Và việc chuẩn hóa cần thông số gap khoảng cách của từng thuộc tính Giá trị... tính đó càng nhiều, dữliệu càng bị phân mảnh, cây quyết định giảm đi tính khái quát) Dữliệu huấn luyện đã chuẩn hóa: teaching/teaching-labeled-standarded Dữliệu test đã chuẩn hóa: teaching/testing-labeled-standarded Riêng đối với Naive Bayes, chúng tôi thiết kế hệ thống để với bất kỳ tổ hợp thuộc tính nào cũng đưa ra được precison, recall và toàn bộ cặp songngữ trong giữa liệu ban đầu Chúng tôi .
dữ liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể là trên các trang web
song ngữ trong định dạng html. Nhiệm vụ của khai phá dữ liệu song ngữ là. toán khai phá dữ liệu
song ngữ, cụ thể cho xây dựng các cặp văn bản song ngữ.
Xây dựng công cụ khai phá các cặp văn bản song ngữ trên world wide web cho