Sơ đồ trình tự các bước xây dựng kho ngữ liệu- 123docz.net

Xây dựng kho ngữ liệu song ngữ số lượng lớn

(1) Tìm kiếm các nguồn tài nguyên phù hợp: Hiện nay có nhiều nguồn tài ngun số được cơng bố dưới dạng song ngữ hoặc đa ngữ. Để xây dựng kho ngữ liệu tập trung ở lĩnh vực văn bản quy phạm pháp luật cho cặp ngôn ngữ Anh – Việt, luận án thu thập và sử dụng các nguồn tài nguyên sau đây:

- Các trang web cung cấp các văn bản quy phạm pháp luật theo hình thức song ngữ, chẳng hạn thu thập từ website vbpl.vn dữ liệu gồm 1.079 tài liệu đã được dịch sang tiếng Anh. Ví dụ về một tài liệu song ngữ như sau:

 Văn bản tiếng Anh: Decree on commercial mediation

Liên kết: http://vbpl.vn/tw/Pages/vbpqen-toanvan.aspx?dvid=13&ItemID= 11106& Keyword=22/2017/N%C4%90-CP (truy cập tháng 4/2021)

 Văn bản tiếng Việt: Nghị định về hòa giải thương mại

Liên kết: http://vbpl.vn/TW/Pages/vbpq-toanvan.aspx?ItemID=119091 &Keyword=22/2017/ND-CP (truy cập tháng 4/2021)

- Các tài liệu học tập, tài liệu khoa học, tài liệu học tiếng Anh được cung cấp trên môi trường Internet. Các nguồn tài nguyên này ở các định dạng khác nhau, chẳng hạn các trang web, các tập tin MS Word hoặc PDF. Ví dụ, luận án đã tiến hành trích rút các câu tiêu đề và nội dung tóm tắt của các bài báo khoa học trên website của Tạp chí Khoa học và Cơng nghệ Đại học Đà Nẵng, kết quả thu được gồm 3.429 cặp câu tiêu đề và 24.590 cặp câu, cụm từ ở phần tóm tắt.

- Các trang web từ điển, trang web cung cấp các mẫu câu song ngữ, các trang web xem phim song ngữ Anh – Việt, các trang web tin tức có cung cấp bản dịch ở các ngơn ngữ khác nhau…

- Các tài liệu Việt hóa của các phần mềm mã nguồn mở, các ứng dụng web, bao gồm bản dịch các chức năng, hướng dẫn sử dụng, điều khoản sử đụng… Chẳng hạn từ tài liệu Việt hóa của hệ điều hành Ubuntu, có thể thu thập được 3.931 cặp câu song ngữ Anh-Việt.

Quá trình thu thập dữ liệu và xây dựng kho ngữ liệu lớn được thực hiện theo giải pháp hợp nhất dữ liệu từ các nguồn dữ liệu có định dạng và cấu trúc khác nhau đã được trình bày ở Chương 2. Nghiên cứu tiến hành khảo sát cấu trúc của các tài nguyên đã được thu thập, sau đó xây dựng các luật để trích rút dữ liệu thơng qua chương trình được xây dựng bằng ngơn ngữ Python và C#.

(2) Thực hiện các bước tiền xử lý dữ liệu: Dữ liệu thô thu được từ bước (1) sẽ được xử lý bằng các phương pháp cơ bản với sự hỗ trợ của thư viện xử lý ngôn ngữ tự nhiên NLTK và spaCy, bao gồm: Làm sạch văn bản bằng cách loại bỏ các thẻ XML, HTML, các thẻ định dạng của các loại tài liệu khác nhau; Xóa bỏ một số ký tự phân cách và các ký tự đặc biệt; Chuyển dữ liệu về bảng mã Unicode. Chẳng hạn trong dữ liệu thu thập được, có thể nhận thấy các lỗi văn bản như đặt dấu sai vị trí (như “lụân”, “thừơng”), các ký tự bảng mã khác Unicode (như “ðiền”, “ðất”), cần thực hiện các bước chuẩn hóa để làm cho dữ liệu có chất lượng hơn.

Tại bước này, các đoạn sẽ được tách tương ứng Anh-Việt thông qua các quy tắc nhận diện thẻ HTML và các biểu thức chính quy, sau đó tách các câu sử dụng hàm nltk.sent_tokenize được cung cấp trong thư viện NLTK. Để có thể thu được kho ngữ liệu có chất lượng tốt hơn, cần loại bỏ các cặp câu có thể khơng phải là bản dịch của nhau. Nghiên cứu thực hiện kết hợp giải pháp nhận dạng ngôn ngữ kèm theo so sánh chiều dài hai câu song ngữ và loại bỏ các cặp câu có chiều dài chênh lệnh lớn.

Kết quả quá trình xây dựng kho ngữ liệu thu được 1.479.000 cặp câu song ngữ Anh – Việt, trong đó có 460.000 cặp câu song ngữ trong lĩnh vực văn bản quy phạm phát luật. Số liệu chi tiết ở Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng.

Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng

Lĩnh vực Số lượng câu

Chiều dài trung bình câu tiếng Anh (từ)

Chiều dài trung bình câu tiếng Việt (từ) Văn bản quy phạm

pháp luật 460.000 25,8 31,2

Hội thoại 180.000 7,2 8,4

(3) Chuẩn hóa và làm cho dữ liệu chính xác hơn bằng cách xác định ranh giới các từ tiếng Việt và xác định danh từ riêng có mặt trong các câu. Các giải pháp thực hiện được trình bày ở Chương 2. Việc nhóm các từ ghép và các danh từ riêng lại thành một cụm từ sẽ giúp hệ thống dịch nhận dạng được các từ chính xác hơn, tránh việc thống kê sai các từ khơng có nghĩa trong q trình huấn luyện mơ hình dịch và tạo lập bộ từ vựng của kho ngữ liệu.

Kho ngữ liệu song ngữ Anh – Việt đã xây dựng sẽ được dùng để làm dữ liệu đầu vào cho quá trình huấn luyện hệ thống và khởi tạo mơ hình dịch bằng phương pháp dịch sử dụng mạng nơ ron.

So sánh với các nghiên cứu liên quan đến xây dựng kho ngữ liệu song ngữ, có thể thấy rằng kho ngữ liệu đã được xây dựng trong chuyên đề này có số lượng lớn, vượt trội so với những cơng trình đã cơng bố trước đó, phù hợp để ứng dụng xây dựng mô phỏng các hệ thống dịch tự động tiếng Việt.

Bảng 3.2. Tổng hợp quy mô kho ngữ liệu của một số công bố

Dưới đây là trích dẫn một số mẫu dữ liệu để thực hiện đánh giá: - Lĩnh vực Văn bản quy phạm pháp luật: Mẫu dữ liệu tpp-chuong28

Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP),

80.000 cặp câu Kinh tế - Xã hội; 20.000 cặp câu Tin học

Xây dựng hệ thống dịch Anh – Việt bằng mơ hình dịch thống kê sử dụng MOSES

80.000 cặp câu song ngữ Anh – Việt

Xây dựng hệ thống dịch dựa trên ví dụ 6.000 cặp câu song ngữ Anh-Việt Xây dựng hệ thống dịch thích ứng miền trong

dịch máy nơ ron cho cặp ngôn ngữ Anh - Việt

100.000 cặp câu song ngữ Anh Việt thuộc miền pháp lý

Tiếng Anh Tiếng Việt

CHAPTER 28

DISPUTE SETTLEMENT Section A: Dispute Settlement

CHƯƠNG 28

GIẢI QUYẾT TRANH CHẤP Mục A: Giải quyết tranh chấp

Article 28.1: Definitions

For the purposes of this Chapter:

Điều 28.1: Định nghĩa Trong Chương này:

Bên nguyên đơn là bên yêu cầu thành lập complaining Party means a Party that Ban hội thẩm theo Điều 28.7.1 (Thành

requests the establishment of a panel lập Ban hội thẩm); pursuant to Article 28.7.1

(Establishment of a Panel); Bên tham vấn là bên yêu cầu tham vấn consulting Party means a Party that theo Điều 28.5.1 (Tham vấn) và bên

requests consultations pursuant to được yêu cầu tham vấn; Article 28.5.1 (Consultations) and the

Party to which the consultations is made;

request for

Bên tranh chấp là Bên nguyên đơn hoặc disputing Party means a complaining Bên bị đơn;

Party or a responding Party;

Ban hội thẩm là ban được thành lập căn Panel means a panel established cứ theo Điều 28.7 (Thành lập Ban hội

pursuant to Article 28.7 (Establishment thẩm); of a Panel);

hàng hóa dễ hỏng là hàng hóa nơng perishable goods means perishable nghiệp và thủy sản dễ hỏng phân loại từ agricultural and fish goods classified in mã HS từ chương 1 đến chương 24; HS Chapters 1 through 24;

Bên bị đơn là bên bị thưa kiện căn cứ responding Party means a Party that has theo điều 28.7.1 (Thành lập Ban hội been complained against pursuant to thẩm);

Article 28.7.1 (Establishment of a Panel);

Rules of Procedure means the rules referred to in Article 28.12 (Rules of Procedure for Panels) and established in

Quy tắc tố tụng là những quy tắc nêu tại Điều 28.12 (Quy tắc tố tụng của Ban hội accordance with Article 27.2.1(e) thẩm) và được thiết lập phù hợp với (Functions of the Commission); and Điều 27.2.1 (e) (Chức năng của Ủy ban);

- Lĩnh vực Hội thoại cơ bản:

Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa

Đối với giải pháp mở rộng ngôn ngữ, bổ sung và cải tiến dữ liệu cho các kho ngữ liệu, luận án đã xây dựng được một môi trường làm việc cộng tác cho phép gọi các hệ thống dịch tự động để mở rộng ngôn ngữ cho kho ngữ liệu, thu thập dữ liệu song song từ các website đa ngữ cũng như cho phép cải tiến dữ liệu thông qua chức năng hậu xử lý.

Tiếng Anh Tiếng Việt

How are things brother? Mọi chuyện thế nào rồi anh bạn? Everything is okay. How about you? Mọi thứ đều ổn. Cịn cậu thì sao?

I’m good. Mình ổn.

But you don’t look okay. Nhưng cậu trơng khơng ổn. You seem upset. Cậu trông giận dữ vậy. It’s like you’ve been in a fight with

somebody.

Nó giống như là cậu có một cuộc cãi nhau với ai đó thì phải.

No. I don’t know why but I feel angry most of the time you know.

Mình khơng biết tại sao nhưng cậu biết đó, mình hay cảm thấy giận dữ.

The littlest things easily make me angry.

Những điều nhỏ nhất cũng dễ dàng làm cho mình tức giận.

What? Why's that? Cái gì? Sao thế? I don’t know. I just feel it all the time.

Mình khơng biết. Mình lúc nào cũng chỉ cảm thấy giận dữ.

When did that start? Việc đó bắt đầu khi nào? About a month ago. Cách đây khoảng một tháng. Really? To be fair I just noticed it now.

Thật sao? Thú thật thì bây giờ mình mới để ý thấy điều đó.

Hình 3.3. Mơi trường cho phép mở rộng kho ngữ liệu

Mô đun hậu xử lý cho phép người sử dụng tương tác để hồn thiện bản dịch đã có, từ đó cung cấp các cặp câu song ngữ mới làm giàu thêm kho ngữ liệu. Quá trình hậu xử lý này được kết hợp để đo các chỉ số cần thiết phục vụ cho đánh giá chất lượng của hệ thống dịch như đã mô tả ở Chương 2.

Xây dựng kho ngữ liệu ontology

Bước 1: Định nghĩa các lớp dựa vào ngữ cảnh hay lĩnh vực của kho nhằm xây

dựng ontology.

+ Xác định domain

Luận án xây dựng ontology dùng cho dịch tự động phục vụ ngành du lịch. Đã có một số ontology cho ngành du lịch đã được xây dựng. Tuy nhiên, ontology phục vụ dịch tự động của ngành du lịch thì chưa được nghiên cứu.

+ Liệt kê, định nghĩa các khái niệm

Để chọn địa điểm đi du lịch ở quốc gia khác, du khách sẽ có nhiều tiêu chí, điều kiện để lựa chọn và đưa ra quyết định. Mỗi du khách sẽ có các tiêu chí lựa chọn cho riêng mình. Chẳng hạn du khách du lịch mạo hiểm sẽ có lựa chọn khác với du khách du lịch nghỉ dưỡng, người trẻ tuổi thường có các tiêu chí lựa chọn khác với người già. Có rất nhiều khái niệm, vấn đề được các du khách quan tâm, gồm: An ninh, Lưu trú, Ẩm thực,Vui chơi, Mua sắm, Danh lam thắng cảnh, Lịch sử, Văn hóa, Lễ hội, Sự kiện, Giao thơng, Thời tiết, Giải trí, Địa điểm… và các chủ đề khác.

Mỗi một vấn đề, khái niệm chính trên được chia ra nhiều vấn đề khác nhỏ hơn. Chẳng hạn:

- “Danh lam thắng cảnh” bao gồm nhiều loại như Bãi biển, Sông, Núi, Vịnh, Hang động….

- “Giao thơng” có nhiều vấn đề được du khách quan tâm là Tuyến đường, Thời gian biểu, Lịch trình,… của các phương thức vận tải khác nhau như Xe buýt, Taxi, Hàng khơng,…

- “Lưu trú” có nhiều loại là Khách sạn, Chung cư, Nhà trọ,….

+ Xác định các lớp, phân cấp lớp

Từ phân tích, tìm kiếm các vấn đề, khái niệm, chúng ta có được các lớp. Các lớp được xây dựng theo cấu trúc phân cấp cha-con như là một sự phân loại các đối tượng. Có tổng cộng 179 lớp, trong đó có 14 lớp chính và 165 lớp con. Hình dưới đây là minh họa của một số lớp và cấu trúc phân cấp của chúng.

(a) (b)

Hình 3.4. Phân cấp các lớp và thuộc tính các lớpBước 2: Xây dựng thuộc tính cho các lớp đã định nghĩa ở bước 1. Bước 2: Xây dựng thuộc tính cho các lớp đã định nghĩa ở bước 1.

Các đối tượng được mô tả thông qua việc khai báo các thuộc tính, mỗi thuộc tính đều có tên và giá trị. Các thuộc tính của mỗi lớp cần được xác định để mô tả thông tin của đối tượng thuộc lớp mà du khách quan tâm. Chẳng hạn, với lớp Chua (Chùa), thông tin mà du khách quan tâm là tên gọi, lịch sử của ngơi chùa đó, người xây dựng, kiểu kiến trúc, địa chỉ. Chúng tôi tiến hành xây dựng thuộc tính cho 179 lớp đã được xác định ở trên.

Bước 3: Nhận diện từ (concept) cụ thể trong kho ngữ liệu là thể hiện của các

lớp đã định nghĩa. Việc nhận biết từ thuộc lớp dựa vào ngữ cảnh.

Trong nghiên cứu ở Chương 2, luận án đã đưa ra giải pháp kết hợp Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản để trích rút và phân loại các thực thể danh từ riêng. Sau khi có danh sách các lớp, tiến hành nhận biết mỗi thực thể tên thuộc lớp nào dựa vào ngữ cảnh.

Hình 3.5. Minh họa phân lớp dữ liệu

Bước 4: Xây dựng giá trị cho các thuộc tính của các thể hiện của thực thể đã

nhận diện được. Chẳng hạn giá trị thuộc tính cho Hồ Chí Minh là tên khác, diện tích, dân số, khí hậu…

World Wide Web là một kho thơng tin khổng lồ, cập nhật liên tục. Vì vậy, NCS sử dụng thơng tin từ các trang web để xây dựng và cập nhật các thuộc tính của các thực thể. Sử dụng các máy tìm kiếm dựa trên các từ khóa là các thuộc tính của các thực thể để có được danh sách các trang web có chứa từ khóa và danh sách này được liệt kê theo thứ tự về độ quan trọng.

Thông tin ở trang web được lưu trữ và trình bày dưới nhiều hình thức khác nhau. Đối với văn bản web phi cấu trúc, nghiên cứu quan tâm đến việc trích chọn đối tượng, trong đó các đối tượng được trích chọn bao gồm các thuộc tính, đặc điểm,… Việc trích chọn quan hệ giữa các thực thể đã được xác định cũng được sử dụng. Bên cạnh đó, thơng tin từ văn bản web bán cấu trúc cũng rất quan trọng cho việc xây dựng

thuộc tính cho các thực thể, chẳng hạn như họ tên, quê quán, tiểu sử,… của một nhân vật. Việc trích chọn thơng tin từ văn bản web có ba cách tiếp cận chính, bao gồm hướng tiếp cận thủ cơng sử dụng hệ luật, tiếp cận sử dụng các phương pháp học máy (Hidden Markov Models, Maximum Entropy Markov Models, Conditional Random Fields - CRFs) và tiếp cận lai bằng cách kết hợp ưu điểm của hai phương pháp trên. Nghiên cứu này sử dụng cách tiếp cận lai để xác định trích chọn dữ liệu nhằm gán giá trị thuộc tính cho các thực thể.

Hình 3.6. Mơ tả ngữ nghĩa của kho ngữ liệu

Dữ liệu tổng hợp được sẽ lưu trữ theo định dạng RDF, là một phương thức chung cho các mơ tả khái niệm hoặc mơ hình hóa của thơng tin được diễn dịch trong các tài nguyên web, sử dụng trong các định dạng cú pháp khác nhau. Một trích đoạn tập tin RDF biểu diễn như sau:

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-

ns#" xmlns:dc="http://purl.org/dc/elements/1.1/">

<rdf:Description rdf:about="Văn Miếu - Quốc Tử Giám"> <dc:Type>Đền thờ</dc:Type> <dc:Location>Hà Nội</dc:Location> <dc:Built>1070</dc:Built> <dc:Area>54,000 m2</dc:Area> </rdf:Description> </rdf:RDF>

3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vựcvăn bản pháp luật (VIKI Translator) văn bản pháp luật (VIKI Translator)

Quy trình các bước triển khai

Để thực nghiệm xây dựng hệ thống dịch và đánh giá kết quả, nghiên cứu sinh tiến hành xây dựng hệ thống dịch tiếng Anh – tiếng Việt trong lĩnh vực văn bản hành chính, pháp luật sử dụng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn đã thu thập được. Có thể thấy rằng việc ứng dụng mạng nơ ron để xây dựng hệ thống dịch tự động đã được nghiên cứu ở một số ngôn ngữ, tuy nhiên đến thời điểm nghiên cứu này được thực hiện, phương pháp dịch này vẫn chưa được áp dụng thực tế ở các hệ thống dịch và chưa có đánh giá cụ thể đối với tiếng Việt.

Quá trình triển khai xây dựng mơ hình dịch thực hiện các bước sau:

Sơ đồ trình tự các bước xây dựng kho ngữ liệu

Mơ hình hóa phương pháp dịch thống kê

Tổng hợp một số kho ngữ liệu