Xây dựng kho ngữ liệu

Một phần của tài liệu Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 113 - 124)

6 .Đóng góp chính của luận án

3.2. Xây dựng kho ngữ liệu

Quy trình các bước triển khai

Các bài tốn học máy như dịch tự động cần số lượng dữ liệu lớn mới có thể tạo nên các mơ hình đạt chất lượng tốt. Vì vậy quá trình xây dựng kho ngữ liệu cần nhiều kỹ thuật và phương pháp xử lý khác nhau. Quá trình xây dựng kho ngữ liệu trong luận án được thực hiện theo các bước chính như sau:

Tìm kiếm các nguồn tài nguyên

Làm sạch văn bản Tiền xử lý Tách câu Xây dựng kho ngữ liệu Xác định danh từ riêng Xác định ranh giới từ Loại các câu chất lượng thấp

113

Xây dựng kho ngữ liệu song ngữ số lượng lớn

(1) Tìm kiếm các nguồn tài nguyên phù hợp: Hiện nay có nhiều nguồn tài ngun số được cơng bố dưới dạng song ngữ hoặc đa ngữ. Để xây dựng kho ngữ liệu tập trung ở lĩnh vực văn bản quy phạm pháp luật cho cặp ngôn ngữ Anh – Việt, luận án thu thập và sử dụng các nguồn tài nguyên sau đây:

- Các trang web cung cấp các văn bản quy phạm pháp luật theo hình thức song ngữ, chẳng hạn thu thập từ website vbpl.vn dữ liệu gồm 1.079 tài liệu đã được dịch sang tiếng Anh. Ví dụ về một tài liệu song ngữ như sau:

Văn bản tiếng Anh: Decree on commercial mediation

Liên kết: http://vbpl.vn/tw/Pages/vbpqen-toanvan.aspx?dvid=13&ItemID= 11106& Keyword=22/2017/N%C4%90-CP (truy cập tháng 4/2021)

Văn bản tiếng Việt: Nghị định về hòa giải thương mại

Liên kết: http://vbpl.vn/TW/Pages/vbpq-toanvan.aspx?ItemID=119091 &Keyword=22/2017/ND-CP (truy cập tháng 4/2021)

- Các tài liệu học tập, tài liệu khoa học, tài liệu học tiếng Anh được cung cấp trên môi trường Internet. Các nguồn tài nguyên này ở các định dạng khác nhau, chẳng hạn các trang web, các tập tin MS Word hoặc PDF. Ví dụ, luận án đã tiến hành trích rút các câu tiêu đề và nội dung tóm tắt của các bài báo khoa học trên website của Tạp chí Khoa học và Cơng nghệ Đại học Đà Nẵng, kết quả thu được gồm 3.429 cặp câu tiêu đề và 24.590 cặp câu, cụm từ ở phần tóm tắt.

- Các trang web từ điển, trang web cung cấp các mẫu câu song ngữ, các trang web xem phim song ngữ Anh – Việt, các trang web tin tức có cung cấp bản dịch ở các ngôn ngữ khác nhau…

- Các tài liệu Việt hóa của các phần mềm mã nguồn mở, các ứng dụng web, bao gồm bản dịch các chức năng, hướng dẫn sử dụng, điều khoản sử đụng… Chẳng hạn từ tài liệu Việt hóa của hệ điều hành Ubuntu, có thể thu thập được 3.931 cặp câu song ngữ Anh-Việt.

Quá trình thu thập dữ liệu và xây dựng kho ngữ liệu lớn được thực hiện theo giải pháp hợp nhất dữ liệu từ các nguồn dữ liệu có định dạng và cấu trúc khác nhau đã được trình bày ở Chương 2. Nghiên cứu tiến hành khảo sát cấu trúc của các tài nguyên đã được thu thập, sau đó xây dựng các luật để trích rút dữ liệu thơng qua chương trình được xây dựng bằng ngơn ngữ Python và C#.

(2) Thực hiện các bước tiền xử lý dữ liệu: Dữ liệu thô thu được từ bước (1) sẽ được xử lý bằng các phương pháp cơ bản với sự hỗ trợ của thư viện xử lý ngôn ngữ tự nhiên NLTK và spaCy, bao gồm: Làm sạch văn bản bằng cách loại bỏ các thẻ XML, HTML, các thẻ định dạng của các loại tài liệu khác nhau; Xóa bỏ một số ký tự phân cách và các ký tự đặc biệt; Chuyển dữ liệu về bảng mã Unicode. Chẳng hạn trong dữ liệu thu thập được, có thể nhận thấy các lỗi văn bản như đặt dấu sai vị trí (như “lụân”, “thừơng”), các ký tự bảng mã khác Unicode (như “ðiền”, “ðất”), cần thực hiện các bước chuẩn hóa để làm cho dữ liệu có chất lượng hơn.

Tại bước này, các đoạn sẽ được tách tương ứng Anh-Việt thông qua các quy tắc nhận diện thẻ HTML và các biểu thức chính quy, sau đó tách các câu sử dụng hàm nltk.sent_tokenize được cung cấp trong thư viện NLTK. Để có thể thu được kho ngữ liệu có chất lượng tốt hơn, cần loại bỏ các cặp câu có thể khơng phải là bản dịch của nhau. Nghiên cứu thực hiện kết hợp giải pháp nhận dạng ngôn ngữ kèm theo so sánh chiều dài hai câu song ngữ và loại bỏ các cặp câu có chiều dài chênh lệnh lớn.

Kết quả q trình xây dựng kho ngữ liệu thu được 1.479.000 cặp câu song ngữ Anh – Việt, trong đó có 460.000 cặp câu song ngữ trong lĩnh vực văn bản quy phạm phát luật. Số liệu chi tiết ở Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng.

Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng

Lĩnh vực Văn bản quy pháp luật Hội thoại

(3) Chuẩn hóa và làm cho dữ liệu chính xác hơn bằng cách xác định ranh giới các từ tiếng Việt và xác định danh từ riêng có mặt trong các câu. Các giải pháp thực hiện được trình bày ở Chương 2. Việc nhóm các từ ghép và các danh từ riêng lại thành một cụm từ sẽ giúp hệ thống dịch nhận dạng được các từ chính xác hơn, tránh

việc thống kê sai các từ khơng có nghĩa trong q trình huấn luyện mơ hình dịch và tạo lập bộ từ vựng của kho ngữ liệu.

Kho ngữ liệu song ngữ Anh – Việt đã xây dựng sẽ được dùng để làm dữ liệu đầu vào cho quá trình huấn luyện hệ thống và khởi tạo mơ hình dịch bằng phương pháp dịch sử dụng mạng nơ ron.

So sánh với các nghiên cứu liên quan đến xây dựng kho ngữ liệu song ngữ, có thể thấy rằng kho ngữ liệu đã được xây dựng trong chuyên đề này có số lượng lớn, vượt trội so với những cơng trình đã cơng bố trước đó, phù hợp để ứng dụng xây dựng mô phỏng các hệ thống dịch tự động tiếng Việt.

Bảng 3.2. Tổng hợp quy mô kho ngữ liệu của một số công bố

Đề tài KC01.01/06-10 "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP),

Xây dựng hệ thống dịch Anh – Việt bằng mơ hình dịch thống kê sử dụng MOSES

Xây dựng hệ thống dịch dựa trên ví dụ

Xây dựng hệ thống dịch thích ứng miền trong dịch máy nơ ron cho cặp ngơn ngữ Anh - Việt

Dưới đây là trích dẫn một số mẫu dữ liệu để thực hiện đánh giá: - Lĩnh vực Văn bản quy phạm pháp luật: Mẫu dữ liệu tpp-chuong28 Tiếng Anh

CHAPTER 28

DISPUTE SETTLEMENT Section A: Dispute Settlement

116 Article 28.1: Definitions

For the purposes of this Chapter: complaining Party means a Party that requests the establishment of a panel

pursuant to Article 28.7.1

(Establishment of a Panel);

consulting Party means a Party that requests consultations pursuant to Article 28.5.1 (Consultations) and the Party to which the request for consultations is made;

disputing Party means a complaining Party or a responding Party;

Panel means a panel established pursuant to Article 28.7 (Establishment of a Panel);

perishable goods means perishable agricultural and fish goods classified in HS Chapters 1 through 24;

responding Party means a Party that has been complained against pursuant to Article 28.7.1 (Establishment of a Panel);

Rules of Procedure means the rules referred to in Article 28.12 (Rules of Procedure for Panels) and established in accordance with Article 27.2.1(e) (Functions of the Commission); and

Điều 28.1: Định nghĩa Trong Chương này:

Bên nguyên đơn là bên yêu cầu thành lập Ban hội thẩm theo Điều 28.7.1 (Thành lập Ban hội thẩm);

Bên tham vấn là bên yêu cầu tham vấn theo Điều 28.5.1 (Tham vấn) và bên được yêu cầu tham vấn;

Bên tranh chấp là Bên nguyên đơn hoặc Bên bị đơn;

Ban hội thẩm là ban được thành lập căn cứ theo Điều 28.7 (Thành lập Ban hội thẩm);

hàng hóa dễ hỏng là hàng hóa nơng nghiệp và thủy sản dễ hỏng phân loại từ mã HS từ chương 1 đến chương 24; Bên bị đơn là bên bị thưa kiện căn cứ theo điều 28.7.1 (Thành lập Ban hội thẩm);

Quy tắc tố tụng là những quy tắc nêu tại Điều 28.12 (Quy tắc tố tụng của Ban hội thẩm) và được thiết lập phù hợp với Điều 27.2.1 (e) (Chức năng của Ủy ban); và

- Lĩnh vực Hội thoại cơ bản: Tiếng Anh

How are things brother?

Everything is okay. How about you? I’m good.

But you don’t look okay. You seem upset.

It’s like you’ve been in a fight with somebody.

No. I don’t know why but I feel angry most of the time you know.

The littlest things easily make me angry.

What? Why's that?

I don’t know. I just feel it all the time. When did that start?

About a month ago.

Really? To be fair I just noticed it now.

Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa

Đối với giải pháp mở rộng ngôn ngữ, bổ sung và cải tiến dữ liệu cho các kho ngữ liệu, luận án đã xây dựng được một môi trường làm việc cộng tác cho phép gọi các hệ thống dịch tự động để mở rộng ngôn ngữ cho kho ngữ liệu, thu thập dữ liệu song song từ các website đa ngữ cũng như cho phép cải tiến dữ liệu thông qua chức năng hậu xử lý.

118

Hình 3.3. Mơi trường cho phép mở rộng kho ngữ liệu

Mô đun hậu xử lý cho phép người sử dụng tương tác để hoàn thiện bản dịch đã có, từ đó cung cấp các cặp câu song ngữ mới làm giàu thêm kho ngữ liệu. Quá trình hậu xử lý này được kết hợp để đo các chỉ số cần thiết phục vụ cho đánh giá chất lượng của hệ thống dịch như đã mô tả ở Chương 2.

Xây dựng kho ngữ liệu ontology

Bước 1: Định nghĩa các lớp dựa vào ngữ cảnh hay lĩnh vực của kho nhằm

xây dựng ontology.

+ Xác định domain

Luận án xây dựng ontology dùng cho dịch tự động phục vụ ngành du lịch. Đã có một số ontology cho ngành du lịch đã được xây dựng. Tuy nhiên, ontology phục vụ dịch tự động của ngành du lịch thì chưa được nghiên cứu.

+ Liệt kê, định nghĩa các khái niệm

Để chọn địa điểm đi du lịch ở quốc gia khác, du khách sẽ có nhiều tiêu chí, điều kiện để lựa chọn và đưa ra quyết định. Mỗi du khách sẽ có các tiêu chí lựa chọn cho riêng mình. Chẳng hạn du khách du lịch mạo hiểm sẽ có lựa chọn khác với du khách du lịch nghỉ dưỡng, người trẻ tuổi thường có các tiêu chí lựa chọn khác với người già. Có rất nhiều khái niệm, vấn đề được các du khách quan tâm, gồm: An ninh, Lưu trú, Ẩm thực,Vui chơi, Mua sắm, Danh lam thắng cảnh, Lịch sử, Văn hóa, Lễ hội, Sự kiện, Giao thơng, Thời tiết, Giải trí, Địa điểm… và các chủ đề khác.

Mỗi một vấn đề, khái niệm chính trên được chia ra nhiều vấn đề khác nhỏ hơn. Chẳng hạn:

- “Danh lam thắng cảnh” bao gồm nhiều loại như Bãi biển, Sông, Núi, Vịnh, Hang động….

- “Giao thơng” có nhiều vấn đề được du khách quan tâm là Tuyến đường, Thời gian biểu, Lịch trình,… của các phương thức vận tải khác nhau như Xe bt, Taxi, Hàng khơng,…

- “Lưu trú” có nhiều loại là Khách sạn, Chung cư, Nhà trọ,….

+ Xác định các lớp, phân cấp lớp

Từ phân tích, tìm kiếm các vấn đề, khái niệm, chúng ta có được các lớp. Các lớp được xây dựng theo cấu trúc phân cấp cha-con như là một sự phân loại các đối tượng. Có tổng cộng 179 lớp, trong đó có 14 lớp chính và 165 lớp con. Hình dưới đây là minh họa của một số lớp và cấu trúc phân cấp của chúng.

(a) (b)

Hình 3.4. Phân cấp các lớp và thuộc tính các lớp Bước 2: Xây dựng thuộc tính cho các lớp đã định nghĩa ở bước 1.

120

Các đối tượng được mô tả thông qua việc khai báo các thuộc tính, mỗi thuộc tính đều có tên và giá trị. Các thuộc tính của mỗi lớp cần được xác định để mơ tả thông tin của đối tượng thuộc lớp mà du khách quan tâm. Chẳng hạn, với lớp Chua (Chùa), thông tin mà du khách quan tâm là tên gọi, lịch sử của ngơi chùa đó, người xây dựng, kiểu kiến trúc, địa chỉ. Chúng tôi tiến hành xây dựng thuộc tính cho 179 lớp đã được xác định ở trên.

Bước 3: Nhận diện từ (concept) cụ thể trong kho ngữ liệu là thể hiện của các

lớp đã định nghĩa. Việc nhận biết từ thuộc lớp dựa vào ngữ cảnh.

Trong nghiên cứu ở Chương 2, luận án đã đưa ra giải pháp kết hợp Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản để trích rút và phân loại các thực thể danh từ riêng. Sau khi có danh sách các lớp, tiến hành nhận biết mỗi thực thể tên thuộc lớp nào dựa vào ngữ cảnh.

Hình 3.5. Minh họa phân lớp dữ liệu

Bước 4: Xây dựng giá trị cho các thuộc tính của các thể hiện của thực thể đã

nhận diện được. Chẳng hạn giá trị thuộc tính cho Hồ Chí Minh là tên khác, diện tích, dân số, khí hậu…

World Wide Web là một kho thông tin khổng lồ, cập nhật liên tục. Vì vậy, NCS sử dụng thơng tin từ các trang web để xây dựng và cập nhật các thuộc tính của các thực thể. Sử dụng các máy tìm kiếm dựa trên các từ khóa là các thuộc tính của các thực thể để có được danh sách các trang web có chứa từ khóa và danh sách này được liệt kê theo thứ tự về độ quan trọng.

Thông tin ở trang web được lưu trữ và trình bày dưới nhiều hình thức khác nhau. Đối với văn bản web phi cấu trúc, nghiên cứu quan tâm đến việc trích chọn đối tượng, trong đó các đối tượng được trích chọn bao gồm các thuộc tính, đặc điểm,… Việc trích chọn quan hệ giữa các thực thể đã được xác định cũng được sử dụng. Bên cạnh đó, thơng tin từ văn bản web bán cấu trúc cũng rất quan trọng cho việc xây dựng

thuộc tính cho các thực thể, chẳng hạn như họ tên, quê quán, tiểu sử,… của một nhân vật. Việc trích chọn thơng tin từ văn bản web có ba cách tiếp cận chính, bao gồm hướng tiếp cận thủ cơng sử dụng hệ luật, tiếp cận sử dụng các phương pháp học máy (Hidden Markov Models, Maximum Entropy Markov Models, Conditional Random Fields - CRFs) và tiếp cận lai bằng cách kết hợp ưu điểm của hai phương pháp trên. Nghiên cứu này sử dụng cách tiếp cận lai để xác định trích chọn dữ liệu nhằm gán giá trị thuộc tính cho các thực thể.

Hình 3.6. Mơ tả ngữ nghĩa của kho ngữ liệu

Dữ liệu tổng hợp được sẽ lưu trữ theo định dạng RDF, là một phương thức chung cho các mơ tả khái niệm hoặc mơ hình hóa của thơng tin được diễn dịch trong các tài nguyên web, sử dụng trong các định dạng cú pháp khác nhau. Một trích đoạn tập tin RDF biểu diễn như sau:

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax- ns#" xmlns:dc="http://purl.org/dc/elements/1.1/">

<rdf:Description rdf:about="Văn Miếu - Quốc Tử Giám"> <dc:Type>Đền thờ</dc:Type> <dc:Location>Hà Nội</dc:Location> <dc:Built>1070</dc:Built> <dc:Area>54,000 m2</dc:Area> </rdf:Description> </rdf:RDF>

122

Một phần của tài liệu Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 113 - 124)

Tải bản đầy đủ (DOCX)

(150 trang)
w