Mơ hình hệ thống dịch ngữ nghĩa

Một phần của tài liệu Luận án tiến sĩ nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 107 - 109)

Các thành phần chính của mơ hình này là:

(1) Văn bản cần dịch: Là văn bản nguồn trước khi đưa vào hệ thống dịch. (2) Mơ hình dịch mạng nơ ron: là mơ hình dịch được xây dựng bằng phương pháp trí tuệ nhân tạo sử dụng mạng rơ ron.

(3) Kết quả dịch: là văn bản chứa các khái niệm cần làm rõ hơn về mặt ngữ nghĩa theo ngữ cảnh của văn bản đang có.

(4) Phân tách khái niệm: Là mơ đun thực hiện tìm kiếm và nhận dạng các khái niệm tương ứng với các thực thể như tên riêng, địa danh.

(5) Kho ngữ liệu Ontology: Là xây dựng tầng ngữ nghĩa cho kho ngữ liệu thuộc lĩnh vực du lịch nhằm hướng đến phát triển hệ thống dịch tựđộng trực tuyến hỗ trợ khách du lịch.

(6) Các nguồn tài nguyên: Các nguồn tài nguyên được sử dụng để tìm kiếm và trích rút thơng tin của các khái niệm, nghĩa là các thuộc tính của các thực thể.

(7) Diễn giải: Hiển thị thông tin mô tả ngữ nghĩa các khái niệm đã được (4) nhận dạng, lấy từ kho ngữ liệu Ontology (5).

(8) Bộ nhớ dịch: Cơ sở dữ liệu lưu thông tin của các bản dịch trước đó có chất lượng tốt đểđối chiếu với văn bản cần dịch trước khi đưa vào mơ hình dịch.

Như vậy, sau khi thực hiện dịch văn bản nguồn bằng mơ hình học máy sử dụng mạng nơ ron, hệ thống sẽ sử dụng mô đun phân tách khái niệm để nhận dạng các khái niệm là tên riêng, sau đó truy vấn thơng tin mơ tả chi tiết của khái niệm này từ kho

(5) Kho ngữ liệu ontology (1) Văn bản cần dịch (2) Mơ hình dịch mạng nơ ron (4) Phân tách khái niệm (3) Kết quả dịch (7) Diễn giải (7) Diễn giải (6) Nguồn tài nguyên Trích rút Làm giàu Tra cứu Hiển thị cho người dùng (8) Bộ nhớ dịch

ngữ liệu ontology để hiển thị ngữ nghĩa giúp người dùng có đầy đủ thơng tin và hiểu đúng hơn về ngữ nghĩa dựa vào ngữ cảnh của nội dung được dịch. Để kết nối các chức năng của hệ thống dịch, chúng ta cần giải quyết các bài toán đặt ra sau đây.

1. Xây dựng hệ thống dịch bằng mơ hình học máy sử dụng mạng nơ ron: thực hiện theo đề xuất ở mục 2.4.2.

2. Tìm và phân tách các khái niệm từ văn bản đã được dịch: thực hiện theo giải pháp đã được đề xuất ở mục 2.3.3.

3. Liên kết các khái niệm kho ngữ liệu đã được làm giàu

Sau khi xác định được các khái niệm trong văn bản được dịch, chúng ta sẽ thực hiện việc đối sánh với các thực thể đã được mô tả trong kho ngữ liệu đã được làm giàu. Kho ngữ liệu này là một ontology đã được mô tả chi tiết thông tin của các thực thể, xây dựng và phục vụ riêng cho bài toán dịch tựđộng tiếng Việt trong lĩnh vực du lịch. Ở bài toán này, chỉ cần sử dụng các thuật tốn tìm kiếm để truy vấn các khái niệm từ kho ngữ liệu.

4. Xây dựng kho ngữ liệu làm giàu ngữ nghĩa

Để có thể làm giàu ngữ nghĩa cho kết quả dịch, các thực thể xuất hiện trong văn bản cần được giải nghĩa và cung cấp thông tin đầy đủ theo ngữ cảnh đang có. Vấn đề quan trọng để giải quyết bài tốn này là cần có kho ngữ liệu với đầy đủ ngữ nghĩa để có thể truy vấn. Luận án đề xuất giải pháp mở rộng ngữ nghĩa cho các thực thể tên cho kho ngữ liệu dịch tự động dùng cho ngành du lịch bằng cách xây dựng kho ngữ liệu theo hướng làm giàu ngữ nghĩa. Quá trình thực nghiệm được mơ tả ở Chương 3.

5. Xây dựng giao diện trực quan để thể hiện ngữ nghĩa

Ởbước này, thay vì kết quả dịch được biểu diễn bằng văn bản tương ứng 1-1 theo truyền thống, thì kết quả dịch cần được thể hiện trực quan hơn bằng cách thể hiện thêm các tầng ngữ nghĩa của các thực thể có trong câu được dịch. Áp dụng kết quả nhận dạng ở bước 2, liên kết đến kho ngữ liệu đã được làm giàu ở bước 3 để lấy kết quả và hiển thị trên giao diện người dùng. Có nhiều cách để biểu diễn kết quả như thông qua các biểu đồ trực quan, thông qua biểu diễn dưới dạng tra cứu từ điển, thông qua các lớp giao diện phối hợp với tương tác của người dùng…

Một phần của tài liệu Luận án tiến sĩ nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 107 - 109)

Tải bản đầy đủ (PDF)

(140 trang)