Làm việc với ngôn ngữ chữ viết phức tạp

Một phần của tài liệu guide_vietnamese (Trang 40 - 44)

Nhận dạng tài liệu

Làm việc với ngôn ngữ chữ viết phức tạp

Tiếng Yiddish, Tiếng Thái, Tiếng Trung, Tiếng Nhật và Tiếng Hàn. Cần phải tính đến một số điều cân nhắc thêm khi làm việc với các tài liệu bằng Tiếng Trung, Tiếng Nhật hoặc Tiếng Hàn và các tài liệu sử dụng kết hợp CJK và ngôn ngữ châu Âu.

 Cài đặt hỗ trợ ngôn ngữ

 Phông chữ khuyến nghị

 Tắt xử lý hình ảnh tự động

 Nhận dạng tài liệu được viết bằng nhiều ngôn ngữ

 Ký tự phi châu Âu không hiển thị trong cửa sổ văn bản

 Thay đổi hướng của văn bản được nhận dạng Cài đặt hỗ trợ ngôn ngữ

Để có thể nhận dạng văn bản viết bằng Tiếng Ả Rập, Tiếng Do Thái, Tiếng Yiddish, Tiếng Thái, Tiếng Trung, Tiếng Nhật và Tiếng Hàn, bạn có thể cần cài đặt những ngôn ngữ này. Microsoft Windows 8, Windows 7 và Windows Vista hỗ trợ những ngôn ngữ này theo mặc định.

Để cài đặt ngôn ngữ mới trong Microsoft Windows XP: 1. Nhấp vào Bắt đầu trên thanh tác vụ.

2. Nhấp vào Bảng điều khiển > Tùy chọn khu vực và ngôn ngữ. 3. Nhấp vào tab Ngôn ngữ và chọn các tùy chọn sau:

Cài đặt các đặt tệp cho ngôn ngữ chữ viết phức tạp và ngôn ngữ từ phải sang trái (bao gồm Tiếng Thái)

để bật hỗ trợ cho Tiếng Ả Rập, Tiếng Do Thái, Tiếng Yiddish và Tiếng Thái

Cài đặt tệp cho ngôn ngữ Đông Á

để bật hỗ trợ cho Tiếng Nhật, Tiếng Trung và Tiếng Hàn 4. Nhấp vào OK.

41 Phông chữ khuyến nghị

Nhận dạng văn bản bằng tiếng Tiếng Ả Rập, Tiếng Do Thái, Tiếng Yiddish, Tiếng Thái, Tiếng Trung, Tiếng Nhật và Tiếng Hàn có thể cần cài đặt các phông chữ bổ sung trong Windows. Bảng dưới đây liệt kê các phông chữ khuyến nghị cho văn bản bằng những ngôn ngữ này.

Ngôn ngữ OCR Phông chữ khuyến nghị

Tiếng Ả Rập Arial™ Unicode™ MS*

Tiếng Do Thái Arial™ Unicode™ MS*

Tiếng Yiddish Arial™ Unicode™ MS*

Tiếng Thái Arial™ Unicode™ MS*

Aharoni David Levenim mt Miriam Narkisim Rod

Tiếng Trung (Giản thể), Tiếng Trung (Phồn thể), Tiếng Nhật, Tiếng Hàn, Tiếng Hàn (Hangul) Arial™ Unicode™ MS* Phông chữ SimSun

như: SimSun (Người sáng lập mở rộng), SimSun–18030, NSimSun. Simhei YouYuan PMingLiU MingLiU Ming(ISO10646) STSong

* Phông chữ này được cài đặt cùng với Microsoft Windows XP và Microsoft Office 2000 hoặc mới hơn.

42 Các phần dưới đây có lời khuyên về cách cải thiện độ chính xác nhận dạng.

Tắt xử lý tự động

Theo mặc định, bất kỳ trang nào bạn thêm vào Tài liệu ABBYY FineReader đều được nhận dạng tự động.

Tuy nhiên, nếu tài liệu của bạn chứa văn bản ở ngôn ngữ CJK kết hợp với một ngôn ngữ châu Âu, chúng tôi đề xuất bạn tắt phát hiện hướng trang tự động và chỉ sử dụng tùy chọn tách trang kép nếu tất cả các hình ảnh trang đều đúng hướng (ví dụ: chúng không được quét từ dưới lên).

Có thể bật và tắt tùy chọn Phát hiện hướng trang và Tách các trang đối diện trên tab Quét/Mở của hộp thoại Tùy chọn.

Lưu ý: Để tách các trang đối diện bằng Tiếng Ả Rập, Tiếng Do Thái hoặc Tiếng Yiddish, đảm bảo trước hết chọn ngôn ngữ nhận dạng tương ứng và sau đó mới chọn tùy chọn

Tách các trang đối diện. Việc này sẽ đảm bảo rằng các trang được sắp xếp đúng thứ tự. Bạn cũng có thể khôi phục cách đánh số trang gốc bằng cách chọn tùy chọn Đổi trang sách. Để biết chi tiết, xem "Tài liệu FineReader là gì?"

Nếu tài liệu của bạn có cấu trúc phức tạp, chúng tôi khuyến nghị tắt phân tích và OCR tự động đối với hình ảnh và thực hiện thủ công các thao tác này.

Để tắt phân tích và OCR tự động:

1. Mở hộp thoại Tùy chọn (Công cụ > Tùy chọn…).

2. Bỏ chọn tùy chọn Tự động xử lý các trang khi chúng được thêm vào trên tab

Quét/Mở. 3. Nhấp vào OK.

Nhận dạng tài liệu được viết bằng nhiều ngôn ngữ

Trong hướng dẫn bên dưới, một tài liệu chứa cả văn bản Tiếng Anh và Tiếng Trung được lấy làm ví dụ.

1. Trên thanh công cụ chính, chọn Ngôn ngữ khác… từ danh sách thả xuống Ngôn ngữ của tài liệu. Chọn Chỉ định ngôn ngữ thủ công từ hộp thoại Trình biên tập ngôn ngữ và chọn Tiếng Trung và Tiếng Anh từ danh sách ngôn ngữ.

2. Quét hoặc mở hình ảnh.

3. Nếu chương trình không phát hiện được tất cả các vùng trên hình ảnh:

 Chỉ định vùng thủ công bằng công cụ chỉnh sửa vùng.

 Chỉ định vùng chỉ chứa một ngôn ngữ. Để làm như vậy, chọn vùng và chỉ định ngôn ngữ trong ngăn Thuộc tính vùng.

Quan trọng! Chỉ có thể chỉ định ngôn ngữ cho các vùng cùng loại. Nếu bạn đã chọn các vùng thuộc nhiều loại khác nhau, như Văn bảnBảng, bạn sẽ không thể chỉ định ngôn ngữ.

 Nếu cần, chọn hướng văn bản từ danh sách thả xuống Định hướng (để biết chi tiết, xem Nếu văn bản dọc hoặc đảo ngược không được nhận dạng).

43

 Đối với văn bản bằng các ngôn ngữ CJK, chương trình cung cấp lựa chọn hướng văn bản trong danh sách thả xuống Hướng của văn bản CJK (để biết chi tiết, xem Nếu văn bản dọc hoặc đảo ngược không được nhận dạng đúng).

4. Nhấp vào nút Đọc trên thanh công cụ chính.

Ký tự phi châu Âu không hiển thị trong cửa sổ Văn bản

Nếu văn bản trong ngôn ngữ CJK được hiển thị không đúng trong cửa sổ Văn bản, bạn có thể đã chọn chế độ Văn bản thuần túy.

Để thay đổi phông chữ được sử dụng trong chế độ Văn bản thuần túy: 1. Mở hộp thoại Tùy chọn (Công cụ > Tùy chọn…).

2. Nhấp vào tab Xem.

3. Chọn Arial Unicode MS từ danh sách thả xuống Phông chữ được sử dụng để hiển thị văn bản thuần túy.

4. Nhấp vào OK.

Nếu việc này không hiệu quả và văn bản trong cửa sổ Văn bản vẫn được hiển thị không đúng, xem "Nếu một số ký tự được thay thế bằng"?" hoặc "□" trong cửa sổ Văn bản". Thay đổi hướng của văn bản được nhận dạng

ABBYY FineReader tự động phát hiện hướng văn bản, nhưng bạn cũng có thể chỉ định hướng văn bản thủ công.

1. Chọn một hoặc nhiều đoạn trong cửa sổ Văn bản.

2. Nhấp vào nút trên thanh công cụ của cửa sổ Văn bản.

Lưu ý: Bạn có thể sử dụng danh sách thả xuống Hướng của văn bản CJK trong cửa sổ

Hình ảnh để chỉ định hướng của văn bản trước khi nhận dạng. Xem Nếu văn bản dọc hoặc đảo ngược không được nhận dạng đúng để biết chi tiết.

44

Gợi ý để cải thiện chất lượng OCR

Một phần của tài liệu guide_vietnamese (Trang 40 - 44)

Tải bản đầy đủ (PDF)

(125 trang)