Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
766,59 KB
Nội dung
Restaurant Menu Expert Q Trình Xử lí Pipeline Ảnh Kĩ Thuật Số Để Làm Tăng Độ Chính Xác Của Thuật Toán OCR GVHD: TS CHẾ VIẾT NHẬT ANH SVTH: Nguyễn Văn Đông – 41200800 Nguyễn Viết Sĩ -41203133 Lầu Lƣu Đƣờng – 41200814 Nguyễn Phúc Nhật Huy – 41201373 Nguyễn Hữu Đông – 41200797 I GIỚI THIỆU: Một thách thức lớn du lịch rào cản ngơn ngữ Nó vấn đề lớn ta đặt ăn nhà hàng Bởi độc đáo tên ăn, họ thƣờng có ý nghĩ riêng biệt tên ăn Nó thƣờng khó tƣởng tƣợng Bởi đọc văn thực đơn Mặc dù nhiều ngƣời hiểu cách tên ăn Nhƣng ăn khác so với họ nghĩ khác biệt văn hóa Trong trƣờng hợp trình bày tên ăn hình ảnh thay tên ăn giúp ích cho ngƣời để đƣa định hợp lí cho họ mong muốn đặt ăn nhà hàng Lấy cảm hứng ý tƣởng giúp ngƣời vƣợt qua rào cản Trong dự án giải vấn đề việc cung cấp hệ thống tự động hiển thị hình ảnh đƣợc truy vấn tên Với ứng dụng ngƣời ta đơn giản đặt thực đơn trƣớc camera để máy ảnh chụp hình ảnh thực đơn chƣơng trình xử lí nhận dạng kí tự thực đơn xuất trình hình ảnh ăn mặt bên tên ăn để giúp ngƣời sử dụng hiểu ăn mà họ quan tâm II CƠNG VIỆC LIÊN QUAN: Có nhiều vấn đề liên quan đến chủ đề này, điều cho nhìn sâu sắc tuyệt vời cảm hứng định hình ý tƣởng chúng tơi A Heng mơ tả ứng dụng iPhone mà đƣợc thiết kế để nhanh chóng dễ dàng tách hóa đơn nhà hàng nhóm ngƣời tạp chí ông ứng dụng sử dụng thiết bị Tesseract OCR để đọc ký tự từ hóa đơn, sau thực xử lý văn để xác định mục biên lai Ứng dụng hiệu việc giảm thời gian tính ngƣời phải trả nhóm Dựa vào việc quan sát nhận thấy hóa đơn giấy khơng thể thay không dễ dàng để biến đổi thành định dạng điện tử tồn nhiều hệ thơng thánh tốn điện tử tiên tiến C N Nshuti thảo luận tờ tạp chí ông cách để nhận cách số hóa tờ hóa đơn phát triển đƣờng ống để biểu diễn OCR từ ảnh tập tài liệu đƣợc chụp từ điện thoại Vì vậy, có nhiều ứng dụng hƣớng đến việc nhận diện ký tự nƣớc Dựa vấn đề mà tồn nhiều OCR gần nhƣ không làm việc tốt số ngôn ngữ nhƣ Trung Quốc Nhật Bản Zhang nghiên cứu thuật toán để nhận chức SIFT phƣơng pháp RSNSSAC mạnh hiệu để nhận diện Trung Quốc, sau ứng dụng vào thực đon nhà hàng Trung Quốc sáng tạo ứng dụng di động dịch hình ảnh mục thực đơn nhà hàng ngƣời Trung Quốc trở thành hình ảnh ăn thực tế Kết thí nghiệm họ đƣợc hƣởng ứng: phƣơng pháp thực thi nhanh chóng kí tự Trung Quốc tìm đƣợc ăn khớp với hình ảnh vòng đến giây với độ tin cậy lên tới 91% với hình ảnh rõ nét Nghiên cứu tập trung vào việc phát triển phƣơng pháp khác đẻ tăng độ tin cậy cho thuật tốn OCR, sau xây dựng hệ thống dịch thực đơn tiếng anh tốt tức thời cho ngƣời khơng nói tiếng Anh Chúng tơi xây dựng cở sở liệu cho hệ thống định sẵn ăn thƣờng đƣợc thấy giới Hệ thống chống nhiễu tốt, kể xoay có nhiều phơng chữ khác Chúng tơi thực vài công nghệ đƣợc học lớp, bao gồm ngƣỡng giãn nở, ăn mòn, phân khúc kết hợp,… Tiếp cận kỹ thuật đƣờng ống (pipeline) đƣợc mô tả phần Chúng quan tâm đến hiệu ứng công nghệ xử lý khác Nhƣ là, thực việc so sánh kết đƣợc mô tả phần Trong phần 5, thảo luận phân khúc toàn việc thực hệ thống nhận dạng thực đơn nằm khả cho kết khả quan với thông số hệ thông, Trong chƣơng 6, chúng tô so sánh hệ thống với nhũng phần khác phần liên quan thảo luận ƣu nhƣợc điểm hệ thống Trong chƣơng chúng tơi đúc kết đƣợc kinh nghiệm có giá trị với dự án nhận thấy viễn cảnh đến công việc tƣơng lại III PHƢƠNG PHÁP TIẾP CẬN VỀ MẶT KỸ THUẬT: Ứng dụng đƣờng ống có thủ tục chính: nhận vào hình ảnh menu, thực tiền xử lý hình ảnh nhận vào trình bao gồm hai phần: với xoay phân khúc chuỗi, thực nhận dạng ký tự quang học (OCR) nội dung menu, khớp chuỗi với sở liệu, cuối hiển thị kết A Hình ảnh ngõ vào Giai đoạn nhận liệu vào đơn giản: ngƣời dùng chụp ảnh menu máy ảnh, sau đƣa giao diện để ngƣời dùng tùy chỉnh vùng hình ảnh mà ngƣời dùng quan tâm (ROI) để tìm hình ảnh ăn menu Những ảnh đƣợc chụp tự nhiên có đa dạng lớn, dẫn đến khó khăn việc nhận dạng ký tự Ví dụ, ký tự hình ảnh khác có kích thƣớc, màu sắc, phơng chữ góc chụp khác Có nhiều hiệu ứng xảy nhƣ hiệu ứng mờ ảnh đƣợc chụp khoảng lấy nét máy ảnh Đây vấn đề thách thức chúng ta, nhƣng giả sử ngƣời chụp ảnh kiểm sốt đƣợc chất lƣợng hình ảnh chụp, khơng cần tập trung vào nhƣợc điểm nói B Khơng có tính xoay: Sau ngƣời dùng xác định đƣợc vùng ROI, tự động tìm góc quay dựa cấu trúc vốn có menu, hầu hết văn đƣợc xếp theo chiều ngang Để làm đƣợc nhƣ vậy, áp dụng ngƣỡng Otsu toàn cho giãn nở hình trịn nhỏ đƣờng kính pixel Các chữ sau giãn tạo thành thành phần kết nối đối tƣợng nhƣ dễ dàng xác định đƣợc thành phần đƣợc kết nối tìm khu vực hình chữ nhật nhỏ chứa thành phần đƣợc kết nối Với vùng bao chứa thành phần kết nối với này, tính tỷ lệ chiều rộng chiều cao vùng bao 100 -900 đến 900, với tinh chỉnh 10 để xác định góc quay Từ thiết lập phép quay, tự động tìm tỷ lệ lớn nhất, điều vùng bao lớn góc quay Chúng ta giới hạn góc quay từ -900 đến 900, theo nhƣ giả sử ngƣời dùng sử dụng đƣờng ống phát menu khoảng C Phân khúc tên ăn Để tạo điều kiện cải thiện độ xác từ thiết bị việc nhận diện từ theo sau, chúng tơi tái tổ chức lại hình ảnh phạm vi nhận diện cho tên ăn ROI phân khúc tên ăn thông qua thiết bị OCR Đáp ứng cho mục đích chúng tơi, chúng tơi giữ tồn tên ăn phạm vi đƣờng bao, nhƣ sau đƣờng ống OCP sử dụng thông tin nhƣ Để làm nhƣ vậy, tạo thành phần kết nối ăn đƣợc kéo dãn với cấu trúc đƣờng kẻ ngang ảnh đƣợc mã hóa nhị phân Otsu Với cấu trúc nhƣ vậy, tất đoạn chữ đƣờng kẻ thành thành phần kết nối đơn thành đƣờng bao Để cho phép biến đổi nhỏ đoạn văn nhiễu, chúng tơi xác nhận ngƣỡng đƣờng bao bên ngồi hệ số tỷ lệ khu vực kết hợp gần đƣờng bao với để tạo thành đƣờng bao Ngƣỡng cơng nghệ hợp giống nhƣ bổ sung việc nhận thấy Canny Edge, nơi nén cực đại canh liên kết đƣợc ứng dụng để giảm nhiễu D Nhận diện kí tự quang học Sau chúng tơi nhận phân khúc văn tên ăn vào đƣờng bao, chọn việc thực MATLAB thuật toán Tesseract, nguồn mở thiết bị OCR ban đầu phát triển phịng thí nghiệm HP đƣợc quản lý Google, dự án để thực nhận diện ký tự Nguồn gốc Tesseract OCR nhƣ sau: Đầu tiên, ký tự bên ngồi đƣợc trích đƣợc tập hợp lại thông qua Blobs việc thực kết nối phân tích thành phần Sau đƣờng văn bản, đƣờng đƣợc thực Bobs, tách thành từ riêng rẽ phụ thuộc vào khoảng cách ký tự Giai đoạn sau nhận biết thông qua nhận diện ký tự, việc đƣợc thực thông qua giai đoạn Trong từ nhân biết theo hƣớng Một lần từ đƣợc nhận biết, điều đƣợc chứa vào loại tƣơng thích đƣợc sử dụng nhƣ liệu đào tạo Trong giai đoạn từ không đƣợc nhận diện thành công đƣợc nhận diện lại liệu đào tạo đƣợc lấy từ phần Cuối cùng, chuỗi từ đƣợc xuất E Tên ăn phù hợp với sở liệu Tên ăn phù hợp đƣợc trả sau OCR trả kết dạng chuỗi giai đoạn này, mong đợi số lỗi tả đến từ kết OCR, phải sửa chữa chúng để tìm đƣợc tên phù hợp với sở liệu hình ảnh Ở đây, chúng tơi sử dụng thuật tốn tìm kiếm chỉnh sữa khoảng cách tối thiểu Với số lƣợng kí tự không phù hợp chấp nhận đƣợc, hệ thống chúng tơi sữa chữa kết từ máy OCR, thứ mà làm tăng tỉ lệ thành công chung tra cứu hình ảnh Nhƣng mức độ phức tạp lại cao việc tim kiếm chỉnh sữa khoảng cách tối thiểu vấn đề mà phải đối phó với Các phân tích liên quan cải thiện đƣợc trình bày phần IV F Hiển thị kết cuối Sau có đƣợc hình ảnh sở liệu, chúng tơi thay đổi kích thƣớc hình ảnh ăn theo vị trí bounding box chiều rộng/chiều cao Và dán chúng vào vị trí quan sát thực đơn ảnh ROI Đối với chuỗi OCR khơng phù hợp với tên ăn nào, khơng có hình ảnh đƣợc dán Điều làm giảm hội hiển thị hình ảnh khơng hợp lí lỗi OCR khơng thể đốn trƣớc đƣợc liệu đầu vào thực đơn IV TỔNG KẾT: Trong phần này, chúng tơi trình bày kết thực nghiệm hệ thống đƣờng dẫn thảo luận điểm mạnh cải tiến để cải thiện hiệu suất A kết toàn đường dẫn Ảnh cho thấy kết bƣớc đƣờg dẫn chúng tôi, bƣớc điều chỉnh yếu tố đầu vào công nghệ OCR sửa lỗi từ kết OCR để hiển thị hình ảnh cuối bên cạnh tên ăn B Nếu khơng có xoay điều chỉnh có xoay điều chỉnh Chúng tơi so sánh kết việc OCR theo phân đoạn với góc quay ban đầu mà khơng có điều chỉnh xoay đƣợc đề xuất Chúng so sánh kết qua hình ảnh đầy đủ đến OCR hình ảnh đƣợc phân tách vào OCR xem kết xác Từ hình , thấy hệ thống nhanh điều chỉnh góc xoay so với khơng điều chỉnh góc xoay Lúc đầu , chúng tơi dự kiến độ xác nên góc xoay nằm khoảng +/- 20 độ với độ giảm ổn định xác độ tăng xác Tuy nhiên , khơng phải trƣờng hợp mà lý sụt giảm độ phân giải hình ảnh chúng tơi tiến hành chỉnh góc xoay Ở góc độ , góc xoay hoạt động ngẫu nhiên nên cơng nghệ OCR khơng xác nhƣ nói C Đi qua hình ảnh đầy đủ hình ảnh phân tách OCR Từ hình ảnh , ta thấy việc qua hình ảnh phân tách tốt so với hình ảnh đầy đủ ngoại trừ với phần cà phê Việc giảm độ xác thực đơn cà phê đƣợc điều chỉnh thiết lập OCR Matlab , đƣợc tìm thấy đầu trang tìm google : “ thuật tốn Tesseract” Khi chƣơng trình chạy thuật tốn Tesseract hình ảnh đƣợc truy vấn lần , lần đầu để chƣơng trình phân loại ghi nhớ hình ảnh lần thứ truy vấn hình ảnh từ sở liệu ban đầu thơng tin hình ảnh từ tất từ đƣợc tìm thấy vịng chạy cách phân chia tên ăn , lợi ích nhƣ sử dụng cấu phân loại khác Tuy nhiên , trƣờng hợp khác , việc bỏ qua chạy chƣơng trình lần đầu phân loại tăng độ xác OCR D Thực OCR sử dụng kĩ thuật khoảng cách tối thiểu Sau sử dụng OCR cho số hộp hình ảnh , kết ghi nhận chứa số lỗi hình ảnh bị mờ , nhiễu , ƣớc tính sai … Để tối đa hóa tỉ lệ thành cơng phù hợp với sở liệu hình ảnh thực OCR sử dụng kĩ thuật khoảng cách tối thiểu Để sửa lỗi , chúng tơi tìm ăn phù hợp để đặt tên xếp dự khoảng cách Levenshtein cho tên ăn xác định OCR thực phép tốn với thơng số chỉnh sửa tối đa khoảng cách, hay gọi khoảng cách cắt Nhƣ thể hình , tỷ lệ thành cơng lần chạy chƣơng trình xác thấp 50% Nhƣng với việc chỉnh sửa khoảng cách tỷ lệ thành công tăng lên 80% cuối bão hòa 90% E Thời gian thực Từ số dƣới đây, thấy tổng thời gian thực hệ thống cách tổng thể Phân đoạn tốn thời gian hệ thống chỉnh OCR Phần cịn lại q trình chiếm 15% tổng thời gian thực Để nâng cao hiệu suất thời gian cho thời gian thực mục đích , chúng tơi đƣa số phƣơng pháp nâng cao để tiết kiệm thời gian thực việc chỉnh OCR Phƣơng pháp để sửa đổi thay đổi khoảng cách nhỏ chức năng, tạo đệ quy để so sánh nkí tự, lặp qua so sánh kí tự gặp trƣờng hợp khơng phù hợp, sau chia thành tiến trình đệ quy (xóa,chèn, thay thế) Điều làm giảm phức tạp đáng kể nhƣ tiết kiệm đƣợc phóng đại độ dài danh sách tên ăn sở liệu, số lƣợng chuỗi cơng nhận từ OCR, chí độ dài trung bình tên ăn Khái niệm cải tiến thứ đến từ hệ thống lƣợt xem Một tìm thấy tên danh sách tên ăn hồn tồn phù hợp với chuỗi phù hợp từ OCR, sau dừng lại qua phần cịn lại danh sách tên ăn Nhìn chung, chiến lƣợc hƣởng lợi nhiều trƣờng hợp đặc biệt, nhƣng giúp nhiều trƣờng hợp thông thƣờng làm cho tổng thời gian thực ngắn V ĐÁNH GIÁ THÔNG SỐ CỦA HỆ THỐNG: Trong phần này, thảo luận tác động cục tồn cục số thơng số hệ thống lên hệ thống nhận dạng menu Cụ thể, thảo luận tác động việc lựa chọn kích thƣớc khác cấu trúc thành phần trình xoay điều chỉnh phân khúc tên ăn A Thay đổi kích thước xoay điều chỉnh Đối với việc xoay điều chỉnh, ta thực giãn nỡ hình ảnh để kết nối kí tự lại với theo dạng kí tự giữ đƣợc đƣờng viền chung kí tự Trong trình xử lí, muốn tìm kiếm góc xoay lớn nhất, có nghĩa tỉ lệ trênđƣờng bao hộp phần tử kết nối Nhƣ thành phần kết nối văn tiếng anh đƣợc liên kết theo chiều ngang Do đó, ta sử dụng disk có đƣờng kính pixels để thực hiến nhiệm vụ Để kiểm tra độ nhạy kích thƣớc cấu trúc thành phần, cần vƣợt qua đƣợc góc xoay 100 phân tích ảnh hƣởng khác kích thƣớc cấu trúc thành phần Ở hình phía trên, có thêt thấy khơng có giãn nở nào, góc xoay nhận dạng có lẽ khơng đáng kể từ góc xoay thực tế, có nhiều kí tự đƣợc xem nhƣ thành phần đƣợc kết nối; đó, giả sử tỉ lệ lớn xoay hình ảnh quay trở lại hóc quay thực tế khơng có nhiều giá trị Chúng ta nhìn thấy đƣờng kính cấu trúc thiệt bị lớn ( trƣờng hợp 25 pixels) góc xoay nhận diện khơng xác Đó tất từ menu đƣờng biên menu đƣợc nhóm lại thành thành phần kết nối tỉ lệ khơng thêt đại diện cho bounding box xung quanh từ tiếng anh đơn lẻ, giả sử không thành công trƣờng hợp B Thay đổi đường kính cấu trúc cho phân khúc tên Giống nhƣ xoay điều chỉnh, phân khúc tên ăn phụ thuốc nhiều vào kích thƣớc cấu trúc thành phần Trong trƣờng hợp này, chọn thành phần có cấu trúc hàng ngang để nhóm tất từ tên ăn đến thành phần kết nối Chungs tơi thử nghiệm dịng có độ rộng khác thu đƣợc kết nhƣ hình bên dƣới: Ở hình trên, thấy chúng đạt đƣợc 100% độ xác nhận diện xác bounding box xung quanh tên ăn cho thành phần cấu trúc có độ dài nằm 31 51 pixels Lí dẫn đến độ xác thấp thành phần có chiều dài thấp vƣợt phân khúc tƣơng ứng, kí tự đặc biệt từ ăn không giống nhƣ bounding box Mặt khác, hàng cấu trúc thành phần dài, sau đối tƣợng giãn làm che đƣờng biên, làm cho đƣờng biên văn giản đƣợc kết nối với thành phần khác, kết bouding box khơng cịn xác VI SO SÁNH VỚI PHƢƠNG PHÁP THAY THẾ: Nó đƣợc nhìn thấy từ kết thí nghiệm mà project pipelined chúng tơi lợi so với cách triển khai khác Quan trọng cho thấy tính khả thi mình, với khả chống lại nhiễu, xoay, fonts chữ khác hay nhiều tác động khác Bằng cách áp dụng Tesseract OCR thực vài kĩ thuật xử lí trƣớc sau trình xử lí, bao gồm hành động xoay bình thƣờng, phân khúc văn chỉnh sửa tối thiểu khoảng cách văn cách xác OCR cách nhận diện cách xác kí tự nhanh phƣơng pháp nhƣ SIFT kí tự có nhiều đặc tính Chúng tơi phát triển đặc tính xoay thơng thƣờng phân khúc văn sử dụng chúng trƣớc nhận dạng kí tự project Project chúng tơi chứng minh đƣợc cải thiện tính nhận diện toàn cục cách hiệu Hơn nữa, cách nhận diện truyền thống thiếu linh hoạt việc kết hợp cac kí tự riêng lẻ Chúng thực việc cách sử dụng thuật toán để chỉnh sửa khoảng cách tối thiểu để thực điều chỉnh Sauk hi thiết lập dung sai tối đa chỉnh sửa với khoảng cách 9, tỷ lệ đạt đƣợc 90% ROI khơng cho phép ngƣời dùng lựa chọn ăn mà họ quan tâm, sau ngƣời dùng nhận đƣợc dịch tƣơng ứng với nội dung mà họ mong muốn thay dịch tồn menu, mà theo làm tăng trải nghiệm ngƣời dùng, nhƣng làm giảm khơng gian tìm kiếm nhiễu, dẫn đến kết tốt Tuy nhiên, có số khía cạnh cần phải đƣợc cải thiện Một thách thức lớn làm để giảm bớt thời gian chạy Chúng ta biết từ kết cho thấy phần lớn thời gian tiêu thụ phần OCR xác Chúng ta cần phải nhanh việc kết hợp tên ăn với hình ảnh tƣơng ứng sở liệu để đáp ứng thời gian thực yêu cầu thực Điều đặc biệt hệ thống phát triển có sở liệu khổng lồ Một vấn đề khác làm để tăng độ xác Kết việc xoay điều chỉnh tên phân đoạn có liên quan đến yếu tố kích thƣớc thành phần cấu trúc đƣợc sử dụng trình giãn nở đến mức độ Cả hai yếu tố cấu trúc nhỏ lớn dẫn đến việc nhận dạng nhầm lẫn Tuy nhiên, chúng tơi khơng có ý tƣởng cách rõ ràng kết tốt trƣờng hợp liên quan đến kích thƣớc trƣờng kí tự Trong phần tiếp theo, thảo luận khả cải tiến mà đƣợc thực nghiên cứu để giảm yếu nâng cao hiệu suất tổng thể hệ thống VII THẢO LUẬN VÀ CÔNG VIỆC TƢƠNG LAI: Trong dự án này, thành công việc phát triển hệ thống tự động menu dịch tự động để giúp đỡ ngƣời khơng nói tiếng Anh vƣợt qua khó khăn bữa ăn đặt hàng nhà hàng nƣớc Điều quan trọng việc tìm hiẻu phƣơng pháp khác để làm tăng độ xác cơng nghệ OCR cuối tăng tỉ lệ nhận dạng Hệ thống mạnh mẽ, nhanh chóng, xác linh hoạt cung cấp tốt kinh nghiệm tƣơng tác với ngƣời dùng Với khả mở rộng, hệ thống đƣợc tiếp tục mở rộng đêtr tìm nhiều ứng dụng tình đa ngơn ngữ sở liệu lớn thơng tin ăn đƣợc tìm kiếm trực tuyến Mọi ngƣời tiếp tục mở rộng ứng dụng để trình chiếu thông tin thiết bị VR Hệ thống đƣa vài ý tƣởng bao gồm việc xoay chuyển phân đoạn ROI cho tên ăn cho động OCR Nhƣ nêu phần trƣớc kết hai kĩ thuật phụ thuộc nhiều vào yếu tố cấu trúc kích thƣớc đƣợc sử dụng q trình Do chúng tơi nghĩ nên khắc phục vấn đề tạo tháp kết dựa kích thƣớc khác cấu trúc Với tháp chọn đƣợc quy mô sản lƣợng tối đa với độ xác cao cho tên ăn Điều chăn làm cho hệ thống chúng tơi mạnh mẽ mà cịn bổ sung thêm đáng kể chi phí thời gian chạy Một cải tiến khác có nhóm phân loại tên ăn sỏ liệu kết hợp kĩ thuật tìm kiếm liệu nhanh nhanh nhƣ bảng tìm kiếm nhi phân VIII NHÌN NHẬN: Chúng tơi xin cảm ơn Giáo sƣ Gordon Wetzstein , Jean - Baptiste Boin , Matt Yu , trợ lý nhiên Kushagr Gupta cho hƣớng dẫn liên tục chăm sóc suốt quý suốt dự án cuối Tài Liệu Tham Khảo: [1].Y Amit; D Geman, and K Wilder Joint induct ion of shape features and tree classifiers IEEE Trans Pattern Analysis and Mach ine Intelligence , 1997 [2].S Belongie and J Malik Matching with shape contexts In IEEE Workshop on Content-based Ac cess of Image and Video Libraries , 2000 [3].S Belongie, J Malik, J Puzicha Shape context: A new descriptor for shape matching and object re cognition Annual Conference on Neural Informati on Processing Systems , 2000 [4].H Fujisawa, C.-L Liu Directional Pattern Matc hing for Character Recognition Revisited IEEE conference Document Analysis a nd Recognition , 2003