Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm docpro

32 17 0
Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng và sửa lỗi cho phần mềm docpro

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI BÁO CÁO TỔNG KẾT KẾT QUẢ THỰC HIỆN ĐỀ TÀI KH&CN CẤP ĐẠI HỌC QUỐC GIA Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng sửa lỗi cho phần mềm DocPro Mã số đề tài: QG.15.67 Chủ nhiệm đề tài: TS Vũ Duy Linh Hà Nội, 2017 PHẦN I THÔNG TIN CHUNG 1.1 Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng sửa lỗi cho phần mềm DocPro 1.2 Mã số: QG.15.67 1.3 Danh sách chủ trì, thành viên tham gia thực đề tài TT Chức danh, học vị, họ tên Đơn vị cơng tác Vai trị thực đề tài TS Vũ Duy Linh Viện CNTT Chủ trì TS Nguyễn Văn Đồn Viện CNTT Thành viên thực ThS Nguyễn Thị Ngọc Hân Viện CNTT Thành viên thực ThS Phan Huy Anh Viện CNTT Thành viên thực KS Lê Xuân Hiếu Cơng ty FSI Thành viên 1.4 Đơn vị chủ trì: Tên đơn vị chủ trì : Viện CNTT ĐHQG Hà Nội Điện thoại: 04.3.37547547 Fax: E-mail: iti@vnu.edu.vn Website: http:// iti.vnu.edu.vn Địa chỉ: E3, 144 Xuân Thủy, Cầu Giấy, Hà Nội 1.5 Thời gian thực hiện: 1.5.1 Theo hợp đồng: 12 tháng từ 04/12/2015 tới 4/12/2016 1.5.2 Gia hạn (nếu có): đến tháng 6/2017 1.5.3 Thực thực tế: từ tháng năm 2016 đến tháng năm 2017 1.6 Những thay đổi so với thuyết minh ban đầu (nếu có): (Về mục tiêu, nội dung, phương pháp, kết nghiên cứu tổ chức thực hiện; Nguyên nhân; Ý kiến Cơ quan quản lý) 1.7 Tổng kinh phí phê duyệt đề tài: 200 triệu đồng PHẦN II TỔNG QUAN KẾT QUẢ NGHIÊN CỨU Viết theo cấu trúc báo khoa học tổng quan từ 6-15 trang (báo cáo đăng tạp chí khoa học ĐHQGHN sau đề tài nghiệm thu), nội dung gồm phần: Đặt vấn đề Công nghệ OCR (Optical Character Recognition) nghiên cứu phát triển mạnh giới Việt Nam Hiện công nghệ OCR ABBYY [1] sản phẩm có chất lượng số giới với khả nhận dạng gần 200 ngơn ngữ, có tiếng Việt Tại Việt Nam VnDOCR [2] có ưu điểm định cho việc nhận dạng chữ in tiếng Việt Trong nhiều năm qua, nhóm nghiên cứu nội dung số Viện CNTT-ĐHQGHN bao gồm TS Vũ Duy Linh TS Nguyễn Văn Đồn nghiên cứu hồn thiện cơng nghệ số hóa văn hỗ trợ nhận dạng tiếng Việt, cơng nghệ nhóm nghiên cứu tích hợp vào hệ thống số hóa, quản trị tài liệu DocPro với công ty FSI, công ty đứng đầu Việt Nam lĩnh vực số hóa tài liệu giải pháp phần mềm Cùng với phát triển lĩnh vực số hóa vấn đề xung quanh nảy sinh, dung lượng lưu trữ, chất lượng file scan đầu vào Đối với công nghệ OCR tiêu chuẩn đầu vào file ảnh phải mức 300dpi [3][4][5], điều dẫn tới dung lượng lưu trữ tương đối lớn Ngoài file đầu vào cần phải scan rõ ràng, bị nhiễu Chính đề tài vào việc nghiên cứu giải pháp để nhận dạng files có chất lượng scan thấp, kết hợp với việc xử lý ngôn ngữ tự nhiên nhằm nâng cao chất lượng cơng nghệ nhận dạng chữ viết tiếng Việt, trích xuất thơng tin tự động tích hợp vào Hệ thống quản trị tài liệu thông minh DocPro Mục tiêu Nghiên cứu nâng cao chất lượng công nghệ nhận dạng xử lý ngơn ngữ tự nhiên nhằm hồn thiện hệ thống quản trị tài liệu thông minh DocPro - Tích hợp cơng nghệ nhận dạng vào hệ thống DocPro - Tích hợp cơng nghệ xử lý ngơn ngữ tự nhiên, trích xuất thơng tin tự động từ văn - Hoàn thiện sản phẩm DocPro tham dự giải thưởng Sao Khuê Phương pháp nghiên cứu Nghiên cứu thuật toán xử lý, xây dựng thử nghiệm, đánh giá kết quả, tối ưu kết Tổng kết kết nghiên cứu 4.1 Nâng cao chất lượng công nghệ nhận dạng xử lý ngôn ngữ tự nhiên Để nâng cao chấ t lươ ̣ng nhâ ̣n da ̣ng chữ viế t, nhóm nghiên cứu đề xuấ t giải pháp dưới Giải pháp đề xuất: Hình Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt Bước 1: Đầu vào file tài liệu Bước 2: Xác định thuộc tính file độ phân giải, kích cỡ dịng text, độ nét, sáng tối, phông Bước 3: Xử lý file với thuật toán nâng độ phân giải lên 300dpi, xác định dịng text có size nhỏ để tăng độ lớn, xử lý phông nền, xử lý độ nét … Bước 4: Sau xử lý file đầu tiến hành OCR, sửa lỗi tiếng Việt Sơ đồ thuâ ̣t toán sau: Hình Thuật tốn nâng cao chất lượng nhận dạng chữ viết tiếng Việt Mơ hình chuyển đổi file sang 300dpi: Input file Chia file thành page nhỏ dạng ảnh Tiền xử lý ảnh nâng cao chất lượng Chuyển sang dpi Hình Mơ hình chuyển đổi file sang 300dpi Bước 1: Với file input đầu vào ta cần chia nhỏ thành ảnh Bước 2: áp dụng thuật toán tiền xử lý nâng cao chất lượng file ảnh Bước 3: Chuyển sang độ phân giải 300dpi Mô hình chuyển đổi kích thước cỡ chữ: Xác định dịng text có size nhỏ Input file Tăng kích thước cho vùng text OCR Hình Mơ hình chuyển đổi dịng text có kích cỡ nhỏ Bước 1: Xác định dịng text có kích cỡ nhỏ phương pháp chiếu dọc ngang Từ tính tốn tỉ lệ chiều cao rộng text ảnh Bước 2: Với dịng text có kích cỡ nhỏ mức định nghĩa (OCR nhận dạng) tăng kích thước cho vùng đó, đồng thời áp dụng phương pháp nâng cao chất lượng ảnh sau điều chỉnh Bước 3: Nhận dạng vùng text chỉnh sửa kích cỡ Các phương pháp xử lý ảnh: Xử lý ảnh bước cần thiết để nâng cao chất lượng ảnh nhằm hồn thiện số đặc tính ảnh Trong thuật toán nâng cao chất lượng ảnh người ta thường sử dụng kỹ thuật miền điểm, khơng gian tần số Trong đó, tốn tử điểm phép biến đổi điểm ảnh xét, không liên quan đến điểm lân cận khác; tốn tử khơng gian sử dụng điểm lân cận để quy chiếu tới điểm ảnh xét Miền tần số chủ yếu sử dụng để thực số phép biến đổi có tính tốn phức tạp sau kết biến đổi trở lại miền không gian Các phương pháp xử lý ảnh sử dụng thuật toán nâng cao chất lượng nhận dạng chữ viết tiếng Việt bao gồm: a Tăng độ tương phản (Stretching Contrast): Các cấp độ α, β, γ xác định độ tương phản tương đối L số mức xám cực đại Các tham số a b (các cận) chọn xem xét lược đồ xám ảnh b Tách nhiễu phân ngưỡng: Trong a = b = t gọi phân ngưỡng Tách nhiễu trường hợp đặc biệt dãn độ tương phản hệ số góc α = β = Tách nhiễu ứng dụng có hiệu để giảm nhiễu biết tín hiệu vào khoảng [a, b] Phân ngưỡng trường hợp đặc biệt tách nhiễu a = b = const c Cắt theo mức (Intensity Level Slicing): Kỹ thuật dùng phép ánh xạ khác cho trường hợp có khơng - Có nền: - Khơng nền: Biến đổi cho phép phân đoạn số mức xám từ phần tử cịn lại ảnh Nó có tác dụng nhiều đặc tính khác ảnh nằm nhiều miền mức xám khác d Nén dải độ sáng: Kỹ thuật sử dụng cho anh có dải độ sáng rộng, không thuận tiện cho việc quan sát ảnh Trong kỹ thuật dải độ sáng thu nhỏ lại gọi nén dải độ sáng Phép biến đổi sau: v(m, n) = c log10(δ + u(m, n)) với c số tỉ lệ, δ coi nhỏ so với u(m,n) Thường δ chọn khoảng – 10 e Kỹ thuật lọc ngược (Inverse Filter): mơ hình lọc ngược: Trong đó: gT(x) = g-1[g(x)] với g-1(x) = x hT(x,y,k,l) = h-1(x,y,k,l) f Khơi phục ảnh phương pháp bình phương tối thiểu: Mơ hình nhiễu dạng vector ma trận: v = Hu + η hay η = v – Hu Trong đó: u, v, η vector ảnh thật, vector ảnh ghi được, vector nhiễu tương ứng; H ma trận hàm truyền hệ thống Nếu không nhiễu (η = 0), cần chọn u cho Hu xấp xỉ theo v theo nghĩa bình phương tối thiểu Với cách lập luận vậy, xây dựng hàm mục tiêu: y( ) = ||η||2 = ||v - H ||2 Trong đó: ||η||2 = ηTη; ||v - H ||2 = (v - H )T(v - H ) Giả sử ta có: = (HT H)-1 HT v Nếu H ma trận vuông, giả sử tồn H-1, ta có: = H-1(HT)-1 HT v Dễ thấy, (HT)-1 HT ma trận đơn vị I, dễ dàng tính tốn theo cơng thức Xử lý ngôn ngữ tự nhiên: Nhằm nâng cao độ xác kết nhận dạng tiếng Việt, đề tài sử dụng kỹ thuật tự động phát lỗi sửa lỗi tiếng Việt Các kỹ thuật mơ tả [6] Ngồi ra, trích xuất thơng tin văn hành theo thuật tốn sau: Hình Thuật tốn trích xuất thơng tin Văn hành Ảnh đầu vào sau nâng cao chất lượng phân tích thành khối, sau khối nhận dạng OCR Kết nhận dạng phân tích thơng tin vị trí khối, nội dung khối để trích xuất thơng tin cần thiết Nếu kết trích xuất trang chưa có trường thơng tin Nơi nhận tiến hành phân tích nhận dạng trang Kết thử nghiệm: Thử nghiệm với file 100 files với độ phân giải 100dpi, kết nhận dạng thu với độ xác > 85% Ví dụ tài liệu: Hình Ví dụ file 100dpi dùng để nhận dạng Kết nhận dạng TRƯỚC áp dụng “Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt” nêu trên: QUYET ĐỊNH: mề… x Ban hành kèm …… Quyết định Chương trình xây dựng văn quy phạm pháp …ẹxz năm Bộ ngh p mà… Thủ trường … v| giau nhiệm vụ chu … xây dựng văn quy phạm pháp luận [xong Chương lanh có nách nhiệm_ phối hợp với … quan n… vi có liên quan chuẩn bi dv cháu văn trình … quan có nhà… quyền theo thời gian quy đình Diều ] Chánh Văn ph`ng Bọ, cm…n Thanh ua Bộ, Vụ [mừng Cuc trường thuộc Bộ Viện [mịng Viện Nghi cứu Chiến lược, Chính ch Cũng nghiệp Thủ trưởng ta quan đau «› liên quan chịu trách nhiệm \hi hành Quyết đinh này/ Kết nhận dạng SAU áp dụng “Giải pháp nâng cao chất lượng nhận dạng chữ viết tiếng Việt” nêu trên: QUYẾT ĐỊNH: Điều Ban hành kèm theo Quyết định Chương trình xây dựng văn quy phạm pháp luật năm Bộ Công nghiệp Điều Thủ trưởng don vi giao nhiệm vụ chủ trì xây dựng văn quy phạm pháp luật Chương trình có trách nhiệm phối hợp với quan, đơn vị có liên quan chuẩn bị dự thảo văn trình quan có thẩm quyền theo thời gian quy định Điều Chánh Văn phòng Bộ, Chánh Thanh tra Bộ, Vụ trưởng, Cục trưởng thuộc Bộ, Viện trưởng Viện Nghiên cứu Chiến lược, Chính sách Cơng nghiệp, Thủ trưởng quan, đơn vị có liên quan chiu trách nhiệm thi hành Quyết định l Rõ ràng chất lượng nhận dạng tiếng Việt cải thiện với độ xác cao Kết nhận dạng dùng VnDOCR: ., tích hợp thêm tính IONE Cơng nghệ IONE cung cấp hai cơng cụ tích hợp: IONE SDK IONE Cloud + IONE SDK: Có thể cài đặt trực tiếp lên máy ứng dụng, sử dụng thư viện trực tiếp để tích hợp tính nhận dạng, bóc tách thơng tin Hệ thống quản trị tài liệu DocPro tích hợp tính IONE thông qua công cụ + IONE Cloud: cài đặt server IONE, cung cấp API dạng RESTful API qua môi trường Web Điều giúp cho tính IONE tích hợp với nhiều ứng dụng chạy nhiều tảng khác (.NET, Java, PHP ) Hình 11 Mơ hình tích hợp công nghệ IONE Hệ thống quản trị tài liệu thông minh DocPro: DocPro hệ thống thu nhận, lưu trữ, quản lý phân phối tồn thơng tin phi cấu trúc tổ chức tới người dùng, tới ứng dụng khác tới quy trình nghiệp vụ tổ chức Trong đó, thơng tin phi cấu trúc bao gồm dạng như: Văn tài liệu, video, hình ảnh, audio, email, báo cáo kết xuất từ ứng dụng nghiệp vụ… Bên cạnh DocPro cịn linh hoạt tùy chỉnh theo nhu cầu khách hàng q trình quản lý tài liệu bóc tách thơng tin gần tự động 17 Hình 12 Mơ hình tổng thể hệ thống DocPro DocPro tích hợp cơng nghệ nhận dạng bóc tách thơng tin tự động IONE Việc tích hợp giúp cơng việc quản lý, biên soạn lại tài liệu dạng ảnh, tìm kiếm tài liệu trở nên đơn giản thuận tiện mang lại khả độc đáo ưu cạnh tranh thương mại thị trường Hình 13 Mơ hình nhận dạng bóc tách thơng tin tài liệu Các tính cơng nghệ IONE tích hợp DocPro bao gồm: - Nhâ ̣n da ̣ng toàn văn - Tạo file pdf/a (file pdf có thêm lớp text giúp tìm kiếm trực tiếp file) - Bóc tách thơng tin tự động (Văn hành chính, Chứng minh nhân dân, Sổ đỏ, Hợp đồng, Tờ trình) - Nhâ ̣n da ̣ng theo biể u mẫu Nhận dạng toàn văn DocPro: 18 Nhận dạng toàn văn DocPro thực ngầm Văn đưa lên hệ thống đưa vào hàng đợi sau nhận dạng Kết nhận dạng xử lý đánh mục (index) để phục vụ tìm kiếm tồn văn truy xuất nội dung Tạo file pdf/a: File pdf/a file pdf ngồi ảnh có thêm lớp text, giúp cho người dùng tìm kiếm trực tiếp file pdf xem trình đọc PDF Công nghệ IONE nhận dạng bổ xung thêm lớp text vào file pdf Trên hệ thống DocPro, để sử dụng tính này, người dùng vào chế độ xem tài liệu, sau chọn Nhận dạng -> Chuyển đổi sang pdfsearchable: Hình 14 Minh họa tính chuyển đổi file sang file pdf/a Kết cho file pdf/a tìm kiếm trực tiếp file: Hình 15 Kết tính tạo file pdf/a Thơng tin nhận dạng bóc tách theo ba hình thức: a) Nhận dạng bóc tách thơng tin tự động: 19 Tài liệu đưa lên hệ thống, người dùng chọn lựa loại tài liệu (Văn hành chính, Chứng minh nhân dân, Sổ đỏ, Tờ trình, Hợp đồng ) Tài liệu sau nhận dạng OCR chuyển sang dạng text tự động bóc tách trường thông tin cần thiết Đối với loại tài liệu có trường thơng tin tự động bóc tách tương ứng, ví dụ Văn hành có trường như: Cơ quan ban hành; Số ký hiệu; Ngày ban hành; Loại văn hành (Cơng văn, Báo cáo, Quyết đinh ); Mơ tả nội dung; Nơi nhận; Người ký Hình 16 Tải tài liệu chọn loại tài liệu Ví dụ, Chứng minh nhân dân, Trên hệ thống DocPro, người dùng vào chế độ xem tài liệu, sau chọn Nhận dạng -> Nhận dạng CMND: Hình 17 Nhận dạng bóc tách thơng tin tự động Chứng minh thư Kết nhận dạng hiển thị bên trái file tài liệu: 20 Hình 18 Kết nhận dạng bóc tách thơng tin Chứng minh thư Ví dụ kết nhận dạng bóc tách thơng tin tự động Văn hành chính: Hình 19 Kết nhận dạng bóc tách thơng tin Văn hành 21 b) Nhận dạng bóc tách thơng tin trực tiếp file: Người dùng chọn file cần bóc tách thơng tin sau lựa chọn vùng ảnh gán vùng ảnh với trường thơng tin cụ thể, hệ thống nhận dạng tự động đưa vào trường thơng tin tương ứng Trên Hình 20 người dùng lựa chọn vùng ảnh gán vùng ảnh với trường thơng tin “Cơ quan”, kết nhận dạng thu “ỦY BAN NHÂN DÂN tỉnh AN GIANG” Hình 20 Nhận dạng bóc tách thơng tin trực tiếp file c) Nhận dạng bóc tách theo form mẫu người dùng định nghĩa: Người dùng định nghĩa vùng cần bóc tách Hình 21, sau lưu lại thành mẫu Hình 22 Khi đưa tài liệu lên hệ thống người dùng chọn mẫu tài liệu tương ứng (xem Hình 23) Sau hệ thống tự động nhận dạng trích xuất thơng tin vùng đánh dấu mẫu (xem Hình 24) 22 Hình 21 Định nghĩa vùng cần bóc tách Hình 22 Lưu mẫu thơng tin bóc tách Hình 23 Chọn mẫu tài liệu 23 Hình 24 Kết nhận dạng tự động thông tin tài liệu xử lý theo mẫu Với viê ̣c tích hợp cơng nghệ nhận dạng bóc tách thơng tin tài liệu lên hệ thống DocPro mang lại khả độc đáo ưu cạnh tranh thương mại thị trường DocPro sử dụng ngày nhiều quan, tổ chức, doanh nghiệp Một số phần mềm bóc tách thơng tin cho dự án số hóa thơng tin sinh viên dự thi vào Đại học Quốc gia Hà Nội Đầ u vào là phiế u dự thi có dán ảnh, in thông tin của thí sinh SBD, Ho ̣ tên, Số CMND Module bóc tách phần mềm cho danh sách các thí sinh có ảnh và thông tin nêu ở da ̣ng văn bản (text) (xem Hình 25) Hình 25 Kết bóc tách Album ảnh thí sinh dự thi vào ĐHQGHN 24 Đánh giá kết đạt kết luận Các kết đề tài đáp ứng mục tiêu đề ra: + Xây dựng giải pháp, thuật tốn xử lý ảnh xử lý ngơn ngữ tự nhiên nhằm nâng cao chất lượng nhận dạng chữ viết tiếng Việt + Tích hợp cơng nghệ nhận dạng trích xuất thơng tin tự động vào Hệ thống quản trị tài liệu thơng minh DocPro + Hồn thiện sản phẩm DocPro tham dự giải thưởng Sao Khuê Với việc tích hợp cơng nghệ nhận dạng chữ viết tiếng Việt bóc tách thơng tin tự động Hệ thống DocPro Hệ thống Việt Nam có tính đặc biệt tăng mạnh khả cạnh tranh thương mại thị trường Hệ thống DocPro đạt danh hiệu Sao Khuê năm 2016: phần mềm xuất sắc công nhận Danh hiệu Sao Khuê 2016 lĩnh vực: Các sản phẩm, giải pháp phần mềm 2015-2016 Việt Nam Tóm tắt kết (tiếng Việt tiếng Anh) Đề tài xây dựng giải pháp, thuật toán xử lý ảnh xử lý ngôn ngữ tự nhiên nhằm nâng cao chất lượng nhận dạng chữ viết tiếng Việt Công nghệ nhận dạng trích xuất thơng tin tự động tích hợp vào Hệ thống quản trị tài liệu thơng minh DocPro, giúp Hệ thống DocPro có tính đặc biệt, tăng mạnh khả cạnh tranh thương mại thị trường “là phần mềm xuất sắc công nhận Danh hiệu Sao Khuê 2016 lĩnh vực: Các sản phẩm, giải pháp phần mềm 2015-2016 Việt Nam” The research grant has developed solutions, image processing and natural language processing algorithms to improve the OCR quality of Vietnamese language OCR and automatic information extraction technology is integrated into intelligent document management system DocPro, which helps the DocPro system has special features, dramatically increases market competitiveness and has been awarded “Sao Khue recognition of Excellence 2016”, award category: Newly launched 2015-2016 software products of Vietnam PHẦN III SẢN PHẨM, CÔNG BỐ VÀ KẾT QUẢ ĐÀO TẠO CỦA ĐỀ TÀI 3.1 Kết nghiên cứu TT Tên sản phẩm Yêu cầu khoa học hoặc/và tiêu kinh tế - kỹ thuật 25 Đăng ký Đạt Cơng nghệ nhận dạng Tích hợp cơng nghệ nhận 100% trích xuất thơng tin tự động dạng ký tự quang học OCR Hệ thống DocPro (công nghệ cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu máy quét, máy ảnh, file PDF dạng ảnh ) thành tài liệu biên tập (file text, file pdf searcable )) Tích hợp cơng nghệ xử lý 100% ngơn ngữ tự nhiên bóc tách thông tin.Việc áp dụng công nghệ vào hệ thống giúp công việc quản lý, biên soạn lại tài liệu dạng ảnh, tìm kiếm tài liệu trở nên đơn giản thuận tiện Thơng tin bóc tách nhận dạng theo ba hình thức: - Nhận dạng bóc tách thơng tin tự động - Nhận dạng bóc tách thơng tin trực tiếp file - Nhận dạng bóc tách theo form mẫu người dùng định nghĩa 26 Với việc tích hợp cơng 100% nghệ nhận dạng tiếng việt bóc tách thông tin tự động hệ thống DocPro hệ thống Việt Nam có tính đặc biệt tăng mạnh khả cạnh tranh thương mại thị trường 3.2 Hình thức, cấp độ cơng bố kết Tình trạng (Đã in/ chấp nhận in/ nộp TT Sản phẩm đơn/ chấp nhận đơn hợp lệ/ cấp giấy xác nhận SHTT/ xác nhận sử dụng sản phẩm) Ghi địa Đánh giá cảm ơn chung tài trợ (Đạt, khơng đạt) ĐHQGHN quy định Cơng trình cơng bớ tạp chí khoa học quốc tế theo hệ thống ISI/Scopus 1.1 Sách chuyên khảo xuất ký hợp đồng xuất 2.1 Đăng ký sở hữu trí tuệ 3.1 Bài báo quốc tế không thuộc hệ thống ISI/Scopus 4.1 Bài báo tạp chí khoa học ĐHQGHN, tạp chí khoa học chuyên ngành quốc gia báo cáo khoa học đăng kỷ yếu hội nghị quốc tế 5.1 Báo cáo khoa học kiến nghị, tư vấn sách theo đặt hàng đơn vị sử dụng 27 6.1 Kết dự kiến ứng dụng quan hoạch định sách sở ứng dụng KH&CN 7.1 Kết khác 8.1 Giải thưởng Sao Khuê 2016 Ghi chú: - Cột sản phẩm khoa học công nghệ: Liệt kê thông tin sản phẩm KHCN theo thứ tự - Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo…) chấp nhận có ghi nhận địa cảm ơn tài trợ ĐHQGHN theo quy định - Bản phơ tơ tồn văn ấn phẩm phải đưa vào phụ lục minh chứng báo cáo Riêng sách chuyên khảo cần có phơ tơ bìa, trang đầu trang cuối có ghi thơng tin mã số xuất 3.3 Kết đào tạo TT Họ tên Thời gian kinh phí Cơng trình cơng bố liên quan tham gia đề tài (Sản phẩm KHCN, luận án, luận (số tháng/số tiền) văn) Đã bảo vệ Nghiên cứu sinh Học viên cao học Mai An Quốc 0.9 tháng / 5.750.000 Mô ̣t số kỹ thuâ ̣t trích cho ̣n đă ̣c Đã bảo vê ̣ vnđ trưng chữ viế t tay nhâ ̣p ngày điể m rèn luyê ̣n tự đô ̣ng 17/09/2016 28 Đào Quang 0.9 tháng / 5.750.000 Nhâ ̣n da ̣ng khuôn mă ̣t hỡ Đã bảo vệ Tồn vnđ trơ ̣ công tác quản lý tiế p dân ngày 10/06/2017 Ghi chú: - Gửi kèm photo trang bìa luận án/ luận văn/ khóa luận giấy chứng nhận nghiên cứu sinh/thạc sỹ học viên bảo vệ thành cơng luận án/ luận văn; - Cột cơng trình công bố ghi mục III.1 PHẦN IV TỔNG HỢP KẾT QUẢ CÁC SẢN PHẨM KH&CN VÀ ĐÀO TẠO CỦA ĐỀ TÀI T Sản phẩm T Số lượng Số lượng đăng ký hồn thành Bài báo cơng bớ tạp chí khoa học quốc tế theo hệ 0 thống ISI/Scopus Sách chuyên khảo xuất ký hợp đồng 0 xuất Đăng ký sở hữu trí tuệ 0 Bài báo quốc tế không thuộc hệ thống ISI/Scopus 0 Số lượng báo tạp chí khoa học 0 ĐHQGHN, tạp chí khoa học chuyên ngành quốc gia báo cáo khoa học đăng kỷ yếu hội nghị quốc tế Báo cáo khoa học kiến nghị, tư vấn sách theo đặt 0 hàng đơn vị sử dụng Kết dự kiến ứng dụng quan hoạch 0 định sách sở ứng dụng KH&CN Kế t quả công bố khác Giải thưởng Sao Khuê 2016 29 Đào tạo/hỗ trợ đào tạo NCS 10 Đào tạo thạc sĩ 0 PHẦN V TÌNH HÌNH SỬ DỤNG KINH PHÍ Kinh phí T Nội dung chi T Kinh phí thực duyệt (triệu đồng) (triệu Ghi đồng) A Chi phí trực tiếp 190.000.000 Xây dựng đề cương chi tiết 1.904.500 Th khốn chun mơn 168.095.500 Nguyên, nhiên vật liệu, 0 Thiết bị, dụng cụ 0 Cơng tác phí 0 Dịch vụ thuê 0 Hội nghị, Hội thảo, Viế t báo cáo tổ ng kế t, 15.000.000 kiểm tra tiến độ, nghiệm thu In ấn, Văn phịng phẩm 5.000.000 Chi phí khác 0 B Chi phí gián tiếp 10.000.000 Quản lý phí 10.000.000 Chi phí điện, nước 0 Tổng số PHẦN V KIẾN NGHỊ (về phát triển kết nghiên cứu đề tài; quản lý, tổ chức thực cấp) Đề nghi ̣ Đa ̣i ho ̣c Quố c gia Hà Nô ̣i tiế p tu ̣c hỗ trơ ̣ cho các nghiên cứu tiế p theo liñ h vực nhâ ̣n da ̣ng và bóc tách thông tin tự đô ̣ng của Nhóm nghiên cứu đề tài này 30 PHẦN VI PHỤ LỤC (minh chứng sản phẩm nêu Phần III) Đề nghi ̣xem các tê ̣p kèm TÀI LIỆU THAM KHẢO [1] ABBYY: https://www.abbyy.com/ [2] VnDOCR: http://www.vndocr.com/home/products.asp?productID=2 [3] Why is OCR at 300 dpi a Standard? http://scansnapcommunity.com/tips-tricks/1652why-is-ocr-at-300-dpi-a-standard/ [4] INFOGRAPHIC: 300DPI VS 200DPI – RESOLUTION IS IMPORTANT FOR OCR SUCCESS http://www.optiform.com/news/300dpi-vs-200dpi-ocr/ [5] Scanning Specifications: https://datapreservation.usgs.gov/page/BP_digital_scanning_specs [6] D K Fan, Doan N V., Hieu L T Automatic word error detection and correction for Vietnamese text to improve the accuracy of the OCR engine in the ITIScanner digitizing system // International Symposium on Modern aspects of the fundamental sciences, Moscow 2013, ISBN 978-5-7017-2135-5, pages 281-286 [7] EcoECM: http://ecoit.asia/ecoecm/ [8] eDocman: https://www.cmc.com.vn/vi/san-pham/he-dieu-hanh-tac-nghiep-edocmanplus Hà Nội, ngày tháng năm Đơn vị chủ trì đề tài (Thủ trưởng đơn vị ký tên, đóng dấu) Chủ nhiệm đề tài (Họ tên, chữ ký) 31 ...PHẦN I THÔNG TIN CHUNG 1.1 Tên đề tài: Nghiên cứu nâng cấp chất lượng công nghệ nhận dạng sửa lỗi cho phần mềm DocPro 1.2 Mã số: QG.15.67 1.3 Danh sách... nghiên cứu, doanh nghiệp bắt tay vào nghiên cứu xây dựng cơng nghệ nhận dạng bóc tách thơng tin tự động Công nghệ gọi công nghệ IONE (Intelligent OCR and Extract information) Hiện công nghệ nhận. .. 6-8 Hồn tồn tự động Bảng So sánh cơng nghệ IONE với công nghệ nhận dạng Đối với hệ thống phần mềm tương tự DocPro: Hệ thống phần mềm Cơng nghệ nhận dạng Cơng nghệ trích xuất Định nghĩa mẫu bóc Bóc

Ngày đăng: 18/03/2021, 16:20

Tài liệu cùng người dùng

  • Đang cập nhật ...