Nhận dạng chữ cho ảnh màu thương hiệu luận văn ths công nghệ thông tin

58 384 1
Nhận dạng chữ cho ảnh màu thương hiệu luận văn ths  công nghệ thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUẤN NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUẤN NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU Ngành: Công nghệ thông tin Chuyên ngành: Khoa Học Máy Tính Mã số: 60480101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ THANH HÀ Hà Nội - 2015 Lời cam đoan Tôi xin cam đoan phần nghiên cứu thực khóa luận riêng tôi, hướng dẫn TS Lê Thanh Hà, không chép từ công trình nghiên cứu khác Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tế Nếu sai xin chịu hoàn toàn trách nhiệm chịu kỷ luật ĐHQG Hà Nội Nhà trường Hà Nội, ngày 22 tháng năm 2015 Học viên Lời cảm ơn Lời em xin bày tỏ lòng biết ơn sâu sắc tới TS Lê Thanh Hà, người hướng dẫn em tận tình suốt trình học tập, nghiên cứu viết luận văn Đồng thời giúp em lựa chọn hướng cho riêng Một lần em xin nói lời cảm ơn với Thầy Em xin bày tỏ lòng biết ơn tới thầy cô giáo Khoa Công Nghệ Thông Tin - Đại Học Công Nghệ - ĐHQGHN Các thầy cô dạy bảo, dẫn chúng em tạo điều kiện tốt cho chúng em trình học tập, đặc biệt thời gian làm luận văn tốt nghiệp Em xin cảm ơn anh chị em lớp K17KHMT trường Đại Học Công Nghệ anh chị em lớp KHMT, giúp đỡ em suốt trình học tập Cuối xin gửi tới bố mẹ toàn thể gia đình lòng biết ơn tình cảm yêu thương Hà Nội ngày 22 tháng năm 2015 Nguyễn Ngọc Tuấn MỞ ĐẦU Nhận dạng chữ in nói chung nhận dạng chữ in ảnh màu toán có nhiều ứng dụng thực tế thu hút nhiều quan tâm nghiên cứu Máy tính tự động nhận dạng, xử lý ảnh đầu vào tạo liệu văn phục vụ lưu trữ, tìm kiếm, phân tích Nhờ giúp tiết kiệm chi phí, thời gian, công sức so với nhập liệu thủ công Ngày nay, cạnh tranh mạnh mẽ kinh tế, việc xây dựng hình ảnh doanh nghiệp truyền tải đến người tiêu dùng ngày trở nên quan trọng Ảnh thương hiệu (logo) phần thiếu trình này, bổ sung vào sở liệu doanh nghiệp Để khai thác thông tin ảnh thương hiệu sở liệu, dựa vào hai thành phần chính: phần hình ảnh phần chữ (text) Trong đó, phần text chứa nhiều thông tin hữu ích tên sản phẩm, tên doanh nghiệp, hiệu (slogan) , phục vụ đắc lực cho việc tìm kiếm, phân tích, lưu trữ Phương pháp đề cập luận văn nhằm giải vấn đề trích xuất liệu text từ ảnh thương hiệu cách tự động, nâng cao độ xác giảm thiểu chi phí cho hoạt động nhập liệu Quan sát số sở liệu ảnh thương hiệu, thấy ảnh thương hiệu bao gồm thông tin dạng văn (text) chiếm phần đáng kể, giải phương pháp nhận dạng chữ thông thường Tuy nhiên, phần không nhỏ ảnh màu thương hiệu text thường có yếu tố hình họa kèm, nhập nhằng vùng chữ in vùng hình họa làm khó khăn trích xuất text tăng lên nhiều so với nhận dạng chữ in ảnh xám truyền thống Để giải vấn đề đó, luận văn đề xuất giải pháp kết hợp phương pháp grayscale phân đoạn ảnh cải tiến, dựa khác biệt màu sắc cảm nhận mắt người, nguyên tắc thường thấy thiết kế ảnh màu thương hiệu Bài toán nhận dạng chữ in ảnh màu gồm ba công đoạn chủ yếu: tiền xử lý, nhận dạng kí tự hậu xử lý Trong luận văn tập trung chủ yếu vào giai đoạn tiền xử lý, cụ thể trình grayscale phân đoạn ảnh, nhằm đưa cải tiến để cải thiện độ xác kết nhận dạng sau Đồng thời sử dụng máy nhận dạng văn Tesseract để xây dựng thành hệ thống hoàn chỉnh Trong phần thực nghiệm luận văn, tiến hành nhận dạng chữ in ảnh màu thương hiệu với nhiều kích cỡ chữ, font chữ màu sắc khác Kết sau hệ thống nhận dạng chữ in cải thiện rõ rệt so sánh với phương pháp phân đoạn khác hệ thống nhận dạng Từ khóa: Nhận dạng chữ in, ảnh thương hiệu màu, biểu đồ Histogram, phân đoạn ảnh, nhị phân hóa Mục lục TỔNG QUAN 1.1 Đặt vấn đề 1.2 Nội dung nghiên cứu luận văn 1.3 Cấu trúc luận văn 10 10 10 11 Cơ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 13 13 15 17 17 18 20 21 tự động 24 24 28 28 29 29 30 Thực nghiệm đánh giá 4.1 Môi trường thực nghiệm 4.2 Thực nghiệm phân đoạn ảnh 4.3 Thực nghiệm nhận dạng 33 33 33 35 Kết luận 38 sở lý thuyết cho phân đoạn ảnh Ảnh màu thương hiệu Không gian màu (color space) Biểu đồ Histogram Chuyển đổi ảnh màu sang ảnh mức xám Phân đoạn ảnh Một số phương pháp phân đoạn Máy nhận dạng văn Tesseract Phân đoạn ảnh màu thương hiệu 3.1 Pha 1: Chuyển đổi ảnh màu sang ảnh mức xám 3.2 Pha 2: Phân đoạn ảnh phân cấp 3.2.1 Xác định khoảng cách cụm 3.2.2 Hòa nhập cụm 3.2.3 Thuật toán Arifin cải tiến lựa chọn ngưỡng 3.3 Pha 3: Nhận dạng ký tự Danh mục hình vẽ 2.1 2.2 2.3 2.4 2.5 Ảnh thương hiệu màu Không gian màu HSV Phân cụm phân ngưỡng Histogram Ảnh gốc vùng ảnh sau phân đoạn Cấu trúc Tesseract 14 16 18 19 22 3.1 3.2 Sơ đồ hệ nhận dạng ký tự cho ảnh màu thương hiệu Chuyển đổi ảnh màu sang ảnh mức xám; (a): ảnh gốc, (b) ảnh độ sáng, (c) ảnh mức xám áp dụng phương pháp Rasche, (d) ảnh mức xám áp dụng phương pháp Mark Ảnh màu thương hiệu Ảnh mức xám sau biến đổi sử dụng phương pháp Mark (a) Biểu đồ Histogram trình hòa nhập cụm (b) Nhận dạng văn ảnh phân đoạn Tesseract 25 3.3 3.4 3.5 3.6 4.1 4.2 4.3 4.4 Ảnh thương hiệu sau phân đoạn áp dụng phương pháp Otsu Ảnh thương hiệu sau phân đoạn phương pháp phân cấp Arafin Ảnh thương hiệu sau phân đoạn phương pháp phân cấp K-means Kết nhận dạng với số RCR, RJR ER cho mô hình 26 27 27 29 30 34 34 35 36 Danh mục bảng biểu 4.1 Bảng so sánh kết thực nghiệm 37 Danh sách từ viết tắt OCR RGB HSV CMYK CIE LAB LA*B* RCR RJR ER NOIP Optical Character Recognition Red Green Blue Hue Saturation Value Cyan Magenta Yellow Key International Commission on Illumination Lightness a b Lightness a* b* Recognition rate Rejection rate Error rate National Office of Intellectual Property 180 / PI; c=sqrt(s.val[1]+s.val[2]); ((uchar *)(dst->imageData + i*dst>widthStep))[j]= s.val[0]+(2.50.025*s.val[0])*(0.116*abs(sin(hl/2-45))+0.085)*c; } cvReleaseImage(&dst1); } Mô tả Mã nguồn Chuyển đổi ảnh màu sang ảnh mức xám, sử dụng phương pháp MarkGrundland void ConvertScale(IplImage *img, { int i,j,k; double tmp; CvMat *a) for( i=0;iwidth; i++) for (j=0;jheight; j++) for( k=0;kimageData + j*img->widthStep))[i*img->nChannels + k] ; cvmSet( a, i*img->height +j, 2-k ,tmp/255.0 ); } } void Minus(CvMat *a,CvMat *b, long *look) { long i,j; double tmp; for (i=0;irows;i++) for( j=0;jcols;j++) { cvmSet( a, i, j, cvmGet( b, i, j )cvmGet( b, look[i], j ) ); } } void ColordifferenceInit(double *a,CvMat *b, long *look, double eps) { long i,j; double tmp; for (i=0;irows;i++) { tmp=0.0; for( j=0;jcols;j++) tmp+= pow( cvmGet( b, i, j )- cvmGet( b, look[i], j ),2.0) ; a[i]=sqrt(tmp)+eps; } } void decolorizequantiles(double *x,double *q, long 41 xn,long qn, double tolerance) { sort(x,x+xn); double e= 1.0/(2.0*xn); long i,tmp; for (i=0;iwidth* img->height; CvMat *picture = cvCreateMat( pixels, 3, CV_64FC1 ); ConvertScale(img,picture); //cvDoubleMatPrint( picture ); double eps=2.22044604925031e-16; double tolerance=100*eps; CvMat* ColorConvert = cvCreateMat( 3, 3, CV_64FC1 ); cvZero( ColorConvert ); cvmSet( ColorConvert, 0, 0, 0.2989360212937753847527155 ); cvmSet( ColorConvert, 0, 1, cvmSet( ColorConvert, 0, 2, cvmSet( ColorConvert, 1, 0, 0.5870430744511212909351327 ); cvmSet( ColorConvert, 1, 1, cvmSet( ColorConvert, 1, 2, cvmSet( ColorConvert, 2, 0, 42 0.5 ); 1); 0.5 ); -1 ); 0.1140209042551033243121518 ); cvmSet( ColorConvert, 2, 1, -1 ); cvmSet( ColorConvert, 2, 2, ); double double double double maxluminance=1; scaleluminance=0.66856793424088827189; maxsaturation=1.1180339887498948482; alter=effect*(maxluminance/maxsaturation); CvMat *image= cvCreateMat( pixels, 3, CV_64FC1 ); cvMatMul(picture,ColorConvert,image); CvMat *original; original= cvCloneMat( image ); long i; double tmp; // long *look = new long [pixels]; srand ( time(NULL) ); for (i=0;ianh gia chung va k~t lu~n: ;:.: \:_ .: ;: _ ;· r ~ ; ·~·~· :.: ") ( ~ ( t: ,.T :,;; ~~n ~.tt i.-.l~J·:······~ c.~ CA.v; Tf3··~·4· ~.(j :::t v < ~ ' oA.t.~ ~ zm a.· ::::::::: .::::].: ::::::~: : : : : :.: : :.~:::: :::.:.::~:::r::e:::::Q::::::: ::::~::::: : :~a::::::::::::::::::::::::::::: ::::::::::::: Lu~n van d~t t.:;; 10 di~m Quy~t nghi duqc , I y vien cua H()i dfJng nhftt tri thOng qua ~- ~ zI DONG t' / CHU T{CH HQI DONG CONG HOA xA HQI CHU NGHiA VIETNAM D(}c l~p - T11 - H~nh ph tic BAN NHAN XET PHAN BIEN LUAN VAN THAC Si HQVa, t"en c'an b"Q p h~an b'" I~n: n"N¥ vo ang T' oan HQC ham, hQC vj: PGS TS ·············································································· Chuyen nganh: Bao dam tmin hQc cho may tinh va H~ thfmg tinh toan CO' quan cong tac: Vi~n Cong ngh~ thong tin- DHQG Ha N()i HQ va ten hqc vien cao hqc: Nguy€n NgQc Tu~n Tend~ tai lu~n van: Nh~n d~ng chu cho anh mau thuong hi~u Chuyen nganh: Khoa hQc may tinh Ma sB: 60.48.01.01 y KIEN NH~N XET Tinh c~p thi€t, thai Sl,I, y nghia khoa hQC va thl,Ic ti€n cua d~ tai lu~n van Nh~n d~ng thuong hi~u la bai toan th\fc t€ d{lt Cac thuong hi~u thuemg duqc th€ hi~n b6'i cac hinh imh c6 tinh bi€u trung la logo thuong hi~u d6 Vi~c d~t v~n d€ nMn d~ng chfr tren thuong hi~u la v~n d€ it y nghia Sl,I khong trimg li;ip cua d~ tai nghien c(ru so v6i cac cong trinh khoa hQc, lu~n van da cong bf> va ngoai nut quy trlnh nh~n d~ng van ban ky t1,r tren anh thuang " ? trinh pha: Chuyen anh mau sang xam, phan do~n anh, nh~n d~ng cac ky t~,r hi~u mau Day Ia quy Lu~n van trinh bay SO' sai, nhi~u ph~n kha quan trQng lien quan tn,rc ti~p toi n(>i dung nghien ct'ru trinh bay qua ng~n gQn d~n d~n tinh tr~ng lam m~t di y nghla cua phu-ang phap d~ xuk Vi dv nhu, ··ngu·ong·· dong vai tro nhu th~ nao qua trlnh phan cvm va cv th~ Ia vi dv Hlnh 3.4 v~ bi~u ct6 Histogram thl threshold= 149 n6i len di~u gi, hay Clfm lit gi, ttiJU vito ctla thu~t toan bo qtm lit gi? Cac thu~t toan chua duqc trlnh bay ma thay vao d6 Ia m(>t ph~n phv lvc v6i cac dong code, lam cho nguO"i dQc kh6 c6 th~ bi~t dau Ia di~m m6i hay duqc cai ti~n so v6i each ti~p c~n tm6c day (theo nhu· IO"i phat bi~u lu~n van) Cau hoi: I u·u nhuqc di~m cua cac phu·ang phap phan do~n (Otsu, Arafin, K-means) Ia gi va vl y nghla th~ hi~n nhu the nao thong qua k~t qua Hinh 4.1, Hinh 4.2, Hinh 4.3 Qua trinh phan do~n SLJ' dl,mg cac phu-ang phap b6 cvm (k-mean, hierarchical clustering) duqc ap d\1ng tren M(>t anh hay m(>t T~p anh? Pha nh~n d~ng van ban duqc thv·c hi~n nhu th~ nao va lam d~ bi~t duqc danh gia Ia dung hay sai? (co anh dich d~ so sanh v6i ket qua kh6ng?) Ha N()i, thang nam 2015 xAc NI-I~N ciJA co QUAN c6NG TAc CAN B[...]... đoạn ảnh 2.1 Ảnh màu thương hiệu Ảnh thương hiệu (hay còn được gọi logo, biểu trưng) là một yếu tố đồ họa (kí hiệu, chữ biểu thị, biểu tượng, hình tượng ) kết hợp với cách thức thể hiện để tạo thành hình ảnh đại diện cho một công ty hay các tổ chức thương mại, nhãn hiệu, thương hiệu nào đó Nói cách khác, ảnh thương hiệu được tạo ra nhằm ấn tượng bên ngoài giúp dễ dàng nhận ra thương hiệu, đồng thời... toàn bộ ảnh vào từng điểm ảnh, từ đó nổi bật màu sắc dễ nhận biết bằng mắt người khi xếp cạnh nhau Việc sử dụng hiệu ứng màu sắc rất hay sử dụng trong ảnh màu thương hiệu, do vậy thuật toán của Mark tận dụng được yếu tố này trong quá trình chuyển đổi Hình 3.3 so sánh ảnh đầu ra 24 Hình 3.1: Sơ đồ hệ nhận dạng ký tự cho ảnh màu thương hiệu khi áp dụng phương pháp Mark và một số phương pháp thông dụng... kí tự nhận dạng sai và tỉ lệ kí tự không nhận dạng được so với kết quả từ mắt người 1.3 Cấu trúc luận văn Các phần còn lại của luận vặn có cấu trúc như sau: Chương 2: trình bày cơ sở lý thuyết của phân đoạn ảnh, bao gồm các khái niệm cơ bản, các kỹ thuật cơ bản được sử dụng trong chuyển đổi ảnh màu về ảnh mức xám và phân đoạn ảnh Chương 3: trình bày chi tiết về phân đoạn ảnh cho ảnh thương hiệu màu Đồng... đề Nhận dạng kí tự quang học (OCR - Optical Character Recognition) là quá trình chuyển đổi hình ảnh của văn bản thành văn bản máy tính Hiện nay, nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu là những bài toán có nhiều ứng dụng trong thực tế, giúp tiết kiệm rất nhiều các chi phí và thời gian cho việc nhập liệu Trong một số điều kiện thuận lợi, nhận dạng chữ in đạt độ chính xác rất cao cho. .. lượng chi tiết trong ảnh Phần còn lại chỉ sử dụng một trong hai thành phần chính để tạo nên ảnh thương hiệu -Màu sắc: Màu sắc thường đơn giản, dễ dàng nhận thấy và ghi nhớ Thông thường khi thiết kế có thể ưu tiên vẽ màu trắng và đen, sau đó 13 Hình 2.1: Ảnh thương hiệu màu đến các màu sắc nổi bật có thể đặt cạnh nhau như vàng-đỏ, xanh lá-đỏ Thực tế số lượng màu sắc trong ảnh thương hiệu thường bị hạn... riêng biệt, từ đó đưa vào máy nhận dạng có sẵn nhằm nâng khả năng nhận dạng Trong giai đoạn nhận dạng ký tự, máy nhận dạng Tesseract được đề xuất cho giai đoạn này Quá trình phân đoạn trải qua hai bước: 1 Biến đổi grayscale: đưa ảnh thương hiệu màu ban đầu (có các điểm ảnh trong hệ màu RGB) sang ảnh mức xám Mức xám (gray level) của ảnh đích được tính toán dựa trên yếu tố màu sắc, thứ tự độ sáng, sự liên... nhiều trở ngại Tuy nhiên các ảnh thương hiệu màu vẫn có chung những nguyên tắc khi thiết kế có thể khai thác như: sự tương phản và đồng nhất về màu sắc, sự ảnh hưởng màu sắc lên thị giác con người, khả năng đơn giản hóa dễ nắm bắt Luận văn đã nghiên cứu đánh giá một số phương pháp được sử dụng trong phân đoạn ảnh, và áp dụng vào bài toán nhận dạng chữ trên ảnh thương hiệu màu, nhằm tách biệt vùng chứa... màu thương hiệu đã phân đoạn Tuy nhiên các ảnh phân đoạn bằng thuật toán đề xuất cho kết quả tốt hơn với việc phân chia văn bản và nền rõ ràng hơn 33 Hình 4.1: Ảnh thương hiệu sau phân đoạn áp dụng phương pháp Otsu Hình 4.2: Ảnh thương hiệu sau phân đoạn bằng phương pháp phân cấp Arafin 34 Hình 4.3: Ảnh thương hiệu sau phân đoạn bằng phương pháp phân cấp K-means 4.3 Thực nghiệm nhận dạng Sau khi ảnh. .. 2 Phân đoạn ảnh phân cấp: Sau khi đưa về ảnh mức xám, phân đoạn ảnh phân cấp phân các điểm ảnh có mức xám tương đương nhau về các cụm riêng biệt, từ đó tách ra các lớp để tạo ra ảnh đầu vào của quá trình nhận dạng Sau khi trải qua các bước trên từ ảnh thương hiệu ban đầu ta thu được các văn bản chứa text của ảnh Việc đánh giá phương pháp trong luận văn dựa trên 3 yếu tố: tỉ lệ kí tự nhận dạng đúng,... tối ưu cho hệ nhận dạng • Pha nhận dạng: máy nhận dạng Tesseract được đề xuất cho bước này 3.1 Pha 1: Chuyển đổi ảnh màu sang ảnh mức xám Mục tiêu của quá trình này ngoài giảm số chiều dữ liệu trước khi đưa vào phân cụm, việc chuyển đổi còn đảm bảo các điểm ảnh có màu sắc tương tự nhau được mã hóa tương đương nhau, điều đó có nghĩa mức xám của các điểm ảnh đích giống nếu ở ảnh gốc chúng có màu sắc ... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NGỌC TUẤN NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU Ngành: Công nghệ thông tin Chuyên ngành: Khoa Học Máy Tính Mã số: 60480101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI... đoạn ảnh cải tiến, dựa khác biệt màu sắc cảm nhận mắt người, nguyên tắc thường thấy thiết kế ảnh màu thương hiệu Bài toán nhận dạng chữ in ảnh màu gồm ba công đoạn chủ yếu: tiền xử lý, nhận dạng. .. hoàn chỉnh Trong phần thực nghiệm luận văn, tiến hành nhận dạng chữ in ảnh màu thương hiệu với nhiều kích cỡ chữ, font chữ màu sắc khác Kết sau hệ thống nhận dạng chữ in cải thiện rõ rệt so sánh

Ngày đăng: 05/11/2015, 18:30

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan