Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
3,24 MB
Nội dung
Bộ Giáo dục Đào tạo - Trường Đại học Duy Tân XỬ LÝ ẢNH, XỬ LÝ ÂM THANH, KHUYNH HƯỚNG PHÁT TRIỂN VÀ MỘT SỐ KẾT QUẢ NGHIÊN CỨU TRIỂN KHAI Ở VIỆN CÔNG NGHỆ THÔNG TIN ĐỖ NĂNG TOÀN * TÓM TẮT Sự phát triển nhanh chóng công nghệ thông tin đẩy nhanh mở hướng phát triển cho nhiều ngành khác Trong số phải kể đến lĩnh vực xử lý hình ảnh xử lý âm Trong báo cáo đề cập đến số kết nghiên cứu triển khai xử lý ảnh xử lý âm Viện Công nghệ thông tin, Viện Khoa học Công nghệ Việt Nam ABTRACTS The rapid development of information technology has accelerated the development and opening for many other industries Among them is the field of image processing and audio processing This report mentions a number of research results and development of image processing and audio processing at the Institute of Information Technology, Institute of Science and Technology of Vietnam Key words: Image processing; OCR; Vectorization; 3D; VR… Giới thiệu Sự phát triển nhanh chóng công nghệ thông tin có ảnh hưởng tích cực đến đời sống xã hội người Ngày nay, nơi đâu ta thấy diện công nghệ thông tin Sự phát triển hai lĩnh vực: Phần cứng phần mềm ngày đưa công nghệ thông tin vào lĩnh vực tưởng chừng sử dụng máy móc Trong số lĩnh vực phải kể đến xử lý ảnh xử lý âm Một mục đích cao công nghệ thông tin tạo máy thay người việc xử lý thông tin Một cách tự nhiên máy tính cần thiết phải mô trình thu nhận xử lý thông tin người Các thông tin mà người thu nhận thông qua 05 giác quan: Thị giác, thính giác, vị giác, khứu giác cảm giác Trên sở tiếp cận công nghệ thông tin chia thành hướng chủ yếu sau: 110 * PGS.TS, Viện Công nghệ thông tin -Viện KH&CN Việt Nam KỶ YẾU HỘI NGHỊ KHOA HỌC - Hướng liên quan đến thị giác: Ở thông tin vào tệp hình ảnh thu nhận thông qua thiết bị điện tử camera, scanner v.v Các toán thuộc kiểu bao gồm: Tổng quát hoá đồ (gồm có đường vẽ văn bên đồ), nhận dạng văn chữ viết in, chữ viết tay, chữ ký nhận dạng hoá đơn, nhận dạng phiếu điều tra v.v - Hướng liên quan đến thính giác: Thông tin vào tín hiệu âm thu nhận thông qua thiết bị thu nhận âm Các toán thuộc hướng liên quan đến việc: Tổng hợp nhận dạng tiếng nói chẳng hạn, đọc văn có sẵn máy tính mạng, nhận dạng tiếng nói chuyển tiếng nói thành văn để lưu trữ máy tính v.v - Hướng liên quan đến cảm giác (Sensor): Bộ biến cảm ví phận cảm nhận người, tiếp nhận thông tin vào như: Cân nặng, nhiệt độ, độ ồn v.v Các thông tin số hoá ghi vào tệp liệu Báo cáo đề cập đến số kết nghiên cứu liên quan đến xử lý âm hình ảnh thực Viện công nghệ thông tin, Viện Khoa học Công nghệ Việt Nam Đây hướng nghiên cứu năm vừa qua Phần lại báo cáo xếp sau: Phần trình bày kết liên quan đến xử lý nhận dạng ảnh chiều Phần ảnh động Tiếp theo, phần âm Phần xử lý ảnh chiều thực ảo Cuối kết luận hướng phát triển lĩnh vực Xử lý nhận dạng ảnh hai chiều Trong xử lý nhận dạng ảnh hai chiều tập trung vào hướng: Nhập liệu tự động Nhập liệu tự động trình nhập liệu thông thiết bị kỹ thuật có can thiệp người Mục đích nhập liệu tự động trợ giúp máy tính nhận biết nhanh xác thông tin vào, mô trình tiếp nhận thông tin người thông qua giác quan Đây yếu tố quan trọng nhằm nâng cao tốc độ hiệu trình xử lý thông tin Kỹ thuật nhập liệu tự động thời gian qua phát triển cách mạnh mẽ mang lại thay đổi lớn tính toán khoa học kỹ thuật quản lý hành điều khiển học v.v 2.1 Phần mềm nhập liệu tự động đồ MapScan [3] Nghiên cứu kỹ thuật thiết kế phần mềm đồ tự động với yêu cầu: Tự động hoá nhập đồ - chuyển đổi sang dạng véc tơ đường biên đồ thu dạng đen trắng, đa cấp xám màu Map scanning quét đồ giấy lưu lại ảnh raster[1,2] Tiền xử lý hay raster image editing để cải tiến chất lượng loại bỏ đối tựơng không cần thiết, nối đường bị gãy, quay ảnh kết nối nhiều trang thành ảnh đồ Text label extracting hay nhận dạng tài liệu chữ in (Optical Character Recognition: 111 Bộ Giáo dục Đào tạo - Trường Đại học Duy Tân OCR) để định vị dạng cho miền, khu vực, thành phố, tỉnh lỵ; nhận văn tham chiếu xác định toạ độ không gian Những văn nhận dạng bị loại khỏi ảnh raster suốt trình véc tơ hoá, tệp tham chiếu văn đựơc sinh để sử dụng vẽ đặc biệt phần mềm GIS Scanned image LAND.PCX Edited raster image LAND.PCX Raster image without reference text LAND.PCX Raster Edit OCR Vectorization Vector Edit Reference text LAND.REF or LAND.DXF Vector map LAND.MAP or LAND.DXF Edited vector map LAND.MAP or LAND.DXF Hình Sơ đồ phần mềm MapScan Véc tơ hoá (Vectorization) để chuyển (tại giai đoạn việc xử lý) ảnh raster chứa điểm, đường đa giác (không có văn tham chiếu) thành dạng véc tơ Một tệp toạ độ đồ sinh để sử dụng vẽ đặt biệt phần mềm GIS Hậu xử lý hay soạn thảo đồ véc tơ (vector map editing) đồ véc tơ sinh cách đóng đa giác, loại bụi, nối đoạn thẳng, quay đồ, kết nối nhiều trang thành đồ véc tơ, chọn đoạn thẳng gán thuộc tính mức đặc biệt Những đồ véc tơ địa tham chiếu thành hệ toạ độ giới thực Một toàn trình hoàn thành, tệp văn tham chiếu tệp ảnh véc tơ sử dụng với hệ vẽ MapScan phù hợp với phần lớn dạng tệp đồ hoạ, bao gồm Paintbrush PCX, GEM Raster IMG, Tagged Image File Format TIF, CompuServe GIF, JPG dạng Windows BMP, đưa AutoCAD DXF (một dạng chuẩn công nghiệp chấp nhận rộng rãi, không hạn chế), Atlas GIS BNA, tệp ArcView Shape dạng PopMap MAP Yêu cầu hệ thống IBM PC/AT hay tương thích, xử lý 80386/80486 hay cao 640KB RAM Nên có nhớ mở rộng thêm 8MB Một đĩa mềm đĩa cứng tối thiểu có 4MB chỗ trống Màn hình màu VGA Windows 3.1, Windows for Workgroup 3.11, Windows 95, or Windows NT Chuột tương thích Microsoft Máy quét Twain driver (optional) 112 KỶ YẾU HỘI NGHỊ KHOA HỌC Hình Giao diện chương trình MapScan 2.2 Phần mềm nhận dạng VnDOCR[4] Chức xử lý: Tự động xác định độ nghiêng văn bản, quay ảnh 1800, +900, góc Xoá nhiễu, làm dày, làm mảnh đường nét, đảo độ sáng ảnh văn bản, Xử lý tài liệu có lẫn ảnh, hình vẽ Tự động phân vùng, đánh dấu vùng ngăn cách khối văn khối hình ảnh - Nhận dạng Nhận dạng dạng font chữ kiểu không chân có chân Arial, Avant, Times, Courier, với kích thước ký tự từ đến 72 điểm thuộc tính bình thường, đậm, nghiêng, hay kết hợp đậm-nghiêng (đối với văn in rõ, không đứt nét, không dính, font chữ chuẩn) Tốc độ nhận dạng 15 - 17 giây cho trang A4 máy PENTIUM 200MHz, 32 MB RAM Thực song song trình quét nhận dạng Quá trình thực giống trình hoạt động máy photocopy Nhờ trình thời gian thực nhận dạng giảm Nhận dạng bảng biểu, mẫu biểu 113 Bộ Giáo dục Đào tạo - Trường Đại học Duy Tân Hình Giao diện hệ VnDOCR - Học thêm kiểu chữ Tách ký tự font chữ để người dùng dạy bổ sung thêm cho chương trình, thông qua chế hội thoại - Kiểm tra kết nhận dạng Đọc soát tả kết nhận dạng theo từ đơn kép đưa gợi ý thay cho phép sửa tay Cho phép bổ sung từ, cụm từ vào từ điển soát tả người sử dụng - Giao diện ứng dụng Chương trình có giao diện thân thiện dễ sử dụng người dùng Hệ thống giao diện hiển thị tiếngViệt tiếng Anh Tính trang làm việc thời (workspace) cho phép lưu giữ trạng thái thời công việc (ảnh văn quét vào, văn nhận dạng chỉnh sửa) để tiếp tục công việc, điều đặc biệt cần thiết xử lý nhiều tài liệu nhiều trang Hỗ trợ (Help) với tính multimedia sau: - Với chức hệ thống nhận dạng vnDOCR giải thưởng Giải thi sản phẩm CNTT 1998 Giải thưởng khoa học kỹ thuật niên 1999 Giải - giải thưởng sáng tạo KHCN Việt Nam 1999 Giải - sản phẩm phần mềm hứa hẹn 2000 Huy chương vàng - sản phẩm phần mềm đạt doanh số cao 2000 05 năm liền bình chọn sản phẩm CNTT ưa chuộng 1999-2003 114 KỶ YẾU HỘI NGHỊ KHOA HỌC 2.3 Phần mềm nhận dạng dấu quang học Chúng thiết kế cài đặt thử nghiệm phần mềm nhận dạng phiếu điều tra dạng dấu tự động MarkRead ngôn ngữ Visual C++ Trong hệ thống có cài đặt phần thu nhận ảnh từ scanner sử dụng TWAIN (thư viện điều khiển scanner) Phần đọc ảnh sử dựng thư viện ImageGear để đọc 50 loại ảnh khác Trong hệ thống MarkRead cài đặt kỹ thuật co, dãn ảnh, làm trơn biên Chúng cài đặt phần hiệu chỉnh góc lệch lề trang tài liệu theo trang mẫu Quá trình nhận dạng tiến hành theo lô Hệ thống nhập phiếu điều tra theo cách đánh dấu MarkRead đọc khoảng 50 kiểu ảnh khác bao gồm Paintbrush PCX, GEM Raster IMG, Tagged Image File Format TIF, CompuServe GIF, JPG dạng Windows BMP, đưa kết phiếu điều tra dạng DBF, MBD, XLS Các chức MarkRead: Quét ảnh: Quét ảnh phiếu điều tra cất dạng ảnh raster với qui cách Tiền xử lý hiệu chỉnh ảnh raster: Hiệu chỉnh ảnh raster nhằm tăng chất lượng hình ảnh: Nối đường đứt nét, quay ảnh, xoá nhiễu, lấp lỗ hổng, co, dãn, vuốt trơn đường v.v Lựa chọn vùng cho tệp mẫu: Quá trình lựa chọn vùng thực tự động tương tác người máy Tách ô chữ nhật vùng lựa chọn: Vùng lựa chọn chứa nhiều ô hình chữ nhật cần tách vùng thành vùng (các ô hình chữ nhật được) Toạ độ hình chữ nhật lưu vào tệp có phần mởi rộng (.FRM ) Trích chọn dấu hiệu: Biến đổi vùng lựa chọn thành véc tơ đặc trưng Giai đoạn học: Ghi lại đặc trưng vùng lựa chọn Nhận dạng: Từ tệp FRM lấy vị trí đặc trưng vùng sau quy chiếu đến phiếu cần nhận dạng để nhận dạng Sửa đổi tệp SURVEY.FRM : Sửa lại cấu trúc trường, giá trí vị trí vùng đánh dấu Sửa đổi tệp SURVEY.RES: Sửa lại nội dung tệp kết MarkRead tự điều chỉnh góc nghiêng hay nhiều trang văn (góc nghiêng [...]... tự động MapScan đã được tài trợ và phát triển trong khuôn khổ của dự án UNFPA-INT 96/P74, “Phần mềm máy tính và trợ giúp cho hoạt động dân số Phần mềm này đã và đang được dùng cùng với phần mềm POPMAP (một phần mềm khác cũng của chúng tôi) ở các nước đang phát triển Hệ thống Thực tại ảo là sự kết hợp chặt chẽ giữa đồ họa ba chiều, âm thanh, trạng thái tâm lý và một số thiết bị ngoại vi để... thống thực tại ảo đòi hỏi chi phí lớn và công nghệ cao nhưng do kết quả đem lại rất khả quan nên ngày càng nhiều lĩnh vực áp dụng công nghệ này Hiện tại những lĩnh vực như giáo dục, y tế, giải trí, quân sự, thiết kế xây dựng v.v đã áp dụng công nghệ này Việc nghiên cứu và áp dụng công nghệ thực tại ảo vào bảo tàng các di sản là vấn đề có ý nghĩa khoa học và thực tiễn 120 KỶ YẾU HỘI NGHỊ KHOA... Một thuật toán rút gọn bề mặt biểu diễn mô h́ ình 3D”, Tạp chí Khoa học và Công nghệ, Tập 48, Số 2, tr123-133 [13] Lê Thị Kim Nga, Đỗ Năng Toàn (2010), Phát hiện ảnh cắt, dán giả mạo dựa vào các đặc trưng bất biến”, Tạp chí Tin học và Điều khiển học, Tập 26, Số 2, tr185-195 [14] Đỗ Năng Toàn, Nguyễn Văn Huân (2010), Một thuật toán rút gọn bề mặt biểu diễn mô hình 3D”, Tạp chí Khoa học và Công nghệ, ... dục và Đào tạo - Trường Đại học Duy Tân Kết luận Ngày nay trong thời đại bùng nổ thông tin luôn được cập nhập từng ngày, từng giờ Nếu như bạn được trang bị đầy đủ các thiết bị xử lý thông tin cần thiết (máy tính, modem, account hoà mạng ) thì bạn có thể thấy rõ điều này trên các trang Web của các tờ báo điện tử như Nhân Dân, Lao Động hay các nhà cung cấp thông tin khác Với một lượng lớn thông tin. .. động Trên tinh thần đó chúng tôi đã tập trung nghiên cứu và bước đầu đã cho ra một số sản phẩm thuộc lĩnh vực này như đã kể trên VnDOCR ra đời và việc ứng dụng VnDOCR đã giúp ích được rất nhiều trong ứng dụng văn phòng của các cơ quan Theo như ý kiến của anh Martin Nguyễn, một cá nhân mua và sử dụng VnDOCR: Việc tái bản các loại sách của Việt nam (Sách đã đăng kí bản quyền) tại Mỹ đã tiến triển rất... thu thập tin từ nhiều nguồn khác nhau như từ các tạp chí, báo ra hàng ngày v.v Bạn cảm thấy rất ngại khi phải gõ lại các thông tin này vào và thầm mong có một phần mềm nào đó có thể trợ giúp được cho mình Đó chính là nguồn gốc sinh ra nhu cầu nhập dữ liệu tự động Hơn nữa, sự phát triển như vũ bão của các thiết bị phần cứng, với các tính năng ngày càng mạnh, giá ngày càng rẻ đã thúc đẩy sự phát triển của... điều khiển học, Tập 26, Số 4, 2010, tr1-9 [17] Đỗ Năng Toàn, Lê Thị Kim Nga, Nguyễn Thị Hồng Minh (2010), “Một mô hình nhiễu và ứng dụng trong việc phát hiện chất liệu”, Tạp chí Khoa học và Công nghệ -Viện Khoa học và Công nghệ Việt Nam, Tập 48, Số 3, 2010, tr1-10 121 ... [8] Đỗ Năng Toàn, Hà Xuân Trường, Phạm Việt Bình, Lê Thị Kim Nga, Ngô Đức Vĩnh (2008), Một cải tiến cho thuật toán phát hiện ảnh giả mạo Exact match”, Kỷ yếu Hội thảo Quốc gia nghiên cứu cơ bản và ứng dụng Công nghệ thông tin - FAIR, Tp Nha Trang 09-10/08/2007, tr 161-172 [9] Nguyễn Văn Huân, Đỗ Năng Toàn (2009), “A hair material simulation approach in Virtual reality and application” Proceedings... chiều”, Tạp chí Tin học và Điều khiển học, Tập 22, Số 4, 339-348 [7] Đỗ Năng Toàn, Trần Thanh Hiệp, Phạm Tấn Năm, Trịnh Hiền Anh (2005), Một kỹ thuật tiếp cận trong tạo mô hình 3 chiều”, Kỷ yếu Hội thảo Quốc gia về “Các vấn đề chọn lọc của CNTT”, Hải Phòng 25-27/8/2005, tr 631-642 [8] Đỗ Năng Toàn, Hà Xuân Trường, Phạm Việt Bình, Lê Thị Kim Nga, Ngô Đức Vĩnh (2008), Một cải tiến cho thuật toán phát hiện... Khoa học và Công nghệ, Tập 48, Số 2, 2010, 123-133 [15] Nguyen Van Huan, Do Nang Toan (2010), “Vector Fields in Expressing Hairstyles”, Proceedings of The 2nd IEEE International Conference on Advanced Computer Control -ICACC 2010, Shenyang 27-29/03/2010, China 2010, 541-546 [16] Đỗ Năng Toàn, Nguyễn Văn Huân (2010), “Một kỹ thuật tăng tốc biểu diễn tóc”, Tạp chí Tin học và điều khiển học, ... đến số kết nghiên cứu liên quan đến xử lý âm hình ảnh thực Viện công nghệ thông tin, Viện Khoa học Công nghệ Việt Nam Đây hướng nghiên cứu năm vừa qua Phần lại báo cáo xếp sau: Phần trình bày kết. .. với hai tính ba chiều âm Xử lý ảnh chiều thực ảo Sự phát triển phần cứng máy tính mở triển vọng phát triển mức cao cho lĩnh vực nhận dạng xử lý ảnh Đó là, xử lý ảnh động xử lý ảnh chiều, đặc biệt... Hình Xử lý âm hệ thống Một hướng tiếp cận khác nghiên cứu xây dựng hệ thống âm giả 3D Như ta biết, hình ảnh âm yếu tố thường đôi với ta thấy tính sinh động sống Một phương pháp kết hợp âm hình