Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 15 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
15
Dung lượng
5,03 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ CHƯƠNG TRÌNH NHẬP DỮ LIỆU TIẾNG VIỆT VIẾT TAY TRÊN TABLET PC S K C 0 9 MÃ SỐ: B 2009 - 22 - 46 S KC 0 Tp Hồ Chí Minh, tháng năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP.HCM BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ CHƢƠNG TRÌNH NHẬP DỮ LIỆU TIẾNG VIỆT VIẾT TAY TRÊN TABLET PC Mã số: B2009-22-46 Chủ nhiệm đề tài: ThS Nguyễn Đăng Quang TP.HCM, 07/2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP.HCM BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ CHƢƠNG TRÌNH NHẬP LIỆU TIẾNG VIỆT VIẾT TAY TRÊN TABLET PC Mã số: B2009-22-46 Xác nhận quan chủ trì đề tài (ký, họ tên, đóng dấu) TP.HCM, 07/2011 Chủ nhiệm đề tài (ký, họ tên) DANH SÁCH THÀNH VIÊN THAM GIA Chủ nhiệm đề tài ThS Nguyễn Đăng Quang – Khoa Công nghệ Thông tin – Trường Đại học Sư phạm Kỹ thuật TP.HCM Thành viên: ThS Đinh Công Đoan – Khoa Công nghệ Thông tin – Trường Đại học Sư phạm Kỹ thuật TP.HCM MỤC LỤC Mở đầu Mục tiêu Chương 1: Tổng hợp nhận dạng chữ viết 1.1 Giới thiệu 1.1.1 Nhận dạng ký tự .5 1.1.2 Lịch sử 1.1.3 Hiện trạng công nghệ OCR .6 1.1.4 Tổng quan nhận dạng chữ viết tay 1.2 Nhận dạng chữ viết On-line .8 1.2.1 Máy tính điều khiển bút .8 1.2.2 Các phương pháp thống kê 1.2.3 Các công cụ phát triển 10 1.3 Nhận dạng chữ viết Off-line .11 1.3.1 Tiền xử lý .11 1.3.2 Nhận dạng ký tự 13 1.3.3 Nhận dạng từ 13 1.3.4 Ứng dụng 14 1.4 Vấn đề phân tích xử lý ngôn ngữ nhận dạng .14 1.5 Tình hình nghiên cứu nhận dạng chữ viết tay tiếng việt 15 1.6 Phạm vi đề tài 16 Chương 2: Tablet PC API 2.1 Đối tượng 18 2.1.1 Tablet 18 2.1.2 InkCollector 18 2.1.3 InkOverlay 18 2.1.4 Ink Data 19 2.1.5 Stroke 22 2.1.6 Ink Renderer 22 2.1.7 Ink divider 22 2.1.8 Cups 25 2.2 Nhận dạng 26 2.2.1 Nhận dạng nét viết 26 2.2.2 Nâng cao chất lượng nhận dạng 27 2.2.3 RecognitionAlternate 31 2.3 Cử (gestures) .36 2.3.1 Cử hệ thống 36 2.3.2 Cử ứng dụng 36 2.4 Kết luận 44 Chương 3: Ink Analyzer 3.1 Giới thiệu 46 3.1.1 Nhận dạng 46 3.1.2 Phân loại 46 3.1.3 Phân tích layout 47 3.1.4 Phân tích incremental 47 3.1.5 Persistence 48 3.1.6 Ink Analyzer Explorer 48 3.2 Lớp InkAnalyzer .49 3.2.1 Thuộc tính 49 3.2.2 Phương thức 51 3.3 Kết luận 56 Chương 4: Giải pháp nhập liệu tiếng việt 4.1 Sơ đồ chức giải pháp 57 4.2 Giao diện ứng dụng 58 4.3 Thiết kế bảng nhập liệu viết tay .59 4.3.1 Ý tưởng thiết kế 59 4.3.2 Vùng thu nhận nét viết 59 4.3.3 InkCollector 60 4.3.4 RecognizerContext .60 4.3.5 Trình bày kết nhận dạng 61 4.3.6 Nâng cao độ xác 61 4.3.7 Xử lý từ nhận dạng sai 64 4.4 Bàn phím ảo 65 4.5 Tự điển nhắc từ tiếng việt 68 4.6 Chuyển đổi sang tiếng việt .69 4.7 Xử lý giao tiếp hệ thống 69 4.8 Đánh giá kết .70 Chương 5: Kết luận hướng phát triển Tài liệu tham khảo .75 DANH MỤC BẢNG BIỂU Bảng 2.1: Thuộc tính RecognizerGuide 29 Bảng 2.2: Thuộc tinh đối tượng Alternates 33 Bảng 2.3: Các loại cử ứng dụng 41 Bảng 4.1: Thống kê mức độ sử dụng cụm phím 67 Bảng 4.2: Số lần bấm phím bàn phím ảo giải pháp so với TIP .71 Bảng 4.3: Số lần bấm phím TIP so với VietPanel nội dung cột 71 Bảng 4.4: Số lần bấm phím TIP so với VietPanel nội dung cột 72 Bảng 4.5: Thực nghiệm nhập liệu VietPanel 73 DANH MỤC HÌNH ẢNH Hình 1.1: Nét viết tọa độ điểm lưu trữ tái tạo Hình 1.2: Một ví dụ kết tách ký tự từ hình ảnh 13 Hình 1.3: Nhận dạng chữ viết tay – Lựa chọn kết dựa ngữ pháp 15 Hình 2.1: Phối hợp thành phần Tablet PC platform 18 Hình 2.2: Các đối tượng Ink Namespace .19 Hình 2.3: Cấu tạo Tablet PC 20 Hình 2.4: Ảnh viết có strokes 21 Hình 2.5: Quan hệ Ink, Strokes Stroke 22 Hình 2.6: Phân tích Layout Ink Divider .25 Hình 2.7: Hình minh họa cusps 25 Hình 2.8: RecognizerGuide có cột, dòng 29 Hình 2.9: RecognizerGuide có cột, dòng 30 Hình 2.10: Kết nhận dạng độ tin cậy .32 Hình 2.11: TIP Windows XP cho lựa chọn Alternates cập nhật tự điển 33 Hình 2.12: Thông tin kết nhận dạng loại đường Ascender, Midline, Baseline Descender 34 Hình 3.1: Phân tích Layout InkAnalyzer 47 Hình 3.2: Ink Analyzer Explorer 49 Hình 3.3: Xóa nét ký tự s, vùng xóa vẽ lại hình chữ nhật 53 Hình 4.1: Sơ đồ khối bảng nhập liệu tiếng Việt (VietPanel) .57 Hình 4.2: Giao diện bảng nhập liệu tiếng Việt 58 Hình 4.3: Bảng viêt tay mở rộng 58 Hình 4.4: Lựa giá trị khác danh sách kết nhận dạng 61 Hình 4.5: Ứng dụng xác định tần suất sử dụng từ .63 Hình 4.6: Chuyển từ tiếng Việt sang từ viết theo kiểu gõ Telex 63 Hình 4.7: Xóa từ với lựa chọn “viết lại” .64 Hình 4.8: Vị trí phím ng, nh, dấu nặng 65 Hình 4.9: Các phím soạn thảo .66 Hình 4.10: Nhóm phím thao tác ứng dụng 66 Hình 4.11: Sắp xếp phím bàn phím dựa kết thống kê 68 Hình 4.12: Nhắc từ ghép tiếng Việt 68 DANH MỤC TỪ VIẾT TẮT OCR Optical Character Recognition TIP Tablet PC Input Panel API Application Programming Interface CCD Charge-Coupled Device ICR Intelligent Character Recognition HMM Hidden Markov Model SVM Support Vector Machine LCD Liquid Crystal Display INFORMATION ON RESEARCH RESULTS General information: Project title: Program to input Vietnamese Handwritten text on Tablet PC Code number: B2009-22-46 Coordinator: Nguyễn Đăng Quang Implementing institution: University of Technical Education HCMC Duration: from 4/2009 to 4/2011 Objective(s): Develop a solution to input Vietnamese handwritten text on Tablet PC by using the Microsoft Windows Tablet PC API Creativeness and innovativeness: A writing pad for inputting Vietnamese handwritten text, which has not been yet supported on Tablet PC so far A virtual keyboard optimized for inputting Vietnamese text Research results: A computer application to input Vietnamese text with digitized Pen on Tablet PC running Microsoft Windows Operating System A published article on the Journal of Technical Education Science Products: An application to input Vietnamese text with digitized Pen on Tablet PC running Microsoft Windows Operating System (VietPanel) Effects, transfer alternatives of research results and applicability: The application can be used to replace the default Tablet PC Input Panel (TIP) whenever users want to enter Vietnamese text on slate Tablet PC or convertible Tablet PC in slate mode where keyboard are not available 1 Đề tài NCKH cấp B2009-22-46 MỞ ĐẦU Cùng với phát triển Công nghệ, công nghệ Thông tin, phương pháp giao tiếp người máy ngày hoàn thiện Phương pháp nhập liệu thiếu tự nhiên bàn phím làm cho hoạt động nhập liệu máy tính người bị ràng buộc, thiếu sáng tạo Để việc nhập liệu máy tính tự nhiên hơn, người sáng tạo thiết bị hình cảm ứng điểu khiển tay bút Máy tính bảng (Tablet PC) thiết bị giới thiệu Microsoft, máy tính cá nhân trang bị hình cảm ứng (digitizer) Với Tablet PC, người sử dụng điều khiển bút cảm ứng hình thay sử dụng chuột, điều làm cho hoạt động giao tiêp người-máy tự nhiên Điều khiển bút cách nhập liệu thiết bị Cùng với việc điều khiển bút, nhu cầu nhập liệu bút thiếu Với TabletPC, người điều khiển, nhập cách viết trực tiếp lên viết giấy Tuy nhiên thông tin lưu trữ máy tính chuẩn hóa dạng Text giá trị số thông tin viết tay lại có dạng hình ảnh Chính vậy, việc nhận dạng để chuyển hình ảnh chữ viết thành thông tin lưu trữ dạng Text thiếu Trên tầm nhìn rộng hơn, nhận dạng phần quan trọng thú vị ứng dụng tin học Nhận dạng chữ viết ngày trở nên quan trọng nhiều lý do, có việc bất tiện sử dụng bàn phím việc đưa tin học đến với người khiếm thị Nhận dạng chữ viết nhận dạng nói chung dùng thuật toán để tìm đặc điểm riêng cá thể quần thể mà phải nhận dạng Tablet PC nghiên cứu từ lâu, với đề xuất Bill Gates, Microsoft công ty dẫn đầu lĩnh vực Họ tích hợp tính nhập liệu viết tay với lệnh giọng nói vào hệ điều hành hãng, Windows XP Đến phiên Windows Vista, giải thuật nhận dạng chữ viết tay nâng lên tầm cao Bộ nhập liệu viết tay Vista cho kết nhận dạng với độ xác cao Tính lại tốt Windows mà công nghệ giao tiếp người-máy ngày phát triển Chương trình nhập liệu tiếng Việt viết tay Tablet PC – Tháng 08/2011 Đề tài NCKH cấp B2009-22-46 Số lượng ngôn ngữ giao diện hỗ trợ Windows lên đến 36 Tuy nhiên số ngôn ngữ hỗ trợ nhận dạng chữ viết tay có 13 bao gồm English (US), English (UK), Japanese, Chinese (Traditional), Chinese (simplified), Korean, French, German, Italian, Dutch, Portugese (Brazil), Spanish Swedish ngôn ngữ vài đặt phiên Ultimate – Việt Nam Đây điều đáng tiếc, phần thị trường sử dụng máy tính bảng với nhu cầu nhập liệu viết tay nên Microsft chưa đầu tư thực Sản phẩm vnOnline 1.0 – chương trình nhận dạng chữ viết tay on-line tiếng Việt Tablet PC Viện CNTT Hà Nội sản phẩm có giá trị thương mại tính đến thời điểm không phổ biến rộng rãi hoạt động Windows XP Mục tiêu đề tài nhằm xây dựng công cụ nhập liệu tiếng Việt viết tay máy tính bảng cách khai thác thư viện InkAPI sẵn có Windows, khai thác nhận dạng sẵn có Windows (vốn hoạt động hoàn hảo), nạp thêm tự điển từ tiếng Việt viết theo kiểu gõ Telex Ngoài để hỗ trợ thêm cho trình nhập, bàn phím ảo tối ưu cho nhập liệu tiếng Việt thiết kế Nhóm nghiên cứu tích hợp vào chương trình tự điển nhắc từ ghép tiếng Việt giúp tăng tốc độ nhập Sản phẩm đề tài không thay bảng nhập liệu có sẵn (TabletPC Input Panel) Windows mà hỗ trợ nhập liệu tiếng Việt viết tay sử dụng Slate Tablet PC (máy tính bảng bàn phím) muốn nhập liệu tiếng Việt Convertible TabletPC (máy tính bảng có bàn phím với hình xoay gập) làm việc Slate mode Giải pháp đề tài thiết kế bảng nhập liệu viết tay sử dụng thư viện nhận dạng sẵn có Microsoft cho Tablet PC Đề tài không nghiên cứu đề xuất giải thuật nhận dạng chữ viết tay mà chủ yếu tìm hiểu khai thác thư viện nhận dạng chữ viết sẵn có Bảng nhập liệu cho phép người sử dụng viết tay tiếng Việt theo kiểu gõ Telex từ bàn phím; để hỗ trợ cho người nhập, chương trình có thiết kế thêm bàn phím ảo để nhập nhanh tiếng Việt bút Chương trình kết hợp tính nhắc từ ghép tiếng Việt để tăng tốc độ nhập liệu Chương trình nhập liệu tiếng Việt viết tay Tablet PC – Tháng 08/2011 Đề tài NCKH cấp B2009-22-46 NỘI DUNG NGHIÊN CỨU Các nội dung nghiên cứu gồm: Tìm hiểu thư viện InkAPI để lập trình Ink Tablet PC, Tìm hiểu Recognizer viết nhận dạng Ink, Nâng cao chất lượng nhận dạng cách xây dựng từ điển từ tiếng Việt để nạp vào Recognizer, Xây dựng bàn phím ảo tiếng Việt, Xây dựng tự điển từ ghép tiếng Việt, tích hợp vào ứng dụng để nhắc từ nhập, Đánh giá kết ĐỐI TƢỢNG NGHIÊN CỨU TabletPC Thư viện InkAPI Lập trình hệ thống Windows PHƢƠNG PHÁP NGHIÊN CỨU Đọc tổng hợp tài liệu Thống kê Thực nghiệm MỤC TIÊU Xây dựng ứng dụng nhập liệu viết tay tiếng Việt Tablet PC gồm: Bảng nhập liệu viết tay Bàn phím ảo Tính nhắc từ từ ghép tiếng Việt Một số tính soạn thảo khác Báo cáo gồm phần sau: Phần mở đầu giới thiệu tổng quan đề tài, lý thực đề tài, cách tiếp cận, mục tiêu, phương pháp nghiên cứu nội dung nghiên cứu Chương trình nhập liệu tiếng Việt viết tay Tablet PC – Tháng 08/2011 Đề tài NCKH cấp B2009-22-46 Chương Tổng hợp kết nghiên cứu nước lĩnh vực nhận dạng Chương TabletPC API Chương Ink Analyzer Chương Giải pháp nhập liệu tiếng Việt – Đây nội dung báo cáo Chương Kết luận Hướng phát triển Chương trình nhập liệu tiếng Việt viết tay Tablet PC – Tháng 08/2011 Đề tài NCKH cấp B2009-22-46 CHƢƠNG 1: TỔNG HỢP VỀ NHẬN DẠNG CHỮ VIẾT 1.1 GIỚI THIỆU 1.1.1 Nhận dạng ký tự Nhận dạng ký tự , viết tắt OCR (Optical Character Recognition) hoạt động chuyển đổi học điện tử từ hình ảnh ký tự in viết tay thu nhận thành văn máy tính Nhận dạng ký tự sử dụng rộng rãi để chuyển đổi sách tài liệu thành file liệu lưu trữ máy tính phát hành Web site OCR giúp hiệu chỉnh, lưu trữ, tìm kiếm lưu trữ thông tin hiệu OCR linh vực nghiên cứu nhận dạng mẫu (pattern recognition), trí tuệ nhân tạo (AI) Computer vision 1.1.2 Lịch sử Năm 1929 – Gustav Tauschek nhận sáng chế OCR Đức, sau năm 1933 – Paul W Handel nhận sáng chế Mỹ OCR Năm 1949 – Các kỹ sư công ty RCA Mỹ chế tạo máy tính OCR để giúp người mù cho quản trị cựu chiến binh Mỹ Chiếc máy chuyển đổi ký tự in thành ngôn ngữ máy phát âm ký tự chuyển đổi Vì tốn nên dự án phát triển sau Năm 1955 – Hệ thống thương mại cài đặt Reader‟s Digest Hệ thống thứ bán cho công ty Standard Oil để đọc thẻ tín dụng với mục đích tính hóa đơn Khoảng năm 1965, Reader‟s Digest RCA hợp tác thiết kế máy OCR để đọc tài liệu nhằm số hóa coupon trả từ quảng cáo Font chữ in tài liệu in máy in OCR-A Font Máy đọc kết nối trực tiếp đến máy tính RCA 301 (một máy tính bán dẫn đầu tiên) Máy đọc sau cải tiến thành máy đọc tài liệu chuyên dụng TWA để đọc xử lý vé máy bay Máy có khả xử lý 1500 tài liệu / phút, kiểm tra tài liệu để chấp nhận từ chối tài liệu xử lý Sản phầm sau trở thành phận dây chuyền sản xuất RCA Công ty dịch vụ bưu điện Mỹ sử dụng máy OCR để phân loại thư từ 1965 Ứng dung OCR Châu Âu thực bới Bưu điện Anh Quốc Năm 1965 Chương trình nhập liệu tiếng Việt viết tay Tablet PC – Tháng 08/2011 [...]... thư viện nhận dạng chữ viết sẵn có Bảng nhập liệu cho phép người sử dụng viết tay tiếng Việt theo kiểu gõ Telex từ bàn phím; ngoài ra để hỗ trợ cho người nhập, chương trình có thiết kế thêm một bàn phím ảo để nhập nhanh tiếng Việt bằng bút Chương trình còn kết hợp tính năng nhắc từ ghép tiếng Việt để tăng tốc độ nhập liệu Chương trình nhập dữ liệu tiếng Việt viết tay trên Tablet PC – Tháng 08/2011 Đề... Chương trình nhập dữ liệu tiếng Việt viết tay trên Tablet PC – Tháng 08/2011 Đề tài NCKH cấp bộ B2009-22-46 4 Chương 1 Tổng hợp các kết quả nghiên cứu trong và ngoài nước trong lĩnh vực nhận dạng Chương 2 TabletPC API Chương 3 Ink Analyzer Chương 4 Giải pháp nhập liệu tiếng Việt – Đây là nội dung chính của báo cáo Chương 5 Kết luận và Hướng phát triển Chương trình nhập dữ liệu tiếng Việt viết tay. .. điển từ tiếng Việt viết theo kiểu gõ Telex Ngoài ra để hỗ trợ thêm cho quá trình nhập, một bàn phím ảo tối ưu cho nhập liệu tiếng Việt cũng được thiết kế Nhóm nghiên cứu cũng tích hợp vào chương trình một bộ tự điển nhắc từ ghép tiếng Việt giúp tăng tốc độ nhập Sản phẩm của đề tài không thay thế bảng nhập liệu có sẵn (TabletPC Input Panel) của Windows mà chỉ hỗ trợ nhập liệu tiếng Việt viết tay khi... Đến phiên bản Windows Vista, giải thuật nhận dạng chữ viết tay đã được nâng lên một tầm cao mới Bộ nhập liệu viết tay trên Vista cho kết quả nhận dạng với độ chính xác rất cao Tính năng này lại càng tốt hơn nữa trên Windows 7 khi mà công nghệ giao tiếp người-máy hiện nay ngày càng phát triển Chương trình nhập dữ liệu tiếng Việt viết tay trên Tablet PC – Tháng 08/2011 Đề tài NCKH cấp bộ B2009-22-46 2... Microsft chưa đầu tư thực hiện Sản phẩm vnOnline 1.0 – chương trình nhận dạng chữ viết tay on-line tiếng Việt trên Tablet PC của Viện CNTT Hà Nội là sản phẩm duy nhất có giá trị thương mại tính đến thời điểm này nhưng không được phổ biến rộng rãi và chỉ hoạt động trên Windows XP Mục tiêu của đề tài nhằm xây dựng một công cụ nhập liệu tiếng Việt viết tay trên máy tính bảng bằng cách khai thác thư viện InkAPI... tài liệu Thống kê Thực nghiệm MỤC TIÊU Xây dựng ứng dụng nhập liệu viết tay tiếng Việt trên Tablet PC gồm: Bảng nhập liệu viết tay Bàn phím ảo Tính năng nhắc từ đối với từ ghép tiếng Việt Một số tính năng soạn thảo khác Báo cáo gồm các phần sau: Phần mở đầu giới thiệu tổng quan về đề tài, lý do thực hiện đề tài, cách tiếp cận, mục tiêu, phương pháp nghiên cứu và nội dung nghiên cứu Chương. .. các Slate Tablet PC (máy tính bảng không có bàn phím) hoặc khi muốn nhập liệu tiếng Việt trên Convertible TabletPC (máy tính bảng có bàn phím với màn hình có thể xoay và gập) làm việc ở Slate mode Giải pháp của đề tài là thiết kế một bảng nhập liệu viết tay sử dụng thư viện nhận dạng sẵn có của Microsoft cho Tablet PC Đề tài sẽ không nghiên cứu hoặc đề xuất giải thuật nhận dạng chữ viết tay mà chủ... InkAPI để lập trình Ink trên Tablet PC, Tìm hiểu Recognizer và viết bộ nhận dạng Ink, Nâng cao chất lượng nhận dạng bằng cách xây dựng bộ từ điển từ tiếng Việt để nạp vào Recognizer, Xây dựng bàn phím ảo tiếng Việt, Xây dựng bộ tự điển từ ghép tiếng Việt, tích hợp vào ứng dụng để nhắc từ khi nhập, Đánh giá kết quả ĐỐI TƢỢNG NGHIÊN CỨU TabletPC Thư viện InkAPI Lập trình hệ thống trên Windows... tra tài liệu để chấp nhận hoặc từ chối những tài liệu không thể xử lý Sản phầm sau đó trở thành một bộ phận trong dây chuyền sản xuất của RCA Công ty dịch vụ bưu điện Mỹ đã sử dụng các máy OCR để phân loại thư từ 1965 Ứng dung đầu tiên của OCR ở Châu Âu được thực hiện bới Bưu điện Anh Quốc Năm 1965 Chương trình nhập dữ liệu tiếng Việt viết tay trên Tablet PC – Tháng 08/2011 ... (digitizer) Với Tablet PC, người sử dụng có thể điều khiển bằng bút cảm ứng trên màn hình thay vì sử dụng chuột, điều này làm cho hoạt động giao tiêp người-máy tự nhiên hơn Điều khiển bằng bút là một cách nhập liệu mới trên thiết bị Cùng với việc điều khiển bằng bút, nhu cầu nhập liệu bằng bút cũng không thể thiếu Với TabletPC, con người có thể điều khiển, cũng có thể nhập bằng cách viết trực tiếp lên