1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một phương pháp nhận dạng văn bản tiếng việt

86 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 32,33 MB

Nội dung

LỜ I CẨM Ơ N Vui mừng hoàn thành 6ản Cuận văn, kịiông quên công Cao to (ơn (anfi đạo, thầy cô giáo, g ia đình 6ạn bè ấồng nghiệp T oi JQU g h i nhận chân thành biết on thầy giáo quan tâm tẩ cíiức đạo tíiự c hành giảng dạy íịíio ả cao Học tíiuộc íịíio a Cơng N gfiêj (Đại học Quốc g ia J{à N ộ i; (Đặc biệt cảm ơn thầy fvuxmg ẩẫn: Ts Luxrng c h i 94a i Ts N gơ Quốc Tạo, níiừ rig chun g ia g ià u k in íi nghiêm & V iện Cơng nghệ Tíiơng tin , (fin fi íiưóng nghiên cứu tfieo cíõị c íiỉ dẫn bước; cảm 071 Ç StfSTtyC J ỉổ Tủ (Bảo, V iện % Ịioa học Cơng nghệ tiên tiên N íiậ t (Bản, th ò i g ia n ngắn ngủi V iệ t Nam củng nghe phần báo cáo tóm tắ t cho ý kịển g ợ i mer quý 6áu ^Tất người thầy ngồi việc tận tu y truyền thụ kiến thức, cịn íả gưong sáng đức tín h cần có nghiên cứu ^hoa fiọc T cng jỗin chõn thnh 6it 071 ớó n ới o trường (Đại học Sư phạm ‘H N ộ i, mà trực tiếp íằ (K jio a Tốn—T ín Học, củng g ia đình, bạn Sè nghiệp dành cho tô i nhiều ưu ả i suốt q trìn h học tập củng th ị i g ia n thực ấề tà i Tuy nhiên, (ÍO thân m ói bắt đầu đưòtig nghiên cứu khoa Học đầy thách thức, nên chắn 6ản Cuận văn cịn nhiều thiếu sót, 6ất cập mà tơ i chưa đủ k ịiả nfiân tíiâ ỳ Hoặc nhiều nhận thấy níim ig chưa ấủ sức vư ợt qua cRẠt mong đĩtxỵc thầy tiếp tục chí giáo Jfà N ộ i, thảng 12 - 2001 Lẽ CMinfi ĩío n g Lc M inh Hoàng Một phương pháp nhận dạng văn tiéng Việt «£* IV Kết luận 68 Chương V: Xử lý nhận dạng văn b ả n 70 I Tiền xử lý văn b ản 70 II Tách dòng 73 III Tách tò 73 IV Nhận dạng 74 V Hậu xử lý 74 Kết luận 75 I Đánh giá tóm tắt kết đạt 75 II Nhừng vấn đề chưa khắc phục đề xuất cách giải 76 III Hướng nghiên cứu đề tà i 78 Phụ lục: Cài đặt thử nghiệm 80 I Các chức hệ thống thử nghiệm 80 11 Một số kết thử nghiệm .83 Tài liệu tham khao 85 Luận vãn tốt nghiệp cao học Lê M inh H oàng M ột phương pháp nhận dạng văn ban tiếng Việt SÉ* - LỜI NĨI ĐẢU > « P | từ lâu, nhân loại mơ ước chế tạo máy móc có số khả người, khả nghe, hiểu tiếng nói hay nhìn nhận định vật thề xung quanh Nhưng tới gần tiến công nghệ cho phép với phát triển lý thuyết lĩnh vực xử lý thơng tin, mơ ước dần trở thành thực Chúng ta biết rằng, người nhận thức giới khách quan giác quan tư Hiện nay, có nhiều thiết bị cảm nhận (sensor) có khả thu nhận thơng tin mơi hường xung quanh giống với chức cua giác quan người Đơn giản micro để thu nhận âm camera có khả thu nhận hình ảnh v ấn đề tiếp phải xử lý thơng tin thu Đối với người q trình xử lý thơng tin q trình tư dựa chế hoạt động não Đây trình phức tạp mà ngày nay, nắm bắt phần nhỏ chế hoạt động Có lẽ máy móc đạt tới khả tư người, nồ lực bước mình, nhà khoa học phân tách mảng thông tin phần định xử lý riêng khuôn khổ Chính xử lý riêng biệt tạo thành công định việc tạo hệ thống kỳ thuật có số lực "tư duy" gần với người Việc tạo hệ thống có khả nhận định thơng tin hướng nghiên cứu có thành công Trong hệ thống này, từ dạng thông tin thu nhận được, hệ thống phân tách thành mẫu thơng tin riêng biệt, sau biểu diễn mẫu thông tin này, xếp, phân loại chúng, dùng kỹ thuật xu lý để nhận ý nghĩa thơng tin Đây tư tưởng chủ đạo tốn nhận dạnu mầu (Pattern Recognition) Phạm vi ứng dụng lý thuyết nhận J -Luận văn tơt nghiệp cao học Lơ Minh Hồng Một phương pháp nhận dạng văn bán tiéng Việt «é* dạng mẫu áp dụng cho lĩnh vực như: Nhận dạng tín hiệu, nhận dạng tiếng nói, nhận dạng ảnh v.v Nhận dạng anh coi cơng đoạn cuối trình xử lý ảnh Rất nhiều lý thuyết kỹ thuật xử lý ảnh phát triển với mục đích để nhận dạng tốt đối tượng ảnh thu Kỹ thuật nhận dạng ảnh dựa vào việc phân tích biến đổi mẫu để rút đặc trưng đối tượng cần nhận dạng Việc gán ý nghĩa cho lớp mẫu việc nhận dạng mẫu xếp vào lóp Nhận dạng chữ (chữ in chữ viết tay) vấn đề nhận dạng ảnh nhằm mục đích tự động hố q trình thu nhận thơng tin dạng chữ Trên giới đà có số hệ thống nhận dạng chữ viết cỡ lớn có độ xác tương đối cao Ngồi yếu tố bí mật cơng nghệ, chữ viết dân tộc có đặc thù riêng, đòi hỏi người dân tộc phải quan tâm nghiên cứu, khai thác triệt đế yếu tố đặc thù tiếng mẹ đẻ nhằm phát triển hệ thống nhận dạng chữ viết phù hợp Cách thức thu thập thông tin phương pháp nhận dạng tự động chữ viết mang nhiều ý nghĩa thực tiễn Có thể kể số ứng dụng dựa khả nhận dạng chữ nghiên cứu đưa vào sử dụng như: Tự động đọc văn chữ in, hệ thống kiểm tra thông số ghi tiên sản phẩm, hệ thống số liệu hoá đồ, hệ thống tự động phân loại thư từ bưu kiện, hệ thống thống kê tự động phiếu điều tra v.v Nghiên cứu vấn đề này, từ đầu thấy có nhiều khó khăn, với hệ thống nhận dạng chữ viết cỡ lớn giới, thành công đạt số kí tự phổ biến Mặt khác, chữ viết dân tộc ta, ngồi ngun âm ă, â, ê, ơ, cịn có dấu đặc trưng Song nhu cầu khám phá đẽ có thêm hiểu biết, sau tham khảo số tài liệu nghiên cứu ngồi nước, tơi mạnh dạn hồn thành luận văn với đề tài: "Một phương pháp nhận dạng văn Tiếng Việt" sử dụng mơ hình Markov ấn nhận dạng chữ in Luận văn tốt nghiệp cao học Lê M inh H oàng Phân lóp (Classification): Đây bước định ừinh nhận dạng Tất bước xử lý trước nhằm mục đích cho việc phân lớp mẫu cách thành cơng Q trình phân lóp hiểu cách đơn giản trình biến đối số liệu định lượng đầu vào sang số liệu định tính đầu Luận tt nghip cao hc Lờ Minh Hong ã*Ơ Mt phương pháp nhận dạng văn tiéng Việt «£* 1.2 Tăng độ tương phản phân ngũng Ảnh gốc có thê văn chữ đen trắng mà có màu màu chữ khác Khi chuyển sang ảnh xám, ta tăng độ tương phản phân ngưỡng để dễ dàng đọc đường nét ảnh Mẹ lội qua suôi, mưa bom không ngại Mẹ nhẹ nhàng đưa lối, tiễn qua núi đồi Mẹ chìm đêm tối, gió mưa, tóc che lơi Hình 30: Ảnh gốc (trái) ảnh sau phân ngưỡng (phải) 1.3 Xoay văn cho thẳng hàng Văn quét vào máy bị lệch góc cần phải xoay lại đế thuận lợi cho việc tách dịng Muốn ta xét góc quay khoảng từ -10° đến 10°, với góc (p, xét đường thẳng từ mép trái văn sang mép phải tạo với trục nằm ngang góc cp sử dụng thuật tốn Bresenham đếm xem có đường thẳng khơng qua điểm đen (C( Luận vân tô t nghiệp cao học Lê Minh Hoàng Một phương pháp nhận dạng văn bàn tiếng Việt v* II 1.3 Tích họ p vói hệ thống khác Hệ thống nhận dạng văn cần phải tích hợp với hệ thống khác để hoàn tất trình khai phá liệu ảnh Hệ thống thống kê tự động phiếu điều tra hay hệ thống chấm điếm thi trắc nghiệm ví dụ cho thấy hiệu lực phối hợp hệ thống Qua việc phát có «7000 âm tiết tiếng Việt, với kỹ thuật nén âm ngày đạt tỉ lệ chất lượng cao hơn, tương lai cho hệ thống nhận dạng tự động đọc văn tiếng Việt trở nên gần Tuy nhiên đế việc nhận dạng chữ viết (và chữ in) tiếng Việt có ý nghĩa thực tiễn ngày lớn, cần phải đề nghị không ngừng đấu tranh làm sáng tiếng Việt, chuẩn hoá mã ký tự, thống cách bỏ dấu Chống biểu viết sai, sử dụng từ ngừ cách tuỳ tiện Luận vân tôt nghiệp cao học Lê M inh Hoàng M ột phương pháp nhận dạng văn bán tiếng Việt PHỤ LỤC: CÀI ĐẶT THỬ NGHIỆM ■ ■ I CÁC CHỨC NĂNG CỦA HỆ■ THỐNG THỬ NGHIỆM ■ (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) _ - ‘y — điểm đánh sổ ặp địa điểm có địa điểm nh trình di iều cho máy bay Để hi lần mị • li Hình 33: Giao diện ch ú t hệ thống thử nghiệm Nhóm chức thao tác file (1): Nạp file ảnh từ đĩa, chức hỗ trợ hai định dạng file ảnh: Bitmap JPEG, hệ thống tự động thực thao tác: chuyển thành ảnh đa mức xám, tăng độ tượng phản chuyển thành ảnh đen trắng (2): Tương tự chức (1) ảnh nạp tà đĩa mà lấy từ clipboard (3): Ghi ảnh Luận văn tôt nghiệp cao học Lê M inh Hoàng “

Ngày đăng: 16/03/2021, 10:13

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN