1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số kĩ thuật khai phá cơ sở dữ liệu ảnh

57 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ KIM THUÝ NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ CƠ SỞ DỮ LIỆU ẢNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ NĂNG TOÀN Hà Nội - 2010 MỤC LỤC MỤC LỤC MỞ ĐẦU Chương KHÁI QUÁT VỀ KHAI PHÁ VÀ KHAI PHÁ DỮ LIỆU ẢNH 1.1 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khái niệm chung khai phá liệu 1.1.2 Các dạng liệu khai thác liệu: 1.1.3 Quá trình khai phá liệu 1.1.4 Các tốn thơng dụng khai phá liệu 10 1.1.5 Ứng dụng khai phá liệu vào lớp đối tượng ảnh 10 1.2 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU ẢNH 11 1.2.1 Giới thiệu 11 1.2.2 Các vấn đề khai phá ảnh (Image mining issues) 12 1.2.3 Các khung khai phá ảnh 15 1.2.3.1 Các khung hướng chức 16 1.2.3.2 Khung hướng thông tin 17 Chương 20 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ẢNH 20 2.1 NHẬN DẠNG ĐỐI TƯỢNG 20 2.1.1 Các giai đoạn nhận dạng 21 2.1.2 Kỹ thuật nhận dạng 22 2.1.2.1 Nhận dạng dựa vào phân hoạch không gian 23 2.1.2.2 Nhận dạng dựa vào cấu trúc 23 2.1.2.3 Nhận dạng dựa mạng neural 24 2.2 TRUY VẤN ẢNH 27 2.2.1 Sơ đồ truy vấn ảnh 28 2.2.2 Phương pháp truy vấn ảnh 29 2.2.2.1 Truy vấn ảnh theo đặc trưng 29 2.2.2.2 Truy vấn ảnh thông qua mô tả 32 2.2.2.3 Truy vấn ảnh theo ngữ nghĩa 33 2.2.2.4 Truy vấn ảnh dựa kỹ thuật xây dựng số ảnh 34 2.3 PHÂN LOẠI VÀ PHÂN CỤM ẢNH 37 2.3.1 Phân loại ảnh 37 2.3.1.1 Phương pháp phân loại có kiểm định (Supervised Classification) 37 2.3.1.2 Phương pháp phân loại không kiểm định (UnsupUrvised Classification) 38 2.3.2 Phân cụm ảnh 39 Chương 43 CHƯƠNG TRÌNH THỬ NGHIỆM 43 3.1 BÀI TOÁN 43 3.2 PHÂN TÍCH BÀI TOÁN 44 3.2.1 Phương pháp nhận dạng ký tự 44 3.2.2 Xây dựng hệ thống nhận dạng ký tự 45 3.2.2.1 Hệ thống nhận dạng ký tự 45 3.2.2.2 Xây dựng mạng neural 46 3.2.2.3 Xử lý liệu 46 3.2.2.3.1 Tách ký tự 46 3.2.2.3.2 Tìm giới hạn ký tự 47 3.2.2.3.3 Ánh xạ vào ma trận 48 3.2.2.4 Huấn luyện mạng neural 50 3.2.2.5 Nhận dạng ảnh ký tự 51 3.3 GIỚI THIỆU ỨNG DỤNG 51 3.3.1 Giao diện chương trình 51 3.3.2 Thực nghiệm 52 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 55 LỜI CẢM ƠN 56 MỞ ĐẦU Khai phá liệu trình tìm kiếm thơng tin có ích, tiềm ẩn mang tính dự đoán khối sở liệu lớn Trong điều kiện yêu cầu nhiều lĩnh vực, đòi hỏi phải có phương pháp nhanh, phù hợp, tự động, xác có hiệu để lấy thơng tin có giá trị Các tri thức chiết xuất từ sở liệu nhiều lĩnh vực nguồn tài liệu hỗ trợ cho người việc lên kế hoạch hoạt động việc định sản xuất kinh doanh Vì vậy, tính ứng dụng khai thác sở liệu vấn đề quan tâm tính ứng dụng cao sống Trong khi, thực tế việc xử lý ảnh số ngày nhiều người quan tâm, phần dung lượng thiết bị lưu trữ ảnh tăng nhanh Thêm phát triển nhanh mạng Internet làm cho số lượng khổng lồ ảnh số đưa lên mạng Nhờ tiến vượt bậc công nghệ thu nhận lưu trữ ảnh nên lưu trữ ảnh cách chi tiết chí với kích cỡ lớn Khi phân tích ảnh, thu nhiều thơng tin hữu ích cho sống Khai phá liệu ảnh việc trích chọn thơng tin ẩn, mối quan hệ liệu ảnh hay mẫu khác không lưu trữ rõ ràng ảnh Nói hơn, khai phá ảnh mở rộng khai phá liệu với đối tượng ảnh Về mặt học thuật, khai phá ảnh kết hợp khả nhận biết ảnh sử dụng máy tính, xử lý ảnh, phục hồi ảnh, khai phá liệu, học máy, sở liệu trí tuệ nhân tạo Xuất phát từ thực tế đó, luận văn nhằm nghiên cứu số kỹ thuật khai phá liệu nhằm áp dụng cho lớp đối tượng ảnh Luận văn bố cục thành ba chương, gồm 60 trang Chương giới thiệu khái quát khai phá khai phá liệu ảnh Chương nghiên cứu số kỹ thuật khai phá từ lựa chọn để áp dụng cho đối tượng ảnh Chương trình bày thiết kế cài đặt thực nghiệm kỹ thuật nhận dạng cho việc khai phá lớp đối tượng ảnh Cuối cùng, luận văn đưa số kết luận đề xuất nghiên cứu tương lai Chương KHÁI QUÁT VỀ KHAI PHÁ VÀ KHAI PHÁ DỮ LIỆU ẢNH 1.1 KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khái niệm chung khai phá liệu Giới thiệu Trong kỷ nguyên Internet, Intranets, Warehouses, mở nhiều hội cho nhà doanh nghiệp việc thu thập xử lý thông tin Hơn nữa, công nghệ lưu trữ phục hồi liệu phát triển cách nhanh chóng sở liệu quan, doanh nghiệp, đơn vị ngày nhiều thông tin tiềm ẩn phong phú đa dạng Cơ sở liệu doanh nghiệp, quan, đơn vị, … đóng vai trò quan trọng cho việc hoạch định kế hoạch kinh doanh thương trường vào năm Hiện tại, việc sử dụng liệu đạt số kết định song số vấn đề tồn đọng như: Dựa hồn tồn vào liệu, khơng sử dụng tri thức có sẵn lĩnh vực, kết phân tích khó làm rõ Phải có hướng dẫn người dùng để xác định phân tích liệu đâu Trong điều kiện yêu cầu nhiều lĩnh vực, đòi hỏi phải có phương pháp nhanh, phù hợp, tự động, xác có hiệu để lấy thơng tin có giá trị Các tri thức chiết xuất từ sở liệu nguồn tài liệu hỗ trợ cho lãnh đạo việc lên kế hoạch hoạt động việc định sản xuất kinh doanh Vì vậy, tính ứng dụng khai thác sở liệu vấn đề quan tâm Khai phá liệu Khai phá liệu khái niệm đời vào năm cuối thập kỷ 1980 Nó q trình khám phá thơng tin ẩn tìm thấy sở liệu xem bước trình khám phá tri thức Khai phá liệu giai đoạn quan trọng tiến trình khai phá tri thức từ sở liệu, tri thức hỗ trợ việc định khoa học kinh doanh Để hình dung vấn đề ta sử dụng ví dụ đơn giản sau: Khai phá liệu ví tìm kim đống cỏ khơ Trong ví dụ này, kim mảnh nhỏ tri thức thông tin có giá trị đống cỏ khơ kho sở liệu rộng lớn Như vậy, thông tin có giá trị tiềm ẩn kho sở liệu chiết xuất sử dụng cách hữu ích nhờ khai phá liệu Chức khai phá liệu gồm có gộp nhóm phân loại, dự báo, dự đốn phân tích liên kết Năm 1989 Fayyad, Smyth Piatestsky-Shapiro dùng khái niệm phát tri thức từ sở liệu (Knowledge Discovery in Database-KDD) Trong đó, khai phá liệu giai đoạn đặc biệt toàn q trình, sử dụng kỹ thuật để tìm mẫu từ liệu Dưới mô hình diễn tả trình phát tri thức Envalution of Rule Data Mining Transformati on Cleansing Pre- Knowledge processing Pattern Selection Preparation Transforme Gathering Target Internet, Cleansed d Data Preprocessed Preparated Data Data Hình 1.1: Quá trình phát tri thức Discovery Trong đó: - Máy chủ CSDL hay kho liệu: lấy liệu thích hợp dựa yêu cầu khai phá người - Cơ sở tri thức: miền tri thức dùng để tìm kiếm hay đánh giá độ quan trọng hình mẫu kết - Máy khai phá liệu: tập module thực chuỗi công việc - Đánh giá mẫu: tương tác với module khai phá liệu để tập trung vào việc duyệt tìm mẫu quan tâm Giao diện đồ họa: cho phép người sử dụng giao tiếp với hệ thống khai phá liệu Các chức khai phá liệu Nhiệm vụ hệ khai phá liệu chia thành loại:  Mô tả: miêu tả đặc điểm chung liệu CSDL  Cho biết điều hữu ích tìm thấy liệu  Giải thích liệu  Dự đốn: thực suy luận liệu có để đưa dự đốn  Dựa liệu khứ, dự báo tương lai  Xu phát triển 1.1.2 Các dạng liệu khai thác liệu:  Cơ sở liệu quan hệ (relational databases)  Cơ sở liệu đa chiều (multidimention structures, data warehouse, data mart)  Cơ sở liệu giao tác (transaction databases)  Cơ sở liệu quan hệ – hướng đối tượng (object relational databases)  Dữ liệu không gian thời gian (spatial, temporal, and time – series data)  Cơ sở liệu đa phương tiện (Multimedia database) 1.1.3 Quá trình khai phá liệu Một trình khai phá liệu bao gồm năm giai đoạn sau: (1) Tìm hiểu nghiệp vụ liệu (2) Chuẩn bị liệu (3) Mơ hình hóa liệu (4) Hậu xử lý đánh giá mơ hình (5) Triển khai tri thức Q trình lặp lại nhiều lần hay nhiều giai đoạn dựa phản hồi từ kết giai đoạn sau Tham gia q trình KPDL nhà tư vấn (NTV) phát triển chuyên nghiệp lĩnh vực KPDL Trong giai đoạn đầu tiên, Tìm hiểu nghiệp vụ liệu, NTV nghiên cứu kiến thức lĩnh vực áp dụng, bao gồm tri thức cấu trúc hệ thống tri thức, nguồn liệu hữu, ý nghĩa, vai trò tầm quan trọng thực thể liệu Việc nghiên cứu thực qua việc tiếp xúc NTV người dùng Khác với phương pháp giải vấn đề truyền thống tốn xác định xác bước đầu tiên, NTV tìm hiểu yêu cầu sơ khởi người dùng đề nghị tốn tiềm giải với nguồn liệu hữu Tập toán tiềm tinh chỉnh làm hẹp lại giai đoạn sau Các nguồn đặc tả liệu có liên quan đến tập toán tiềm xác định Giai đoạn Chuẩn bị liệu sử dụng kỹ thuật tiền xử lý để biến đổi cải thiện chất lượng liệu để thích hợp với yêu cầu giải thuật học Phần lớn giải thuật KPDL làm việc tập liệu đơn phẳng, liệu phải trích xuất biến đối từ dạng sơ liệu phân bố, quan hệ hay hướng đối tượng sang dạng sở liệu quan hệ đơn giản với bảng liệu Các giải thuật tiền xử lý tiêu biểu bao gồm: (a) Xử lý liệu bị thiếu/mất: liệu bị thiếu thay giá trị thích hợp (b) Khử trùng lặp: đối tượng liệu trùng lặp bị loại bỏ Kỹ thuật khơng sử dụng cho tác vụ có quan tâm đến phân bố liệu (c) Giảm nhiễu: nhiễu đối tượng tách rời (outlier) khỏi phân bố chung bị loại khỏi liệu (d) Chuẩn hóa: miền giá trị liệu chuẩn hóa (e) Rời rạc hóa: liệu số biến đổi giá trị rời rạc (f) Rút trích xây dựng đặc trưng từ thuộc tính có (g) Giảm chiều: thuộc tính chứa thơng tin loại bỏ bớt Các tốn giải giai đoạn Mơ hình hóa liệu Các giải thuật học sử dụng liệu tiền xử lý giai đoạn hai để tìm kiếm qui tắc ẩn chưa biết Công việc quan trọng giai đoạn lựa chọn kỹ thuật phù hợp để giải vấn đề đặt Các toán phân loại vào nhóm tốn KPDL dựa đặc tả chúng Các tốn KPDL trình bày chi tiết phần 1.1.4 Các mơ hình kết giai đoạn ba hậu xử lý đánh giá giai đoạn Dựa đánh giá người dùng sau kiểm tra tập thử, mơ hình tinh chỉnh kết hợp lại cần Chỉ mơ hình đạt mức yêu cầu người dùng đưa triển khai thực tế Trong giai đoạn này, kết biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ dễ hiểu cho người dùng Trong giai đoạn cuối, Triển khai tri thức, mơ hình đưa vào hệ thống thông tin thực tế dạng module hỗ trợ việc đưa định Mối quan hệ chặt chẽ giai đoạn trình khai phá liệu quan trọng cho việc nghiên cứu khai phá liệu Một giải thuật KPDL phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường xây dựng để giải mục tiêu cụ thể Do đó, hiểu biết bối cảnh vận dụng cần thiết Thêm vào đó, kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn 42 phép chép WWW (World Wide Web) Yu Zhang (2000) trình bày phân cụm không giám sát tiếp cận truy vấn cho không gian sở liệu ảnh lớn (ACQ – Phân cụm truy vấn tự động) ACQ không yêu cầu số lượng cụm để biết trước vơ tình gây nhiễu Phân cụm áp dụng biến đổi nhỏ khơng gian đặc trưng có hiệu hiệu nghiệm để phát cụm không gian với vector đặc trưng nhiều chiều Kitamoto (2001) áp dụng phương pháp phân cụm K-Mean đồ tự tổ chức (SOM) nhằm thực hóa phân bổ đám mây bão lớn vào không gian hai chiều Những lợi ích phân loại phân cụm ảnh bao gồm: quản lý lưu trữ ảnh tốt hơn, biểu đồ xây dựng số ảnh tối ưu để truy vấn ảnh hiệu nhanh, quan trọng hệ thống khai phá ảnh 43 Chương CHƯƠNG TRÌNH THỬ NGHIỆM 3.1 BÀI TỐN Khái niệm: Nhận dạng ký tự quang học (Optical Character Recognition - OCR), loại phần mềm máy tính tạo để chuyển hình ảnh chữ viết tay chữ đánh máy (thường quét máy quét) thành văn tài liệu OCR hình thành từ lĩnh vực nghiên cứu nhận dạng mẫu, trí tuệ nhận tạo chế Mặc dù công việc nghiên cứu học thuật tiếp tục, phần công việc OCR chuyển sang ứng dụng thực tế với kỹ thuật chứng minh [3] Trạng thái thời công nghệ OCR: Sự nhận dạng xác ký tự Latin đánh máy xem vấn đề giải Tỷ lệ xác thực tế đạt tới 99%, số ứng dụng địi hỏi tỷ lệ xác cao cần phải người kiểm tra lại lỗi Việc nhận dạng chữ in tay, chữ thảo tay, chí phiên đánh máy in vài chữ (đặc biệt chữ có số chữ lớn), cịn đề tài nghiên cứu Các hệ thống nhận dạng ký tự viết tay đạt thành công lớn mặt thương mại năm gần Trong số thiết bị nhập cho thiết bị hỗ trợ cá nhân (PDA) phần mềm chạy Palm OS hãng Apple Newton tiên phong công nghệ Những giải thuật sử dụng thiết bị sử dụng ưu điểm thứ tự, tốc độ, hướng đoạn dòng đơn lẻ biết trước Tương tự, người dùng yêu cầu sử dụng vài loại kiểu chữ định Những phương pháp dùng phần mềm quét tài liệu giấy, nhận dạng xác văn in tay vấn đề lớn bỏ ngỏ Với mức xác từ 80% đến 90%, ký tự in tay nhận ra, độ xác tạo hàng tá lỗi trang, khiến cho công nghệ hiệu vài trường hợp Sự đa dạng OCR biết đến công nghiệp ICR, (Intelligent Character Recognition - Nhận dạng Ký tự Thông minh) 44 Nhận dạng chữ viết tay lĩnh vực nghiên cứu sôi nổi, với tỷ lệ nhận dạng chí cịn thấp văn in tay Tỷ lệ nhận dạng cao viết tay chung chung không sử dụng thông tin ngữ pháp văn cảnh Ví dụ như, nhận dạng chữ từ từ điển dễ việc cố gắng lấy ký tự rời rạc từ đoạn Đọc dịng Tổng cộng tờ séc (luôn viết số) ví dụ sử dụng từ điển nhỏ tăng tỷ lệ nhận dạng nhiều Kiến thức ngữ pháp ngôn ngữ scan giúp xác định từ động từ hay danh từ, ví dụ vậy, cho phép độ xác cao Hình dạng chữ viết tay thân không chứa đủ thông tin để nhận dạng xác (hơn 98%) tất đoạn chữ viết tay Bài toán nhận dạng ký tự tốn hữu ích hầu hết lĩnh vực Bài toán vấn đề thách thức lớn nhà nghiên cứu, toán chưa thể giải chọn vẹn phụ thuộc q nhiều vào người viết biến đổi đa dạng cách viết trạng thái tinh thần người viết Nhận dạng ký tự mục đích khai phá liệu ảnh giới thực Phát biểu toán: Cho tốn nhận dạng kí tự với đầu vào trang văn định dạng tệp ảnh (*.bmp,*.jmp,…) Yêu cầu xây dựng chương trình nhận dạng kí tự văn file ảnh Đầu kí tự lưu trữ dạng văn Giả thiết giai đoạn tiền xử lý thực hiện, tức ảnh phân ngưỡng, xoay ảnh, lọc nhiễu 3.2 PHÂN TÍCH BÀI TỐN 3.2.1 Phương pháp nhận dạng ký tự Chúng ta biết có khả liên tưởng, người dễ dàng làm nhiều điều mà việc lập trình cho máy tính địi hỏi nhiều cơng sức Chẳng hạn việc nhận dạng hay trị chơi chữ Một em bé tự học hỏi để nhận dạng phân loại đồ vật xung quanh mình, biết thức ăn, đồ chơi Một người bình thường đốn vài chữ chữ Nhưng thật khó mà dạy cho máy tính làm việc Từ lâu nhà khoa học nhận thấy ưu điểm óc người tìm cách bắt chước để thực máy tính, tạo cho có khả học tập, nhận dạng phân loại Các mạng neural nhân tạo đời từ nỗ lực Nó thực ý nhanh chóng trở thành hướng 45 nghiên cứu đầy triển vọng mục đích xây dựng máy thơng minh tiến gần tới trí tuệ người Đặc biệt lĩnh vực nhận dạng Trong kỹ thuật nhận dạng ký tự, mạng neural tỏ ưu phương pháp truyền thống chỗ không tốn thời gian cho thủ tục tiền xử lý, làm mảnh ký tự, trích chọn đặc trưng … Mặt khác phương pháp định nhận dạng truyền thống cài tĩnh chương trình, muốn bổ sung thêm mẫu học tỏ phải thiết kế lại chương trình Trong với mạng neural, cần cung cấp tập mẫu vào liệu cho pha huấn luyện bổ xung vào “bộ nhớ mạng” kiểu liệu mà khơng ảnh hưởng đến cấu trúc chương trình ban đầu Đề tài sâu nghiên cứu q trình nhận dạng kí tự mạng neural Phương pháp nhận dạng ký tự mạng neural BackPropagate nhiều lớp lan truyền ngược sai số huấn luyện mạng neural dựa vào kết tách ký tự ảnh 3.2.2 Xây dựng hệ thống nhận dạng ký tự Trên sở phân tích nêu, sau đề xuất sơ đồ khối hệ thống nhận dạng ký tự Hệ thống có khả thu nhận ảnh ký tự, phân tích ảnh để tìm ký tự, sau tiền xử lý cuối sử dụng mạng neural để nhận dạng ký tự 3.2.2.1 Hệ thống nhận dạng ký tự Phương pháp nhận dạng ký tự mạng neural bao gồm bước miên tả hình 3.1 Thu nhận ảnh ký tự Phân tích ảnh để tìm ký tự Tiền xử lý ký tự Mạng neural nhận dạng ký tự Hậu xử lý liệu Hình 3.1: Các bước nhận dạng ký tự dùng mạng neural 46 3.2.2.2 Xây dựng mạng neural Chọn mạng BackPropagation với lớp Điểm ảnh Điểm ảnh Điểm ảnh hoặc Điểm ảnh 16 neural Lớp đầu 150 neural Lớp đầu vào 500 neural Lớp ẩn Hình 3.2: Sơ đồ mạng Neural thiết kế 3.2.2.3 Xử lý liệu 3.2.2.3.1 Tách ký tự Thuật toán Bước 1: Bắt đầu từ dịng kí tự với giá trị x Bước 2: Trên giá trị y, quét từ trái sang phải hết chiều rộng ảnh: - Nếu phát điểm đen đánh dấu y giới hạn kí tự; - Ngược lại, xét điểm Bước 3: Bắt đầu từ giới hạn kí tự vừa tìm giá trị x (0, giới hạn kí tự) Bước 4: Giữ nguyên x, quét đến giới hạn dòng: - Nếu phát điểm đen đánh dấu x phía trái kí tự; - Ngược lại, xét điểm tiếp theo; - Nếu khơng thấy điểm đen tăng x khởi tạo lại y để xét cột tiếp 47 theo Bước 5: Bắt đầu từ phía trái kí tự vừa tìm giới hạn dịng thời (giới hạn trái kí tự, giới hạn dòng) Bước 6: Trên giá trị x, qt đến giới hạn dịng - Nếu khơng có điểm đen đánh dấu x - bên phải kí tự; - Nếu phát điểm đen tăng x khởi tạo lại y để xét cột x (0,0) Giới hạn trái kí tự Giới hạn phải kí tự Q trình tách kí tự y Hình 3.3: Q trình tách kí tự 3.2.2.3.2 Tìm giới hạn ký tự Thuật tốn Bước 1: Bắt đầu từ giới hạn dòng thời bên trái kí tự Bước 2: Trên giá trị y, quét đến bên phải kí tự: - Nếu phát điểm đen đánh dấu y thay đổi lại giới hạn kí tự - Ngược lại, xét điểm tiếp theo; - Nếu khơng tìm thấy điểm đen tăng y khởi tạo lại x để xét hàng 48 Bước 3: Bắt đầu từ giới hạn dịng bên trái kí tự Bước 4: Trên giá trị y, quét đến bên phải kí tự: - Nếu phát điểm đen đánh dấu y giới hạn kí tự; - Ngược lại, xét điểm tiếp theo; - Nếu không phát điểm đen giảm y khởi động lại x để xét hàng Giới hạn ký tự Quá trình tìm giới hạn Giới hạn ký tự Hình 3.4: Q trình tìm giới hạn kí tự 3.2.2.3.3 Ánh xạ vào ma trận Thuật toán Bước 1: Đối với chiều rộng - Khởi tạo với 10 phần tử tương ứng - Ánh xạ điểm đầu (0, y) điểm cuối (C_rong, y) ảnh kí tự tương ứng với giá trị đầu (0, y) giá trị cuối (10,y) ma trận - Chia nhỏ chiều rộng thành 10 giá trị tương ứng Bước 2: Đối với chiều cao - Khởi tạo với 15 phần tử tương ứng - Ánh xạ điểm đầu (x, 0) điểm cuối (x, C_cao) ảnh kí tự tương ứng 49 với giá trị đầu (x, 0) giá trị cuối (x, 15) ma trận - Chia nhỏ chiều cao thành 15 giá trị tương ứng (0,0) 15 (10,15) 10 Hình 3.5: Q trình chia lưới kí tự Để đưa giá trị vào mạng neural ta cần chuyển ma trận điểm ảnh sang ma trận giá trị Thuật toán Bước 1: Bắt đầu từ phần tử (0,0) ma trận Bước 2: Tăng x giữ nguyên giá trị y chiều rộng ma trận - Ánh xạ phần tử tới phần tử mảng tuyến tính - Nếu điểm đen nhận giá trị - Ngược lại nhận giá trị - Nếu x chiều rộng khởi tạo lại x tăng y Bước 3: Lặp lại (x, y) = ( C_rong, C_cao) 50 Hình 3.6: Quá trình ánh xạ từ ma trận điểm sang ma trận giá trị 3.2.2.4 Huấn luyện mạng neural Thuật toán Bước 1: Xây dựng mạng tương ứng với mơ hình tham số Bước 2: Khởi tạo giá trị trọng số với giá trị ngẫu nhiên Bước 3: Nạp file huấn luyện Bước 4: Phân tích ảnh lưu kí tự tìm thấy Bước 5: Đọc giá trị đầu mong muốn từ file chuyển đổi kí tự tới giá trị nhị phân Unicode lưu trữ riêng biệt Bước 6: Với kí tự tìm thấy: - Tính tốn giá trị đầu - So sánh với giá trị đầu mong muốn tương ứng với kí tự tính tốn lỗi - Thay đổi trọng số liên kết - Lặp lại trình lỗi đạt đến giá trị chấp nhận (ví dụ lỗi

Ngày đăng: 16/03/2021, 11:24

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w