1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kỹ thuật SVM trong nhận dạng phiếu điểm

60 357 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 6,79 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ THU HUYỀN KỸ THUẬT SVM TRONG NHẬN DẠNG PHIẾU ĐIỂM Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Nguyễn Văn Vinh Thái Nguyên – 2013 LỜI CAM ĐOAN Tên là: Vũ Thị Thu Huyền Lớp: Cao học Công nghệ thông tin K10B Khoá học: 2011 - 2013 Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60 48 01 Cơ sở đào tạo: Trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên Giáo viên hướng dẫn: TS Nguyễn Văn Vinh Cơ quan công tác: Trường Đại học Công nghệ Thông tin Truyền thông Đại học Thái Nguyên Tôi xin cam đoan toàn nội dung trình bày luận văn kết tìm hiểu nghiên cứu riêng tôi, trình nghiên cứu luận văn “Kỹ thuật SVM nhận dạng phiếu điểm” kết liệu nêu hoàn toàn trung thực Mọi thông tin trích dẫn tuân theo luật sở hữu trí tuệ, có liệt kê rõ ràng tài liệu tham khảo Tôi xin chịu hoàn toàn trách nhiệm với nội dung viết luận văn Thái Nguyên, ngày 18 tháng 09 năm 2013 HỌC VIÊN Vũ Thị Thu Huyền LỜI CẢM ƠN Luận văn thực Trường Đại học Công nghệ Thông tin Truyền Thông - Đại học Thái Nguyên hướng dẫn thầy TS Nguyễn Văn Vinh Trước hết em xin bày tỏ lòng biết ơn sâu sắc tới thầy TS Nguyễn Văn Vinh, trường Đại học Công nghệ - ĐH Quốc gia Hà Nội, người tận tình hướng dẫn giúp đỡ để em hoàn thành tốt luận văn Em xin gửi lời cảm ơn chân thành đến thầy cô giáo Trường Đại học Công nghệ Thông tin Truyền Thông - Đại học Thái Nguyên, thầy cô giáo nhiệt tình giảng dạy, truyền đạt kiến thức cho em suốt trình học tập trường trình làm luận văn Cuối em xin gửi lời cảm ơn đến gia đình, bạn bè, đồng nghiệp người động viên, giúp đỡ tạo điều kiện cho em trình học tập hoàn thành luận văn Thái Nguyên, ngày 18 tháng 09 năm 2013 HỌC VIÊN Vũ Thị Thu Huyền MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Ý nghĩa NNSRM Nearest Neighbor Rule-based Structural Risk Minimization OVO OVR PCA PLD QP RBF SMO SVM One - versus - One One - versus - Rest Principal Component Analysis Picture Language Description Quadratic Programing Radius Basic Function Sequential Minimal Optimization Support Vector Machine DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU Các phương pháp thống kê gần thường đề cập tới lĩnh vực xử lý ngôn ngữ tự nhiên, thị giác máy, nhận dạng tiếng nói, … xem chọn lựa có cải tiến phương pháp truyền thống phương pháp tận dụng lượng liệu khổng lồ ngày tăng lên sức mạnh tính toán máy tính [10] Các phương pháp học theo thống kê đặc biệt thích hợp với lĩnh vực thị giác máy nhận dạng xác định đối tượng hiệu [13] Một phương pháp Máy hỗ trợ vector (Support Vector Machine - SVM) SVM phương pháp máy học giới thiệu từ năm 1995 ngày trở nên phổ biến việc ứng dụng vào lĩnh vực như: xử lý ảnh, xử lý ngôn ngữ, thị giác máy, … [10], [13] SVM xây dựng, mở rộng phân tích dựa lý thuyết cách chặt chẽ Ưu điểm SVM so với phương pháp khác cách giải vấn đề mang tính toàn cục phương pháp khác mang tính cục Tăng cường khả SVM cách chọn hàm thích hợp hàm có khả học liệu phức tạp phân chia phi tuyến (ví dụ hàm đa thức (Polynomial), hàm bán kính (RBF) hàm Perceptron (mạng nơron lớp) thường dùng hàm xấp xỉ) để phát triển thành công cụ phân lớp Các toán nhận dạng nghiên cứu nhiều bao gồm nhận dạng mẫu hình học (vân tay, mặt người, hình khối,…), nhận dạng tiếng nói nhận dạng ký tự viết Nhận dạng ký tự viết bao gồm hai kiểu nhận dạng ký tự in nhận dạng ký tự viết tay Cho đến toán nhận dạng ký tự in giải trọn vẹn với đời nhiều hệ thống nhận dạng đạt tới độ xác gần tuyệt đối Nhận dạng ký tự viết tay vấn đề thách thức nhà nghiên cứu, toàn chưa thể giải trọn vẹn phụ thuộc nhiều vào người viết biến đổi đa dạng cách viết trạng thái tinh thần người viết Hiện nay, có nhiều kỹ thuật học máy ứng dụng cho toán nhận dạng chữ viết tay cho kết đầy triển vọng [11], [14] Một kỹ thuật kỹ thuật học máy SVM [5], [12] Do chọn đề tài: “Kỹ thuật SVM nhận dạng phiếu điểm” Tuy nhiên hạn chế mặt thời gian độ phức tạp toán, sâu nghiên cứu kỹ thuật SVM mô chương trình nhận dạng phiếu điểm Các phiếu điểm sử dụng luận văn mẫu phiếu điểm sử dụng trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái Nguyên Nội dung luận văn gồm: Chương 1: Khái quát nhận dạng kỹ thuật SVM Trình bày lý thuyết nhận dạng, kỹ thuật SVM nhận dạng: khái niệm nhận dạng, phương pháp nhận dạng Các vấn đề ứng dụng nhận dạng Giới thiệu sơ lược SVM, ứng dụng thực tế SVM Chương 2: Kỹ thuật SVM nhận dạng phiếu điểm Giới thiệu kỹ thuật SVM, thuật toán SVM Đặc trưng phiếu điểm, kỹ thuật SVM nhận dạng phiếu điểm Chương 3: Thiết kế chương trình kết thử nghiệm Thiết kế chương trình minh họa kỹ thuật phân lớp với SVM, nhận dạng số viết tay, phiếu điểm với SVM Kết luận hướng phát triển Trình bày kết đạt được, hướng phát triển Do thời gian trình độ hạn chế nên luận văn khó tránh khỏi thiếu sót, kính mong nhận đóng góp, bảo thầy giáo, cô giáo bạn đồng nghiệp Cuối cùng, tác giả xin chân thành bày tỏ lòng biết ơn sâu sắc đến thầy giáo TS Nguyễn Văn Vinh - Giảng viên Đại học Công nghệ, Đại học Quốc Gia Hà Nội tận tình hướng dẫn, bảo, giúp đỡ, khích lệ tác giả suốt trình làm luận văn Đồng thời, tác giả xin chân thành cảm ơn thầy cô trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái Nguyên tạo điều kiện thuận lợi, giúp đỡ tác giả hoàn thành luận văn CHƯƠNG KHÁI QUÁT VỀ NHẬN DẠNG VÀ KỸ THUẬT SVM 1.1 Khái quát nhận dạng 1.1.1 Khái niệm nhận dạng [4] Nhận dạng ảnh trình phân loại đối tượng biểu diễn theo mô hình gán cho chúng tên gọi dựa theo quy luật mẫu chuẩn Quá trình nhận dạng dựa vào mẫu học biết trước gọi nhận dạng mẫu Quá trình nhận dạng gồm giai đoạn chính: - Chọn mô hình biểu diễn đối tượng - Chọn luật định (phương pháp nhận dạng) suy diễn - Học nhận dạng Trong việc lựa chọn để biểu diễn đối tượng, đối tượng xác định theo cách định lượng (mô hình tham số) hay định tính (mô hình cấu trúc) Khi đối tượng xác định, trình nhận dạng chuyển sang giai đoạn thứ hai giai đoạn học (Learning) Học giai đoạn cung cấp tri thức cho hệ thống Mục đích học nhằm cải thiện, điều chỉnh việc phân loại tập đối tượng thành lớp Nhận dạng tìm quy luật thuật toán để gắn đối tượng vào lớp hay nói cách khác gán cho đối tượng tên Học theo mẫu: Kỹ thuật phân loại nhờ kiến thức biết trước gọi học theo mẫu Đặc điểm kỹ thuật ta có thư viện mẫu chuẩn Mẫu cần nhận dạng đem so sánh với mẫu chuẩn để xem thuộc loại Vấn đề chủ yếu thiết kế hệ thống để đối sánh đối tượng ảnh với mẫu chuẩn định gán cho chúng vào lớp Việc đối sánh nhờ vào thủ tục định dựa công cụ gọi hàm phân lớp hay hàm định [2] Học mẫu: Kỹ thuật phải tự định lớp khác xác định tham số đặc trưng cho lớp Học mẫu gặp khó khăn so với học theo mẫu Một mặt, số lớp trước, mặt khác đặc trưng lớp trước Kỹ thuật nhằm tiến hành cách 10 gộp nhóm chọn lựa cách tốt Bắt đầu từ tập liệu, nhiều thủ tục xử lý khác nhằm phân lớp nâng cấp dần để đạt phương án phân loại Lĩnh vực nhận dạng chữ chia làm hai loại: Nhận dạng chữ in nhận dạng chữ viết tay Đến thời điểm này, nhận dạng chữ in giải gần trọn vẹn Tuy nhiên, nhận dạng chữ viết tay vấn đề thách thức lớn nhà nghiên cứu Nhận dạng chữ viết tay phân làm hai loại: nhận dạng chữ viết tay online (trực tuyến) nhận dạng chữ viết tay offline (ngoại tuyến) [5] Nhận dạng chữ viết tay online thực sở lưu lại thông tin nét chữ thứ tự nét viết, hướng tốc độ nét viết trình viết Đây sở để máy tính nhận diện chữ cái, việc nhận dạng không gặp nhiều khó khăn Ngược lại, nhận dạng chữ viết tay offline, liệu đầu vào ảnh văn quét vào nên việc nhận dạng có độ khó cao nhiều so với nhận dạng chữ viết tay online Do liệu đầu vào ảnh văn nên nhận dạng chữ viết tay offline nhận dạng chữ in gọi chung nhận dạng chữ quang học (OCR - Optical Character Recognition) Một hệ thống nhận dạng tóm tắt theo sơ đồ sau: Hình 1.1 Sơ đồ tổng quát hệ thống nhận dạng ảnh 1.1.2 Một số kỹ thuật nhận dạng 1.1.2.1 Nhận dạng dựa theo miền không gian [4], [14] Trong kỹ thuật này, đối tượng nhận dạng đối tượng định lượng Mỗi đối tượng biểu diễn vectơ nhiều chiều Phân hoạch không gian 46 Khối có nhiệm vụ tách ký tự khỏi phiếu điểm Chỉ phiếu điểm tách cô lập dòng (ứng với thông tin điểm sinh viên) cô lập ký tự đơn khỏi tổng thể hệ thống nhận dạng ký tự Trích chọn đặc trưng đóng vai trò quan trọng hệ thống nhận dạng Trong trường hợp đơn giản nhất, ảnh đa cấp xám ảnh nhị phân sử dụng cho việc nhận dạng Tuy nhiên, hầu hết hệ nhận dạng, để giảm độ phức tạp tăng độ xác thuật toán phân lớp đòi hỏi đặc trưng trích chọn phải rút gọn lại nhỏ tốt phải đảm bảo thông tin ký tự Với mục tiêu này, tập đặc trưng trích chọn cho lớp cho phân biệt với lớp khác Hình 2.11 Tách thông tin phiếu điểm 2.2.2.3 Huấn luyện nhận dạng Tập liệu huấn luyện sau qua khâu tiền xử lý trích chọn đặc trưng đưa vào máy huấn luyện phân lớp SVM Sau kết thúc trình huấn luyện, hệ thống lưu lại giá trị tham số hàm định phân lớp để phục vụ cho việc nhận dạng sau 2.2.2.4 Hậu xử lý Đây công đoạn cuối trình nhận dạng phiếu điểm Có thể hiểu hậu xử lý bước ghép nối kí tự, điểm nhận dạng chuyển vào sở liệu lưu trữ điểm sinh viên, đồng thời phát lỗi nhận dạng sai cách kiểm tra giá trị số báo danh, số phách, điểm số dựa miền giá trị chúng Việc phát lỗi, sai sót nhận dạng bước góp phần đáng kể vào việc nâng cao chất lượng nhận dạng phiếu điểm 47 2.3 Kết luận SVM đánh giá hướng tiếp cận nhận diện chữ viết tay đạt độ xác cao Hạn chế lớn SVM tốc độ phân lớp chậm, tùy thuộc vào số lượng support vector Mặt khác, giai đoạn huấn luyện SVM đòi hỏi nhớ lớn, toán huấn luyện với số lượng mẫu lớn gặp trở ngại vấn đề lưu trữ Dù vậy, SVM đánh giá phương pháp học máy tiên tiến đóng góp nhiều thành công lĩnh vực khai phá liệu lĩnh vực nhận dạng Chương trình bày hệ thống mô phân lớp với SVM, nhận dạng phiếu điểm với SVM 48 CHƯƠNG THIẾT KẾ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM 3.1 Phân lớp với SVM Xét ví dụ toán phân lớp nhị phân chương Có tập hợp điểm màu đỏ điểm màu xanh hình vẽ; ta phải tìm đường ngăn cách cho điểm đỏ điểm xanh nằm hai bên khác Hình 3.1 Chương trình mô phân lớp Chương trình phân lớp điểm màu xây dựng ngôn ngữ lập trình C#, NetFramework 4.0, thư viện OpenCLTemplate.dll, Cloo.dll dựa thuật toán phân lớp nhị phân với SVM trình bày chương Module xây dựng support vector sau: float[] features = new float[] { 1, 2, }; float classification = 4; TrainingUnit u = new TrainingUnit(features, classification); float[] features2 = new float[] { 1, 2, }; float classification2 = 2; TrainingUnit u2 = new TrainingUnit(features2, classification2); float[] features3 = new float[] { 1, 2, }; float classification3 = 1; TrainingUnit u3 = new TrainingUnit(features3, classification3); TrainingSet TSet = new TrainingSet(); TSet.addTrainingUnit(u); 49 TSet.addTrainingUnit(u2); TSet.addTrainingUnit(u3); MultiClassSVM SVM = new MultiClassSVM(TSet); Tiến hành phân lớp ta kết sau: Hình 3.2 Mô phân lớp nhị phân với SVM Phân nhiều lớp: Giả sử ta có tập hợp điểm màu đỏ, màu xanh màu xanh dương, chương trình tiến hành phân tập hợp điểm thành vùng khác Hình 3.3 Phân nhiều lớp với SVM (trước phân lớp) 50 Hình 3.4 Phân nhiều lớp với SVM (sau phân lớp) 3.2 Nhận dạng phiếu điểm Như trình bày phần trên, ứng dụng hiệu SVM nhận dạng chữ viết tay Qua tìm hiểu, nghiên cứu kỹ thuật SVM, tác giả xây dựng chương trình mô nhận dạng chữ số, chữ số viết tay phiếu điểm Input: Tập liệu huấn luyện gồm chữ số từ đến 9, phiếu điểm Output: Nhận dạng giá trị điểm phiếu điểm Tập liệu huấn luyện: ảnh chữ số viết tay nhị phân hóa, có kích thước 32x32 Hình 3.5 Một mẫu liệu huấn luyện 51 Phiếu điểm cần nhận dạng: Là ảnh scan phiếu điểm sử dụng trường Đại học Công nghệ thông tin truyền thông, Đại học Thái Nguyên Hình 3.6 Phiếu điểm cần nhận dạng Chương trình mô nhận dạng phiếu điểm xây dựng dựa ngôn ngữ lập trình C#, NetFramework 4.0, thư viện AForge.NET (AForge.NET 52 Framework thiết kế mở, cung cấp cho nhà phát triển, nhà nghiên cứu lĩnh vực khoa học máy tính, trí tuệ nhân tạo, xử lý ảnh,…) Mô hình chức hệ thống Huấn luyện Support vectors Nhận dạng số viết tay Hệ thống nhận dạng phiếu điểm Quản lý Support vectors Nhận dạng phiếu điểm Hình 3.7 Mô hình hệ thống nhận dạng phiếu điểm Quy trình hệ thống nhận dạng phiếu điểm: Đầu tiên, tập liệu huấn luyện gồm chữ số viết tay đọc vào chương trình Mỗi mẫu tập liệu huấn luyện gán giá trị tương ứng với số từ đến Chương trình tiến hành tạo Support vectors phân lớp giá trị số với số lại Sau tạo Support vectors, chức quản lý Support vectors cho phép xem Support vectors tạo được, số lượng, trọng số phân lớp giá trị số từ tập liệu mẫu Sau huấn luyện tạo Support vectors xong, ta tiến hành thử nghiệm nhận dạng số viết tay Chức nhận dạng số viết tay xây dựng gồm vùng chính: vùng viết số (sử dụng chuột máy tính), vùng biểu đồ thị kết phân lớp, vùng kết nhận dạng tìm Chức nhận dạng phiếu điểm gồm công đoạn: Chọn phiếu điểm: Lựa chọn phiếu điểm cần nhận dạng Xử lý phiếu điểm: Loại bỏ nhiễu ảnh phiếu điểm, trích chọn vùng hiển thị điểm ảnh Nhận dạng: Sử dụng Support vectors tạo để nhận dạng điểm phiếu 53 3.2.1 Huấn luyện Dữ liệu huấn luyện gồm 500 ảnh chữ số viết tay nhị phân hóa lưu file dulieuhuanluyen.txt Mỗi liệu mẫu lưu từ xuống gồm 33 dòng 32 cột Dòng đến dòng 32 biểu diễn giá trị nhị phân ảnh mẫu, dòng thứ 33 giá trị ảnh mẫu Module huấn luyện sau: Hình 3.8 Huấn luyện Support Vector theo liệu mẫu Các Support vector xây dựng dựa vào liệu huấn luyện Hình 3.9 Các support vector 3.2.2 Nhận dạng 54 Sau xây dựng support vector phân lớp chữ số từ đến 9, ta tiến hành nhận dạng với liệu test gồm 500 chữ số Kết sau: Hình 3.10 Nhận dạng chữ số với SVM Với liệu này, chương trình nhận dạng 95% giá trị trùng với giá trị ảnh Nhận dạng phiếu điểm: Không tính tổng quát, để đơn giản hóa, chương trình giả sử cần nhận dạng điểm số có chữ số Với điểm viết dạng thập phân, ta lấy phần nguyên điểm để nhận dạng Chọn phiếu điểm cần nhận dạng Hình 3.11 Nhận dạng phiếu điểm Xử lý nhiễu, tách hàng mang giá trị điểm 55 Hình 3.12 Xử lý phiếu điểm Tiến hành nhận dạng Hình 3.13 Nhận dạng phiếu điểm 3.3 Đánh giá kết Với tập liệu huấn luyện gồm 500 chữ số viết tay từ đến 9, số lượng Support vectors tạo 1471 Kết thử nghiệm sau: Nhận dạng số viết tay trực tiếp chương trình: Giá trị số Số lần thử 140 Nhận dạng 115 Tỉ lệ xác 82.14 % 56 140 140 140 140 140 140 140 140 140 Nhận dạng phiếu điểm: Điểm số Nhận xét: 123 110 105 107 117 125 127 132 123 87.86 % 78.57 % 75.00 % 76.43 % 83.57 % 89.29 % 90.71 % 94.29 % 87.86 % Kết nhận dạng Chính xác 1 8 1 1 1 0 57 Với liệu mẫu gồm 500 chữ số viết tay Chương trình nhận dạng chữ số viết tay trực tiếp với độ xác 84.54% Tuy nhiên với chữ số viết tay từ phiếu điểm, kết nhận dạng đạt độ xác 42.85% Một số lý khiến độ xác kết nhận dạng thấp: Tập liệu huấn luyện nhỏ (500 mẫu) Chữ số viết tay đa dạng, phong phú, tùy thuộc cách viết người, để trình nhận dạng đạt kết xác cần tập liệu huấn luyện lớn nhiều Vấn đề tiền xử lý ảnh phiếu điểm, loại bỏ nhiễu, trích trọn đặc trưng chưa xác Do giới hạn mặt thời gian, nội dung đề tài, trình độ hạn chế tác giả, nên việc tiền xử lý ảnh phiếu điểm để nhận dạng chưa giải triệt để dẫn đến việc nhận dạng chưa xác 58 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Những kết mà luận văn đạt Về mặt lý thuyết Tìm hiểu thành phần kiểu kiến trúc nhận dạng, phân biệt số phương pháp nhận dạng Nắm ý nghĩa việc học hay tích luỹ, có vai trò to lớn quy tắc học, mô hình học thuật toán học nhiều khả ứng dụng khác Kỹ thuật SVM, thuật toán SVM, ứng dụng SVM thực tế Nắm quy trình chung xây dựng hệ thống nhận dạng Về mặt thực tiễn Đưa phương pháp xử lý với ký tự số viết tay rời rạc, xây dựng hệ thống nhận dạng ký tự số viết tay rời rạc sử dụng kỹ thuật SVM Xây dựng chương trình minh họa Tuy biết điều thu nhận phần nhỏ ngành nghiên cứu lớn, tự nhận thấy gặt hái thành công định giai đoạn nghiên cứu Hướng phát triển Bên cạnh kết đạt được, có vấn đề chưa luận văn giải hay đề cập tới Trong thời gian tới tiếp tục nghiên cứu hoàn thiện đề tài với mục tiêu đặt sau: - Nâng cao hiệu độ xác hệ thống nhận dạng ký tự số viết tay rời rạc - Xây dựng hệ thống nhận dạng chữ viết tay tiếng Việt sử dụng kỹ thuật SVM 59 TÀI LIỆU THAM KHẢO Tiếng việt [1] Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai (2008), Trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay tiếng Việt, Tạp chí Công nghệ thông tin truyền thông, ISSN 0866-7039, kỳ 3, 10-2008 [2] Đỗ Năng Toàn, Phạm Việt Bình (2007), Giáo trình Xử lý ảnh, Đại học Thái Nguyên [3] Phạm Anh Phương, Lê Thanh Long, Võ Văn Lường, Nhận dạng chữ viết tay rời rạc sở phương pháp máy véc tơ tựa, Kỷ yếu Hội nghị khoa học, Đại học Duy Tân [4] Lương Mạnh Bá, Nguyễn Thanh Thủy (2008), Nhập môn xử lý ảnh số, Đại học Bách Khoa Hà Nội [5] Nguyễn Thị Vân (2011), Tìm hiểu SVM nhận dạng chữ viết tay hạn chế, Đại học Công nghệ Hà Nội [6] Nguyễn Thị Hải Yến (2007), Phân lớp bám giám sát ứng dụng thuật toán SVM vào phân lớp trang WEB, Khóa luận tốt nghiệp đại học, Đại học Công nghệ, Đại học quốc gia Hà Nội Tiếng Anh [7] Andrew W.More,(2001), Support Vector Machines, Associate professor [8] School of Coputer Science Camegie Mellon University Nello Cristiannini and John Shawe-Taylor (2000), An Introduction to Support Vector Machines anh other kernel-based learning methods, [9] Cambridge University Press H.Bunke, M.Roth, E G Schukat-Talamazzani (1994), Off-line Recognition of Cursive Script Produced by Cooperative Writer, in Proc 12th Int.Conf.Pattern Recognition, Jerusalem, Israel [10] Yaser S Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin “Learning from data” 2012 60 [11] Rafael M O Cruz, George D C Cavalcanti and Tsang Ing Ren Handwritten Digit Recognition Using Multiple Feature Extraction Techniques and Classifier Ensemble In proceddings of 17th International Conference on Systems, Signals and Image Processing 2010 [12] Xiao-Xiao Niu and Ching Y Suen “A novel hybrid CNN-SVM classifier for recognizing handwritten digits” Pattern Recognition, Volume 45, Issue 4, April, 2012, Pages 1318-1325 [13] Boguslaw Cyganek “Object Detection and Recognition in Digital Images: Theory and Practice” Wiley Editor, First edition, August, 2013 [14] Cheng-Lin Liu, Kazuki Nakashima, Hiroshi Sako, Hiromichi Fujisawa “Handwritten digit recognition: benchmarking of state-of-the-art techniques” Pattern Recognition 36 (2003) 2271 - 2285 [15] Chih-Chung Chang and Chil-Jen Lin, “LIBSVM: a Library for Support Vector Machines”, National Taiwan University, 2004 [...]... cỏch vit ca tng ngi Cựng mt ngi vit nhng ụi khi cng cú nhiu s khỏc bit trong cỏch vit tu thuc vo tng ng cnh, kiu vit ca mt 19 ngi cng cú th thay i theo thi gian hoc theo thúi quen iu ny gõy ra nhiu tr ngi trong vic trớch chn c trng cng nh la chn mụ hỡnh nhn dng 1.2 K thut SVM trong nhn dng 1.2.1 K thut SVM Support Vector Machine (SVM) l mt phung phỏp phõn lp da trờn lý thuyt hc thng kờ, c xut bi Vapnik... in t Phng phỏp dựng 22 SVM khỏ hiu qu trong vic phõn loi th rỏc, vỡ v bn cht nú vn l phng phỏp s dng thng kờ nờn cú nhng u im nht nh Ta biu din cỏc th nhn c di dng cỏc vector Gi s ta cú mt tp thut ng T= {t1, t2,tn} mi vn bn di c biu din bi mt vect x i= {wi1, wi2, win} trong khụng gian vect, trong ú w ij l trng s ca thut ng trong vn bn Ta ca mi vect tng ng vi ta ca mt im d liu trong khụng gian n chiu... trờn mt 26 nn tng toỏn hc cht ch Chng tip theo tp trung nghiờn cu v lý thuyt SVM ỏp dng cho bi toỏn nhn dng phiu im 27 CHNG 2 K THUT SVM TRONG NHN DNG PHIU IM 2.1 Thut toỏn SVM 2.1.1 Phõn lp nh phõn Nh ó trỡnh by Chng 1, SVM l mt phung phỏp phõn lp da trờn lý thuyt hc thng kờ , c xut bi Vapnik vo nm 1995 lm rừ hn v thut toỏn SVM ta s xột bi toỏn phõn lp nh phõn [6], sau ú s m rng vn ra cho bi toỏn... nhng th w trong (2.8) vo: (2.13) Tha cỏc iu kin KKT sau: (2.14) (2.15) (2.16) Vỡ th vi mi im d liu, hoc l hoc l Nhng im d liu m cú s khụng xut hin trong (13) v do ú m khụng úng gúp trong vic d oỏn im d liu mi Nhng im d liu cũn li c gi l support vector, chỳng tha , ú l nhng im nm trờn l ca siờu phng trong khụng gian c trng Support vector chớnh l cỏi m ta quan tõm trong quỏ trỡnh hun luyn ca SVM Vic phõn... mt lp b phõn lp sai thỡ mu ú vn cũn c hi c phõn lp ỳng nh vo cỏc mỏy phõn lp cũn li, do ú chin lc ny t kt qu phõn lp khỏ chớnh xỏc Chin lc ny c s dng trong hu ht cỏc phn mm mó ngun m nh SVMlight, LIBSVM, SVMTorch v HeroSvm Tuy nhiờn, s dng chin lc ny trong bi toỏn phõn N lp thỡ cn phi cú N ( N 1) 2 mỏy phõn lp, nu N tng thỡ s mỏy phõn lp s tng lờn rt nhanh, iu ny s lm cho tc phõn lp gim ỏng k 2.1.2.2... 2.2 Cỏc thut toỏn hun luyn SVM Trong s nhng thut toỏn thụng dng c thit k hun luyn SVM, cú ba thut toỏn kinh in ó c cung cp trong hu ht ng dng SVM: thut toỏn cht khỳc, thut toỏn phõn ró v thut toỏn SMO [15] í tng chớnh ca cỏc thut toỏn ny cú th trỡnh by túm tt nh sau: 2.2.1 Thut toỏn cht khỳc Thut toỏn ny bt u vi mt tp con bt k (chunk) ca tp d liu hun luyn, sau ú hun luyn SVM theo mt phng ỏn ti u trờn... dng nh: mụ hỡnh Markov n, 24 mng nron hay phng phỏp SVM Trong ú SVM c ỏnh giỏ l phng phỏp hc mỏy tiờn tin ang c ỏp dng rng rói trong cỏc lnh khai phỏ d liu v th giỏc mỏy tớnh Cụng vic c thc hin theo hai bc chớnh sau õy: Bc 1: Xõy dng mụ hỡnh hun luyn Tp d liu hun luyn sau khi qua cỏc khõu tin x lý v trớch chn c trng s c a vo mỏy hun luyn phõn lp SVM Sau khi kt thỳc quỏ trỡnh hun luyn, h thng s lu li... vựng nh I nm trong hỡnh ch nht R Bc 4: Chun húa nh I v kớch thc chun 16x16 Trớch chn c trng nh ký t sau khi ó chun húa v kớch thc chun s c chia thnh NxN vựng Tng s im en ca mi vựng s c chn to thnh cỏc vect c trng Hỡnh 1.5 Trớch chn c trng trng s vựng Vi kh nng vt tri ca SVM v tớnh hiu qu, chớnh xỏc, kh nng x lý cỏc b d liu mt cỏch linh hot, vic s dng SVM l mt trong nhng s la chn ti u trong vic gii... hm phõn bit Hm phõn bit g(.) camt lp no ú thng c dựng trong thc t do tớnh n gin, d x lý l hm tuyn tớnh Hm tuyn tớnh cú dng: g ( X ) = W0 + W1 X 1 + W2 X 2 + + Wk X k Trong ú: Wi l trng s gỏn cho cỏc thnh phn Xi; W0 l trng s hng Trong trng hp hm g(.) l tuyn tớnh, ngi ta núi vic phõn lp l tuyn tớnh (trong trng hp mt hay hai chiu) hay siờu phng (trong trng hp nhiu chiu) Cỏc hm phõn bit thng c xõy dng... s thc nghim Remp(fs) 0 Vai trũ ca SVM trong gii quyt bi toỏn Vi cỏc hm a thc bc cao hn nu tng s chiu ca khụng gian chuyn i thỡ s lm mt tớnh tng quỏt Tuy nhiờn hm phõn lp SVM thc thi tt hn vi d liu tng hp cú cỏc hm a thc bc cao (s chiu d liu tng) trong khi cụng c phõn lp NNSRM [6] gim i mc chớnh xỏc (dự vi s lng nh) do bn cht xp x ca gii phỏp NNSRM Vi phng phỏp SVM, s thc thi bt u gim sỳt khi s bc ... thut SVM nhn dng phiu im Gii thiu v k thut SVM, thut toỏn SVM c trng ca phiu im, k thut SVM nhn dng phiu im Chng 3: Thit k chng trỡnh v kt qu th nghim Thit k chng trỡnh minh k thut phõn lp vi SVM, ... trung nghiờn cu v lý thuyt SVM ỏp dng cho bi toỏn nhn dng phiu im 27 CHNG K THUT SVM TRONG NHN DNG PHIU IM 2.1 Thut toỏn SVM 2.1.1 Phõn lp nh phõn Nh ó trỡnh by Chng 1, SVM l mt phung phỏp phõn... Wk X k Trong ú: Wi l trng s gỏn cho cỏc thnh phn Xi; W0 l trng s hng Trong trng hp hm g(.) l tuyn tớnh, ngi ta núi vic phõn lp l tuyn tớnh (trong trng hp mt hay hai chiu) hay siờu phng (trong

Ngày đăng: 12/12/2016, 16:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w