Tài liệu báo cáo các yêu cầu cũng như nghiệp vụ công nghệ thông tin trong quá trình quản lý dự án công nghệ thông tin.Tài liệu báo cáo các yêu cầu cũng như nghiệp vụ công nghệ thông tin trong quá trình quản lý dự án công nghệ thông tin.
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ======***====== BÀI TẬP LỚN HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài : Deep Learing- Xây dựng hệ hỗ trợ phân loại chữ số sử dụng mạng CNN GVHD: Nhóm: Ths Trần Thanh Hùng 14 Lớp: 20221IT6058001 Thành viên: Phạm Đức Minh - 2019603324 Đinh Nguyễn Tùng Anh - 2019605055 Trần Hải Đăng - 2019605387 Nguyễn Văn Nhuận - 2019605161 Mục Lục Chương Tổng quan 1.1 Hệ hỗ trợ định 1.1.1 Hệ hỗ trợ định gì? 1.1.2 Tại cần xây dựng hệ hỗ trợ định? .5 1.1.3 Bản chất hệ hỗ trợ định 1.1.4 Các yếu tố ảnh hưởng đến hệ hỗ trợ định 1.2 Mơ hình định 1.2.1 Khái niệm Deep learning 1.2.2 Mục đích xây dựng .8 1.2.3 Tương lai Deep Learning .8 1.2.4 Một số ứng dụng Deep Learning 1.3 Giới thiệu mạng CNN 10 1.3.1 Khái niệm 10 1.3.2 Các lớp CNN .11 1.3.3 Các hàm kích hoạt thường gặp 14 1.3.4 Cách chọn tham số cho CNN 15 Chương Phân tích đề tài .16 2.1 Tính cấp thiết việc xây dựng đề tài 16 2.2 Dữ liệu xây dựng đề tài 17 2.3 Mơ hình luồng tốn 18 Chương Xây dựng chương trình 19 3.1 Ngơn ngữ lập trình 19 3.2 Môi trường huấn luyện 19 3.3 Thuật toán sử dụng 20 3.4 Xây dựng mơ hình hệ hỗ trợ 20 Tổng kết 24 TÀI LIỆU THAM KHẢO 25 Lời nói đầu Ngày nay, với phát triển khoa học kỹ thuật, chất lượng sống người ngày nâng cao Nền cơng nghiệp ví "cánh tay phải" đắc lực, hỗ trợ người nhiều mặt đời sống: Liên lạc, giải trí, làm việc Đi với xu hội nhập đó, việc nhận dạng ngơn ngữ nói chung hay nhận diện chữ số nói riêng vấn đề vơ cấp thiết ứng dụng rộng rãi đời sống thơng qua ví dụ điển mơ hình nhận dạng biển số xe, nhận dạng văn bản, nhận dạng chứng minh thư…vv Nhận thấy bất cập đó, chúng em nhận đề tài làm hệ thống nhận dạng chữ số, giúp cho hệ thống thơng minh nhận diện chữ số thơng qua liệu hình ảnh đầu vào cách nhận dạng chuyển chúng thành mẫu số thông qua nét kiểu viết đầu vào chữ số Chúng em lấy lòng cảm ơn thầy Trần Thanh Hùng giúp đỡ, hỗ trợ nhiệt tình q trình nhóm chúng em hồn thành đề tài Dù cịn nhiều thiếu sót, số bất cập sinh q trình chạy, chúng em cố gắng cải thiện phần mềm cách tốt tương lai Chúng em xin chân thành cảm ơn Thầy! Chương Tổng quan 1.1Hệ hỗ trợ định 1.1.1 Hệ hỗ trợ định gì? - Hệ hỗ trợ định tiếng Anh gọi Decision Support System, viết tắt DSS - Hệ hỗ trợ định (DSS) chương trình vi tính sử dụng để hỗ trợ đưa định, phán đoán chiều hướng hành động tổ chức doanh nghiệp DSS sàng lọc phân tích lượng liệu khổng lồ, tổng hợp thơng tin cách tồn diện mà sử dụng để giải vấn đề trình định - Thông tin thường sử dụng DSS gồm doanh thu mục tiêu, số liệu bán hàng từ khoảng thời gian khác liệu kiểm kê hoạt động liên quan khác - Một DSS tập hợp phân tích liệu, tổng hợp để tạo báo cáo thơng tin tổng quát Theo cách này, ứng dụng thông tin, DSS khác với ứng dụng hoạt động thông thường có chức thu thập liệu DSS máy tính hóa hồn tồn điều khiển người - Trong số trường hợp, kết hợp hai Các hệ thống lí tưởng phân tích thơng tin thực đưa định cho người dùng Ít chúng cho phép người dùng đưa định sáng suốt với tốc độ nhanh 1.1.2 Tại cần xây dựng hệ hỗ trợ định? Cải thiện tốc độ tính tốn Tăng suất cá nhân liên đới Cải tiến kỹ thuật việc lưu trữ, tìm kiếm, trao đổi liệu tổ chức theo hướng nhanh kinh tế Nâng cao chất lượng định đưa Tăng cường lực cạnh tranh tổ chức Khắc phục khả hạn chế người việc xử lý lưu chứa thông tin Nhu cầu hỗ trợ định - Ra định cần xử lý kiến thức - Kiến thức nguyên liệu thành phẩm định, cần sở hữu tích lũy người định Giới hạn nhận thức (trí nhớ có hạn ) Giới hạn kinh tế (chi phí nhân lực ) Giới hạn thời gian 1.1.3 Bản chất hệ hỗ trợ định • Cung cấp thơng tin, tri thức • Có thể thể qua tương tác người – máy, qua mô 1.1.4 Các yếu tố ảnh hưởng đến hệ hỗ trợ định • Cơng nghệ - thơng tin - máy tính • Tính cạnh tranh – phức tạp cấu trúc • Các thay đổi biến động 1.2 Mơ hình định 1.2.1 Khái niệm Deep learning - Khái niệm: Deep learning chủ đề AI bàn luận sôi Là phạm trù nhỏ machine learning, deep learning tập trung giải vấn đề liên quan đến mạng thần kinh nhân tạo nhằm nâng cấp công nghệ nhận diện giọng nói, tầm nhìn máy tính xử lý ngôn ngữ tự nhiên - Deep learning trở thành lĩnh vực hot khoa học máy tính, deep learning thúc đẩy tiến đa dạng lĩnh vực nhận thức vật (object perception), dịch tự động (machine translation), nhận diện giọng nói,… - vấn đề khó khăn với nhà nghiên cứu trí tuệ nhân tạo - Để hiểu deep learning, nhìn lại số khái niệm trí tuệ nhân tạo: hiểu đơn giản cấu thành từ lớp xếp chồng lên nhau, mạng thần kinh nhân tạo nằm đáy, machine learning nằm tầng deep learning nằm tầng - Các ưu điểm Deep Learning: Kiến trúc mạng nơ-ron linh hoạt, dễ dàng thay đổi để phù hợp với nhiều vấn đề khác Có khả giải nhiều tốn phức tạp với độ xác cao Tính tự động hóa cao, cố khả tự điều chỉnh tự tối ưu Có khả thực tính tốn song song, hiệu tốt, xử lý lượng liệu lớn -Nhược điểm Deep Learning: Cần có khối lượng liệu lớn để tận dụng tối đa khả Deep Learning Chi phí tính tốn cao phải xử lý nhiều mơ hình phức tạp Chưa có tảng lý thuyết mạnh mẽ để lựa chọn công cụ tối ưu cho Deep Learning 1.2.2 Mục đích xây dựng - Deep learning phương pháp Machine learning, với mạng nơ-ron nhân tạo xây dựng nhằm mục đích mơ khả tư logic não người - Mạng nơ-ron gồm có nhiều lớp (layer) khác Layer có số lượng nhiều mạng “deep” (sâu) Bên layer có nút mạng (node), liên kết với lớp liền kề khác Mỗi kết nối node với có trọng số tương ứng, trọng số cao kết nối có ảnh hưởng lớn mạng nơ-ron - Ngồi ra, nơ-ron có hàm kích hoạt nhằm chuẩn hóa đầu Khi người dùng đưa liệu vào mạng nơ-ron, liệu truyền qua layer trả kết layer cuối cùng, gọi output layer - Trong trình huấn luyện mơ hình mạng nơ-ron, trọng số thay đổi Khi đó, mơ hình có trách nhiệm tìm giá trị trọng số để phán đoán tốt - Các hệ thống Deep learning cần phải có phần cứng mạnh để xử lý lượng lớn liệu, đồng thời thực phép tính phức tạp Đối với số mơ hình Deep learning, vài tuần chí vài tháng để triển khai phần cứng tiên tiến 1.2.3 Tương lai Deep Learning - Deep learning ngày cho thấy tương lai đầy hứa hẹn với ứng dụng vào điều khiển xe tự lái hay robot quản gia Mặc dù sản phẩm nhiều hạn chế thứ chúng làm thực khó tưởng tượng vài năm trước đây; tốc độ nâng cấp cao chưa thấy - Khả phân tích liệu lớn sử dụng deep learning vào hệ thống máy tính tự thích nghi với chúng tiếp nhận mà khơng cần đến bàn tay lập trình người nhanh chóng mở đường cho nhiều đột phá tương lai - Những đột phá việc thiết kế trợ lý ảo, hệ thống xe tự lái hay sử dụng vào thiết kế đồ họa, sáng tác nhạc, phát triển nguyên liệu giúp robot thấu hiểu giới xung quanh Chính tính thương mại cao mà cơng ty lớn, đặc biệt Google, ưu tiên startup robot deep learning danh sách thâu tóm 1.2.4 Một số ứng dụng Deep Learning - Ứng dụng ngành công nghệ cao: + Ứng dụng vượt bậc Deep Learning không kể đến chế tạo Robot Hiện nay, phiên Robot giống người với khả cảm nhận, phản ứng với môi trường dần đời Hiện nay, Robot cịn hợp tác với hoạt động người chúng thực nhiệm vụ riêng biệt phù hợp với mạnh chúng Robot góp phần thay người việc thực cơng việc khó khăn Đây phát minh tuyệt vời nhờ ứng dụng Deep Learning - Ứng dụng nơng nghiệp: Hiện nay, nhờ có Deep Learning mà người nơng dân triển khai thiết bị có khả phân biệt cỏ dại với trồng Từ đó, loại máy móc phun thuốc diệt cỏ chọn lọc phun lên cỏ dại để đảm bảo cho trồng không bị ảnh hưởng Ngồi vai trị loại bỏ cỏ dại thuốc diệt cỏ nhờ Deep Learning mà sản lượng nơng nghiệp ngày cải thiện Bên cạnh đó, Deep Learning mở rộng sang hoạt động như: thu hoạch, tưới tiêu, bón phân, gieo trồng, - Ứng dụng điện tử: Deep Learning ứng dụng cho công việc nhận diện không mặt thiết bị điện tử điện thoại, phần mềm facebook, messenger, Thêm vào đó, Deep Learning cịn dùng nghe dịch nói tự động mà trang web google dịch sử dụng Ngoài ra, số thiết bị trợ giúp nhà ứng dụng Deep Learning để đáp ứng giọng nói hiểu sở thích (đây ứng dụng học sâu) 1.3 Giới thiệu mạng CNN 1.3.1 Khái niệm - Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) mơ hình Deep Learning tiên tiến Nó giúp cho xây dựng hệ thống thơng minh với độ xác cao - CNNs chia thành chiều: rộng, cao, sâu Các Nơ-ron mạng không liên kết hoàn toàn với toàn Nơ-ron mà liên kết tới vùng nhỏ Cuối cùng, tầng đầu tối giản thành vec-tơ giá trị xác suất - CNNs gồm thành phần: Phần tầng ấn hay phần rút trích đặc trưng: Trong phần này, mạng tiếng hành tính tốn hàng loạt phép tích chập (Convolutional layer) phép hợp (pooling) để phát đặc trưng Phần phân lớp: Tại phần này, số lớp liên kết đầy đủ (Fully Connected) đóng vai trị phân lớp đặc trưng rút trích trước đó.Tầng đưa xác suất đối tượng hình 10 1.3.2 Các lớp CNN Minh họa tầng CNN Convolutional Layer - Trong ba lớp Convolutional Neural Network, Convolutional Layer xem lớp có vai trị quan trọng Bởi Convolutional Layer đại diện CNN thực phép toán + Filter Map: CNN sử dụng Filter để áp vào vùng hình ảnh Những Filter Map xem ma trận chiều, bao gồm số số Parameter + Stride: Trong CNN, Stride hiểu dịch chuyển Filter Map theo Pixel dựa vào giá trị từ trái sang phải Stride đơn giản biểu thị dịch chuyển 11 + Padding: Chính giá trị thêm vào lớp Input + Feature Map: Đây kết hiển thị sau lần Filter Map quét qua Input Cứ lần quét vậy, bạn thấy xuất q trình tính tốn xảy Pooling Layer - Khi đầu vào lớn, lớp Pooling Layer dịch chuyển vào lớp Convolutional Layer nhằm giảm Parameter - Pooling Layer biết đến với hai loại phổ biến là: Max Pooling Average Pooling - Tại Pooling Layer, bạn sử dụng lớp Max Pooling số lượng Parameter giảm Vì vậy, Convolutional Neural Network xuất nhiều lớp Filter Map, Filter Map cho Max Pooling khác 12 Pooling layer Fully Connected Layer - Tầng kết nối đầy đủ (FC) nhận đầu vào liệu làm phẳng, mà đầu vào kết nối đến tất neuron Trong mơ hình mạng CNNs, tầng kết nối đầy đủ thường tìm thấy cuối mạng dùng để tối ưu hóa mục tiêu mạng ví dụ độ xác lớp 13 Full Connected Layer 1.3.3 Các hàm kích hoạt thường gặp Rectified Linear Unit - ReLU Là hàm kích hoạt g được sử dụng tất thành phần Mục đích tăng tính phi tuyến tính cho mạng Những biến thể khác ReLU tổng hợp bảng dưới: Softmax Bước softmax coi hàm logistic tổng quát lấy đầu vào vector chứa giá trị x\in\mathbb{R}^nx∈Rn và cho 14 vector gồm xác suất p\in\mathbb{R}^np∈Rn thông qua hàm softmax cuối kiến trúc Nó định nghĩa sau: 1.3.4 Cách chọn tham số cho CNN - Số convolution layer: nhiều convolution layer performance cải thiện Sau khoảng layer, tác động giảm cách đáng kể - Filter size: thường filter theo size 5×5 3×3 - Pooling size: thường 2×2 4×4 cho ảnh đầu vào lớn - Cách cuối thực nhiều lần việc train test để chọn param tốt 15 Chương Phân tích đề tài 2.1 Tính cấp thiết việc xây dựng đề tài - Hiện nay, vấn đề nhận dạng chữ số cần thiết, có nhiều ứng dụng rộng rãi đời sống xã hội nhận dạng bảng điểm, nhận dạng bảng số xe, nhận dạng phiếu hàng hóa,… Vấn đề nhận dạng chữ số thách thức lớn nhà nghiên cứu Mỗi người có cách viết chữ số khác nhau, xác định cách để nhận dạng chữ số Do vậy, xây dựng hệ thống nhận dạng chữ số cách đáng tin cậy để có nhận dạng ký tự số điều không dễ dàng - Nhận dạng chữ số thực qua hai hình thức nhận dạng online nhận dạng offline Nhận dạng online có nghĩa máy tính nhận dạng chữ viết lên hình viết Đối với hệ nhận dạng chữ số, máy tính lưu lại thông tin nét chữ thứ tự nét viết, hướng tốc độ nét viết viết Cịn nhận dạng offline tức việc nhận dạng thực sau chữ số viết hay in lên giấy rồi, lúc thơng tin đầu vào hình ảnh văn ký tự cần nhận dạng - Đối với tốn nhóm sử dụng phương pháp nhận dạng offline với liệu test có sãn DeepLearning MNIST nhằm traning liệu hiểu cho kết sai sót Những khó khăn việc nhận dạng chữ số: - Chữ số có nhiều cách viết, kiểu viết khác viết cơng cụ máy tính, viết trình soạn thảo văn bản, viết tay…vv Điều vơ hình chung tạo kiểu font định dạng chữ số khác 16 - Chữ số viết tay viết người khác nhau, trạng thái khác nên số chữ số viết bị nhịe mờ, bề mặt ký tự bị mờ che khuất đối tượng khác, dẫn đến đọc ký tự sai - Trong số trường hợp, người viết viết chữ số dính liền dẫn đến việc phân tích ký tự chưa xác, dẫn đến đọc ký tự sai - Một số chữ số viết nằm giao nhau, cắt chữ số chứa chữ số gây khó khăn việc nhận dạng, dẫn đến đọc ký tự sai - Giới hạn sở liệu ảnh: chữ số 0, 1, 2, 3, 4, 5, 6, 7, 8, 2.2 Dữ liệu xây dựng đề tài - Hệ thống ban đầu training theo liệu đầu MNIST liệu số viết tay từ đến Bộ liệu bao gồm 60.000 mẫu cho huấn luyện 10.000 mẫu để kiểm thử Các mẫu liệu MNIST chuẩn hóa kích thước: chỉnh liệu, mẫu ảnh có kích thước (shape) 28×28 pixel có nhãn giá trị số (0 đến 9) Bộ liệu MNIST 17 2.3 Mơ hình luồng toán - Nhận dạng chữ số bao gồm luồng liệu qua giai đoạn theo trình tự tuyến tính mơ hình thác nước: Tiền xử lý (preprocessing): giảm nhiễu cho lỗi trình quét ảnh định dạng chữ số, chuẩn hóa liệu nén liệu Tách chữ số (segmentation): chia nhỏ hình ảnh chữ số thành thành phần nhỏ hơn, tách nét chữ số thành nhiều phần Trích chọn đặc trưng (representation): giai đoạn đóng vai trị quan trọng nhận dạng chữ viết số Để tránh phức tạp chữ viết số tăng cường độ xác, ta cần phải biểu diễn thông tin chữ số dạng đặc biệt cô đọng hơn, rút trích đặc điểm riêng nhằm phân biệt ký tự khác Huấn luyện nhận dạng (training and recognition): huấn luyện liệu liệu đầu vào folder ảnh gồm nhiều chữ số theo nhiều cách viết định dạng, kích thước khác nhau, hệ hỗ trợ học máy nhằm tạo hệ nhận dạng kiểu liệu, giai đoạn vô quan trọng tạo nhận dạng cho hệ hỗ trợ giúp kết đạt yêu cầu Hậu xử lý (postprocessing): Dữ liệu sau huấn luyện lưu truyền tải lên hình hiển thị có u cầu truy xuất sử lý, nhận dạng liệu nhằm truy xuất thơng tin nhanh chóng sử dụng vào mục đích làm liệu nhận dạng đầu vào cho chu trình 18 Chương Xây dựng chương trình 3.1 Ngơn ngữ lập trình - Hệ hỗ trợ nhóm sử dụng ngơn ngữ lập trình Python ngơn ngữ lập trình có lối truy xuất đọc liệu mang khuynh hướng toán học phù hợp với AI Machine Learning kèm theo Python có nhiều Framework Thư viện nhằm mở rộng giúp đơn giản hóa việc thực chức khác hệ thống - Python ngơn ngữ lập trình bậc cao cho mục đích lập trình đa năng, Guido van Rossum tạo lần đầu mắt vào năm 1991 - Python thiết kế với ưu điểm mạnh dễ đọc, dễ học dễ nhớ - Python ngôn ngữ có hình thức sáng sủa, cấu trúc rõ ràng, thuận tiện cho người học lập trình ngơn ngữ lập trình dễ học; dùng rộng rãi phát triển trí tuệ nhân tạo - Python có kho công nghệ phong phú bao gồm nhiều thư viện cho trí tuệ nhân tạo học máy Dưới số thư viện, framework phổ biến: Keras, TensorFlow, and Scikit-learn cho Học máy NumPy cho phân tích liệu tính tốn khoa học hiệu cao SciPy cho advanced computing Pandas để phân tích liệu mục đích chung Seaborn cho trực quan hóa liệu (Data Visualization) 3.2 Mơi trường huấn luyện - Nhóm sử dụng mơi trường huấn luyện cơng cụ lập trình tiện ích Google: Google Colaboratory 19 - Colaboratory hay gọi Google Colab, sản phẩm từ Google Research, cho phép chạy dịng code python thơng qua trình duyệt, đặc biệt phù hợp với Data analysis, machine learning giáo dục Colab không cần yêu cầu cài đặt hay cấu hình máy tính, thứ chạy thơng qua trình duyệt, bạn sử dụng tài ngun máy tính từ CPU tốc độ cao GPUs TPUs cung cấp cho bạn - Colab cung cấp nhiều loại GPU, thường Nvidia K80s, T4s, P4s and P100s, nhiên người dùng chọn loại GPU Colab, GPU Colab thay đổi theo thời gian Vì dịch vụ miễn phí, nên Colab có thứ tự ưu tiên việc sử dụng tài nguyên hệ thống, giới hạn thời gian sử dụng, thời gian sử dụng tối đa lên tới 12 3.3 Thuật toán sử dụng - Nhóm sử dụng mạng CNN kiến trúc lý tưởng giải vấn đề liệu hình ảnh, mơ hình Deep Learning tiên tiến Nó giúp cho xây dựng hệ thống thông minh với độ xác cao CNN sử dụng nhiều toán nhận dạng object ảnh phù hợp với đề tài nhận dạng chữ số mà nhóm triển khai - CNN có khả ghi lại phụ thuộc không gian hình ảnh kể từ xử lý chúng dạng ma trận phân tích tồn phần hình ảnh thời điểm, tùy thuộc vào kích thước lọc Mỗi phần hình ảnh cung cấp tập hợp tham số (chiều rộng độ lệch) tham chiếu mức độ liên quan tập hợp pixel với tồn hình ảnh, tùy thuộc vào lọc Theo điều này, cách giảm số lượng tham số cách phân tích hình ảnh theo phần, CNN hiển thị đại diện tốt hình ảnh 3.4 Xây dựng mơ hình hệ hỗ trợ a Nhập thư viện cần thiết 20