Mô hình học sâu trong ứng dụng trích xuất thông tin từ danh thiếp

MỤC LỤC

Đặt vấn đề

Trongthế giới kinh doanh pháttriểnnhanh chóng ngày nay, việctrao đổi danhthiếp vẫn là một hoạt động phổ biến để kết nối và chia sẻ thông tin. Tuy nhiên, việc sao chép thủ công thông tin từ các danh thiếp này sang định dạng kỹ thuật số rấttốn thời gian và dễ xảy ralỗi. Tận dụng các kỹ thuậthọc sâu để trích xuấtthông tin từ danh thiếpmangđến cơ hội để áp dụng công nghệ tiên tiến vào một vấn đề trong thế giới thực [2].

Đe tàinày kếthợptríchxuấtdữ liệu,xử lý ảnh, xửlý ngônngữ tự nhiên và được huấn luyện thông qua mô hìnhYOLO (You Only Look Once) cho phép khám phá các khía cạnh khác nhau của trí tuệ nhân tạo và học máy đểđạt được sự hiểu biết toàn diện về các lĩnh vực này. Nó có thể được sử dụng trong hệthống CRM (Quản lý quan hệ khách hàng), ứng dụng quản lý liên hệ và các quy trình tự động hóa kinhdoanh khác nhau, nâng cao ý nghĩathực tế của đề tài.

Mục tiêu nghiên cứu

Việc pháttriển mộtgiải pháptự độngcho nhiệm vụ này có thể cải thiện đáng kể hiệu quả và giảm thiểu sai sót [1]. Họcsâu đãcó những bước tiến đáng chú ýtrong nhiều lĩnh vựckhác nhau, bao gồm thị giác máy tính và xử lý ngôn ngữ tự nhiên. Đề tài được pháttriển có tiềm năng ứng dụng trong thế giới thực ngoài phạm vi của luận văn này.

Học sâu cung cấp khả năng cải thiện độ chính xác và xử lý các thiết kế danh thiếp khác nhau một cách hiệu quả. Bằng cách pháttriển một ứng dụng dựa trên học sâu để trích xuấtthông tin cần thiết từ danh thiếp, phục vụ cho việc số hóathông minh;.

Cách tiếp cận

Địađiểm: Nghiên cứu được thực hiện tại các khu vực nhà riêng, công sở, nơi công cộng trên địa bàn.

ĂN SÁNG-ĐẶC SÀN LÂU CUA SÔNG CẤC MểN ĐỐNG OUÊ

Cơ SỞ LÝ THUYẾT

    Mạng thần kinh làmộtloại trítuệ nhân tạocố gắng mô phỏng cách mà não con người hoạt động thay vì sử dụng mô hình số, trong đó tất cả các phép tính điều khiển bằngcác số 0 và 1, một mạng thần kinh hoạt động bằng cách tạo rakếtnối giữa các yếu tố xử lý với cấu trúc và trọng số của các kếtnối quyếtđịnh kết quảđầu ra. Mạng thần kinh thường rất hiệu quả trong việc dự đoán các sự kiện khi mạng có một cơ sở dữ liệu lớn về cácví dụ trước đó đểtham chiếu.Nói một cáchchính xác, mạng thần kinh đề cập đến một máy tính không phải là số, nhưng mạng thần kinh có thể được mô phỏng trên máy tính số. Những mô hình mà chúng nhận biết là số, được chứatrong các vector, trong đó tất cả dữ liệu thế giới thực, chẳng hạn như hình ảnh, âm thanh, văn bản hoặc dãythời gian, phải được chuyển đổi.

    Hidden layer: là lớp ẩn, nhiệm vụ của nó là xử lý dữ liệu đầu vào và xuất ra dữ liệu mới, từ đó làm dữ liệuđầu ra cuối cùng (hoặclàm dữliệu đầu vào cho lớp ần khác). Mạngthần kinh tích chập (Convolutional Neural Networks - ConvNets hay CNNs) tương tụnhumạng thầnkinh truyền thẳng (feedforward neural networks), trong đó các thầnkinh có trọng số và độ lệch có thể học được, ứng dụng chủ yếu của chúng nằm trong xử lýtín hiệu và ảnh, thay thế cho OpenCV trong lĩnh vực thị giác máy tính.

    Hình 2.1  Mạng thần kinh  [9]
    Hình 2.1 Mạng thần kinh [9]

    Kiến trúc mạng CNN [10]

      Nhận diện đối tượng (Object Detection) là một nhiệm vụ trong thị giác máy tính, trong đó mục tiêu là phát hiện và xác định vị trí củacác đối tượng quan trọng trong mộtảnh hoặc video. • Phưong pháp hai giai đoạn (Two-stage methods): ưu tiên độ chính xác trong việc phát hiện đối tượng, với mộtsố mô hìnhphổ biến như Fast R-CNN (Region-based Convolutional Neural Networks), Faster R-CNN. R-CNN [11] được giới thiệu lần đầu vào năm 2014 bởi RossGirshickvà các cộng sự tại ƯC Berkeley, mộttrong nhữngtrung tâm nghiên cứuAI hàng đầu thế giói. R-CNN làmột trong những ứng dụng tiễn phong của mạng thầnkinh tích chập trong việc định vị, phát hiện, và phân đoạn đối tượng. Phương pháp này đã đạt được kết quả ấn tưọng trên bộ dữ liệư VOC-2012 và bộ dữ liệu pháthiệnđối tưọng ILSVRC- 2013 ỢmagebTet Large Scale Visual Recognition Challenge 2013). Một kỹ thuật được sử dụng để đề xuất các region proposal hoặc các bounding box chứa cácđối tượng tiềm năng trong hình ảnh đượcgọi là “selective search” [12], các region proposal có thể được phát hiện bởi đa dạng những thuật toán khác nhau.

      Phần cuối của mạng là là một layer tùy chỉnh hay còn được gọi là layer vùng quan tâm (Region of Interest Pooling - Rol Pooling) có tác dụng trích xuất các features cho một vùng ảnh input nhất định. Mô hình YOLO ban đầu là mạng phát hiện đối tượng đầu tiên kếthợp vấn đề vẽ các hộp giới hạn (bounding boxes)và xác định nhãn lớp (identifying class labels) trong một mạng có thể phân biệt từ đầu đến cuối. Trong YOLOv4, các tác giả tìm hiểu, thử nghiệm các phương pháp state-of-the-art trong Nhận diện đối tượng để đánhgiá, so sánh sự hiệu quả của các phương pháp này theo một số tiêu chí cân bằng giữa độ phức tạp của mô hình và tốc độ xử lý FPS.

      YOLOv4 sử dụng CSPDarknet53 để làm backbone vì theotác giả, CSPDarknet53 có độ chính xác trong tác vụ phát hiện đối tượng cao hơn so với ResNet và mặc dù ResNet có độ chính xác trong tác vụ phân loại cao hơn, hạn chếnày có thể đượccải thiện nhờhàm activation Mish. Tuy nhiên, bằng cách này thì ta phải cố định kích thước của output feature map và điều này gây khó khăn trong việc phát hiện đối tượng trong nhiều kích thước ảnh khác nhau. Y OLOv4 đã được thử nghiệm và cho thấy rằng mô hình vượt trội hơntấtcả các kiến trúc mạng phát hiện đốitượng (object detection) khác vềtốc độ và độ chính xác tại thời điểm đó.

      Y0L0v8tận dụng cácphiên bản YOLO trước đó nhưng được cải tiếnnhanhhơnvàchínhxác hơn đồng thời cung cấp một khung thống nhất cho cácmô hình đào tạo để thực hiện phát hiện đối tượng, phân đoạn phiên bản và phân loại hình ảnh. Nhiệm vụ chính của nó là giảm kích thước của hình ảnh ban đầu trong khi tăng độ sâu hoặc số lượng kênh biểu diễn hình ảnh.Đơn giản, stemcủa mạng neural là quá trình biến hình ảnh 2D ban đầu thành một trừu tượng đa chiều hiệu quả. • “Neck” của mạng nằm giữa “backbone” (phần trích xuất đặc trưng) và “head” (phần đưara quyết định).Neck giúp làm tinh tế và xử lý các đặc trưng được trích xuất bởi backbone trước khi chúng được sử dụng để đưara các quyết định cụ thể bởihead.

      • Accuracy (Độ chínhxác): Đây là tỷ lệ giữa số lượng dự đoán chính xác và tổng số lượng dữ liệu đượcdùng để đánh giá mô hình.Accuracy là mộtthông số quan trọngvà thường được sử dụng để đánh giá môhình, nhưng nókhông phải làđánh giátốt nhất cho bài toán nhận dạng ảnh, đặcbiệt là trong trường hợp các lớp dữ liệu không cân bằng về số lượng. Flask ho trợ các tiện ích mở rộngcho ứng dụng như tích hợp cơ sở dữ liệu, xác thực biểu mẫu, xử lý upload, các công nghệ xác thực, template, email, RESTful.., người dùng có thể tập trung xây dựng ứng dụng web ngay từ đầu trong một khoảng thời gian rất ngắn và có thể pháttriển quy mô của ứngdụng tùy theoyêu cầu.

      Hình 2.3  Kiến trúc  R-CW
      Hình 2.3 Kiến trúc R-CW

        PHucHflO;^

        Kết quả huấn luyện mô hình .1 Mô hình YOLOvSn

        Nhận xét: Dựavào bảng trên, ta thấy mô hình YOLOv8n có độ chính xác khá tốt. Ở cột Precision là tỷ lệ giữa số lượng đối tượng dự đoán đúng và tổng số đốitượng được dự đoán thì đối tượng Email được đánh giá caonhất. • Box closs: là đại lượng đo lường giữa dự đoán bounding box của mô hỉnh và boundingbox thực tế của ảnh.Nhìn vào cột biểu đồ đầu, ta thấy chỉ số box closs của dữ liệuhuấn luyện giảm theo số lần huấn luyện, cho thấy mô hình học được và dự đoán được các bounding box gầnvới thực tế theo thời gian.

        • Class loss: để đo lường sự chênh lệch giữa dự đoán của mô hình với nhãn lớp thực tế của các mẫu dữ liệu, ở cộthai, ta thấy mô hình dựđoán được nhãnvà so khớp được vớinhãn thực tế theo thời gian. • Dựa vào hai cột biểu đè đánh giá hiệu suất bên phải, ta thấy được mô hình đạt hiệu suất khá tốtkhi các chỉ số precision, mAPđều tăng theo thời gian thực. Nhận xét: Biểu đồ Confusion Matrix normalized biểu thị giá trị ở dạng phần trăm biểu thị tỉ lệ dự đoán đúng và sai trên tùng lớp cụ thể.

        Điềunày cho thấy mô hình YOLOv8n phát hiện đối tượng rất tốt trên tùng lớp.

        Hình 3.5 Các  biểu đồ biểu diễn  quá trình huấn luyện và đánh  giá mô hình  ỸOLOvSn
        Hình 3.5 Các biểu đồ biểu diễn quá trình huấn luyện và đánh giá mô hình ỸOLOvSn

        TRƯỞNG ĐON V| ĐỘT QUỴ