TỔNG QUAN
Tổng Quan Về Lĩnh Vực Nghiên Cứu
Trí tuệ nhân tạo (AI) hiện diện trong nhiều khía cạnh của cuộc sống, từ việc tự động trả lời email trên Gmail, hỗ trợ lái xe, đến việc sắp xếp ảnh du lịch thành album riêng biệt Nó cũng giúp quản lý ngôi nhà và thực hiện các hoạt động mua sắm AI có thể được hiểu là một hệ thống gồm nhiều lớp, với mạng thần kinh nhân tạo ở dưới cùng, tiếp theo là machine learning, và deep learning ở tầng trên cùng.
Năm 2011, Google khởi động dự án Google Brain nhằm phát triển mạng thần kinh được đào tạo bằng deep learning, chứng minh khả năng tiếp nhận các khái niệm phức tạp Tương tự, Facebook thành lập AI Research Unit để nghiên cứu và ứng dụng deep learning trong nhận diện khuôn mặt và đối tượng trên hơn 350 triệu bức ảnh và video mỗi ngày Ngoài ra, deep learning còn được áp dụng trong nhận diện giọng nói của các trợ lý ảo như Google Now và Siri, minh chứng cho tiềm năng của công nghệ này trong thực tế.
Deep learning đang mở ra một tương lai hứa hẹn cho các ứng dụng như xe tự lái và robot quản gia Mặc dù còn nhiều hạn chế, nhưng những khả năng hiện tại của chúng đã vượt xa những gì mà chúng ta có thể tưởng tượng chỉ vài năm trước Tốc độ nâng cấp công nghệ cũng đang ở mức cao chưa từng thấy Khả năng phân tích dữ liệu lớn và tự thích nghi của các hệ thống máy tính thông qua deep learning sẽ tạo ra nhiều đột phá trong tương lai.
Các công ty lớn như Google đang ưu tiên thâu tóm các startup về robot và deep learning do tính thương mại cao của các công nghệ này Những trợ lý ảo, hệ thống xe tự lái, thiết kế đồ họa, sáng tác nhạc và phát triển nguyên liệu mới giúp robot hiểu biết hơn về thế giới xung quanh đang trở thành xu hướng quan trọng trong ngành công nghệ.
Deep learning và trí tuệ nhân tạo có nhiều ứng dụng tiềm năng, nhưng hiện tại chúng ta vẫn đang ở giai đoạn đầu phát triển, dẫn đến một số hạn chế không thể tránh khỏi Chúng ta có thể phải chờ đợi thêm thời gian để thấy những hệ thống hoàn thiện hơn.
AI "có tri giác" đang trong giai đoạn khởi đầu, nhưng các công ty lớn như Google, Facebook, và IBM đang đặt nền móng cho kỷ nguyên AI trong tương lai Những nỗ lực hiện tại của họ có thể mở ra những cơ hội mới cho sự phát triển của trí tuệ nhân tạo trong các thập kỷ tới.
Mục Đích Của Đề Tài
Mục tiêu của nghiên cứu này là áp dụng nơ-ron tích chập (CNN) để xử lý hình ảnh, từ đó phát triển một thuật toán học sâu có khả năng nhận diện chính xác hành động của con người trong các hình ảnh mới và dự đoán hành động của họ trong video.
Nhiệm Vụ Và Giới Hạn Của Đề Tài
Tìm hiểu một số mô hình và ứng dụng của Deep learning trong xử lý hình ảnh Tìm hiểu các phương pháp tìm điểm đặc trưng trong ảnh
Trích xuất các điểm đặc trưng và biểu diễn chúng trong mạng Nơron tích chập là một quy trình quan trọng trong việc phân tích hình ảnh Bằng cách tập hợp các điểm đặc trưng từ nhiều bức ảnh, chúng ta có thể dự đoán tính chất và các đặc điểm nổi bật của ảnh một cách chính xác.
Thực hiện huấn luyện, mô phỏng bằng phần mềm Matlab để dự đoán hành động của đối tượng
Trong nghiên cứu này, tác giả đã thành công trong việc dự đoán hành động của con người dựa trên tập dữ liệu do chính mình xây dựng Các hành động được dự đoán hiện tại vẫn ở mức độ đơn giản.
Trong một video thực tế, các đối tượng được trích đặc trưng từ từng khung hình đầu vào, tuy nhiên, việc dự đoán hành động của nhiều người cùng lúc trên một khung hình vẫn chưa được thực hiện hiệu quả.
Phương Pháp Nghiên Cứu
Thu thập, tổng hợp các tài liệu lý thuyết cơ bản liên quan đến đề tài
Tìm hiểu các kết quả nghiên cứu đã công bố trong nước và quốc tế
Phân tích lý thuyết và mô phỏng kết quả tính toán bằng phần mềm Matlab Tổng hợp viết báo cáo.
Tóm Tắt Nội Dung Chính Của Đề Tài
Với mục đích là dự đoán được hành động của người trong ảnh và video, nội dung của đề tài bao gồm các phần sau:
Giới thiệu tổng quan về mục đích của đề tài cũng như các nghiên cứu, trình bày mục tiêu và phương pháp thực hiện đề tài
Chương II: Cơ sở lý thuyết
Giới thiệu cơ sở lý thuyết liên quan đến nội dung của đề tài như sau:
2.1.Mạng Nơ-ron nhân tạo (ANN - Artificial Neural Network)
2.2 Mạng nơron tích chập (Convolutional Neural Networks - CNN)
Chương III: Xây dựng bộ phân loại hành động người sử dụng mạng Nơ-ron tích chập
3.1 Bài toán phân loại sử dụng Machine learning và Deep learning
3.2 Kiến trúc mạng CNN 10 lớp sử dụng trong nhận dạng hành động người
Chương IV: Kết luận và hướng phát triển đề tài
Phần này sẽ xem xét và so sánh các kết quả đạt được, đồng thời chỉ ra những hạn chế của đề tài Từ đó, chúng tôi sẽ đề xuất hướng phát triển trong tương lai thông qua các mục sau.
4.2 Những hạn chế và hướng phát triển của đề tài
CƠ SỞ LÝ THUYẾT
Mạng nơron tích chập (Convolutional Neural Networks - CNN)
Chương III: Xây dựng bộ phân loại hành động người sử dụng mạng Nơ-ron tích chập
3.1 Bài toán phân loại sử dụng Machine learning và Deep learning
3.2 Kiến trúc mạng CNN 10 lớp sử dụng trong nhận dạng hành động người
Chương IV: Kết luận và hướng phát triển đề tài
Phần này sẽ tiến hành phân tích và so sánh các kết quả đạt được, đồng thời chỉ ra những hạn chế của đề tài Từ đó, chúng tôi sẽ đề xuất các hướng phát triển trong tương lai thông qua các mục sau đây.
4.2 Những hạn chế và hướng phát triển của đề tài
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Mạng Nơ-ron nhân tạo (ANN - Artificial Neural Network)
2.1.1 Giới thiệu về mạng Nơ-ron (mạng thần kinh) Đặc điểm bộ não người: Hệ xử lý thông tin phức tạp, phi tuyến và song song, có khả năng học, ghi nhớ, tổng quát hóa, xử lý lỗi và có khoảng 10 11 tế bào thần kinh
Tế bào thần kinh sinh học gồm: Đầu dây thần kinh, thân tế bào, sợi thần kinh
Hình 2.1 Tế bào thần kinh sinh học
Tế bào thần kinh nhân tạo là mô hình toán học đơn giản của bộ não con người, cần được huấn luyện trước khi sử dụng Nghiên cứu về lĩnh vực này bắt đầu từ năm 1940, và hiện nay đã có nhiều mạng lưới cùng các thuật toán huấn luyện tương ứng được công bố nhằm giải quyết các bài toán đa dạng.
Mạng thần kinh nhân tạo là một hệ thống bao gồm các tế bào thần kinh được kết nối với nhau thông qua các liên kết, mỗi liên kết mang một trọng số riêng Trong mạng này, các véc tơ tín hiệu đầu vào và véc tơ trọng số của tế bào thần kinh đóng vai trò quan trọng trong việc xử lý thông tin.
Mạng nơron nhân tạo (Artificial Neural Network - ANN) là mô hình xử lý thông tin được thiết kế dựa trên cách thức hoạt động của hệ nơron sinh học Nó bao gồm nhiều nơron kết nối với nhau qua các trọng số liên kết, hoạt động đồng bộ để giải quyết các vấn đề cụ thể như nhận dạng mẫu và phân loại dữ liệu Quá trình học trong mạng nơron nhân tạo diễn ra thông qua việc điều chỉnh trọng số liên kết giữa các nơron dựa trên tập dữ liệu huấn luyện Các thành phần cơ bản của một nơron nhân tạo đóng vai trò quan trọng trong việc hình thành cấu trúc và chức năng của mạng.
• Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này tường được đưa vào dưới dạng một vector N chiều X x x 1, 2, ,x n T
Trong mạng nơ-ron, mỗi liên kết được xác định bởi một trọng số liên kết, hay còn gọi là trọng số synaptic Trọng số liên kết giữa tín hiệu đầu vào thứ j và nơron k thường được ký hiệu là wij Các trọng số này thường được khởi tạo ngẫu nhiên khi mạng được khởi tạo và sẽ được cập nhật liên tục trong quá trình học của mạng Ký hiệu tổng quát cho các trọng số là W = [wi1, wi2, , win]T.
• Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó
• Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào nhờ một thành phần của hàm truyền
Hàm truyền (Transfer function) là công cụ quan trọng trong mạng nơron, giúp giới hạn phạm vi đầu ra của mỗi nơron Hàm này nhận đầu vào từ kết quả của hàm tổng và ngưỡng, đảm bảo rằng đầu ra được điều chỉnh phù hợp với yêu cầu của mô hình.
Đầu ra của một nơron là tín hiệu duy nhất mà nó tạo ra, với mỗi nơron chỉ có thể có tối đa một đầu ra Về mặt toán học, cấu trúc của một nơron k được mô tả thông qua một biểu thức cụ thể.
Hàm xử lý ngõ vào:
Hàm xử lý ngõ ra _ Hàm kích hoạt: Y = a(f), bao gồm:
Hình 2.6 Hàm dốc bão hòa
Hàm tuyến tính bão hòa:
Hình 2.7 Hàm tuyến tính bão hòa
Tùy theo cấu trúc mạng người ta chia ra các loại mạng sau:
Mạng truyền thẳng một lớp
Là mạng chỉ gồm một lớp tế bào thần kinh xử lý Tín hiệu chỉ truyền theo một chiều từ ngõ vào đến ngõ ra
Mạng truyền thẳng nhiều lớp
Là mạng gồm nhiều lớp tế bào thần kinh xử lý Tín hiệu chỉ truyền theo một chiều từ ngõ vào đến ngõ ra
Mạng hồi quy một lớp
Là mạng chỉ gồm một lớp trong đó có tín hiệu hồi tiếp từ ngõ ra trở về ngõ vào
Mạng hồi quy nhiều lớp
Là mạng gồm nhiều lớp tế bào thần kinh xử lý Trong đó có tín hiệu hồi tiếp từ ngõ ra trở về ngõ vào
Bảng 2.1 Phân loại mạng Nơ-ron nhân tạo
2.1.2 Các phương pháp huấn luyện mạng Nơ-ron nhân tạo
Hình 2.10 Các phương pháp huấn luyện mạng Nơ-ron nhân tạo a Học có giám sát:
Học có giám sát là quá trình học tập có sự hướng dẫn và giám sát từ một người thầy, tương tự như việc dạy trẻ em nhận diện các chữ cái Trong phương pháp này, người thầy sẽ cung cấp sự hỗ trợ và phản hồi cần thiết để học sinh tiếp thu kiến thức một cách hiệu quả.
Trong quá trình học chữ cái, chúng ta sẽ giới thiệu cho trẻ chữ "a" và giải thích rằng đây là chữ "a" Điều này sẽ được áp dụng cho tất cả các mẫu chữ cái khác Sau khi trẻ đã nắm vững kiến thức, chúng ta sẽ kiểm tra bằng cách đưa ra một chữ cái bất kỳ (có thể viết hơi khác) và hỏi trẻ nhận diện chữ đó là gì.
Trong học có giám sát, số lớp cần phân loại đã được xác định từ trước Thuật toán phải tìm ra phương pháp phân loại để mỗi vector đầu vào được phân loại chính xác vào lớp tương ứng của nó.
Hình 2.11 Phương pháp học có giám sát b Học củng cố:
Học củng cố, hay còn gọi là học thưởng-phạt, là sự kết hợp của hai mô hình học tập Phương pháp này hoạt động bằng cách quan sát vector đầu vào và đầu ra từ mạng Nếu kết quả đạt yêu cầu, mạng sẽ được thưởng bằng cách tăng các trọng số kết nối; ngược lại, nếu kết quả không đạt, mạng sẽ bị phạt và các trọng số không phù hợp sẽ được giảm Học củng cố khác với học có giám sát ở chỗ nó dựa vào phản hồi từ nhà phê bình thay vì từ giáo viên.
Hình 2.12 Phương pháp học củng cố c Học không giám sát:
Học không giám sát là quá trình học mà không cần sự giám sát từ bên ngoài Trong phương pháp này, tập dữ liệu huấn luyện được biểu diễn dưới dạng D = {(x1, x2, , xN)}, trong đó (x1, x2, , xN) là các vector đặc trưng của mẫu huấn luyện Nhiệm vụ của thuật toán là phân chia tập dữ liệu D thành các nhóm con, mỗi nhóm chứa các vector đầu vào có đặc trưng tương đồng.
Học không giám sát cho phép xác định số lớp phân loại chưa được biết trước, và các lớp này có thể khác nhau tùy thuộc vào tiêu chuẩn đánh giá độ tương tự giữa các mẫu.
Hình 2.13 Phương pháp học không giám sát
So sánh các phương pháp học của mạng thần kinh nhân tạo
Bộ não con người Mạng Nơron
Học có sự hướng dẫn của giáo viên Học có giám sát
Học có sự đánh giá của giáo viên Học củng cố
Tự học Học không có giám sát
Bảng 2.2 Phương pháp học của mạng Nơ-ron sinh học và Nơ-ron nhân tạo
Tổng quát Trọng số W của mạng thần kinh thay đổi theo quy luật
2.1.3 Huấn luyện mạng thần kinh nhân tạo
Mục tiêu của giai đoạn huấn luyện là việc học các trọng số trong mạng (weights) Chúng ta cần hai yếu tố:
Dữ liệu huấn luyện (Training data): Trong trường hợp phân loại hình ảnh, dữ liệu huấn luyện bao gồm hình ảnh và nhãn tương ứng
Hàm mất mát (Loss funtion): Một hàm chức năng đo lường mức độ không chính xác của dự đoán
Khi có hai phần tử, chúng ta tiến hành đào tạo mạng nơ-ron nhân tạo (ANN) bằng thuật toán lan truyền ngược kết hợp với phương pháp suy giảm độ dốc (gradient descent) Các bước trong giải thuật lan truyền ngược cho mạng nơ-ron đa lớp (MLP) bao gồm việc tính toán sai số đầu ra, lan truyền sai số ngược qua các lớp, và cập nhật trọng số dựa trên gradient để cải thiện độ chính xác của mô hình.
Bước 1: Chọn tốc độ học >0, chọn sai số cực đại Emax
- Gán các trọng số wiq (k), vqi (k) bằng giá trị ngẫu nhiên nhỏ bất kỳ
Bước 3: (Truyền thuận dữ liệu) Tính ngõ ra của mạng với tín hiệu vào là x(k) Lớp ẩn:
Bước 4: (Lan truyền ngược sai số) Cập nhật trong số của mạng:
Bước 5: Tính sai số tích lũy:
Bước 6: Nếu k