Mô hình sinh diễn tả ảnh

41 Output Phân loại với đầu ra 1.000 lớp

7.5.3. Mô hình sinh diễn tả ảnh

Mô hình trích xuất liên kết tiềm ẩn có mục tiêu chính là tạo ra một cơ sở dữ liệu dựa vào các vùng đối tượng (thực hiện bởi R-CNN) và văn bản tương ứng (thực hiện bởi BRNN). Mô hình sinh bộ diễn tả thực hiện

Cơ sở dữ liệu ảnh và các câu mô tả tương ứng

Suy luận tương ứng với

huấn luyện trên cơ sở dữ liệu đã tạo để tạo ra mô tả cho bức ảnh. Mô hình nhận vào một ảnh thực hiện bằng mạng CNN. Lớp softmax được loại bỏ và đầu ra của lớp kết nối đầy đủ FC trở thành đầu vào cho một RNN (Recurrent Neural Network) khác. Nghĩa là lớp softmax không sử dụng để phân loại mà kết quả của lớp kết nối đầy đủ lại được đưa vào một mạng RNN khác. Chức năng cơ bản là hình thành phân phối xác suất các từ khác nhau trong câu với các đối tượng hình ảnh.

Mô tả ngữ nghĩa hình ảnh là một ý tưởng thú vị, phương pháp này tiếp cận theo hướng sử dụng các mô hình trí tuệ nhân tạo khác nhau RNN và CNN, để tạo ra mô hình ứng dụng hữu ích bằng cách kết hợp kỹ thuật thị giác máy tính với phương pháp xử lý ngôn ngữ tự nhiên. Trong diễn tả ngữ nghĩa ảnh, kết quả thực nghiệm cho thấy cách tiếp cận này đạt được những kết quả tốt, là một tiến bộ vượt bậc, mở ra những ý tưởng mới về việc tạo các máy tính và các mô hình thông minh hơn để giải quyết các nhiệm vụ cần sự kết hợp nhiều lĩnh vực khác nhau trong biểu diễn và xử lý tri thức.

Câu hỏi và bài tập

1. So sánh kỹ thuật mạng neural học sâu và mạng neural truyền thống (mạng nông). Những yếu tố chính tạo nên thành công của mạng neural học sâu?

2. Mạng neural học sâu gồm những loại lớp (layer) cơ bản nào? Hãy cho biết chức năng chính của mỗi loại lớp.

3. Sử dụng mô hình mạng LeNet đã được huấn luyện (pretrain model), viết chương trình nhận dạng để trích ra các ký tự từ một ảnh chụp đoạn văn bản.

4. Tạo bộ dữ liệu ảnh gồm 10 loại đối tượng khác nhau, mỗi loại đối tượng có 1.000 mẫu (mỗi mẫu ảnh chứa hình ảnh về một đối tượng cụ thể).

5. Viết chương trình sử dụng hàm trong Matlab (C/C++ hoặc Python) để sử dụng mô hình pretrain của AlexNet28 để nhận dạng và phân loại các

Các mô hình pretrain trong matlab: 28

ảnh mẫu về các nhóm, mỗi nhóm là các ảnh chứa cùng loại đối tượng. Lưu ý, các mẫu ảnh nên chuẩn hóa về cùng kích thước của ảnh đầu vào tương ứng với mô hình AlexNet.

6. Viết chương trình sử dụng hàm trong Matlab (C/C++ hoặc Python) để sử dụng các mô hình pretrain của R-CNN, Fast R-CNN, Faster R- CNN để nhận dạng và phân loại các ảnh mẫu ở câu 4 vào các nhóm, mỗi nhóm là các ảnh chứa cùng loại đối tượng. So sánh độ chính xác của các mô hình pretrain trên.

7. Viết chương trình sử dụng các module học sâu theo kiến trúc ZFNet, GoogLeNet29, VGGNet, VGG30 và mô hình pretrain tương ứng để phân loại ảnh ở câu 4. So sánh độ chính xác các mô hình pretrain trên. 8. Viết chương trình sử dụng các module học sâu theo kiến trúc ResNet

và mô hình pretrain tương ứng 50 layers31

và 101 layers32 để phân loại ảnh ở câu 4. So sánh độ chính xác các mô hình pretrain trên.

9. Viết chương trình sử dụng mô hình pretrain và kiến trúc mạng trong bài báo[72] để mô tả ảnh chụp ngoại cảnh, ảnh chụp trong nhà. Đánh giá độ chính xác của kiến trúc mạng này.

29 https://www.mathworks.com/help/nnet/ref/googlenet.html 30 https://www.mathworks.com/help/nnet/ref/vgg16.html 31 https://www.mathworks.com/help/nnet/ref/resnet50.html 32 https://www.mathworks.com/help/nnet/ref/resnet101.html

Mô hình suy diễn mối liên kết