1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu về few shot learning và ứng dụng

84 17 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm hiểu về few – shot learning và ứng dụng
Tác giả Nguyễn Anh Đắc, Nguyễn Thanh Tân Kỷ
Người hướng dẫn ThS. Quách Đình Hoàng
Trường học Đại học sư phạm kỹ thuật thành phố hồ chí minh
Chuyên ngành Kỹ thuật dữ liệu
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 84
Dung lượng 4,4 MB

Cấu trúc

  • CHƯƠNG 1: MỞ ĐẦU (5)
    • 1.1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI (5)
    • 1.2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU (16)
    • 1.3. CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU (5)
    • 1.4. KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC (5)
    • 1.5. BỐ CỤC CỦA BÀI BÁO CÁO (5)
  • CHƯƠNG 2: NỘI DUNG (6)
    • 2.1. TỔNG QUAN VỀ FEW – SHOT LEARNING (6)
      • 2.1.1. Định nghĩa (6)
      • 2.1.2. So sánh FSL với các phương pháp học máy khác (6)
      • 2.1.3. Tầm quan trọng của FSL (6)
      • 2.1.4. Phân loại FSL (6)
      • 2.1.5. ƯU, NHƯỢC ĐIỂM CỦA FSL (22)
    • 2.2. TỔNG QUAN VỀ DEEP LEARNING (6)
      • 2.2.1. DEEP LEARNING (6)
      • 2.2.2. THUẬT TOÁN TRONG DEEP LEARNING (6)
    • 2.3. CÁC PHƯƠNG PHÁP HỌC MÁY CỦA FSL (6)
      • 2.3.1. ĐẶT VẤN ĐỀ (6)
      • 2.3.2. META LEARNING (6)
  • CHƯƠNG 3: ỨNG DỤNG (6)
    • 3.1. LĨNH VỰC ỨNG DỤNG (6)
      • 3.1.1. Thị giác máy tính (6)
      • 3.1.2. Xử lý ngôn ngữ tự nhiên (6)
      • 3.1.3. Phân loại âm thanh (6)
      • 3.1.4. Robotics (6)
      • 3.1.5. Chăm sóc sức khỏe (6)
    • 3.2. TÌNH HÌNH PHÁT TRIỂN (6)
  • CHƯƠNG 4: TRIỂN KHAI ỨNG DỤNG (69)
    • 4.3. MÔ HÌNH VÀ THUẬT TOÁN (7)
    • 4.4. TRIỂN KHAI ỨNG DỤNG (7)
    • 4.5. KẾT QUẢ (73)
      • 4.5.1. Thử nghiệm mô hình với các giá trị khác nhau (73)
      • 4.5.2. Ứng dụng web (75)
  • CHƯƠNG 5: KẾT LUẬN (7)
    • 5.1. KẾT QUẢ ĐẠT ĐƯỢC (7)
      • 5.1.1. Ý nghĩa khoa học (7)
      • 5.1.2. Ý nghĩa thực tiễn (7)
    • 5.2. HẠN CHẾ (7)
    • 5.3. HƯỚNG PHÁT TRIỂN (7)
  • TÀI LIỆU THAM KHẢO (81)

Nội dung

NỘI DUNG

TỔNG QUAN VỀ FEW – SHOT LEARNING

2.1.2 So sánh FSL với các phương pháp học máy khác 2.1.3 Tầm quan trọng của FSL

TỔNG QUAN VỀ DEEP LEARNING

2.2.2 Thuật toán trong deep learning

CÁC PHƯƠNG PHÁP HỌC MÁY CỦA FSL

ỨNG DỤNG

LĨNH VỰC ỨNG DỤNG

3.1.2 Xử lý ngôn ngữ tự nhiên

TÌNH HÌNH PHÁT TRIỂN

4.3 Mô hình và thuật toán

4 Phần TÀI LIỆU THAM KHẢO cách hết sức là nhiệt tình và chu đáo Với tất cả sự kính trọng, chúng tôi xin được bày tỏ lòng biết ơn sâu sắc đến thầy, cô vì đã luôn theo dõi và hướng dẫn trong suốt thời gian thực hiện đề tài Đầu tiên, chúng tôi xin gửi lời cảm ơn sâu sắc nhất đến Ban giám hiệu trường Đại học

Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh đã cung cấp một môi trường học tập và cơ sở vật chất chất lượng, giúp sinh viên phát huy khả năng nghiên cứu Chúng tôi xin chân thành cảm ơn Ban chủ nhiệm khoa Công nghệ Thông tin cùng các Thầy, Cô đã tạo ra một không khí học tập chuyên nghiệp và nhiệt tình, hỗ trợ sinh viên trong quá trình học tập và làm việc Đặc biệt, chúng tôi xin gửi lời cảm ơn sâu sắc đến Thầy Quách Đình Hoàng, giáo viên hướng dẫn khóa luận tốt nghiệp, vì những đóng góp quý báu trong quá trình thực hiện đề tài.

Sư phạm Kỹ thuật Thành phố Hồ Chí Minh đã hỗ trợ và đồng hành cùng chúng tôi trong những giai đoạn khó khăn nhất của nghiên cứu và thực hiện đề tài.

Mặc dù đã nỗ lực thực hiện đề tài, chúng tôi vẫn không thể tránh khỏi một số sai sót và hạn chế nhất định Chúng tôi rất mong nhận được phản hồi, ý kiến đóng góp và sự chỉ bảo từ Quý Thầy để hoàn thiện hơn.

Chúng tôi cần tiếp thu những kiến thức hữu ích để nâng cao trình độ, từ đó phục vụ tốt cho sự nghiệp trong tương lai.

Xin chân thành cảm ơn!

Tuần Thời gian Nội dung công việc Ghi chú

Tuần 1 – 2 30/1 – 12/2 Lựa chọn và xác định đề tài khóa luận tốt nghiệp

Tuần 3 – 4 13/2 – 26/2 Nghiên cứu sơ lược về đề tài và xây dựng khung sườn cho việc tìm hiểu

Tuần 5 – 6 27/2 – 12/3 Tìm hiểu khái niệm, cách tiếp cận cho bài toán few – shot learning

Tuần 7 13/3 – 19/3 Tìm hiểu lý thuyết, các loại few – shot learning

Tuần 8 20/3 – 26/3 Tìm hiểu về thuật toán few – shot learning

Tuần 9 – 11 27/3 – 16/4 Tìm hiểu về thuật toán prototypical networks

Tuần 12 17/4 – 23/4 Tìm hiểu deep learning – CNN,

Tuần 13 24/4 – 30/4 Tìm hiểu về các ứng dụng của few

– shot learning trong lĩnh vực

Tuần 15 8/5 – 14/5 Tìm hiểu và nghiên một số triển khai ứng dụng của few – shot learning Tuần 16 15/5 – 21/5 Thực hiện xây dựng mô hình demo, hoàn thiện báo cáo

Tuần 19 5/6 – 11/6 Chỉnh sửa báo cáo, demo theo góp ý của giáo viên hướng dẫn

1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI 1

1.2 MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU 2

1.3 CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2

1.4 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 2

1.5 BỐ CỤC CỦA BÀI BÁO CÁO 3

2.1 TỔNG QUAN VỀ FEW – SHOT LEARNING 4

2.1.2 So sánh FSL với các phương pháp học máy khác 4

2.1.3 Tầm quan trọng của FSL 5

2.1.5 ƯU, NHƯỢC ĐIỂM CỦA FSL 8

2.2 TỔNG QUAN VỀ DEEP LEARNING 9

2.2.2 THUẬT TOÁN TRONG DEEP LEARNING 10

2.3 CÁC PHƯƠNG PHÁP HỌC MÁY CỦA FSL 22

3.1.2 Xử lý ngôn ngữ tự nhiên 49

CHƯƠNG 4: TRIỂN KHAI ỨNG DỤNG 55

4.3 MÔ HÌNH VÀ THUẬT TOÁN 57

4.5.1 Thử nghiệm mô hình với các giá trị khác nhau 59

Hình 2: Lớp tích chập Conv [10] 13

Hình 3: Phép biến đổi ReLU [11] 13

Hình 4: Max pooling & average pooling trong lớp tổng hợp [10] 15

Hình 5: Lớp liên kết đầy đủ [11] 15

Hình 6: Lớp hàm tổng quát và lớp hàm chồng nhau [13] 17

Hình 7: Sự khác biệt giữa một khối thông thường (trái) và một khối phần dư (phải) [13] 18

Hình 8: Khối ResNet thông thường (trái) Khối ResNet với tầng tích chập × [13] 19

Hình 9: Kiến trúc GoogLeNet đầy đủ [13] 20

Hình 11: Kiến trúc cơ bản của FSL [4] 23

Hình 12: Kiến trúc của meta - learning [14] 25

Hình 13: Kiến trúc cơ bản của gradient – based meta learning [4] 27

Hình 14: Kiến trúc của siamese networks [15] 29

Hình 15: Dữ liệu sau khi được biến dạng Affine [15] 31

Hình 16: Kiến trúc tổng quan triplet networks 32

Hình 17: Kiến trúc chi tiết của triplet networks [16] 33

Hình 18: Kiến trúc của matching networks 35

Hình 20: Kiến trúc của prototypical networks [19] 40

Hình 21: Kiến trúc relation networks 46

Từ năm 2010 đến nửa đầu năm 2021, số lượng bài báo liên quan đến FSL được công bố trên các tạp chí uy tín đã tăng đáng kể, không bao gồm các trích dẫn.

Hình 23: Một số ký tự thuộc bộ ký tự Japanese_(katakana) 56

Hình 24: Một số ký tự thuộc bộ ký tự Latin 56

Hình 25: Xử lý dữ liệu đầu vào [28] 57

Hình 26: Mô hình prototypical networks [28] 58

Hình 27: Thực hiện đào tạo mô hình [28] 59

Hình 33: Biểu đồ độ chính xác theo số lần training 61

Hình 35: Chọn một ký tự để nhận diện 62

Hình 38: Kết quả phân loại ảnh từ ký tự người dùng vẽ 64

CHƯƠNG 1: MỞ ĐẦU 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI

Câu hỏi "Máy móc có thể suy nghĩ không?" được Alan Turing đặt ra trong bài viết "Máy tính và trí thông minh" năm 1950, nhấn mạnh rằng máy tính kỹ thuật số có khả năng thực hiện mọi hoạt động mà con người có thể làm Mục tiêu cuối cùng của máy móc là trở nên thông minh như con người Gần đây, sự phát triển của thiết bị điện toán mạnh mẽ, bộ dữ liệu lớn và các mô hình tiên tiến như mạng thần kinh tích chập (CNN) và bộ nhớ ngắn hạn kéo dài (LSTM) đã giúp AI tiến gần hơn đến khả năng của con người Ví dụ, AlphaGo đã đánh bại các nhà vô địch cờ vây, và mạng ResNet đạt hiệu suất phân loại tốt hơn con người trên ImageNet AI hiện đang hỗ trợ nhiều khía cạnh trong cuộc sống hàng ngày, từ trợ lý giọng nói đến ô tô lái tự động và rô-bốt công nghiệp.

Mặc dù các kỹ thuật AI hiện tại rất thành công, chúng vẫn không thể khái quát hóa nhanh chóng từ một vài ví dụ, mà chủ yếu dựa vào việc học từ dữ liệu quy mô lớn Trong khi đó, con người có khả năng học hỏi nhanh chóng các nhiệm vụ mới bằng cách áp dụng kiến thức đã có Chẳng hạn, một đứa trẻ biết cộng có thể dễ dàng chuyển sang phép nhân chỉ với một vài ví dụ, và khi nhìn thấy một số bức ảnh của một người lạ, trẻ có thể nhận diện người đó từ hàng trăm bức ảnh khác.

Việc thu hẹp khoảng cách giữa AI và con người là một mục tiêu quan trọng, có thể đạt được thông qua học máy Một mô hình học máy mới, gọi là few-shot learning (FSL), được đề xuất để học hỏi từ những ví dụ hạn chế với thông tin được giám sát FSL cho phép các chương trình máy tính phân tích và tạo ra các ký tự viết tay mới từ một vài ví dụ, bằng cách tách các ký tự thành những phần nhỏ hơn và tổng hợp chúng lại Phương pháp này tương tự như cách con người học hỏi Ngoài ra, FSL còn có thể nâng cao công nghệ robot, giúp các máy móc tái tạo hành động của con người thông qua việc bắt chước cử chỉ, điều hướng bằng hình ảnh và kiểm soát liên tục.

Trong bối cảnh hiện nay, việc tìm kiếm dữ liệu trở nên khó khăn hơn do các vấn đề liên quan đến quyền riêng tư, an toàn và đạo đức Một ví dụ điển hình là trong lĩnh vực dược phẩm, nơi các nhà nghiên cứu đang nỗ lực khám phá các đặc tính của các phân tử mới nhằm xác định những tiềm năng ứng dụng của chúng.

Hai phân tử hữu ích đang được nghiên cứu để phát triển thuốc mới Tuy nhiên, việc tạo ra thuốc mới có thể tiềm ẩn rủi ro do thiếu dữ liệu Vì vậy, việc học hỏi hiệu quả từ những mẫu ít ỏi là rất quan trọng Thông qua FSL, việc áp dụng các mô hình phù hợp cho những trường hợp hiếm gặp trở nên khả thi.

FSL cũng có thể giúp giảm bớt gánh nặng thu thập dữ liệu được giám sát quy mô lớn

Mặc dù ResNet vượt trội hơn con người trong việc phân loại hình ảnh trên ImageNet, nhưng việc yêu cầu mỗi lớp có đủ hình ảnh được gắn nhãn tốn nhiều công sức thu thập Học tập ít dữ liệu (FSL) có thể giảm thiểu nỗ lực này cho các ứng dụng như phân loại hình ảnh, truy xuất hình ảnh, theo dõi đối tượng và nhiều lĩnh vực khác Với mục tiêu học thuật là giúp AI gần gũi hơn với con người và nhu cầu công nghiệp về học tập tiết kiệm, FSL đã trở thành một chủ đề thu hút sự chú ý đáng kể Nhiều phương pháp học máy như meta-learning, embedding learning và generative modeling đã được phát triển trong lĩnh vực này.

1.2 MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU

Mục tiêu của đề tài là nghiên cứu cơ sở lý thuyết của bài toán FSL và các ứng dụng liên quan đến thuật toán, nhằm khai thác chiều sâu của bài toán và các thuật toán sử dụng Chúng tôi muốn xây dựng mô hình phân tích để nhận dạng chữ viết thông qua phương pháp meta-learning và prototypical networks Để đạt được mục tiêu này, trước tiên, chúng tôi cần tìm hiểu một số vấn đề liên quan đến bài toán đã đặt ra.

- Tìm hiểu cơ sở lý thuyết của bài toán FSL

- Tìm hiểu các phương pháp tiếp cận cho những bài toán cụ thể

- Ứng dụng bài toán vào một tập dữ liệu cụ thể để trực quan hóa bài toán

- Đánh giá và giải thích kết quả đạt được

1.3 CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Bài toán phân tích và nhận dạng chữ viết của 50 loại ngôn ngữ trong tập dữ liệu Omniglot thường được giải quyết bằng mô hình học sâu Các thuật toán học máy có giám sát như cây quyết định, hồi quy logistic và CNN được áp dụng trong việc phân loại chữ viết Chúng tôi sử dụng thuật toán prototypical networks, cho phép đạt được độ chính xác cao ngay cả khi chỉ có một lượng dữ liệu hạn chế, điều này là rất quan trọng trong nghiên cứu này.

1.4 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC

Nhóm chúng tôi hy vọng rằng sau khi nghiên cứu nhiều công trình và ứng dụng từ các tác giả trước, chúng tôi sẽ rút ra được những bài học quý giá và tổng hợp thành một kết luận có giá trị.

TRIỂN KHAI ỨNG DỤNG

TRIỂN KHAI ỨNG DỤNG

4 Phần TÀI LIỆU THAM KHẢO cách hết sức là nhiệt tình và chu đáo Với tất cả sự kính trọng, chúng tôi xin được bày tỏ lòng biết ơn sâu sắc đến thầy, cô vì đã luôn theo dõi và hướng dẫn trong suốt thời gian thực hiện đề tài Đầu tiên, chúng tôi xin gửi lời cảm ơn sâu sắc nhất đến Ban giám hiệu trường Đại học

Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh đã cung cấp môi trường học tập và cơ sở vật chất chất lượng, giúp chúng tôi phát huy tối đa khả năng nghiên cứu Chúng tôi xin chân thành cảm ơn Ban chủ nhiệm khoa Công nghệ Thông tin cùng các Thầy, Cô đã tạo ra một không gian học tập chuyên nghiệp và nhiệt tình, hỗ trợ sinh viên trong quá trình học tập và làm việc Đặc biệt, chúng tôi xin gửi lời cảm ơn sâu sắc đến Thầy Quách Đình Hoàng, giáo viên hướng dẫn khóa luận tốt nghiệp, vì những đóng góp quý báu trong hành trình học tập của chúng tôi.

Sư phạm Kỹ thuật Thành phố Hồ Chí Minh đã luôn đồng hành, hướng dẫn và quan tâm đến chúng tôi trong những giai đoạn khó khăn nhất của quá trình nghiên cứu và thực hiện đề tài.

Mặc dù đã nỗ lực thực hiện đề tài, không thể tránh khỏi một số sai sót và hạn chế Chúng tôi rất mong nhận được phản hồi, ý kiến đóng góp và sự chỉ bảo từ Quý Thầy để hoàn thiện hơn.

Chúng tôi mong muốn tiếp thu những kiến thức hữu ích để nâng cao trình độ, từ đó phục vụ tốt hơn cho sự nghiệp trong tương lai.

Xin chân thành cảm ơn!

Tuần Thời gian Nội dung công việc Ghi chú

Tuần 1 – 2 30/1 – 12/2 Lựa chọn và xác định đề tài khóa luận tốt nghiệp

Tuần 3 – 4 13/2 – 26/2 Nghiên cứu sơ lược về đề tài và xây dựng khung sườn cho việc tìm hiểu

Tuần 5 – 6 27/2 – 12/3 Tìm hiểu khái niệm, cách tiếp cận cho bài toán few – shot learning

Tuần 7 13/3 – 19/3 Tìm hiểu lý thuyết, các loại few – shot learning

Tuần 8 20/3 – 26/3 Tìm hiểu về thuật toán few – shot learning

Tuần 9 – 11 27/3 – 16/4 Tìm hiểu về thuật toán prototypical networks

Tuần 12 17/4 – 23/4 Tìm hiểu deep learning – CNN,

Tuần 13 24/4 – 30/4 Tìm hiểu về các ứng dụng của few

– shot learning trong lĩnh vực

Tuần 15 8/5 – 14/5 Tìm hiểu và nghiên một số triển khai ứng dụng của few – shot learning Tuần 16 15/5 – 21/5 Thực hiện xây dựng mô hình demo, hoàn thiện báo cáo

Tuần 19 5/6 – 11/6 Chỉnh sửa báo cáo, demo theo góp ý của giáo viên hướng dẫn

1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI 1

1.2 MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU 2

1.3 CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2

1.4 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 2

1.5 BỐ CỤC CỦA BÀI BÁO CÁO 3

2.1 TỔNG QUAN VỀ FEW – SHOT LEARNING 4

2.1.2 So sánh FSL với các phương pháp học máy khác 4

2.1.3 Tầm quan trọng của FSL 5

2.1.5 ƯU, NHƯỢC ĐIỂM CỦA FSL 8

2.2 TỔNG QUAN VỀ DEEP LEARNING 9

2.2.2 THUẬT TOÁN TRONG DEEP LEARNING 10

2.3 CÁC PHƯƠNG PHÁP HỌC MÁY CỦA FSL 22

3.1.2 Xử lý ngôn ngữ tự nhiên 49

CHƯƠNG 4: TRIỂN KHAI ỨNG DỤNG 55

4.3 MÔ HÌNH VÀ THUẬT TOÁN 57

4.5.1 Thử nghiệm mô hình với các giá trị khác nhau 59

Hình 2: Lớp tích chập Conv [10] 13

Hình 3: Phép biến đổi ReLU [11] 13

Hình 4: Max pooling & average pooling trong lớp tổng hợp [10] 15

Hình 5: Lớp liên kết đầy đủ [11] 15

Hình 6: Lớp hàm tổng quát và lớp hàm chồng nhau [13] 17

Hình 7: Sự khác biệt giữa một khối thông thường (trái) và một khối phần dư (phải) [13] 18

Hình 8: Khối ResNet thông thường (trái) Khối ResNet với tầng tích chập × [13] 19

Hình 9: Kiến trúc GoogLeNet đầy đủ [13] 20

Hình 11: Kiến trúc cơ bản của FSL [4] 23

Hình 12: Kiến trúc của meta - learning [14] 25

Hình 13: Kiến trúc cơ bản của gradient – based meta learning [4] 27

Hình 14: Kiến trúc của siamese networks [15] 29

Hình 15: Dữ liệu sau khi được biến dạng Affine [15] 31

Hình 16: Kiến trúc tổng quan triplet networks 32

Hình 17: Kiến trúc chi tiết của triplet networks [16] 33

Hình 18: Kiến trúc của matching networks 35

Hình 20: Kiến trúc của prototypical networks [19] 40

Hình 21: Kiến trúc relation networks 46

Từ năm 2010 đến giữa năm 2021, số lượng bài báo liên quan đến FSL được công bố trên các tạp chí uy tín đã có sự gia tăng đáng kể, thể hiện sự quan tâm ngày càng cao của cộng đồng nghiên cứu đối với lĩnh vực này.

Hình 23: Một số ký tự thuộc bộ ký tự Japanese_(katakana) 56

Hình 24: Một số ký tự thuộc bộ ký tự Latin 56

Hình 25: Xử lý dữ liệu đầu vào [28] 57

Hình 26: Mô hình prototypical networks [28] 58

Hình 27: Thực hiện đào tạo mô hình [28] 59

Hình 33: Biểu đồ độ chính xác theo số lần training 61

Hình 35: Chọn một ký tự để nhận diện 62

Hình 38: Kết quả phân loại ảnh từ ký tự người dùng vẽ 64

CHƯƠNG 1: MỞ ĐẦU 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI

Câu hỏi “Máy móc có thể suy nghĩ không?” được nêu ra trong bài viết của Alan Turing năm 1950, nhấn mạnh rằng mục tiêu của máy tính là đạt được trí thông minh tương tự như con người Sự phát triển gần đây của công nghệ, bao gồm GPU mạnh mẽ, bộ dữ liệu lớn như ImageNet, và các mô hình tiên tiến như mạng thần kinh tích chập (CNN) và bộ nhớ ngắn hạn kéo dài (LSTM), đã giúp AI tiến gần hơn đến khả năng của con người Ví dụ, AlphaGo đã đánh bại các nhà vô địch trong trò chơi cờ vây, và kiến trúc mạng ResNet đã vượt qua hiệu suất phân loại của con người trên ImageNet AI hiện đang hỗ trợ phát triển các công cụ thông minh trong cuộc sống hàng ngày, từ trợ lý giọng nói đến ô tô lái tự động và rô-bốt công nghiệp.

Mặc dù các kỹ thuật AI hiện tại rất thành công, chúng vẫn không thể khái quát hóa nhanh chóng từ một vài ví dụ như con người Các ứng dụng AI thành công chủ yếu dựa vào việc học từ dữ liệu quy mô lớn, trong khi con người có khả năng học các nhiệm vụ mới một cách nhanh chóng bằng cách áp dụng kiến thức đã có Chẳng hạn, một đứa trẻ biết cộng có thể dễ dàng chuyển sang học phép nhân chỉ với vài ví dụ, hoặc nhận diện một người lạ từ nhiều bức ảnh khác nhau sau khi đã thấy một số bức ảnh ban đầu.

Việc thu hẹp khoảng cách giữa AI và con người là một hướng đi quan trọng, có thể được giải quyết thông qua học máy, đặc biệt là mô hình học mới mang tên few-shot learning (FSL) FSL cho phép máy tính học hỏi từ một số ít ví dụ có giám sát, như trong việc tạo ra ký tự viết tay mới từ những mẫu hạn chế Quá trình này bao gồm việc phân tách các ký tự thành các thành phần nhỏ hơn, sau đó tổng hợp chúng để tạo ra ký tự mới, tương tự như cách con người học hỏi Ngoài ra, FSL còn có thể cải thiện công nghệ robot, cho phép các máy móc tái tạo hành động của con người qua các cử chỉ, điều hướng bằng hình ảnh và kiểm soát liên tục.

Trong bối cảnh hiện nay, việc tìm kiếm dữ liệu đang trở nên khó khăn hơn do các vấn đề liên quan đến quyền riêng tư, an toàn và đạo đức Một ví dụ điển hình là trong lĩnh vực dược phẩm, nơi mà việc khám phá các đặc tính của các phân tử mới là rất cần thiết để xác định những tiềm năng mới trong nghiên cứu và phát triển thuốc.

Hai phân tử hữu ích đang được nghiên cứu để phát triển thuốc mới Tuy nhiên, việc tạo ra thuốc mới có thể gặp rủi ro do thiếu dữ liệu Vì vậy, việc học hỏi hiệu quả từ những mẫu hiếm là rất quan trọng Thông qua FSL, việc xây dựng các mô hình phù hợp cho những trường hợp này trở nên khả thi.

FSL cũng có thể giúp giảm bớt gánh nặng thu thập dữ liệu được giám sát quy mô lớn

Mặc dù ResNet vượt trội hơn con người trong việc phân loại hình ảnh trên ImageNet, nhưng yêu cầu về số lượng hình ảnh được gắn nhãn cho mỗi lớp có thể gây khó khăn trong việc thu thập dữ liệu Học tập ít dữ liệu (FSL) giúp giảm bớt nỗ lực này cho các ứng dụng như phân loại hình ảnh, truy xuất hình ảnh, theo dõi đối tượng, nhận dạng cử chỉ, chú thích hình ảnh, trả lời câu hỏi trực quan, phát hiện sự kiện video, lập mô hình ngôn ngữ và tìm kiếm kiến trúc thần kinh Với sự kết hợp giữa mục tiêu học thuật nhằm giúp AI đạt được trình độ của con người và nhu cầu công nghiệp về phương pháp học tập tiết kiệm, FSL đã trở thành một chủ đề nóng và thu hút nhiều sự quan tâm Nhiều phương pháp học máy liên quan đã được phát triển, bao gồm meta-learning, embedding learning và generative modeling.

1.2 MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU

Mục tiêu của đề tài là nghiên cứu cơ sở lý thuyết của bài toán FSL và các ứng dụng liên quan đến thuật toán, nhằm khai thác chiều sâu của bài toán cũng như các thuật toán sử dụng Chúng tôi muốn xây dựng mô hình phân tích để nhận dạng chữ viết bằng phương pháp meta-learning và prototypical networks Để đạt được mục tiêu này, trước tiên cần tìm hiểu các vấn đề liên quan đến bài toán đã đặt ra.

- Tìm hiểu cơ sở lý thuyết của bài toán FSL

- Tìm hiểu các phương pháp tiếp cận cho những bài toán cụ thể

- Ứng dụng bài toán vào một tập dữ liệu cụ thể để trực quan hóa bài toán

- Đánh giá và giải thích kết quả đạt được

1.3 CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Trong việc phân tích và nhận dạng chữ viết của 50 loại ngôn ngữ khác nhau trong tập dữ liệu Omniglot, mô hình học sâu là cách tiếp cận phổ biến nhất Các thuật toán học máy có giám sát như cây quyết định, hồi quy logistic, và CNN thường được sử dụng trong việc phân loại chữ viết Chúng tôi áp dụng thuật toán mạng prototypical, cho phép đạt được độ chính xác cao với lượng dữ liệu hạn chế, điều này trở thành một yếu tố quan trọng trong nghiên cứu của chúng tôi.

1.4 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC

Nhóm chúng tôi hy vọng rằng sau khi nghiên cứu nhiều công trình và ứng dụng từ các tác giả trước, chúng tôi sẽ rút ra được những bài học quý giá và tổng hợp thành một kết luận hữu ích.

Ngày đăng: 08/12/2023, 15:29

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Yaqing Wang et al., "Generalizing from a Few Examples: A Survey on Few- Shot," 2019, pp. 1 - 2 Sách, tạp chí
Tiêu đề: Generalizing from a Few Examples: A Survey on Few-Shot
[2] V. Lyashenko, "Understanding Few-Shot Learning in Computer Vision: What You Need to Know," neptune.ai, 21 / 4 / 2023. [Online]. Available:https://neptune.ai/blog/understanding-few-shot-learning-in-computer-vision.[Accessed 12 / 6 / 2023] Sách, tạp chí
Tiêu đề: Understanding Few-Shot Learning in Computer Vision: What You Need to Know
[3] Yisheng Song et al., "A Comprehensive Survey of Few-shot Learning: Evolution, Applications, Challenges, and Opportunities," 2022, pp. 4 - 5 Sách, tạp chí
Tiêu đề: A Comprehensive Survey of Few-shot Learning: Evolution, Applications, Challenges, and Opportunities
[4] D. Pham, "Giới thiệu Few-shot Learning trong Computer Vision," FPT Telecom, 20 / 12 / 2022. [Online]. Available: https://blog.cads.live/gioi-thieu-few-shot-learning-trong-computer-vision/. [Accessed 12 / 5 / 2023] Sách, tạp chí
Tiêu đề: Giới thiệu Few-shot Learning trong Computer Vision
[5] "Deep Learning Tutorial," javatpoint, [Online]. Available: https://www.javatpoint.com/deep-learning. [Accessed 11 / 6 / 2023] Sách, tạp chí
Tiêu đề: Deep Learning Tutorial
[6] "What is Deep Learning?," NetApp, [Online]. Available: https://www.netapp.com/artificial-intelligence/what-is-deep-learning/.[Accessed 11 / 6 / 2023] Sách, tạp chí
Tiêu đề: What is Deep Learning
[7] "Introduction to Convolution Neural Network," geeksforgeeks, [Online]. Available: https://www.geeksforgeeks.org/introduction-convolution-neural-network/. [Accessed 12 / 6 / 2023] Sách, tạp chí
Tiêu đề: Introduction to Convolution Neural Network
[8] T. M. Cường, "Convolution - Tích chập giải thích bằng code thực tế," TechMaster, 2 / 9 / 2019. [Online]. Available:https://techmaster.vn/posts/35474/convolution-tich-chap-giai-thich-bang-code-thuc-te. [Accessed 12 / 6 / 2023] Sách, tạp chí
Tiêu đề: Convolution - Tích chập giải thích bằng code thực tế
[9] "What are convolutional neural networks?," IBM, [Online]. Available: https://www.ibm.com/topics/convolutional-neural-networks. [Accessed 12 / 6 / 2023] Sách, tạp chí
Tiêu đề: What are convolutional neural networks
[10] M. Mandal, "Introduction to Convolutional Neural Networks (CNN)," 1 / 5 / 2021. [Online]. Available Sách, tạp chí
Tiêu đề: Introduction to Convolutional Neural Networks (CNN)
[11] S. A. Afshine Amidi, "Convolutional Neural Networks cheatsheet," Stanford, [Online]. Available: https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-convolutional-neural-networks. [Accessed 12 / 6 / 2023] Sách, tạp chí
Tiêu đề: Convolutional Neural Networks cheatsheet
[12] T. D. Thang, "Giới thiệu mạng ResNet," VIBLO, 14 / 1 / 2020. [Online]. Available: https://viblo.asia/p/gioi-thieu-mang-resnet-vyDZOa7R5wj. [Accessed 5 / 6 / 2023] Sách, tạp chí
Tiêu đề: Giới thiệu mạng ResNet
[13] "Đắm Mình Vào Học Sâu," [Online]. Available: https://d2l.aivivn.com/chapter_convolutional-modern/resnet_vn.html. [Accessed 5 / 6 / 2023] Sách, tạp chí
Tiêu đề: Đắm Mình Vào Học Sâu
[14] W. Zi, L. S. Ghoraie, S. Prince, "Few-Shot Learning & Meta-Learning | Tutorial," BOREALIS AI, 30 / 3 / 2023. [Online]. Available:https://www.borealisai.com/research-blogs/tutorial-2-few-shot-learning-and-meta-learning-i/. [Accessed 12 / 6 / 2023] Sách, tạp chí
Tiêu đề: Few-Shot Learning & Meta-Learning | Tutorial
[15] G. Koch. et al., "Siamese Neural Networks for One-shot Image Recognition," in ICML deep learning workshop, vol. 2, 2015, pp. 3 - 5 Sách, tạp chí
Tiêu đề: Siamese Neural Networks for One-shot Image Recognition
[16] E. Hoffer, N. Ailon, "Deep Metric Learning Using Triplet Networks," 2014, pp. 2 - 3 Sách, tạp chí
Tiêu đề: Deep Metric Learning Using Triplet Networks
[17] Oriol Vinyals et al., "Matching Networks for One Shot Learning," in NeurIPS 2016, 2016, pp. 2 - 4 Sách, tạp chí
Tiêu đề: Matching Networks for One Shot Learning
[18] "K - Means Clustering," Wikipedia, [Online]. Available: https://en.wikipedia.org/wiki/K-means_clustering. [Accessed 20 / 5 / 2023] Sách, tạp chí
Tiêu đề: K - Means Clustering
[19] Jake Smell et al., "Prototypical Networks for Few-shot Learning," in NeurIPS 2017, 2017, pp. 2 - 3 Sách, tạp chí
Tiêu đề: Prototypical Networks for Few-shot Learning
[20] TonyKhanh, "Cross-Entropy Loss là gì?," Tony Deep's Blogs, 17 / 07 / 2017. [Online]. Available: https://tonydeep.github.io/tensorflow/2017/07/07/Cross-Entropy-Loss.html?. [Accessed 11 / 06 / 2023] Sách, tạp chí
Tiêu đề: Cross-Entropy Loss là gì

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w