MỤC LỤC
Một vài ví dụ hiện nay phổ biến mà chúng ta thường bắt gặp, chẳng hạn khi chúng ta truy cập các trên web của các hãng thời trang cao cấp như Victoria’s Secret, Luis Vuitton hay của Burberry, chúng ta sẽ dễ dàng nhận thấy các cuộc hội thoại tự động chủ động bắt chuyện của Chatbot [5]. − Chương 2, Cơ sở lý thuyết: Tổng hợp những vấn đề học thuật liên quan nhất sẽ áp dụng để giải quyết bài toán, tập trung chủ yếu vào nội dung của học sâu, từ các kiến trúc về Rasa, Mạng nơ-ron tích chập, các phương pháp Few-shot Learn- ing trong cách học tổng quát (transductive learning), cụ thể là mô hình Model- agnostic Meta-Learning (MAML), Prototype Network, Matching Network và một số kiến thức liên quan đến xây dựng, đo đạc hệ thống.
− NLP là khả năng xử lý của mô hình với những gì được nói, hiểu ý nghĩa của nó, xác định hành động đáp lại và trả lời bằng ngôn ngữ dễ hiểu đối với người dùng, bằng cách chuyển đổi văn bản máy tính thành dữ liệu có cấu trúc. Hay loại chatbot câu hỏi và trả lời, tức người thiết kế đã định nghĩa trước từng câu trả lời ứng với từng câu hỏi đơn giản khác nhau, từ đó, giảm tải cho các hệ thống bởi những câu việc đơn giản, tối ưu chi phí nhân viên và chỉ khi người dùng gặp các câu hỏi phức tạp mới cần những quản lý liên quan.
NLU cực kỳ quan trọng đối với dữ liệu không thể đoán trước như chữ viết tắt, từ sửa đổi và từ sai chính tả, tiếng lóng, ngôn ngữ khó hiểu, phép ẩn dụ mà con người có thể hiểu và máy không thể hiểu được. Để xây dựng một mô hình NLU tốt cho chatbot, học viên cần cải tiến mô hình bằng các thành phần tùy chỉnh của riêng mình, chẳng hạn như trình phân tích quan điểm (sentiment analyzer), trình mã thông báo (tokenizer), trình kiểm tra chính tả (spell checker), v.v.
Một số tính chất khiến nó trở nên đặc biệt như khả năng học tương thích: CNN có thể bắt chước não người trong cách học để làm một công việc khi ta huấn luyện cho nó, trong khi một chương trình máy tính thông thường chỉ có thể xử lý những công việc mà ta đã quy định sẵn cho nó. Nó tính độ lệch giữa giá trị đầu ra mục tiêu và giá trị đầu ra đạt được từ mạng nơ-ron hiện tại bằng hàm lỗi (loss function), sau đó lan truyền ngược tới các trọng số ở các tầng trước để điều chỉnh trọng số.
Pretrained model có khả năng cung cấp cho người huấn luyện mô hình một độ chính xác cao ngay từ đầu, do đó khi huấn luyện trên các nhiệm vụ mà họ mong muốn thì các mô hình theo cách học chuyển tiếp của họ sẽ tiếp tục tăng độ chính xác này thay vì phải bắt đầu từ điểm có độ chính xác thấp hơn. Transfer Learning không phải một kỹ thuật dễ sử dụng, nếu người huấn luyện mô hình nếu có bất kỳ sai sót trong quá trình chuyển tiếp như kiến trúc của mô hình huấn luyện sẵn hay thêm/bớt không đúng tầng (layer) thì khi huấn luyện, độ chính xác sẽ thấp không tưởng tượng được, khi đó họ sẽ phải kiểm tra lại quá trình sửa các tầng hoặc làm lại từ đấu.
Ba lớp được kết nối đầy đủ (Fully Connected) tuân theo một chồng các lớp tích chập (có độ sâu khác nhau trong các kiến trúc khác nhau): hai lớp đầu tiên có 4096 kênh mỗi lớp, lớp thứ ba thực hiện phân loại ILSVRC 1000 chiều và do đó chứa 1000 kênh (mỗi lớp một kênh lớp học). Cũng cần lưu ý rằng không có mạng nào (ngoại trừ một mạng) chứa Chuẩn hóa phản hồi cục bộ (Local Response Normalisation), việc chuẩn hóa như vậy không cải thiện hiệu suất trên tập dữ liệu ILSVRC, nhưng dẫn đến việc tiêu thụ bộ nhớ và thời gian tính toán tăng lên.
DenseNet thường có hiệu suất cao hơn so với các kiến trúc khác với cùng lượng tham số, do khả năng tái sử dụng thông tin và giảm số lượng tham số cần huấn luyện. Tuy nhiên, những nhược điểm trên không phải lúc nào cũng áp dụng cho mọi tình huống, và việc lựa chọn kiến trúc mô hình phụ thuộc vào nhiều yếu tố như loại dữ liệu, kích thước mô hình, và yêu cầu của ứng dụng cụ thể.
Xác suất dự đoán được thu được bằng cách đưa khoảng cách giữa điểm truy vấn và nguyên mẫu vào hàm Soft-max. Mô hình prototypical được đào tạo bằng cách giảm thiểu log xác suất âm trung bình của dự đoán đúng, như được mô tả trong Công thức 3.
Để so sánh với Euclide Distance thì có thể hiểu trên map Euclide Distance là đường chim bay (màu đỏ) còn Manhattan là đường bộ (màu xanh) theo các block nhà. Khoảng cách cosine trả về một giá trị trong khoảng [-1, 1], với 1 thể hiện sự tương đồng hoàn toàn giữa hai vector, 0 thể hiện sự không tương đồng, và -1 thể hiện sự tương đối nhau cách đối nghịch.
− PostgreSQL là một hệ thống quản lý cơ sở dữ liệu quan hệ mã nguồn mở, hỗ trợ các tính năng mạnh mẽ và tuân thủ chuẩn SQL. − MinIO là một hệ thống lưu trữ đối tượng mã nguồn mở, giống như Amazon S3, được thiết kế để đơn giản, hiệu quả và mở rộng linh hoạt.
Tuy nhiên, vì họ không sử dụng các chỉ mục một cách tối ưu nên những chỉ mục đó có thể nhanh chóng trở thành vấn đề khi cần kết quả nhanh chóng cho các đề xuất tự động hoàn thành chẳng hạn. Cho dù người dùng nào đang sử dụng cơ sở dữ liệu nào, trước khi triển khai giải pháp tìm kiếm toàn văn bản, người dùng đó sẽ phải cân nhắc những điều này [19].
− Điều phối viên gốc (tọa độ gốc) Root coord xử lý các yêu cầu ngôn ngữ định nghĩa dữ liệu (DDL) và ngôn ngữ kiểm soát dữ liệu (DCL), chẳng hạn như tạo hoặc xóa các bộ sưu tập, phân vùng hoặc chỉ mục, cũng như quản lý TSO (dấu thời gian Oracle) và phát hành mã đánh dấu thời gian. − Nút truy vấn Nút truy vấn truy xuất dữ liệu nhật ký gia tăng và biến chúng thành các phân đoạn ngày càng tăng bằng cách đăng ký nhà môi giới nhật ký, tải dữ liệu lịch sử từ bộ lưu trữ đối tượng và chạy tìm kiếm kết hợp giữa dữ liệu vectơ và vô hướng.
Trong báo cáo này, tôi sử dụng nền tảng RASA để xây dựng chatbot của mình với một số lý do: RASA là một công cụ xử lý ngôn ngữ tự nhiên mã nguồn mở, nó có thể chạy cục bộ và có các ưu điểm của mã nguồn mở tự lưu trữ như khả năng thích ứng, kiểm soát dữ liệu, v.v. Nhìn chung, có thể thấy, nếu tập dữ liệu các áo quần thời trang mà không thay đổi thì các cách tiếp cận đạt được độ hiệu quả rất cao nhưng trong thời đại hiện nay, các mẫu áo quần ra liên tục, không thể cứ mỗi lần một mẫu áo quần mới ra thì cần phải huấn luyện lại mô hình.
Trong khi tác giả Trang [24] sử dụng các mô hình có kiến trúc phức tạp TensorFlow, mBERT, cpFastText thì học viên sử dụng một DIETClassifer để việc huấn luyện diễn ra dễ dàng và hiệu quả nhất có thể. Nhìn vào kết quả, học viên nhận thấy kết quả không quá tệ trong việc mô hình Chatbot nhận diện ra thực thể nào, từ đó mô hình sẽ cung cấp thông tin về thực thể cùng ý định cho các mô-đun phía sau xử lý.
Ở phương pháp này, học viên đã sử dụng mô hình: Model-Agnostic Meta-Learning (MAML) trong việc học từ cách khởi tạo ban đầu (learning the initialization) Học viên nhận thấy trong các bài báo khoa học gốc, các tác giả của các phương pháp trên chưa tận dụng được sức mạnh của kiến trúc ResNet nên trong đề tài này, đặc biệt trong lĩnh vực ảnh Thời trang, học viên đã thử nghiệm với các mô hình khác nhau so với mô hình gốc trong bài báo khoa học. Khi mô hình đã học xong ở miền nhiệm vụ của tập hỗ trợ, khi qua tập truy vấn để đánh giá mô hình, mô hình cũng sử dụng N-way để làm véc-tơ đại diện cho từng lớp trong tập truy vấn đó, sau đó mô hình sử dụng K-shot còn lại để làm véc-tơ đánh giá.
Entrypoint Service sẽ gửi toàn bộ thông tin trên qua Meta Service nó truy vấn trong Cơ sở dữ liệu Véc-tơ (milvus) để xem những véc-tơ nào có khoảng cách gần nhất và nằm trong vùng truy vấn theo yêu cầu từ người mua. Sau đó, bởi vì người dùng không cung cấp bất kỳ thuộc tính nào trong câu hỏi nên mỗi ảnh sẽ được đưa qua mô hình trích xuất đặc trưng, và dùng công cụ milvus để tìm kiếm danh sách các véc-tơ có khoảng cách gần nhất.