ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ——————– PHẠM VĂN TUẤN SỬ DỤNG MÔ HÌNH NGÔN NGỮ LỚN ĐỂ TẠO RA NỘI DUNG QUẢNG CÁO BẤT ĐỘNG SẢN TRÊN CÁC NỀN TẢNG KHÁC NHAU HIỆU QUẢ Ch
Giới thiệu chung
Lĩnh vực quảng cáo bất động sản đang biến đổi mạnh mẽ nhờ công nghệ thông tin và truyền thông Trong thời đại số hóa, sự cạnh tranh giữa quảng cáo trực tuyến và ngoại tuyến ngày càng gay gắt Để nổi bật trong thị trường đầy thách thức này, sự sáng tạo và hiệu quả trong chiến lược quảng cáo là yếu tố quyết định.
Một trong những yếu tố quyết định đằng sau quyết định nghiên cứu về
Sử dụng mô hình ngôn ngữ lớn để tạo nội dung quảng cáo bất động sản đa kênh đang trở thành một thách thức lớn cho các nhà môi giới hiện nay Mặc dù nhu cầu quảng cáo qua các kênh như Facebook, TikTok, Zalo và trang web đang gia tăng, nhưng vẫn thiếu các ứng dụng hỗ trợ viết nội dung tự động dựa trên thông tin từ người dùng.
Người môi giới bất động sản phải đầu tư nhiều thời gian và công sức vào việc tạo nội dung quảng cáo, đồng thời phải thích ứng với nhiều nền tảng như Facebook, TikTok và Zalo Áp lực về thời gian và sự cạnh tranh khốc liệt khiến họ dễ mất cơ hội Thiếu công cụ tự động hóa trong việc tạo nội dung quảng cáo bằng tiếng Việt là một cơ hội lớn để phát triển giải pháp đột phá Xây dựng ứng dụng hỗ trợ viết content tự động theo từng nền tảng sẽ giúp giảm gánh nặng cho người môi giới và tối ưu hóa chiến lược quảng cáo nhanh chóng, hiệu quả.
Sự phát triển mạnh mẽ của các Mô hình Ngôn ngữ Lớn (LLM) hiện nay cho phép người dùng tự động tạo nội dung quảng cáo và rao vặt với độ chính xác và hiệu quả cao hơn Điều này trước đây thường gặp khó khăn và đòi hỏi nhiều công sức từ con người.
LLM, với khả năng hiểu và học ngôn ngữ tự nhiên, không chỉ tạo ra văn bản chất lượng cao mà còn đáp ứng linh hoạt các yêu cầu của người dùng Điều này mở ra cơ hội mới để tận dụng sức mạnh của LLM trong việc tự động hóa nội dung quảng cáo cho ngành bất động sản.
Nghiên cứu cho thấy sự kết hợp giữa mô hình ngôn ngữ lớn (LLM) và quảng cáo tự động có thể nâng cao hiệu suất, tạo ra nội dung chân thực và thu hút đối tượng mục tiêu Các kỹ thuật như fine-tuning được áp dụng để tối ưu hóa hiệu quả của LLM trong các lĩnh vực cụ thể, chẳng hạn như bất động sản.
Hình 1.1: Minh họa ứng dụng ChatGPT trong viết nội dung quảng cáo
Mô tả Bài toán tạo ra các nội dung quảng cáo bất động sản trên các nền tảng khác nhau
quảng cáo bất động sản trên các nền tảng khác nhau Đối với bài toán tạo ra các nội dung quảng cáo bất động sản hiệu quả trên
Để tạo ra nội dung quảng cáo hiệu quả cho bất động sản, cần thu thập các thông tin quan trọng như địa chỉ, diện tích, thông tin pháp lý, mô tả bất động sản, giá bán, thông tin liên hệ và mạng xã hội được chọn Những dữ liệu này sẽ được xử lý bằng mô hình ngôn ngữ lớn, giúp tạo ra nội dung phù hợp cho từng nền tảng.
Hình 1.2: Minh họa đầu vào và đầu ra của bài toán
Để tiết kiệm thời gian và tài nguyên phần cứng, phương pháp tinh chỉnh các mô hình ngôn ngữ cơ sở đã được huấn luyện sẵn là phổ biến trong việc giải quyết các bài toán liên quan đến mô hình ngôn ngữ lớn (LLM) Mô hình cơ sở này đã tích lũy nhiều kiến thức từ một kho dữ liệu lớn và đa dạng Quá trình tinh chỉnh bao gồm việc thêm các lớp và điều chỉnh thông số kỹ thuật, giúp mô hình thích ứng tốt hơn với các nhiệm vụ cụ thể hoặc bộ dữ liệu nhỏ hơn, từ đó nâng cao hiệu quả hoạt động trong các tình huống cụ thể.
Hình 1.3: Minh họa cải thiện mô hình ngôn ngữ lớn bằng kỹ thuật finetuning
Mô hình ngôn ngữ lớn có thể cải thiện độ chính xác sau khi được tinh chỉnh thông qua các kỹ thuật học tăng cường Cụ thể, việc áp dụng học tăng cường từ phản hồi của người dùng (RLHF) và học tăng cường từ phản hồi của một mô hình AI khác (RLAIF) là hai phương pháp hiệu quả để nâng cao chất lượng của mô hình.
Hình 1.4: Minh họa phương pháp tiếp cận bài toán
Mục tiêu và nhiệm vụ của luận văn
Mục tiêu của luận văn là nghiên cứu và phát triển một mô hình ngôn ngữ lớn nhằm tạo ra nội dung quảng cáo bất động sản hiệu quả trên các nền tảng mạng xã hội khác nhau.
– Nắm được Lý thuyết về mô hình ngôn ngữ lớn và cách tinh chỉnh (finetune) các mô hình ngôn ngữ lớn cho những tác vụ cụ thể.
– Nắm được các phương pháp cải thiện các mô hình ngôn ngữ lớn bằng các thuật toán học tăng cường (reinforcement learning).
– Đưa ra được đề xuất có thể cải thiện hiệu suất của mô hình dựa trên thực nghiệm.
Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quá trình hoàn thiện luận văn:
– Tìm hiểu về mô hình ngôn ngữ lớn và các phương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp.
– Nghiên cứu và đề xuất các mô hình giúp cải thiện độ chính xác cho các mô hình ngôn ngữ lớn.
Xây dựng một tập dữ liệu phong phú về lĩnh vực bất động sản và nội dung quảng cáo liên quan trên các nền tảng mạng xã hội khác nhau là cần thiết để huấn luyện mô hình hiệu quả Việc thu thập và phân tích dữ liệu này sẽ giúp tối ưu hóa chiến lược marketing bất động sản, nâng cao khả năng tiếp cận khách hàng và cải thiện hiệu suất quảng cáo.
Nghiên cứu và đánh giá hiệu quả của mô hình trong việc tạo ra nội dung quảng cáo bất động sản trên các nền tảng mạng xã hội khác nhau là rất quan trọng Việc này không chỉ giúp tối ưu hóa chiến lược marketing mà còn nâng cao khả năng tiếp cận khách hàng tiềm năng Thực nghiệm sẽ cung cấp những thông tin quý giá về cách thức nội dung quảng cáo có thể thu hút sự chú ý và tương tác từ người dùng trên các nền tảng khác nhau.
– Chỉ ra những hạn chế của mô hình và đề xuất phương pháp cải tiến cũng như mở rộng bài toán trong tương lai.
Giới hạn đề tài
Xây dựng mô hình ngôn ngữ lớn bằng tiếng Việt để tạo nội dung quảng cáo bất động sản trên các nền tảng mạng xã hội như Facebook và Tiktok là một thách thức lớn Luận văn này sẽ tập trung vào việc phát triển các chiến lược quảng cáo hiệu quả trên hai nền tảng này, nhằm tối ưu hóa sự tiếp cận và tương tác với người dùng.
Bài viết này tập trung vào việc nâng cao mô hình ngôn ngữ lớn bằng tiếng Việt, được gọi là ura-hcmut/ura-llama-7b, do nhóm phát triển từ trường Đại học Bách Khoa TP Hồ Chí Minh và Đại học Stanford công bố.
– Dữ liệu huấn luyện mô hình được thu thập trên 2 nền tảng Facebook và Tiktok.
– Độ đo được sử dụng để đánh giá mô hình là ROGUE và METEOR score.
Đóng góp của luận văn
9 bằng tiếng Việt về lĩnh vực bất động sản Đây là bộ dữ liệu được thu thập mới trên các nền tảng mạng xã hội ở Việt Nam
Luận văn đã phát triển một mô hình ngôn ngữ lớn, có khả năng tạo ra nội dung quảng cáo bất động sản bằng tiếng Việt trên nhiều nền tảng mạng xã hội khác nhau Đây là mô hình ngôn ngữ lớn đầu tiên chuyên biệt cho lĩnh vực quảng cáo và rao vặt bất động sản bằng tiếng Việt.
Tóm tắt nội dung
Luận văn "Sử dụng mô hình ngôn ngữ lớn để tạo ra nội dung quảng cáo bất động sản trên các nền tảng khác nhau hiệu quả" gồm năm chương với những nội dung chính như sau: Phân tích vai trò của mô hình ngôn ngữ lớn trong việc tạo nội dung quảng cáo, đánh giá hiệu quả của các nền tảng quảng cáo bất động sản, nghiên cứu các kỹ thuật tối ưu hóa nội dung cho SEO, thực hiện khảo sát về nhận thức của người tiêu dùng và đề xuất giải pháp cải thiện chiến lược quảng cáo bất động sản.
Chương 1 của luận văn sẽ giới thiệu tổng quan về đề tài nghiên cứu, nêu rõ lý do thực hiện và ý nghĩa thực tiễn của bài toán được đề cập Bên cạnh đó, chương này cũng sẽ xác định giới hạn và phạm vi của đề tài, từ đó giúp người đọc hiểu rõ hơn về nội dung và mục tiêu nghiên cứu Cuối cùng, chương sẽ trình bày nhiệm vụ và cấu trúc của luận văn để tạo nền tảng cho các chương tiếp theo.
Chương 2, CƠ SỞ LÝ THUYẾT, tổng hợp các vấn đề học thuật quan trọng nhằm giải quyết bài toán nghiên cứu Nội dung chủ yếu tập trung vào thuật toán Transformer, mô hình ngôn ngữ lớn, cùng với các kỹ thuật tinh chỉnh (finetune) để tối ưu hóa mô hình Bên cạnh đó, chương cũng đề cập đến thuật toán học tăng cường nhằm cải thiện hiệu suất của mô hình ngôn ngữ lớn.
Chương 3 trình bày các công trình nghiên cứu liên quan đến lĩnh vực đào tạo, tinh chỉnh và cải tiến các mô hình ngôn ngữ lớn Phần này không chỉ tổng hợp các nghiên cứu trước đó mà còn đưa ra nhận xét và đánh giá chi tiết về chúng, từ đó tạo cơ sở vững chắc để đề xuất phương pháp phù hợp cho việc phát triển mô hình ngôn ngữ.
Chương 4 của bài viết trình bày mô hình đề xuất nhằm cải thiện hiệu quả tạo nội dung quảng cáo bất động sản trên các nền tảng mạng xã hội thông qua việc đào tạo và tinh chỉnh mô hình ngôn ngữ lớn Học viên sẽ được hướng dẫn các bước thu thập và xử lý dữ liệu, huấn luyện cũng như cải tiến mô hình, đồng thời đánh giá kết quả của mô hình dựa trên các chỉ số đo lường cụ thể.
Chương 5, KẾT LUẬN, tổng hợp các kết quả đạt được từ quá trình thu thập và xử lý dữ liệu đến huấn luyện và cải tiến mô hình Phần này cũng nêu rõ những hạn chế của mô hình hiện tại và đề xuất các phương pháp cải tiến, cũng như mở rộng bài toán cho các nghiên cứu trong tương lai.
Mục lục, Danh sách hình vẽ, Danh sách bảng được cung cấp ở đầu luận văn Tài liệu tham khảo được trình bày ở cuối luận văn.
Tổng quan về Mô hình ngôn ngữ lớn
2.1.1 Định nghĩa về mô hình ngôn ngữ
Mô hình ngôn ngữ (LM) là thành phần quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) của trí tuệ nhân tạo, giúp phân tích và dự đoán chuỗi từ để cải thiện giao tiếp giữa con người và máy móc Bằng cách nắm bắt cấu trúc và ngữ cảnh ngôn ngữ, mô hình ngôn ngữ cho phép hệ thống AI hiểu và tạo ra văn bản tự nhiên, từ đó nâng cao chất lượng và hiệu quả tương tác.
Mô hình ngôn ngữ (LM) được phân loại thành ba nhóm chính: Mô hình ngôn ngữ thống kê (Statistical LM - Count-based), Mô hình ngôn ngữ mạng nơ-ron (Neural Network LM - Continuous-space), và Mô hình ngôn ngữ dựa trên tri thức (Knowledge-based LM) Bên cạnh đó, còn tồn tại một số mô hình ngôn ngữ khác như KenLM.
2.1.2 Định nghĩa về mô hình ngôn ngữ lớn
Mô hình ngôn ngữ lớn (LLM) là một công nghệ tiên tiến có khả năng tạo ra ngôn ngữ đa mục đích và thực hiện các nhiệm vụ xử lý ngôn ngữ tự nhiên như phân loại LLM học các mối quan hệ thống kê từ tài liệu văn bản thông qua quá trình huấn luyện tự giám sát và bán giám sát, đòi hỏi nhiều tài nguyên tính toán.
LLM là một loại AI tạo sinh có khả năng tạo ra văn bản bằng cách nhận đầu vào từ người dùng và dự đoán liên tục các token hoặc từ tiếp theo.
Mô hình ngôn ngữ lớn (LLM) là các mạng nơ-ron nhân tạo, chủ yếu được phát triển dựa trên kiến trúc transformer với bộ giải mã (decoder).
Transformer là một mô hình học sâu được phát triển để giải quyết nhiều vấn đề trong lĩnh vực xử lý ngôn ngữ tự nhiên và tiếng nói, bao gồm dịch tự động, sinh ngôn ngữ, phân loại văn bản, nhận dạng thực thể, nhận diện tiếng nói và chuyển đổi văn bản thành giọng nói.
Khác với RNNs, Transformer không xử lý các phần tử trong chuỗi một cách tuần tự, mà cho phép xử lý đồng thời toàn bộ câu ngôn ngữ tự nhiên Điều này giúp Transformer không cần phải bắt đầu từ phần đầu câu trước khi đến phần cuối, từ đó tận dụng khả năng tính toán song song của GPU và giảm đáng kể thời gian xử lý.
Không sử dụng kiến trúc Recurrent (hồi quy) như RNNs mà Transformer sử dụng self-attention
Trong kiến trúc của mình, Transformer chứa 6 encoder và 6 decoder Mỗi encoder chứa hai lớp: Self-attention và mạng truyền thẳng (FNN)
Hình 2.1: Kiến trúc mô hình Transformer
Self-Attention là cơ chế cho phép encoder xem xét các từ khác khi mã hóa một từ cụ thể, giúp Transformers hiểu mối liên hệ giữa các từ trong câu, ngay cả khi chúng ở xa nhau Các decoder cũng có cấu trúc tương tự, nhưng được bổ sung một lớp attention để tập trung vào các phần liên quan của đầu vào.
Hình 2.2: Minh họa cơ chế Self-Attention
Cơ chế Self-Attention bao gồm 4 bước:
1 Tạo ra bộ 3 vectơ từ các vectơ đầu vào của encoder Tại encoder đầu tiên, véctơ đầu vào là word embedding của từ Như vậy với mỗi từ, ta sẽ có 3 vectơ Query, Key và Value Các vectơ này được tạo nên bởi phép nhân ma trận giữa véctơ đầu vào và 3 ma trận trọng số tương ứng với query, key, value mà chúng ta sử dụng trong quá trình huấn luyện
3 vectơ này đóng vai trò khác nhau và đều quan trọng đối với attention
Hình 2.3: Minh họa các vector Query, Key, Value
2 Tính điểm Với mỗi từ, ta cần tính điểm của các từ khác trong câu đối với từ này Giá trị này giúp quyết định từ nào cần được chú ý và chú ý bao nhiêu khi mã hóa một từ Điểm được tính bằng tích vô hướng giữa véctơ Query của từ đang xét với lần lượt các vectơ Key của các từ trong câu Ví dụ, khi ta tính self-attention trên từ có vị trí 1, điểm của nó với chính nó là q1.k1, điểm của nó với từ thứ hai là q1.k2, v v
Hình 2.4: Minh họa bước tính điểm
3 Chuẩn hóa điểm: Trong bài báo gốc, điểm được chia cho 8 (căn bậc 2 của 64 – số chiều của vectơ Key) Điều này giúp cho độ dốc trở nên ổn định hơn Tiếp theo, giá trị này được truyền qua hàm softmax để đảm bảo các giá trị điểm đều dương và có tổng không vượt quá 1.
Attention có thể được biểu diễn như sau:
Hình 2.5: Minh họa bước chuẩn hóa điểm
4 Nhân vectơ Value với mỗi giá trị điểm đã tính phía trên rồi tính tổng các giá trị này Việc này nhằm bảo toàn giá trị vectơ của các từ cần được chú ý và loại bỏ vectơ của các từ không liên quan (bằng cách nhân nó với một số rất nhỏ).
Hình 2.7: So sánh một số mô hình ngôn ngữ lớn phổ biến
Cơ sở lý thuyết về tinh chỉnh (finetune) mô hình ngôn ngữ lớn
(finetune) mô hình ngôn ngữ lớn
2.2.1 Khái niệm về tinh chỉnh mô hình ngôn ngữ lớn
Tinh chỉnh mô hình ngôn ngữ lớn (LLM) là quá trình tiếp tục huấn luyện các mô hình đã được đào tạo trước trên các bộ dữ liệu nhỏ hơn và cụ thể hơn, nhằm nâng cao khả năng và hiệu suất trong các nhiệm vụ hoặc lĩnh vực nhất định Quá trình này chuyển đổi các mô hình đa năng thành các mô hình chuyên biệt, tạo cầu nối giữa các mô hình đã được đào tạo và các yêu cầu cụ thể của ứng dụng, đảm bảo rằng mô hình ngôn ngữ đáp ứng đúng kỳ vọng của con người.
Hình 2.8: Minh họa kỹ thuật finetuning
Tinh chỉnh mô hình ngôn ngữ lớn không chỉ nâng cao khả năng và hiệu suất trong các nhiệm vụ cụ thể mà còn đi kèm với chi phí đáng kể.
Các trường hợp có thể sử dụng kỹ thuật finetune để tăng hiệu suất mô hình ngôn ngữ lớn:
Học Trong Ngữ Cảnh (In-context Learning) là phương pháp cải thiện prompt bằng cách sử dụng các ví dụ nhiệm vụ cụ thể, giúp cung cấp cho Mô Hình Ngôn Ngữ Lớn (LLM) một mô hình rõ ràng về những gì cần hoàn thành.
Suy luận không, một, hoặc vài ví dụ (Zero/One/Few-shot Inference) là phương pháp đưa dữ liệu đầu vào vào prompt mà không cần thêm ví dụ Nếu suy luận không ví dụ không đạt kết quả mong muốn, người dùng có thể áp dụng 'one-shot' hoặc 'few-shot inference' bằng cách thêm một hoặc nhiều ví dụ hoàn chỉnh vào prompt, giúp các mô hình ngôn ngữ lớn (LLM) hoạt động hiệu quả hơn.
Quá trình Tinh Chỉnh: a Tinh Chỉnh Có Giám Sát (Supervised Fine-tuning):
Tinh chỉnh có giám sát là quá trình cập nhật mô hình ngôn ngữ đã được đào tạo trước bằng cách sử dụng dữ liệu có nhãn để thực hiện nhiệm vụ cụ thể, khác với các phương pháp không giám sát mà dữ liệu không được kiểm tra Trong khi việc huấn luyện ban đầu của mô hình thường là không giám sát, tinh chỉnh yêu cầu có giám sát Để thực hiện tinh chỉnh, cần chuẩn bị dữ liệu huấn luyện bằng cách thu thập tập dữ liệu từ các nguồn có sẵn hoặc tạo ra một tập dữ liệu mới phù hợp cho mô hình cần đào tạo.
Khi tập dữ liệu hướng dẫn đã sẵn sàng, tương tự như trong huấn luyện có giám sát, chúng ta cần chia tập dữ liệu thành các phần huấn luyện, kiểm tra và kiểm định Trong quá trình tinh chỉnh, có thể lựa chọn các prompt từ tập dữ liệu huấn luyện và đưa vào mô hình ngôn ngữ lớn (LLM) để LLM tạo ra các hoàn thành.
Trong giai đoạn tinh chỉnh, mô hình tiếp xúc với tập dữ liệu mới được gắn nhãn cho nhiệm vụ mục tiêu, tính toán lỗi giữa dự đoán và nhãn thực tế Mô hình sử dụng lỗi này để điều chỉnh trọng số thông qua thuật toán tối ưu hóa như gradient descent Độ lớn và hướng điều chỉnh trọng số phụ thuộc vào các gradient, cho biết mức độ đóng góp của mỗi trọng số vào lỗi Những trọng số có trách nhiệm cao với lỗi sẽ được điều chỉnh nhiều hơn, trong khi những trọng số ít trách nhiệm hơn sẽ được điều chỉnh ít hơn.
Qua nhiều lần lặp (epoch) của tập dữ liệu, mô hình điều chỉnh trọng số để tối ưu hóa lỗi cho nhiệm vụ cụ thể Mục tiêu là tinh chỉnh kiến thức đã học để phù hợp với các chi tiết trong tập dữ liệu mới, giúp mô hình trở nên chuyên biệt và hiệu quả hơn cho nhiệm vụ mục tiêu Phương pháp tinh chỉnh này là bước quan trọng trong quá trình huấn luyện mô hình.
Việc finetune (tinh chỉnh) mô hình ngôn ngữ lớn có thể được phân chia thành các loại sau:
Tinh Chỉnh Hướng Dẫn là một chiến lược hiệu quả để nâng cao hiệu suất của mô hình học máy trên nhiều nhiệm vụ khác nhau Phương pháp này bao gồm việc huấn luyện mô hình thông qua các ví dụ cụ thể, minh họa cách mà mô hình nên phản hồi với các truy vấn Để đạt được kết quả tốt nhất, tập dữ liệu dùng cho việc tinh chỉnh các mô hình ngôn ngữ lớn cần phải phục vụ mục đích hướng dẫn một cách rõ ràng.
Tinh Chỉnh Toàn Bộ (Full Fine-tuning) là quá trình điều chỉnh mô hình, trong đó tất cả các trọng số đều được cập nhật Quá trình này giúp tạo ra một phiên bản mới của mô hình với các trọng số đã được tinh chỉnh, mang lại hiệu suất tốt hơn cho các nhiệm vụ cụ thể.
Tinh Chỉnh Hiệu Quả Tham Số (PEFT) là phương pháp tối ưu hóa quá trình huấn luyện mô hình ngôn ngữ, giúp giảm thiểu yêu cầu về tài nguyên tính toán Việc tinh chỉnh toàn bộ mô hình ngôn ngữ lớn (LLM) thường đòi hỏi một lượng bộ nhớ lớn, do đó PEFT trở thành giải pháp hiệu quả để cải thiện hiệu suất mà không cần đầu tư nhiều vào hạ tầng.
23 quá trình huấn luyện PEFT chỉ cập nhật một tập nhỏ các tham số
Kỹ thuật học chuyển giao này chọn các thành phần mô hình cụ thể và đóng băng các tham số còn lại.
Một số phương pháp phổ biến trong PEFT bao gồm Adapter Layers, cho phép thêm các lớp phụ vào mô hình chính và chỉ tinh chỉnh các lớp này trong quá trình huấn luyện Ngoài ra, Low-rank Adaptation (LoRA) sử dụng các phương pháp tiếp cận xếp hạng thấp để bổ sung một số ít tham số có thể tinh chỉnh vào các lớp hiện có Cuối cùng, Prefix-tuning chèn một chuỗi các token vào đầu vào của mô hình và chỉ tinh chỉnh các token này trong quá trình huấn luyện.
Các Loại Tinh Chỉnh Khác:
Học chuyển giao (Transfer Learning) là phương pháp áp dụng mô hình đã được huấn luyện trên các tập dữ liệu lớn và đa dạng để tinh chỉnh lại cho các nhiệm vụ cụ thể với dữ liệu đặc thù.
Tinh chỉnh nhiệm vụ cụ thể (Task-specific Fine-tuning) là quá trình điều chỉnh mô hình đã được đào tạo trước để phù hợp với một nhiệm vụ hoặc lĩnh vực nhất định Quá trình này sử dụng một bộ dữ liệu chuyên biệt, được thiết kế riêng cho lĩnh vực đó, nhằm tối ưu hóa hiệu suất của mô hình trong các tác vụ cụ thể.
Học Đa Nhiệm (Multi-task Learning) là phương pháp tinh chỉnh mô hình trên một tập dữ liệu bao gồm nhiều nhiệm vụ khác nhau Phương pháp này giúp cải thiện hiệu suất của mô hình trên tất cả các nhiệm vụ cùng lúc, đồng thời ngăn chặn hiện tượng quên lãng thảm họa (catastrophic forgetting).
- Tinh Chỉnh Tuần Tự (Sequential Fine-tuning): Thích nghi mô hình đã được đào tạo trước trên một số nhiệm vụ liên quan theo trình tự.
Hình 2.9: Minh họa các nhiệm vụ mô hình có thể thực hiện sau khi finetune
Fine-tuning
Tinh chỉnh một mô hình ngôn ngữ lớn là phương pháp hợp lý để hướng dẫn mô hình tạo ra nội dung theo mong muốn của người dùng Quá trình này thường được thực hiện thông qua việc huấn luyện trên các bộ dữ liệu giám sát hoặc bằng phương pháp học tăng cường (RL) Chúng ta có thể chọn tinh chỉnh tất cả các trọng số trong mô hình hoặc chỉ giới hạn ở các tầng hàng đầu và tầng bổ sung.
Một nhánh quan trọng của finetuning là huấn luyện có điều kiện, nhằm đào tạo mô hình sinh ra nội dung dựa trên một biến điều khiển z Mô hình sẽ được huấn luyện để tạo ra nội dung y với xác suất p(y|x,z) cao nhất, dựa vào biến đầu vào x và biến điều kiện z.
3.1.1 CTRL: A Conditional Transformer Language Model for Controllable Generation
Trong bài báo "CTRL: Một mô hình ngôn ngữ transformer điều kiện cho việc tạo ra nội dung có thể kiểm soát được" công bố năm 2019, nhóm nghiên cứu đã phát triển một mô hình ngôn ngữ có điều kiện thông qua việc sử dụng mã điều khiển (control code) z Mô hình CTRL học phân phối điều kiện p(x|z) bằng cách huấn luyện trên các chuỗi văn bản gốc có tiền tố mã điều khiển như [horror], [legal], Mô hình này có khả năng tạo ra văn bản phù hợp với các tiền tố cụ thể Dữ liệu huấn luyện bao gồm nhiều nguồn như Wikipedia, OpenWebText, sách, đánh giá của người dùng trên Amazon và ngữ liệu từ Reddit, với mỗi bộ dữ liệu được gán một mã điều khiển riêng biệt.
Hình 3.1: Tập dữ liệu được dùng để huấn luyện mô hình CTRL và các mã điều khiển tương ứng
Mã điều khiển cũng có thể được sử dụng để chú thích lĩnh vực dựa trên các
33 tạo ra những nội dung không mong muốn (ví dụ: tránh nội dung độc hại)
Hình 3.2: Ví dụ về những nội dung được tạo ra theo điều kiện bởi mô hình CTRL
3.1.2 Reinforcement learning Fine-tuning with Human
Preferences (Học tăng cường từ phản hồi của người dùng)
RLHF, hay Học Tăng cường từ Phản hồi của Người dùng, là một kỹ thuật nhằm nâng cao chất lượng đánh giá văn bản từ các mô hình ngôn ngữ Trước đây, các mô hình như dịch máy thường dựa vào các hàm mất mát để đánh giá chất lượng, và sau đó sử dụng các phương pháp như BLEU hoặc ROUGE với mẫu do con người tạo ra Tuy nhiên, với sự đa dạng và phức tạp của ngôn ngữ, việc sử dụng phản hồi trực tiếp từ người dùng để đánh giá mô hình sẽ giúp tối ưu hóa hiệu quả hơn Kỹ thuật RLHF chính là giải pháp cho vấn đề này.
1 Nguyên lý hoạt động của RLHF
RLHF là một kỹ thuật phức tạp, yêu cầu huấn luyện đồng thời nhiều mô hình và trải qua nhiều giai đoạn triển khai Tuy nhiên, quy trình này có thể được chia thành ba bước chính.
• Sử dụng một mô hình ngôn ngữ đã được huấn luyện trước (pre- trained Language Model)
• Thu thập dữ liệu và huấn luyện một mô hình thưởng (reward model)
Để tinh chỉnh mô hình ngôn ngữ, trước tiên cần huấn luyện một mô hình ngôn ngữ (LM) bằng dữ liệu và kiến trúc có sẵn, nhằm lựa chọn mô hình phù hợp, ví dụ như việc sử dụng một phần của GPT-3 để tinh chỉnh ChatGPT cho nhiệm vụ sinh văn bản Giai đoạn này được gọi là Supervised Fine-tuned (SFT) Sau khi hoàn tất, mô hình này sẽ được sử dụng để thu thập dữ liệu và huấn luyện mô hình thưởng.
Việc xây dựng mô hình thưởng (RM), hay mô hình ưu tiên, là bước đầu tiên quan trọng trong nghiên cứu về RLHF Quy trình huấn luyện mô hình thưởng này bao gồm nhiều bước thiết yếu để tối ưu hóa hiệu suất.
Thu thập dữ liệu bằng cách sử dụng nhiều mô hình ngôn ngữ khác nhau để sinh ra các văn bản từ cùng một prompt
Con người đánh giá và xếp hạng các văn bản này
Sử dụng dữ liệu đã được gán nhãn này để huấn luyện mô hình RM
Hình 3.3: Minh họa phương pháp đánh giá các phản hồi
Hàm mất mát cho mô hình RM có dạng: loss(rθ) = −E(x,y0,y1,i)∼D[log(σ(rθ(x,yi) − rθ(x,y1−i)))] với rθ là điểm số do con người đánh giá với mỗi cặp (x,yi), x là prompt đầu vào,
D là database chứa các prompt yi (với i∈ {0, 1}) là ground truth đánh giá lựa chọn của người dùng với
2 sample j và k c Fine-tuning RL model với RM model
Sau khi xây dựng mô hình RM, chúng ta tiến hành huấn luyện mô hình Reinforcement Learning (RL) với hai mô hình ngôn ngữ Mô hình đầu tiên được sử dụng từ bước a, trong khi mô hình thứ hai áp dụng thuật toán tối ưu chính sách Proximal Policy Optimization (PPO) Quy trình này bắt đầu bằng việc đưa một prompt mới vào làm đầu vào.
Sử dụng mô hình từ bước a để sinh ra văn bản từ prompt mới Đồng thời, PPO Model cũng sinh ra văn bản từ prompt này
RM sẽ đánh giá văn bản mới sinh ra để cập nhật Reward Function cho PPO Model
Hàm cập nhật cho PPO dựa trên Kullback-Leibler Divergence (KL Divergence) có dạng:
Trong đó 𝑟(𝑥,𝑦) là đầu ra của reward model, 𝛽 là một siêu tham số,
𝜋𝑅𝐿(𝑦∣𝑥) là policy sẽ được tối ưu bởi PPO và 𝜋𝑆𝐹𝑇(𝑦∣𝑥) là policy từ model Supervised Fine-tuned
Hình 3.4: Minh họa kỹ thuật RLHF Quá trình tối ưu này lặp lại cho đến khi đạt được mục tiêu
2 Thuật toán PPO (Proximal Policy Optimization) - Tối ưu Chính sách Tiệm cận
Proximal Policy Optimization (PPO) là một thuật toán học tăng cường được thiết kế để tối ưu hóa chính sách một cách hiệu quả và đáng tin cậy Thuật toán này thuộc nhóm phương pháp gradient chính sách, giúp cải thiện tính khả thi trong triển khai và hiệu suất mẫu Với sự đơn giản và hiệu quả, PPO nổi bật trong việc huấn luyện các chính sách cho những nhiệm vụ phức tạp.
Chính sách (πθ(a|s)): Chính sách là một hàm ánh xạ từ trạng thái 𝑠 tới một phân phối các hành động 𝑎 , được tham số hóa bởi 𝜃
Hàm lợi thế (Â(𝑠, 𝑎)) là một chỉ số quan trọng trong học tăng cường, ước lượng mức độ hiệu quả của việc thực hiện hành động 𝑎 trong trạng thái 𝑠 so với hành động trung bình Hàm này giúp đánh giá giá trị tương đối của các hành động, từ đó hỗ trợ trong việc tối ưu hóa quyết định trong quá trình học.
Trong bài viết này, Q(s,a) đại diện cho giá trị hành động, trong khi V(s) là hàm giá trị Điểm đổi mới quan trọng của PPO là cập nhật chính sách một cách đảm bảo rằng chính sách mới không quá khác biệt so với chính sách cũ, nhằm ngăn ngừa các cập nhật lớn có thể gây ra sự mất ổn định Cơ chế này được thực hiện thông qua một hàm mục tiêu với cơ chế cắt xén (clipping).
PPO tối ưu một hàm mục tiêu tiệm cận với cắt xén:
∣ là tỉ lệ xác suất giữa chính sách mới và chính sách cũ Ât là hàm lợi thế tại thời điểm 𝑡
Hàm cắt xén clip r ( ( ) t ,1 − ò ,1 + ò ) đảm bảo rằng tỉ lệ xác suất r t ( ) không lệch quá xa so với 1, nhằm ngăn chặn các cập nhật chính sách lớn có thể gây mất ổn định trong quá trình huấn luyện.
Các Bước Thuật Toán: old
Khởi tạo các tham số chính sách và các tham số hàm giá trị
Thu thập các chuỗi hành động bằng cách chạy chính sách hiện tại old trong môi trường
Tính toán các ước lượng lợi thế Ât sử dụng hàm giá trị V
Tối ưu hàm mục tiêu L CLIP ( ) với các tham số chính sách θ sử dụng phương pháp gradient descent ngẫu nhiên:
Cập nhật hàm giá trị V bằng cách tối thiểu hóa hàm mất mát sau:
Trong đó Rt là giá trị hồi đáp tại thời điểm t
Cập nhật các tham số chính sách cũ: old Ưu điểm của thuật toán PPO:
• Ổn định: Cơ chế cắt xén ngăn chặn các cập nhật quá lớn, dẫn đến quá trình huấn luyện ổn định hơn
• Đơn giản: PPO dễ triển khai và điều chỉnh so với các thuật toán học tăng cường (RL) tiên tiến khác
• Hiệu suất: PPO đã chứng minh hiệu suất tốt trên nhiều loại nhiệm vụ khác nhau
Mô hình học tăng cường từ phản hồi của người dùng có các ưu, nhược điểm sau:
RLHF giúp các mô hình ngôn ngữ điều chỉnh đầu ra để phù hợp với sở thích và giá trị của con người thông qua phản hồi trực tiếp từ người dùng, đảm bảo tính tương thích với giá trị nhân văn.
Cải thiện chất lượng đầu ra là một yếu tố quan trọng, vì phản hồi từ người dùng giúp mô hình ngôn ngữ sản xuất các văn bản có chất lượng cao hơn, đồng thời nâng cao tính hữu ích và độ chính xác của nội dung.
Phát hiện và giảm thiểu sai sót là quá trình quan trọng trong việc cải thiện mô hình Nhờ vào phản hồi từ người dùng, các mô hình có khả năng học hỏi từ những sai sót đã xảy ra, từ đó giúp tránh lặp lại những lỗi tương tự trong tương lai.
Smart Prompt Design (thiết kế prompt thông minh)
Thiết kế prompt đóng vai trò quan trọng trong việc nâng cao hiệu suất cho các nhiệm vụ phụ thuộc, nhưng thường cần đến quá trình tạo gợi ý thủ công, dẫn đến tốn nhiều thời gian.
Dưới đây là một số nghiên cứu nổi bật về chủ đề này:
AutoPrompt là phương pháp tự động tạo gợi ý cho các nhiệm vụ khác nhau thông qua tìm kiếm dựa trên độ dốc Phương pháp này kết hợp đầu vào nhiệm vụ gốc với bộ sưu tập các token kích hoạt xtrig theo mẫu λ cụ thể Các token kích hoạt này được chia sẻ trên tất cả các đầu vào, mang lại hiệu quả phổ quát cho quá trình tạo gợi ý.
Phương pháp Auto Prompt cho phép truy xuất các token kích hoạt nhằm tối ưu hóa đầu ra mục tiêu cho tất cả các đầu vào, như minh họa trong Hình 3.5.
Hình 3.6: Minh họa cách xác định các trigger tokens thông qua cập nhật embeddings của chúng với độ dốc của hàm mất mát
Hình 3.7: Minh hoạ một số prompt được xác định bằng phương pháp Auto
Prompt ứng với các nhiệm vụ khác nhau
Phương pháp này sử dụng một lượng nhỏ tham số có thể huấn luyện, gọi là "prefix", để điều khiển mô hình ngôn ngữ từ đầu vào.
Hình 3.8: So sánh 2 phương pháp finetuning và prefix-tuning
3.3 Guided Fine-tuning with Steerable Layer (Tinh chỉnh có hướng với Lớp Điều khiển)
Phương pháp này dựa trên ý tưởng rằng thay vì tinh chỉnh toàn bộ mô hình, việc chỉ điều chỉnh một số tham số nhỏ sẽ giúp giảm đáng kể chi phí tính toán, trong khi mô hình cơ bản vẫn được giữ nguyên.
Công trình nghiên cứu nổi bật về chủ đề này là Plug-and-play language model (PPLM)
3.3.1 Plug-and-play language model (PPLM)
Mô hình ngôn ngữ Plug-and-play (PPLM) kết hợp các mô hình đặc điểm đơn giản với mô hình ngôn ngữ đã được đào tạo trước, cho phép tạo ra văn bản có khả năng điều khiển linh hoạt.
Cho thuộc tính a và mẫu văn bản x, mô hình thuộc tính được ký hiệu là p(a|x) Nội dung do mô hình tạo ra tại thời điểm t được biểu diễn bằng ma trận Ht, bao gồm key và value cho từng lớp Giá trị của Ht có thể được điều chỉnh bằng một đại lượng ΔHt, theo hướng tổng của hai gradient.
Một gradient theo hướng tăng khả năng đạt được thuộc tính a với xác suất có điều kiện p(a|x)
Hướng còn lại giữ nguyên mô hình ngôn ngữ gốc nhằm tạo ra các văn bản lưu loát, tự nhiên như ngôn ngữ con người Giá trị của ΔHt được cập nhật theo một công thức cụ thể.
∣ trong đó γ là một hệ số chuẩn hóa, α là giá trị bước nhảy
Hình 3.9: Minh họa mô hình PPLM
Hình 3.10: Ví dụ minh họa của các văn bản được tạo ra từ mô hình PPLM
Mô hình đề xuất
Để thiết kế một công cụ tự động tạo nội dung quảng cáo và tin rao vặt bất động sản trên nhiều nền tảng, chúng ta cần đầu vào là các thông tin cơ bản như diện tích, địa chỉ, mô tả, giá bán và thông tin liên hệ Sau khi người dùng nhập các thông tin này và chọn nền tảng mạng xã hội phù hợp (như Facebook, TikTok), mô hình sẽ tự động tạo ra các tin quảng cáo và rao vặt phù hợp với phong cách viết của từng mạng xã hội.
Pipeline của mô hình được sơ đồ hóa như sau:
Hình 4.1: Minh họa quá trình xử lý của mô hình
Sau khi xây dựng tập huấn luyện bao gồm input là các thông tin cơ bản của
Mô hình sẽ học cách tạo ra các tin rao vặt bất động sản hiệu quả, dựa trên thông tin cơ bản mà người dùng cung cấp.
Đề tài này tập trung vào việc kết hợp kỹ thuật tinh chỉnh và học tăng cường để phát triển một mô hình có khả năng tạo ra nội dung quảng cáo bất động sản hiệu quả trên các nền tảng mạng xã hội.
- Finetune mô hình gốc, sử dụng tập dữ liệu đã thu thập trên 2 nền tảng Facebook và Tiktok
Cải thiện độ chính xác của mô hình có thể đạt được thông qua các kỹ thuật học tăng cường từ phản hồi của AI (RLAIF) Phương pháp này không chỉ tiết kiệm thời gian và chi phí mà còn nâng cao khả năng xử lý trên các tập dữ liệu lớn, so với kỹ thuật học tăng cường từ phản hồi của người dùng (RLHF).
Hình 4.2: Sơ đồ của mô hình đề xuất
Hướng tiếp cận này có các ưu điểm như sau:
Khả năng tùy chỉnh của mô hình ngôn ngữ lớn thông qua fine-tuning cho phép điều chỉnh để phù hợp với các tác vụ và ngữ cảnh cụ thể Việc sử dụng tập dữ liệu chuyên biệt giúp mô hình đáp ứng tốt hơn nhu cầu của người dùng.
Fine-tuning mô hình gốc trên một tập dữ liệu cụ thể có thể tối ưu hóa hiệu suất và nâng cao độ chính xác cho các tác vụ đặc thù, nhờ vào khả năng thích nghi với dữ liệu mới.
Fine-tuning một mô hình đã có sẵn giúp giảm yêu cầu tài nguyên đáng kể so với việc huấn luyện từ đầu Phương pháp này tiết kiệm thời gian và tài nguyên tính toán, vì chỉ cần cập nhật một phần các tham số của mô hình dựa trên dữ liệu mới.
RLAIF nâng cao sự phù hợp của mô hình AI bằng cách đảm bảo rằng các đầu ra không chỉ hợp lý mà còn đáp ứng các kết quả mong đợi Quá trình huấn luyện sử dụng phản hồi từ một mô hình AI chuẩn, giúp cải thiện chất lượng và độ chính xác của các đầu ra.
Để nâng cao chất lượng đầu ra, mô hình có thể cải thiện độ chính xác và chất lượng thông qua việc học liên tục từ phản hồi của một mô hình chuẩn theo thời gian.
RLAIF giúp mô hình nhanh chóng thích nghi với các tình huống và ngữ cảnh mới, đồng thời học hỏi từ phản hồi để cải thiện độ chính xác và tính hữu ích của nó.
Phương pháp đánh giá
Các chỉ số thường được sử dụng trong lĩnh vực đánh giá mô hình ngôn ngữ lớn là điểm BLEU, ROUGE và điểm METEOR
4.2.1 Điểm BLEU (Bilingual Evaluation Understudy):
BLEU là một chỉ số được sử dụng rộng rãi cho các nhiệm vụ dịch máy, nơi
BLEU là một phương pháp đánh giá chất lượng bản dịch máy bằng cách so sánh với các bản dịch tham chiếu do con người cung cấp.
BLEU là một phương pháp đánh giá sự tương đồng giữa văn bản do máy dịch và các bản dịch tham chiếu thông qua việc sử dụng n-grams, tức là các chuỗi từ liên tiếp Các loại n-grams phổ biến bao gồm unigrams (một từ), bigrams (hai từ), và trigrams (ba từ).
BLEU đánh giá độ chính xác của n-grams trong bản dịch máy bằng cách so sánh với các bản dịch tham chiếu Độ chính xác này được điều chỉnh bằng hệ số phạt ngắn (brevity penalty) để phù hợp với các bản dịch có độ dài ngắn hơn so với bản dịch tham chiếu.
Công thức tính điểm BLEU như sau:
The Brevity Penalty (BP) is a scoring adjustment factor that penalizes translations that are shorter than the reference translations It is calculated using the formula min(1, reference_length/translated_length), where reference_length represents the total word count of the reference translations, and translated_length denotes the total word count of the machine-generated translation.
Điểm pn là thước đo độ chính xác của n-grams, được tính bằng tỷ lệ giữa số n-grams xuất hiện trong bản dịch máy và các bản dịch tham chiếu so với tổng số n-grams trong bản dịch máy Điểm BLEU dao động từ 0 đến 1, với giá trị cao hơn chỉ ra chất lượng dịch tốt hơn Một bản dịch hoàn hảo sẽ đạt điểm BLEU là 1, trong khi một bản dịch hoàn toàn sai chỉ có điểm BLEU là 0.
Điểm BLEU đóng vai trò quan trọng trong các nhiệm vụ dịch máy, cung cấp phương pháp đơn giản và hiệu quả để đánh giá chất lượng bản dịch tự động so với bản dịch tham chiếu Với khả năng tính toán và diễn giải dễ dàng, điểm BLEU trở thành lựa chọn phổ biến cho việc đánh giá các mô hình dịch máy Tuy nhiên, nó cũng có những hạn chế, như sự phụ thuộc vào n-grams và khả năng không đánh giá chính xác ý nghĩa tổng thể hoặc độ trôi chảy của văn bản dịch.
Nó cũng có thể phạt những bản dịch dài hơn bản dịch tham chiếu, điều này có thể không công bằng trong một số trường hợp
4.2.2 Điểm ROUGE (Recall-Oriented Understudy for
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) là một bộ chỉ số phổ biến được sử dụng trong các nhiệm vụ tóm tắt văn bản, nhằm tự động tạo ra bản tóm tắt ngắn gọn từ văn bản dài hơn Công cụ này được phát triển để đánh giá chất lượng của các bản tóm tắt do máy tính tạo ra bằng cách so sánh chúng với các bản tóm tắt tham chiếu do con người cung cấp.
ROUGE là một công cụ quan trọng để đo lường sự tương đồng giữa bản tóm tắt do máy tạo ra và các bản tóm tắt tham chiếu thông qua việc sử dụng n-grams trùng lặp N-grams, bao gồm unigrams, bigrams và trigrams, là những chuỗi từ xuất hiện trong cả hai loại tóm tắt Công cụ này tính toán độ thu hồi của n-grams trong bản tóm tắt tự động bằng cách so sánh chúng với các bản tóm tắt tham chiếu, giúp đánh giá chất lượng của nội dung được tạo ra.
Công thức tính điểm ROUGE như sau:
Độ thu hồi của n-grams được tính bằng cách chia số n-grams xuất hiện trong bản tóm tắt do máy tạo ra và các bản tóm tắt tham chiếu cho tổng số n-grams trong các bản tóm tắt tham chiếu Điểm ROUGE có nhiều biến thể, bao gồm ROUGE-N, ROUGE-L và ROUGE-S.
ROUGE-N là một phương pháp đánh giá sự trùng lặp của các n-grams giữa văn bản ứng viên và văn bản tham chiếu, bao gồm việc tính toán độ chính xác, độ thu hồi và F1-score Cụ thể, ROUGE-1 (unigram) đo lường sự trùng lặp của các từ đơn, trong khi ROUGE-2 (bigram) xem xét sự trùng lặp của các chuỗi hai từ Phương pháp này thường được áp dụng để đánh giá tính đúng ngữ pháp và độ trôi chảy của văn bản được sinh ra.
ROUGE-L là một phương pháp đo lường chuỗi con chung dài nhất (LCS) giữa văn bản ứng viên và văn bản tham chiếu Phương pháp này tính toán độ chính xác, độ thu hồi và F1-score dựa trên độ dài của LCS ROUGE-L thường được sử dụng để đánh giá sự tương đồng về ngữ nghĩa và phạm vi nội dung của văn bản sinh ra, vì nó xem xét chuỗi con chung mà không phụ thuộc vào thứ tự từ.
ROUGE-S là một chỉ số đo lường sự trùng lặp của skip-bigram, tức là bigram với tối đa một từ chen giữa, giữa văn bản ứng viên và văn bản tham chiếu Chỉ số này tính toán độ chính xác, độ thu hồi và F1-score dựa trên sự trùng lặp của skip-bigram ROUGE-S thường được sử dụng để đánh giá tính mạch lạc và liên kết cục bộ của văn bản sinh ra, vì nó nắm bắt sự tương đồng ngữ nghĩa giữa các từ liền kề.
4.2.3 Điểm METEOR (Metric for Evaluation of Translation with Explicit ORdering)
METEOR (Metric for Evaluation of Translation with Explicit ORdering) is an evaluation metric designed to assess the performance of natural language processing models, particularly in machine translation and text summarization It serves as an enhanced and complementary tool to BLEU (Bilingual Evaluation Understudy).
Các yếu tố chính của METEOR bao gồm:
METEOR là một công cụ đánh giá chất lượng văn bản, không chỉ so sánh từ trong văn bản đầu ra với từ trong văn bản tham chiếu mà còn xem xét các biến đổi như gốc từ, từ đồng nghĩa và các biến đổi từ vựng khác Nhờ vào khả năng này, METEOR có thể nhận diện sự tương đồng giữa các từ có nghĩa tương đương, mặc dù chúng không giống hệt nhau về mặt ngữ pháp.
METEOR là một phương pháp đánh giá chất lượng dịch thuật, kết hợp cả độ chính xác (precision) và độ bao phủ (recall) để tạo ra một đánh giá toàn diện hơn Độ chính xác đo lường tỷ lệ từ chính xác trong văn bản đầu ra so với văn bản tham chiếu, trong khi độ bao phủ đánh giá tỷ lệ từ trong văn bản tham chiếu mà văn bản đầu ra đã bao gồm Sự kết hợp này giúp cải thiện độ tin cậy của các đánh giá dịch thuật.
Tập dữ liệu và phương pháp xử lý
Tập dữ liệu về nội dung quảng cáo bất động sản được thu thập từ 2 mạng xã hội là Facebook và Tiktok
Số lượng content được thu thập thể hiện ở Bảng 4.1:
Bảng 4.1: Số lượng content quảng cáo bất động sản được thu thập từ 2 nền tảng Facebook và Tiktok
Phương pháp xử lý dữ liệu
– Loại bỏ những nội dung không liên quan trực tiếp đến quảng cáo, rao vặt bất động sản.
– Loại bỏ những content kém chất lượng: content quá ngắn, content không có văn phong phù hợp.
Sử dụng API của mô hình GPT 4.0 để trích xuất các đặc trưng quan trọng từ nội dung thu thập được, bao gồm vị trí, loại hình, diện tích, thông tin pháp lý và giá bán bất động sản Dữ liệu sau khi được trích xuất sẽ được kiểm tra, đánh giá và chỉnh sửa bởi con người nhằm hoàn thiện tập dữ liệu.
Tiktok 4069 liệu và hạn chế mất mát dữ liệu.
Thông tin cơ bản về bất động sản được trích xuất từ mô hình GPT, kết hợp với nội dung gốc, nhằm xây dựng tập dữ liệu cho việc tinh chỉnh mô hình Dữ liệu đầu vào cho quá trình tinh chỉnh bao gồm các thông tin cơ bản về bất động sản, trong khi nhãn dữ liệu là nội dung quảng cáo ban đầu.
Bảng 4.2: Số lượng content quảng cáo bất động sản sau khi xử lý dữ liệu
Tập dữ liệu sau xử lý
Thực nghiệm mô hình
4.4.1 Chọn mô hình ngôn ngữ lớn cơ bản
Mô hình ngôn ngữ lớn cơ bản (base model) được lựa chọn là ura-hcmut/ura-llama-7b, do Đại học Bách Khoa, ĐHQG HCM và Đại học Stanford phát triển.
Thông tin cơ bản về mô hình như sau:
- Ngôn ngữ: tiếng Anh, tiếng Việt
- Số lượng tham số: 7 tỷ
Mô hình có khả năng thực hiện nhiều tác vụ khác nhau bao gồm:
- Trả lời câu hỏi (với ngữ cảnh)
Mô hình đã được huấn luyện trên các tập dữ liệu tiếng Việt lớn như vietgpt/wikipedia_vi và vietgpt/binhvq_news_vi, cho thấy khả năng xử lý ngôn ngữ tiếng Việt một cách hiệu quả.
Mô hình tham khảo tương đương là ura-hcmut/GemSUra-7B, một mô hình ngôn ngữ mạnh mẽ bằng tiếng Việt được phát triển bởi nhóm nghiên cứu tại Đại học Bách Khoa, ĐHQG HCM và Đại học Stanford Mô hình này được tinh chỉnh từ Gemma 7B Tuy nhiên, do hạn chế về tài nguyên, nghiên cứu này tập trung vào phát triển mô hình ura-hcmut/ura-llama-7b, vì đây là mô hình nhẹ hơn, phù hợp cho mục đích nghiên cứu và thí nghiệm.
Mô hình ura-hcmut/ura-llama-7b đã được tinh chỉnh bằng cách sử dụng tập dữ liệu huấn luyện chứa các nội dung quảng cáo và rao vặt bất động sản được thu thập.
Sau khi tinh chỉnh, mô hình AI được cải thiện độ chính xác thông qua kỹ thuật học tăng cường từ phản hồi của AI (RLAIF) Mô hình GPT 4.0, với khả năng xử lý các tác vụ phức tạp như trả lời câu hỏi, lý luận và viết code, là công cụ chính trong kỹ thuật này Đây là một mô hình ngôn ngữ lớn mạnh mẽ, sở hữu nguồn kiến thức sâu rộng về nhiều lĩnh vực.
Hình 4.3: Sơ đồ của mô hình đề xuất
4.4.3 Tham số cấu hình của mô hình
Bảng 4.2 cung cấp thông tin về các tham số cấu hình được sử dụng
Adaptation) mô hình đề xuất Cụ thể:
• per_device_train_batch_size: Tham số này xác định kích thước lô (batch size) cho mỗi thiết bị đào tạo
• num_train_epochs: Số lần lặp lại quá trình huấn luyện trên toàn bộ tập dữ liệu
Tham số "r" xác định số hạng thấp của ma trận LoRA, được sử dụng để cập nhật giá trị của ma trận trọng số chính trong mô hình "r" đại diện cho hạng của ma trận LoRA.
Tham số max_seq_length xác định độ dài tối đa của chuỗi, tức là số lượng từ tối đa mà mô hình có khả năng xử lý trong một lần.
Bảng 4.3: Bảng giá trị các tham số cho mô hình Đề xuất
Tham số Giá trị per_device_train_batch_size 32 num_train_epochs 5 r 8 max_seq_length 512
Bảng 4.4: Cấu hình phần cứng sử dụng
Trong kỹ thuật RLAIF, việc sử dụng tập dữ liệu để huấn luyện hàm thưởng gặp phải giới hạn về tài nguyên, do đó cần đơn giản hóa quá trình xử lý.
(reward model) bao gồm 2 cột: được chọn (chosen) và không được chọn
Khi xử lý một prompt qua mô hình đã được tinh chỉnh, AI sẽ tạo ra hai phản hồi khác nhau Nhiệm vụ của mô hình AI là đánh giá chất lượng của cả hai phản hồi này Phản hồi nào có chất lượng tốt hơn sẽ được chọn, trong khi phản hồi kém hơn sẽ bị loại bỏ.
Hình 4.4: Minh họa dữ liệu đào tạo của hàm reward model
Bảng 4.5: Dữ liệu dùng trong huấn luyện hàm reward model và thuật toán PPO
Mô hình Số lượng content phục vụ huấn luyện
Mô hình thưởng (reward model) 9991
4.4.4 Kết quả thực nghiệm và thảo luận
Bảng 4.6 trình bày kết quả đánh giá thực nghiệm của mô hình đề xuất, so sánh với mô hình tham khảo dựa trên 100 mẫu thử Các phản hồi của mô hình được đánh giá dựa trên các nội dung thực tế từ phản hồi tham chiếu.
Mô hình đề xuất cho thấy hiệu quả đánh giá vượt trội so với mô hình gốc và các mô hình ngôn ngữ lớn tiếng Việt khác, đạt được kết quả tốt hơn ở hầu hết các chỉ số với cùng số lượng tham số.
Bảng 4.6 trình bày kết quả thực nghiệm của mô hình sau khi được tinh chỉnh (finetune) và áp dụng kỹ thuật RLAIF, so sánh với mô hình gốc và các mô hình tham khảo khác trên 100 mẫu nội dung.
Mô hình BLEU ROUGE-1 ROUGE-2 ROUGE-L METEOR vilm/vinallama-7b 2,51% 0,35 0,14 0,22 17,46% vilm/vietcuna-7b-v3 0,29% 0,056 0,02 0,03 2,46% ura-hcmut/URA Llama-7b 3,87% 0,4 0,13 0,23 13,23%
Mô hình đề xuất, như minh họa trong Hình 4.5, cho thấy rằng các thông số cải thiện rõ rệt khi được đào tạo với số lượng epoch cao hơn.
Hình 4.5: Các thông số đánh giá mô hình theo số lượng epoch đào tạo
Kết quả thực nghiệm của mô hình đối với một số prompt cụ thể:
Hình 4.6: Minh họa dữ liệu đầu ra của mô hình đề xuất
Hình 4.7: Minh họa dữ liệu đầu ra của mô hình đề xuất
Hình 4.8: Minh họa dữ liệu đầu ra của mô hình đề xuất
Hình 4.9: Minh họa dữ liệu đầu ra của mô hình đề xuất
Hình 4.10: Minh họa dữ liệu đầu ra của mô hình đề xuất