Mô tả bài toán
Phát biểu bài toán
Bài toán ABSA là một bài toán đa nhiệm vụ Có nhiều cách gọi tên khác nhau các bài toán con của bài toán này tùy theo quan điểm và cách tiếp cận của người nghiên cứu. Các bài toán con lại được chia theo 2 nhóm Nhóm thứ nhất tập trung vào các khía cạnh và nhóm thứ hai tập trung vào phân loại cảm xúc Hình 1.1 minh họa các nhiệm vụ con 1 như sau của bài toán ABSA theo(author?)[1]:
Hình 1.1: Các nhiệm vụ con của bài toán ABSA
Trích xuất cụm từ khía cạnh (Aspect term extraction - ATE):Với một tập hợp các câu và các thực thể được xác định trước (ví dụ: nhà hàng), ta sẽ xác định các cụm từ khía cạnh có trong câu và trả về một danh sách chứa tất cả các cụm từ khía cạnh riêng biệt.
“Mình thích nhân viên và cách phục vụ ở đây, nhưng đồ ăn không ngon’’
Thực thể ở đây lànhà hàngvà các từ ngữ khía cạnh là“nhân viên”,“cách phục vụ”và
Phân cực cảm xúc cho khía cạnh (Aspect term polarity - ATP):Đối với một tập hợp
1 https://www.aclweb.org/portal/content/semeval-2014-task-4-aspect-based-sentiment-analysis
1.2 Mô tả bài toán các thuật ngữ khía cạnh trong câu, ta cần xác định xem thái độ đối với các cụm từ khía cạnh đó là tích cực, tiêu cực hay trung tính Đôi khi có thể có cả xung đột, tức là cả tích cực và tiêu cực.
Ví dụ: cũng với câu bình luận như trên, cảm xúc cho khía cạnhnhân viênvàcách phục vụlà tích cực, trong khi ở khía cạnh đồ ăn thì tiêu cực.
Phát hiện loại khía cạnh (Aspect category detection - ACD, Aspect Recognition - AR):Với một tập hợp các danh mục khía cạnh được xác định trước (ví dụ: giá cả, thực phẩm), mục tiêu là xác định các danh mục khía cạnh được thảo luận trong một câu nhất định Các loại khía cạnh thường thô hơn so với các thuật ngữ khía cạnh của Nhiệm vụ con 1 và chúng không nhất thiết xuất hiện như các thuật ngữ trong câu đã cho.
Ví dụ: Cho danh mục đã định nghĩa trước là{Khẩu vị, Dịch vụ, Giá cả}và câu:
“Chỗ này mắc nhưng ngon”, cần xác định được danh mục nhắc đến làKhẩu vịvàGiá cả.
Phân cực cảm xúc cho danh mục khía cạnh (Aspect category polarity - ACP):Với các danh mục định nghĩa sẵn như bài toán con 3, ta xác định phân cực cảm xúc tương ứng với từng danh mục khía cạnh (nếu có) Ví dụ, cũng với câu:
“Chỗ này mắc nhưng ngon”,
Ta có phân loại cảm xúc theo danh mục khía cạnh như sau: Giá cả: Tiêu cực, Khẩu vị: Tích cực
Những khó khăn và thách thức
Nội dung “Phân tích cảm xúc hướng khía cạnh cho dữ liệu mạng xã hội tiếng Việt” đã phát biểu lên những thách thức dễ thấy ở những điểm sau:
(2) Dữ liệu mạng xã hội
Với (1) ta có thể thấy, khó khăn ở việc cần xác định được nhiều loại khía cạnh trong
1.2 Mô tả bài toán một câu bình luận, nhiều loại cảm xúc khác nhau, thậm chí trái ngược nhau và phải liên kết được thái độ của người viết với khía cạnh tương ứng Bởi vì chúng ta cần làm việc với dữ liệu mạng xã hội nên mặc dù là dữ liệu chữ viết, chúng thường mang phong cách của văn nói, dẫn đến nhiều sự nhập nhằng trong ngôn từ Các loại nhập nhằng có thể được kể đến như sau:
Có nhiều đánh giá khác nhau cho cùng một khía cạnh.
Ví dụ: “Nhân viên thân thiện nhưng hơi chậm”
Ta chỉ có 1 khía cạnh nhưng lại được đánh giá bởi 2 thái cực trái ngược nhau hoàn toàn (thân thiện-tích cực, chậm-tiêu cực).
Khía cạnh có xuất hiện trong câu bình luận nhưng lại không có một từ khía cạnh (aspect term) cụ thể nào.
Ví dụ: “Đồ ăn vừa ngon vừa rẻ” Ở đây, người bình luận có đề cập tới khía cạnh Giá cả nhưng chỉ dùng từ ngữ thể hiện thái độ (polarity expression) là rẻ với hàm ý tích cực.
Từ khía cạnh và từ thái độ hoàn toàn không liên quan với nhau, ví dụ:
“Đồ ăn ở đây rẻ lắm” Ở đây người bình luận nhắc tới đồ ăn, là một từ khía cạnh, nhưng lại không hề thể hiện cảm nhận của mình về mùi vị đồ ăn, mà lại thể hiện sự cảm thán về giá cả, vốn không hề xuất hiện từ ngữ khía cạnh nào liên quan.
So sánh không tường minh, ví dụ: “Chất lượng không tương xứng với giá cả” Với khả năng hiểu ngôn ngữ của con người, ta hoàn toàn hiểu rằng đối với chủ thể bình luận, 2 khía cạnh là Chất lượng và Giá cả đều được nhắc đến với thái độ tiêu cực Tuy nhiên ở đây không xuất hiện từ ngữ cảm xúc nào, chỉ có sự so sánh giữa 2 khía cạnh.
Với (2), ta có thể thấy những khó khăn ở việc dữ liệu có rất nhiều nhiễu, các câu không liên quan chủ đề trong một cuộc hội thoại, các từ viết sai chính tả, tiếng lóng, tiếng bồi, Bên cạnh đó, dữ liệu trong cuộc hội thoại có tính chất liên tiếp, câu này tiếp theo câu khác trong những đề tài lồng ghép, dẫn đến rất khó nắm bắt được đúng đối tượng mà những người nói đang nhắc tới tại một vị trí cụ thể trong hội thoại.
Khó khăn thứ (3) là ở chính bản thân ngôn ngữ Việt Nam của chúng ta Về cơ bản,ngôn ngữ Việt vẫn còn gặp khó khăn nhiều trong NLP bởi đặc trưng là khó về ngữ pháp,
1.2 Mô tả bài toán từ vụng và cả cách viết 1 từ có nhiều âm tiết Bên cạnh đó, dữ liệu tiếng Việt cũng không dồi dào để phục vụ cho nghiên cứu.
Nhiệm vụ luận văn
Luận văn này sẽ giải quyết các vấn đề sau trong bài toán phân tích cảm xúc hướng khía cạnh cho dữ liệu mạng xã hội tiếng Việt:
Thu thập, trích xuất, gán nhãn và tổng hợp dữ liệu từ mạng xã hội liên quan tới một thực thể nhất định, ở đây là sản phẩm sữa bột cho trẻ em.
Xây dựng quy trình tiền xử lý bao gồm chọn lọc, trích xuất và chuẩn hóa dữ liệu sẵn sàng đưa vào phân tích.
Xây dựng bộ dữ liệu huấn luyện, bộ dữ liệu thẩm định và bộ dữ liệu kiểm nghiệm từ dữ liệu thực tế.
Thử nghiệm và so sánh các mô hình vận dụng mô hình tiền huấn luyện trên các bài toán con.
Tổng kết và đề xuất các giải pháp triển khai ứng dụng thực tế và các khả năng mở rộng cho các bài toán tương tự.
Cấu trúc luận văn
Luận văn “Phân tích cảm xúc hướng khía cạnh cho các bình luận VIệt ngữ” bao gồm
Nămphần với các nội dung chính sau đây:
Phần Một, Giới thiệutrình bày về lý do chọn đề tài và ý nghĩa thực tiễn của bài toán, phát biểu bài toán và làm rõ nhiệm vụ luận văn.
Phần Hai, Những nghiên cứu liên quan và cơ sở lý thuyếtcung cấp một cái nhìn tổng quát về những nghiên cứu liên quan đã và đang được nghiên cứu, cũng như xu hướng chung hiện nay trong việc giải quyết bài toán, trong đó cũng trình bày cái nhìn chủ quan của tôi đối với các phương pháp phần Cơ sở lý thuyết là tổng hợp những vấn đề học thuật liên quan nhất sẽ áp dụng để giải quyết bài toán, bao gồm giới thiệu về bài toán phân loại đa nhãn, mô hình biến đổi chuỗi Transformer và mô hình ngôn ngữ tiền huấn luyện trên kiến trúc này - BERT, cách thức vận hành và ứng dụng của mô hình BERT cho các bài toán trong xử lý và hiểu ngôn ngữ tự nhiên Tôi cũng giới thiệu mô hình đã huấn luyện với dữ liệu tiếng Việt, ưu nhược điểm cùng các kiến thức bổ trợ. ỞPhần Ba, Dữ liệu và Giải pháp đề xuấttôi trình bày chi tiết về bộ dữ liệu cùng các chỉ số thống kê Với những tính chât đặc trưng của bộ dữ liệu thí nghiệm, tôi trình bày phương pháp xử lý và chọn lọc dữ liệu, thiết kế tổng quan của hệ thống phân tích cảm xúc theo khía cạnh, phương pháp cài đặt và tinh chỉnh mô hình cho từng bài toán con.
Phần Bốn, Kết quả và Thảo luậnlà kết quả của các phương pháp đã trình bày trong Phần Ba sau khi triển khai và thẩm định, kết quả so sánh các phương pháp khác nhau và so sánh với mô hình cơ sở, sau đó là những nhận xét và thảo luận về kết quả.
Phần cuối cùng, Kết luậnlà tổng hợp các kết quả có được từ thực nghiệm, những hạn chế và vấn đề tồn đọng của giải pháp đề xuất và đề xuất khả năng mở rộng, các giải pháp bổ sung và tổng kết.
CácPhụ lục và Tài liệu tham khảo,Chỉ mục, danh sáchCác từ viết tắtvàCác thuật ngữđược cung cấp ở đầu hoặc cuối luận văn.
Những nghiên cứu liên quan và Cơ sở lý thuyết
Trong những nghiên cứu liên quan, tôi sẽ tổng kết lại một số nghiên cứu đã được công bố trong nỗ lực giải quyết bài toán ABSA trên thế giới và tại Việt Nam, các cách tiếp cận khác nhau cùng những kết quả đã đạt được Phần Cơ sở lý thuyết là khái quát những vấn đề học thuật liên quan nhất mà chính tôi sẽ áp dụng trong luận văn này, bao gồm tổng quan về bài toán phân loại đa nhãn, mô hình biến đổi chuỗi Transformer và mô hình ngôn ngữ tiền huấn luyện trên kiến trúc Transformer - BERT, cách thức vận hành và ứng dụng của mô hình BERT cho các bài toán xử lý và hiểu ngôn ngữ tự nhiên.
Tình hình nghiên cứu trên thế giới
2.1 | Tình hình nghiên cứu trên thế giới
Có rất nhiềuworkshopđã được tổ chức cho các nhóm nghiên cứu trên thế giới tiếp cận để giải quyết bài toán phân tích cảm xúc trên nhiều ngôn ngữ khác nhau như các cuộc thi SemEval[2; 3], GermEval[4] Các cuộc thi này cung cấp các bộ dữ liệu khác nhau cho cộng đồng trên thế giới sử dụng và nghiên cứu Từ các bộ dữ liệu này, nhiều công trình nghiên cữu đã được phát triển và công bố trên các hội nghị và tạp chí chuyên ngành uy tín Nói chung, các khía cạnh và thái cực trong câu cần được gán nhãn thủ công trước khi chạy quy trình phân loại trong các mô hình học sâu có giám sát Tuy nhiên, hầu hết các mô hình được đề xuất cho các nhiệm vụ phân tích thái cực hướng khía cạnh chỉ tập trung vào việc cải thiện độ chính xác của tác vụ phân loại của phân cực khía cạnh và bỏ qua việc nghiên cứu các phương pháp trích xuất từ khía cạnh Do đó, khi tiến hành học chuyển giao dựa trên phân tích cảm tính hướng khía cạnh, những mô hình đề xuất đó thường rơi vào tình thế khó xử là thiếu phương pháp trích xuất khía cạnh cho các nhiệm vụ mục tiêu vì không có đủ hỗ trợ nghiên cứu.
Tác vụ APC là một tác vụ thuộc nhóm bài toán phân đa lớp trong đó mỗi câu có thể được gán nhiều hơn 1 nhãn như “dịch vụ”, “đồ ăn” (trong lĩnh vựcNhà hàng) Các công trình nghiên cứu về APC dồi dào hơn so với ATE cả về số lượng và chất lượng. Những năm gần đây, các kiến trúc mạng thần kinh đặc trưng sử dụng bộ nhớ[5; 6] đã được phát triển và đạt được những thành công nhất định cho việc mô hình hóa mục tiêu trong quan hệ với ngữ cảnh Y Song cùng các cộng sự[7] đã giới thiệuAttention Encoder Networks (AEN) - một thay đổi từ kiến trúctransformer, chia các lớpMultiHead Attention (MHA)thành các lớp Intra-MHAvàInter-MHAđể mô hình hóa các từ mục tiêu và ngữ cảnh khác nhau, điều này dẫn đến một mô hình nhẹ hơn so với kiến trúc ban đầu Một bước nhảy vọt khác về hiệu suất gần đây đã đạt được bởi nhóm nghiên cứu của P Zhao[8], họ đã mô hình hóa sự phụ thuộc giữa các từ ngữ cảm xúc một cách rõ ràng trong các câu có nhiều hơn một mục tiêu khía cạnh bằng cách sử dụng một mạng thần kinh tích chập (Convolution neural network) và cho thấy rằng kiến trúc của họ hoạt động đặc biệt tốt với những câu có chứa nhiều khía cạnh.
Nhiều nhà nghiên cứu xem ATE như là bài toán gán nhãn chuỗi hoặc phân lớp ở mức từ ngữ Các mô hình chuỗi nhưCRFs[9; 10; 11; 12],Long-short Term Memory Network[13] kết hợp các các mô hình phân lớp nhưSupport Vector Machine(SVM)[14] đã được sử dụng để giải quyết bài toán ATE và đạt được những kết quả nhất định Một nhược điểm của những phương pháp này đó là chúng không khai thác thực tế rằng các từ ngữ chỉ khía
2.1 Tình hình nghiên cứu trên thế giới cạnh thường xuất hiện đồng thời với các từ ngữ biểu thị ý kiến, ví dụ từ “quán” trong câu “Quán phải gửi xe trước nên mình đợi một lúc” không nên được trích xuất bởi vì câu này không thể hiện một đánh giá nào Các mô hình như thế này thường đưa ra các phán đoán dương tính giả (False Positive).
Một số ít các nghiên cứu khác đã cân nhắc đến từ ngữ cảm xúc trong bài toán ATE.
W Wang cùng nhóm nghiên cứu(author?)[15] đã phát triểnRecursive Neural Conditional Random Fields(RNCRF) để trích xuất tổ hợp cả khía cạnh và cảm xúc trong một kiến trúc duy nhất, trong đó mối quan hệ giữa khía cạnh và ý kiến cũng đã được mô hình hóa bằng trích xuất đồng thời (joint extraction) và học biểu diễn phụ thuộc (dependency- based representation) Một giả định củaRNCRFlà phân tích cú pháp phụ thuộc sẽ nắm bắt tốt mối quan hệ giữa các thuật ngữ khía cạnh và các từ quan điểm trong cùng một câu để việc trích xuất chung có thể có lợi Giả định này thường đúng trong những câu đơn giản, nhưng không hoàn toàn đúng trong những câu có kết cấu phức tạp Mô hìnhCMLA của họ[16] đã xây dựng quan hệ khía cạnh-cảm xúc độc lập với cú pháp, sử dụng cơ chế attentionđể chia sẻ thông tin giữa hai bài toán con và giải pháp này lại có nhược điểm là phát sinh nhiều nhiễu Nhược điểm này bắt nguồn từ chính bản thân cơ chếattentionvà cũng được nhận thấy ở các tác vụ khác sử dụng nó như dịch-máy[17] và gán phụ đề cho hình ảnh[18].
Gần đây, cộng đồng xử lý ngôn ngữ tự nhiên trên toàn thế giới đang chuyển hướng sang vận dụng các mô hình tiền huấn luyện như nền móng để xây dựng trên đó các tác vụ hậu kỳ nhưABSA[19; 20]) Tiềm năng của phương pháp này hiện vẫn còn rất lớn để khai thác H Xu và cộng sự trong “BERT post-training for review reading comprehension and aspect-based sentiment analysis”[19] đã chỉ ra rằng đối với tác vụ APC, hiệu quả của mô hình sử dụng mô hình tiền huấn luyện BERT có thể đạt được là rất đáng kể, kể cả cho các miền lĩnh vực không được sử dụng ở bước tiền huấn luyện, chỉ bằng cách tinh chỉnh mô hình ngôn ngữ vào miền lĩnh vực đó.
Bài toán ABSA cho tiếng Việt Nam
2.2 | Bài toán ABSA cho tiếng Việt Nam
Cuộc vận động đầu tiên cho bài toánSentiment Analysistrong tiếng Việt được tổ chức tại VLSP (Câu lạc bộ xử lý ngôn ngữ và tiếng nói tiếng Việt) 1 2016, chỉ tập trung vào phân loại các cực cảm xúc Tập dữ liệu bao gồm các bài đánh giá ngắn được chú thích bằng một trong ba nhãn: “tích cực”, “tiêu cực” và “trung lập” Sau đó, nhiệm vụ phân tích cảm xúc tại VLSP 2018 cũng đã đề cập đến vấn đề của ABSA đối với tiếng Việt Đối với ngôn ngữ hạn chế về tài nguyên như tiếng Việt, có không nhiều các nghiên cứu về khảo sát ý kiến dựa trên khía cạnh Nhóm tác giả Son L H.[21] đã đề xuất một phương pháp học bán giám sát để trích xuất khía cạnh và phân loại khía cạnh dựa trên thuật toán và từ điển GK-LDA, trong đó sử dụng một từ điển các danh từ và cụm từ nên được trích xuất. Các tác giả Mai và Bac [22] tiến hành thực nghiệm phương pháp kết hợp gán nhãn chuỗi (sequence labeling) với mạng hồi quy 2 chiều và CRFsửu dụng lớp nhúng từword2vec trên 2098 câu thu thập từ Youtube[23], cách làm này không đòi hỏi các yêu cầu đặc trưng về tài nguyên của ngôn ngữ, cho phép mô hình thích nghi với các ngôn ngữ khác một cách dễ dàng.
Nhìn chung, việc giải quyết các bài toánNLPtrong tiếng Việt gặp nhiều khó khăn, bên cạnh những hạn chế về nguồn tài nguyên, bộ dữ liệu, những khó khăn khác gặp phải là do hình thái ngôn ngữ Nếu vấn đề chính tả ở tiếng Anh chỉ là sự lẫn lôn một số chữ cái thì vấn đề chính tả của tiếng Việt gặp phải còn do dấu âm tiết, đôi khi sai lẫn về dấu hoặc cách viết không dấu (khá phổ biến trên mạng xã hội) có thể dẫn tới một ý nghĩa hoàn toàn khác Việc phân tách văn bản thành các đơn vị ngôn ngữ (tokenizing) cũng là một bài toán khó Một số cá nhân cũng như nhóm nghiên cứu đã tiến hành việc xây dựng những thư viện, mô hình tiền huấn luyện dành riêng cho những tác vụ trong tiếng việt nhưPart-Of-Speech,tokenization,Named Entity Recognition, vơi những chỉ số đánh giá ở mức tương đối.
Với những khó khăn đó, cách tiếp cận dùng mô hình huấn luyện trước với tập ngữ liệu lớn đang mở ra một tiềm năng cần khai thác Gần đây, với sự ra đời của BERT, nhiều biến thể của kiến trúc này đã được đề xuất và được tiến hành huấn luyện trên nhiều ngôn ngữ khác nhau với các bộ dữ liệu cực lớn Với tiếng Việt, Dat N Q.[24] đã cho ra mắt PhoBert với các phiên bảnbasevàlargelà những mô hình ngôn ngữ đơn ngữ công khai quy mô lớn đầu tiên, dựa trên RoBERTa PhoBERT mở ra hàng loạt các nghiên cứu và ứng dụng với hi vọng có thể sử dụng nó cho các tác vụ cuối trong tiếng Việt.
Về bài toán phân lớp đa nhãn
Tổng quan về bài toán phân lớp đa nhãn
Có nhiều loại ứng dụng vận dụng học máy mà quan trọng nhất là dự đoán, trong đó mỗi mẫu dữ liệu trong tập dữ liệu đều được biểu diễn thông qua một tập hợp các đặc trưng (features set) Các đặc trưng có thể ở dạng liên tục, rời rạc, dạng danh mục (categorical) hoặc nhị phân Các giải thuật máy học sử dụng giá trị của các đặc trưng để tiến hành học và dự đoán Nếu dữ liệu cho ta biết trước nhãn phân loại thì ta nói việc học là có giám sát (supervised) còn nếu không, ta có bài toán học không giám sát (unsupervised) Bài toán phát hiện tập khía cạnh trong ABSA có thể coi là một bài toán phân loại đa nhãn vì mỗi câu bình luận sẽ có thể hàm chứa những phản ứng của chủ thể trên nhiều khía cạnh khác nhau của sản phẩm.
Bài toán phân loại đơn nhãn (single-label) - là bài toán học từ một tập hợp các mẫu dữ liệu có nhãn l i sao cho|l i | = 1∀i, nếu|L| = 2thì bài toán được gọi là phân lớp nhị phân (binary), còn vớiL>2ta có bài toán phân loại đa phân hay đa lớp (multi-class).
Chúng ta sẽ cần phân biệt bài toán phân loại đa lớp với bài toán phân loại đa nhãn. Trong bài toán phân loại đa nhãn, mỗi mẫu dữ liệu có tập nhãnl⊆ Lvới|l|>=1 Trong quá khứ, việc phân loại đa nhãn từng chủ yếu được ứng dụng cho các tác vụ phân loại văn bản và chẩn đoán y tế [25] Ví dụ, một bệnh nhân có thể được chẩn đoán tiểu đường và ung thư tuyến tiền liệt cùng một lúc Ngày nay, ứng dụng của phân loại đa nhãn trở nên phổ biến hơn để đáp ứng các vấn đề mới được đặt ra, chẳng hạn như phân loại chức năng protein, phân loại nhạc, phân loại hình ảnh
Bài toán phân loại đa nhãn được định nghĩa như sau: Với một không gian đặc trưng Ω và tập dữ liệu X ⊂ Ω, mỗi mẫu dữ liệu x ∈ X được gán nhãn l ⊂ L với
L={l 1 , l K },K>1 sao cho∀j6=h:l j 6=l h Để giải quyết bài toán phân loại đa lớp đa nhãn, các phương pháp được chia thành 2 nhóm chính: nhóm thứ nhất là biến đổi bài toán phân loại đa nhãn thành một hoặc nhiều bài toán phân loại đơn nhãn (Problem transformation methods) hoặc hồi quy; nhóm thứ hai đưa ra các phương pháp giải quyết bài toán phân loại đa nhãn một cách trực tiếp băng cách điều chỉnh thuật toán (Algorithm adaptation methods) Ta sẽ xem xét ví dụ sau như bảng 2.1, cho thấy ví dụ về 4 mẫu dữ liệu thuộc về một hoặc một số lớp: ThểThao, Tôn Giáo, Khoa Học và Chính Trị.
2.3 Về bài toán phân lớp đa nhãn
Thể Thao Tôn Giáo Khoa Học Chính Trị
Bảng 2.1: Ví dụ một tập dữ liệu đa nhãn Đối với nhóm phương pháp chuyển đổi bài toán, người ta có thể chuyển đổi trực tiếp bài toán đa nhãn thành bài toán đơn nhãn bằng nhiều cách như: chỉ chọn ra ngẫu nhiên 1 trong số các nhãn của mỗi mẫu làm nhãn(cách 1), hoặc đơn giản hơn là xóa bỏ tất cả các mẫu có nhiều hơn 1 nhãn trong tập dữ liệu (cách 2) Bảng 2.2 và 2.3 minh họa việc áp dụng các cách trên.
Thể Thao Tôn Giáo Khoa Học Chính Trị
Bảng 2.2: Biến đổi dữ liệu theocách 1
Thể Thao Tôn Giáo Khoa Học Chính Trị
Bảng 2.3: Biến đổi dữ liệu theocách 2
Một cách khác, ta có thể xem như mỗi tổ hợp nhãn xuất hiện trong tập dữ liệu là một nhãn, từ đó mô hình H: X →P(L)cần học bộ phân loại đơn nhãn với tập nhãnP(L)là tập hợp bao gồm 1 phần hay toàn bộ các tổ hợp của tập nhãn ban đầu (cách 3) Bảng 2.4 minh họa biến đổi tập dữ liệu theo (cách 3) Mặc dù cách làm này có thể dẫn tới các tập dữ liệu với một lượng cực lớn nhãn, nó đã từng được sử dụng trong quá khứ [26; 27].Phương pháp phổ biến nhất của cách tiếp cận biến đổi bài toán phân loại đa nhãn thành bài toán phân loại đơn nhãn làcách 4, sử dụng|L|bộ phân loại nhị phânH l : X→
2.3 Về bài toán phân lớp đa nhãn
Thể Thao Thể Thao∧Tôn Giáo Khoa Học∧Chính Trị Khoa học∧Tôn Giáo
Bảng 2.4: Biến đổi dữ liệu theocách 3
{l,ơl}tương ứng với mỗi nhónlcủa tập L Với cỏch làm này, ta sẽ biến đổi tập dữ liệu ban đầu thành Ltập dữ liệuD l với mỗiD l chứa tất cả các mẫu của tập dữ liệu gốc Kết quả dự đoán cho một mẫu dữ liệu mới sẽ là một tập hợp tất cả đầu ra của |L|bộ phân lớp:
Bảng 2.5 minh họa các tập dữ liệu mới sau khi áp dụng các biến đổi và sinh dữ liệu từ dữ liệu ban đầu.
Thể Thao Tôn Giáo Khoa Học Chính Trị
Có Không Có Không Có Không Có Không
Bảng 2.5: 4 bộ dữ liệu tương ứng với 4 nhóm chính được tạo ra theocách 4
Cuối cùng, một phương pháp hiệu quả, trực tiếp khác được thực hiện như sau Đầu tiên, ta tách mỗi mẫu dữ liệu(x,Y)thành |Y|mẫu dữ liệu với các đặc trưng như nhau nhưng có nhãn lần lượt là các nhãnl ∈Y, sau đó ta dùng bộ phân loại dựa trên xác suất với đầu ra là phân phối xác suất trên các nhãn, cuối cùng để đánh giá một mẫu có thể thuộc những lớp nào ta chỉ cần xác định xác suất tại nhãn đó cao hơn một ngưỡng phù hợp (ví dụ, 0.5)
2.3 Về bài toán phân lớp đa nhãn Đối với nhóm phương pháp điều chỉnh thuật toán, A Clare [28] đã đề xuất công thức tínhentropyđể đo độ sai sót: entropy(S) =−
∑ n i = 1 p(c i )logp(c i ) (2.1) với p(x i )là tần suất tương ứng của lớpc i
Ngoài ra, còn nhiều phương pháp khác đã được đề xuất cho cách tiếp cận này tùy theo mỗi loại dữ liệu đặc thù.
Sử dụng mạng thần kinh cho bài toán phân loại đa lớp
Dựa trên những thông tin cơ bản trên, ta thấy để hiện thực mạng thần kinh phân loại đa nhãn, ta có thể chọn 1 trong 2 cách sau:(a)xây dựng một mạng thần kinh vớiM đầu ra hoặc(b)xây dựng một hệ thống bao gồm nhiều mạng con.
2.3.2.1 | Bộ phân loại đa lớp sử dụng tổ hợp nhiều mạng con
Là sử dụng một hệ thống bao gồm M > 1mạng thần kinh, mỗi mạng được huấn luyện độc lập trên các tập con có liên quan được tạo ra theo các cách khác nhau như (1), (2), (3), (4) đã trình bày ở trên Cần thêm vào một mô-đun ra quyết định để tích hợp các kết quả của M mạng con để tạo ra kết quả cuối cùng của toàn hệ thống.
Mô hình thứ nhấtsử dụng một hệ thốngKmạng con nhị phânNN i vớii=1, ,K;
K=|L|, mỗi mạng conNN i có 1 đầu ra nhị phân để xác định đầu vàoxcó thuộc vào lớp l i hay không Các mạng con được huấn luyện trên bộ dữ liệu tương ứng theo(cách 4) Tập hợp đầu ra của mạng có thể thuộc 1 trong 3 trường hợp Trường hợp 1, tất cả f i =0, kết luận cuối cùng có thể là “Không biết”hoặc “Không thuộc lớp nào” tùy theo định nghĩa của bài toán Trường hợp thứ 2 là trường hợp lý tưởng, chỉ có 1 mạng con cho f i =1và với mọi j6= i,f j = 0, khi đó hệ thống dễ dàng đưa ra kết luậnxcó nhãnl i , Trường hợp cuối cùng ta có nhiều hơn 1 kết quả “1”, hệ thống kết luậnxcó tập nhãnL= l i ∀i: f i =1.
Hệ thống mạng thần kinh nhị phân này có một số ưu điểm, vì tất cả các mạng conKđược đào tạo độc lập nên kiến trúc này có tính linh hoạt:
Mỗi mạng con có không gian đặc trưng của chính nó, ta có thể thiết kế các hàm trích xuất đặc trưng riêng cho mỗi nhãn để đạt kết quả tốt nhất
Các mạng con có thể linh hoạt các kiến trúc khác nhau như: số nút ẩn, số tẩng ẩn,hàm kích hoạt,
2.3 Về bài toán phân lớp đa nhãn
Việc huấn luyện các mạng con có thể đồng thời trên các máy khác nhau để làm giảm thời gian và tăng cường tài nguyên cho quá trình huấn luyện.
Nhược điểm chính của mô hình này là nếu tập dữ liệu có số lượng nhãn K lớn thì lượng tham số cho toàn bộ hệ thống là rất lớn, nhất là đối với các hệ thống mạng học sâu có kiến trúc phức tạp Điều này càng không có lợi khi số lượng nhãn trung bình có thể có trong mỗi mẫu dữ liệu là con số nhỏ so vớiK.
Mô hình thứ 2 giải quyết bài toán phân loạiK lớp bằng cách chia bài toán thành
K(K−1)/2 bài toán con phân loại 2 lớp Cách tiếp cận này còn được biết đến với tên gọi phân loạipair-wisehay phương pháp Round Robin [29] và được sử dụng rất phổ biến bởi những người nghiên cứu sử dụng SVM, Adaboost, cây quyết định GọiK(K−1)/2 mạng phân loại con 2 lớp là NN k (i,j), 1 ≤k ≤ K= |L|(|L| −1)/2.NN k (i,j)được huấn luyện trên các dữ liệu thuộc 2 nhãnl i ,l j để phân tách 2 nhóm này với đầu ra nhị phân thể hiện một mẫu dữ liệu thuộc lớp j hay j tương ứng với 2 giá trị nhị phân 0, 1 Hàm quyết định của hệ thống này là một đề tài được nghiên cứu tích cực bơi vì nó ảnh hưởng đáng kể tới hiệu suất cuối cùng của hệ thống, đơn giản nhất là sử dụng cơ chế bình chọn - đếm số bầu chọn từ kết quả củaK(K−1)/2mạng con. Ưu điểm chính của thiết kế này là tất cả các mạng con được đào tạo và sử dụng độc lập, tăng tính tổng quát và tạo ra khả năng “đề phòng” các dự đoán sai Bởi vì mỗi nhãn được huấn luyện trênK−1mạng con riêng biệt nên nếu có 1 thành phần đưa ra kết quả dự đoán sai thì hệ thống vẫn có khả năng đưa ra một kết quả đúng dựa trên kết quả của các thành phần còn lại Đồng thời, tương tự như thiết kế thứ nhất, thiết kế này cũng có tính linh hoạt cao về không gian đặc trưng, các kiến trúc mạng độc lập cũng như có thể đào tạo đồng thời nhiều mạng con trên các máy khác nhau Điểm khác biệt là hệ thống không bị ảnh hưởng nhiều bởi dữ liệu mất cân bằng vì mỗi lớp con được huấn luyện chỉ trên 2 nhãn, trừ khi giữa 2 lớp có sự mất cân bằng cao thì nói chung hệ thống không bị ảnh hưởng nhiều Vấn đề về các không gian đặc trưng không được che phủ cũng ít xảy ra hơn Ngoài ra, hệ thống này còn có khả năng mở rộng tốt Tuy vậy, khi số lượng nhãn tăng lên, số lượng mạng con cũng tăng dần lên theo hàm sốK 2 Khi số K quá lớn thì ưu điểm về thời gian đào tạo sẽ mất đi.
Ngoài rangười ta còn sử dụng nhiều mô hình nhị phân khác để phân loại theo các nhóm nhãn và quyết định dựa trên các hàm xác suất và phương pháp thống kê Một số trường hợp người ta cũng dùng bộ phân loại nhiều hơn 2 lớp với các lớp là con của tập
2.3 Về bài toán phân lớp đa nhãn nhãn ban đầu.
2.3.2.2 | Bộ phân loại đa lớp sử dụng một mạng duy nhất
Với sự linh hoạt trong kiến trúc của mạng thần kinh, một bài toán phân loại đa lớp có thể được thực hiện chỉ bằng một mạng thần kinh duy nhất với kiến trúc gồm dnút đầu vào vàMnút đầu ra Các nghiên cứu và thực nghiệm cho thấy thiết kế này nói chung không được coi là tốt trong khái quát hóa và do đó không được phổ biến lắm.
Bộ phân loại đa lớp với một mạng thần kinh duy nhất thường có kiểu kiến trúc là ở đầu ra cuối cùng với Mnút đầu ra, ta áp dụng một hàmlogistic(như sigmoid) và nhận được các nhãn là tại các vị trí cho kết quả dương tính Cũng có thể sử dụng một hàm softmax với kết quả là các vị trí có giá trị cuối cùng lớn hơn1/M.
Một số vấn đề
Số nhãn có thể nhiều đến mức nào trên mỗi mẫu dữ liệu?
Không phải tất cả các tập dữ liệu đều có sự tương đồng về mức độ đa nhãn Ở một số ứng dụng, lượng nhãn của mỗi mẫu dữ liệu có thể là rất nhỏ so với tổng số nhãn trên toàn bộ tập dữ liệu và ở một số ứng dụng khác thì ngược lại Điều này có thể có tác động đáng kể tới hiệu quả của các thuật giải.
Việc phân loại đa nhãn đòi hỏi nhiều phương pháp đánh giá hơn so với đơn nhãn. Với Dlà tập dữ liệu đánh giá với|D|mẫu dữ liệu có dạng(x i ,Y i ),i = 1 |D|,Y i ⊆ L. Với Hlà mô hình phân lớp đa nhãn vàZ i = H(x i )là tập các dự đoán từ mô hình Hcho các mẫu dữ liệux i
E Schapire và Y Singer[30] sử dụng độ đo Hamming Loss được định nghĩa như sau:
Trong đó ∆ký hiệu cho sự sai biệt giữa 2 tập hợp, tương đương với phép toán luận lý XOR.
S Godbole and S Sarawag[31] đã sử dụng các tiêu chuẩn sau đây để đánh giá một
2.3 Về bài toán phân lớp đa nhãn bộ phân loạiHtrên tậpD:
M Boutell và các cộng sự năm 2004[26] đã đề xuất công thức tính độ chính xác một cách tổng quát sử dụng một tham sốα≥0:
Năm 2006, G Tsoumakas và các cộng sự [32] thực nghiệm so sánh hiệu quả giữa các phương pháp khác nhau sử dụng độ đo đánh giá khác nhau cho thấy các phương pháp khác nhau có thể cho kết quả khác nhau tương đối tùy theo tính chất của dữ liệu.
Phương pháp học chuyển giao sử dụng mô hình tiền huấn luyện
2.4 | Phương pháp học chuyển giao sử dụng mô hình tiền huấn luyện Để bù đắp cho việc không đủ các dữ liệu đào tạo, việc truyền kiến thức giữa các mô hình cho các lĩnh vực hoặc các nhiệm vụ khác nhau được đặt ra Học chuyển giao trở nên rất phổ biến trong lĩnh vực xử lý ảnh Trong xử lý ngôn ngữ tự nhiên, với các kiến trúc mới sâu và phức tạp được sáng tạo ra trong thời gian gần đây, việc học chuyển giao đang bắt đầu trở nên phổ biến Một vấn đề luôn xảy ra là dù được huấn luyện với một lượng lớn các dữ liệu, các mô hình được đào tạo vẫn còn thiếu khả năng tổng quát hóa các điều kiện khác với những điều kiện gặp được trong quá trình đào tạo Thế giới thực lộn xộn và chứa vô số tình huống mới lạ, nhiều tình huống trong số đó mà mô hình tiền huấn luyện chưa gặp trong quá trình đào tạo và do đó không được chuẩn bị tốt để đưa ra dự đoán. a
Hình 2.1: Các phương pháp học chuyển giao và thích ứng miền a https://en.wikipedia.org/wiki/Transfer_learning
Trong kịch bản học có giám sát truyền thống, chúng ta tạo một mô hình cho một số tác vụ trong lĩnh vực/miền (domain) để dùng làm mô hình dự đoán cho các dữ liệu trên cùng một miền Trong thực tế, chúng ta thường gặp sự suy giảm hoặc sụp đổ về hiệu suất do mô hình đã kế thừa sai lệch từ dữ liệu huấn luyện của nó và không biết cách tổng quát hóa trên miền mới Việc tinh chỉnh trên mô hình đã huấn luyện cho phép chúng ta đối phó với tình huống này bằng cách tận dụng dữ liệu được gắn nhãn hiện có của một số nhiệm vụ hoặc miền liên quan (source domain) và cố gắng lưu trữ kiến thức trong miền nguồn này để áp dụng vào vấn đề mà chúng ta quan tâm (target domain) Chúng ta cần tìm cách chuyển càng nhiều kiến thức càng tốt từ nhiệm vụ hoặc miền nguồn sang
2.4 Phương pháp học chuyển giao sử dụng mô hình tiền huấn luyện nhiệm vụ hoặc miền mục tiêu Với định nghĩa đó, học chuyển tiếp sẽ trở thành động lực chính dẫn đến thành công trong học máy.
Trong các nghiên cứu học thuật, thông thường hiệu suất của một mô hình học máy được đánh giá trong giới hạn miền, nghĩa là mô hình được đánh giá trên một tập kiểm tra đến từ cùng một phân phối với tập huấn luyện Trong các ứng dụng thực tế, cài đặt này không phải lúc nào cũng có hiệu quả vì mô hình được đào tạo sau đó thường được sử dụng để dự đoán dữ liệu chưa từng thấy trước đó Để đánh giá mô hình một cách xác đáng hơn chúng ta đưa ra các cài đặt để đánh giá mô hình trên các miền khác nhau (cross-domain evaluation) Để tối ưu hóa hiệu suất trên nhiều miền, bản thân mô hình có thể được điều chỉnh trên miền đích Thủ tục này được gọi là thích ứng miền (domain- adaptaion), là một trường hợp đặc biệt của học chuyển giao theo W M Kouw[33].Hình
2.4thể hiện một cách phân loại dễ hiểu cho các phương pháp học chuyển giao nói chung và thích ứng miền nói riêng.
Có các chiến lược sử dụng mô hình chuyển giao khác nhau tùy vào kiến trúc mô hình và các nhiệm vụ cụ thể, các chiến lược thông dụng như:
Chuyển giao mô hình biểu diễn: sử dụng đầu ra của lớp cuối hoặc gần cuối của mô hình tiền huấn luyện và coi nó như làfeature vectorlàm đầu vào cho các giải thuật khác (như phân loại, gom cụm )
Phương pháp tinh chỉnh với ”warm restart”: sử dung mô hình đã được huấn luyện với tập dữ liệu lớn để khởi động, rồi huấn luyện lại trên tập dữ liệu mới vớilearning ratenhỏ hơn.
Mô hình biến đổi chuỗi hiện đại Transformer
Cơ chế chú-ý (Attention mechanism)
Một chức năng chú-ý có thể được mô tả như là một ánh xạ mỗiquerycùng 1 bộ các cặpkey-valuethành một giá trị thích hợp Trong đóquery,key,valueđều là các vec-tơ Giá trị đầu ra được tính bằng tổng có trọng số của cácvalue, mà các trọng số này được tính bởiqueryvàkeytương ứng.
Phương pháp chú-ý được dùng trong Transformer là tích vô hướng thu nhỏ Đúng với tên gọi của nó, cơ chế tự-chú-ý bằng tích vô hướng thu nhỏ tính toán mức độ “chú ý” giữa các biểu diễn bằng tích vô hướng của các vec-tơ, chia theo một tỉ lệ nhất định√ d k ,
2.5 Mô hình biến đổi chuỗi hiện đại Transformer
(a) Scaled Dot-Product Attention (b) Multi-head Attention
Hình 2.3: Đa-chú-ý là tổ hợp song song nhiều lớp tự chú-ý. sau đó áp dụng thêm một phép tính softmax, kết quả nhận được là trọng số cho value tương ứng.
Quá trình tính toán ma trận hóa được thực hiện như sau: xếp chồng tập hợp các vec-tơqueryđể tạo thành ma trận Q, tương tự với các vec-tơkeyvàvalueta có 2 ma trận
K, V, từ đó đầu ra cũng là một ma trận được tính bằng :
√d k )V (2.7) Đối vớid k có giá trị nhỏ, yếu tố thu nhỏ trong công thức không quá quan trọng Tuy nhiên khi d k có giá trị lớn thì phép nhân ma trận có thể cho kết quả rất lớn, đẩy hàm sofmax về các vùng có đạo hàm cực nhỏ Hệ sốd k giúp chống lại hiệu ứng đó.
2.5.1.2 | Multi-head attention: Cơ chế đa-chú-ý
Thay vì chỉ dùng một bộ chú-ý, nhóm tác giả nhận thấy mô hình hoạt động tốt hơn hẳn khi thực hiệnhlần phép chiếu tuyến tính các vec-tơvalue,query,key, tạo rahbộ chú ý khác nhau để mô hình có thể học từ dữ liệu trên hkhông gian Các tham số mô hình được học đồng thời và sản sinh rahgiá trị củavalue Đầu ra cuối cùng được tạo ra bằng cách nối các đầu ra này với nhau như hình minh họa Cơ chế đa chú ý này cho phép mô
2.5 Mô hình biến đổi chuỗi hiện đại Transformer hình “chú ý” vào thông tin ở nhiều khía cạnh khác nhau, nhiều không gian con khác nhau từ nhiều góc nhìn khác nhau.
MultiHead(Q,K,V) =Concat(head 1 , ,head h )W O , head i = Attention(QW i Q ,KW i K ,VW i V )
2.5.1.3 | Vai trò của cơ chế chú-ý trong mô hình Transformer
Trong kiến trúcTransformer, cơ chế đa-chú-ý được sử dụng theo 3 cách:
Tự-chú-ý trong bộ mã hóa: Bộ mã hóa sử dụng các lớp tự chú-ý, trong đó mỗi lớp nhận đầu vào là đầu ra của lớp phía trước Mỗi biểu diễn ở một vị trí của lớp hàm chứa sự tương quan tới tất cả các vị trí trong lớp trước.
Tương tự, các lớp tự-chú-ý trong bộ giải mã cũng cho phép tại mỗi vị trí, giá trị đầu ra ở một vị trí thể hiện mối tương quan với tất cả các vị trí khác từ đầu cho đến chính nó Tuy nhiên ở đây, chúng ta cần lưu ý rằng phải che đi các từ ở tương lai chưa được mô hình dịch đến, việc này được thực hiện tại lớpscaled dot-product attentionbằng cách che đi (cài đặt giá trị −∞ tại các vị trí không hợp lệ trước khi đưa vào lớpso f tmax.
Cơ chế chú-ý-chéo giữa bộ mã hóa và bộ giải mã (encoder-decoder attention): trong các lớp này, cácqueriesgắn với bộ giải mã, còn cáckeysvàvalueslà kết quả từ bộ mã hóa Như vậy, mọi vị trí trong bộ giải mã đều nhận được thông tin từ toàn bộ chuỗi đầu vào Ý tưởng này thừa kế từ các cơ chế chú-ý của bộ mã hóa và giải mã trong các mô hình tuần tự điển hình [36; 37; 38].
Mạng kết nối đầy đủ từng vị trí (Position-wise fully connected layers) 25
Ngoài các lớp con chú-ý, mỗi lớp trong bộ mã hóa và bộ giải mã chứa một mạng kết nối đầy đủ chuyển tiếp áp dụng cho từng vị trí riêng biệt theo cách giống hệt nhau Nó bao gồm 2 lớp kết nối đầy đủ với lớp kích hoạtReLUở giữa Đầu vào và đầu ra khi qua mạng này có cùng số chiều để đảm bảo sự nhất quán trong toàn bộ kiến trúc.
2.5 Mô hình biến đổi chuỗi hiện đại Transformer
Mạng kết nối đầy đủ giống nhau ở các vị trí khác nhau trong cùng lớp Còn giữa các kớp khác nhau thì các lớp này là riêng biệt, tức chúng có cùng kiến trúc nhưng các tham số là khác nhau.
Lớp nhúng từ (Embedding) và Softmax
Cũng tương tự với các mô hình biến đổi chuỗi khác, các đơn vị trong câu ngôn ngữ tự nhiên cũng cần được biến đổi về các vec-tơ với cùng số chiềud model Ta cũng sử dụng phép biến đổi tuyến tính thông thường và hàm softmax để chuyển đổi đầu ra của bộ giải mã thành xác suất mã thông báo tiếp theo được dự đoán.
Mã hóa vị trí (Positional encoding)
Transformer không có kiến trúc hồi quy và không có tích chập nên để mô hình sử dụng được yếu tố thứ tự trong câu chúng ta cần phải trích xuất thông tin về vị trí tương đối hoặc tuyệt đối của chúng Bằng cách cộng trực tiếp mã vị trí (positional encoding) vào mã từ (word embedding) chúng ta có thể giải quyết vấn đề này Mã vị trí cũng có chiều bằngd m odelđể có thể thực hiện phép cộng Có nhiều cách thực hiện mã hóa vị trí đã được đề xuất, một số có thể học qua quá trình huấn luyện, một số thì cố định [38] Mô hìnhTransformersử dụng hàmsinvàcos:
PE ( pos,2i ) = sin(pos/10000 2i/d model )
PE ( pos,2i + 1 ) = cos(pos/10000 2i/d model ) (2.10)
Vớiposlà vị trí cònilà số chiều, mỗi chiều trong mã vị trí tương ứng với một đồ thị hình sin.
Những thành tựu nổi bật
Dịch-máy Trong nhiệm vụ dịch từ tiếng Anh sang tiếng Đức của WMT 2014, mô hình Transformer lớn (big) hoạt động tốt hơn các mô hình tốt nhất từng được công bố trước đó (bao gồm cả các mô hình phối hợp) với hơn 2.0 điểm BLEU, thiết lập mộtState- of-the-artcho BLUE là 28,4 Quá trình đào tạo mất 3,5 ngày trên 8 GPU P100 Mô hình cơ sở (base) cũng có thể đạt được số điểm cao hơn hầu hết các mô hình khác với mức chi phí thấp hơn nhiều.
Trong nhiệm vụ dịch từ tiếng Anh sang tiếng Pháp của WMT 2014, mô hình lớn đạt được điểm BLEU là 41,0, vượt trội hơn tất cả các mô hình đơn đã công bố, với chi phí đào tạo thấp hơn 1/4 so với mô hình tối ưu nhất trước đó.
2.5 Mô hình biến đổi chuỗi hiện đại Transformer
Phân tích cú pháp tiếng Anh.Để đánh giá xemTransformercó thể tổng quát hóa các nhiệm vụ khác hay không, các tác giả đã thực hiện các thử nghiệm về phân tích thành phần ngữ pháp tiếng Anh Nhiệm vụ này đưa ra những thách thức cụ thể: đầu ra phải chịu sự ràng buộc cấu trúc mạnh mẽ và dài hơn đáng kể so với đầu vào Hơn nữa, các mô hình tuần tự RNN không thể đạt được kết quả tiên tiến với dữ liệu nhỏ.
Mô hìnhTransformer-lớn với 4 lớp vớid mode = 1024được huấn luyện với phần Wall Street Journal (WSJ) của Penn Treebank[39], khoảng 40 nghìn câu đào tạo sử dụng bộ 16 nghìn từ vựng Mô hình cũng được đào tạo bán giám sát, sử dụng kho ngữ liệu Berkley- Parser có độ tin cậy cao và lớn hơn với khoảng 17 triệu câu [40] và sử dụng 32 nghifn từ vựng Một số thí nghiệm khác nhau được sử dụng trong quá chỉnh tinh chỉnh các siêu tham số nhưdropout,learning rate,beam sizeđể đạt được các kết quả cuối cùng.
Kết quả cho thấy rằng mặc dù không cần điều chỉnh theo nhiệm vụ cụ thể, mô hình vẫn hoạt động tốt một cách đáng ngạc nhiên, mang lại kết quả tốt hơn tất cả các mô hình đã công bố trước đó trừ Mạng thần kinh hồi quy ngữ pháp (Recurrent neural network grammars, [41]) Trái ngược với các mô hình tuần tự hồi-quy,Transformercho kết quả tốt hơn trên BerkeleyParser ngay cả khi chỉ đào tạo trên tập huấn luyện WSJ gồm 40K câu.
Mô hình tiền huấn luyện BERT
Thực nghiệm và các kết quả đáng chú ý
Các kết quả đã được đưa ra để làm sáng tỏ tầm quan trọng của các chi tiết khác nhau của BERT như:
Thay đổi các tác vụ trong bước tiền huấn luyện.Với cùng một dữ liệu đào tạo, các bước và siêu tham số được tinh chỉnh như cho thấy:
Mô hình không được huấn luyện với NSP cho kết quả kém hơn đáng kể trong các tác vụ QNLI, MNLI, SQuAD 1.1 khi so sánh vớiBERT BASE
2.6 Mô hình tiền huấn luyện BERT
Mô hình huấn luyện theo kiểu trái sang phải thông thường cho kết quả tệ hơn hẳn so với được huấn luyện hai chiều sử dụng MLM trên tất cả các tác vụ Đối với SQuAD, tất yếu mô hình trái sang phải sẽ cho kết quả kém bởi vì các biểu diễn ở cấp độ từ không chứa đựng được ngữ cảnh bên phải Để công bằng hơn nhóm tác giả đã sử dụng thêm một lớp factoryTM hai chiều ở tầng trên cùng và cho thấy kết quả khá hơn, nhưng vẫn kém hơn nhiều so với kết quả của các mô hình với MLM.
Các kết quả được trình bày ở bảng 4.2. Ảnh hưởng của kích thước mô hình.Từ lâu ta đã biết rằng việc tăng kích thước mô hình sẽ dẫn đến những cải tiến liên tục đối với các tác vụ quy mô lớn như dịch-máy và mô hình ngôn ngữ Tuy nhiên với [] người ta đã chứng minh một cách thuyết phục rằng việc mở rộng mô hình đến một kích thước cực lớn cũng dẫn đến những cải tiến lớn trên những tác vụ rất nhỏ (dĩ nhiên, với điều kiện mô hình được huấn luyện trước đầy đủ trên một tập dữ liệu tương xứng) Để làm điều này họ sử dụng các siêu tham số cùng cách đào tạo như nhau và thay đổi số các lớp, số nút ẩn, số lượng bộ chú-ý để khám phá ảnh hưởng của kích thước mô hình và đánh giá một số tác vụ GLUE sau khi tinh chỉnh.
Sử dụng BERT để trích xuất đặc trưng dữ liệu (Feature-based Approach with BERT) Các tác giả đã so sánh việc sử dụng BERT để trích xuất đặc trưng (không tinh chỉnh các tham số từ mô hình BERT đã huấn luyện) với việc tinh chỉnh mô hình BERT.
Có một số lí do cho cách làm này Thứ nhất là không phải tất cả các tác vụ đều có thể biểu diễn dưới kiến trúc của bộ mã hóa của Transformer nên việc sử sụng một kiến trúc đặc trưng khác là cần thiết Thứ hai, là để tận dụng những lợi ích tính toán của việc tiền huấn luyện Để so sánh hai cách tiếp cận này, họ đã thực hiện áp dụng BERT cho CoNLL-2003Named Entity Recognition (NER) Ta thấy tinh chỉnh BERT LARGE cho kết quả state-of- the-art cực cạnh tranh, đồng thời hướng tiếp cận sử dụng BERT để trích xuất đặc trưng cũng cho kết quả rất khả quan.
Một số biến thể của BERT
Sau BERT, nhiều nghiên cứu đã sớm đưa ra các biến thể tốt tương tự như BERT với một vài chỉnh sửa, nhằm cố gắng giải quyết các vấn đề của BERT nguyên thủy Phần này sẽ sơ lược về một số phiên bản quan trọng được nghiên cứu và áp dụng nhiều nhất.Những nghiên cứu về các Chỉnh sửa của BERT có thể giúp chúng ta có cái nhìn rộng hơn,nhiều sự lựa chọn hơn cho từng hoàn cảnh cụ thể.
2.6 Mô hình tiền huấn luyện BERT
ALBERT - A Lite BERTHầu hết các vấn đề trong BERT đến từ số lượng lớn các tham số cần huấn luyện, làm nó trở nên chậm và cồng kềnh ALBERT[48] đã thử cắt giảm từ tổng số 110 Triệu tham số xuống còn 12 Triệu (khoảng 1/10 Kích thước BERT ban đầu) và do đó tốt hơn để triển khai trong thế giới thực và nhanh chóng bằng cách làm theo các chiến lược dưới đây:
Chia sẻ tham số: BERT nguyên thủy bao gồm 6 khối, mỗi khối bao gồm: nhiều bộ tự chú-ý, lớp chuẩn hóa, lớp kết nối Trong AlBERT, ta sử dụng một bộ tham số cho tất cả 6 khối và do đó giảm thời gian huấn luyện mô hình, đồng thời giảm kích thước lưu trữ và giảm thời gian suy luận của mô hình Việc chia sẻ có thể thực hiện theo nhiều cách như: chia sẻ toàn bộ, chỉ chia sẻ các lớp kết nối hoặc chỉ chia sẻ tham số của các lớp chú-ý.
Factorized embedding parameterization: Trong mô hình BERT, kích thước nhúng của từEvà kích thước của các lớp ẩn Hlà bằng nhau Nếu ta muốn thay đổid model từ 768 thành 1500, ta cũng cần thay đổi kích thước đầu vào, và do đó cần huấn luyện lại cả mô hình nhúng-từ ban đầu, tức là, với bộ từ vựng kích thước E cần học lại ma trânVxE, con số này có thể lên tới hàng tỉ Do đó, ALBERT đề xuất sử dụng phương pháp phân tách các tham số nhúng thành nhân tử bằng cách phân tách nhân tử ma trận Thay vì chiếu các vectơ one-hottrực tiếp vào không gian ẩn có kích thước H, trước tiên chúng ta chiếu chúng vào không gian nhúng chiều thấp hơn có kích thướcEsau đó mới chiếu nó vào không gian ẩn Từ đó số lượng tham số được giảm từ(VxH)xuống thành(VxE+ExH).
RoBERTa - Robustly Optimized BERT ApproachCác tác giả của RoBERTa[49] cho rằng kết quả của mô hình BERT có thể được cải thiện rất nhiều nhờ vào các thay đổi trong quá trình tiền huấn luyện, cụ thể là kỹ thuật che từ động (Dynamic Masking ò tokens) Ở tác vụ MaskedLM của BERT gốc, các từ được chon ngẫu nhiên trong câu và một số được thay thế bằng[MASK]và một số được giữ nguyên Tuy nhiên, khi huấn luyện qua nhiều epoch, các chuỗi cùng với “mặt nạ” của chúng được giữ nguyên qua tất cả các epoch. RoBERTa muốn tăng tính ngẫu nhiên của mô hình bằng cách chọn các vị trí che dấu khác nhau cho cùng một câu tại mỗiepoch Điều này tạo ra thêm nhiều đầu vào khác nhau cho mô hình, tăng theo sốepoch, kết quả là mô hình sẽ học được tốt hơn.
DistilBERT Hầu hết các biến thể của BERT tập trung vào hai khía cạnh chủ yếu:
2.6 Mô hình tiền huấn luyện BERT các không làm thay đổi kiến trúc ban đầu DistilBERT[50] cũng không ngoại lệ, nó đề xuất phương pháp “nén” cả mô hình ban đầu thành mô hình nhỏ hơn, trong đó mô hình nhỏ
- Student network - được đào tạo để tái tạo hành vi của mô hình lớn - Teacher network - gọi là chắt-lọc kiến thức (knowledge distillation)[51] Mô hình nhỏ “chắt lọc” kiến thức từ mô hình lớn bằng cách tối thiểu hóa hàm mất mátcross-entropygiữa đầu ra của mô hình nhỏ và mô hình lớn.
Trong quá trình học có giám sát của mô hình lớn, chúng ta tối đa hóa xác suất ước tính của đầu ra tương ứng với nhãn thực của dữ liệu bằng một hàm mục tiêu có chức năng giảm thiểuentopygiữa phân phối dự đoán của mô hình và một vec-tơ one-hot Tuy nhiên giá trị đầu ra ở những lớp có xác suất rất nhỏ lại, một phần nào đó, phản ánh tính tổng quát của mô hình.
Khi cho một mô hình nhỏ học theo hành vi của một mô hình lớn, một yêu cầu đó là cần giữ lại được những thông tin tổng quát này Từ đó, nhóm của Hinton đề xuất một hàm softmax-temperature (2.11) ở đầu ra của các mô hình lớn-nhỏ và hàm mất mát cross-entropy giữa các đầu ra được gọi là hàm mất mát chắt-lọc. p i = exp(z i /T
Ttrong công thức giúp kiểm soát các xác suất nhỏ nói trên, làm cho phân phối của đầu ra được “trơn tru” Trong quá trình đào tạo, T là giống nhau cho cả mô hình lớn và nhỏ, còn khi suy luận T được đặt thành 1 để đạt được hàm softmax như bình thường. Để huấn luyện DistilBERT, nhóm tác giả dùng mô hình đã huấn luyện BERT BASE làm mô hình lớn, mô hình nhỏ DistilBERT có kiến trúc chung giống BERT nhưng loại bỏ các lớp nhúng token-type và pooler, đồng thời số lượng các lớp giảm đi một nửa, được khởi tạo ngẫu nhiên.
Kết quả cuối cùng cho thấy DistilBERT nhỏ hơn 40% về kích thước (66M so với 110M tham số) và nhanh hơn 60% so với mô hình gốc nhưng vẫn đạt hiệu suất 97%.
phoBERT - Mô hình tiền huấn luyện BERT cho tiếng Việt
PhoBERT được giới thiệu là mô hình ngôn ngữ đơn ngữ Việt đầu tiên được tiền huấn luyện[24].
2.6 Mô hình tiền huấn luyện BERT
Về kiến trúc, phoBERT cũng có 2 phiên bảnphoBERT BASE vàphoBERT LARGE tương ứng với 2 phiên bảnBERT BASE vàBERT LARGE
Về dữ liệu đào tạonhóm của anh Dat đã sử dụng 20GB dữ liệu chữ viết, được tổng hợp từ 2 tập ngữ liệu: (1) Wikipedia tiếng Việt, khoảng 1GB và (2) tin tức tiếng Việt được thu thập từ các trang web trước khi xử lý trùng lặp[] Tiếp theo, để giải quyết vấn đề tách từ trong tiếng Việt, đã tận dụng thêm RDRSegmente trong VnCoreNLP[] trước khi tiếp tục phân tách câu bằngfastBPE.
Về phương pháp huấn luyện và tối ưu.sử dụng phương pháp huấn luyện RoBERTa4.2 với độ dài chuỗi đầu vào sau khi phân tách là 256,batch−size = 1024trên 4 GPUs có dung lượng nhớ 16GB mỗi GPU,learning−rate=0.0004chophoBERT BASE vàlearning− rate=0.0002chophoBERT LARGE , quá trình đào tạo diễn ra trong 3-5 tuần với 40epochs.
Tinh chỉnh trên nhiều tác vụ và đánh giá.Các tác giả đã chứng minh phoBERT hoạt động tốt hơn mô hình đa ngôn ngữ gần nhất XLM-R để tạo ta hiệu suất tân-tiến nhất cho
4 tác vụ cuối trong tiếng Việt làPOS tagging, Dependency parsing, NERvàNLI, mở ra một tiềm năng cho các nghiên cứu và ứng dụng trong tương lai cho NLP Việt ngữ.
Tổng kết chương
Trong chương này tôi tập trung giới thiệu những kiến thức quan trọng sẽ được vận dụng trong toàn bộ công trình, bao gồm kiến thức nền tảng về bài toán phân loại, đặc biệt là bài toán phân loại đa nhãn; các cơ chế học mới và mô hình hoàn chỉnh với những giải thích chi tiết về kiến trúc, mở rộng với một số biến thể quan trọng của nó Tôi cũng cung cấp thông tin về mô hình huấn luyện trước cho Tiếng Việt trên các kiến trúc này.
Dữ liệu và Giải pháp đề xuất
Dữ liệu
Thu thập dữ liệu
Dữ liệu được thu thập từ các nguồn công khai khác nhau như các trang tin tức, mạng xã hội, các sàn thương mại điện tử, kênh bán hàng Là các mẫu hội thoại liên quan tới chủ đề hoặc bình luận liên quan tới sản phẩm Sau đó, chúng được gán nhãn thủ công các phân loại khía cạnh Trong kết quả cuối cùng, tôi tổng hợp được có tât cả 22 nhãn khía cạnh và một nhãn “Chất lượng chung” (như vậy, có tất cả 23 nhãn) cho sản phẩm sữa bột Danh sách các nhãn định nghĩa trước được liệt kê trong phần 1 của phụ lục Từ dữ liệu gốc ban đầu, bước chọn lọc được tiến hành như sau:
Loại bỏ dữ liệu không liên quan chủ đề/sản phẩm, dựa trên nhãn được dán thủ công.
Loại bỏ dữ liệu không phải tiếng Việt (sử dụng bộ nhận dạng ngôn ngữ lang- detect 1 ), các câu tiếng Việt không dấu, viết lóng, viết sai chính tả, viết không chuẩn vẫn được giữ lại.
Lọc dữ liệu spam, dữ liệu ảo, dữ liệu có khả năng cao được viết bởi các nhóm quảng cáo, bán hàng,online seeding bằng bộ lọc từ khóa và nhận dạng mẫu.
1.“Nan đã tốt nay còn tốt hơn với NAN Optipro Kid MỚI cho trẻ từ 1 tuổi trở lên, bổ sung HM-O cùng tổ hợp các vitamin & khoáng chất quan trọng, giúp con hấp thu tốt, đề kháng
1 Port of Nakatani Shuyo’s language-detection library (version from 03/03/2014) to Python Mã nguồn:https://pypi.org/project/langdetect/
3.1 Dữ liệu khỏe! Thử ngay cho con mẹ nhé!”
2 [’Freeship 30K Toàn Quốc] Bộ 2 lon sữa bột Enfagrow 4 cho ’, ’ - Đánh giá: 5 sao’], [https://www.lazada.vn/products/freeship-30k-toan-quoc-bo-2-lon-sua-bot-enfagrow- 4-cho- ] [’[Freeship 30K Toàn Quốc] Bộ 2 lon sữa bột Enfagrow 4 cho ’, ’[Freeship 30K Toàn Quốc] Bộ 2 lon sữa bột Enfagrow 4 cho trẻ trên 2 tuổi 1.75kg - Tặng 1 lon Enfagrow
4 870g - Cam kết HSD còn ít nhất 10 tháng | Lazada.vn’]
Loại bỏ các câu quá dài (>150 âm tiết) và quá ngắn (