Kiến trúc mơ hình BERT

Sử dụng bộ mã hĩa Transformer được tiền huấn luyện, BERT cĩ thể biểu diễn bất kỳ token nào dựa trên ngữ cảnh hai chiều của nĩ. Trong quá trình học

cĩ giám sát trên các tác vụ xuơi dịng, BERT tương tự như GPT ở hai khía cạnh. Đầu tiên, các biểu diễn BERT sẽ được truyền vào một tầng đầu ra được bổ sung, với những thay đổi tối thiểu tới kiến trúc mơ hình tùy thuộc vào bản chất của tác vụ, chẳng hạn như dự đốn cho mỗi token hay dự đốn cho tồn bộ chuỗi. Thứ hai, tất cả các tham số của bộ mã hĩa Transformer đã tiền huấn luyện đều được tinh chỉnh, trong khi tầng đầu ra bổ sung sẽ được huấn luyện từ đầu.

Hiện tại, cĩ nhiều phiên bản khác nhau của mơ hình BERT. Các phiên bản đều dựa trên việc thay đổi kiến trúc của Transformer tập trung ở 3 tham số: Số lượng các block sub-layers trong Transformer; kích thước của embedding vector (hay cịn gọi là hidden size); số lượng head trong multi-head layer, mỗi một head sẽ thực hiện một self-attention. Tên gọi của 2 kiến trúc bao gồm:

- BERT base: Tổng tham số 110 triệu. - BERT Large: Tổng tham số 340 triệu.

Như vậy, ở kiến trúc BERT Large chúng ta tăng gấp đơi số layer, tăng kích thước hidden size của embedding vector gấp 1,33 lần và tăng số lượng head trong multi-head layer gấp 1,33 lần.

Mơ hình BERT multilingual:

BERT multilingual là một mơ hình của google BERT đa ngơn ngữ. Mơ hình được đào tạo trước trên 104 ngơn ngữ hàng đầu cĩ Wikipedia lớn nhất bằng cách sử dụng mục tiêu tạo mơ hình ngơn ngữ bị che (MLM-masked language modeling). Mơ hình này phân biệt chữ hoa và chữ thường.

Các kỹ thuật quen thuộc phổ biến như Word2vec, Fasttext hay Glove cũng tìm ra đại diện của từ thơng qua ngữ cảnh chung của chúng. Tuy nhiên, những ngữ cảnh của các kỹ thuật này là đa dạng trong dữ liệu tự nhiên. Ví dụ các từ như “con chuột” cĩ ngữ nghĩa khác nhau ở các ngữ cảnh khác nhau như “Con chuột máy tính này thật đ p!” và “con chuột này to thật”. Trong khi các mơ hình như Word2vec, FastText tìm ra 01 vector đại diện cho mỗi từ dựa trên 01 tập ngữ liệu lớn nên khơng thể hiện được sự đa dạng của ngữ cảnh. Việc biểu diễn mỗi từ dựa trên các từ khác trong câu thành một đại diện sẽ mang lại kết quả ý nghĩa rất nhiều. Như trong ví dụ trên, ý nghĩa của từ “con chuột” sẽ được biểu diễn cụ thể dựa vào các từ phía trước hoặc sau nĩ trong câu. Nếu đại diện của từ “con chuột” được xây dựng dựa trên những ngữ cảnh cụ thể này thì sẽ cĩ được biểu diễn tốt hơn.

Mơ hình BERT đã tạo các biểu diễn theo ngữ cảnh dựa trên các từ trước và sau đĩ để dẫn đến một mơ hình ngơn ngữ với ngữ nghĩa phong phú hơn. Điều này cho thấy, mơ hình BERT mở rộng khả năng của các phương pháp trước đây.

PhoBERT là mơ hình huấn luyện trước dành riêng cho tiếng Việt. PhoBERT huấn luyện dựa trên kiến trúc và cách tiếp cận giống RoBERTa [28] của Facebook, được Facebook giới thiệu giữa năm 2019. Tương tự như BERT, PhoBERT cũng cĩ hai phiên bản là PhoBERT base với 12 transformers block và PhoBERT Large với 24 transformers block.

Hiện nay BERT đã được ứng dụng rất rộng rãi trong các bài tốn NLP như tĩm tắt văn bản [29], phân tích sắc thái [30,31], phân biệt đối thoại [32],…. Ngồi PhoBERT đã được huấn luyện cho tiếng Việt, BERT cũng đã được fine- tuning trên nhiều ngơn ngữ khác nhau như tiếng Đức [33], Ả rập [34], Pháp [35], Tây Ban Nha [36]….

2.2.1 6 Một số phương pháp trích chọn đặc trưng khác

Bên cạnh những đặc trưng đã nêu ở trên, cịn nhiều các đặc trưng khác và phương pháp biểu diễn từ khác bổ trợ cho việc xác định nội dung bài viết, bình luận mang tính chất phản động hay khơng. Tuy nhiên do sự phức tạp trong tính tốn cũng như khĩ khăn trong việc phân tích, đánh giá, kết hợp vào mơ hình, tơi khơng sử dụng những đặc trưng này như một phần trong xây dựng vector đặc trưng của bài viết, bình luận. Một số đặc trưng cĩ thể kể đến như:

2.2.1.6 1 Một số đặc trưng khác

(1) Đặc trưng về ngữ cảnh:

Việc sử dụng đặc trưng về ngữ cảnh đã được áp dụng để giải quyết nhiều bài tốn liên quan đến ngơn ngữ tự nhiên [37-38]. Một văn bản là phản động hay bình thường cĩ thể phụ thuộc nhiều vào yếu tố thế giới xung quanh văn bản. Do đĩ việc phát hiện nội dung phản động cĩ thể dựa vào việc phân tích các thơng tin khơng liên quan trực tiếp đếnngơn ngữ.

Khi cĩ các thơng tin về ngữ cảnh, cĩ thể phán đốn, suy luận về tính chất của văn bản.Các yếu tố ngữ cảnh được xét đến cĩ thể bao gồm:

- Văn bản thuộc lĩnh vực gì? Cĩ sự kiện gì xoay quanh? - Thời điểm xuất bản.

- Ngơn ngữ (ở đây là tiếng việt).

- Vị trí địa lý (thơng thường những đối tượng viết nội dung phản động đều

cĩ đ a chỉ đăng ký tại Mỹ, Pháp, Đức và nhiều nước châu Âu khác). Số cịn lại

vẫn cĩ thể ở trong nước nhưng thường tạo nick ảo, khơng cĩ thơng tin thật. (2) Đặc trưng về sắp xếp tiếng Việt:

Các mục từ (đơn v từ vựng) trong từ điển tiếng Việt được xếp theo thứ tự các chữ cái: a ă â b c d đ e ê g h i j k l m n o ơ ơ p q r s t u ư v x y,và theo các dấu giọng: khơng dấu, huyền, hỏi, ngã, sắc, nặng. Cĩ thể cụ thể hố hai quy tắc trên bằng trật tự như sau: a à ả ã á ạ ă ằ ẳ ẵ ắ ặ â ầ ẫ ấ ậ b c d đ e è ẻ ẽ é ẹ ê ề

ể ễ ế ệ g h i ì ỉ ĩ í j k l m n o ị ỏ õ ĩ ọ ơ ồ ổ ỗ ố ộ ơ ờ ở ỡ ớ ợ p q r s t u ù ủ ũ ú ụ ư ừ ử ữ ứ ự v x y ỳ ỷỹ ý ỵ.

Đơn vị căn cứ để sắp xếp là từng khối viết liền (tổ hợp các con chữ), đơn tiết hoặc đa tiết, tính từ trái sang phải, khối chữ viết thường xếp trước khối chữ viết hoa, khối chữ nào cĩ ít con chữ hơn (thường là âm tiết) luơn xếp trước khối chữ (cĩ phần trùng với khối chữ cĩ ít con chữ) cĩ nhiều chữ hơn. Ví dụ a (đơn v

đo diện tích) xếp trước A (kí hiệu viết tắt của Ampere); cha xếp trước

chan. Ngồi ra, tiếng Việt ưu tiên trật tự chữ cái trước, sau mới đến thanh điệu trong khi sắp xếp.

2.2.1.6 2 Một số phương pháp biểu diễn từ khác

(1) One-hot vector:

Trong các ứng dụng về NLP, học máy,... các thuật tốn khơng thể nhận được đầu vào là chữ với dạng biểu diễn thơng thường. Để máy tính cĩ thể hiểu được, ta cần chuyển các từ trong ngơn ngữ tự nhiên về dạng mà các thuật tốn cĩ thể hiểu được (dạng số). Một kỹ thuật đơn giản nhất được sử dụng là One-hot vector (1-of-N) [14]. Để chuyển đổi ngơn ngữ tự nhiên về dạng 1-of-N, cần tiến hành xây dựng một bộ từ vựng. Mỗi vector đại diện cho một từ cĩ số chiều bằng số từ trong bộ từ vựng. Trong đĩ, mỗi vector chỉ cĩ một phần tử duy nhất khác 0 (bằng 1) tại vị trí tương ứng với vị trí từ đĩ trong bộ từ vựng. Tuy nhiên, phương pháp này lại để lộ ra những điểm hạn chế vơ cùng lớn: Thứ nhất, độ dài của vector là quá lớn (Ví dụ: Corpus Size(74M), Vocabulary size(10K) - theo

Vietwiki); Thứ hai, phương pháp này khơng xác định được sự tương quan ý

nghĩa giữa các từ do tích vơ hướng của 2 từ bất kì đều bằng 0 dẫn đến độ tương đồng cosin giữa 2 từ bất kì luơn bằng 0.

(2) Word2vec:

Năm 2013, Tomas Mikolov- một kỹ sư đang làm tại Google, đã giới thiệu một mơ hình mới cĩ thể giải quyết tốt các vấn đề trên, mơ hình được sử dụng tốt cho đến ngày nay và được gọi là mơ hình Word2vec [40]. Thay vì đếm và xây dựng ma trận đồng xuất hiện, Word2vec học trực tiếp word vector cĩ số chiều thấp trong quá trình dự đốn các từ xung quanh mỗi từ. Đặc điểm của phương pháp này là nhanh hơn và cĩ thể dễ dàng kết hợp một câu văn bản mới hoặc thêm vào từ vựng.

Word2vec là một mạng nơ-ron 2 lớp với duy nhất 1 tầng ẩn, lấy đầu vào là một corpus lớn và sinh ra khơng gian vector (với số chiều khoảng vài trăm), với mỗi từ duy nhất trong corpus được gắn với một vector tương ứng trong khơng gian. Các word vector được xác định trong khơng gian vector sao cho những từ cĩ chung ngữ cảnh trong corpus được đặt gần nhau trong khơng gian. Dự đốn chính xác cao về ý nghĩa của một từ dựa trên những lần xuất hiện trước đây.

Cĩ 2 phương pháp chính được sử dụng trong q trình xây dựng Word2vec: - Sử dụng ngữ cảnh để dự đốn mục tiêu (Continuous Bag of Word -

CBOW).

- Sử dụng một từ để dự đốn ngữ cảnh mục tiêu (skip-gram) (cho kết quả

tốt hơn với dữ liệu lớn).

Mơ hình chung của Word2vec (cả CBOW và Skip-gram) đều dựa trên 1 mạng nơ-ron khá đơn giản. Gọi V là tập tất cả các từ hay vocabulary với n từ khác nhau. Layer input biểu diễn dưới dạng one-hot encoding với n node đại diện cho n từ trong vocabulary. Activation function (hàm kích hoạt) chỉ cĩ tại layer cuối là softmax function, loss function là cross entropy loss, tương tự như cách biểu diễn mơ hình của các bài tốn phân lớp thơng thường vậy. Ở giữa 2 layer input và output là 1 layer trung gian với size = k, chính là vector sẽ được sử dụng để biểu diễn các từ sau khi huấn luyện mơ hình. Ta sẽ sử dụng từ ở giữa (target word hoặc center word) cùng với các từ xung quanh nĩ (context words) để mơ hình thơng qua đĩ sẽ tiến hành huấn luyện, cùng với đĩ, quy định 1 tham số c hay window là việc sử dụng bao nhiêu từ xung quanh, gồm 2 bên trái, phải của target word.

Mơ hình chung của Word2Vec

Tham số C tốt nhất