Mơ hình véc-tơ Paragraph học biểu diễn câu, đoạn h- 123docz.net

4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh

2.5 Mơ hình véc-tơ Paragraph học biểu diễn câu, đoạn hoặc cả văn bản [2]

qua kết quả thực nghiệm, các tác giả đã chỉ ra rằng mơ hình véc-tơ Paragraph đạt được kết quả thực hiện tốt hơn các mơ hình trước đó trong bài tốn phân loại văn bản và phân tích ngữ nghĩa.

Các thuật toán phân loại truyền thống như SVMs (support vector machines) hay phân cụm như k-mean yêu cầu tập dữ liệu văn bản đầu vào biểu diễn dưới dạng các véc-tơ có độ dài cố định (fixed length vector). Các véc-tơ này thường được biểu diễn dựa trên các mơ hình biểu diễn phổ biến, nhưbag-of-wordsvà bag-of-n-grams. Trong đó, mơ hình Bag-of-wordscó điểm yếu là khơng bắt được ngữ nghĩa của các từ, cũng như mối quan hệ giữ các từ. Mơ hìnhBag-of-n-gramschỉ xem xét được ngữ cảnh ngữ nghĩa giữa các từ ở mức ngắn (short context) và không tốt khi gặp loại dữ liệu thưa thớt và có thể tạo ra số chiều của véc-tơ biểu diễn là rất lớn.

Trong mơ hình véc-tơ Paragraph, các từ được ánh xạ từ các véc-tơone-hotgiống như mơ hình Word2Vec. Nhưng khác là, đối với mỗi câu, đoạn văn hoặc cả văn bản cũng sẽ được kết nối tới một véc-tơone-hot. Các véc-tơ từ được giả thiết nằm trong các cột của

ma trậnW, và các véc-tơ mỗi câu, đoạn văn/cả văn bản nằm trong các cột của ma trận

So sánh với mơ hình Word2Vec thì mơ hình véc-tơ Paragraph có thay đổi là các véc- tơ biểu diễn câu, đoạn văn (hoặc cả văn bản, sau đây sẽ gọi chung là đoạn văn) được nối với các véc-tơ từ để dự đoán từ kế tiếp trong một ngữ cảnh của nó. Ngữ cảnh được cố định độ dài và lấy mẫu từ một cửa sổ trượt trên một câu và đoạn văn. Các véc-tơ câu và đoạn văn được chia sẻ cho tất cả các cửa sổ được tạo ra từ cùng một câu và đoạn văn, nhưng việc làm này khơng bao gồm tồn bộ các câu và đoạn văn. Ngược lại, véc-tơ từ được chia sẻ thông tin trên tất cả các câu và đoạn văn.

Trong mơ hình véc-tơ Paragraph, câu hoặc đoạn văn được xem như là một từ khác. Nó hoạt động như một bộ nhớ để ghi nhớ những gì cịn thiếu trong ngữ cảnh hiện tại. Vì lý do này, mơ hình Paragraph được gọi là mơ hình bộ nhớ phân phối của câu và đoạn

Hình 2.6: Minh họa mơ hình túi từ phân phối của các véc-tơ Paragraph [2]

văn (Distributed Memory Model of Paragraph Vectors (PV-DM)). Hình 2.5 là một minh họa của PV-DM.

Tại mỗi bước trong việc huấn luyện, chúng ta có một ngữ cảnh có chiều dài cố định được lấy mẫu từ một đoạn văn ngẫu nhiên và được sử dụng để tính tốn độ lệch lỗi để cập nhật lại các trọng số trong mơ hình. VớiN đoạn mỗi ánh xạ tới pchiều vàMtừ mỗi ánh xạ tớiqchiều, mơ hình này cóN.p+M.qtham số (không bao gồm các tham số của hàmsoftmaxđược sử dụng trong tầng phân lớp ở đầu ra).

Sau khi mơ hình véc-tơ Paragraph đã được huấn luyện, các véc-tơ Paragraph (gồm các véc-tơ biểu diễn câu và đoạn văn) có thể được sử dụng như là các đặc trưng cho các đoạn văn trong bất kỳ công việc nào của lĩnh vực xử lý ngôn ngữ ngữ tự nhiên. Đối với một đoạn văn mới, để tính tốn véc-tơ Paragraph biểu diễn cho nó (giả thiết rằng đoạn văn này chưa được tham gia trong pha huấn luyện trước đó) chúng ta cần phải thêm một cột véc-tơ mới trong ma trậnD, sau đó các tham số của mơ hình (gồm ma trậnW, và ma trận trọng số softmaxU và véc-tơ độ lệchb) được giữ cố định và chúng ta cần thực

hiện tiếp các phép toán đạo hàm để cập nhật lại các véc-tơ trong ma trậnD. Cuối cùng

véc-tơ của đoạn văn mới cũng được sinh ra trong ma trậnD.

Một phiên bản đáng chú ý của mơ hình PV-DM là mơ hình túi từ phân phối (Dis-

tributed Bag of Words version of Paragraph Vector (PV-DBOW)), nó thực hiện bỏ qua

tất cả các từ ngữ cảnh trong các đoạn văn đầu vào, nó dự đốn từ bằng cách lấy mẫu ngẫu nhiên từ đoạn văn ở đầu ra. Trong thực tế, mỗi lần lặp lại trong thuật toán học giảm

gradientngẫu nhiên (tochastic gradient descent), chúng ta lấy mẫu một cửa sổ văn bản, sau đó lấy mẫu một từ ngẫu nhiên từ cửa sổ văn bản và tạo thành một nhiệm vụ phân lớp cho véc-tơ đoạn văn. Mơ hình PV-DBOW được minh họa trong Hình 2.6. Trong thực nghiệm, mơ hình PV-DM thực hiện cho kết quả tốt hơn so với mơ hình PV-DBOW, nhưng khi kết hợp cả hai mơ hình PV-DM và PV-DBOW kết quả thực hiện đạt được ở mức tốt nhất. Kỹ thuậtsoftmax phân cấp được sử dụng cho các thuật toán huấn luyện nhưng dưới dạng là một cây Huffman nhị phân [86].

2.3.4 Mơ hình mạng nơ-ron tích chập CNN

Mơ hình mạng CNN lần đầu được giới thiệu vào năm 1988 bởi Lecun và các cộng sự [87]. CNN là một mơ hình học sâu có giám sát, gồm một số tầng tích chập kết hợp với các hàm kích hoạt phi tuyến (nonlinear activation function) nhưReLUhayTanhđể tạo ra thông tin trừu tượng hơn (abstract/higher-level) cho các tầng tiếp theo, từng tầng tích chập tương ứng với một vài bộ lọc (filter) tích chập được áp dụng học đặc trưng (feature) cho đối tượng đầu vào được tốt hơn. Trong phần này, đầu tiên chúng tơi trình bày về phép tốn tích chập trên ma trận cho một câu đầu vào. Sau đó, để dễ minh họa mơ hình CNN, chúng tơi trình bày mơ hình phân lớp mức câu sử dụng CNN.

Tích chập (Convolution) trong ma trận câu

Trong lĩnh vực xử lý ngôn ngữ tự nhiên mức câu, khi áp dụng mơ hình CNN thì cơng việc đầu tiên của mơ hình mạng CNN phải thực hiện là phép tốn tích chập trên ma trận câu. Giả sử chúng ta có một ma trậnAmxn biểu diễn cho một câu gồm cómtừ, từng hàng biểu diễn cho một véc-tơ từ -nchiều thuộc câu đó. Khi đó, về hình thức, chúng ta có thể xem tích chập như một cửa sổ trượt (sliding window) whxk áp dụng lên ma trậnAmxn, điều kiệnh<m.

Hình 2.7 bên dưới minh họa cho một câu gồm 7 từ, kích thước véc-tơ từ là 5, có 6 loại cửa sổ trượt trên ma trận từ này, trong đó 2 loại cùng kích thước2x5, 2 loại cùng kích thước3x5và 2 loại cùng kích thước4x5. Để tạo ra ma trận kích thước5x5, cửa sổ 2x5trượt mỗi lần 2 dòng trên ma trận bên tay trái. Ma trận kích thước3x5được tạo bởi cửa sổ3x5trượt mỗi lần 3 dịng trên ma trận bên trái. Ma trận kích thước2x5được tạo bởi cửa sổ4x5trượt mỗi lần 4 dòng trên ma trận bên trái.

Mơ hình véc-tơ Paragraph học biểu diễn câu, đoạn hoặc cả văn bản [2]

Nghiên cứu trên thế giới và Việt nam

Minh họa tích chập trong ma trận câu