3 TRÍCH RÚT THÔNG TIN VĂN BẢN BẰNG DEEP TRANS-
3.6 Mô hình Baseline
Như đã đề cập ở phần 3.1, tác giả sẽ xây dựng một mô hình baseline từ ban đầu. Với ý tưởng là để biểu diễn ký các từ trong một mô tả hàng hóa, chúng ta sẽ sử dụng 1 lớp bi-LSTM [21] để biểu diễn. Theo hình 3.8, trong một câu có từ 25 đến 75 từ là chủ yếu. Với số lượng từ đó, chúng ta sẽ sử dụng thêm cơ chế attention (như đã đề cập ở mục 3.3.1) với ý tưởng sơ khai nhất là mong mô hình
mà chúng ta xây dựng từ đầu sẽ chú ý vào cách thành phần quan trọng mang thông tin trong mô tả hàng hóa thay vì toàn bộ câu. Hình 3.12 là sơ đồ mô hình baseline của chúng ta.
Hình 3.12: Kiến trúc mô hình Baseline
Như trong hình 3.12, ta có các tham số n= 200, chúng ta tiến hành huấn luyện mô hình với learningrate và epochs như ở mục trước. Tuy nhiên, vì đây là mô hình baseline dưng từ đầu, nên ta sẽ tăng epochs lên 50 để xem mô hình hội tụ sau bao nhiêu epochs.
Sau 40 epochs mô hình hội tụ với kết quả như ở bảng sau:
Tên trường Số lượng Precision Recall F1-Score
BRAND 1136 0.01 0.01 0.01
ENGINE FULE TYPE 865 0.84 0.45 0.58
NAME 445 0.67 0.53 0.59 STATUS 1904 0.55 0.58 0.57 TYPE 1121 0.87 0.90 0.88 YEAR 1093 0.00 0.00 0.00 Micro avarage 0.45 Macro avarage 0.44
Từ bảng kết quả 3.2, ta thấy ngoại trừ trường BRAND và YEAR ra, các trường khác có kết quả tạm ổn, micro f1-score, macro f1-score chỉ ở mức thấp. Mô hình đạt kết quả như này, chúng ta chưa thể sử dụng được ngay, mà còn cần cải thiện mô hình, xử lý lại dữ liệu, tăng/giảm độ sâu của mô hình, .... Đây là những điều bình thường mà chúng ta phải đối mặt khi chúng ta xây dựng một mạng học sâu (deep neural network).
Thay vì tìm cách cải thiện mô hình Baseline, tác giả sẽ thử vẫn bộ dữ liệu này, áp dụng deep transfer learning cho mô hình BERT.