3 TRÍCH RÚT THÔNG TIN VĂN BẢN BẰNG DEEP TRANS-
3.5 Mô tả dữ liệu
Với bài toán trích rút thông tin thực thể được đề cập chi tiết ở mục 1.2 ở chương này chúng ta sẽ mô tả dữ liệu. Dữ liệu được lấy từ mô tả tờ khai hải quan về ô tô và phương tiện không phải chạy trên đường sắt đường thủy bao gồm các bản ghi bằng tiếng Việt có số lượng từ trong mỗi đoạn hoặc mỗi câu trong hình dưới đây.
Hình 3.8: Thống kê số lượng từ trong mỗi đoạn/ câu
Cần nói thêm dữ liệu này được lấy từ các bản ghi trong năm 2015 và 2017 và một vài tháng đầu năm 2020 và mặt hàng chủ yếu các phương tiện là xe ô tô. Chúng ta sẽ tiến hành tiền xử lý dữ liệu.
Tiền xử lý làm sạch dữ liệu
Đối với dữ liệu là văn bản từ các bản ghi mô tả hàng hóa, tác giả xây dựng một số biểu thức chính quy để làm sạch dữ liệu:
• Xóa bỏ các kí tự “#&” đứng liền vào các mô tả và thay bằng khoảng trống.
• Loại bỏ các khoảng trống dư thừa và các kí tự nhập lỗi trong mô tả.
• Thêm khoảng trống cho các từ bị liền vào nhau do lỗi nhập. ví dụ như hình 3.9 các mô tả hàng hóa ở dòng 3 và dòng 4. Các cụm từ “ôtô”, “ôtôcon” bị viết dính vào nhau, hay như “4cửa”, chúng sẽ được thêm các khoảng trống để ngăn cách giữa các từ.
Hình 3.9: Các mô tả hàng hóa
Bóc tách thông tin
Với dữ liệu từ mô tả hàng hóa trong tờ khai hải quan như ở hình ??, chúng ta tiến hành bóc tách theo các nhãn thực thể sau:
Nhãn thực thể Mô tả
BRAND Tên thương hiệu xe Ví dụ:Mercedes,Honda
TYPE Loại xe
Ví dụ:ô tô con,ô tô tải
NAME Tên của xe, hay tên mô den (model)
GLS400 4Matic,maybach s600
ENGINE FULE TYPE
loại động cơ và nhiên liệu trong việc lựa chọn xe
Ví dụ:xăng, textitdiezel YEAR Năm phát hành của xe
Ví dụ: Xe CRV 2021 thì tag YEAR là2021 STATUS Tình trạng xe Ví dụ:đã qua sử dụng chưa qua sử dụng mới 100% Bảng 3.1: Bảng mô tả nhãn dữ liệu
Sau được bóc tách thông tin ra sẽ có dạng như hình 3.10. Với từng mô tả sẽ có các thông tin tương ứng.
Hình 3.10: Mô hình đề xuất của tác giả cho bài toán phân loại phân cấp mã hải quan từ mô tả hànghóa hóa
Như đã giới thiệu ở phần 1.2. Dữ liệu được gán theo mô hình B-I-O. Với những mô tả và thông tin của mô tả được trích ra như ở hình 3.10, chúng ta tiến hành gán nhãn BIO như trong hình 3.11, vớiWordlà từ,Tag là nhãn thực thể tương ứng với Word, Sentence # là vị trí của word nằm trong câu nào.
Hình 3.11: Ví dụ về gán theo B-I-O
Với dữ liệu được mô tả như ở mục 3.1, tác giả xin được mô tả lại: dữ liệu bao gồm 11775 bản khai hải quan về ô tô, phương tiện giao thông không chạy trên đường biển, đường hàng không và đường sắt thu thập trong năm 2015, 2017 và một vài tháng đầu năm 2020. Tác giả sẽ chia dữ liệu với tỉ lệ 8:2 với 80% dữ liệu để huấn luyện (train) và 20% dữ liệu để kiểm tra (test). Cùng một mức thiết lập với toàn bộ các mô hình thực nghiệm là learningrate = 5×10−5, số lần lặp
epochs= 20.