Ứng dụng phân loại văn bản có phân cấp vào việc xác định loại hàng hóa

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Ứng dụng phân loại văn có phân cấp vào việc xác định loại hàng hóa PHẠM NGỌC LINH phamngoclinh96th@gmail.com Ngành: Toán Tin Giảng viên hướng dẫn: TS Trần Ngọc Thăng Viện: Toán ứng dụng Tin học HÀ NỘI, 05/2021 Chữ kí GVHD CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Phạm Ngọc Linh Đề tài luận văn: Ứng dụng phân loại văn có phân cấp vào việc xác định loại hàng hóa Chun ngành: Tốn Tin Mã số HV: CB190318 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 24/04/2021 với nội dung sau: - Sửa lại lỗi tả lỗi chế - Bổ sung thêm thông tin mô tả đặc trưng liệu - Bổ sung thêm thơng tin huấn luyện mơ hình Ngày Giáo viên hướng dẫn tháng năm Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG SĐH.QT9.BM11 Ban hành lần ngày 11/11/2014 TÓM TẮT NỘI DUNG LUẬN VĂN Phân loại văn toán lĩnh vực trí tuệ nhân tạo nói chung hay xử lý ngơn ngữ tự nhiên nói riêng Bài tốn phân loại văn có phân cấp tốn phân loại văn với tập nhãn đầu tổ chức dạng cấu trúc phân cấp Học chuyển tiếp phương pháp lĩnh vực máy học, với ý tưởng sử dụng kiến thức lưu trữ trình giải vấn đề trước áp dụng vào vấn đề khác có liên quan Các mơ hình dựa học chuyển tiếp giúp gia tăng hiểu biết cách xếp từ ngữ câu văn theo ngữ nghĩa, giúp cho thời gian huấn luyện mơ hình sau cải thiện cách đáng kể BERT mơ hình tiền huấn luyện dùng để học véc-tơ đại diện theo ngữ cảnh hai chiều từ, sử dụng để học chuyển tiếp sang tốn khác lĩnh vực xử lý ngơn ngữ tự nhiên Trong tốn phân loại có phân cấp, việc tận dụng đến tính phân cấp nhãn có ý nghĩa lớn dự đốn Trong nội dung luận văn này, tác giả đề xuất phương pháp tính tốn hàm mát nhằm biểu diễn ràng buộc nhãn phân cấp từ cải thiện kết so với mơ hình phân loại thông thường Các thử nghiệm thực liệu thông tin mô tả sản phẩm trang thương mại điện tử Song song với việc thử nghiệm mơ hình đề xuất, tác giả thực thử nghiệm mơ hình đơn giản sử dụng phương pháp đặc trưng truyền thống mơ hình học sâu đại BERT nhằm so sánh hiệu suất mơ hình Từ khóa: Dữ liệu phân cấp, Học chuyển tiếp, Xử lý ngôn ngữ tự nhiên, BERT, Transformers Hà Nội, ngày 27 tháng 03 năm 2021 Giáo viên hướng dẫn HỌC VIÊN Kí ghi rõ họ tên Kí ghi rõ họ tên LỜI CẢM ƠN Lời đầu tiên, tác giả xin bày tỏ lòng biết ơn chân thành sâu sắc tới TS Trần Ngọc Thăng, người tận tình hướng dẫn, giúp đỡ động viên tác giả suốt trình thực luận văn Tác giả xin trân trọng cảm ơn Viện Toán ứng dụng Tin học, Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi cho tác giả trình học tập nghiên cứu Xin cảm ơn thầy cô, bạn sinh viên, học viên cao học Viện Toán ứng dụng Tin học giúp đỡ, trao đổi tác giả kiến thức kinh nghiệm quý báu để giúp cho luận văn hoàn thiện Tác giả xin gửi lời cảm ơn chân thành tới đồng nghiệp công ty An Ninh Mạng Viettel hỗ trợ tác giả trình làm việc tạo điều kiện cho tác giả thời gian nghiên cứu thực đề tài Cuối cùng, tác giả xin kính tặng người thân yêu niềm hạnh phúc vinh dự to lớn này! Mục lục DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU BẢNG KÍ HIỆU VÀ CÁC TỪ NGỮ VIẾT TẮT LỜI NÓI ĐẦU CƠ SỞ LÝ THUYẾT 1.1 Máy học 1.2 Mạng nơ ron 1.2.1 Cấu trúc mạng nơ-ron 1.2.2 Hàm mát 1.2.3 Huấn luyện mạng nơ-ron 1.3 Xử lý ngôn ngữ tự nhiên 1.3.1 Bag of words 1.3.2 Mơ hình ngơn ngữ 1.3.3 Kỹ thuật nhúng từ 1.4 Học chuyển tiếp MƠ HÌNH BERT CHO BÀI TỐN PHÂN LOẠI PHÂN CẤP 2.1 Bài tốn phân loại văn có phân cấp ứng dụng 2.1.1 Bài tốn phân loại văn có phân cấp 2.1.2 Ứng dụng toán thương mại điện tử 2.2 Mơ hình BERT 2.2.1 Cơ chế Attention 2.2.2 Multi-head Attention 2.2.3 Kiến trúc Transformer 2.3 Tiền huấn luyện BERT 2.3.1 Biểu diễn liệu đầu vào 7 8 10 11 12 12 15 16 17 19 19 19 20 22 23 24 25 27 27 2.4 2.3.2 Mơ hình ngơn ngữ mặt nạ (Masked ML) 2.3.3 Mơ hình dự đốn câu (Next Sentence Mơ hình đề xuất 2.4.1 Phân loại văn với BERT 2.4.2 Mơ hình BERT với hàm mát nhiều tầng THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Dữ liệu huấn luyện 3.2 Phương pháp đánh giá 3.3 Thực nghiệm KẾT Prediction) 28 29 29 29 30 QUẢ 34 34 39 40 KẾT LUẬN 44 TÀI LIỆU THAM KHẢO 44 PHỤ LỤC 46 A Công bố khoa học liên quan 47 DANH MỤC HÌNH VẼ 1.1 1.2 1.3 1.4 1.5 Tính tốn nơ-ron Mơ hình mạng nơ-ron nhiều lớp ẩn Thuật toán hướng giảm gradient Véc tơ nhúng từ Học chuyển tiếp 11 16 17 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 Phân cấp danh mục thú cưng Danh mục sản phẩm tiki Danh mục sản phẩm shopee Attention Attention nhiều đầu Kiến trúc transformer Tiền huấn luyện tinh chỉnh BERT Biểu diễn đầu vào BERT Mơ hình phân loại văn với BERT Hàm mát nhiều tầng 19 20 21 23 24 25 27 28 30 31 3.1 3.2 Thuộc tính sản phẩm trang tiki Máy tính macbook 34 35 DANH MỤC BẢNG BIỂU 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 Số lượng danh mục sản phẩm tiki vào tháng 11/2020 Số lượng danh mục sản phẩm tiki có nhiều 20 sản phẩm Số lượng danh mục nằm tập train test Cấu trúc số lượng nhãn nằm tập train test (1) Cấu trúc số lượng nhãn nằm tập train test (2) Đánh giá mơ hình với nhãn danh mục cấp Đánh giá mơ hình với nhãn danh mục cấp Đánh giá mơ hình với nhãn danh mục cấp Đánh giá mơ hình với nhãn danh mục cấp Đánh giá độ xác top k mơ hình cấp thứ 35 36 36 37 38 41 41 41 42 42 BẢNG KÍ HIỆU VÀ CÁC TỪ NGỮ VIẾT TẮT TF-IDF Term Frequency – Inverse Document Frequency 13, 14, 15 MLP Mạng nơ-ron nhiều lớp - Multilayer Perceptron LM Mô hình ngơn ngữ - Language Model 15 BERT Bidirectional Encoder Representations from Transformers 6, 22 NLP Xử lý ngôn ngữ tự nhiên - National language processing 12 LỜI NÓI ĐẦU Bài toán phân loại tốn tốn học máy thơng thường, mà đối tượng đầu vào gán với nhiều nhãn đầu Tuy nhiên số trường hợp, nhãn liệu tổ chức dạng cấu trúc có phân cấp ta gọi hierarchical classification (HC) Cấu trúc phân cấp biểu diễn dạng đồ thị có hướng khơng chứa chu trình Directed Acyclic Graph (DAG) Việc dự đoán nhãn đối tượng phải thỏa mãn điều kiện ràng buộc phân cấp cấu trúc nhãn Phân loại phân cấp có nhiều ứng dụng lĩnh vực khác phân loại hình ảnh, tìm kiếm danh mục văn bản, Trong nội dụng luận văn, tác giả trình bày nghiên cứu tốn phân loại văn phân cấp ứng dụng vào việc phân loại hàng hóa vào danh mục tương ứng Nội dung luận văn gồm có phần: • Chương 1: Trình bày kiến thức học máy số phương pháp, kỹ thuật xử lý ngôn ngữ tự nhiên • Chương 2: Trình bày mơ hình BERT phương pháp tính tốn giá trị hàm mát có sử dụng ràng buộc cấu trúc phân cấp nhãn tác giả đề xuất • Chương 3: Trình bày kết thực nghiệm mơ hình đề xuất liệu trang web thương mại điện tử thực tế Luận văn hoàn thành chương trình Thạc sĩ Khoa học ngành Tốn tin Viện Toán ứng dụng Tin học, Đại học Bách Khoa Hà Nội hướng dẫn TS Trần Ngọc Thăng Mặc dù hoàn thành với nhiều cố gắng hạn chế thời gian kinh nghiệm, luận văn tránh khỏi sai sót Tác giả mong nhận ý kiến đóng góp q báu từ thầy bạn học viên để luận văn hoàn thiện LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH Ở bước dự đoán kết ta thực dự đoán nhãn liệu đầu vào từ cấp thứ đến cấp thứ k Tập nhãn cấp thứ toàn nhãn cấp thứ nên L1 = C1 Tập nhãn cấp thứ nhãn kết dự đoán cấp thứ L2 Lặp lại cấp thứ k ta có nhãn liệu tất cấp đảm bảo ràng buộc cha nhãn liệu 33 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Dữ liệu huấn luyện Dữ liệu dùng để đánh giá mơ hình liệu mơ tả sản phẩm tác giả thu thập từ trang web https://tiki.vn Đây trang web bán hàng điện tử lớn Việt Nam với số lượng sản phẩm lớn đa dạng bao gồm đồ điện tử, điện máy đến đồ gia dụng, vật dùng ngày, Công cụ dùng để thu thập liệu tác giả viết ngôn ngữ python sử dụng thư viện selenium BeautifulSoup Hình 3.1: Thuộc tính sản phẩm trang tiki Dữ liệu thu thập chứa thông tin liên quan đến sản phẩm hình ảnh, mơ tả ngắn, mơ tả đầy đủ, sản phẩm Mặc dù tất thơng tin có ý nghĩa lớn dùng để xác định loại sản phẩm Tuy nhiên nội dung luận văn này, ta tập trung vào việc xác định loại sản phẩm dựa vào mô tả sản phẩm đó, cụ thể thơng tin trường "short_description" 34 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH Hình 3.2: Máy tính macbook Với sản phẩm ta sử dụng thông tin mô tả đầu vào mơ hình, cịn đầu hay nhãn mơ hình tên danh mục sản phẩm Ví dụ máy tính Macbook Pro 2020 M1 thuộc danh mục "Laptop - Máy Vi Tính - Linh kiện" -> "Laptop" -> "Macbook" Danh mục tổ chức dạng nhiều cấp nên ta xây dụng tập nhãn theo nhiều cấp Cụ thể máy tính Macbook Pro 2020 M1 có nhãn cấp "Laptop - Máy Vi Tính - Linh kiện", nhãn cấp "Laptop", nhãn cấp "Macbook" Các thông số liệu đưa luận văn tác giả thực thu thập thống kê vào tháng 11/2020 Dữ liệu sau thu thập bao gồm 11489 sản phẩm với độ sâu danh mục tối đa cấp, số lượng nhãn cấp Cấp Số nhãn 25 162 905 1881 2043 2047 Bảng 3.1: Số lượng danh mục sản phẩm tiki vào tháng 11/2020 Do liệu crawler có nhiễu nên ta lọc bỏ nhãn có số lượng nhỏ 20 sản phẩm lại 103587 sản phẩm với cấp nhãn có số lượng sau: 35 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH Cấp Số nhãn 14 116 549 948 985 Bảng 3.2: Số lượng danh mục sản phẩm tiki có nhiều 20 sản phẩm Do số lượng nhãn cấp thứ cấp thứ tương đương nên nội dung phần đánh giá ta xét đến cấp thứ nhãn với số lượng nhãn cấp 14, 116, 549, 948 Dữ liệu cuối thu gồm có 103587 sản phẩm với 948 nhãn Do số lượng liệu tương đối lớn nên ta không cần sử dụng phương pháp cross validation để đánh giá mơ hình mà ta chia liệu thành tập train test với số lượng tương ứng 60000 43587 sản phẩm Số lượng sản phẩm danh mục cho bảng sau Danh mục train test Bách Hóa Online 5732 4098 Ơ Tô - Xe Máy - Xe Đạp 5539 4020 Điện Gia Dụng 5521 4136 Thiết Bị Số - Phụ Kiện Số 5501 3970 Thể Thao - Dã Ngoại 5463 3823 Máy Ảnh - Máy Quay Phim 5426 3908 Nhà Sách Tiki 5219 3844 Làm Đẹp - Sức Khỏe 4997 3795 Đồ Chơi - Mẹ & Bé 4615 3386 Nhà Cửa - Đời Sống 4494 3216 Điện Tử - Điện Lạnh 4045 2916 Voucher - Dịch vụ 2831 2069 Laptop - Máy Vi Tính - Linh kiện 360 235 Điện Thoại - Máy Tính Bảng 257 171 Bảng 3.3: Số lượng danh mục nằm tập train test Do số lượng nhãn danh mục lớn (hơn 900 danh mục cấp 4) nên sau tác giả nêu số lượng số danh mục có số lượng nhiều 36 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH Danh mục Train Test Bách Hóa Online 5732 4098 | + Thực phẩm 1176 857 | | + Thực phẩm khô 960 701 | | | + Thực phẩm ăn liền 408 277 | | | + Hạt, củ, khô 393 322 | | | + 159 102 Ơ Tơ Xe Máy Xe Đạp 5539 4020 | + Phụ kiện Chăm sóc xe 5244 3771 | | + Phụ kiện ô tô 1689 1179 | | | + Phụ kiện nội thất ô tô 1069 771 | | | + Phụ kiện ngoại thất ô tô 611 402 | | | + Điện Gia Dụng 5521 4136 | + Đồ dùng nhà bếp 3267 2406 | | + Nồi điện loại 822 652 | | | + Nồi cơm điện 349 308 | | | + Nồi chiên 199 128 | | | + 274 216 Máy Ảnh Máy Quay Phim 5426 3908 | + Phụ Kiện Máy Ảnh, Máy Quay 1959 1401 | | + Phụ Kiện Máy Ảnh, Máy Quay Khác 756 532 | | + Pin Sạc Máy Ảnh, Máy Quay 283 190 | + Camera Giám Sát 1736 1229 | | + Camera IP 1114 777 | | + Camera Quan Sát Analog 245 154 Thiết Bị Số Phụ Kiện Số 5501 3970 | + Phụ Kiện Điện Thoại Máy Tính Bảng 2795 1975 | | + Bao Da Ốp Lưng 1072 774 | | | + Bao Da Ốp Lưng Điện Thoại iPhone 329 247 | | | + Bao Da Ốp Lưng Điện Thoại Samsung 312 217 | | | + 431 310 | + Thiết Bị Âm Thanh Phụ Kiện 1203 909 | | + Loa Nghe Nhạc 427 333 | | | + Loa Bluetooth 257 179 | | | + 170 154 Bảng 3.4: Cấu trúc số lượng nhãn nằm tập train test (1) 37 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH Danh mục Train Test Thể Thao Dã Ngoại 5463 3823 | + Phụ kiện thể thao 765 538 | | + Phụ kiện thể thao khác 263 188 | | | + 145 135 Nhà Sách Tiki 5219 3844 | + Sách tiếng Việt 4592 3354 | | + Sách văn học 1109 787 | | | + Truyện ngắn Tản văn Tạp Văn 229 168 | | | + 663 450 Làm Đẹp Sức Khỏe 4997 3795 | + Chăm sóc da mặt 1335 1044 | | + Làm da mặt 340 271 | | | + Sữa rửa mặt 182 141 | | | + 158 130 Đồ Chơi Mẹ & Bé 4615 3386 | + Đồ chơi 1268 971 | | + Lắp ghép, Xếp hình 282 180 | | | + 282 180 Nhà Cửa Đời Sống 4494 3216 | + Dụng cụ nhà bếp 982 682 | | + Dụng cụ chứa đựng thực phẩm 265 189 | | | + 265 189 Điện Tử Điện Lạnh 4045 2916 | + Âm & Phụ kiện Tivi 1458 1091 | | + Phụ kiện Tivi 257 211 | | | + Điều khiển từ xa Tivi 132 103 | | | + 24 27 Voucher Dịch vụ 2831 2069 | + Khóa học 1407 1036 | | + Khóa học online 641 513 | | | + 641 513 Laptop Máy Vi Tính Linh kiện 360 235 | + Laptop 204 150 | + PC Máy Tính Bộ 156 85 Điện Thoại Máy Tính Bảng 257 171 Bảng 3.5: Cấu trúc số lượng nhãn nằm tập train test (2) 38 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH Dựa vào bảng ta thấy có số danh mục chứa nhiều sản phẩm có danh mục chứa lượng sản phẩm nên liệu không cân 3.2 Phương pháp đánh giá Để đánh giá kết mơ hình ta sử dụng số accuracy F1-score Accuracy Tỉ lệ xác mơ hình tính số lượng liệu đốn tổng số liệu Acc = Số lượng dự đoán Tổng số liệu (3.2.1) F1-score Giả sử xét nhãn A, ta kí hiệu TP (True Positive) số thực thể thuộc loại A phân loại đúng, FP (False Positive) số thực thể thuộc loại A bị phân loại sai, FN (False Negative) số thực thể không thuộc loại A bị phân loại nhầm vào Từ đó, ta xác định số đánh giá theo cơng thức sau • Precision tỉ lệ số thực thể phân loại số thực thể phân loại loại A precision = TP TP + FP • Recall tỉ lệ số thực thể phân loại vào loại A số thực thể thực thuộc loại A recall = TP TP + FN • F1-score giá trị biểu diễn cân Precision Recall F1-score = ∗ precision ∗ recall precision + recall Trong trường hợp đánh giá mơ hình với nhiều nhãn, ta thường sử dụng thêm phương pháp tính đánh giá trung bình micro macro • Trung bình micro: Phương pháp tính tốn tổng số đóng góp nhãn vào kết chung Ví dụ giá trị precisionmicro = 39 TP TP + FP LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH • Trung bình macro: Phương pháp tính tốn giá trị đánh giá độc lập nhãn sau tính trung bình cộng giá trị Ví dụ giá trị precisionmacro = n TP TP + FP Hai phương pháp cho giá trị tương đối khác mà liệu bị cân băng Giá trị micro cho ta kết đánh giá dựa theo phân bố nhãn liệu giá trị macro cho ta kết đánh giá nhãn 3.3 Thực nghiệm Mô hình thử nghiệm sử dụng mơ hình tiền huấn luyện BERTBASE với liệu đa ngôn ngữ kết hợp với hàm mát phân cấp với số cấp Ngồi tác giả cịn thực huấn luyện mơ hình feature base sử dụng Tf-Idf kết hợp với mơ hình logistic [19] mơ hình phân loại sử dụng BERTBASE Thơng số mơ sau: • Tf-idf + Logistic: Sử dụng phương Tf-Idf với n-gram từ đến 3, loại bỏ từ xuất lần từ xuất nhiều 50% liệu Mơ hình phân loại dụng mạng nơ-ron hồi quy tuyến tính logistic thư viện Sklearn • BERT : Sử dụng mơ hình tiền huấn luyện BERTBASE với L = 12, H = 768, A = 12 với tổng cộng 110 triệu tham số Được huấn luyện mô liệu đa ngôn ngữ Trọng số mô hình tiền huấn luyện tải từ đường dẫn https://huggingface.co/bert-base-multilingual-cased • BERT + hierarchical loss: Sử dụng mơ hình tiền huấn luyện BERTBASE kết hợp với hàm mát phân cấp với cấp số lượng nơ-ron đầu cấp 14, 116, 549 948 Cả mơ hình huấn luyện tập liệu chứa 60000 loại hàng hóa mơ tả Thời gian huấn luyện mơ hình phân loại Logistic vào khoảng 30 phút máy tính cá nhân Mơ hình BERT mơ hình BERT + hierarchical loss huấn luyện 50 epoch với batch size 32 server với GPU P100 khoảng tiếng Tốc độ dự đoán mơ hình thử nghiệm GPU T4 đạt khoảng 40 mơ tả sản phẩm giây cịn server CPU đạt từ đến mô tả Với tốc độ xử lý vậy, việc triển khai mơ hình địi hỏi sever trang bị GPU để đảm bảm tốc độ dự đốn khơng bị trễ nhiều 40 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH Đối với mơ hình phân loại Logistic BERTBASE Mặc dù kết cấp 1, 2, cao ta huấn luyện mơ hình với cấp Tuy nhiên mục tiêu cuối kết dự đoán cấp thứ nên ta thực dự đoán nhãn cấp sản phẩm từ xác định lại nhãn cấp 1, 2, để đánh giá Do liệu có số lượng nhãn lớn bị lệch nhiều số nhãn sản phẩm phổ biến nên ta sử dụng số micro macro để có nhìn đầy đủ Kết thử nghiệm tập test với số lượng 43587 sản phẩm sau: Cấp (14 nhãn) Model accuracy precision recall f1-score (micro/ (micro/ (micro/ macro) macro) macro) Tf-idf + logistic 86.8 86.8/88.9 86.8/81.5 86.8/83.4 BERTBASE 86.5 86.5/86.6 86.5/85.9 86.5/86.2 BERTBASE + hierarchical loss 90.9 90.9/91.6 90.9/90.5 90.9/91.0 Bảng 3.6: Đánh giá mơ hình với nhãn danh mục cấp Cấp (116 nhãn) Model accuracy precision recall f1-score (micro/ (micro/ (micro/ macro) macro) macro) Tf-idf + logistic 80.0 80.0/79.8 80.0/55.9 80.0/61.8 BERTBASE 81.9 81.9/75.7 81.9/73.3 81.9/73.6 BERTBASE + hierarchical loss 86.1 86.1/79.2 86.1/75.1 86.1/76.6 Bảng 3.7: Đánh giá mơ hình với nhãn danh mục cấp Cấp (549 nhãn) Model accuracy precision recall f1-score (micro/ (micro/ (micro/ macro) macro) macro) Tf-idf + logistic 67.5 67.5/62.5 67.5/41.5 67.5/45.8 BERTBASE 73.3 73.3/66.4 73.3/62.6 73.3/63.1 BERTBASE + hierarchical loss 75.9 75.9/68.3 75.9/65.1 75.9/65.8 Bảng 3.8: Đánh giá mơ hình với nhãn danh mục cấp 41 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH Cấp (948 nhãn) Model accuracy precision recall f1-score (micro/ (micro/ (micro/ macro) macro) macro) Tf-idf + logistic 59.1 59.1/58.1 59.1/36.5 59.1/39.9 BERTBASE 67.6 67.6/62.1 67.6/57.8 67.6/58.2 BERTBASE + hierarchical loss 69.1 69.1/62.3 69.1/59.7 69.1/60.0 Bảng 3.9: Đánh giá mơ hình với nhãn danh mục cấp Model Top accuracy Top accuracy Top accuracy BERTBASE 67.6 72.1 72.9 BERTBASE + hierarchical loss 69.1 74.3 75.4 Bảng 3.10: Đánh giá độ xác top k mơ hình cấp thứ Dựa vào bảng đánh giá ta thấy kết mơ hình bị giảm nhiều mà số lượng nhãn liệu tăng lên cấp Ở cấp thứ với 14 nhãn liệu mơ hình featue-base BERT cho kết tương đối cao Nhưng phân loại đến cấp thứ 2, với số lượng nhãn tăng lên mơ hình feature-base tỏ nhiều so với BERT (ở cấp thứ giá trị f 1macro đặt 39.9% so với 58.2% mơ hình BERT 60.0% mơ hình BERT + hierarchical loss) Các kết đánh giá trung bình macro tương đối so với giá trị trung bình micro có số nhãn với số lượng lớn liệu phân loại với độ xác cao nên đóng góp số kết cuối Việc sử dụng hàm mát phân cấp giúp cải thiện kết mơ hình tận dụng cấu trúc nhãn liệu Trên tất số đánh giá mơ hình BERT với hàm mát phân cấp cho kết trội hơn, cấp 1, 2, hàm mát giúp cải thiện mơ hình lên đến 4% Cịn cấp thứ (948 nhãn) giúp cải thiên 1.5% độ xác, 1.5% giá trị f 1micro 1.8% giá trị f 1macro ) Khi xét đến độ xác top nhãn cấp thứ mơ hình BERT + hierarchical loss cho kết cao top từ 5-6% tiệm cận đến độ xác cấp thứ Qua luận văn này, lần cho ta thấy sức mạnh to lớn mơ hình tiền huấn luyện BERT toán phân loại văn so với mơ hình trích chọn đặc trưng truyền thống TF-IDF Việc sử dụng hàm mát với kiến trúc nhiều tầng giúp cải thiện kết mô hình BERT với chi phí tính tốn gần tương đương Một số kết liên quan luận văn 42 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH công bố hội nghị ICISN 2021 với tiêu đề "Attentive RNN for HS Code Hierarchy Classification on Vietnamese Goods Declaration" sách "Artificial Intelligence for Automated Pricing based on Product Descriptions" [20] thuộc series SpringerBriefs in Computational Intelligence 43 KẾT LUẬN Qua luận văn này, lần cho ta thấy sức mạnh to lớn mơ hình BERT Ngồi tác giả có số đóng góp sau: • Thực thu thập liệu từ trang thương mại điện tử để làm liệu thực nghiệm cho mơ hình • Áp dụng mơ hình phân loại văn sử dụng BERT vào việc học chuyển tiếp đạt độ xác cao với số nhãn lớn • Tác giả đề xuất cách tính hàm chi phí dựa vào thơng tin phân cấp nhãn liệu có cải tiến đáng kể so với mơ hình thơng thường Từ kết ta áp dụng vào việc hỗ trợ phân loại hàng hóa vào cách danh mục cụ thể trang thương mại điện tử khác Ví dụ ta thực nhập liệu từ trang shopee vào danh mục trang tiki ngược lại Xây dựng sở liệu chuẩn hóa lại danh mục cho tất loại sản phẩm Việc làm có ý nghĩa lớn số lượng sản phẩm đa dạng, việc phân loại thủ công nhiều thời gian Một số hướng phát triển luận văn: • Kết hợp thơng tin hình ảnh mơ tả sản phẩm để xây dựng mơ hình với khả phân loại xác • Thử nghiệm sử dụng mơ hình tiền huấn luyện BERTLARGE với kích thước lớn 44 Tài liệu tham khảo [1] A L Samuel, “Some studies in machine learning using the game of checkers,” IBM Journal of Research and Development, vol 3, no 3, pp 210–229, 1959 [2] E Wilson and D W Tufts, “Multilayer perceptron design algorithm,” in Proceedings of IEEE Workshop on Neural Networks for Signal Processing, pp 61–68, 1994 [3] C Lemaréchal, “Cauchy and the gradient method,” in Documenta Mathematica, pp 251–254, 2012 [4] Y Zhang, R Jin, and Z.-H Zhou, “Understanding bag-of-words model: A statistical framework,” International Journal of Machine Learning and Cybernetics, vol 1, pp 43–52, 12 2010 [5] J Goodman, “A bit of progress in language modeling,” vol cs.CL/0108005, 2001 CoRR, [6] R Kuhn and R De Mori, “A cache-based natural language model for speech recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 12, no 6, pp 570–583, 1990 [7] Y Wu, M Schuster, Z Chen, Q V Le, M Norouzi, W Macherey, M Krikun, Y Cao, Q Gao, K Macherey, J Klingner, A Shah, M Johnson, X Liu, L Kaiser, S Gouws, Y Kato, T Kudo, H Kazawa, K Stevens, G Kurian, N Patil, W Wang, C Young, J Smith, J Riesa, A Rudnick, O Vinyals, G Corrado, M Hughes, and J Dean, “Google’s neural machine translation system: Bridging the gap between human and machine translation,” CoRR, vol abs/1609.08144, 2016 [8] J Andreas, A Vlachos, and S Clark, “Semantic parsing as machine translation,” in Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), (Sofia, Bulgaria), pp 47– 52, Association for Computational Linguistics, Aug 2013 45 LUẬN VĂN THẠC SĨ PHẠM NGỌC LINH [9] T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean, “Distributed representations of words and phrases and their compositionality,” CoRR, vol abs/1310.4546, 2013 [10] R Lebret and R Collobert, “Word embeddings through hellinger PCA,” in Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, (Gothenburg, Sweden), pp 482–490, Association for Computational Linguistics, Apr 2014 [11] W M Kouw, “An introduction to domain adaptation and transfer learning,” CoRR, vol abs/1812.11806, 2018 [12] T Mikolov, K Chen, G Corrado, and J Dean, “Efficient estimation of word representations in vector space,” 2013 [13] J Pennington, R Socher, and C Manning, “GloVe: Global vectors for word representation,” in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), (Doha, Qatar), pp 1532–1543, Association for Computational Linguistics, Oct 2014 [14] P Bojanowski, E Grave, A Joulin, and T Mikolov, “Enriching word vectors with subword information,” Transactions of the Association for Computational Linguistics, vol 5, pp 135–146, 2017 [15] R Foraita, J Spallek, and H Zeeb, Directed Acyclic Graphs New York, NY: Springer New York, 2014 [16] A Nagaraj, “Amazon statistic (Seller, FBA and Product),” https://www sellerapp.com/blog/amazon-seller-statistics/ [17] J Devlin, M.-W Chang, K Lee, and K Toutanova, “BERT: pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018 [18] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L Kaiser, and I Polosukhin, “Attention is all you need,” CoRR, vol abs/1706.03762, 2017 [19] S Dreiseitl and L Ohno-Machado, “Logistic regression and artificial neural network classification models: a methodology review,” Journal of Biomedical Informatics, vol 35, no 5, pp 352–359, 2002 [20] N T N Anh, T N Thang, and V K Solanki, Artificial Intelligence for Automated Pricing based on Product Descriptions Springer (submitted), 2021 46 PHỤ LỤC A Công bố khoa học liên quan Nguyen Thanh Binh, Huy Anh Nguyen, Pham Ngoc Linh, Giang Nguyen Linh and Tran Ngoc Thang (2021) “Attentive RNN for HS Code Hierarchy Classification on Vietnamese Goods Declaration”, International Conference on Intelligent System & Networks, Phạm Ngọc Linh Attentive RNN for HS Code Hierarchy Classification on Vietnamese Goods Declaration ... cấp có nhiều ứng dụng lĩnh vực khác phân loại hình ảnh, tìm kiếm danh mục văn bản, Trong nội dụng luận văn, tác giả trình bày nghiên cứu tốn phân loại văn phân cấp ứng dụng vào việc phân loại hàng. .. cho việc huấn luyện mơ hình phần 18 CHƯƠNG MƠ HÌNH BERT CHO BÀI TỐN PHÂN LOẠI PHÂN CẤP 2.1 2.1.1 Bài toán phân loại văn có phân cấp ứng dụng Bài tốn phân loại văn có phân cấp Bài tốn phân loại. .. Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Phạm Ngọc Linh Đề tài luận văn: Ứng dụng phân loại văn có phân cấp vào việc xác định loại hàng hóa Chun ngành:

Định dạng
Số trang	51
Dung lượng	2,99 MB

Tiêu đề	Ứng Dụng Phân Loại Văn Bản Có Phân Cấp Vào Việc Xác Định Loại Hàng Hóa
Tác giả	Phạm Ngọc Linh
Người hướng dẫn	TS. Trần Ngọc Thăng
Trường học	Đại học Bách khoa Hà Nội
Chuyên ngành	Toán Tin
Thể loại	luận văn
Năm xuất bản	2021
Thành phố	Hà Nội