1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam

100 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại điện tử tại Việt Nam
Tác giả Nguyễn Tiến Huy
Người hướng dẫn TS. Đặng Thị Thu Hiền
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Khoa học dữ liệu
Thể loại Luận văn Thạc sĩ khoa học
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 100
Dung lượng 3,43 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (10)
    • 1.1 Đặt vấn đề (10)
    • 1.2 Mục tiêu nghiên cứu (11)
    • 1.3 Đối tƣợng và phạm vi nghiên cứu (12)
    • 1.4 Ý nghĩa của luận văn (12)
    • 1.5 Điểm mới của luận văn (13)
  • CHƯƠNG 2: TỔNG QUAN LÝ THUYẾT VÀ CÁC PHƯƠNG PHÁP (14)
    • 2.1 Bài toán phân loại văn bản (14)
    • 2.2 Tiền xử lý văn bản (16)
      • 2.2.1 Làm sạch dữ liệu bằng chuẩn h a ảng m Unicode Tiếng Việt (0)
      • 2.2.2 Làm sạch dữ liệu bằng chuẩn h a kiểu g dấu Tiếng Việt (17)
      • 2.2.3 Làm sach dữ liệu bằng chuẩn hóa dữ liệu viết thường (17)
      • 2.2.4 Làm sach dữ liệu bằng loại bỏ các ký tự đặc biệt (18)
      • 2.2.5 Xử lý tên sản phẩm bằng loại bỏ các “từ dừng” (18)
    • 2.3 Trích xuất đặc trƣng (18)
      • 2.3.1 Phương pháp Túi từ (Bag of Words – BoW) (19)
      • 2.3.2 Phương pháp TF-IDF (21)
      • 2.3.3 Các phương pháp Raw Embedding (22)
      • 2.3.4 Phương pháp Word2Vec (22)
      • 2.3.5 Tokenizer (27)
    • 2.4 Các mô hình phân loại (28)
      • 2.4.1 Decision Trees (DT - Cây Quyết Định) (29)
      • 2.4.2 Random Forest (RF - Rừng Ngẫu Nhiên) (30)
      • 2.4.3 Naive Bayes (NB) (31)
      • 2.4.4 Support Vector Machine (SVM - Máy vectơ hỗ trợ) (32)
      • 2.4.5 Logistic Regression (LR – Hồi quy Logistic) (35)
      • 2.4.6 Neural Network (NN – Mạng nơ-ron) (36)
      • 2.4.7 Recurrent Neural Network (RNN) (39)
      • 2.4.8 PhoBERT- Mô hình ngôn ngữ được đào tạo trước cho Tiếng Việt (41)
      • 2.4.9 Elasticsearch cho bài toán phân loại sản phẩm (44)
    • 2.5 Các phương pháp đánh giá một mô hình phân loại (45)
      • 2.5.1 Độ chính xác (Accuracy) (45)
      • 2.5.2 Ma trận nhầm lẫn (Confusion Matrix) (46)
      • 2.5.3 Precision và Recall (47)
      • 2.5.4 F1-score (48)
  • CHƯƠNG 3: CHUẨN BỊ VÀ PHÂN TÍCH DỮ LIỆU (51)
    • 3.1 Phương pháp thu thập dữ liệu (51)
    • 3.2 Phân tích tập dữ liệu (51)
      • 3.2.1 Tổng quan tập dữ liệu (51)
      • 3.2.2 Phân tích thống kê mô tả tập dữ liệu (52)
    • 3.3 Tiền xử lý dữ liệu (57)
      • 3.3.1. Chuẩn hóa tên sản phẩm (58)
      • 3.3.2. Mã hóa nhãn danh mục sản phẩm (59)
    • 3.4. Chuẩn bị dữ liệu cho mô hình phân loại (59)
      • 3.4.1 Xây dựng tập dữ liệu mới (59)
      • 3.4.2 Xây dựng tập huấn luyện, tập kiểm chứng, tập kiểm thử (61)
  • CHƯƠNG 4: ỨNG DỤNG MÔ HÌNH TRONG BÀI TOÁN PHÂN LOẠI (64)
    • 4.1 Random Forest (RF - Rừng Ngẫu Nhiên) (64)
    • 4.2 Logistic Regression (LR – Hồi quy Logistic) (68)
    • 4.3 Naive Bayes (NB) (69)
    • 4.4 DNN (70)
    • 4.5 LSTM (RNN đặc biệt) (71)
    • 4.6 GLoVe và DNN (73)
    • 4.7 Mô hình PhoBERT cho Tiếng Việt (74)
      • 4.7.1 Chi tiết Thiết kế thực nghiệm PhoBERT (74)
      • 4.7.2 Trích lọc đặc trƣng cho mô hình Pho ERT (75)
      • 4.7.3 Huấn luyện mô hình và đánh giá mô hình – Hai tập dữ liệu (77)
    • 4.8 Mô hình BERT (83)
    • 4.9 Mô hình kết hợp (83)
  • CHƯƠNG 5: KẾT QUẢ VÀ THẢO LUẬN (84)
    • 5.1 Kết quả Elasticsearch (84)
    • 5.2 Kết quả tập kiểm thử trên Tập dữ liệu 1 (Tập dữ liệu gốc) (88)
    • 5.3 Kết quả tập kiểm thử mô hình PhoBERT trên toàn bộ các tập dữ liệu (90)
    • 5.4 Kết quả tập kiểm thử trên Tập dữ liệu 2 (VnNlpCore ) (92)
    • 5.5 Kết quả tập kiểm thử phương pháp kết hợp mô hình (Ensemble) (93)
    • 5.6 Phân tích kết quả (94)
  • KẾT LUẬN (96)
  • TÀI LIỆU THAM KHẢO (99)

Nội dung

Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam

TỔNG QUAN

Đặt vấn đề

Thương mại điện tử (hay còn gọi là E-commerce), là sự mua bán sản phẩm hay dịch vụ trên các hệ thống điện tử nhƣ Internet và các mạng máy tính Trong những năm gần đây, thương mại điện tử đ trải qua sự phát triển liên tục trên toàn cầu mà bằng chứng là số lƣợng lớn các nền tảng kinh doanh hàng hóa trực tuyến xuất hiện cùng lượng người dùng đông đảo Cụ thể tính đến tháng 12 năm 2022 có 26 triệu nền tảng thương mại điện tử khác nhau trên toàn cầu tăng gấp đôi so với cùng kỳ năm 2021 Tới tháng 1 năm 2023, số lượng người dùng trên toàn bộ các nền tảng toàn cầu là khoảng 2.64 tỷ người chiếm 33.3% dân số thế giới Và Việt

Nam không phải là ngoại lệ, theo “Sách trắng thương mại điện tử Việt Nam năm 2022” của Cục Thương Mại Điện Tử Và Kinh Tế Số - Bộ Công Thương, năm 2022 Việt Nam có khoảng 57 – 60 (triệu người) tiêu dùng mua sắm trực tuyến chiếm

61.8% dân số Việt Nam với tốc độ tăng trưởng người dùng trung bình 15% một năm

Với sự phổ biến ngày càng tăng của mua sắm trực tuyến, số lƣợng và tính đa dạng sản phẩm có sẵn trên các nền tảng thương mại điện tử đ tăng vọt, gây khó khăn cho cả người bán và người mua trong việc tìm kiếm và khám phá sản phẩm một cách hiệu quả Một khía cạnh quan trọng để nâng cao trải nghiệm của người dùng thương mại điện tử là phân loại sản phẩm vào đúng danh mục ngành hàng một cách chính xác bởi việc này đ ng vai trò quan trọng trong việc tổ chức hàng hóa có sẵn trên giao diện của nền tảng trực tuyến từ đ c tác động rất lớn tới hành vi sử dụng nền tảng của người dùng Ngoài ra việc phân loại sản phẩm vào chính xác danh mục còn mang ý nghĩa thống kê quan trọng cho mỗi nền tảng để có thể có thông tin về sản phẩm nào, danh mục nào đang trở thành xu hướng từ đ c những cơ chế kích cầu, hiển thị hợp lý để tối ưu trải nghiệm người dùng cũng như doanh thu trên nền tảng

Theo phương pháp kinh doanh truyền thống tại các cửa hàng bán lẻ, chủ cửa hàng thường tự phân loại sản phẩm và ghi chép lời lãi của từng danh mục vào sổ ghi chép bằng tay một cách thủ công Nhƣng việc này vừa tốn thời gian vừa mang tính chủ quan và không thể mở rộng để xử lý số lƣợng sản phẩm ngày càng tăng Đồng thời thách thức của các sàn thương mại điện tử hiện nay là phải bỏ ra chi phí lớn thuê cộng tác viên, gán nhãn, chuẩn hóa sản phẩm để kiểm soát đúng thông tin của sản phẩm, việc này tiêu tốn tiền bạc, công sức và thời gian trong bối cảnh số lƣợng người dùng, sản phẩm, nhà cung cấp ngày càng tăng mạnh Do đ , c một yêu cầu ngày càng cao cho các phương pháp tự động để phân loại sản phẩm một cách chính xác và hiệu quả vào đúng các danh mục dựa trên thông tin sản phẩm

Sự quan trọng của nghiên cứu này nằm ở khả năng giải quyết các thách thức liên quan đến việc phân loại sản phẩm thủ công trên các nền tảng thương mại điện tử Bằng cách phát triển một mô hình phân loại có thể dự đoán chính xác danh mục của một sản phẩm dựa trên tên của nó, doanh nghiệp thương mại điện tử có thể tối ƣu h a hoạt động của mình, cải thiện hệ thống tìm kiếm và gợi ý, nâng cao trải nghiệm người dùng và cuối cùng tăng doanh số bán hàng

Hơn nữa, các phương pháp hiện c để phân loại sản phẩm thường phụ thuộc mạnh vào mô tả sản phẩm hoặc các thuộc tính bổ sung, nhƣ hình ảnh hoặc đánh giá

Tuy nhiên, tên sản phẩm chính nó chứa thông tin quý giá có thể hỗ trợ trong quá trình phân loại Bằng việc tập trung cụ thể vào tên sản phẩm, nghiên cứu này nhằm khám phá hiệu quả của việc sử dụng các mẫu ngôn ngữ và đặc trƣng văn bản để phân loại chính xác, đồng thời giảm sự phụ thuộc vào các thuộc tính bổ sung có thể không luôn có sẵn hoặc đáng tin cậy

Ngoài ra, nghiên cứu này tập trung đặc biệt vào bối cảnh của Việt Nam với một thị trường thương mại điện tử đang phát triển nhanh với nhiều đặc điểm độc đáo, bao gồm tên sản phẩm c tính địa phương, tên sản phẩm có sự đa dạng hoặc thiếu sót do hành vi khác nhau rõ rệt giữa các nhà cung cấp hoặc đơn giản là sự khác biệt văn h a của người tiêu dùng

Do đ , việc phát triển một mô hình phân loại phù hợp trong bối cảnh thương mại điện tử của Việt Nam, lấy các yếu tố cụ thể này vào xét, là vô cùng quan trọng

Nghiên cứu này nhằm cung cấp luận cứ khoa học về việc lựa chọn mô hình phù hợp cho bài toán nêu trên, nhằm đ ng g p vào sự phát triển của hệ thống thương mại điện tử, cung cấp những nhận định quý giá cho doanh nghiệp và mở ra con đường cho quá trình phân loại sản phẩm hiệu quả và chính xác hơn trong ngành thương mại điện tử Việt Nam.

Mục tiêu nghiên cứu

Mục tiêu chính của nghiên cứu này là phát triển một mô hình phân loại mạnh mẽ và chính xác cho việc phân loại sản phẩm dựa trên tên sản phẩm trong thương mại điện tử tại Việt Nam Để đạt đƣợc mục tiêu toàn diện này, các mục tiêu nghiên cứu cụ thể nhƣ sau: a Thu thập và tiền xử lý một tập dữ liệu toàn diện về tên sản phẩm thương mại điện tử tại Việt Nam

 Thu thập tập dữ liệu đa dạng đủ tính đại diện về tên sản phẩm từ các nền tảng thương mại điện tử khác nhau hoạt động tại Việt Nam

 Làm sạch và tiền xử lý tập dữ liệu để đảm bảo tính nhất quán, loại bỏ nhiễu và chuẩn hóa dữ liệu để phân tích và phát triển mô hình tiếp theo

 Tiến hành phân tích dữ liệu để thu đƣợc thông tin về đặc điểm và mẫu ngôn ngữ trong tập dữ liệu tên sản phẩm b Khám phá, lựa chọn các thuật toán và kỹ thuật học máy phù hợp cho việc phân loại sản phẩm

 Nghiên cứu các thuật toán học máy khác nhau thường được sử dụng trong nhiệm vụ phân loại văn bản

 Đánh giá hiệu suất và tính thích hợp của các thuật toán này trong việc phân loại sản phẩm dựa trên tên sản phẩm thương mại điện tử

 Chọn thuật toán phù hợp nhất c độ chính xác và hiệu quả cao trong việc phân loại tên sản phẩm vào các danh mục liên quan c Phát triển và tùy chỉnh mô hình phân loại để nâng cao hiệu quả trong việc dự đoán

 Tối ƣu h a các tham số và siêu tham số của mô hình để đạt đƣợc hiệu suất tốt nhất về độ chính xác và hiệu quả d Đánh giá và đề xuất mô hình phân loại phù hợp

 Tiến hành các thử nghiệm và đánh giá hiệu quả của mô hình phân loại đƣợc phát triển

 So sánh kết quả của mô hình với các phương pháp hiện c để đo lường độ chính xác và khả năng tổng quát hóa

 Xác minh mô hình bằng các chỉ số thích hợp, chẳng hạn nhƣ độ chính xác, độ phủ và điểm F1 để đảm bảo tính tin cậy và sự mạnh mẽ của mô hình e Đưa ra các khuyến nghị và hướng dẫn cho việc triển khai thực tế

 Cung cấp những nhận định và khuyến nghị cho các doanh nghiệp trong ngành thương mại điện tử tại Việt Nam để tích hợp mô hình phân loại phát triển vào nền tảng của họ.

Đối tƣợng và phạm vi nghiên cứu

Đề tài tiến hành nghiên cứu với dữ liệu về tên sản phẩm và danh mục kèm theo được thu thập từ nhiều nền tảng thương mại điện tử lớn ở Việt Nam như:

Shopee.vn, Tiki.vn, Nhathuoclongchau.com.vn,… để đảm bảo tính đại diện, và tính đa dạng trong các sản phẩm phù hợp đặc điểm thị trường Việt Nam Tuy vậy, với tốc độ phát triển nhanh chóng của thương mại điện tử, có thể tồn tại hạn chế về phạm vi với những sản phẩm mới trên thị trường

Ngoài ra, nghiên cứu tập trung vào các tên sản phẩm đƣợc viết bằng ngôn ngữ Tiếng Việt do đ phân tích và phát triển mô hình cũng sẽ xem xét các mẫu ngôn ngữ, đặc điểm cụ thể tương ứng với văn h a sử dụng Tiếng Việt.

Ý nghĩa của luận văn

Luận văn cung cấp thông tin cụ thể về các phương pháp phân tích dữ liệu và từng bước xây dựng, cũng như đánh giá hiệu quả của mô hình phân loại sản phẩm phù hợp cho từng danh mục sản phẩm Bên cạnh đ , một số mô hình quen thuộc hoặc SOTA (state-of-the-art) cũng đƣợc tối ƣu riêng cho bài toán này dựa trên cơ sở tinh chỉnh một số bước trong các mô hình Đồng thời, sự thay đổi trong việc tinh chỉnh các mô hình trên sẽ được theo d i và đo lường lại để đánh giá, từ đ tìm ra các chỉ số phù hợp nhất cho bài toán

1.4.2 Ý nghĩa thực tiễn a Ý nghĩa cho doanh nghiệp

- Nghiên cứu đ ng g p vào sự tiến bộ của ngành thương mại điện tử tại Việt Nam bằng cách cung cấp một mô hình phân loại sản phẩm hiệu quả và chính xác

- Phân loại sản phẩm chính xác giúp cải thiện chức năng tìm kiếm, gợi ý cá nhân và nâng cao trải nghiệm người dùng trên các nền tảng thương mại điện tử

- Phân loại sản phẩm chính xác giúp hỗ trợ các doanh nghiệp thương mại điện tử trong việc tối ƣu quy trình phân loại sản phẩm, cải thiện quản lý hàng tồn kho và tối ƣu vận hành b Ý nghĩa cho công nghệ

- Nghiên cứu này đ ng g p vào nguồn kiến thức hiện c trong lĩnh vực phân loại sản phẩm sử dụng máy học trong bối cảnh nhiều công ty thương mại điện tử tại Việt Nam gặp kh khăn trong việc phân loại sản phẩm của họ

- Ngoài ra, mô hình đề xuất có thể đƣợc cải tiến và mở rộng vào các lĩnh vực và ngành công nghiệp khác ngoài thương mại điện tử mà nhìn chung là áp dụng hiệu quả cho các bài toán phân loại văn bản.

Điểm mới của luận văn

- Xây dựng đƣợc thang đo tiêu chuẩn cho bài toán phân loại sản phẩm dựa trên công cụ Elasticsearch, từ đ đánh giá đƣợc hiệu quả của các mô hình mới so với thang đo tiêu chuẩn này

- Xây dựng kiến trúc và tinh chỉnh các siêu tham số phù hợp cho từng mô hình từ đ tìm ra bộ siêu tham số tốt nhất cho từng mô hình để áp dụng vào giải quyết bài toán

- Lựa chọn đƣợc mô hình tối ƣu nhất là mô hình kết hợp có trọng số từ các mô hình học máy và học sâu Từ đ gia tăng đáng kể độ chính xác và hiệu suất để giải quyết bài toán.

TỔNG QUAN LÝ THUYẾT VÀ CÁC PHƯƠNG PHÁP

Bài toán phân loại văn bản

“Natural Language Processing” viết tắt là NLP hay “Xử lý ngôn ngữ tự nhiên" trong Tiếng Việt là một lĩnh vực trong khoa học máy tính và trí tuệ nhân tạo tập trung vào việc xử lý, phân tích ngôn ngữ con người sử dụng trong đời sống Xử lý ngôn ngữ tự nhiên có nhiều ứng dụng đa dạng và phong phú

Phân loại văn bản là quá trình chia các đối tƣợng có cùng thuộc tính vào cùng một danh mục Về mặt ngữ pháp, văn bản là một hình thức biểu hiện gồm từ, cụm từ, câu và đoạn văn Phân loại văn bản là một phương pháp học máy có giám sát, trong đ tất cả các danh mục văn bản được xác định trước

Quá trình phân loại văn bản tương tự như việc ánh xạ trong toán học [3] Cụ thể:

 Tập hợp D: D = {d 1 , d 2 , , d m } là văn bản cần phân loại gồm m tài liệu

 Tập lớp C: C = {c 1 , c 2 , , c n } là các nhãn gồm n lớp Vì vậy, quá trình phân loại có thể đƣợc hiểu nhƣ sau: f : D → C

Trong phân loại văn bản, đôi khi văn bản không chỉ thuộc về một lớp duy nhất, ví dụ: nếu một tin tức “Miền Bắc mƣa rất to kèm gió mạnh”, tin này c thể thuộc cả hai chủ đề “X hội” và “Thời tiết”, tình huống này đƣợc gọi là "đa nh n"

Trong khuôn khổ nghiên cứu này, mỗi sản phẩm chỉ đƣợc ánh xạ vào một lớp duy nhất hay danh mục duy nhất Quá trình phân loại văn bản có thể đƣợc tóm tắt nhƣ Hình 2.1

Hình 2 1: Tổng quan quá trình phân loại văn bản

Tương ứng mỗi bước trong Hình 2.1 là quá trình triển khai trong thực tế Cụ thể nhƣ sau:

Bước 1: Chuẩn bị tập dữ liệu văn bản đầu vào Ở bước này, nghiên cứu thu thập tập dữ liệu chứa các tên sản phẩm lộn xộn, chưa xử lý, nhiều ký tự thừa trên các trang thương mại điện tử tại Việt Nam

Bước 2: Tiền xử lý văn bản

Chi tiết bước 2 được trao đổi trong Mục 2.2 Đây là bước đ ng vai trò nền tảng cho toàn bộ quá trình bởi dữ liệu chuẩn hoá đủ tốt thì mô hình mới hiệu quả

Tên sản đƣợc xử lý loại bỏ các ký tự thừa, lỗi chính tả và đƣợc chuẩn h a để tạo sự đồng nhất Việc này giống như tạo nên khung sườn cho quá trình xử lý phía sau

Bước 3: Chuyển đổi văn bản thành vector

Chi tiết bước 3 được trao đổi trong Mục 2.3 Tên sản phẩm sau khi được xử lý sẽ đƣợc chuyển đổi thành các vector - những mảng dữ liệu số có thể hiểu đƣợc bởi mô hình ước này cũng được coi là bước thử nghiệm các các phương pháp trích xuất đặc trƣng khác nhau Quá trình này nhằm mục đích giúp mô hình c thể nắm r đƣợc ngữ nghĩa trong từng văn bản, ở đây là tên sản phẩm

Bước 4: Xây dựng mô hình phân loại

Chi tiết bước 4 được trao đổi trong Mục 2.4 Dựa vào tập dữ liệu vector, các mô hình xử lý ngôn ngữ tự nhiên nhƣ nhƣ Naive ayes, Support Vector Machine, hay mạng nơ-ron nhân tạo đƣợc huấn luyện để phân loại sản phẩm Mỗi mô hình sẽ cho ra kết quả và độ chính xác riêng

Bước 5: Đánh giá và lựa chọn mô hình

Chi tiết bước 5 được trao đổi trong Mục 2.5 và Chương 3 Các mô hình phân loại sau đ đƣợc xây dựng và đánh giá với kết quả về độ chính xác riêng cho từng mô hình Mô hình c độ chính xác cao nhất sẽ đƣợc lựa chọn để áp dụng cho bài toán thực tế, đảm bảo tính hiệu quả và chính xác cho quá trình phân loại sản phẩm.

Tiền xử lý văn bản

ƣớc đầu tiên trong đa số các bài Xử lý ngôn ngữ tự nhiên là tiền xử lý văn bản, mục tiêu để làm đầu vào cho quá trình huấn luyện sau này cũng nhƣ tăng độ chính xác của phân loại Với ngôn ngữ Tiếng Việt, bước tiền xử lý có thể được chia thành một số bước phụ và mỗi bước được mô tả chi tiết hơn dưới đây

2.2.1 Làm sạch dữ liệu bằng chuẩn h a Bảng m Unicode Tiếng Việt

Do người dùng sử dụng bộ mã khác nhau khi gõ tiếng Việt Cụ thể đa số người sử dụng máy tính tại Việt nam đang dùng Unikey với bộ mã Unicode (dựng sẵn)

Nhưng vẫn c nhiều trường hợp, bộ mã Unicode tổ hợp vẫn được sử dụng Do đ , đối với các nguồn dữ liệu thu thập trên internet thường bị lẫn cả 2 cách g này Điều này làm cho cùng một từ nhƣng máy tính lại nhận diện là 2 từ khác hoàn toàn nhau ảng 2.1 cho thấy sự khác biệt giữa Unicode tổ hợp và Unicode dựng sẵn

Bảng 2 1: Sự khác biệt về độ dài của cụm từ sử dụng khi sử dụng 2 cách gõ

2.2.2 Làm sạch dữ liệu bằng chuẩn h a kiểu g dấu Tiếng Việt

Hiện nay c hai quan điểm về cách đặt dấu thanh thường được gọi là "kiểu cũ" và "kiểu mới" Trong đời sống, ví dụ nhƣ trong các bộ gõ Tiếng Việt, hiện vẫn tồn tại hai cách đặt dấu thanh Ví dụ "hòa" là một cách đặt dấu thanh khác cho

"hoà", trong đ "hòa" còn gọi là cách đặt dấu thanh "cũ" ảng 2.2 liệt kê các trường hợp mà hai cách đặt dấu thanh khác nhau

G dấu kiểu c G dấu kiểu mới òa, óa, ỏa, õa, ọa oà, oá, oả, oã, oạ òe, óe, ỏe, õe, ọe oè, oé, oẻ, oẽ, oẹ ùy, úy, ủy, ũy, ụy uỳ, uý, uỷ, uỹ, uỵ hòa hợp hoà hợp thiếu úy thiếu uý khỏe mạnh khoẻ mạnh

Bảng 2 2: Sự khác biệt về hai cách đặt dấu thanh khác nhau

Các bộ gõ tiếng Việt phổ biến hiện nay cũng cho phép tùy chỉnh chọn một trong hai cách gõ dấu kể trên Trong quá trình thu thập dữ liệu nghiên cứu nhận thấy có nhiều trường hợp các tên sản phẩm giống nhau nhưng lại có cách viết khác nhau khi các nhà cung cấp trên sàn thương mại điện tử đặt tên cho sản phẩm của mình

Do đ , việc cần làm là đƣa chúng về một bộ gõ tiêu chuẩn

2.2.3 Làm sach dữ liệu bằng chuẩn hóa dữ liệu viết thường

Theo Quyết định số 07/2003/QĐ- GDĐT ngày 13/3/2003 của Bộ trưởng Bộ

Giáo dục và Đào tạo về “Quy định tạm thời về viết hoa tên riêng trong sách giáo khoa”, nghiên cứu tóm tắt một số quy tắc viết hoa trong Tiếng Việt nhƣ sau:

1 Viết hoa chữ cái đầu âm tiết thứ nhất của một câu hoàn chỉnh

2 Viết hoa chữ cái đầu âm tiết thứ nhất của mệnh đề sau dấu chấm phẩy (;) và dấu phẩu (,) khi xuống dòng

3 Viết hoa chữ cái đầu âm tiết thứ nhất của nội dung (điểm, khoản, nhà…) 4 Viết hoa danh từ riêng chỉ tên người

5 Viết hoa tên địa lý 6 Viết hoa tên cơ quan, tổ chức, đoàn thể 7 Một số trường hợp khác

Tuy tên sản phẩm ít nằm trong các quy tắc viết hoa trên nhƣng thực tế nhiều tên sản phẩm bao gồm nh n hàng, thương hiệu bên trong hoặc do nhà cung cấp muốn nhấn mạnh một từ nào đ thì tên sản phẩm vẫn đƣợc viết hoa Do đ , cần đƣa tên sản phẩm trong tập dữ liệu về cùng một dạng để đảm bảo đầu vào cho mô hình sau này

2.2.4 Làm sach dữ liệu bằng loại bỏ các ký tự đặc biệt

Các ký tự đặc biệt, về cơ bản là những ký tự không phải chữ và số Những ký tự này thường được tìm thấy nhiều nhất trong các nhận xét, tài liệu tham khảo, số tiền tệ, v.v Tuy vậy những ký tự này không mang lại giá trị gì cho việc hiểu văn bản trong bài toán phân loại sản phẩm và có thể gây nhiễu cho các thuật toán

Nghiên cứu sử dụng biểu thức chính quy (regex) để loại bỏ các ký tự và số này

Danh sách ký tự đặc biệt: " !"#$%&'()*+,-./:;?@[\]^_`{|}~"

2.2.5 Xử lý tên sản phẩm bằng loại bỏ các “từ dừng”

Trong Xử lý ngôn ngữ tự nhiên, “từ dừng” là những từ thường được sử dụng trong ngôn ngữ nhƣng đƣợc coi là không mang thông tin hoặc không liên quan trong bối cảnh phân tích văn bản Những từ này thường được loại bỏ khỏi dữ liệu văn bản để cải thiện hiệu suất và độ chính xác của các nhiệm vụ xử lý ngôn ngữ tự nhiên nhƣ phân loại văn bản, truy xuất thông tin

Các từ dừng trong ngôn ngữ Tiếng Việt thường bao gồm các từ thông dụng nhƣ “ồ", "ừ", "với", "mà", "là", "và" Những từ này không c ý nghĩa ngữ nghĩa riêng của chúng và xuất hiện thường xuyên trong văn bản, do đ việc loại bỏ chúng giúp giảm số chiều dữ liệu và tập trung vào các từ quan trọng hơn Trong bộ dữ liệu về tên sản phẩm, đặc điểm của tên sản phẩm không phải văn bản trong một câu văn hoàn chỉnh nên số lƣợng “từ dừng” không xuất hiện nhiều nhƣ trong văn bản thông thường Tuy vậy, nghiên cứu vẫn sử dụng danh sách “từ dừng” tự xây dựng để đảm bảo hiệu quả của mô hình sau này

Bảng 2.3 là danh sách “từ dừng” trong tiền xử lý dữ liệu

Trích xuất đặc trƣng

Một trong những bước phức tạp nhất của quá trình phân loại văn bản là trích xuất các đặc trƣng của từng câu văn bản [1] Mục đích chính của việc này là xác định và chọn lọc các từ quan trọng cho việc giải thích văn bản, từ đ tạo ra một không gian đặc trƣng mới với cấu trúc toán học làm đầu vào cho mô hình sau này

Hầu hết các phương pháp sau đây trong trích xuất đặc trưng thuộc hai loại là phương pháp nhúng từ (word embedding) và phương pháp đánh trọng số từ (term- weighting)

 Nhúng từ (Word Embedding): Phương pháp nhúng từ tập trung vào việc học đặc trƣng và sử dụng một vector N chiều gồm các số thực để ánh xạ mỗi từ hoặc cụm từ trong từ vựng

 Đánh trọng số từ (Term Weighting): Ngƣợc lại, các kỹ thuật đánh trọng số từ sử dụng một vector chứa các trọng số đƣợc gán cho mỗi từ trong tài liệu tương ứng, nhằm phân biệt các thuật ngữ quan trọng

Nghiên cứu mô tả chi tiết từng phương pháp từ đ làm r cách thức hoạt động của từng kỹ thuật cũng như loại phương pháp mà từng kỹ thuật thuộc về

2.3.1 Phương pháp Túi từ (Bag of Words – BoW) Phương pháp Túi từ đơn

BoW [23] là một kỹ thuật xử lý ngôn ngữ tự nhiên trong việc mô hình hóa văn bản, là phương pháp truyền thống, tương đối đơn giản và linh hoạt để trích xuất đặc trưng từ dữ liệu văn bản Trong phương pháp này, chúng ta chỉ theo dõi số lần xuất hiện của từ và bỏ qua các chi tiết ngữ pháp và thứ tự từ N đƣợc gọi là "túi" từ vì mọi thông tin về thứ tự hoặc cấu trúc của các từ trong tài liệu đều bị bỏ qua Mô hình chỉ quan tâm đến việc các từ đ biết có xuất hiện trong tài liệu hay không, không quan tâm đến vị trí của chúng trong tài liệu

Giả sử, ta c ba văn bản đơn giản sau:

(1) Tôi đang làm luận văn thạc sỹ Bạn đ làm xong chƣa?

(2) Tùng rất thích đá b ng

(3) Quê hương tôi nổi tiếng với những cánh đồng thẳng cánh cò bay

Dựa trên ba tài liệu văn bản này, một danh sách đƣợc xây dựng nhƣ sau cho mỗi tài liệu Ví dụ dưới đây coi mỗi tiếng là một từ, "b ng đá" là "b ng" và "đá"

(1) “Tôi”, “đang”, “làm”, “luận”, “văn”, “thạc”, “sỹ”, “ ạn”, “đ ”, “làm”,

(2) “Tùng”, “rất”, “thích”, “đá”, “b ng”

(3) “Quê”, “hương”, “tôi”, “nổi”, “tiếng”, “với”, “những”, “cánh”, “đồng”,

Từ (1), (2) và (3), ta đếm số lần xuất hiện của từ trong mỗi văn bản và xây dựng đại diện cho mỗi túi từ dưới dạng sau:

BoW1: {“Tôi”:1, “đang”:1, “làm”:2, “luận”:1, “văn”:1, “thạc”:1, “sỹ”:1,

BoW2: {“Tùng”:1, “rất”:1, “thích”:1, “đá”:1, “b ng”:1}

BoW3: {“Quê”:1, “hương”:1, “tôi”:1, “nổi”:1, “tiếng”:1, “với”:1, “những”:1,

“cánh”:1, “đồng”:1, “thẳng”:1, “cánh”:1, “cò”:1, “bay”:1}

Từ BoW1, BoW2, BoW3 ta tạo ra đƣợc túi từ tổng hợp BoW bằng việc kết hợp 3 túi từ ban đầu và chỉ lấy các từ xuất hiện duy nhất Tức là nếu có một từ xuất hiện ở cả hai túi, ta sẽ chỉ lấy một BoW mới này gồm 29 từ sau:

BoW: {“Tôi”, “đang”, “làm”, “luận”, “văn”, “thạc”, “sỹ”, “ ạn”, “đ ”,

“xong”, “chưa”, “Tùng”, “rất”, “thích”, “đá”, “b ng”, “Quê”, “hương”, “tôi”,

“nổi”, “tiếng”, “với”, “những”, “cánh”, “đồng”, “thẳng”, “cánh”, “cò”, “bay”}

Từ đ c thể chuyển BoW này về dạng bảng nhƣ sau:

Tôi đang làm Luận văn … thẳng cánh cò bay

Lúc này, ta xây dựng vectơ đại diện cho từng văn bản (1), (2), (3) bằng cách ghi lại tần số xuất hiện của mỗi từ trong từng văn bản vào bảng trên

Tôi đang làm Luận văn … thẳng cánh cò bay

Bảng 2 4: Biến đổi văn bản gốc thành vecto bằng phương pháp BoW

Nhƣ vậy, ta thu đƣợc vectơ đại diện các văn bản (1), (2), (3) chính là các dòng trong bảng trên, là vectơ 2 chiều: 1 x 29 Ưu điểm

 Dễ triển khai: Bag of Words là một phương pháp đơn giản và dễ triển khai

 Hiệu quả với văn bản ngắn: Thích hợp cho các tập văn bản ngắn nhƣ phân loại văn bản hoặc dự đoán spam

 Đơn giản, hiệu quả trong mô hình học máy: Các ma trận BoW dễ dàng tính toán và đƣợc sử dụng trong nhiều mô hình học máy

 Mất thông tin về cấu trúc: BoW không giữ lại thông tin về cấu trúc hay thứ tự từ trong văn bản

 Kích thước lớn của vector: Với các văn bản dài hoặc các từ vựng lớn, ma trận BoW có thể trở nên rất lớn và hiệu suất tính toán có thể giảm

 TF: Term Frequency – Tần suất xuất hiện của một từ trong một văn bản

 IDF: Inverse Document Frequency – Nghịch đảo tần suất tập tài liệu

 t : Một từ trong văn bản

 d: Một văn bản trong toàn bộ tập văn bản

 T: Số lƣợng từ trong toàn bộ tập văn bản

 N: Số lƣợng câu trong toàn bộ tập văn bản

Khái niệm và công thức

 TF: Đo lường tần suất xuất hiện của một từ trong một đoạn văn bản Những đoạn văn bản c độ dài khác nhau, sẽ có những từ xuất hiện nhiều ở những đoạn văn bản dài thay vì những đoạn văn bản ngắn Vì thế, tần suất này thường được chuẩn hóa bằng cách chia cho số từ của đoạn văn bản o ( ) o tf(t,d) = ( )

 IDF: Đo lường mức độ thông tin tối đa mà một từ cung cấp trong toàn bộ tập văn bản hay là mức độ phổ biến, mức độ hiếm trên tất cả các tập tài liệu Khi tính toán TF, mỗi từ đều quan trọng nhƣ nhau, nhƣng c một số từ trong Tiếng Việt nhƣ "à", "ồ", "và", xuất hiện khá nhiều nhƣng lại rất ít quan trọng Vì vậy, IDF ra đời như một phương thức bù trừ những từ xuất hiện nhiều lần và tăng độ quan trọng của những từ ít xuất hiện nhƣng c ý nghĩa đặc biệt cho một số đoạn văn bản o idf(t, D) = |* +| | | o | | : Tổng số văn bản trong tập D o |* +|: Số câu trong toàn bộ tập văn bản có chứa từ t

 TF-IDF [21]: Là phương pháp thống kê khai thác dữ liệu văn bản, có mục tiêu là tính toán mức độ liên quan của một từ trong một chuỗi hoặc một tập dữ liệu văn bản Ý nghĩa của từ tăng theo tỷ lệ với số lần từ đ xuất hiện trong văn bản, nhƣng lại đƣợc cân bằng bởi tần suất từ trong tập dữ liệu o tf-idf(t, d) = tf(t, d) * idf(t, D) Như vậy, TF-IDF là một phương pháp đánh trọng số từ Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này, và xuất hiện ít trong các văn bản khác Việc này giúp lọc ra những từ phổ biến và giữ lại những từ có giá trị cao (từ khoá của văn bản đ ) Ưu điểm

 Loại bỏ được các từ phổ biến: Từ kh a thông thường như "à", "thì" thường c điểm TF-IDF thấp hơn, giúp tăng khả năng phân loại

 Không giữ lại thông tin về thứ tự từ: Giống nhƣ oW, TF-IDF không giữ lại thông tin về thứ tự từ

 Không hiểu biết về mối quan hệ ngữ nghĩa: TF-IDF không hiểu biết về mối quan hệ ngữ nghĩa giữa các từ

2.3.3 Các phương pháp Raw Embedding

Embedding là một kỹ thuật đưa một vectơ c số chiều lớn, thường ở dạng thưa, về một vectơ c số chiều nhỏ, thường ở dạng dày đặc Phương pháp này đặc biệt hữu ích với những đặc trưng c số chiều lớn ở đ phương pháp chủ yếu để biểu diễn mỗi giá trị thường là một vectơ dạng one-hot Một cách lý tưởng, các giá trị có ý nghĩa tương tự nhau nằm gần nhau trong không gian embedding

Ví dụ nổi bật nhất là biểu diễn các từ trong một bộ từ điển dưới dạng số Khi từ điển có hàng triệu từ, biểu diễn các từ dưới dạng one-hot vectơ dẫn tới số chiều vô cùng lớn Hơn nữa, các từ này sẽ có khoảng cách đều nhau tới mọi từ khác (căn bậc hai của 2), dẫn đến việc thiếu thông tin giá trị cho việc huấn luyện mô hình học máy Chẳng hạn, một cách biểu diễn tốt các từ Tiếng Việt sẽ có khả năng mô tả liên quan mạnh giữa cặp từ (vua, hoàng hậu) và (chồng, vợ) vì chúng c ý nghĩa gần nhau

Các mô hình phân loại

Sau khi văn bản đ đƣợc tiền xử lý và trích xuất thành các vectơ đặc trƣng, phần chính của quy trình là thực hiện tác vụ phân loại dựa trên việc thiết kế các mô hình

 Nếu bài toán là phân loại đa lớp, thuật toán sẽ gán mỗi tài liệu đƣợc phân loại vào một danh mục

 Nếu bài toán là phân loại đa nh n, thuật toán sẽ gán mỗi tài liệu đƣợc phân loại cho 0 hoặc nhiều danh mục

Trong trường hợp học có giám sát hoặc học bán giám sát, các danh mục này được biết trước, trong khi trong trường hợp học không giám sát, thuật toán sẽ tự quyết định các danh mục Hiện nay, có rất nhiều thuận toán cho tác vụ phân loại

Trong phần này, nghiên cứu mô tả các phương pháp dựa trên máy học phổ biến nhất, mỗi phương pháp c ưu điểm, nhược điểm và hạn chế riêng

2.4.1 Decision Trees (DT - Cây Quyết Định)

Thuật toán Decision Tree (Cây Quyết Định) [12] là một thuật toán phân loại giám sát đƣợc sử dụng rộng rãi cho nhiều loại vấn đề máy học, hoạt động bằng cách chia quyết định phức tạp thành một tập hợp các quyết định đơn giản hơn Điều này đƣợc thực hiện bằng cách tạo ra một cấu trúc giống cây, phân loại dữ liệu bằng cách theo d i đường dẫn từ gốc đến lá Thuộc tính mang thông tin lớn nhất được chọn làm nút cha, và các thuộc tính tiếp theo đƣợc gán cho các nút con Điều này đƣợc biểu diễn trong Hình 2.4 Decision Tree có lợi thế cung cấp một giải pháp rất dễ hiểu, so với các mô hình máy học có cách tiếp cận giống nhƣ hộp đen hơn Mỗi nhánh trong cây đại diện cho kết quả của thử nghiệm đƣợc thực hiện ở mỗi cấp độ trong cây

Hình 2 4: Sơ đồ tổng quan thuật toán Cây Quyết Định - Decision Tree

Có một số thuật toán áp dụng cho Decision Tree, có thể kể tới nhƣ: ID3, CART, CHAID, MARS trong đ thuật toán sẽ tính toán các chỉ số entropy, information gain, gini…Decision Tree là một thuật toán rất nhanh cho cả quá trình huấn luyện và dự đoán, nhƣng lại rất nhạy cảm với các biến đổi nhỏ của dữ liệu đầu vào Do đ , thường ta thực hiện thuật toán này bằng cách kết hợp nhiều cây quyết định với phương pháp tập hợp, như oosting hoặc Bagging Ưu điểm

 Dễ hiểu và dễ giải thích: Decision Tree là một mô hình đơn giản và dễ hiểu, dễ giải thích cho các quyết định

 Xử lý dữ liệu không liên tục: Decision Tree có thể xử lý dữ liệu không liên tục và không yêu cầu tiền xử lý dữ liệu phức tạp

 Dễ bị overfitting: Decision Tree có thể dễ bị overfitting nếu không đƣợc lựa chọn tham số một cách thích hợp

 Không phù hợp cho dữ liệu phức tạp: Decision Tree có thể không phù hợp cho các dữ liệu phức tạp và có mối quan hệ phi tuyến tính

2.4.2 Random Forest (RF - Rừng Ngẫu Nhiên)

Thuật toán Random Forest [18] (Rừng Ngẫu Nhiên) là một trong những thuật toán phân loại đƣợc sử dụng phổ biến nhất hiện nay, và hoạt động bằng cách cung cấp dữ liệu đầu vào cho một số cây quyết định khác nhau và sau đ kết hợp kết quả của chúng bằng cách bỏ phiếu Sơ đồ tổng quan thuật toán Random Forest đƣợc thể hiện ở Hình 2.5

Hình 2 5: Sơ đồ tổng quan thuật toán Rừng Ngẫu Nhiên - Random Forest

Trong thuật toán Decision Tree, khi xây dựng cây quyết định nếu để độ sâu tùy ý thì cây sẽ phân loại đúng hết các dữ liệu trong tập huấn luyện dẫn đến mô hình có thể dự đoán tệ trên tập kiểm chứng/kiểm thử, khi đ mô hình bị overfitting

Thuật toán Random Forest gồm nhiều cây quyết định, mỗi cây quyết định đều có những yếu tố ngẫu nhiên:

 Lấy ngẫu nhiên dữ liệu để xây dựng cây quyết định

 Lấy ngẫu nhiên các thuộc tính để xây dựng cây quyết định

Do mỗi cây quyết định trong thuật toán Random Forest không dùng tất cả dữ liệu huấn luyện, cũng nhƣ không dùng tất cả các thuộc tính của dữ liệu để xây dựng cây nên mỗi cây có thể sẽ dự đoán không tốt, khi đ mỗi mô hình cây quyết định không bị overfitting mà có thế bị underfitting Tuy nhiên, kết quả cuối cùng của thuật toán Random Forest lại tổng hợp từ nhiều cây quyết định, thế nên thông tin từ các cây sẽ bổ sung thông tin cho nhau, dẫn đến mô hình sẽ có kết quả dự đoán tốt Ưu điểm

 Giảm overfitting: Random Forest giảm thiểu tình trạng overfitting so với một cây quyết định đơn lẻ bằng cách kết hợp nhiều cây quyết định

 Hiệu suất tốt: Random Forest thường có hiệu suất tốt trên nhiều loại dữ liệu và không yêu cầu nhiều tuỳ chỉnh

 Khó giải thích: Random Forest không dễ giải thích nhƣ Decision Tree

 Tốn kém về tính toán: Random Forest tốn kém về tính toán so với Decision Tree

Naive Bayes nằm trong họ thuật toán liên quan tới xác suất, khi đƣợc áp dụng cho bài toán phân loại các điểm quan sát về đúng lớp, thuật toán sẽ tính toán xác suất để điểm quan sát này thuộc về lớp đ

Xét bài toán phân loại gồm C lớp 1, 2, …, C Giả sử điểm dữ liệu x R d Tính xác suất để điểm dữ liệu này rơi vào lớp c hoặc tính xác suất đầu ra y = c khi biết đầu vào là vectơ x Công thức:

Nhƣ vậy, với xác suất tính đƣợc cho từng lớp c C, ta sẽ xác định đƣợc lớp tương ứng cho vectơ x bằng cách lựa chọn lớp có xác suất cao nhất Công thức: c = argmax P(c|x) (c C)

Theo quy tắc Bayes, công thức trên tương đương với:

Mặt khác, P(x) không phụ thuộc vào c P(c) chính là xác suất một điểm rơi vào lớp c trong tập dữ liệu hay bằng tỉ lệ số điểm dữ liệu trong tập huấn luyện rơi vào lớp này chia cho tổng số lƣợng dữ liệu trong tập huấn luyện Nhƣ vậy, để tính được xác suất P(c|x), việc cần xử lý là tính P(x|c) Việc này thường rất khó tính toán vì x là một biến ngẫu nhiên nhiều chiều, cần rất rất nhiều dữ liệu huẩn luyện để có thể tính được P(c|x) Để giúp cho việc tính toán được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các thành phần của biến ngẫu nhiên x là độc lập với nhau Tức là:

Giả thiết các chiều của dữ liệu độc lập với nhau (nếu biết c) là quá chặt và ít khi tìm đƣợc dữ liệu mà các thành phần hoàn toàn độc lập với nhau Tuy nhiên, giả thiết này lại mang lại những kết quả tốt bất ngờ và đ là lý do Naive ayes ra đời Ưu điểm

 Dễ triển khai: Naive Bayes là một mô hình đơn giản và dễ triển khai

 Hiệu suất tốt trên các tập dữ liệu lớn: Naive ayes thường hoạt động tốt trên các tập dữ liệu lớn và thường không yêu cầu nhiều tài nguyên tính toán

 Giả định độc lập: Naive Bayes giả định rằng các biến độc lập với nhau, điều này có thể không đúng trong thực tế và dẫn đến kết quả không chính xác trong một số trường hợp

 Yếu với các biến liên tục hoặc dữ liệu phi tuyến tính: Naive Bayes không hoạt động tốt trên các biến liên tục hoặc dữ liệu có mối quan hệ phi tuyến tính giữa các biến

2.4.4 Support Vector Machine (SVM - Máy vectơ hỗ trợ)

Các phương pháp đánh giá một mô hình phân loại

Khi xây dựng một mô hình học máy, chúng ta cần một hoặc nhiều các chỉ số đánh giá để so sánh độ hiệu quả giữa các mô hình Tùy vào bài toán khác nhau mà các phương pháp khác nhau sẽ được sử dụng Với bài toán xây dựng mô hình phân loại nhiều nhãn, nghiên sử dụng 6 phương pháp đánh giá chi tiết ở dưới

2.5.1 Độ chính xác (Accuracy) Định nghĩa Độ chính xác là một trong những thước đo đánh giá phổ biến và đơn giản nhất đƣợc sử dụng trong bài toán phân loại N đo tỷ lệ các mẫu đƣợc phân loại đúng so với tổng số mẫu trong tập dữ liệu Nói cách khác, nó tính phần trăm các dự đoán đúng của mô hình

Công thức Độ chính xác = (Số lƣợng Dự đoán Đúng) / (Tổng số Dự đoán) Ưu điểm

 Đơn giản và dễ hiểu: Độ chính xác là một chỉ số trực quan, dễ dàng tính toán và hiểu đƣợc

 Phù hợp với tập dữ liệu cân bằng: Khi số lƣợng mẫu trong các lớp cân bằng, độ chính xác có thể phản ánh hiệu quả chung của mô hình

 Bị ảnh hưởng bởi sự mất cân bằng dữ liệu: Khi số lượng mẫu trong các lớp không cân bằng, độ chính xác có thể bị đánh lừa bởi lớp đa số và không phản ánh chính xác hiệu quả của mô hình

 Bỏ qua thông tin chi tiết: Độ chính xác chỉ cung cấp thông tin chung về hiệu quả mô hình mà không cho biết chi tiết về khả năng phân loại các lớp khác nhau

2.5.2 Ma trận nhầm lẫn (Confusion Matrix) Định nghĩa

 True Positive (TP): số lƣợng điểm của lớp positive đƣợc phân loại đúng là positive

 True Negative (TN): số lƣợng điểm của lớp negative đƣợc phân loại đúng là negative

 False Positive (FP): số lƣợng điểm của lớp negative bị phân loại nhầm thành positive

 False Negative (FN): số lƣợng điểm của lớp positive bị phân loại nhầm thành negative

Hình 2 14: Ma trận hỗn loạn trong bài toán phân loại hai lớp

Ma trận nhầm lẫn thể hiện c bao nhiêu điểm dữ liệu thực sự thuộc vào một nh n, và đƣợc dự đoán là rơi vào một nhãn Tổng các phần tử trong toàn ma trận này chính là số điểm trong tập kiểm thử và các phần tử trên đường chéo của ma trận là số điểm đƣợc phân loại đúng của mỗi lớp dữ liệu

Trong những bài toán phân lớp, người ta thường định nghĩa lớp dữ liệu quan trọng hơn cần được xác định đúng là lớp Positive (P-dương tính), lớp còn lại được gọi là Negative (N-âm tính) Từ đ các định nghĩa True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) dựa trên ma trận hỗn loạn đƣợc thiết kế nhƣ Hình 2.14 Ưu điểm

 Cung cấp thông tin chi tiết về hiệu quả phân loại: Ma trận nhầm lẫn cho phép nhận xét rõ ràng mô hình dự đoán sai và đúng ở những trường hợp nào

 Giúp xác định các vấn đề của mô hình: Ma trận nhầm lẫn giúp xác định đƣợc các lớp mà mô hình phân loại sai nhiều nhất, từ đ c thể điều chỉnh mô hình để cải thiện hiệu quả

 Dễ dàng trực quan hóa

 Bị ảnh hưởng bởi sự mất cân bằng dữ liệu: Khi số lượng mẫu trong các lớp không cân bằng, ma trận nhầm lẫn có thể bị đánh lừa bởi lớp đa số và không phản ánh chính xác hiệu quả của mô hình

 Ma trận nhầm lẫn có thể trở nên khó hiểu khi số lƣợng lớp lớn

2.5.3 Precision và Recall Định nghĩa

 Precision: Là tỉ lệ số điểm true positive trong số những điểm đƣợc phân loại là positive (TP + FP) Hay còn là độ chính xác của các điểm dự đoán

 Recall: Là tỉ lệ số điểm true positive trong số những điểm thực sự là positive (TP + FN) Hay còn gọi là độ phủ của các điểm dự đoán

Bài toán phân loại nhiều lớp

 Một bài toán phân loại dữ liệu nhiều lớp sẽ c điểm precision và score riêng cho từng lớp, từ đ ta c thể tính trung bình hoặc bất cứ phương pháp nào để ra đƣợc độ phủ và độ chính xác của toàn bộ mô hình

 Khi Precision = 1, mọi điểm tìm đƣợc đều thực sự là positive, tức không có điểm negative nào lẫn vào kết quả Tuy nhiên, Precision = 1 không đảm bảo mô hình là tốt, vì câu hỏi đặt ra là liệu mô hình đ tìm đƣợc tất cả các điểm positive hay chƣa Nếu một mô hình chỉ tìm đƣợc đúng một điểm positive mà nó chắc chắn nhất thì ta không thể gọi nó là một mô hình tốt

 Khi Recall = 1, mọi điểm positive đều đƣợc tìm thấy Tuy nhiên, đại lƣợng này lại không đo liệu c bao nhiêu điểm negative bị lẫn trong đ Nếu mô hình phân loại mọi điểm là positive thì chắc chắn Recall = 1, tuy nhiên dễ nhận ra đây là một mô hình cực tồi

Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao, tức càng gần 1 càng tốt Mô hình nhiều lớp sẽ dẫn đến tồn tại những lớp độ phủ và độ chính xác đều cao và những lớp độ phủ, độ chính xác đều thấp

F1-Score là trung bình điều hòa của precision và recall (precision và recall khác 0)

Bài toán phân loại nhiều lớp

 F1-score có giá trị nằm trong khoảng (0, 1] F1-score càng cao, mô hình phân loại càng tốt F1-score phụ thuộc bởi cả precision và recall

 Tương tự Precision và Recall, F1-score cũng được tính cho từng lớp Ưu điểm

CHUẨN BỊ VÀ PHÂN TÍCH DỮ LIỆU

Phương pháp thu thập dữ liệu

Nghiên cứu phục vụ trực tiếp cho bài toán phân loại sản phẩm thương mại điện tử sử dụng tên Tiếng Việt là một dạng xử lý ngôn ngữ tự nhiên Tiếng Việt do đ tập dữ liệu được thu thập từ các Sàn thương mại điện tử phố biến tại Việt Nam (Theo thống kê dựa trên Similarweb – Trang web đánh giá lưu lượng truy cập các website lớn nhất thế giới)

Tiêu chí Sàn thương mại điện tử uy tín như sau:

 Số lƣợng sản phẩm và danh mục đa dạng

 Số lượng người dùng lớn

 Số lƣợng truy cập lớn Danh sách Sàn thương mại điện tử:

 Bách Hóa Xanh (Bachhoaxanh.com)

 Icheck (icheck.vn) Dữ liệu đƣợc thu thập trong năm 2022 và 2023 để đảm bảo tính chính xác và mới mẻ về các sản phẩm Đồng thời phương pháp chuẩn bị dữ liệu theo hướng thu thập từ nhiều nguồn khác nhau để đảm bảo tính đa dạng trong việc đặt tên sản phẩm Để quá trình chuẩn bị dữ liệu được đầy đủ, các sàn thương mại điện tử như Shopee, Tiki cung cấp cho người dùng giải pháp API, vì vậy có thể thu thập dữ liệu một cách trực tiếp bằng việc sử dụng API này Tuy nhiên, với các sàn thương mại điện tử còn lại nhƣ ách Hoá Xanh, Icheck, học viên sử dụng hai thƣ viện chính là Selenium và eautifulSoup để thao tác trực tiếp trên HTML của các sàn này từ đ đƣa dữ liệu về

Mặt khác, dữ liệu ở các sàn thương mại điện tử khác nhau có thể giống nhau, do đ dữ liệu sẽ được đưa qua bước lọc bỏ dữ liệu trùng đảm bảo dữ liệu cuối cùng chỉ chứa các sản phẩm duy nhất Đồng thời vì mỗi sàn thương mại điện tử có quy chuẩn đặt tên danh mục khác nhau, do đ học viên tự xây dựng một bộ cây danh mục chuẩn, từ đ ánh xạ các tên danh mục khác nhau về danh mục gốc này để tránh việc quá nhiều tên danh mục khác nhau nhƣng thực chất chỉ là một danh mục gốc (nhƣ Mỹ phẩm, Làm đẹp, Sắc đẹp đều là thuộc danh mục Mỹ phẩm).

Phân tích tập dữ liệu

Dựa trên phương pháp thu thập dữ liệu ở Mục 3.1, học viên thu thập được 1.120.150 sản phẩm khác nhau Tuy nhiên qua quá trình xoá bỏ các sản phẩm trùng lặp do một nhà cung cấp có thể đăng tải một sản phẩm trên nhiều sàn thương mại điện tử khác nhau, dữ liệu cuối cùng sau khi xoá bỏ trùng lặp còn 660.308 sản phẩm (Tương ứng 60% số lượng sản phẩm thu thập ban đầu)

Dữ liệu cuối cùng gồm 660.308 tên sản phẩm thuộc 15 danh mục khác nhau, số liệu thống kê chi tiết như ảng 3.1 bên dưới

Danh mục Số lƣợng sản phẩm Tỷ lệ sản phẩm

Sách và văn phòng phẩm 49.391 7.5%

Mẹ và é 31.996 4.8% Điện tử - Điện máy 22.387 3.4%

Bảng 3 1: Thống kê số lƣợng sản phẩm từng danh mục

Số liệu thống kê trên đ loại bỏ:

 Các sản phẩm đƣợc đặt tên trùng nhau hoàn toàn

 Các dòng sản phẩm bị thiếu hoặc mất trong quá trình thu thập dữ liệu

3.2.2 Phân tích thống kê mô tả tập dữ liệu

Việc phân tích mô tả tập dữ liệu phục vụ các mục đích sau:

 Hiểu sâu hơn về dữ liệu: Bằng cách phân tích độ dài của tên sản phẩm có thể hiểu đƣợc phân phối của tập dữ liệu là nhƣ thế nào Điều này có thể giúp phát hiện ra các đặc điểm độc đáo của dữ liệu, nhƣ sự đa dạng về độ dài tên sản phẩm

 Tiền xử lý dữ liệu: Thông tin về độ dài của tên sản phẩm có thể đƣợc sử dụng trong quá trình tiền xử lý dữ liệu Ví dụ, có thể quyết định cắt bớt hoặc bổ sung các từ để chuẩn h a độ dài của tên sản phẩm trước khi đưa vào model

 Trích xuất đặc trƣng: Độ dài của tên sản phẩm có thể trở thành một đặc trƣng quan trọng trong việc xây dựng mô hình Ví dụ có thể tạo ra các biến phái sinh khác từ độ dài này, nhƣ làm tròn đến các khoảng độ dài nhất định hoặc chia thành các nhóm (ví dụ: tên ngắn, tên trung bình, tên dài)

3.2.2.1 Phân tích tên sản phẩm chỉ chứa các từ đơn riêng lẻ

Ví dụ sản phẩm “sữa rửa mặt obagi” gồm 4 từ riêng lẻ: “sữa”, “rửa”, “mặt”,

“obagi” nhƣ vậy độ dài của tên sản phẩm này là 4 Hình 3.1 thể hiện biểu đồ tần suất theo dạng cột theo dõi sự phân bổ toàn bộ tập dữ liệu theo độ dài tên sản phẩm

Tập dữ liệu phân phối lệch phải, đa số các sản phẩm c độ dài từ 1 từ đến 10 từ, đặc biệt nhiều nhất từ 1 đến 3 từ

Hình 3 1: Biểu đồ Histogram thể hiện phân phối dữ liệu theo độ dài tên sản phẩm

Hình 3.2 thể hiện độ dài trung bình của tên sản phẩm, các chỉ số mô tả sự phân bố, phân tán của tập dữ liệu nhƣ tứ phân vị (Q1, Q2, Q3) cùng các điểm dữ liệu ngoại lai theo mỗi ngành hàng

Hình 3 2: Biểu đồ Box Plot thể hiện phân phối dữ liệu theo từng ngành hàng Đường thẳng màu đỏ nét đứt trong Hình 3.2 thể hiện độ dài trung vị tên sản phẩm của toàn bộ tập dữ liệu Rõ ràng có sự khác nhau nhất định về độ dài trong 15 danh mục Hai danh mục “Sắc đẹp” và “Thời trang trẻ em” c điểm trung vị độ dài tên sản phẩm lớn nhất trong các ngành hàng và cao hơn hẳn nhóm còn lại cụ thể lớn hơn 10 từ, trong khi các danh mục nhƣ “Nhà thuốc”, “Phân b n và thuốc trừ sâu”,

“Nông sản và thực phẩm” chỉ c điểm trung vị độ dài trong tên sản phẩm khoảng 3 từ đến 5 từ Ngoài ra, với biểu đồ Box plot ở Hình 1.1 ta nhận thấy tất cả các ngành hàng đều có số lƣợng nhất định các điểm ngoại lệ

Sự khác biệt này có thể đến từ hành vi nhập tên sản phẩm khác biệt của các nhà cung cấp trên sàn thương mại điện tử, tuy nhiên bài nghiên cứu sẽ xem xét phân tích độ dài tên sản phẩm này để kiểm định xem có mỗi tương quan giữa độ dài tên sản phẩm và độ chính xác của mô hình phân loại hay không ở phần sau Để hiểu r hơn về tập dữ liệu tên sản phẩm, nghiên cứu tiếp tục mô phỏng và trực quan hóa dữ liệu tên sản phẩm bằng Hình đám mây từ ngữ - Hình 3.3 và diễn giải các từ đƣợc sử dụng nhiều nhất

Hình 3 3: Mô phỏng dữ liệu dạng đám mây - Từ khóa xuất hiện nhiều nhất

Hình 3.3 thể hiện các từ khóa liên quan tới danh mục thời trang xuất hiện nhiều nhất (Những chữ cái kích cỡ to hơn hẳn các chữ khác trong dữ liệu dạng đám mây) Điều này là phù hợp với tập dữ liệu có số lƣợng sản phẩm trong danh mục Thời trang lớn (17.1%), các từ khóa liên quan tới danh mục này cũng xuất hiện nhiều nhất Tuy nhiên do hướng phân tích hiện tại đang coi mỗi từ trong tên sản phẩm là một từ riêng lẻ nên khi thay đổi cách phân loại theo từ đơn từ ghép của Tiếng Việt, các từ khóa xuất hiện nhiều nhất sẽ thay đổi

3.2.2.2 Phân tích tên sản phẩm chứa các từ đơn và từ phức Đối với từ trong Tiếng Việt, căn cứ theo cấu tạo và theo số lƣợng tiếng trong một từ, người ta sẽ chia ra thành 2 loại là từ đơn và từ phức Từ đơn là từ được cấu tạo bởi 1 tiếng và từ phức là từ đƣợc cấu tạo bởi 2 tiếng trở lên Ví dụ từ đơn: “tôi”,

“đi”, “đẹp”, “hoa”, “và” còn từ phức: “ăn uống”, “ăn năn”, “xinh đẹp”, “tẩy trang”,

“dƣỡng da” Lúc này sản phẩm “Kem tẩy trang Loreal” gồm các từ: “kem”, “tẩy trang”, “loreal” Phục vụ phân tích tập dữ liệu sâu hơn, nghiên cứu sử dụng VnCoreNLP - Bộ công cụ xử lý Ngôn ngữ tự nhiên Tiếng Việt (VnCoreNLP: A

Vietnamese Natural Language Processing Toolkit) [17] đ rất phổ biến cho việc tách văn bản thành từ đơn từ phức

Hình 3.4 thể hiện biểu đồ tần suất theo dạng cột theo dõi sự phân bổ toàn bộ tập dữ liệu theo độ dài tên sản phẩm, nhƣng lúc này tên sản phẩm đ đƣợc tách ra thành từ đơn và từ ghép Tập dữ liệu phân phối lệch phải, đa số các sản phẩm c độ dài từ 1 từ đến 10 từ, tuy nhiên đ c sự khác biệt khi số sản phẩm c độ từ từ 3 tử - 7 từ xuất hiện nhiều nhất Điều này có thể gây ảnh hưởng tới độ chính xác của mô hình sau này nếu ta sử dụng phương pháp tách tên sản phẩm thành từ đơn và từ ghép

Hình 3 4: Biểu đồ Histogram thể hiện phân phối dữ liệu theo độ dài tên sản phẩm

Tương tự, nghiên cứu thử nghiệm vẽ biểu đồ Box plot và biểu đồ mô phỏng dữ liệu dạng đám mây nhƣ Hình 3.2 và Hình 3.3 để kiểm tra so sánh các sự khác biệt giữa hai hướng phân tích Lần này nghiên cứu sẽ chỉ sử dụng các từ phức thay vì từ đơn

Hình 3 5: Biểu đồ Box Plot thể hiện phân phối dữ liệu theo từng ngành hàng

Hình 3 6: Mô phỏng dữ liệu dạng đám mây - Từ khóa xuất hiện nhiều nhất

Sự khác biệt của mô phỏng dữ liệu dạng đám mây ở Hình 3.6 và Hình 3.3 là rất rõ ràng Khi chỉ sử dụng từ ghép để thống kê tần suất xuất hiện nhƣ Hình 3.6 các cụm từ “hàng mới”, “cho bé”, “chống nắng” xuất hiện nhiều trong khi nếu dùng từ đơn nhƣ Hình 3.3 các từ xuất hiện nhiều là “quần”, “áo”, “bộ”

Tiền xử lý dữ liệu

Tiền xử lý dữ liệu đề cập đến các bước và kỹ thuật áp dụng cho dữ liệu gốc trước khi đưa vào mô hình học máy hoặc học sâu Điều này bao gồm biến đổi dữ liệu thành một định dạng phù hợp và mang tính thông tin cao hơn đối với thuật toán học Tiền xử lý đ ng vai trò quan trọng trong học máy vì nó có thể ảnh hưởng đáng kể đến hiệu suất và độ chính xác của các mô hình ƣớc này bao gồm xử lý dữ liệu bị thiếu, xử lý các giá trị ngoại lệ (outliers) và sửa các dữ liệu không nhất quán hoặc lỗi trong dữ liệu Tập dữ liệu trong nghiên cứu không có dữ liệu bị thiếu, phần này chủ yếu liên quan tới việc chuẩn h a văn bản Tiếng Việt về chung một dạng chuẩn và mã hóa nhãn dự đoán

3.3.1 Chuẩn hóa tên sản phẩm

Hình 3.7 mô tả tổng quan quá trình làm sạch dữ liệu từ đầu vào tới kết quả đầu ra

Hình 3 7: Mô phỏng quá trình làm sạch dữ liệu tên sản phẩm

Cụ thể phương pháp làm sạch dữ liệu ở Hình 3.7 được diễn giải chi tiết qua 5 bước bên dưới

Bước 1: Làm sạch dữ liệu bằng chuẩn h a Bảng m Unicode Tiếng Việt

Nghiên cứu thay thế cách gõ Unicode tổ hợp bằng cách gõ của Unicode dựng sẵn, nhƣ vậy tên các sản phẩm trong tập dữ liệu đều đƣợc chuẩn h a về cùng Unicode dựng sẵn Với phương pháp làm sạch dữ liệu này, nghiên cứu đảm bảo đồng thời không làm thay đổi cấu trúc dữ liệu gốc

Bước 2: Làm sạch dữ liệu bằng chuẩn h a kiểu g dấu Tiếng Việt

Nghiên cứu thay thế kiểu gõ dấu mới bằng kiểu gõ dấu cũ, nhƣ vậy tên các sản phẩm trong tập dữ liệu đều đƣợc chuẩn h a về cùng kiểu gõ dấu cũ Với phương pháp làm sạch dữ liệu này, nghiên cứu đảm bảo đồng thời không làm thay đổi cấu trúc dữ liệu gốc

Bước 3: Làm sạch dữ liệu bằng đưa toàn bộ dữ liệu về viết thường

Nghiên cứu chuyển đổi các từ viết hoa về viết thường Với phương pháp làm sạch dữ liệu này, nghiên cứu đảm bảo đồng thời không làm thay đổi cấu trúc dữ liệu gốc

Bước 4: Làm sạch dữ liệu bằng loại bỏ các ký tự đặc biệt

Nghiên cứu x a bỏ các ký tự đặc biệt trong danh sách trên Với phương pháp làm sạch dữ liệu này, nghiên cứu đảm bảo đồng thời không làm thay đổi cấu trúc dữ liệu gốc

Bước 5: Xử lý tên sản phẩm bằng loại bỏ các “từ dừng”

Nghiên cứu x a bỏ các từ dừng nằm trong danh sách trên

3.3.2 Mã hóa nhãn danh mục sản phẩm

Mã hóa nhãn biến đổi các danh mục sản phẩm thành dạng số nguyên duy nhất, từ đ c thể sử dụng chúng nhƣ các biến đầu vào cho mô hình phân loại Bảng 3.2 dưới là kết quả từng danh mục sau khi mã hóa

Danh mục Mã hóa Danh mục Mã hóa

Hoa và quà tặng 2 Thú cƣng 10

Mẹ và Bé 3 Thời trang người lớn

Nhà thuốc 4 Thời trang trẻ em 12

Nội thất gia dụng 6 Xe máy link kiện 14

Phân bón thuốc trừ sâu

Sách và văn phòng phầm

Bảng 3 2: Mã hóa nhãn danh mục sản phẩm

Chuẩn bị dữ liệu cho mô hình phân loại

Theo Mục 3.2.2 ở trên, đối với từ trong Tiếng Việt, căn cứ theo cấu tạo và theo số lƣợng tiếng trong một từ, chúng ta sẽ chia ra thành 2 loại là từ đơn và từ phức Và việc xử lý phần đầu vào của tên sản phẩm theo từ đơn riêng lẻ hoặc từ đơn và từ phức sẽ ảnh hưởng tới độ chính xác của mô hình sau này

Nhƣ vậy từ tập dữ liệu ban đầu, tập dữ liệu mới bao gồm danh sách tên sản phẩm cũ và danh sách tên sản phẩm mới (sau khi tách từ) Nghiên cứu sẽ sử dụng tập hợp danh sách này nhƣ các đầu vào khác nhau cho toàn bộ các mô hình Từ đ , nghiên cứu sẽ xem xét việc tách tên sản phẩm thành các từ đơn và từ phức có ảnh hưởng như thế nào tới độ chính xác của mô hình

3.4.1.1 Các công cụ tách từ Tiếng Việt

Hiện tại, ngôn ngữ Tiếng Việt có một số công cụ hỗ trợ cho việc nghiên cứu và phát triển xử lý ngôn ngữ tự nhiên tiếng Việt trong bài toán tách từ Hầu hết các công cụ này đều có mục tiêu là trở thành công cụ hoàn chỉnh, mã nguồn mở, dễ dàng cài đặt và sử dụng như các sản phẩm tương đương đối với tiếng Anh như nltk, polyglot, spacy Sau đây, là một số công cụ phổ biến nhất thường được sử dụng:

 PyVi: PyVi là một thƣ viện mã nguồn mở cho Python, đƣợc sử dụng để tách từ Tiếng Việt từ văn bản đầu vào Tính năng chính mà PyVi cung cấp là các hàm để tách từ tiếng Việt thông qua phương pháp quy tắc và kiểm tra từ trong từ điển PyVi cũng hỗ trợ việc gỡ bỏ dấu tiếng Việt và đƣa chúng về dạng không dấu (Unicode)

 VnCoreNLP: VnCoreNLP [17] sử dụng các mô hình học máy phức tạp để phân tích ngôn ngữ Tiếng Việt Chức năng chính mà VnCoreNLP cung cấp là tách từ, gán nhãn từ loại, phân tích cú pháp và gán nhãn thực thể

 Underthesea: Underthesea cung cấp các API cực kỳ dễ dàng để áp dụng các mô hình huấn luyện trước NLP cho văn bản Tiếng Việt, như phân đoạn từ, nhận dạng thực thể có tên, phân loại văn bản và phân tích cú pháp phụ thuộc

3.4.1.2 Quy trình tách từ phục vụ xây dựng tập dữ liệu

Hình 3.8 mô tả cách triển khai các công cụ Pyvi, VnNlpCore, Underthesea để tạo ra thêm 4 tập dữ liệu mới

Hình 3 8: Quá trình xây dựng tập dữ liệu mới bằng các công cụ khác nhau

Tập dữ liệu gốc (Tập dữ liệu 1) ban đầu đƣợc đƣa qua VnNlpCore để tách từ đơn thành các từ đơn và từ phức tạo thành Tập dữ liệu 2 (Sử dụng VnNlpCore)

Tương tự, tập dữ liệu gốc được đưa qua PyVi để tách từ tạo thành Tập dữ liệu 3 (Sử dụng Pyvi), tập dữ liệu gốc đƣợc đƣa qua Underthesea để tách từ tạo thành Tập dữ liệu 4 (Sử dụng Underthesea) Và để đánh giá trên tổng thế, tập dữ liệu gốc đƣợc đƣa qua cả VnNlpCore, Pyvi và Underthesea để tạo thành Tập dữ liệu 5 (Sử dụng VnNlpCore, Pyvi và Underthesea)

3.4.2 Xây dựng tập huấn luyện, tập kiểm chứng, tập kiểm thử

Trong quá trình xây dựng các mô hình học máy, chúng ta cần có những phương pháp kiểm tra để đánh giá khả năng hoạt động hiệu quả của mô hình trên thực tế Và việc xây dựng các tập dữ liệu để kiểm chứng và kiểm thử ngay trong sau khi huấn luyện là một nhu cầu tất yếu Nghiên cứu sẽ chia tập dữ liệu ban đầu thành 3 phần: Tập huấn luyện – Tập kiểm chứng và sử dụng các tập dữ liệu này cho những vai trò riêng rẽ

 Tập huấn luyện (Training Set): Là tập dữ liệu đƣợc sử dụng để huấn luyện mô hình Các thuật toán học máy sẽ học các mô hình từ tập huấn luyện này Việc học sẽ khác nhau tùy thuộc vào thuật toán và mô hình sử dụng

 Tập kiểm thử (Validation Set): Là tập dữ liệu để đo lường sai số và đánh giá hiệu quả của mô hình sau huấn luyện Mục tiêu của machine learning là tạo ra những mô hình có khả năng tổng quát h a để dự đoán tốt trên cả dữ liệu chƣa thấy bao giờ (nằm ngoài tập huấn luyện) Chúng ta biết nhãn thực của mọi điểm trong tập hợp dữ liệu kiểm thử này, nhƣng chúng ta sẽ tạm thời giả vờ nhƣ không biết và đƣa các giá trị đầu vào của tập vào mô hình dự đoán để nhận kết quả dự đoán đầu ra Sau đ chúng ta có thể nhìn vào các nhãn thực và so sánh nó với kết quả dự đoán của các đầu vào tương ứng này và xem liệu mô hình có dự đoán đúng hay không Quá trình kiểm thử và quá trình huấn luyện là hoàn toàn độc lập với nhau, cả về bộ dữ liệu lẫn cách thức so sánh chỉ số

 Tập kiểm chứng (Test Set): Là tập dữ liệu đ ng vai trò đƣa ra các phản hồi sớm nhằm hiệu chỉnh các mô hình sau quá trình huấn luyện Việc sử dụng tập kiểm thử giúp chúng ta đánh giá đƣợc hiệu quả của mô hình xây dựng cuối cùng Tuy nhiên, nếu kết quả đánh giá thấp thì chúng ta lại phải cố gắng điều chỉnh để đƣa ra các mô hình tốt hơn Tức là tập kiểm thử đang c ảnh hưởng đến việc huấn luyện mô hình Điều này theo một mặt nào đ là không công bằng do mô hình đang cố gắng dự đoán những điều chƣa biết

Phương pháp phân chia tập dữ liệu

Tỉ lệ phân chia giữa các tập dữ liệu có thể ảnh hưởng đến hiệu suất của mô hình, do đ khi tách tập dữ liệu thành ba tập dữ liệu: Tập huấn luyện, Tập kiểm chứng và Tập kiểm thử là một bước quan trọng để đảm bảo rằng mô hình đang huấn luyện có thể tổng quát hóa tốt trên các dữ liệu mới Dưới đây là một số tỷ lệ thông dụng thường được sử dụng trong thực tế:

 Tập huấn luyện: Tỷ lệ phổ biến đƣợc sử dụng là 60%-80% tập dữ liệu

 Tập kiểm chứng: Tỷ lệ phổ biến đƣợc sử dụng là 15%-20% tập dữ liệu

 Tập kiểm thử: Tỷ lệ phổ biến đƣợc sử dụng là 15%-20% tập dữ liệu

Tuy nhiên, việc chọn tỷ lệ cho mỗi tập dữ liệu còn phụ thuộc vào tình huống cụ thể và loại bài toán Trong một số trường hợp, như khi dữ liệu có sẵn rất nhiều, việc chia tỷ lệ 50% cho tập huấn luyện vẫn hoàn toàn khả thi, nhƣng trong nhiều tình huống, một tỷ lệ lớn hơn sẽ cải thiện khả năng học và tổng quát hóa của mô hình

Với cụ thể bài toán phân loại danh mục sản phẩm về danh mục trong nghiên cứu, tỷ lệ cuối cùng nghiên cứu đề xuất sử dụng đƣợc thể hiện chi tiết trong Bảng 3.2 dưới Việc chia tập dữ liệu ban đầu thành 3 phần sẽ được thực hiện trên cả 5 tập dữ liệu mới đ nêu trong Mục 3.4.1

Tỷ lệ trên tổng tập dữ liệu

Tỷ lệ trên tổng tập dữ liệu

Tỷ lệ trên tổng tập dữ liệu

Tỷ lệ trên tổng tập dữ liệu

Tỷ lệ trên tổng tập dữ liệu

Tỷ lệ trên tổng tập dữ liệu

Sử dụng kết hợp VnNlpCore

Bảng 3 3: Số lƣợng quan sát trong mỗi tập dữ liệu

ỨNG DỤNG MÔ HÌNH TRONG BÀI TOÁN PHÂN LOẠI

Random Forest (RF - Rừng Ngẫu Nhiên)

Thuật toán Random Forest đƣợc triển khai bằng cách sử dụng mô-đun Random Forest Classifier từ thƣ viện học máy mã nguồn mở scikit-learn [2] Mô hình đầu tiên xây dựng dựa trên các giá trị mặc định của các scikit-learn, tuy nhiên, để độ chính xác của thuật toán tốt đạt mức tốt nhất, nghiên cứu tinh chỉnh một bộ siêu tham số riêng để tăng hiệu suất C năm siêu tham số đƣợc sử dụng để tối ƣu hóa thuật toán bao gồm:

• n_estimators: Số cây trong rừng

• max_features: Kích thước tối đa của mỗi tập con ngẫu nhiên của các đặc trƣng đƣợc xem xét khi chia một nút

• max_depth: Độ sâu tối đa của mỗi cây

• min_samples_split: Số lượng điểm dữ liệu tối thiểu trong một nút trước khi nó có thể đƣợc chia

• min_samples_leaf: Số lƣợng điểm dữ liệu tối thiểu phải đƣợc chuyển tiếp cho một nút lá để thực hiện việc chia

Nghiên cứu sử dụng phương pháp tinh chỉnh siêu tham số RandomizedSearchCV bằng cách tạo ngẫu nhiên các kết hợp khác nhau của các giá trị siêu tham số và áp dụng chúng vào bộ phân loại, từ đ c thể tìm ra các thiết lập siêu tham số có hiệu suất cao nhất Tuy nhiên, các thiết lập siêu tham số này sẽ thay đổi tùy thuộc vào nội dung và độ dài của các vectơ đặc trưng và phương pháp trích xuất đặc trưng Do đ , RandomizedSearchCV được thực hiện cho mỗi cặp phương pháp trích xuất đặc trƣng và bộ phân loại rừng ngẫu nhiên

Bảng 4.1 thể hiện chi tiết kết quả đánh giá của 32 lần thử nghiệm ngẫu nhiên sự kết hợp của các giá trị siêu tham số, dựa trên không gian các siêu tham số đƣợc định nghĩa ban đầu Lựa chọn nhiều lần thử nghiệm giúp thuật toán đánh giá trên một phạm vi đủ lớn các cấu hình siêu tham số để tìm ra cấu hình tốt nhất cho mô hình

Siêu tham số Bag Of Word TF-IDF Word2Vec Độ chính xác (Accuracy) n_estim ators max_ featur es max_d epth min_s amples _split min_sa mples_l eaf

Test Train Test Train Test Train

Siêu tham số Bag Of Word TF-IDF Word2Vec Độ chính xác (Accuracy) n_estim ators max_ featur es max_d epth min_s amples _split min_sa mples_l eaf

Test Train Test Train Test Train

Siêu tham số Bag Of Word TF-IDF Word2Vec Độ chính xác (Accuracy) n_estim ators max_ featur es max_d epth min_s amples _split min_sa mples_l eaf

Test Train Test Train Test Train

Bảng 4 1: Kết quả chi tiết 32 lần thử nghiệm các kết hợp siêu tham số mô hình

Kết quả tốt nhất nghiên cứu thu đƣợc sau quá trình tìm kiếm siêu tham số là một mô hình RandomForest với các tham số chi tiết trong Bảng 4.2 dưới

Random Forest BoW TF-IDF Word2Vec n_estimators 400 200 600 max_features sqrt sqrt sqrt max_depth None None 90 min_samples_split 2 2 2 min_samples_leaf 2 1 1

Bảng 4 2: Các siêu tham số cuối cùng cho thuật toán Random Forest kết hợp với các phương pháp trích xuất đặc trưng khác nhau

Logistic Regression (LR – Hồi quy Logistic)

Thuật toán Logistic Regression đƣợc triển khai bằng cách sử dụng Mô-đun linear_model từ thƣ viện học máy mã nguồn mở scikit-learn, đồng thời nghiên cứu sử dụng cài đặt multinomial để xử lý bài toán đa lớp [2] Trong phiên bản huấn luyện ban đầu nghiên cứu sử dụng các giá trị mặc định để đánh giá sự khác biệt kết quả cơ bản giữa các kết hợp phương pháp

Tuy nhiên, để độ chính xác của thuật toán tốt đạt mức tối ƣu nhất cho tập dữ liệu, nghiên cứu tinh chỉnh một bộ siêu tham số riêng để tăng hiệu suất Việc tối ƣu hóa bao gồm

 C: Tham số cường độ chuẩn hóa

 Penalty: Phương pháp phạt trong kỹ thuật chính quy h a để giảm overfiting

 Solver: Thuật toán sử dụng trong bài toán tối ƣu h a

Bảng 4.3 thể hiện chi tiết kết quả đánh giá của 16 lần thử nghiệm ngẫu nhiên sự kết hợp của các giá trị siêu tham số, dựa trên không gian các siêu tham số đƣợc định nghĩa ban đầu Lựa chọn nhiều lần thử nghiệm giúp thuật toán đánh giá trên một phạm vi đủ lớn các cấu hình siêu tham số để tìm ra cấu hình tốt nhất cho mô hình

Siêu tham số Bag Of Word TF-IDF Word2Vec Độ chính xác (Accuracy) penalty C solver Test Train Test Train Test Train

Bảng 4 3: Kết quả chi tiết của 16 lần thử nghiệm các kết hợp siêu tham số mô hình Logistic Regression

Kết quả tốt nhất nghiên cứu thu đƣợc sau quá trình tìm kiếm siêu tham số là một mô hình Logistic Regression với các tham số chi tiết trong Bảng 4.4 dưới Đồng thời trích xuất đặc trƣng sử dụng ag of Word cũng cho kết quả vƣợt trội so với 2 phương pháp còn lại

Logistic Regression BoW TF-IDF Word2Vec

C-value 10 10 100 penalty L2 L1 L2 solver Liblinear Liblinear Newton-cg

Bảng 4 4: Các siêu tham số cuối cùng cho thuật toán Logistic Regression kết hợp với các phương pháp trích xuất đặc trưng khác nhau

Naive Bayes (NB)

Thuật toán Naive ayes đƣợc triển khai bằng cách sử dụng Mô-đun MultinomialNB từ thƣ viện học máy mã nguồn mở scikit-learn [2].Tuy nhiên, thuật toán Naive Bayes chỉ tương thích với một số phương pháp trích xuất đặc trưng như

TF-IDF, Bag Of Words, và cho hiêu suất khá kém với tập dữ liệu này Do đ nghiên cứu triển khai với các giá trị mặc định của scikit-learn và không đƣợc ƣu tiên trong quá trình tối ƣu h a của thuật toán.

DNN

Nghiên cứu triển khai mạng nơ-ron sâu thử nghiệm một số lớp kết nối đầy đủ, bằng cách sử dụng mô hình tuần tự Tensorflow Keras [9] Các phương pháp trích xuất đặc trƣng và cấu trúc mạng khác nhau đƣợc triển khai và đánh giá dựa trên các phương pháp trích xuất đặc trưng khác nhau Cụ thể nghiên cứu triển khai

4 cấu trúc mô hình khác nhau, chi tiết các tham số đƣợc thể hiện trong Bảng 4.5 dưới

Mô hình 1 Mô hình 2 Mô hình 3 Mô hình 4

Số nơ-ron trong lớp ẩn (units)

Kích thước Batch (Batch Size)

Cross-Entropy Cross-Entropy Cross-Entropy Cross-Entropy

Hàm kích hoạt Softmax Softmax Softmax Softmax

Mô hình 1 Mô hình 2 Mô hình 3 Mô hình 4

Bảng 4 5: Chi tiết kiến trúc và các tham số cho mô hình mạng nơ-ron sâu

Kết quả đánh giá qua từng epoch huấn luyện mô hình của các phương pháp trích xuất đặc trƣng khác nhau chi tiết trong Bảng 4.6

Epoch Tokenizer (Mô hình 1) BOW (Mô hình 1) TF-IDF (Mô hình 1)

Bảng 4 6: Đánh giá các mô hình nơ-ron học sâu

Với mỗi phương pháp trích xuất đặc trưng, nghiên cứu thử nghiệm cả 4 mô hình để tìm ra phương án kết hợp tốt nhất Kết quả mô hình tốt nhất là:

 Bag of Words: Mô hình 1

LSTM (RNN đặc biệt)

LSTM (RNN đặc biệt) [13] là một trong những kiến trúc học sâu phổ biến nhất khi làm việc với dữ liệu tuần tự, với bài toán phân loại danh mục cho sản phẩm, nghiên cứu đề xuất 2 mô hình gồm lần lƣợt 1 lớp LSTM và 2 lớp LSM Cụ thể cấu trúc các mô hình thử nghiệm nhƣ sau:

• Lớp 1: Embedding, với kích thước từ vựng là 50000 từ và kích thước nhúng đầu ra là 100

• Lớp 2: Lớp LSTM gồm 100 unit

• Lớp 3: Drop-out với tỷ lệ là 0.2 để giảm overfitting,

• Lớp 4: Lớp nơ-ron ẩn (kết nối đầy đủ) gồm 50 nơ-ron và hàm kích hoạt ReLu

• Lớp 5: Lớp nơ-ron ẩn (kết nối đầy đủ) gồm 15 nơ-ron và hàm kích hoạt softmax sử dụng cho đầu ra của bài toán phân loại đa lớp

• Lớp 1: Embedding, với kích thước từ vựng là 50000 từ và kích thước nhúng đầu ra là 100

• Lớp 2: Lớp LSTM gồm 100 unit

• Lớp 3: Drop-out với tỷ lệ là 0.2 để giảm overfitting,

• Lớp 4: Lớp LSTM gồm 100 unit

• Lớp 5: Drop-out với tỷ lệ là 0.2 để giảm overfitting,

• Lớp 6: Lớp nơ-ron ẩn (kết nối đầy đủ) gồm 50 nơ-ron và hàm kích hoạt ReLu

• Lớp 7: Lớp nơ-ron ẩn (kết nối đầy đủ) gồm 15 nơ-ron và hàm kích hoạt softmax sử dụng cho đầu ra của bài toán phân loại đa lớp

Ngoài ra, để tận dụng tiềm năng xử lý dữ liệu tuần tự của cấu trúc RNN, nghiên cứu lựa chọn phương pháp trích xuất đặc trưng tạo ra dữ liệu tuần tự là

Tokenizer Tất cả các phương pháp trích xuất đặc trưng khác được thực hiện theo phương pháp " ag Of Words" không xem xét thứ tự của các từ được coi là không liên quan đối với cấu trúc RNN có thể xử lý đƣợc, do đ sẽ không đƣợc xét đến

Cuối cùng, mô hình đƣợc huấn luyện trong 10 epochs với bộ tối ƣu h a Adam, sử dụng kích thước batch là 32 àng 4.7 đánh giá 2 mô hình trên

Epoch 1 lớp LSTM (Mô hình 1) 2 lớp LSTM (Mô hình 2)

Train loss Valid loss Train

Train loss Valid loss Train

Epoch 1 lớp LSTM (Mô hình 1) 2 lớp LSTM (Mô hình 2)

Train loss Valid loss Train

Train loss Valid loss Train

Bảng 4 7: Đánh giá các mô hình nơ-ron học sâu

Nhƣ vậy, dựa vào kết quả trên mô hình tốt nhất là: LSTM 1 lớp (10 epoch)

GLoVe và DNN

Trên thực tế, phương pháp kết hợp GloVe [10] và kiến trúc Neural Network [9] là một tiến bộ đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên và phân loại văn bản Bằng cách kết hợp biểu diễn từ vựng thông qua GloVe với sức mạnh của Neural Network, nghiên cứu so sánh 3 mô hình tiếp cận khác nhau giữa GloVe và DNN Cụ thể:

 Mô hình 1: Làm phẳng GloVe Embeddings (Max TokensP, Độ dài

Embedding00) Cách tiếp cận 1 làm phẳng các nhúng GloVe và xử lý chúng thông qua các lớp fully-connected để đƣa ra dự đoán Nghiên cứu xây dựng một mạng đơn giản gồm một lớp embedding và 3 lớp fully- connected

 Mô hình 2: Tính trung bình GloVe Embeddings (Max TokensP, Độ dài Embedding00) Cách tiếp cận 2 lấy trung bình số lần nhúng thay vì làm phẳng nhƣ cách 1 Nghiên cứu xây dựng một mạng đơn giản gồm một lớp embedding và 3 lớp fully-connected

 Mô hình 3: Tính tổng GloVe Embeddings (Max TokensP, Độ dài

Embedding00) Cách tiếp cận 3 lấy tổng số lần nhúng thay vì trung bình nhƣ cách 1 Nghiên cứu xây dựng một mạng đơn giản gồm một lớp embedding và 3 lớp fully-connected

Cả 3 phương pháp tiếp cận đều training trên 20 epoch, với kích cỡ batch là 64 Bảng 4.8 đánh giá kết quả của từng phương pháp tiếp cận

Max Tokens Độ dài Embedding Accuracy

Bảng 4 8: So sánh 3 cách tiếp cận giữa GLoVE và DNN

Mô hình PhoBERT cho Tiếng Việt

4.7.1 Chi tiết Thiết kế thực nghiệm PhoBERT

Bước 1: Chuẩn bị dữ liệu

Sử dụng Tập dữ liệu 1 - Tập dữ liệu gốc và Tập dữ liệu 2 - Sử dụng VnNlpCore tách từ để so sánh

Bước 2: Trích lọc đặc trưng cho PhoBERT

1 Biến từng sản phẩm thành các token 2 Thêm các token đặc biệt [CLS] và [SEP] vào đầu câu 3 Ánh xạ các token này thành ID tương ứng

4 Thêm vào hoặc cắt ngắn tất cả các câu thành cùng một độ dài Nghiên cứu sử dụng độ dài tối đa của token là 64

5 Tạo mặt nạ chú ý để phân biệt rõ ràng các token thực và các token thêm vào

Bước 3: Huấn luyện mô hình Để tinh chỉnh PhoBERT trên một tác vụ cụ thể, các tác giả đề xuất huấn luyện mô hình theo batch kích cỡ 16 hoặc 32 Đ ng băng từng phần kiến trúc PhoBERT và huấn luyện mô hình từ đ đánh giá hiệu quả của mô hình Đây là quá trình cần thiết để mô hình hội tụ nhanh hơn

Cách thức triển khai của bước này là đ ng băng lại các lớp Transformer để cho hệ số của chúng không đổi và chỉ huấn luyện lại trên các Fully Conntected Layers ở cuối cùng Mục đích là giữ nguyên đƣợc các đặc trƣng bậc cao đ đƣợc học từ mô hình tiền huấn luyện mà những đặc trƣng này là tốt vì đƣợc huấn luyện trên bộ dữ liệu c kích thước lớn hơn và c độ chính xác cao hơn sao với khởi tạo hệ số ngẫu nhiên Cụ thể, nghiên cứu sẽ thử đ ng băng lần lƣợt từ 1, 2, 3 đến 11 lớp của Pho ERT để kiểm tra xem việc giữ nguyên các trọng số đặc trƣng của mô hình gốc có hiệu quả cho bài toán nghiên cứu xử lý hay không

 Mô hình 1: Đ ng băng 11 lớp đầu tiên

 Mô hình 2: Đ ng băng 10 lớp đầu tiên

 Mô hình 3: Đ ng băng 9 lớp đầu tiên

 Mô hình 4: Đ ng băng 8 lớp đầu tiên

 Mô hình 5: Đ ng băng 7 lớp đầu tiên

 Mô hình 6: Đ ng băng 6 lớp đầu tiên

 Mô hình 7: Đ ng băng 5 lớp đầu tiên

 Mô hình 8: Đ ng băng 4 lớp đầu tiên

 Mô hình 9: Đ ng băng 3 lớp đầu tiên

 Mô hình 10: Đ ng băng 2 lớp đầu tiên

 Mô hình 11: Đ ng băng 1 lớp đầu tiên

 Mô hình 12: Không đ ng băng

Bước 4: Đánh giá từng mô hình trên tập kiểm chứng Bước 5: Đánh giá từng mô hình trên tập kiểm thử và so sánh

4.7.2 Trích lọc đặc trƣng cho mô hình PhoBERT

Tokenize là quá trình m h a các văn bản thành các index dạng số mang thông tin của văn bản để cho máy tính có thể huấn luyện đƣợc Khi đ mỗi một từ hoặc ký tự sẽ đƣợc đại diện bởi một index

Trong NLP có một số kiểu tokenize nhƣ sau:

Tokenize theo word level: Chúng ta phân tách câu thành các token đƣợc ngăn cách bởi khoảng trắng hoặc dấu câu Khi đ mỗi token là một từ đơn âm tiết Đây là phương pháp token được sử dụng trong các thuật toán nhúng từ truyền thống nhƣ GloVe, word2vec

Tokenize theo multi-word level: Tiếng Việt và một số ngôn ngữ khác tồn tại từ đơn âm tiết (từ đơn) và từ đa âm tiết (từ ghép) Do đ nếu token theo từ đơn âm tiết sẽ làm nghĩa của từ bị sai khác Ví dụ cụm từ vô xác định nếu đƣợc chia thành vô, xác và định sẽ làm cho từ bị mất đi nghĩa phủ định của n Do đ để tạo ra đƣợc các từ với nghĩa chính xác thì chúng ta sẽ sử dụng thêm từ điển bao gồm cả từ đa âm tiết và đơn âm để tokenize câu Trong Tiếng Việt có khá nhiều các module hỗ trợ tokenize dựa trên từ điển nhƣ VnCoreNLP, pyvivn, underthesea

Tokenize theo character level: Việc tokenize theo word level thường sinh ra một từ điển với kích thước rất lớn, điều này làm gia chi phí tính toán Hơn nữa nếu tokenize theo word level thì đòi hỏi từ điển phải rất lớn thì mới hạn chế đƣợc những trường hợp từ nằm ngoài từ điển Tuy nhiên nếu phân tích ta sẽ thấy hầu hết các từ đều có thể biểu thị dưới một nhóm các ký tự là chữ cái, con số, dấu xác định Như vậy chỉ cần sử dụng một lƣợng các ký tự rất nhỏ có thể biểu diễn đƣợc mọi từ Từ được token dựa trên level ký tự sẽ có tác dụng giảm kích thước từ điển mà vẫn biểu diễn được các trường hợp từ nằm ngoài từ điển

Phương pháp mới BPE (SOTA): Nhược điểm của phương pháp tokenize theo character level đ là các token không c ý nghĩa nếu đứng độc lập Do đ đối với các bài toán phân loại, áp dụng tokenize theo character level sẽ mang lại kết quả kém hơn Token theo word level cũng tồn tại hạn chế đ là không giải quyết đƣợc các trường hợp từ ngằm ngoài từ điển

Với PhoBERT, mỗi sản phẩm cần đƣợc chia thành một danh sách gồm các token, sau đ các token này đƣợc ánh xạ vào chỉ số (index) của chúng trong từ vựng của mô hình Pho ERT đ tiền huấn luyện.Quá trình tách từ phải đƣợc thực hiện bởi tokenizer đi kèm với PhoBERT chính là sử dụng phương pháp mới BPE

Nước tẩy trang cho da nhạy cảm Garnier Micellar Water 400ml

HỘP THUỐC DIỆT KIẾN NHẬT BẢN Thùng 40 hộp

Viên uống sữa ong chúa Healthy Care 1000mg (365 viên)

Loa bluetooth mini MINPRO A005 không dây giá rẻ đèn led theo nhạc bluetooth 5.0 chính hãng

[0, 27507, 41874, 5844, 8482, 19593, 14566, 1241, 5557, 173, 17, 1747, 133, 1455, 1690, 17892, 63, 737, 41874, 21802, 159, 538, 2] Áo chống nắng nam 2 mặt thông hơi, thun lạnh thoáng mát chống tia UV cao cấp NPV

Bảng 4 9: Ánh xạ tên sản phẩm thành vectơ đầu vào cho mô hình 4.7.2.2 Định dạng chuẩn dữ liệu đầu vào PhoBERT

Dữ liệu đầu vào cho PhoBERT có 3 yêu cầu chính sau:

 Ký tự đặc biệt: Với mỗi tên sản phẩm đầu vào phục vụ huấn luyện cần phải thêm token là token đặc biệt để đánh dấu vị trí đầu và token để đánh dấu vị trí cuối mỗi sản phẩm Hai token thêm vào này là bắt buộc, sau đ sẽ đƣợc tokenize chung với toàn bộ các token khác trong tên sản phẩm Sau đ Pho ERT bao gồm 12 lớp Transformer nhận vào một danh sách các token embeddings và sản sinh ra cùng số lƣợng embeddings trên đầu ra Đầu ra của lớp Transformer cuối cùng (lớp thứ 12), chỉ embedding đầu tiên (tương ứng với token [CLS]) sẽ được sử dụng cho nhiệm vụ phân loại Chi tiết cấu trúc triển khai ở Hình 4.2 bên dưới

Hình 4 2: Cấu trúc đầu vào lớp Transformer trong PhoBERT

 Độ dài đầu vào: Tất cả các tên sản phẩm phải đƣợc thêm vào hoặc cắt ngắn thành một độ dài cố định Độ dài tối đa của tên sản phẩm là 512 token

 Mặt nạ chú ý: là một mảng chỉ gồm các giá trị 1 và 0, chỉ ra những token nào là đƣợc thêm vào và những token nào không Mặt nạ này cho cơ chế

"Self-Attention" trong BERT biết rằng không nên tính toán các token PAD này trong quá trình diễn dịch câu.Tuy nhiên, độ dài tối đa ảnh hưởng đến tốc độ huấn luyện và đánh giá

4.7.3 Huấn luyện mô hình và đánh giá mô hình – Hai tập dữ liệu

 GPU: Tesla T4 o CUDA Cores: 2560 o Kích thước bộ nhớ: 16GB o ăng thông bộ nhớ: 320 GB/s o Tốc độ xử lý: Lên tới 8.1 TFLOPS (FP32) và 130 TOPS (INT8)

 Epoch (Nghiên cứu sử dụng epoch = 10): Đề cập đến việc đi qua toàn bộ bộ dữ liệu huấn luyện một lần Trong mỗi epoch, mô hình dự đoán trên dữ liệu huấn luyện, tính toán mất mát và cập nhật trọng số của mô hình bằng một thuật toán tối ƣu h a Tăng số epoch cho phép mô hình cải thiện khả năng hoạt động của mình bằng cách học từ dữ liệu nhiều lần

 Kích thước Batch (Nghiên cứu sử dụng kích thước batch = 32): Xác định số lƣợng mẫu huấn luyện đƣợc sử dụng trong mỗi lần lặp của một epoch duy nhất Thay vì cập nhật trọng số của mô hình sau mỗi mẫu huấn luyện, điều này có thể gây tốn nhiều tài nguyên tính toán, batch đƣợc sử dụng để cập nhật trọng số sau khi xử lý một phần dữ liệu huấn luyện

4.7.3.2 Đánh giá trên tập kiểm chứng

Nghiên cứu sẽ đánh giá 12 mô hình đ nêu ở phần thiết kế thực nghiệm bằng việc đ ng băng lần lƣợt các lớp của Pho ERT, đồng thời đánh giá trên cả Tập dữ liệu 1 và Tập dữ liệu 2 Để tránh lan man trong đánh giá, nghiên cứu sẽ sử dụng trước 2 mô hình đại diện cho việc đ ng băng toàn bộ và không đ ng băng để đánh giá trước, sau đ tổng kết các mô hình còn lại a Mô hình 1: Đ ng băng 11 lớp đầu tiên

Chi phí tập huấn luyện (Training

Chi phí tập kiểm chứng

(Validation Loss) Độ chính xác (Accuracy)

Thời gian tập huấn luyện - giây

Thời gian tập kiểm chứng - giây (Validation Time)

Chi phí tập huấn luyện (Training

Chi phí tập kiểm chứng

(Validation Loss) Độ chính xác (Accuracy)

Thời gian tập huấn luyện - giây

Thời gian tập kiểm chứng - giây (Validation Time)

Bảng 4 10: Tập dữ liệu 1 - Tóm tắt quá trình huấn luyện qua từng epoch

Chi phí tập huấn luyện (Training

Chi phí tập kiểm chứng

(Validation Loss) Độ chính xác (Accuracy)

Thời gian tập huấn luyện - giây

Thời gian tập kiểm chứng - giây (Validation Time)

Bảng 4 11: Tập dữ liệu 2 - Tóm tắt quá trình huấn luyện qua từng epoch

Hình 4 3: So sánh Tập dữ liệu 1 và Tập dữ liệu 2 dựa trên sự thay đổi của hàm chi phí trong quá trình huấn luyện qua từng epoch

Mô hình BERT

Với tập dữ liệu về sản phẩm, nghiên cứu nhận thấy thách thức khi có nhiều tên sản phẩm thường chứa các thương hiệu bằng ngôn ngữ Tiếng Anh, điều này khiến cho việc sử dụng riêng PhoBERT với Tiếng Việt có thể chƣa đủ tốt Vì vậy, nghiên cứu xem xét thêm mô hình phân loại đa ngôn ngữ nguyên bản của PhoBERT là BERT Chi tiết từng bước xử lý dữ liệu và xây dựng kiến trúc mô hình để tinh chỉnh mô hình được thiết kế tương tự PhoBERT.

Mô hình kết hợp

Ensemble là một kỹ thuật quan trọng trong lĩnh vực học máy, cho phép kết hợp các mô hình khác nhau để cải thiện hiệu suất và độ chính xác của bài toán phân loại sản phẩm vào đúng danh mục Nghiên cứu thử nghiệm kết hợp từ nhiều mô hình khác nhau nhƣ LSTM, TF-IDF, ERT, Pho ERT để tạo thành một hệ thống ensemble mạnh mẽ, từ đ đƣa ra phân loại danh mục chính xác cho sản phẩm Cụ thể, nghiên cứu thể gán trọng số khác nhau cho các mô hình dựa trên hiệu suất của chúng trên tập dữ liệu kiểm thử Mô hình có hiệu suất cao hơn đƣợc xem xét gán trọng số cao hơn trong việc đƣa ra dự đoán cuối cùng Qua quá trình thử nghiệm và tinh chỉnh để đạt đƣợc hiệu suất tốt nhất, nghiên cứu quyết định trọng số của mỗi mô hình nhƣ sau

Mô hình PhoBERT-base LSTM

Tỷ trọng 50% 50% Để triển khai mô hình Ensemble này, mỗi sản phẩm sẽ đƣợc đƣa qua cả LSTM và PhoBERT-base để ra đƣợc xác suất của mỗi danh mục ứng với mỗi mô hình Khi sản phẩm đi qua LSTM ta thu đƣợc xác suất X% và xác suất này chiếm 50% trọng số; tương tự khi sản phẩm đi qua Pho ERT-base ta thu được xác suất Y% và xác suất này chiếm 50% trọng số Từ đ ta lấy X cộng Y sẽ thu đƣợc điểm Z cho mỗi danh mục kết quả Điểm Z cao nhất tương ứng với danh mục nào, sản phẩm thuộc về danh mục đ Việc thay đổi trọng số của mô hình ensemble này thành 60-40, 70-30, 80-20 hoặc sử dụng nhiều mô hình khác nhau không cho lại hiệu suất tốt nhƣ Pho ERT-base và LSTM tại đề xuất trên.

Ngày đăng: 02/09/2024, 22:44

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov (2017), “ ag of Tricks for Efficient Text Classification”, European Chapter of the Association for Computational Linguistics Sách, tạp chí
Tiêu đề: ag of Tricks for Efficient Text Classification”
Tác giả: Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov
Năm: 2017
2. Aurélien Géron (2019), Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, O'Reilly Sách, tạp chí
Tiêu đề: Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow
Tác giả: Aurélien Géron
Năm: 2019
3. C. Chavaltada, K. Pasupa, and D. R. Hardoon (2017), “A comparative study of machine learning techniques for automatic productcategorisation”, International Symposium on Neural Networks.Springer, pp. 10– 17 Sách, tạp chí
Tiêu đề: A comparative study of machine learning techniques for automatic product categorisation”, "International Symposium on Neural Networks. "Springer
Tác giả: C. Chavaltada, K. Pasupa, and D. R. Hardoon
Năm: 2017
4. Clinton Gormley, Zachary Tong (2015), Elasticsearch: The Definitive Guide A Distributed Real-Time Search and Analytics Engine, pp.21- 109 Sách, tạp chí
Tiêu đề: Elasticsearch: The Definitive Guide A Distributed Real-Time Search and Analytics Engine
Tác giả: Clinton Gormley, Zachary Tong
Năm: 2015
5. C. Stanik, M. Haering, W. Maalej (2019), “Classifying multilingual user feedback using traditional machine learning and deep learning,” Sách, tạp chí
Tiêu đề: Classifying multilingual user feedback using traditional machine learning and deep learning
Tác giả: C. Stanik, M. Haering, W. Maalej
Năm: 2019
7. G. G. Chowdhury (2003), “Natural language processing”, Annual review of information science and technology, vol. 37, no. 1, pp. 51–89 Sách, tạp chí
Tiêu đề: Natural language processing”, "Annual review of information science and technology
Tác giả: G. G. Chowdhury
Năm: 2003
8. J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova (2018), “ ert: Pre- training of Deep Bidirectional Transformers for LanguageUunderstanding”, North American Chapter of the Association for Computational Linguistics - NACCL Sách, tạp chí
Tiêu đề: ert: Pre- training of Deep Bidirectional Transformers for Language Uunderstanding”
Tác giả: J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova
Năm: 2018
10. J. Pennington, R. Socher, and C. D. Manning (2014), “Glove: Global vectors for word representation”, Empirical methods in natural language processing (EMNLP), pp. 1532–1543 Sách, tạp chí
Tiêu đề: Glove: Global vectors for word representation”, "Empirical methods in natural language processing (EMNLP)
Tác giả: J. Pennington, R. Socher, and C. D. Manning
Năm: 2014
11. Joanne Peng, Kuk Lida Lee, Gary M. Ingersoll (2002), An Introduction to Logistic Regression Analysis and Reporting, The Journal ofEducational Research, pp. 3-14 Sách, tạp chí
Tiêu đề: The Journal of "Educational Research
Tác giả: Joanne Peng, Kuk Lida Lee, Gary M. Ingersoll
Năm: 2002
12. Lior Rokach, Oded Maimon (2005), The Data Mining and Knowledge Discovery Handbook, pp.165-192 Sách, tạp chí
Tiêu đề: The Data Mining and Knowledge Discovery Handbook
Tác giả: Lior Rokach, Oded Maimon
Năm: 2005
13. S. Hochreiter and J. Schmidhuber (1997), “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780 Sách, tạp chí
Tiêu đề: Long short-term memory,” "Neural computation
Tác giả: S. Hochreiter and J. Schmidhuber
Năm: 1997
14. S. Lai, L. Xu, K. Liu, and J. Zhao (2015), “Recurrent convolutional neural networks for text classification,” Association for the Advancement of Artificial Intelligence - AAAI, vol. 29 Sách, tạp chí
Tiêu đề: Recurrent convolutional neural networks for text classification,” "Association for the Advancement of Artificial Intelligence - AAAI
Tác giả: S. Lai, L. Xu, K. Liu, and J. Zhao
Năm: 2015
15. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (2020), Practical Natural Language Processing, O'Reilly Sách, tạp chí
Tiêu đề: Practical Natural Language Processing
Tác giả: Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana
Năm: 2020
16. Steven Bird, Ewan Klein, Edward Loper (2009), Natural Language Processing with Python, O'Reilly Sách, tạp chí
Tiêu đề: Natural Language Processing with Python
Tác giả: Steven Bird, Ewan Klein, Edward Loper
Năm: 2009
17. Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras, and Mark Johnson (2018), “VnCoreNLP: A Vietnamese Natural Language Processing Toolkit”, North American Chapter of the Association for Computational Linguistics - NACCL, p. 56–60 Sách, tạp chí
Tiêu đề: VnCoreNLP: A Vietnamese Natural Language Processing Toolkit”, "North American Chapter of the Association for Computational Linguistics - NACCL
Tác giả: Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras, and Mark Johnson
Năm: 2018
18. Tin Kam Ho (1995), “Random decision forests”, Institute of Electrical and Electronics Engineers - IEEE, vol. 1, pp. 278–282 Sách, tạp chí
Tiêu đề: Random decision forests”, "Institute of Electrical and Electronics Engineers - IEEE
Tác giả: Tin Kam Ho
Năm: 1995
19. Xuezhe Ma and Eduard Hovy (2016), “End-to-end sequence labeling via bi-directional LSTM-CNNs”, Association for ComputationalLinguistics, pp. 1064–1074 Sách, tạp chí
Tiêu đề: End-to-end sequence labeling via bi-directional LSTM-CNNs”, "Association for Computational "Linguistics
Tác giả: Xuezhe Ma and Eduard Hovy
Năm: 2016
20. Theodoros Evgeniou, Massimiliano Pontil (2001), “Support Vector Machines: Theory and Applications”, Machine Learning and Its Application Sách, tạp chí
Tiêu đề: Support Vector Machines: Theory and Applications
Tác giả: Theodoros Evgeniou, Massimiliano Pontil
Năm: 2001
21. Stephen Robertson (2004), “Understanding Inverse Document Frequency:On theoretical arguments for IDF” Sách, tạp chí
Tiêu đề: Understanding Inverse Document Frequency:On theoretical arguments for IDF
Tác giả: Stephen Robertson
Năm: 2004
22. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean (2013), “Efficient Estimation of Word Representations in Vector Space”, NaturalLanguageProcessing and Computational Language Learning Sách, tạp chí
Tiêu đề: Efficient Estimation of Word Representations in Vector Space”, "Natural
Tác giả: Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
Năm: 2013

HÌNH ẢNH LIÊN QUAN

Hình 2. 2: Kiến trúc nơ-ron và kiến trúc tổng quát mô hình skip-gram - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 2: Kiến trúc nơ-ron và kiến trúc tổng quát mô hình skip-gram (Trang 24)
Hình 2. 3: Kiến trúc nơ-ron và kiến trúc tổng quát mô hình CBOW - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 3: Kiến trúc nơ-ron và kiến trúc tổng quát mô hình CBOW (Trang 26)
Hình 2. 4: Sơ đồ tổng quan thuật toán Cây Quyết Định - Decision Tree - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 4: Sơ đồ tổng quan thuật toán Cây Quyết Định - Decision Tree (Trang 29)
Hình 2. 5: Sơ đồ tổng quan thuật toán Rừng Ngẫu Nhiên - Random Forest - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 5: Sơ đồ tổng quan thuật toán Rừng Ngẫu Nhiên - Random Forest (Trang 30)
Hình 2. 6: Mặt phẳng phân tách tuyến tính hai lớp xanh và đỏ - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 6: Mặt phẳng phân tách tuyến tính hai lớp xanh và đỏ (Trang 34)
Hình 2. 7: Đồ thị Hàm Sigmoid - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 7: Đồ thị Hàm Sigmoid (Trang 35)
Hình 2. 8: Sơ đồ mạng lưới thần kinh sâu - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 8: Sơ đồ mạng lưới thần kinh sâu (Trang 37)
Hình 2. 9: Cấu tạo của một nơ-ron đơn lẻ trong Mạng nơ-ron - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 9: Cấu tạo của một nơ-ron đơn lẻ trong Mạng nơ-ron (Trang 38)
Hình 2. 10: Sơ đồ tổng quan kiến trúc mạng RNN - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 10: Sơ đồ tổng quan kiến trúc mạng RNN (Trang 39)
Hình 2. 11: Sơ đồ tổng quan kiến trúc mạng LSTM - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 11: Sơ đồ tổng quan kiến trúc mạng LSTM (Trang 41)
Hình 2. 12: Sơ đồ tổng quan kiến trúc Mô hình Transformer - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 12: Sơ đồ tổng quan kiến trúc Mô hình Transformer (Trang 42)
Hình 2. 13: Giải pháp sử dụng Elasticsearch - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 2. 13: Giải pháp sử dụng Elasticsearch (Trang 44)
Bảng 3. 1: Thống kê số lƣợng sản phẩm từng danh mục - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Bảng 3. 1: Thống kê số lƣợng sản phẩm từng danh mục (Trang 52)
Hình 3. 2: Biểu đồ Box Plot thể hiện phân phối dữ liệu theo từng ngành hàng - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 3. 2: Biểu đồ Box Plot thể hiện phân phối dữ liệu theo từng ngành hàng (Trang 54)
Hình 3. 3: Mô phỏng dữ liệu dạng đám mây - Từ khóa xuất hiện nhiều nhất - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 3. 3: Mô phỏng dữ liệu dạng đám mây - Từ khóa xuất hiện nhiều nhất (Trang 55)
Hình 3. 4: Biểu đồ Histogram thể hiện phân phối dữ liệu theo độ dài tên sản - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 3. 4: Biểu đồ Histogram thể hiện phân phối dữ liệu theo độ dài tên sản (Trang 56)
Hình 3. 5: Biểu đồ Box Plot thể hiện phân phối dữ liệu theo từng ngành hàng - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 3. 5: Biểu đồ Box Plot thể hiện phân phối dữ liệu theo từng ngành hàng (Trang 56)
Hình 3. 6: Mô phỏng dữ liệu dạng đám mây - Từ khóa xuất hiện nhiều nhất - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 3. 6: Mô phỏng dữ liệu dạng đám mây - Từ khóa xuất hiện nhiều nhất (Trang 57)
Hình 3. 7: Mô phỏng quá trình làm sạch dữ liệu tên sản phẩm - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 3. 7: Mô phỏng quá trình làm sạch dữ liệu tên sản phẩm (Trang 58)
Hình  3.8  mô  tả  cách  triển  khai  các  công  cụ  Pyvi,  VnNlpCore,  Underthesea  để tạo ra thêm 4 tập dữ liệu mới - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
nh 3.8 mô tả cách triển khai các công cụ Pyvi, VnNlpCore, Underthesea để tạo ra thêm 4 tập dữ liệu mới (Trang 60)
Bảng 3. 3: Số lƣợng quan sát trong mỗi tập dữ liệu - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Bảng 3. 3: Số lƣợng quan sát trong mỗi tập dữ liệu (Trang 63)
Hình 4. 1: Sơ đồ triển khai và đánh giá các thuật toán khác nhau - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 4. 1: Sơ đồ triển khai và đánh giá các thuật toán khác nhau (Trang 64)
Bảng 4. 1: Kết quả chi tiết 32 lần thử nghiệm các kết hợp siêu tham số mô hình - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Bảng 4. 1: Kết quả chi tiết 32 lần thử nghiệm các kết hợp siêu tham số mô hình (Trang 67)
Bảng 4. 5: Chi tiết kiến trúc và các tham số cho mô hình mạng nơ-ron sâu - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Bảng 4. 5: Chi tiết kiến trúc và các tham số cho mô hình mạng nơ-ron sâu (Trang 71)
Bảng 4. 6: Đánh giá các mô hình nơ-ron học sâu - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Bảng 4. 6: Đánh giá các mô hình nơ-ron học sâu (Trang 71)
Hình 4. 2: Cấu trúc đầu vào lớp Transformer trong PhoBERT - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 4. 2: Cấu trúc đầu vào lớp Transformer trong PhoBERT (Trang 77)
Bảng 4. 14: Kết quả chi tiết từng mô hình - Tập dữ liệu 1 - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Bảng 4. 14: Kết quả chi tiết từng mô hình - Tập dữ liệu 1 (Trang 82)
Hình 5. 2: Đánh giá hiệu quả của Elasticsearch giữa các danh mục - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 5. 2: Đánh giá hiệu quả của Elasticsearch giữa các danh mục (Trang 85)
Hình 5. 3: Đánh giá hiệu quả của PhoBERT trên từng tập dữ liệu và từng danh mục - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 5. 3: Đánh giá hiệu quả của PhoBERT trên từng tập dữ liệu và từng danh mục (Trang 90)
Hình 5. 4: Top 5 mô hình và giải pháp đạt độ chính xác cao nhất - Nghiên cứu và Ứng dụng mô hình phân loại danh mục hàng hóa dựa trên tên sản phẩm trong thương mại Điện tử tại việt nam
Hình 5. 4: Top 5 mô hình và giải pháp đạt độ chính xác cao nhất (Trang 94)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w