TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

31 35 0
TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO ĐỒ ÁN CUỐI KỲ Môn học: Đồ án – SE121.M11 ĐỀ TÀI: TÌM HIỂU VỀ NHẬN DẠNG CHỦ ĐỀ BÀI VIẾT BẰNG MÁY HỌC Giảng viên hướng dẫn: Thạc sĩ Mai Trọng Khang Sinh viên thực hiện: • Dương Bình Trọng – 19521056 • Phạm Đức Hồng – 19521542 Tp Hồ Chí Minh, tháng 12 năm 2021 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO ĐỒ ÁN CUỐI KỲ Môn học: Đồ án – SE121.M11 ĐỀ TÀI: TÌM HIỂU VỀ NHẬN DẠNG CHỦ ĐỀ BÀI VIẾT BẰNG MÁY HỌC Giảng viên hướng dẫn: Thạc sĩ Mai Trọng Khang Sinh viên thực hiện: • Dương Bình Trọng – 19521056 • Phạm Đức Hồng – 19521542 Tp Hồ Chí Minh, tháng 12 năm 2021 LỜI CẢM ƠN Đầu tiên, nhóm chúng em xin gửi lời cảm ơn đến tập thể quý thầy cô Trường Đại học Công nghệ Thông tin – Đại học Quốc gia Thành phố Hồ Chí Minh quý thầy cô Khoa Công nghệ Phần mềm giúp chúng em có kiến thức tảng để thực đề tài Nhóm chúng em xin gửi lời cảm ơn tới thầy Mai Trọng Khang, người trực tiếp hướng dẫn nhóm thực đồ án, hướng dẫn tận tình đóng góp nhiều ý kiến quý báu giúp chúng em hoàn thành tốt báo cáo Trong thời gian thực đề tài, nhóm vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi tiếp thu kiến thức Chúng em cố gắng vận dụng thu thập để hồn thành đồ án tốt Tuy nhiên, q trình thực hiện, khơng tránh khỏi thiếu sót, chúng em mong nhận thơng cảm góp ý chân thành từ q thầy Nhóm chúng em xin trân trọng cảm ơn / NHẬN XÉT CỦA GIẢNG VIÊN MỤC LỤC LỜI CẢM ƠN NHẬN XÉT CỦA GIẢNG VIÊN MỤC LỤC NỘI DUNG Tổng quan đề tài 1.1 Giới thiệu 1.2 Phương pháp mục tiêu thực nghiệm Cơ sở lí thuyết 2.1 Giới thiệu Machine Learning 2.2 Phương pháp Word Embedding 10 2.3 Mơ hình word2vec mơ hình doc2vec 14 Thực nghiệm 22 3.1 Phân tích tốn 22 3.2 Thu thập xử lí liệu 23 3.3 Huấn luyện mơ hình 25 3.4 Xây dựng API demo 26 KẾT LUẬN 28 Đánh giá 28 Nhận xét 30 Hướng phát triển 30 TÀI LIỆU THAM KHẢO 31 NỘI DUNG Tổng quan đề tài 1.1 Giới thiệu Những năm gần đây, mà khả tính tốn máy tính nâng lên tầm cao lượng liệu khổng lồ thu thập hãng công nghệ lớn, thuật toán Machine Learning (Máy Học) ngày phát triển hoàn thiện Và lính vực quan trọng Machine Learning Natural Language Processing “NLP" (Xử lý Ngôn ngữ Tự nhiên) NLP có nhiều ứng dụng cụ thể giải tốn thích hợp Trong nhóm bọn em hứng thú với toán Information Retrieval (Truy xuất Thơng tin) Thì Information Retrieval có nhiệm vụ tìm tài liệu dạng khơng có cấu trúc (thường văn bản) đầu đáp ứng nhu cầu thông tin từ nguồn tổng hợp lớn Cụ thể toán nhận biết chủ đề viết tiếng Anh Vì mà nhóm bọn em định chọn chủ đề “Nhận dạng chủ đề viết Máy Học” Nhóm chúng em tìm hiểu số mơ hình để thực việc nhận dạng chủ đề, từ áp dụng xây dựng nên ứng dụng thực tế API nhận dạng chủ đề viết Trong báo cáo gồm phần chính: - Phần 1: Tổng quan đề tài – khái quát đề tài phương pháp mục tiêu thực đề tài - Phần 2: Cơ sở lý thuyết – tổng hợp phần kiến thức lý thuyết mà bọn em tìm hiểu thực đề tài - Phần 3: Thực nghiệm – mơ tả q trình nhóm xây dựng nên ứng dụng thực tế Phương pháp mục tiêu thực nghiệm 1.2 1.2.1 Phương pháp Các giai đoạn nhóm chúng em: Giai đoạn 1: chúng em tìm hiểu, thu nạp kiến thức mảng lĩnh vực liên quan Machine Learning, Deep Learning, Xử lý Ngôn ngữ Tự nhiên… kiến thức liên quan để xây dựng nên ứng dụng thực tế đề cập Giai đoạn 2: nhóm bắt đầu tìm kiếm nguồn liệu huấn luyện Ban đầu nhóm có tính tìm liệu xây dựng sẵn Kagge, nhiên đa số liệu có sẵn chưa thoả yêu cầu số lượng chủ đề hay số tài liệu Nhóm định tự crawl liệu từ số trang báo để xây dựng nên liệu train Giai đoạn 3: sau có liệu train, nhóm tiến hành bước tiền xử lí bỏ vào mơ hình training Mơ hình nhóm chọn doc2vec Giai đoạn 4: tự mơ hình huấn luyện ra, nhóm tiền hành xây dựng endpoint API làm ứng dụng thực tế Hình 1.1 Mơ tả q trình chung trình huấn luyện phân loại 1.2.2 Mục tiêu Mục tiêu nhóm trước tìm hiểu lĩnh vực Machine Learning, lĩnh vực khơng phần quan trọng Deep Learning Từ áp dụng kiến thức thuật tốn, thư viện, cơng cụ, ngơn ngữ lập trình… để giải tốn nhận dạng chủ đề viết Qua đó, phần điều chỉnh thơng số phù hợp, có bước xử lý liệu đắn để cải thiện đặc tính tốc độ độ xác mơ hình nhóm chọn Cuối cùng, chúng em xây dựng ứng dụng áp dụng tích hợp mơ hình pre-trained với mong đợi ứng dụng phục vụ người với tính xác hiệu cao Cơ sở lí thuyết 2.1 Giới thiệu Machine Learning 2.1.1 Các khái niệm Machine learning lĩnh vực trí tuệ nhân tạo (AI) Mục tiêu machine learning nói chung hiểu cấu trúc liệu điều chỉnh liệu thành model mà người hiểu sử dụng Học máy có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều tốn suy luận xếp vào loại tốn khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lý Q trình học bắt đầu quan sát liệu Ví dụ, để tìm kiếm mẫu liệu đưa định tốt tương lai dựa ví dụ mà chúng tơi cung cấp Mục đích cho phép máy tính tự động học mà không cần can thiệp hay trợ giúp người điều chỉnh hành động tương ứng Deep Learning tập hợp Machine Learning, có khả khác biệt số khía cạnh quan trọng so với Machine Learning nông truyền thống, cho phép máy tính giải loạt vấn đề phức tạp giải 2.1.2 Các phương pháp Machine Learning 2.1.2.1 Supervised Learning – Học có giám sát Trong học tập có giám sát, máy tính cung cấp ví dụ đầu vào gắn nhãn với đầu mong muốn chúng Mục đích phương pháp để thuật tốn học dạy học cách so sánh kết đầu thực tế với kết đầu dạy để tìm lỗi sửa đổi mơ hình cho phù hợp Do đó, việc học giám sát sử dụng mẫu để dự đoán giá trị nhãn liệu không gắn nhãn bổ sung Ví dụ, với việc học có giám sát, thuật tốn cung cấp liệu với văn nghệ thuật dán nhãn “arts” vản Covid-19 dán nhãn “covid-19” Bằng cách đào tạo liệu này, thuật tốn học có giám sát sau xác định văn nghệ thuật có nhãn “arts”, văn liên quan đến Covid-19 có nhãn “covid-19" Phương pháp thường sử dụng cho toán phân lớp (classification) 2.1.2.2 Unsupervised Learning – Học không giám sát Trong học tập khơng giám sát, liệu khơng gắn nhãn, thuật toán học để lại điểm chung liệu đầu vào Vì liệu khơng gắn nhãn phong phú liệu dán nhãn, phương pháp machine learning tạo điều kiện cho việc học tập khơng giám sát đặc biệt có giá trị Không giám sát thường sử dụng cho liệu giao dịch Phương pháp Word Embedding 2.2 2.2.1 Khái niệm Word Embedding tên gọi chung mơ hình ngôn ngữ phương pháp học theo đặc trưng Xử lý ngơn ngữ tự nhiên(NLP), từ cụm từ ánh xạ sang vector số (thường số thực) Đây công cụ đóng vai trị quan trọng hầu hết thuật toán, kiến trúc Machine Learning, Deep Learning việc xử lý Input dạng text, chúng hiểu Input dạng số, từ thực công việc phân loại, hồi quy, v.v… 2.2.2 Các loại Word Embedding Word Embedding phân chủ yếu thành loại: • Frequency-based embedding • Prediction-based embedding 10 − ∑ 𝑙𝑜𝑔⁡ 𝑃(𝑤𝐶 |𝑤𝑡 ) 𝐶∈𝐶𝑡 Xác xuất có điều kiện 𝑃(𝑤𝐶 |𝑤𝑡 ) định nghĩa : 𝑃(𝑤𝐶 |𝑤𝑡 ) = 𝑒𝑥𝑝(𝑢𝑡𝑇 𝑣𝑐 ) ℕ 𝑒𝑥𝑝(𝑢𝑇 𝑣 ) 𝛴ⅈ=1 𝑡 ⅈ (1) Với N số phần tử từ điển V, 𝑒𝑥𝑝(𝑢𝑡𝑇 𝑣𝑐 ) thể mối quan hệ từ đích 𝑤𝑡 từ ngữ cảnh 𝑤𝐶 , biểu thức cao xác suất thu lớn Tích vơ hướng 𝑢𝑡𝑇 𝑣𝑐 thể tương tự hai vector Việc định xác suất biểu thức (1) để đảm bảo rằng: ∑ 𝑃(𝑤|𝑤𝑡 ) = 𝑤∈𝑣 Nói tóm lại, hàm mát tương ứng với từ đích 𝑤𝑡 theo U,V cho bới cơng thức: L(U,V, 𝑤𝑡 ) = − ∑ 𝑙𝑜𝑔⁡ 𝐶∈𝐶𝑡 𝑒𝑥𝑝(𝑢𝑡𝑇 𝑣𝐶 ) 𝑁 𝑒𝑥𝑝(𝑢𝑇 𝑣 ) 𝛴ⅈ=1 𝑡 𝐶 b Biểu diễn mạng neural Skip-gram word2vec mạng neural vơ đơn giản có tầng ẩn khơng có hàm kích hoạt: 17 Hình 2.4 Mạng neural phương pháp Skip-gram Nhận xét: 𝑢𝑡 kết phép nhân vector one-hot tương ứng với 𝑤𝑡 với ma trận trọng số U, đầu tầng ẩn xét từ đích 𝑤𝑡 , tầng ẩn khơng hàm kích hoạt nhân trược tiếp với ma trận trọng số V để 𝑢𝑡𝑇 𝑽, giá trị vector logit trước vào hàm kích hoạt softmax biểu thức (1) Kiến trúc đơn giản giúp cho word2vec hoạt động tốt từ điển lớn Cuối để đơn giản cho việc tính tốn, ta có công thức sau: 18 2.3.1.2.2 Continous Bag of Words (CBOW) Continous bag of Words tìm xác suất xảy từ đích biết từ ngữ cảnh xung quanh Ta cần mơ hình hóa liệu cho xác suất sau đạt giá trị lớn: P("fox"|"quick","brown","jumps","over") Do có nhiều từ ngữ cảnh điều kiện nên thay từ ngữ cảnh cách lấy từ làm đại diện “trung bình’’ Chúng ta đinh nghĩa: Biểu diễn mạng neural CBOW dạng mạng neural: Hình 2.5 Mạng neural phương pháp CBOW 19 2.3.2 Mơ hình doc2vec Mơ hình doc2vec tương tự word2vec thay biểu diễn từ vector, phương pháp doc2vec biểu diễn văn dạng vector, khác với cấp độ từ, cấp độ văn bản, khơng có cấu trúc logic từ ngữ Tương tự word2vec, doc2vec có cách xây dựng mơ hình là: • Distributed Memory version of Paragraph Vector (PV-DM) • Distributed Bag of Words version of Paragraph Vector 2.3.2.1 Distributed Memory version of Paragraph Vector Hình 2.6 Ví dụ phương pháp PV-DM Mơ hình khác mơ hình word2vec điểm input ngữ cảnh, thêm giá giá trị khác ID câu văn Về câu văn ánh xạ mơ hình sử dụng vector câu văn kết hợp với vector từ tạo nên câu văn để dự đốn 20 từ ngữ cảnh Thơng qua trình đào tạo vector câu lưu trữ thơng tin ngữ cảnh, ý nghĩa câu, thông tin mà từ câu khơng thể Nó hoạt động nhớ tạm thời câu nên phương pháp gọi Distributed Memory model (PV-DM) Để tìm vector cho câu mới, sử dụng mơ hình dự đốn cách khởi tạo vector đại diện ngẫu nhiên cho câu văn đó, trọng số tất phần cịn lại mạng nguyên, sau vài eporch cho trình infer ta thu vector đại diện cho câu văn đầu vào 2.3.2.2 Distributed Bag of Words version of Paragraph Vector Tương tự Word2vec có mơ hình khác dự đốn từ ngẫu nhiên ngữ cảnh gọi Distributed BOW(PV-BOW) gần giống phương pháp Skip-gram Hình 2.7 Ví dụ phương pháp PV-BOW 21 Thực nghiệm 3.1 Phân tích tốn Bài tốn nhóm chúng em giải toán nhận dạng chủ đề viết Chủ đề mà hệ thống nhận dạng nằm chủ đề sau: • Arts • Business • Education • Environment • Health • Politics • Technology • Covid-19 Bảy chủ đề chủ đề lớn thường thấy Riêng chủ đề cuối – Covid-19 – chủ đề bọn em tự thêm vào theo dòng kiện gần Ở toán này, liệu đầu vào đoạn văn (bài viết, báo…), đầu danh sách chủ đề với độ chắn hệ thống việc chủ đề chủ đề văn đầu vào Chúng em tiến hành xây dựng deploy API đơn giản phục vụ cho việc giải toán Cùng tốn này, số cơng ty có cách giải tương tự (xây dựng API) sau: • Komprehend: tính xác trung bình, độ chi tiết thấp thời gian phản hồi trung bình • eventregistry: project bị bỏ hoang 22 • bytesview: tính xác thấp, độ chi tiết ổn thời gian phản hồi trung bình • uClassify: tính xác độ chi tiết thấp, nhiên thời gian phản hồi nhanh • IBM Watson: thuộc ông lớn IBM, độ xác chi tiết cao, thời gian phản hồi nhanh 3.2 Thu thập xử lí liệu 3.2.1 Thu thập liệu Về liệu huấn luyện (train set), ban đầu, chúng em tính sử dụng liệu xây dựng sẵn từ Kaggle Tuy nhiên sau trình thảo luận, hầu hết liệu build sẵn chưa đáp ứng nhu cầu nhóm số lượng chủ đề số lượng viết chủ đề Vì chúng em tiến hành crawl liệu từ trang theconversation.com theo chủ đề lớn phần Phân tích tốn sử dụng thư viện BeautifulSoup ngơn ngữ Python đoạn script Kết chúng em thu thập 12.724 viết, với chủ đề là: • Arts (1752) • Business (1795) • Education (1845) • Environment (1826) • Health (1780) • Politics (1608) • Technology (1832) • Covid-19 (286) 23 Hình 3.1 Bộ liệu huấn luyện 3.2.2 Xử lí liệu Các bước tiền xử lí liệu: • Tokenizing (tách từ) • Chuyển hoa thành thường: doc2vec (mơ hình chúng em chọn cho việc phân loại) chữ hoa hay thường khơng ảnh hưởng đến kết cuối • Loại bỏ dấu câu • Loại bỏ stopwords • Loại bỏ số Hai bước đầu gần bắt buộc, ba bước sau tuỳ chọn Chúng em có train mơ hình doc2vec: mơ hình có loại bỏ dấu câu/stopwords/số mơ hình giữ ngun tất Kết cho thấy việc loại bỏ có ảnh hưởng đến kết quả, cụ thể việc loại bỏ tăng tính xác việc nhận biết chủ đề lên từ khoảng 2-5% Tất nhiên cần phải lưu ý việc gán chủ đề phụ thuộc vào cảm quan người, yếu tố ảnh hướng lớn tới việc đánh giá độ xác, độ hiệu mơ hình 24 Và có số viết gặp tình trạng nhập nhằng chủ đề - khó xác định chủ đề cho việc Và viết bỏ vào mơ hình ta, kết trả tỉ lệ chắn chủ đề không chênh lệch nhiều (dưới 2%) 3.3 Huấn luyện mơ hình Như đề cập từ trước, nhóm chúng em sử dụng model doc2vec làm mơ hình phân loại Nhóm tiến hành train với thơng số mơ sau: • vector_size = 300 • window = • min_count = 20 • epochs = 80 Thông số vector_size quy định số chiều văn liệu huấn luyện Vì viết ngữ liệu tương đối dài (600-1500 từ) nên bọn em cho thông số lớn (300) Thông số window quy định context window hay ngữ cảnh từ Thông số min_count quy định tần suất xuất tối thiểu từ toàn bộ liệu huấn luyện từ để từ tính vào vector văn đầu cuối Vì từ tần suất xuất thấp khơng thể tính vào làm đặc trưng cho vector văn Tuỳ theo độ lớn ngữ liệu huấn luyện mà ta có thơng số phù hợp Sau nhiều lần điều chỉnh, chúng em nghĩ số 20 hợp lí Thơng số epochs quy định số lần lặp ngữ liệu liệu Nghĩa số lần mơ hình huấn luyện lặp lại ngữ liệu Thông số nằm khoảng từ 30-100 cho kết tốt nhất, tuỳ theo độ lớn huấn luyện Ở chúng em chọn 80 sau vài lần điều chỉnh tăng dần 25 Lưu ý epochs lớn tốt Vì epochs cao, tăng nhiều thời gian huấn luyện, văn “nhầm” chủ đề có trọng số lớn mơ hình Chúng em tiến hành huấn luyện với thơng số cho mơ hình phân loại doc2vec: mơ hình có bước tiền xử lí liệu đề cập phần trước, mơ hình khơng có bước tiền xử lí liệu 3.4 Xây dựng API demo 3.4.1 Xây dựng API Sau có mơ hình phân loại từ bước trên, chúng em tiến hành xây dựng API sử dụng thư viện Python flask docker làm container Thiết lập endpoint /topic-classification Hình 3.2 Code endpoint /topic-classification Các param có body request là: • text:văn đầu vào • top: số lượng chủ đề trả • remove_num: có loại bỏ số văn đầu vào hay khơng Chúng em tiến hành deploy lên Heroku với đường dẫn: https://pisifer.herokuapp.com/topic-classification 26 3.4.2 Demo Nhóm tiến hành test API deploy Postman: Hình 3.3 Demo API deploy Source code: https://github.com/princ3od/pisifer 27 KẾT LUẬN Đánh giá 1.1 Xây dựng ngữ liệu test Bọn em thu thập 298 văn ngẫu nhiên tự tay phân loại chủ đề Để tăng độ chắn, nhóm có nhờ bạn có IELTS 7.0 kiểm tra lại Độ dài viết tương tự độ dài viết liệu huấn luyện Hình 4.1 Bộ liệu test 1.2 Kết đánh giá Nhóm chúng em tiến hành đánh giá dựa liệu test liệu train theo tỉ lệ phần trăm Cách đánh giá lấy chủ đề có phần tram cao mà mơ hình dự đốn Nếu chủ đề trùng với chủ đề gắn từ trước viết đó, tính lần pass Cuối lấy tổng số lần pass chia cho tổng số viết liệu dung để đánh giá 28 1.2.1 Đánh giá dựa liệu train Chúng em tiến hành kiểm tra mơ hình huấn luyện sử dụng liệu train hay cách khác viết mà mơ hình thấy qua Hình 4.2 Kết đánh giá liệu train Ta thấy tỉ lệ đạt khoảng 92.21% 1.2.2 Đánh giá dựa liệu test Với cách đánh giá chúng em sử dụng mơ hình mơ hình có loại bỏ dấu câu/stopwords/số mơ hình khơng loại bỏ Mơ hình khơng loại bỏ dấu câu/stopwords/số: Hình 4.3 Kết đánh giá liệu test • Tỉ lệ đạt khoảng 83.9% Mơ hình có loại bỏ dấu câu/stopwords/số: Hình 4.4 Kết đánh giá liệu test • Tỉ lệ cao chút vào khoảng 85.23% 29 Nhận xét Nhìn chung tỉ lệ xác cao (~85%) thực liệu hồn tồn mà mơ hình chưa nhìn thấy Ta giải thích số lý sau: • Đầu tiên liệu train chúng em xây dựng lớn (12.724 viết) • Tuy nhiên số lượng chủ đề hạn chế chưa cụ thể Và cịn có tỉ lệ nhỏ sai sót (~8%) thực liệu mà mơ hình quan sát, học số nguyên do: • Một số viết cịn nhập nhằng chủ đề, khó xác định chủ đề “chính” • Việc phân loại chủ đề phụ thuộc vào chủ quan người phân loại Hướng phát triển • Bổ sung thêm nhiều chủ đề hơn, kéo theo cần phải bổ sung nhiều viết vào liệu huấn luyện • Nghiên cứu thêm kĩ thuật như: stemming hay lemmatization… để xử lý liệu tốt hơn, kiểm tra xem nâng cao độ xác mơ hình qua kĩ thuật hay khơng • Nghiên cứu xem tách đoạn nhỏ văn phân loại chủ đề nhỏ cho đoạn nhỏ dược hay khơng • Bổ sung giải thêm tốn phân tích tình cảm, phân tích lạm dụng, phân tích ý định… 30 TÀI LIỆU THAM KHẢO Radim Řehůřek (2021) Doc2Vec Model – gensim Đăng tại: https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html# sphx-glr-auto-examples-tutorials-run-doc2vec-lee-py (Truy cập: 09/10/2021) Quoc V Le, Thomas Mikolv (2014) ‘Distributed Representations of Sentences and Documents’, arXiv doi: arXiv:1405.4053v2 Chris Moody (2015) A Word is Worth a Thousand Vectors Đăng tại: https://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousandvectors/ (Truy cập: 09/10/2021) Duyet Le (2017) Doc2vec Sentiment Analysis Đăng tại: https://blog.duyet.net/2017/10/doc2vec-trong-sentiment-analysis.html (Truy cập: 09/10/2021) Trí tuệ nhân tạo (2019) DOC2VEC – Phương pháp Vector hóa văn Đăng tại: https://trituenhantao.io/kien-thuc/gioi-thieu-ve-doc2vec (Truy cập: 09/10/2021) Trí tuệ nhân tạo (2019) Word Embedding – Vector hóa văn Đăng tại: https://trituenhantao.io/kien-thuc/word-embeddings-cac-phuong-phap-vector-hoavan-ban/ (Truy cập: 09/10/2021) Mostapha Benhenda (2015) word embeddings and applications to machine translation and sentiment analysis Available at: https://www.slideshare.net/mostafabenhenda/word-embeddings-and-applicationsto-machine-translation-and-sentiment-analysis (Truy cập: 22/12/2021) Nguyen Van Hoang (2019) Giới thiệu Machine Learning Đăng tại: https://viblo.asia/p/gioi-thieu-ve-machine-learning-Do75461QZM6 (Truy cập: 20/12/2021) 31 ... chọn chủ đề ? ?Nhận dạng chủ đề viết Máy Học? ?? Nhóm chúng em tìm hiểu số mơ hình để thực việc nhận dạng chủ đề, từ áp dụng xây dựng nên ứng dụng thực tế API nhận dạng chủ đề viết Trong báo cáo gồm...ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO ĐỒ ÁN CUỐI KỲ Môn học: Đồ án – SE121.M11 ĐỀ TÀI: TÌM HIỂU VỀ NHẬN DẠNG CHỦ ĐỀ BÀI VIẾT BẰNG... phương pháp PV-BOW 21 Thực nghiệm 3.1 Phân tích tốn Bài tốn nhóm chúng em giải toán nhận dạng chủ đề viết Chủ đề mà hệ thống nhận dạng nằm chủ đề sau: • Arts • Business • Education • Environment

Ngày đăng: 15/01/2022, 21:44

Hình ảnh liên quan

tiền xử lí và bỏ vào mô hình training. Mô hình nhóm chọn là doc2vec. - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

ti.

ền xử lí và bỏ vào mô hình training. Mô hình nhóm chọn là doc2vec Xem tại trang 7 của tài liệu.
Hình 2.2. Ví dụ về Co-occurrence Matrix - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

Hình 2.2..

Ví dụ về Co-occurrence Matrix Xem tại trang 13 của tài liệu.
Hình 2.3. Ví dụ về context words - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

Hình 2.3..

Ví dụ về context words Xem tại trang 15 của tài liệu.
Hình 2.5. Mạng neural của phương pháp CBOW - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

Hình 2.5..

Mạng neural của phương pháp CBOW Xem tại trang 19 của tài liệu.
2.3.2. Mô hình doc2vec - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

2.3.2..

Mô hình doc2vec Xem tại trang 20 của tài liệu.
Để tìm được một vector cho một câu mới, chúng ta sử dụng mô hình dự đoán bằng cách khởi tạo một vector đại diện ngẫu nhiên cho câu văn đó,  trọng số tất cả phần còn lại trong mạng được dữ nguyên, sau một vài eporch  cho quá trình infer ta thu được một vec - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

t.

ìm được một vector cho một câu mới, chúng ta sử dụng mô hình dự đoán bằng cách khởi tạo một vector đại diện ngẫu nhiên cho câu văn đó, trọng số tất cả phần còn lại trong mạng được dữ nguyên, sau một vài eporch cho quá trình infer ta thu được một vec Xem tại trang 21 của tài liệu.
• Chuyển hoa thành thường: vì trong doc2vec (mô hình chúng em - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

huy.

ển hoa thành thường: vì trong doc2vec (mô hình chúng em Xem tại trang 24 của tài liệu.
Hình 3.3. Demo API đã deploy - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

Hình 3.3..

Demo API đã deploy Xem tại trang 27 của tài liệu.
Hình 4.1. Bộ dữ liệu test - TÌM HIỂU về NHẬN DẠNG CHỦ đề bài VIẾT BẰNG máy học

Hình 4.1..

Bộ dữ liệu test Xem tại trang 28 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan