1. Trang chủ
  2. » Tất cả

Tìm hiểu về selenium để lấy dữ liệu từ trang web và sử dụng máy học để dự đoán đánh giá của sản phẩm

44 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 1,16 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO ĐỒ ÁN TÌM HIỂU VỀ SELENIUM ĐỂ LẤY DỮ LIỆU TỪ TRANG WEB VÀ SỬ DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN ĐÁNH GIÁ CỦA SẢN PHẨM Giảng viên hướng dẫn: Nguyễn Hồng Thủy Sinh viên thực hiện: Nguyễn Xuân Cường- 17520308 Nguyễn Tiến Hoàng – 17520515 TP HỒ CHÍ MINH, 2022 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO ĐỒ ÁN TÌM HIỂU VỀ SELENIUM ĐỂ LẤY DỮ LIỆU TỪ TRANG WEB VÀ SỬ DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN ĐÁNH GIÁ CỦA SẢN PHẨM Giảng viên hướng dẫn: Nguyễn Hồng Thủy Sinh viên thực hiện: Nguyễn Xuân Cường- 17520308 Nguyễn Tiến Hồng – 17520515 TP HỒ CHÍ MINH, 2022 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 2022 NHẬN XÉT ĐỒ ÁN (CỦA CÁN BỘ HƯỚNG DẪN) Tên đồ án: Tìm hiểu Selenium để lấy liệu từ trang web sử dụng máy học để dự đoán đánh giá sản phẩm Nhóm sinh viên thực hiện: Cán hướng dẫn: NGUYỄN XUÂN CƯỜNG 17520308 NGUYỄN TIẾN HOÀNG 17520515 NGUYỄN HỒNG THỦY Đánh giá đồ án: Về báo cáo: Số trang Số chương Số bảng số liệu Số hình vẽ Số tài liệu tham khảo Sản phẩm Một số nhận xét hình thức báo cáo: Về nội dung nghiên cứu: Về chương trình ứng dụng: Về thái độ làm việc sinh viên: - Đánh giá chung: - Điểm sinh viên: NGUYỄN XUÂN CƯỜNG: ……… /10 NGUYỄN TIẾN HOÀNG: ……… /10 Người nhận xét (Ký ghi rõ họ tên) Nguyễn Hồng Thủy LỜI CẢM ƠN Để hoàn thành đồ án này, chúng em xin gửi lời cảm ơn chân thành đến: Ban Giám hiệu trường Đại học Cơng nghệ Thơng tin – ĐHQG TP.HCM tạo điều kiện sở vật chất với hệ thống thư viện đại, đa dạng loại sách, tài liệu thuận lợi cho việc tìm kiếm, nghiên cứu thơng tin Chúng em xin gửi lời cảm ơn chân thành đến Nguyễn Hồng Thủy tận tình giúp đỡ, định hướng cách tư cách làm việc khoa học Đó góp ý quý báu khơng q trình thực đồ án mà hành trang tiếp bước cho chúng em trình học tập lập nghiệp sau Và cuối cùng, chúng em xin gửi lời cảm ơn đến gia đình, tất thầy khoa, bạn bè, tập thể lớp KTPM2017 người sẵn sàng sẻ chia giúp đỡ học tập sống Mong rằng, mãi gắn bó với Trong q trình làm đồ án chúng em khơng tránh khỏi sai sót, chúng em kính mong nhận dẫn góp ý q thầy để đồ án hồn thiện Chúng em xin chân thành cảm ơn Xin chúc điều tốt đẹp đồng hành người Thành phố Hồ Chí Minh, … tháng … năm 2022 Sinh viên NGUYỄN XUÂN CƯỜNG NGUYỄN TIẾN HỒNG ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày… tháng … năm 2022 ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Tìm hiểu Selenium để lấy liệu từ trang web sử dụng máy học để dự đoán đánh giá sản phẩm TÊN ĐỀ TÀI (TIẾNG ANH): Cán hướng dẫn: Nguyễn Hồng Thủy Thời gian thực hiện: Từ ngày 05/09/2022 đến ngày 28/12/2022 Sinh viên thực hiện: Nguyễn Xuân Cường – 17520308 Nguyễn Tiến Hoàng – 17520515 Nội dung đề tài I Lý chọn đề tài: Selenium công cụ tự động hóa trình duyệt web ban đầu thiết kế để tự động hóa ứng dụng web cho mục đích thử nghiệm (testing) Nó sử dụng cho nhiều ứng dụng khác tự động hóa tác vụ quản trị dựa web, tương tác với tảng không cung cấp API, để thu thập thông tin web (web crawling) Với Selenium, tự động hóa q trình sử dung trình duyệt giống người dùng bình thường browser Từ việc truy cập vào trang chủ, next page, submit form, click button, link tiến hành cách tự động Máy học hay machine learning lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Tuy nhiên với người chưa tiếp xúc với máy học cảm thấy máy học lĩnh vực khó hiểu, khó học, khó tiếp cận Trong máy học lĩnh vực chiếm lĩnh giới công nghệ tương lai Chính chúng em định chọn đề tài để hiểu thêm Selenium, cách lấy xử lý liệu từ trang web Selenium ứng dụng máy học vào việc thể kết đạt Tình trạng nay: - Hệ thống đánh giá sản phẩm số có nhiều bất cập - Người tiêu dùng có nhu cầu mua hàng khó xác định chất lượng sản phẩm dựa vào số bình luận hàng đầu ⇒ Vì lý nhóm định xây dựng mơ hình xử lý bình luận sản phẩm trang thương mại điện tử II Mục tiêu: bao gồm mục tiêu chính: Tìm hiểu Selenium: - Tìm hiểu cách lấy liệu từ trang web với Selenium - Dùng Selenium để lấy liệu từ trang thương mại điện tử Tìm hiểu máy học - Tìm hiểu python số thư viện cần thiết - Tìm hiểu xử lý ngơn ngữ tự nhiên - Tìm hiểu cách tạo mơ hình hình máy học III IV Đối tượng sử dụng: Người dân có nhu cầu tham khảo đánh giá sản phẩm Phương pháp thực hiện: Phương pháp làm việc: - Làm việc nhóm thành viên thơng qua phương thức online hướng dẫn giảng viên hướng dẫn Phương pháp nghiên cứu: - Nguyên tài liệu Selenium, machine learning công nghệ liên quan - Thu thập liệu sản phẩm cụ thể trang web Phương pháp cơng nghệ: - Tìm hiểu cách thức xây dựng mơ hình máy học - Xây dựng ứng dụng Web để thể kết đạt V Nền tảng công nghệ: - Frontend: HTML, CSS, Javascript - Backend: Django - Database: MySQL VI - Kết mong đợi: Dữ liệu thu thập có độ xác cao, đến từ nhiều nguồn - Kết đánh giá cố độ xác cao - Trang web thể kết nghiên cứu đầy đủ, trực quan VII - Hướng phát triển đề tài: Tăng độ xác mơ hình VIII Kế hoạch làm việc: Thời gian thực từ ngày 05/09/2022 đến ngày 28/12/2022 Nhóm chia thành giai đoạn cụ thể: Giai đoạn 1: Tìm hiểu Selenium lấy liệu từ trang web Thời gian: 05/09/2022 -09/10/2022 Tìm hiểu Selenium, webdriver Dùng Selenium để xấy dựng script crawl bình luận sản phẩm từ trang thương mại điện tử Giai đoạn 2: Tìm hiểu xử lý ngơn ngữ tự nhiên xây dựng mơ hình Thời gian: 09/10/2022 - 15/11/2022 Tìm hiểu python thư viện cần thiết Tìm hiểu q trình xử lý ngơn ngữ tự nhiên Tìm hiểu số mơ hình máy học Xây dựng mơ hình xử lý đánh giá sản phẩm Giai đoạn 3: Xây dựng website thể kết nghiên cứu Thời gian: 15/11/2021-28/12/2022 Xác nhận CBHD TP HCM, ngày tháng năm 2022 (Ký tên ghi rõ họ tên) 10 - Đối với tốn có khơng gian liệu phi tuyến tính, khơng thể tìm siêu phẳng 𝐻0 thỏa mãn tốn Hình Trường hợp liệu khơng tuyến tính Để giải toán trường hợp ta cần biểu diễn liệu từ không gian ban đầu X sang không gian F hàm ánh xạ phi tuyến: 𝜙: 𝑋 ↦ 𝐹 𝑥 ↦ 𝜙(𝑥) - Trong khơng gian F tập liệu phân tách tuyến tính Nhưng khơng gian nảy sinh vấn đề lớn: số chiều liệu tăng lên nhiều so với không gian ban đầu, làm cho chi phí tính tốn vơ tốn Rất may tốn SVM người ta tìm cách khơng cần phải tính 𝜙(𝑥), 𝜙(𝑧) hàm ánh xạ 𝜙 mà tính < 𝜙(𝑥) 𝜙(𝑧) > Phương pháp gọi phương pháp Kernel 𝐾 (𝑥, 𝑧) = < 𝜙 (𝑥) 𝜙(𝑧) > với 𝐾 (𝑥, 𝑧) hàm nhân (Kernel function) - Một số hàm nhân thường dùng: 30 Polynormal: 𝐾 (𝑥, 𝑧) = (< 𝑥 𝑧 > +𝜃)𝑑 Gaussian RBF: 𝐾 (𝑥, 𝑧) = 𝑒 ‖𝑥−𝑧‖2 2𝜎 ;𝜎 > Sigmoidal: tanh(𝛽 < 𝑥 𝑧 > −𝜆) = 1+𝑒 −(𝛽−𝜆) ; 𝛽, 𝜆 ∈ ℝ c Ưu điểm SVM - Xử lý không gian số chiều cao: SVM cơng cụ tính tốn hiệu khơng gian chiều cao, đặc biệt áp dụng cho tốn phân loại văn phân tích quan điểm nơi chiều lớn - Tiết kiệm nhớ: Do có tập hợp điểm sử dụng trình huấn luyện định thực tế cho điểm liệu nên có điểm cần thiết lưu trữ nhớ định - Tính linh hoạt - phân lớp thường phi tuyến tính Khả áp dụng Kernel cho phép linh động phương pháp tuyến tính phi tuyến tính từ khiến cho hiệu suất phân loại lớn d Nhược điểm SVM - Bài toán số chiều cao: Trong trường hợp số lượng thuộc tính tập liệu lớn nhiều so với số lượng liệu SVM cho kết tồi - Chưa thể rõ tính xác suất: Việc phân lớp SVM việc cố gắng tách đối tượng vào hai lớp phân tách siêu phẳng SVM Điều chưa giải thích xác suất xuất thành viên nhóm Convolutional Neural Network (CNN) a CNN - CNN viết tắt Convolutional Neural Network hay gọi CNNS mang nơ-ron tích chập, mơ hình Deep Learning tiên tiến, chúng cho phép bạn xây dựng hệ thống có độ xác cao thơng minh Nhờ khả đó, CNN có nhiều ứng dụng, đặc biệt toán cần nhận dạng vật thể (object) ảnh 31 Hình Minh họa CNN b Các lớp mạng CNN - Convolutional layer: lớp quan trọng CNN, lớp có nhiệm vụ thực tính toán Những yếu tố quan trọng convolutional layer là: stride, padding, filter map, feature map + Cơ chế CNN tạo filter áp dụng vào vùng hình ảnh Các filter map gọi ma trận chiều, bên chứa parameter dạng số + Stride dịch chuyển filter map theo pixel dựa giá trị từ trái sang phải + Padding: Là giá trị thêm lớp input + Feature map: Sau lần qt, q trình tính tốn thực Feature map thể kết sau lần filter map quét qua input - Relu layer: có tên gọi khác activation function, hàm kích hoạt neural network Nó có tác dụng mơ neuron có tỷ lệ truyền xung qua axon Trong activation function chúng cịn có hàm nghĩa là: Relu, Tanh, Sigmoid, Maxout, Leaky,… Relu layer ứng dụng phổ biến việc huấn luyện nơ-ron sở hữu nhiều ưu điểm tiên tiến - Pooling layer: đầu vào lớn, lớp pooling layer xếp vào giữa lớp Convolutional layer để làm giảm parameter Hiện nay, pooling layer có loại chủ yếu là: max pooling average - Fully connected layer: lớp convolutional layer pooling layer nhận liệu, lớp có nhiệm vụ xuất kết Khi ta nhận kết model đọc thông tin liệu, ta cần phải tạo liên kết nhiều output 32 Đây lúc lập trình viên sử dụng fully connected layer Hơn nữa, fully connected layer có liệu chúng chuyển thành mục chưa phân chia chất lượng Hình CNN xử lý ngơn ngữ tự nhiên c Cấu trúc mạng CNN - Mạng CNN tập hợp lớp Convolution bị chồng lên sử dụng hàm nonlinear activation ReLU để kích hoạt trọng số node Lớp sau thông qua hàm trọng số node Những lớp sau thơng qua hàm kích hoạt tạo thơng tin trừu tượng cho lớp - Đặc điểm mơ hình CNN có khía cạnh cần phải đặc biệt lưu ý tính bất biến tính kết hợp, độ xác hồn tồn bị ảnh hưởng có đối tượng chiếu theo nhiều phương diện khác biệt Với loại chuyển dịch, co giãn quay, người ta sử dụng pooling layer làm bất biến tính chất Từ đó, CNN cho kết có độ xác ứng với loại mơ hình 33 - Pooling layer giúp tạo nên tính bất biến phép dịch chuyển, phép co giãn phép quay Trong đó, tính kết hợp cục thể cấp độ biểu diễn, thông tin từ mức độ thấp đến cao, độ trừu tượng thông qua convolution từ filter Dựa chế convolution, mơ hình liên kết layer với - Với chế này, layer kết tạo từ convolution thuộc layer kế trước Điều đảm bảo bạn có kết nối cục hiệu Mỗi nơ-ron sinh lớp từ kết filter áp đặt lên vùng ảnh cục nơ-ron tương ứng trước Cũng có số layer khác pooling/subsampling layer dùng để chắt lọc lại thơng tin hữu ích (loại bỏ thơng tin nhiễu) - Suốt q trình huấn luyện, CNN tự động học hỏi giá trị thông qua lớp filter với “mẫu” cách thức người dùng thực Điều giống với cách não người nhận diện vật thể tự nhiên Hình Cấu trúc mạng CNN - CNN có cấu trúc gồm ba phần là: Local Receptive Field, Shared Weights and Bias Pooling 34 + Local Receptive Field, tạm dịch: trường tiếp nhận cục Đây xem lớp giúp bạn tách lọc liệu, thông tin ảnh chọn vùng ảnh có giá trị sử dụng + Shared Weights, tạm dịch: trọng số chia sẻ Chức lớp hỗ trợ bạn làm giảm tối đa số lượng tham số mạng CNN Vì Convolution bao gồm Feature Map khác nhau, Feature Map lại giúp Detect vài Feature ảnh + Pooling Layer, tạm dịch: lớp tổng hợp Đây xem gần lớp cuối trước đưa kết CNN Chính thế, để có kết dễ hiểu dễ sử dụng Pooling Layer có nhiệm vụ làm đơn giản hóa thơng tin đầu Nghĩa là, sau hồn thành q trình tính tốn qt lớp đến Pooling Layer nhằm lượt bớt không tin không cần thiết cho kết mà cần d Ưu điểm CNN - Vì convolution thường thực từ liền kề, nên thông tin chứa từ liền kề học cách có hiệu - Thực tốt toán phân loại Sentiment Analysis, Spam Detection, Topic Categorization, … - CNN có tốc độ nhanh Convolution thường triển khai GPU e Nhược điểm CNN - Trong xử lý hình ảnh, thơng tin hữu ích chứa pixel liền kề, xử lý ngôn ngữ, từ không cần phải liền kề có liên quan Điều làm cho CNN hoạt động toán Speech Tagging Entity Extraction 35 Bidirectional Encoder Representations from Transformers (BERT) a BERT - BERT mơ hình ngơn ngữ (Language Model) tạo Google AI BERT coi đột phá lớn Machine Learning khả ứng dụng vào nhiều toán NLP khác nhau: Question Answering, Natural Language Inference, với kết tốt b Nền tảng BERT - BERT sử dụng Transformer mơ hình attention (attention mechanism) học mối tương quan từ (hoặc phần từ) văn Transformer gồm có phần chính: Encoder Decoder, encoder thực đọc liệu đầu vào decoder đưa dự đoán Ở đây, BERT sử dụng Encoder - Khác với mơ hình directional (các mơ hình đọc liệu theo chiều - trái→phải, phải→ trái) đọc liệu theo dạng tuần tự, Encoder đọc toàn liệu lần, việc làm cho BERT có khả huấn luyện liệu theo hai chiều, qua mơ hình học ngữ cảnh (context) từ tốt cách sử dụng từ xung quanh (phải&trái) 36 Hình 10 Mơ hình Encoder - Hình mơ tả ngun lý hoạt động Encoder Theo đó, input đầu vào chuỗi token w1, w2, biểu diễn thành chuỗi vector trước đưa vào mạng neural Output mơ hình chuỗi ccs vector có kích thước kích thước input Trong huấn luyện mơ hình, thách thức gặp phải mơ hình directional truyền thống gặp giới hạn học ngữ cảnh từ Để khắc phục nhược điểm mơ hình cũ, BERT sử dụng chiến lược training sau: + Masked LM (MLM): Trước đưa vào BERT, 15% số từ chuỗi thay token [MASK], mơ hình dự đốn từ thay [MASK] với context từ không bị thay [MASK] Masked LM gồm bước xử lý sau: • Thêm classification layer với input output Encoder • Nhân vector đầu với ma trận embedding để đưa chúng không gian từ vựng (vocabulary dimensional) 37 • Tính tốn xác suất từ tập từ vựng sử dụng hàm softmax Hàm lỗi (loss function) BERT tập trung vào đánh giá từ đánh dấu [MASK] mà bỏ qua từ cịn lại, mơ hình hội tụ chậm so với mơ hình directional, điều giúp cho mơ hình hiểu ngữ cảnh tốt + Next Sentence Prediction (NSP): Trong chiến lược này, mơ hình sử dụng cặp câu liệu đầu vào dự đoán câu thứ câu câu thứ hay khơng Trong q trình huấn luyện, 50% lượng liệu đầu vào cặp câu câu thứ thực câu câu thứ 1, 50% cịn lại câu thứ chọn ngẫu nhiên từ tập liệu Một số nguyên tắc đưa xử lý liệu sau: • Chèn token [CLS] vào trước câu [SEP] vào cuối câu • Các token câu đánh dấu A B • Chèn thêm vector embedding biểu diễn vị trí token câu (chi tiết vector embedding tìm thấy báo Transformer) Các bước xử lý Next Sentence Prediction: • Tồn câu đầu vào đưa vào Transformer • Chuyển vector output [CLS] kích thước 2x1 classification layer • Tính tốn xác suất IsNextSequence softmax c Phương pháp Fine-tuning BERT - Tùy vào tốn mà ta có phương pháp fine-tune khác nhau: + Đối với toán Classification, ta thêm vào Classification Layer với input output Transformer cho token [CLS] 38 + Đối với toán Question Answering, model nhận liệu input đoạn văn câu hỏi huấn luyện để đánh nhãn cho câu trả lời đoạn văn + Đối với toán Named Entity Recognition (NER), model huấn luyện để dự đoán nhãn cho token (tên người, tổ chức, địa danh, ) d Ưu điểm BERT - BERT hoặt động tốt mơ hình với nhiệm vụ rõ ràng BERT train kho liệu lớn, giúp dễ dàng thực mô hình NLP nhỏ rõ ràng - Số liệu tinh chỉnh sử dụng - Độ xác vượt trội cập nhật thường xun Có thể đạt điều thơng qua fine-turning thành cơng - BERT có sẵn đào tạo trước 100 ngơn ngữ, hữu ích cho dự án không dựa tiếng Anh e Nhược điểm BERT - Model lớn cấu trúc đào tạo liệu - Tốc độ train chậm - Chi phí đắt đỏ kích thước lớn, u cầu nhiều tài nguyên - BERT thiết kế để tích hợp vào hệ thống khác, khơng phải để sử dụng độc lập, nên sử dụng cần tinh chỉnh để phù hợp với nhiệm vụ 39 Chương 5: SỬ DỤNG SELENIUM ĐỂ LẤY DỮ LIỆU TỪ TRANG WEB - Sau cài đặt cấu hình thành cơng Selenium WebDriver, ta tiến hành lấy liệu từ bình luận từ trang web chọn Hình 11 Hàm khởi tạo cấu hình WebDriver - Hàm lấy link sản phẩm cần crawl bình luận: Hình 12 Lấy link sản phẩm - Hàm lưu bình luận số sao, sau xuất file csv: Hình 13 Lưu bình luận số 40 - Dùng danh sách link sản phẩm để tiến hành tới sản phẩm, lấy liệu bình luận sau dùng hàm lưu bình luận số để xuất liệu lấy file csv: Hình 14 Lấy liệu đánh giá số cho sản phẩm 41 Chương 6: SỬ DỤNG MÁY HỌC ĐỂ ĐÁNH GIÁ SẮC THÁI CỦA BÌNH LUẬN Xử lý liệu - Bộ liệu sau crawl: Hình 15 Bộ liệu chưa xử lý - Thơng tin liệu: Hình 16 Thơng tin Dataframe - Sau áp dụng phương pháp xử lý liệu chuẩn hóa tiếng việt, chuyển tồn thành chữ thường, token hóa, ta liệu sau: 42 Hình 17 Bộ liệu sau xử lý - Tách liệu thành train set test set: Hình 18 Tách liệu thành train set test set Dùng liệu để train số mơ hình nhằm giải tốn Sentiment analysis - Sau hoàn thành bước xử lý liệu, ta dùng liệu đạt để train cho ba mơ hình: SVM, CNN, BERT Tối ưu hóa mơ hình để đạt độ xác cao Save lại mơ hình train để dễ dàng tái sử dụng, xây dựng sản phẩm 43 Chương 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt - Hiểu biết Selenium cách sử dụng Selenium để crawl liệu từ trang web - Xử lý liệu để chuẩn bị sử dụng cho huấn luyện mơ hình - Tìm hiểu mơ hình SVM, CNN, BERT áp dụng thành cơng mơ hình để giải tốn Sentiment analysis Ưu điểm - Lấy liệu thực tế từ nhiều nguồn để train mơ hình - Áp dụng thành cơng mơ hình tiêu biểu xử lý ngôn ngữ tự nhiên Khuyết điểm - Dữ liệu chưa xử lý cách tốt - Độ xác liệu crawl có nhiều thiếu sót - Mơ hình chưa tối ưu triệt để Hướng phát triển - Crawl thêm liệu từ nhiều nguồn đáng tin cậy - Xử lý liệu tốt - Tối ưu hóa mơ hình để nâng cao độ xác kết 44 ...ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO ĐỒ ÁN TÌM HIỂU VỀ SELENIUM ĐỂ LẤY DỮ LIỆU TỪ TRANG WEB VÀ SỬ DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN ĐÁNH... cách lấy liệu từ trang web với Selenium - Dùng Selenium để lấy liệu từ trang thương mại điện tử Tìm hiểu máy học - Tìm hiểu python số thư viện cần thiết - Tìm hiểu xử lý ngơn ngữ tự nhiên - Tìm hiểu. .. link sản phẩm để tiến hành tới sản phẩm, lấy liệu bình luận sau dùng hàm lưu bình luận số để xuất liệu lấy file csv: Hình 14 Lấy liệu đánh giá số cho sản phẩm 41 Chương 6: SỬ DỤNG MÁY HỌC ĐỂ ĐÁNH

Ngày đăng: 01/02/2023, 21:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w