Phân tích quan điểm các bài đánh giá sản phẩm trên Shopify bằng cách sử dụng phương pháp tiếp cận TF-IDF & Chi^2

lOMoARcPSD|17160101 TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN DEEP LEARNING ĐỀ T䄃I: Phân tích quan điểm đánh giá sản phẩm Shopify cách sử dụng phương pháp tiếp cận TF-IDF & Chi^2 Sinh viên thực : PHẠM ĐỨC LONG TRỊNH ĐẶNG PHƯƠNG NAM TRẦN NGỌC ĐỨC Giảng viên hướng dẫn : NGÔ HO䄃NG HUY Ngành : CÔNG NGHỆ THƠNG TIN Chun ngành : TRÍ TUỆ NHÂN TẠO & THỊ GIÁC MÁY TÍNH Lớp : D14TTNT&TGMT Khóa : 2019-2024 Hà Nội, tháng năm 2022 lOMoARcPSD|17160101 PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên Phạm Đức Long Nội dung thực Điểm (19810000175) Trịnh Đặng Phương Nam Trần Ngọc Đức Họ tên giảng viên Giảng viên chấm 1: Giảng viên chấm 2: Chữ ký Ghi Chữ ký lOMoARcPSD|17160101 MỤC LỤC LỜI CẢM ƠN LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ HỌC MÁY, HỌC SÂU V䄃 MƠ HÌNH MẠNG NƠ-RON TÍCH CHẬP 1.1 Khái niệm học máy: 1.2 Học giám sát học không giám sát: 1.2.1 Học có giám sát (Supervised Learning)-SL 1.2.2 Học không giám sát (Unsupervised Learning) - UL: 1.3 Ứng dụng học máy: 11 1.4 Mạng nơ-ron tích chập .12 1.4.1 Giới thiệu chung mạng CNN………………………………………… 1.4.2 Sự phát triển mạng CNN………………………………………… 1.4.3 Đặc trưng chung mạng CNN………………………………… 1.5 Các mạng CNN tiêu biểu ………………………………………………… 1.5.1 LeNet-5 ……………………………………………………………… 1.5.2 AlexNet………………………………………………………………… 1.5.3 VGG-16………………………………………………………………… 1.5.4 GoogleNet - Inception-V1……………………………………………… 1.5.5 GoogleNet - Inception-V3……………………………………………… 1.5.6 ResNet-50……………………………………………………………… 1.5.7 DenseNet……………………………………………………………… 1.6 Tổng kết………………………………………………………………… CHƯƠNG THỬ NGHIỆM V䄃 ĐÁNH GIÁ KẾT QUẢ 18 2.1 Bài toán .18 2.1.1 Phát biểu toán: 18 2.1.2 Chuẩn bị liệu: 18 2.1.3 Xử lý liệu: 19 2.1.4 Code chạy liệu .19 KẾT LUẬN 25 T䄃I LIỆU THAM KHẢO .26 lOMoARcPSD|17160101 LỜI CẢM ƠN Lời đầu tiên, em xin chân thành gửi lời cảm ơn tới thầy cô giáo Trường Đại học Điện Lực nói chung thầy giáo Khoa Cơng nghệ thơng tin nói riêng tận tình giảng dạy, truyền đạt cho chúng em kiến thức kinh nghiệm quý báu suốt trình học Đặc biệt, em gửi lời cảm ơn đến Giáo viên hướng dẫn Ngơ Hồng Huy, thầy tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Trong thời gian học tập với thầy, chúng em tiếp thu thêm nhiều kiến thức bổ ích mà cịn học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho chúng em q trình học tập cơng tác sau Chúng em muốn gửi lời cảm ơn đặc biệt nhất, sâu sắc nhất, thân thương đến thầy chúc thầy dồi sức khỏe, tiếp tục giảng dạy hết tâm huyết cho lứa học trị sau để đất nước ta ngày có nhiều nhân tài, người giỏi doanh nghiệp, xây dựng đất nước phát triển Em xin chân thành cảm ơn! lOMoARcPSD|17160101 LỜI MỞ ĐẦU Tính cấp thiết đề tài Công nghệ ngày phổ biến khơng phủ nhận tầm quan trọng hiệu mà đem lại cho sống Bất kỳ lĩnh vực nào, góp mặt trí tuệ nhân tạo giúp người làm việc hồn thành tốt cơng việc Và gần đây, thuật ngữ “machine learning” nhiều người quan tâm.Thay phải code phần mềm với cách thức thủ công theo hướng dẫn cụ thể nhằm hoàn thành nhiệm vụ đề máy tự “học hỏi” cách sử dụng lượng lớn liệu thuật toán cho phép thực tác vụ Đây lĩnh vực khoa học không mới, cho thấy lĩnh vực trí tuệ nhân tạo ngày phát triển tiến xa tương lai Đồng thời, thời điểm xem lĩnh vực “nóng” dành nhiều mối quan tâm để phát triển cách mạnh mẽ, bùng nổ Hiện nay, việc quan tâm machine learning ngày tăng lên nhờ có machine learning giúp gia tăng dung lượng lưu trữ loại liệu sẵn, việc xử lý tính tốn có chi phí thấp hiệu nhiều Những điều hiểu thực tự động, nhanh chóng để tạo mơ hình cho phép phân tích liệu có quy mơ lớn phức tạp đồng thời đưa kết cách nhanh xác Cùng với phát triển mạng internet loại hình thương mại trực tuyến phát triển nhanh, tiêu biểu hệ thống Amazon, Yelp Tripadvisor Đặc điểm chung hệ thống thương mại cho phép khách hàng thể ý kiến đánh giá sản phẩm, dịch vụ Những ý kiến đánh giá phần quan trọng hệ thống cung cấp thơng tin tới khách hàng khác giúp họ có hiểu biết định sản phẩm hay dịch vụ hệ thống để đưa định có nên sử dụng dịch vụ hay không lOMoARcPSD|17160101 Mục tiêu nghiên cứu Báo cáo xây dựng mơ hình TF-IDF & Chi^2 nhằm phân tích quan điểm đánh giá sản phẩm web thương mại điện tử Shopify Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu: Phạm vi nghiên cứu: Đồ án nghiên cứu phạm quy nhu cầu thực tế Phương pháp nghiên cứu - Sử dụng thuật toán TF-IDF để lọc kết thuật toán Chi^2 để xác định mức độ chuẩn xác liệu Kết cấu báo cáo: Báo cáo gồm chương: + Chương 1: Tổng quan học máy mơ hình TF-IDF & Chi^2 + Chương 2: Thử nghiệm đánh giá kết lOMoARcPSD|17160101 CHƯƠNG TỔNG QUAN VỀ HỌC MÁY V䄃 MƠ HÌNH MẠNG NƠ-RON 1.1 Khái niệm học máy: Học máy (Machine learning) lĩnh vực Trí tuệ nhân tạo(Artificial Intelligence) sử dụng thuật toán cho phép máy tính học từ liệu để thực cơng việc thay lập trình cách rõ ràng, cung cấp cho hệ thống khả tự động học hỏi cải thiện hiệu suất, độ xác dựa kinh nghiệm từ liệu đầu vào Học máy tập trung vào việc phát triển phần mềm, chương trình máy tính truy cập vào liệu tận dụng nguồn liệu để tự học Học máy đòi hỏi đánh giá người việc tìm hiểu liệu sở lựa chọn kĩ thuật phù hợp để phân tích liệu Đồng thời, trước sử dụng, liệu phải sạch, khơng có sai lệch khơng có liệu giả Các mơ hình học máy yêu cầu lượng liệu đủ lớn để "huấn luyện" đánh giá mơ hình Trước đây, thuật tốn học máy thiếu quyền truy cập vào lượng lớn liệu cần thiết để mơ hình hóa mối quan hệ liệu Sự tăng trưởng liệu lớn (big data) cung cấp thuật toán học máy với đủ liệu để cải thiện độ xác mơ hình dự đốn Học máy có loại Học có giám sát (Supervised Learning) Học khơng có giám sát(Unsupervised Learning) 1.2 Học giám sát học khơng giám sát: 1.2.1 Học có giám sát (Supervised Learning)-SL Là phương pháp sử dụng liệu gán nhãn từ trước để suy luận quan hệ đầu vào đầu Các liệu gọi liệu huấn luyện chúng cặp đầu vào-đầu Học có giám sát xem xét tập huấn luyện để từ đưa dự đốn đầu cho đầu vào chưa gặp Mỗi liệu có cấu trúc theo cặp {x, y} với x xem liệu thô (raw data) y nhãn liệu Nhiệm vụ SL dự đoán đầu mong muốn dựa vào giá trị đầu vào Dễ nhận ra, học có GIÁM SÁT tức máy học dựa vào trợ giúp người, hay nói lOMoARcPSD|17160101 cách khác người dạy cho máy học giá trị đầu mong muốn định trước người Tập liệu huấn luyện hoàn toàn gán nhãn dựa vào người Tập nhỏ máy tính học SL áp dụng cho nhóm tốn tốn dự đốn (regression) toán phân lớp (classification), dự đoán giá nhà, phân loại email dựa tập liệu mẫu - tập huấn luyện (training data) Học có giám sát hướng tiếp cận Máy học để làm cho máy tính có khả "học" Trong hướng tiếp cận này, người ta "huấn luyện" máy tính dựa quan sát có dán nhãn Ta hình dung quan sát câu hỏi, nhãn chúng câu trả lời Ý tưởng học có giám sát là: việc ghi nhớ tổng quát hóa số quy tắc từ tập câu hỏi có đáp án trước, máy tính trả lời câu hỏi dù chưa gặp phải, có mối liên quan Ví dụ ta dạy máy tính "1 + = 2" hy vọng học phép tính cộng x + trả lời "2 + = 3" Học có giám sát mơ việc người học cách đưa dự đốn cho câu hỏi, sau đối chiếu với đáp án lOMoARcPSD|17160101 Sau người rút phương pháp để trả lời khơng câu hỏi đó, mà cho câu hỏi có dạng tương tự Trong học có giám sát, quan sát bắt buộc phải dán nhãn trước Đây nhược điểm phương pháp này, khơng phải lúc việc dán nhãn xác cho quan sát dễ dàng Ví dụ dịch thuật, từ câu ngơn ngữ gốc dịch thành nhiều phiên khác ngôn ngữ cần dịch sang Tuy nhiên, việc quan sát dán nhãn lại ưu điểm học có giám sát thu thập liệu lớn dán nhãn chuẩn xác, việc huấn luyện trở nên dễ dàng nhiều so với liệu không dán nhãn 1.2.2 Học không giám sát (Unsupervised Learning) - UL: Unsupervised Learning nhóm thuật tốn hay phương pháp kỹ thuật cho phép máy tự học hỏi tìm mơ hình hay cấu trúc ẩn liệu không gắn nhãn trước Điều đồng nghĩa với việc có liệu đầu vào hồn tồn khơng biết comeout Ứng dụng phổ biến học không giám sát gom cụm (cluster) Trong thuật toán này, liệu đầu hay nhãn mà có liệu đầu vào Thuật tốn Học khơng giám sát dựa vào cấu trúc liệu để thực cơng việc đó, ví dụ phân nhóm giảm số chiều liệu để thuận tiện việc lưu trữ tính tốn lOMoARcPSD|17160101 Một cách tốn học, Học khơng giám sát có liệu vào X mà nhãn Y tương ứng

Định dạng
Số trang	37
Dung lượng	780,15 KB