1. Trang chủ
  2. » Công Nghệ Thông Tin

Báo cáo thực tập cơ sở PTIT dữ liệu điện thoại

46 415 8

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 15,11 MB
File đính kèm TTCS.rar (13 MB)

Nội dung

Báo cáo thực tập cơ sở PTIT, Dự án tập trung vào việc lấy dữ liệu thô về điện thoại trên các sàn thương mạiđiện tử của các Store lớn sau đó bằng việc sử dụng python để làm sạch dữ liệu.Từ dữ liệu thô sau khi loại bỏ dư thừa và làm sạch chúng ta có tệp dữ liệu cóthể sử dụng được. Cuối cùng sẽ visualization dữ liệu.Đầu vào là dữ liệu về điện thoại của: https:cellphones.com.vn,https:fptshop.com.vn, https:www.thegioididong.com,https:www.hnammobile.com.Thông tin cần lấy được: Tên, giá bán, giá gốc, bộ nhớ.Đầu ra: Các đồ thị được trực quan hoá từ nguồn dữ liệu được làm sạch từ dữ liệu thô

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THÔNG TIN I - 🕮 - Báo cáo Thực tập sở GIẢNG VIÊN HƯỚNG DẪN: Đinh Xuân Trường SINH VIÊN THỰC HIỆN: Nguyễn Duy Mạnh MÃ SINH VIÊN: LỚP: HÀ NỘI, 2022 B19DCCN417 D19CQCN09-B Mục Lục Báo cáo Thực tập sở GIỚI THIỆU CHUNG Mục tiêu thực tập sở Mục tiêu định hướng cá nhân PATH LEARNING Quy trình học tập Đề tài dự án (Tuần thứ 6) Nội dung thực tập đề xuất BÁO CÁO TIẾN ĐỘ TỪNG TUẦN Tuần (27/3-3/4) Tuần (3/4-10/4) Tuần (11/4-17/4) 10 Tuần (18/4-24/4) 12 Tuần (25/4-1/5) 13 Tuần (2/5-8/5) 16 Tuần (8/5-15/5) 18 Tuần (15/5-22/5) 20 Tuần +10(22/5-29/5) 21 Nội Dung Dự án TTCS 27 I Giới Thiệu 27 Tổng quan 27 phát biểu toán 27 ý nghĩa dự án 27 Quy Trình Dự Án 28 Thu Thập liệu: Thu thập liệu công nghệ là: Scrapy AkaBot 28 Làm liệu: Chuyển liêu thu thập dạng Data Frame -> tiến hành làm Python 28 Visualizaton: Sử dụng thư viện Plotly để trực quan hoá liệu 28 II Cơ sở lý thuyết công nghệ sử dụng 28 Tự động hóa quy trình(RPA) Akabot 28 pandas.DataFrame 30 plotly python (https://plotly.com/python/) 30 scrapy 30 So Sánh thu thập liệu Scrapy AkaBot 32 Scrapy 32 AkaBot 32 Thu thập việc vào đoạn HTML để lấy liệu -> sử dụng XPath 32 Thu thập việc vào đoạn HTML để lấy liệu -> sử dụng XPath 32 -Có thể thu thập nhiều trang nhờ việc tìm link đoạn mã HTML để chuyển trang 32 Thu thập trang ( thu thập nhiều trang yêu cầu trình độ cao viết C#)32 -Dữ liệu thơ thu 32 Dữ liệu thô thu trùng lặp phải xử lí nhiều để sử dụng 32 Không thu thập tất web 32 - Thu Thập tất web lấy lượng thông tin đầy đủ việc cào trường nhiều lần 32 III Xử lý liệu Visualization liệu 32 Xử lý liệu 32 Visualization 35 IV Đánh giá 45 Ưu điểm dự án 45 Nhược điểm dự án 45 Hướng phát triển dự án 45 Kết Luân Quá Trình Thực Tập 45 I Kết đạt 45 Nền tảng lý thuyết 45 Dự án 46 II Bài học kinh nghiệm 46 III Những điều cần cải thiện 46 Mục Lục Hình Ảnh Báo Cáo Dự Án TTCS( Phần 4) Hình Sử dụng Extract Stractured Data(B) để lấy liệu thơ từ web 29 Hình 2: Xpath trường liệu 29 Hình 3: Code lấy liệu từ Cellphones nhện 31 Hình 4: Dữ liệu thơ lấy từ nhện 32 Hình 5: Dữ liệu chuẩn hố 33 Hình 6: Dữ liệu cellphones 34 Hình 7: Dữ liệu FPT SHOP 34 Hình 8: Dữ liệu Hà Nam Mobile 35 Hình 9: Dữ liệu Thế Giới Di Động 35 Hình 10: Số lượng điện thoại bán store 36 Hình 11: Lượng tương tác người dùng store 37 Hình 12: Tìm kiếm điện thoại theo tên 38 Hình 13 tìm kiếm điện thoại theo tên đưa gợi ý cửa hàng nên đến mua 39 Hình 14: Số lượng điện thoại theo hãng store(4 đồ thị) 40 Hình 15: Tỉ lệ điện thoại theo hãng store(4 đồ thị) 41 Hình 16: số lượng điện thoại theo yêu cầu chi nhánh 42 Hình 17: Tỉ lệ hãng điện thoại Store 43 Hình 18: Tổng số lượng điện thoại hãng tự chọn Store 44 GIỚI THIỆU CHUNG Mục tiêu thực tập sở Mục tiêu thực tập sở củng cố kiến thức sở cho sinh viên trước vào phần chuyên ngành tạo tiền đề cho sinh viên tập năm Hình 1: Kiến thức kỹ sở ngành CNTT Yêu cầu cho sinh viên cần bao phủ tối thiểu 2/4 mảng kiến thức (Lập trình, thuật tốn, sở liệu, máy tính), mảng kiến thức lập trình bắt buộc Sinh viên lựa chọn làm project nhóm tập theo mảng kiến thức Nội dung đề tài nằm mảng sau: Web/ App/ Công nghệ (Học máy, học sâu, ) Các công nghệ liệu ứng dụng cơng nghệ tốn cụ thể theo định hướng chuyên sâu Mỗi tuần nhóm / cá nhân cần có báo cáo tiến độ cụ thể việc thực tuần Cuối kỳ đánh giá dựa kết thực project q trình học tập Các nhóm cần trình bày lại project gửi báo cáo kết Điểm đánh giá dựa báo cáo tiến độ kết trình bày project vào cuối kỳ Mục tiêu định hướng cá nhân - Mục Tiêu: Trong tương lai gần xin thực tập vị trí Data Engineer Xa làm mảng Dữ Liệu - Định hướng cá nhân: Phát triển thân theo hướng Data ( DA/DS/DE/ML) tập trung vào DE - Lý do: Mặc dù thân em không giỏi code, thuật tốn, ngoại ngữ em có niềm đam mê với số, hình ảnh … mức độ lớn(rộng liệu) Em muốn làm việc với thứ mà thích Và lý nhỏ em muốn giải toán nhỏ kinh doanh việc phân tích liệu tự phát em có đam mê lớn với kinh doanh PATH LEARNING Quy trình học tập Đề tài dự án (Tuần thứ 6) Đề xuất đề tài: Dữ Liệu Điện Thoại di động trang thương mại điện tử uy tín Việt Nam Công nghệ muốn sử dụng: Python, Scrapy, Hadoop… Nội dung thực tập đề xuất Tiến độ thực thực tập # Topics Hadoop ecosystem tools Days Target 10 Trình bày cài đặt tool: HDFS, Data warehouse & ETL MongoDB Trình bày cài đặt cấu hình MongoDB Đề xuất đề tài Project 10 Phân tích liệu Visualization liệu Tổng kết dự án Final 03/ 10/0 17/0 24/0 01/ 08/0 15/ 22/0 29/ 04 4 05 05 05 Hiểu Data warehouse cách làm việc với Trình bày ETL 27/ 03 YARN, MapReduce and Hadoop 20/ 03 Xử lý liệu BÁO CÁO TIẾN ĐỘ TỪNG TUẦN Tuần (27/3-3/4) Hadoop ecosystem tools Cài đặt tool, tìm hiểu khái quát HDFS, YARN ● tìm hiểu khái quát kiến trúc HDFS( namenode, datanode, secondary namenode,blocks); đọc ghi liệu HDFS ● cài đặt Hadoop cấu hình hadoop - setup theo: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoopcommon/SingleCluster.html Gặp số lỗi java phiên 16 -> hạ phiên java setup xong gặp lỗi không start localhost fix:z Tuần (3/4-10/4) Data warehouse & ETL Mục tiêu tuần ● Data warehouse gì? nên sử dụng data warehouse; so sánh OLTP OLAP ● Data warehouse dimensional modeling ● ETL: khái niệm; cách thức hoạt đông ● Thư viện Prefect hỗ trợ ETL python https://towardsdatascience.com/prefect-how-to-write-and-schedule-your-first-etl-pipeline-with-python54005a34f10b ● ● Vì cần ETL ETL Hadoop?( chưa hoàn thành) Tuần (11/4-17/4) MongoDB Mục tiêu tuần ● - cài đặt MongoDB tải MongoDB compass cài MongoDB community server mở terminal tiến hành cài 10 Hình 4: Dữ liệu thơ lấy từ nhện So Sánh thu thập liệu Scrapy AkaBot III Scrapy AkaBot Thu thập việc vào đoạn HTML để lấy liệu -> sử dụng XPath Thu thập việc vào đoạn HTML để lấy liệu -> sử dụng XPath -Có thể thu thập nhiều trang nhờ việc tìm link đoạn mã HTML để chuyển trang Thu thập trang ( thu thập nhiều trang yêu cầu trình độ cao viết C#) -Dữ liệu thô thu Dữ liệu thô thu trùng lặp phải xử lí nhiều để sử dụng Không thu thập tất web - Thu Thập tất web lấy lượng thông tin đầy đủ việc cào trường nhiều lần Xử lý liệu Visualization liệu Xử lý liệu • Dữ liệu đầu vào liệu thô nhện AkaBot lấy Chia làm liệu luồng Luồng liệu nhện cào ( liệu cần xử lý đơn giản) Luồng liệu lấy từ AkaBot( liệu hỗn tạp trùng lặp) Dữ liệu từ nhện: Chuẩn hóa liệu dạng hình ảnh 32 Hình 5: Dữ liệu chuẩn hố Dữ liệu từ AkaBot: • Xử lý đơn giản hàm excel: loại bỏ dư thừa tìm tên trùng lặp; Cùng trường phải thu thập nhiều trường để lấy hết liệu -> tiến hành ghép giá trị trường • Đọc file xlsx -> chuyển thành dạng Data Frame 33 Hình 6: Dữ liệu cellphones Hình 7: Dữ liệu FPT SHOP 34 Hình 8: Dữ liệu Hà Nam Mobile Hình 9: Dữ liệu Thế Giới Di Động Visualization • • Sử Dụng thư viện Plotly để tiến hành trực quan hoá liệu Các đồ thị: - Đồ thị thể tổng số lượng điện thoại store cho thấy quy mơ store đó: 35 Hình 10: Số lượng điện thoại bán store - Đồ thị thể lượng tương tác client cho ta thấy lượng tương tác store từ đưa kết luận store thu hút client thu hút hơn: 36 Hình 11: Lượng tương tác người dùng store - Tìm kiếm gần điện thoại cho ta kết danh sách điện thoại mà khơng cần nhớ xác tên: 37 Hình 12: Tìm kiếm điện thoại theo tên - Tìm kiếm theo tên xác giúp tham khảo giá điện thoại tìm kiếm, Đưa gợi ý nên đến đâu mua dựa vào giá thấp ( Hướng phát triển: đưa dự đoán nhờ vào chế đố ưu đãi giá cả, gợi ý địa điểm gần để đến mua) 38 Hình 13 tìm kiếm điện thoại theo tên đưa gợi ý cửa hàng nên đến mua 39 - Đồ thị cho thấy store bán hãng điện thoại với số lượng Hình 14: Số lượng điện thoại theo hãng store(4 đồ thị) 40 - Đồ thị cho thấy tỉ lệ điện thoại theo hãng store -> đưa mặt hàng chủ yếu, trọng điểm store Hình 15: Tỉ lệ điện thoại theo hãng store(4 đồ thị) - Input: tên brand - Ouput: đồ thị cột hiển thị số lượng điện thoại brand store è Biết số lượng điện thoại hãng bán store 41 Hình 16: số lượng điện thoại theo yêu cầu chi nhánh 42 - Tỉ lệ hãng điện thoại store -> biêt hãng điện thoại dược store tập trung bán Hình 17: Tỉ lệ hãng điện thoại Store - Tổng số điện thoại hãng chọn tuỳ theo mong muốn store -> biết đươcj quy mô hãng điện thoại 43 Hình 18: Tổng số lượng điện thoại hãng tự chọn Store 44 IV Đánh giá Ưu điểm dự án Dự án bước đầu thu thập liệu thô Từ liệu thơ ban đầu có liệu sử dụng Visualization liệu khiến cho người đọc dễ nắm bắt đặc điểm tệp liệu Có tính ứng dụng cao khơng phải dự án phát triển thành dự án lớn Nhược điểm dự án Việc thu thập liệu chưa quét hết toàn tệp liệu Chưa thể lên web, app để người sử dụng dễ dàng theo dõi nhận định Dữ liệu xử lý chưa tuyệt đối( thể rõ trường name) Hướng phát triển dự án Phát triển dự án dạng web app ( thu thập nguồn liệu khổng lồ để làm điều này) -> phát triển không cho doanh nghiệp mà cho người dùng Các phần code đồ thị -> phát triển thành API cho web Là nơi tham khảo giá dịng điện thoại việc tìm kiếm gần Đưa gợi ý cho client việc nên đến đâu mua để hời ( trước hết so sánh giá, sau so sánh ưu đãi) cuối đưa tên store gợi ý địa điểm gần client Thu thập nguồn liệu lớn -> Visualization liệu dạng quy mô lớn biểu đồ đường tăng trưởng store theo thời gian từ phù hợp cho store muốn tham khảo số liệu đối phương Sử dụng MongoDB để lưu trữ liệu sử dụng spark để làm liệu Kết Luân Quá Trình Thực Tập I Kết đạt Nền tảng lý thuyết - Nắm sở lý thuyết cài đặt tool: HDFS, YARN, MapReduce and Hadoop - Nắm sở lý thuyết Data warehouse cách làm việc với Hiểu ETL 45 - Có thể trình bày cài đặt cấu hình MongoDB è Có thể Dự án mơn em chưa áp dụng kiến thức vào để sử dụng khiến em có thêm kiến thức để tiếp tục học tập phát triển Dự án - Làm việc với cơng nghệ AkaBot, Scrapy - Có kiến thức tương đối Data Frame Visualization liệu è Dự án cho em thêm kiến thức liệu cách cào liệu từ web Đây phần kiến thức lớn mà em học từ mơn TTCS II Bài học kinh nghiệm - Có thêm nhiều kiến thức DE tạo project nhỏ DE - Biết thêm nhiều kiến thức lưu trữ liệu xử lí liệu - Có thêm nhiều kinh nghiệm việc tự trau dồi thêm kiến thức ( kĩ quan trọng) III Những điều cần cải thiện - Lượng kiến thức học cần áp dụng vào project điều em chưa áp dụng vào dự án Cần tìm hiểu kĩ kiến thức hadoop mongodb Cần cải thiện việc hạn việc xếp thời gian 46 ... https://towardsdatascience.com/prefect-how-to-write-and-schedule-your-first-etl-pipeline-with-python54005a34f10b ● ● Vì cần ETL ETL Hadoop?( chưa hoàn thành) Tuần (11/ 4-1 7/4) MongoDB Mục tiêu tuần ● - cài đặt MongoDB... (27/ 3-3 /4) Tuần (3/ 4-1 0/4) Tuần (11/ 4-1 7/4) 10 Tuần (18/ 4-2 4/4) 12 Tuần (25/ 4-1 /5) 13 Tuần (2/ 5-8 /5) 16 Tuần (8/ 5-1 5/5)... https://github.com/DuyManh030901/Data _ttcs_ akabot/tree/master/Data _ttcs/ code - Thư mục data liệu loại bỏ dư thừa - xử lý loại bỏ dòng trống, liệu dư thừa excel ( thu thập chứa nhiều giá trị -> thu thập ô có giá trị gây thừa ->

Ngày đăng: 24/03/2023, 13:53

TỪ KHÓA LIÊN QUAN

w