1. Trang chủ
  2. » Cao đẳng - Đại học

Báo cáo thực tập thu nhập dữ liệu WEBSITE

16 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 121,5 KB

Nội dung

1 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM BÁO CÁO THỰC TẬP THU THẬP DỮ LIỆU WEBSITE Công ty thực tập : Feelsync System Người phụ trách : Nguyễn Trọng Sáu Thực tập sinh : Hồng Văn Châu TP Hồ Chí Minh, tháng năm 2021 Thu thập liệu website Hoàng Văn Châu LỜI MỞ ĐẦU Crawl liệu hay gọi cào liệu thuật ngữ khơng có xa lạ ngành marketing, Dịch Vụ Seo Vì crawl kỹ thuật mà robots công cụ tìm kiếm phổ biến sử dụng Google, Yahoo, Bing, Yandex, Baidu Crawler có cơng việc thu thập liệu từ trang web bất kì, định trước phân tích cú pháp mã nguồn HTML để đọc liệu bóc tách thông tin liệu theo yêu cầu mà người dùng đặt liệu mà Search Engine yêu cầu Sau ba năm học tập trường, mong muốn có thêm kinh nghiệm thực tế, muốn tham gia làm việc môi trường chuyên nghiệp, em có dự định thực tập hè Vì vậy, em định chọn FEELSYNC SYSTEM - môi trường lý tưởng, đại, chuyên nghiệp - nơi giúp em thực dự định Thu thập liệu website Hoàng Văn Châu LỜI CẢM ƠN Trân trọng gửi lời cảm ơn Công ty FEELSYNC SYSTEM tạo điều kiện cho em có hội thực tập cơng ty Chỉ thời gian ngắn, nhờ dẫn nhiệt tình nhóm trainer, nhóm thực tập chúng em tiếp thu kiến thức quan trọng để làm plugin crawler Chân thành cảm ơn anh chị nhóm trainer bỏ nhiều thời gian,cơng sức để hướng dẫn chúng em hồn thành đợt thực tập Đặc biệt cảm ơn anh Nguyễn Trọng Sáu training PHP, Linux, MySQL, Apache, hướng dẫn, giúp đỡ cho chúng em tận tình khó khăn cơng việc, đến khó khăn việc làm quen với môi trường Cũng xin cảm ơn thầy cô khoa Công nghệ phần mềm nhiệt tình hỗ trợ, tạo điều kiện em làm báo cáo Hoàng Văn Châu Thu thập liệu website Hoàng Văn Châu NHẬN XÉT CỦA KHOA Thu thập liệu website Hoàng Văn Châu MỤC LỤC MỤC LỤC Chương 1: Giới thiệu công ty thực tập Giới thiệu công ty Feelsync 2 Sản phẩm công ty Chương 2: Nội dung thực tập .4 Tìm hiểu cơng ty kỹ công ty Nghiên cứu kỹ thuật Thực project Lịch làm việc Chương 3: Chi tiết project .10 Giới thiệu Plugin .10 Thực 12 Kế hoạch .13 TÀI LIỆU THAM KHẢO 15 TỔNG KẾT 16 Thu thập liệu website Hoàng Văn Châu Chương 1: Giới thiêu công ty thực tập Giới thiệu công ty First: FEELSYNC SYSTEM (Gọi tắt FEELSYNC) công ty tư vấn phát triển phần mềm Việt Nam FEELSYNC có năm kinh nghiệm lĩnh vực phần mềm với việc xây dựng thực nhiều phần mềm cho tập đoàn, đối tác lớn nước Sau thời gian phát triển, với mong muốn đem đến sản phẩm nhanh chóng chất lượng đến tay khách hàng, FEELSYNC đưa vào nghiên cứu ứng dụng công nghệ nhằm phục vụ mục đích chung công ty đối tác FEELSYNC tự tin mang đến giải pháp phần mềm đại, hiệu mặt thực tế, lẫn chi phí thực Bởi FEELSYNC sử dụng nguồn nhân lực địa phát triển sản phẩm song hành quốc tế lĩnh vực phần mềm, tạo nên ưu cạnh tranh, tính đột phát thấu hiểu người tiêu dùng Đội ngũ nhân FEELSYNC với 20 cộng sự, thuộc phòng: Sáng Tạo, Design, Technology Planner Strategy - có kinh nghiệm làm việc nhiều cơng ty đa quốc gia Singapore, Israel, Đức, Nhật… tư vấn giáo sư cộng tác bạn sinh viên thuộc TOP trường đại học danh giá FEELSYNC tự hào xây dựng thành cơng mơi trường văn hóa đặc trưng, tinh thần làm việc hợp quan trọng hết khách hàng tạo nên cộng đồng Thu thập liệu website Hoàng Văn Châu phát triển phẩn mềm đại, hiệu quả, dẫn đầu xu hướng Trong năm hoạt động, công ty mắt sản phẩm sử dụng công nghệ đại để phục vụ cho mục đích thực tiễn khách hàng như: phát triển phần mềm đa tảng tương tác người dùng, phát triển phần mềm dựa RESTFUL API GRAPHQL cho nhiều bên sử dụng, phần mềm quản lý doanh nghiệp, quản lý tài sản… Tất nỗ lực ngày, để mang đến giải pháp đại nhất, tốt đến khách hàng Và xây dựng cộng đồng nhà phát triển phần mềm trẻ, động, đủ sức cạnh tranh với thị trường quốc tế Sản phẩm công ty FEELSYNC cung cấp giải pháp cộng nghệ phục vụ khách hàng, mà đơn vị thực nhiều kiện, activation đưa chiến lược truyền thông cho nhiều thương hiệu nước - Crawler - Web Design - Mobile Design Thu thập liệu website Hoàng Văn Châu Chương 2: Nội dung thực tập Đợt thực tập em chủ yếu học phát triển phần mềm, cụ thể phần mềm tự động thu thập liệu website theo u cầu Tìm hiểu cơng ty kỹ công ty Thời gian : tuần Nội dung : Giới thiệu công ty, cách tổ chức công ty Được nghe người phụ trách giới thiệu công ty, trình thành lập phát triển (như nhắc đến trên), quy trình làm việc từ cao xuống thấp, cách thức tổ chức cơng ty Ngồi ra, thực tập sinh giới thiệu cách thức làm việc công ty thời gian làm, quy định cần phải tuân thủ, cách sử dụng email công việc… Kết : Hiểu thêm cơng ty FEELSYNC, q trình thành lập phát triển Có thêm kỹ việc sử dụng email công việc, cách sử dụng phần cứng kết nối với Server, làm việc có kế hoạch, có kỷ luật, có trách nhiệm Nghiên cứu kỹ thuật 2.1 2.2 Các công cụ làm việc Thời gian : tuần Nội dung : Tìm hiểu cơng cụ sử dụng trình làm việc Trong thời gian này, supervisor hướng dẫn thực tập sinh tìm hiểu cơng cụ giúp ích cho công việc sau Một số phần mềm trang web số Trello, Git, Bitbucket - sử dụng làm việc nhóm PHP Debug – Debuger cho phát triển PHP Thực : Thực hành sử dụng phần mềm nêu Kết : Lập trình sử dụng cơng cụ miễn phí, giúp dễ dàng kết hợp công cụ với nhau, so với việc dùng IDE Tìm hiểu ngơn ngữ PHP nâng cao Thời gian : tuần Nội dung : Được training kỹ thuật PHP nâng cao, kiến thức quan trọng cho việc tối ưu Server - Lập trình hướng đối tượng Các kiến thức lập trình hướng đối tượng khái niêm, đặc tính tính kế thừa, tính đóng gói, tính ảo hóa, tính đa hình - Quản lý nhớ Thực tập sinh hướng dẫn cách cấp phát, quản lý nhớ cho tối ưu, tránh rò rỉ nhớ server Thu thập liệu website Hoàng Văn Châu Thực : - Tham gia đầy đủ buổi training công ty - Làm thực hành, kiểm tra kiến thức học Kết : - 2.3 Nâng cao kỹ lập trình với ngơn ngữ PHP Có kiến thức quan trọng cho việc lập trình website sau Ngồi cịn biết thêm số quy tắc việc viết code cho chuẩn, dễ đọc, dễ hiểu Lập trình PHP Nội dung: Các kiến thức PHP để làm module đơn giản - Khái niệm PHP Nắm khái niệm mơi trường PHP Linux Ngồi ra, trainer cung cấp cho thực tập sinh khái niệm lập trình sử dụng design pattern, cache, import packages,, … để tùy chỉnh cho module, khái niệm quan trọng lập trình Plugin - Mơ hình kiến trúc MVC: MVC (MVC Design Pattern) viết tắt Model - View - Controller Đó mẫu kiến trúc, mơ hình lập trình phổ biến sử dụng để tạo cấu trúc cho nhiều trang web, ứng dụng tiên tiến - Apache: Apache phần mềm web server miễn phí mã nguồn mở Nó chiếm đến khoảng 46% thị phần websites tồn giới Tên thức Apache Apache HTTP Server, điều hành phát triển Apache Software Foundation Nó giúp chủ website đưa nội dung lên web – có tên gọi “web server” Apache số web server lâu đời đáng tin cậy nhất, phiên mắt từ 20 năm trước, tận năm 1995 - MySQL: MySQL hệ thống quản trị sở liệu mã nguồn mở (Relational Database Management System, viết tắt RDBMS) hoạt động theo mơ hình clientserver RDBMS phần mềm hay dịch vụ dùng để tạo quản lý sở liệu (Database) theo hình thức quản lý mối liên hệ chúng Các ứng dụng web lớn Facebook, Twitter, YouTube, Google, Yahoo! dùng MySQL cho mục đích lưu trữ liệu - CentOs: Thu thập liệu website Hoàng Văn Châu 10 CentOS hệ điều hành miễn phí xây dựng phát triển dựa hệ điều hành mã nguồn mở Linux CentOS chữ viết tắt “Community Enterprise Operating System” CentOS mắt công chúng vào tháng năm 2004 phát triển dựa phân phối Red Hat Enterprise Linux (RHEL) Thực : - - Tham gia đầy đủ buổi trainning Làm tập thực hành tạo DatabaseConnection để kết nối MySQL, Controller Model để xử lý liệu lưu trữ vào DB local ,cài đặt package liên quan lên hệ điều hành CentOs ( git, PHP, Apache, MySql ) … Tìm hiểu khái niệm CronJob Shell Script Linux Tìm hiểu khái niệm PHP CURL Tìm kiếm tài liệu mạng để tìm hiểu thêm Kết : - Hiểu khái niệm LAMP Đã hoàn thành Module đơn giản kết nối vào DB lưu trữ thông tin vào DB vừa kết nối Thực project Sau tháng training thực hành, thực tập sinh nắm kiến thực Linux, Apache, MySQL, PHP Trong tháng thứ hai, trainer hướng dẫn thực tập sinh áp dụng kiến thức học để thực Plugin hoàn chỉnh thu thập liệu Chi tiết đồ án nói phần sau Lịch làm việc Tuần Công việc - - Người hướng dẫn Mức độ hoàn thành Nhận xét người hướng dẫn Tìm hiểu cơng ty, Anh Nguyễn Trọng cách tổ chức Sáu công ty Làm quen với công cụ làm việc công ty Học cách trao đổi, làm việc qua email Thu thập liệu website Hồng Văn Châu 11 - Tìm hiểu ngơn ngữ Anh Nguyễn Trọng lập trình PHP nâng Sáu cao - Tìm hiểu về, Anh Nguyễn Trọng MySQL, Apache Sáu Thực hành viết số module - Tìm hiểu Linux Thực hành tạo CronTask, ShellScript - Kết nối tới Server từ local Giai đoạn Alpha: - Lên kế hoạch - Thiết kế kiến trúc phù hợp - Viết Plugin - Tạo lớp cần thiết, import packages cần thiết cho plugin Giai đoạn Alpha(tiếp): - Viết chức nâng cao - Tương tác với Server MySQL Anh Nguyễn Trọng Sáu Giai đoạn Beta: - Làm Module cần thiết - Báo cáo tiến độ với leader để test Giai đoạn Beta giai đoạn kết thúc, báo cáo : - Kết nối với Server - Fix bug, fix logic theo yêu cầu khách hàng - Deploy Production - Báo cáo cuối đợt Anh Nguyễn Trọng Sáu Thu thập liệu website Anh Nguyễn Trọng Sáu Anh Nguyễn Trọng Sáu Anh Nguyễn Trọng Sáu Hoàng Văn Châu 12 thực tập Thu thập liệu website Hoàng Văn Châu 13 Chương 3: Chi tiết project Giới thiệu Plugin THU THẬP DỮ LIỆU WEBSITE THEO YÊU CẦU Dữ liêu thu thập từ thông tin public website xử lý theo yêu cầu đưa từ phía khách hàng Quá trình thu thập diễn tự động theo lịch cố định 1.1 Quy tắc chung  Thiết kế DB viết code theo quy tắc chung mà công ty đặt  Lên lịch chạy cho hệ thống  Gửi Notify Success cho phía khách hàng Team Dev  Chỉ gửi Nofity Error cho Team Dev, khách hàng khơng thơng báo phía khách có lỗi xảy ra, khơng hiển thị chi tiết lỗi 1.2 Một số vấn đề xảy q trình thực Bị phía Website Victim block IP: thực request nhiều liên tục phía Website Victim block IP Server thực Crawler Để khắc phục chúng cần thực Request chậm lại Module get HTML viết sử dụng Proxy ( tốn kinh phí) - Bị phía Website Victim phát giả mạo người dùng: thực request PHP CURL nên bị Website Victim phát người dùng Browser thực bị block Để khắc phục chúng cần thêm Cookies cho request từ CURL - Website sử dụng Client Render: liệu website genrate Js, được HTML.Để khắc phục vấn đề cần tìm API thực request trả respone cho Js thực lấy liệu từ API - Thực - Thực tập sinh: Hoàng Văn Châu Và giúp đỡ tận tình team trainer Thu thập liệu website Hoàng Văn Châu 14 Kế hoạch Giai đoạn Alpha: - - Hoàn thành chức module: o Hoàn thành Module kết nối CSDL sử dụng Singleton DesignPattern o Tương tác CSDL: thêm , xóa, sửa … record Làm Module get HTML từ website PHP CURL Xây dựng Notify Module để thông báo trạng thái ChatWork API Kết : - Các tính thực tốt Giai đoạn Beta: - Sử dụng phpQuery-onefile để convert file html get từ Module getHTML sang PHP Object,… - Viết Controller xử lý logic theo yêu cầu khách hàng - Báo cáo tiến độ tuần cho lead để chỉnh sửa logic review code,… - Kết nối với Server Deploy lên mơi trường test Kết : Đã hồn thành tồn tính trên, nhiên chưa tối ưu Giai đoạn hồn thành: - Tối ưu hóa cách Request lên website victim - Được Lead trainer xác nhận hoàn thành dự án - Nộp source code lên bitbucket TÀI LIỆU THAM KHẢO PHP : https://www.php.net/ Thu thập liệu website Hoàng Văn Châu 15 phpQuery-onefile: https://code.google.com/archive/p/phpquery/ Thu thập liệu website Hoàng Văn Châu 16 TỔNG KẾT Như vậy, vòng tháng ngắn ngủi, em kịp hoàn thành Plugin tự động thu thập liệu website theo yêu cầu Plugin có đầy đủ tính đề ban đầu Plugin phát triển theo mơ hình kiến trúc MVC có tính kế thừa nên sau có thời gian phát triển lên mức cao Chân thành cảm ơn giúp đỡ anh chị nhóm trainer Feelsync để em hồn thành Plugin Cảm ơn thầy, cô khoa giúp em hoàn thành báo cáo Thu thập liệu website Hoàng Văn Châu ... cáo cuối đợt Anh Nguyễn Trọng Sáu Thu thập liệu website Anh Nguyễn Trọng Sáu Anh Nguyễn Trọng Sáu Anh Nguyễn Trọng Sáu Hoàng Văn Châu 12 thực tập Thu thập liệu website Hoàng Văn Châu 13 Chương... tiết project Giới thiệu Plugin THU THẬP DỮ LIỆU WEBSITE THEO YÊU CẦU Dữ liêu thu thập từ thông tin public website xử lý theo yêu cầu đưa từ phía khách hàng Quá trình thu thập diễn tự động theo lịch... cần tìm API thực request trả respone cho Js thực lấy liệu từ API - Thực - Thực tập sinh: Hoàng Văn Châu Và giúp đỡ tận tình team trainer Thu thập liệu website Hoàng Văn Châu 14 Kế hoạch Giai đoạn

Ngày đăng: 05/09/2021, 21:06

TỪ KHÓA LIÊN QUAN

w