Tiểu luận thiết kế hệ thống phân tích đánh giá thực phẩm bằng hadoop và hive

13 3 0
Tiểu luận thiết kế hệ thống phân tích  đánh giá thực phẩm bằng hadoop và hive

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

lOMoARcPSD|22494962 Trường Đại Học Bách Khoa Tp Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính MƠN HỌC Dỵ LIịU LN _ Báo cáo Tiểu Luận Thiết Kế Hß Thßng Phân Tích & Đánh Giá Thực Phẩm Bằng Hadoop Hive _ GVHD: Nhóm 1: PGS.TS Thoại Nam Nguyễn Châu Kỳ – 1570215 Nguyễn Kim Lanh – 1570216 Đào Thị Thu Trang – 1570233 TP Hà CHÍ MINH, NGÀY 15 THÁNG NĂM 2016 lOMoARcPSD|22494962 Group - Design System Analysis & Evaluation Foods by Hadoop and Hive May 2016 Mục Lục Lời cảm ơn Giới Thiệu Chung 1.1 Tóm tắt nội dung 1.2 Vấn đề cần giải Cơ Sở Lý Thuyết 2.1 Kiến thāc Hadoop 2.2 Kiến thāc Hive Phân tích Thiết kế 3.1 Mô hình Client – Server 3.2 Kiến trúc Client 3.3 Kiến trúc Server 3.4 Cơ sở liệu (Hive) 3.5 Tổng quan hệ thống Hiện thực Kết 4.1 Yêu cầu hệ thống 4.2 Hiện thực 4.3 Kết 10 Kết Luận 13 Tài Liệu Tham Khảo 13 Trường Đại Học Bách Khoa Tp Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính lOMoARcPSD|22494962 Group - Design System Analysis & Evaluation Foods by Hadoop and Hive May 2016 Lời cảm ơn Với lòng biết ơn sâu sắc nhất, chúng em xin gửi đến Thầy Thoại Nam, người tận tình truyền đạt cho chúng em nhiều kiến thāc môn Dữ Liệu Lớn (Big Data), giúp chúng em dễ dàng việc tiếp cận với tri thāc cÿa đề tài Bài báo cáo thực khoảng thời gian gần tuần Do trình độ lý luận kinh nghiệm thực tiễn cịn hạn chế, chúng em khơng tránh khỏi sai sót, chúng em mong nhận ý kiến đóng góp, phê bình từ thầy Đó kinh nghiệm quý giá để giúp chúng em hoàn thiện kiến thāc cÿa lĩnh vực Chúng em xin chân thành cảm ơn thầy! Giái Thißu Chung 1.1 Tóm tắt nßi dung Ngày nay, với tốc độ tăng trưởng chóng mặt cÿa lượng liệu khổng lồ phát sinh liên tục khắp nơi toàn giới, Big Data trở thành thuật ngữ phổ biến xu hướng phát triển cÿa ngành công nghệ thông tin Big Data xem yếu tố định đến việc phát triển mang lại lợi cạnh tranh cÿa tổ chāc thơng qua việc thu thập, phân tích trích xuất thơng tin có giá trị từ khối liệu khổng lồ này, ví dụ thu thập hành vi, sở thích, thói quen, xu hướng cÿa người tiêu dùng để đưa chiến lược kinh doanh hiệu quả, tăng trải nghiệm mua sắm cho người tiêu dùng Trong tập này, nhóm chúng tơi tìm hiểu kiến trúc nguyên lý hoạt động cÿa Hadoop Hive Sau áp dụng để thực thiết kế hệ thống phân tích đánh giá thực phẩm Amazon 1.2 Vấn đề cần giải Hệ thống phân tích đánh giá thực phẩm (Foody, Lozi …)  Lượng liệu lớn thông tin đánh giá thực phẩm tốt bao gồm: sản phẩm, thông tin người dùng, đánh giá xếp hạng …  Hàng ngàn/triệu người dùng đồng thời submit đánh giá hay sản phẩm Vấn đề lưu trữ liệu để phân tính tìm kiếm liệu nhanh chóng:  Tính tốn tổng số lượt review, điểm (ratings) trung bình cÿa sản phẩm  Thống kê người dùng Trường Đại Học Bách Khoa Tp Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính lOMoARcPSD|22494962 Group - Design System Analysis & Evaluation Foods by Hadoop and Hive May 2016 Cơ Sở Lý Thuyết 2.1 Kiến thức Hadoop Hadoop Distributed File System (HDFS): HDFS tảng lưu trữ liệu đáp āng cho khối lượng liệu lớn chi phí rẻ, āng dụng kiến trúc cÿa Google File System (GFS) Nó hệ thống tập tin phân tán cÿa Hadoop cung cấp khả tăng tuyến tính lưu trữ liệu đáng tin cậy, thiết kế để lưu trữ file lớn phân tán cluster lớn sử dụng phần cāng chi phí thấp (commodity hardware) HDFS làm việc nào? Hình Kiến trúc cÿa HDFS (source : http://hortonworks.com) MapReduce: Hadoop MapReduce framework dùng để viết āng dụng xử lý song song lượng lớn liệu (terabytes or petabytes) lưu Hadoop Hadoop MapReduce làm việc nào? Hình Hoạt động cÿa Hadoop MapReduce Trường Đại Học Bách Khoa Tp Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính lOMoARcPSD|22494962 Group - Design System Analysis & Evaluation Foods by Hadoop and Hive May 2016 2.2 Kiến thức Hive Hình Kiến trúc cÿa Hive Hoạt đßng Hive Mơ hình dÿ lißu Hive Trường Đại Học Bách Khoa Tp Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính Downloaded by Hoc Vu (vuchinhhp7@gmail.com) lOMoARcPSD|22494962 Group - Design System Analysis & Evaluation Foods by Hadoop and Hive May 2016 Phân tích Thiết kế 3.1 Mơ hình Client – Server Phân tích: Một yêu cầu cÿa hệ thống phải thu thập liệu nằm phân tán máy trạm server trung tâm để phục vụ nhu cầu phân tích Quá trình phải thực liên tục gần tāc thời để đảm bảo tính đắn cÿa hệ thống Dữ liệu thu thập liệu có cấu trúc thơng qua bước tiền xử lý điểm nhận Do liệu nằm rời rạc nhiều vị trí khác nên āng với nơi cần có client đảm trách nhiệm vụ đọc gửi liệu đến server Thiết kế: Āng dụng cần có server để giải vấn đề phân tích Hệ thống hoạt động theo mơ hình client – server minh họa hình: Như sơ đồ trên, hệ thống gồm thành phần:  Client: đọc diệu lưu máy trạm gửi server thông qua TCP protocol  Server: nhận liệu từ client, lưu trữ liệu xuống hệ thống HDFS 3.2 Kiến trúc Client Phân tích: Client phải có khả phân biệt liệu gửi liệu cần gửi để tránh dư thừa server Thiết kế: Client thực thông qua kết nối Socket, đồng thời hiển thị ACK từ server Sau gửi hết liệu file, client tiến thành thêm

Ngày đăng: 22/06/2023, 20:55

Tài liệu cùng người dùng

Tài liệu liên quan