1. Trang chủ
  2. » Tất cả

Ứng dụng của big data và giao thức ứng dụng mới phục vụ cho xu hướng big data hiện nay

22 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 2,15 MB

Nội dung

z Tiểu luận Internet giao thức HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA VIỄN THƠNG I TIỂU LUẬN HỌC PHẦN INTERNET VÀ GIAO THỨC ĐỀ TÀI: Ứng dụng Big Data giao thức ứng dụng phục vụ cho xu hướng Big Data Giảng viên: STT Nguyễn Tiến Ban Họ tên Mã sinh viên HÀ NỘI i Tiểu luận Internet giao thức LỜI NÓI ĐẦU Trong cách mạng công nghiệp 4.0 nay, nguồn tài nguyên giá trị giới khơng cịn dầu mỏ, mà kho liệu số tăng lên với cấp độ lũy thừa ngày Và phần mềm quản lý Big Data yếu tố đóng vai trị then chốt Vậy Big Data thực chất gì, ứng dụng nào? Chúng ta hình dung khối liệu khổng lồ tạo từ hoạt động lĩnh vực kinh doanh, giải trí, giáo dục, Và việc cập nhật, kiểm soát liên tục phương tiện truyền thông xã hội, ứng dụng kinh doanh, viễn thông lĩnh vực khác dẫn đến hình thành Big data Big Data thuật ngữ dùng để tập hợp liệu lớn phức tạp công cụ, ứng dụng xử lý liệu truyền thống đảm đương Tuy nhiên, Big Data lại chứa nhiều thơng tin q trích xuất thành cơng, giúp nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán dịch bệnh phát sinh chí việc xác định điều kiện giao thơng theo thời gian thực Chính thế, liệu phải thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo cách khác so với bình thường Trong thực tế, Big Data (Dữ liệu lớn) ứng dụng vào nhiều lĩnh vực, giúp doanh nghiệp quy mô tạo nên biến chuyển ấn tượng, gia tăng tính hiệu quả, suất lợi cạnh tranh so với đối thủ kỷ nguyên chuyển đổi số digital transformation Trên sở làm rõ vấn đề này, nhóm em xin trình bày đề tài “Ứng dụng Big Data giao thức ứng dụng phục vụ cho xu hướng Big Data nay” i Tiểu luận Internet giao thức MỤC LỤC LỜI NÓI ĐẦU i MỤC LỤC ii THUẬT NGỮ VIẾT TẮT iii DANH MỤC HÌNH ẢNH iiii Giới thiệu Khái niệm ứng dụng Big Data 2.1 Khái niệm Big Data 2.2 Ứng dụng Big Data 2.2.1 Trong lĩnh vực ngân hàng 2.2.2 Trong lĩnh vực y tế 2.2.3 Thương mại điện tử 2.2.4 Điện toán đám mây 2.2.5 Ngành bán lẻ 3 Big Data - thách thức hội 3.1 Góc nhìn doanh nghiệp 4 3.2 Góc nhìn kỹ thuật 3.3 Góc nhìn xã hội Xây dựng hệ thống lưu trữ phân tích liệu Big Data Giao thức ứng dụng phục vụ cho truyền tải liệu Big Data Mô sử dụng công cụ để tiếp cận Big Data 11 6.1 Lợi ích việc crawler data mơ hình crawl 11 6.2 Demo sử dụng Python để Crawl Linkedin cơng cụ phân tích xử lý liệu Power BI 12 KẾT LUẬN 16 TÀI LIỆU THAM KHẢO Nhóm 02 17 ii Tiểu luận Internet giao thức THUẬT NGỮ VIẾT TẮT Thuật ngữ Tiếng Anh Tiếng Việt AI AWS BI CSS CSDL DA DS DWH ETL GPS HDFS IoT OLTP OLAP ML URL TCP WEF IP UDP HTML Artificial intelligence Amazon web services Business Intelligence Cascading Style Sheets Trí tuệ nhân tạo Dịch vụ đám mây Trí tuệ doanh nghiệp Ngơn ngữ lập trình Cơ sở liệu Phân tích liệu Khoa học liệu Kho liệu thường Trích xuất-Biến đổi-Tả Hệ thống định vị toàn cầu Hệ thống tệp phân tán Hadoop Internet vạn vật Xử lý giao dịch trực tuyến Xử lý phân tích trực tuyến Máy học Địa web Giao thức điều khiển truyền vận Diễn đàn Kinh tế giới Địa giao thức Internet Giao thức liệu người dùng Ngơn ngữ lập trình web Data Analyst Data Science Data warehouse Extra-Transform-Load Global positioning Hadoop Distributed File System Internet of things On-line transactional processing Online Analytical Processing Machine Learning Uniform Resource Locator Transmission Control Protocol World Economic Forum Internet Protocol User datagram protocol Hypertext Markup Language iii Tiểu luận Internet giao thức DANH MỤC HÌNH ẢNH Hình 1: Đặc tính Big Data Hình 2: Nguồn nhân lực phải trang bị kiến thức nhiều lĩnh vực khác Hình 3: Sơ đồ tổng quát chu trình xử lý liệu Hình 4: Hệ thống lưu trữ Data Lake Hình 5: So sánh tốc độ truyền tải liệu TCP MTP Hình 6: Minh họa luồng liệu TCP qua mạng WAN bị tắc nghẽn Sự dao động dòng chảy, vấn đề tỷ lệ tắc nghẽn dẫn đến băng thơng bị lãng phí 10 Hình 7: Minh họa luồng liệu MTP qua mạng WAN Hình Khả mở rộng quy mơ thích ứng với lưu lượng bên thứ ba làm tăng mức sử dụng lên gần 100% 11 Hình 8: Mơ hình crawl data 12 Hình 9: Giao diện web chưa có liệu 13 Hình 10: Ví dụ liệu cần crawl 13 Hình 11: Cơ sở liệu MongoDB 14 Hình 12: Dữ liệu sau crawl hiển thị lên web Hình 13: Mô tả liệu crawl theo thời gian 14 15 Hình 14: Tỉ lệ phần trăm viết crawl theo từ khóa Nhóm 02 15 iiii Tiểu luận Internet giao thức Giới thiệu Trong đại dịch covid-19 người phải cách ly nhà, tất hoạt động chuyển lên trường trực tuyến học tập, giải trí, làm việc từ xa … Dữ liệu internet từ tạo theo cấp số nhân, nhiên chưa biết cách tận dụng lượng liệu khổng lồ cách hiệu đặc biệt ngành viễn thông Câu hỏi đặt làm để tận dụng lượng liệu khổng lồ việc tối ưu hóa mạng lưới kết nối, nâng cao trải nghiệm khách hàng, tăng cường bảo mật, phát triển nguồn thu Tuy nhiên không nhiều công ty làm điều Trong năm gần cơng khác tích cực triển khai ứng dụng Big Data hoạt dộng quản lý chưa đạt kết mong đợi Theo khảo sát MCKinsey thực khảo sát riêng 80 cơng ty viễn thơng tồn giới đãt đầu tư khai thác Big Data 8% công ty viễn thông hỏi cho họ khai thác hết tiềm Big Data quản lý Mục tiêu tiểu luận tìm hiểu Big Data ứng dụng thực tiễn Big Data tìm hiểu giao thức ứng dụng Big Data Khái niệm ứng dụng Big Data 2.1 Khái niệm Big Data? Dữ liệu lớn thường bao gồm tập hợp liệu với kích thước vượt xa khả công cụ phần mềm thông thường để thu thập, hiển thị, quản lý xử lý liệu thời gian chấp nhận Kích thước liệu lớn mục tiêu liên tục thay đổi Như năm 2012 phạm vi vài tá terabytes tới nhiều petabytes liệu Dữ liệu lớn yêu cầu tập kỹ thuật cơng nghệ tích hợp theo hình thức để khai phá từ tập liệu đa dạng, phức tạp, có quy mơ lớn Trong báo cáo nghiên cứu năm 2001 diễn giả liên quan, META Group (bây Gartner) nhà phân tích Doug Laney định nghĩa thách thức hội tăng liệu chiều, tăng giá trị liệu, tốc độ vào liệu (velocity), khổ giới hạn kiểu liệu (variety) Gartner, nhiều ngành cơng nghiệp tiếp tục sử dụng mơ hình '3Vs' để mô tả liệu lớn Trong năm 2012, Gartner cập nhật định nghĩa sau: "Dữ liệu lớn khối lượng lớn, tốc độ cao và/hoặc loại Nhóm 02 Tiểu luận Internet giao thức hình thơng tin đa dạng mà yêu cầu phương thức xử lý phép tăng cường định, khám phá bên xử lý tối ưu" Định nghĩa '3Vs' Gartner sử dụng rộng rãi, phù hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập thông tin mà đặc điểm khối lượng lớn (Volume), tốc độ cao(Velocity) đa dạng (Variety) để yêu cầu phương thức phân tích cơng nghệ riêng biệt để biến thành có giá trị" Thêm nữa, vài tổ chức thêm vào tính xác thực(Veracity) để mơ tả 3Vs mở rộng để bổ sung đặc tính liệu lớn Hình 1: Đặc tính Big Data 2.2 Ứng dụng Big Data 2.2.1 Trong lĩnh vực ngân hàng Big Data ứng dụng hiệu với hoạt động ngân hàng từ thu tiền mặt đến quản lý tài quản lý rủi ro … - Sử dụng kỹ thuật phân lớp phân cụm giúp ngân hàng đưa định quan trọng, hệ thống phân tích xác định đại điểm chi nhánh tập trung nhiều nhu cầu khách hàng, đề xuất mở chi nhánh - Học máy AI, ML ngân hàng sử dụng để phát hoạt động gian lận, dự đốn tỉ lệ nợ xấu khách hàng từ đưa khuyễn nghị có nên tiếp tục cho vay hay không - Khoa học liệu hỗ trợ phân tích lượng liệu khổng lồ từ hoạt động hàng ngày giúp tối ưu hóa quy trình, giảm thiểu chi phí - Phân tích hành vi khách hàng từ nâng cao trải nghiệm khách hàng 2.2.2 Trong lĩnh vực y tế Nhóm 02 Tiểu luận Internet giao thức Theo báo cáo IDC, liệu lớn dự kiến tăng nhanh lĩnh vực chăm sóc sức khỏe so với ngành cơng nghiệp khác sản xuất, dịch vụ tài truyền thơng Dự kiến, liệu chăm sóc sức khỏe có tốc độ tăng trưởng kép hàng năm (CAGR) 36% đến năm 2025 - - Những lợi ích cụ thể Big Data lĩnh vực y tế: Như đại dich covid, dự đoán trước tương lai tình hình dịch bệnh giúp cứu hàng triệu người ví dụ afghanistan nhờ việc dự đốn số ca nhiễm ca tử vong giúp cho quốc gia dồn sức chuẩn bị cho thảm họa y tế Theo dõi tình trạng bênh nhân hồ sơ sức khỏe điện tử Big Data đánh giá triệu chứng xác định nhiều bênh giai đoạn đầu Cảnh báo khu vực có nguy bùng phát dịch 2.2.3 Thương mại điện tử Big Data tạo lợi cạnh tranh khổng lồ cho cách doanh nghiệp cung cấp thông tin báo cáo thu, phân tích xu hướng - Thu thập dữu liệu khách hàng để giới thiệu sản phẩm phù hợp ví dụ khách hàng mua điện thoại thường mua thêm phụ kiện ốp lưng, cường lực … - Tạo chiến lược maketting hiệu tiết kiệm chi phí mang hiệu cao - Tạo tiêu chí theo dõi độ tuổi, báo cáo tài từ giới thiệu sản phẩm phù hợp tăng khả mua khách hàng - Ứng dụng AI, ML việc quản lý kho bãi giảm lượng hàng tồn kho 2.2.4 Điện toán đám mây Big Data lượng liệu khổng lồ kiến cho việc tổ chức lưu trữ phân tích liệu trở nên tốn kém, có giải pháp giải vấn đề Cloud - Cloud tăng tốc độ quản lý truy cập sở liệu - Cung cấp cơng cụ để tính tốn, phân tích liệu 2.2.5 Ngành bán lẻ Phân tích liệu lớn bán lẻ cho phép công ty tạo đề xuất khách hàng dựa lịch sử mua hàng họ, dẫn đến trải nghiệm mua sắm cá nhân hóa Nhóm 02 Tiểu luận Internet giao thức dịch vụ khách hàng cải thiện Những liệu siêu lớn giúp dự báo xu hướng đưa định chiến lược dựa phân tích thị trường - Dự đốn chi tiêu: Amazon sử dụng liệu khách hàng để giới thiệu mặt hàng cho bạn dựa tìm kiếm mua hàng khứ bạn Họ tạo 29% doanh số bán hàng thông qua công cụ đề xuất họ, phân tích 150 triệu tài khoản Điều dẫn đến lợi nhuận lớn cho gã khổng lồ thương mại điện tử - Cá nhân hóa trải nghiệm khách hàng, khách hàng có nhu cầu xu hướng mua sắm riêng ví dụ khách hàng nữ, độ tuổi từ 20 -25 tuổi có xu hướng mua sắm khác với nhóm tuổi từ 25-30 - Phân tích q trình mua hàng khách hàng Hành trình khách hàng khơng phải đường thẳng Đó zig-zag kênh từ nghiên cứu đến mua hàng Cách để có xử lý hành trình khách hàng tạo trải nghiệm tốt sử dụng liệu lớn Các giải pháp phân tích giúp nhà bán lẻ trả lời câu hỏi như: Khách hàng thực tìm kiếm thơng tin sản phẩm đâu? Chúng ta họ đâu? Những cách hiệu để tiếp cận họ buộc họ phải mua gì? Big Data – thách thức cơng nghệ 3.1 Góc nhìn doanh nghiệp Big Data nhu cầu tăng trưởng lớn Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP Dell chi 15 tỉ USD cho cơng ty chun quản lí phân tích liệu Năm 2010, ngành cơng nghiệp Big Data có giá trị 100 tỉ USD tăng nhanh với tốc độ 10% năm, nhanh gấp đôi so với tổng ngành phần mềm nói chung Vậy Big Data tạo gì? Giá trị Nhưng xác giá trị gì? Big Data chất khơng sản sinh giá trị gì, đơn giản liệu mà Việc tăng trưởng liệu đặt thách thức cho công ty IT phải giải Các doanh nghiệp không cần lưu trữ liệu mà cịn phải tận dụng nhanh chóng hiệu để đạt giá trị kinh doanh Giá trị đến từ thứ suy luận từ liệu Đó lý cần phân tích Big Data Werner Vogels, CTO Amazon định nghĩa phân tích Big Data sau: "trong giới cũ phân tích liệu, bạn biết xác câu hỏi bạn cần hỏi, sinh mơ hình lưu trữ tập liệu tiên đoán Trong giới việc phân tích liệu, câu hỏi bạn tiến triển thay đổi qua thời gian Nhóm 02 Tiểu luận Internet giao thức việc bạn cần thu thập, lưu trữ phân tích liệu mà không bị hạn chế nguồn lực." Tuy nhiên, việc khai phá Big Data gặp số hạn chế thiếu nguồn nhân lực, thiếu kiến thức thống kê, học máy, sở hạ tầng lưu trữ vấn đề lớn Khó khăn phân cấp phân quyền Dữ liệu nhạy cảm đặc biệt liệu quan trọng liệu khách hàng, đối tác, hoạt động doanh nghiệp Thông thường liệu tổ chức lưu trữ Data warehouse (DWH) hoạt động truy cập vào sở dữu liệu phải thông qua nhóm kỹ thuật điều dễn đến nhóm khác cần truy cập liệu team BI, DA, DS cơng ty phải nhóm kỹ thuật cho phép chuẩn bị liệu phù hợp Thiếu hụt nguồn nhân lực Nguồn nhân lực cơng nghệ đủ điều kiện làm việc với hệ thống Big Data yêu cầu kỹ năng, kinh nghiệm làm việc chuyên sâu Cơng nghệ Big Data cịn nên có số trường đại học đưa Big Data vào chương trình giảng dạy Hình 2: Nguồn nhân lực phải trang bị kiến thức nhiều lĩnh vực khác để ứng dụng Big Data để giải vấn đề 3.2 Góc nhìn kỹ thuật Nhóm 02 Tiểu luận Internet giao thức Một hệ thống Big Data thực tế có nhiều thách thừu mặt kỹ thuật, khó khăn mặt liệu Doanh nghiệp phải đảm bảo liệu nhiều, xác, khơng liệu phải trích xuất, làm sạch, tải vào hệ thống lưu trữ Data warehouse tiến trình cịn gọi ETL viết tắt extract, transform load Tiếp theo phải xử lý quản lý liệu Từ liệu thụ thập lưu vào sở liệu từ đo đưa lên hệ thống phân tích, tranning model AI,ML, đưa vào hệ thống OLTP… Hình 3: Sơ đồ tổng quát chu trình xử lý liệu 3.3 Góc nhìn xã hội Rất người nhận Big Data dùng để giải vấn đề xã hội, tạo tác động tích cực Hầu hết ví dụ thực tiễn khơng theo hướng tiếp cận Gạt sang bên khía cạnh riêng tư, Big Data khai thác để phục vụ hàng tỷ người tạo liệu, xã hội mà họ sống Vào năm 2012, diễn đàn kinh tế giới (WEF) xuất báo cáo với tiêu đề “Big Data, Big Impact: New Possibilities for International Development.” Báo cáo trình bày nhiều ý tưởng, hội, thách thức thời đại bùng nổ liệu, Nhóm 02 Tiểu luận Internet giao thức việc nhà nghiên cứu hoạch định sách bắt đầu nhận thấy tiềm việc khai thác Big Data để trích xuất kiến thức dùng cho cộng đồng, đặc biệt người dân có thu nhập thấp Đã có nhiều dự án Big Data nhằm mục đích phục vụ cộng đồng dựa vào thu thập liệu GPS, điện thoại di động, thiết bị y tế … là: - Dự đoán thiếu hụt thực phẩm dựa liệu biến động giá thị trường, hạn hán, di cư … - Cải thiện kết học tập trường học - Mơ hình dự báo phục vụ người dân sống khu định cư khu ổ chuột - Quy hoạch giao thông - Kết nối mối quan hệ tội phạm địa điểm thành phố Xây dựng hệ thống lưu trữ phân tích Big Data Một hệ thống liệu lớn (BigData) doanh nghiệp triển khai khác nhau, tuỳ thuộc vào mơ hình kinh doanh doanh nghiệp, đặc điểm liệu, phụ thuộc vào đầu tư mà thiết kế, xây dựng giải pháp công nghệ khác Tuy tham khảo chung kiến trúc xây dụng hệ thống Big Data Hình 4: Hệ thống lưu trữ Data Lake Đây kiến trúc xử lý chung cho hệ thống Big Data Nó bao gồm thành phần: Nguồn liệu (Data Sources): nơi liệu sinh ra, bao gồm liệu có cấu trúc (structure), liệu phi cấu trúc (un-structure) liệu bán cấu trúc (semi-structure) Dữ liệu đến từ nhiều nguồn khác liệu từ Nhóm 02 Tiểu luận Internet giao thức ứng dụng, sở liệu quan hệ (giao dịch mua/ bán hàng từ hệ thống bán lẻ, giao dịch gửi tiền vào ngân hàng…), liệu file tạo log ứng dụng (dữ liệu log ghi lại thời gian xử lý hệ thống…), hay liệu thời gian thực từ thiết bị IoT (hình ảnh theo dõi từ camera, cảm biến nhiệt độ, độ ẩm…) Lưu trữ liệu (Data Storage): thành phần thiết kế để lưu trữ lại khối lượng lớn loại liệu với định dạng khác sinh nguồn liệu (Data Source) mơ hình xử lý liệu theo lơ (Batch Processing) Mơ hình phổ biến cho thành phần hệ thống lưu trữ file phân tán nhiều node khác cụm (cluster), đảm bảo cho khả xử lý lượng lớn file liệu tính an tồn liệu (replica) Apache Hadoop HDFS sử dụng phổ biến để implement thành phần hệ thống Big Data Xử lý liệu theo lô (Batch Processing): thành phần cho phép xử lý lượng lớn liệu thông qua việc đọc liệu từ file nguồn, lọc liệu theo điều kiện định, tính tốn liệu, ghi kết xuống file đích Trong thành phần bạn sử dụng Spark, Hive, MapReduce … với nhiều ngơn ngữ lập trình khác Java, Scala Python Thu thập liệu thời gian thực (Real-time Message Ingestion): nói trên, liệu sinh từ nguồn (Data Source) bao gồm liệu thời gian thực (ví dụ từ thiết bị IoT) thành phần cho phép hệ thống Big Data thu thập lưu trữ loại liệu thời gian thực phục vụ cho việc xử lý liệu theo luồng (Streaming Processing) Công nghệ phổ biến bạn hay nghe đến Kafka, ngồi cịn có tên khác RabbitMQ, ActiveMQ, … gần Apache Pulsar với so sánh nhanh 2.5 lần độ trễ thấp 40% so với Kafka Xử lý liệu theo luồng (Stream Processing): tương tự việc xử lý liệu theo lô (Batch Processing), sau thu thập liệu thời gian thực, liệu cần phải lọc theo điều kiện định, tính toán liệu, ghi kết liệu sau xử lý Chúng ta nhắc đến Apache Storm, Spark Streaming… Lưu trữ liệu phân tích (Analytical Data Store): chịu trách nhiệm lưu trữ liệu xử lý theo định dạng có cấu trúc để phục vụ cho cơng cụ phân tích liệu (BI Tools) Dữ liệu lưu trữ dạng OLAP thiết kế Kimball (cho bạn chưa biết Kimball phương pháp luận thiết kế Data warehouse: Inmon, Kimball Data Vault) liệu lưu trữ cơng nghệ NoQuery HBase, Cassandra… Nhóm 02 Tiểu luận Internet giao thức Lớp phân tích báo cáo (Analysis and Reporting): thành phần đáp ứng việc tự khai thác liệu Data self-service Cho phép người dùng cuối trực quan hóa liệu (Data visualization), phân tích liệu, kết xuất báo cáo khác Công nghệ sử dụng tầng đa dạng, open source tool D3.JS, Dygaphs, … đến công cụ commercial Tableau, Power BI, …, hay bạn tự code ngôn ngữ Python, R… Điều phối (Orchestration): thành phần có nhiệm vụ điều phối công việc hệ thống Big Data để đảm bảo luồng xử lý liệu thông suốt, từ việc thu thập liệu, lưu trữ liệu đến lọc, tính tốn liệu Apache Oozie, Airflow… Giao thức ứng dụng đáp ứng nhu cầu truyền tải Big Data Trong hệ thống lưu trữ phân tích Big Data nay, hệ thống lưu trữ lưu trữ lên tới 100PB liệu thu được đổ hệ thống lưu trữ hàng chục Gb liệu ngày Do hoạt động truyền tải file phải cải cải thiện để đáp ứng nhu cầu Tuy nhiên với công nghệ truyền tải liệu TCP/IP đời gần 40 năm tuổi, thường bị tải yêu cầu truyền liệu quy mô lớn, TCP/IP trở nên lỗi thời, điểm tắc nghẽn nhiều sở hạ tằng tính tốn quy mơ tiên tiến Để khắc phục vấn đề người sáng lập Data Expedition âm thầm giải vấn đề truyền liệu gần 25 năm Trong năm 2017 công bố phần mềm CloudDat, phần mềm truyền liệu dữu giao thức đa Multipurpose Transaction Potocol (MTP/IP) công ty, với công nghệ dữu liệu truyền với tốc độ 900 MB/s, so với TPC/IP 100-150MB/s Hiện CloudDat tích hợp vào dịch vụ lưu trữ đám mây Oracle để quản lý sản phẩm kỹ thuật số Ngoài CloudDat hỗ trợ truyền dữu liệu vào Amazone Web Services (AWS), Microsoft Azure Google Cloud Plafrom, với sở hạ tầng đám mây chỗ Nhóm 02 Tiểu luận Internet giao thức Hình 5: So sánh tốc độ truyền tải liệu TCP MTP Phần mềm giao thức Multipurpose Transaction Potocol (MTP/IP) giao thức truyền tải độc quyền (OSI lớp) MTP triển khai cách sử dụng định dạng gói giao thức User Datagram protocol (UDP), sử dụng thuật tốn điều khiển luồng sửa lỗi đọc quyền để đạt phân phối liệu đáng tin cậy tránh tình trạng mạng tải MTP tận dụng tính chất bán song cơng điển hình hầu hết trình truyền liệu cách định vị thuật toán điều khiển luồng cốt lõi đầu nhận, thay đầu gửi Điều mang lại cho nhìn trực tiếp thực tế nhiều diễn mạng Đầu vào tốt có nghĩa thích ứng nhanh với điều kiện mạng thời điểm này, khởi động suốt q trình giao dịch Do đó, MTP đảm bảo đường ống liệu đầy khơng bị tràn Hình 6: Minh họa luồng liệu TCP qua mạng WAN bị tắc nghẽn Sự dao động dòng chảy, vấn đề tỷ lệ tắc nghẽn dẫn đến băng thơng bị lãng phí Nhóm 02 10 Tiểu luận Internet giao thức Khi kỹ sư nhóm Advanced Computing Engineering (ACE) bắt đầu thử nghiệm MTP / IP ExpeDat, họ thấy thời gian truyền họ tăng từ khoảng megabit / giây lên 42 megabit / giây Quá trình truyền 90 phút, thực 12 phút Họ ln biết mạng WAN họ có dung lượng lý thuyết 45 megabit / giây, khơng thể đạt cơng nghệ dựa TCP Các kỹ sư ACE nhìn thấy tiềm năng; cơng việc mơ cân tải quy mơ tồn cầu Các nhà quản lý nhận thấy tiềm tăng cấp độ dịch vụ với cụm giống chí Hình 7: Minh họa luồng liệu MTP qua mạng WAN Hình Khả mở rộng quy mơ thích ứng với lưu lượng bên thứ ba làm tăng mức sử dụng lên gần 100% VÌ MTP/IP sử dụng thuật tốn độc quyền, phần mềm tương thích phải đặt hai đầu đường truyền Việc sử dụng định dạng gói UDP cho phép tương thích với phần cứng phần mềm mạng Internet Protocol (IP) tiêu chuẩn Các ứng dụng MTP/IP sử dụng số cổng UDP có sẵn MTP ứng dụng sử dụng triển khai cho hệ điều hành Microsoft Windows, MacOS, Linux, Solaris Các tảng phần cứng bao gồm x86 ARM Mô sử dụng công cụ để tiếp cận Big Data 6.1 Lợi ích việc crawler data mơ hình crawl Hiện thời đại công nghệ 4.0 Big Data bạn làm chủ bạn có nhiều hội việc thương mại doanh nghiệp bạn cho cá nhân bạn vào ứng dụng Crawler data giảm tải công việc sáng tạo cho nhân viên , sử dụng Data vào nhiều mục đích khác nghiên cứu thị trường , thiết kế Website Nhóm 02 11 Tiểu luận Internet giao thức mua giới bất động sản, sử dụng thông tin nguời dùng để phân tích liệu tối ưu hình thức thương mại hóa thị trường đặc biệt viễn thơng Hình 8: Mơ hình crawl data Internet khơng ngừng thay đổi mở rộng Vì khơng thể biết tổng số website có Internet, web crawlers danh sách URL biết Trước tiên, chúng thu thập liệu webpage URL Từ page này, chúng tìm thấy siêu liên kết đến nhiều URL khác thêm liên kết tìm vào danh sách trang cần thu thập thông tin tiếp theo.Với số lượng lớn website Internet lập mục để tìm kiếm, q trình diễn gần vô thời hạn Tuy nhiên, web crawler tuân theo số sách định giúp có nhiều lựa chọn việc nên thu thập liệu trang nào, trình tự thu thập thơng tin tần suất thu thập lại thông tin để kiểm tra cập nhật nội dung Nhóm 02 12 Tiểu luận Internet giao thức 6.2 Demo sử dụng Python để Crawl Linkedin cơng cụ phân tích xử lý liệu Power BI Phần demo sử dụng ngơn ngữ lập trình Python, sử dụng MongoDB để lưu trữ liệu Power BI để phân tích liệu Hình 9: Giao diện web chưa có liệu Hình giao diện hiển thị liệu sử dụng framework Python Django, HTML CSS Hình mơ tả chưa crawl liệu Nhóm 02 13 Tiểu luận Internet giao thức Hình 10: Ví dụ liệu cần crawl Đây ví dụ viết đăng LinkedIn, nhiệm vụ crawl liệu tên tác giả, nội dung, thời gian hay bình luận viết Hình 11: Cơ sở liệu MongoDB MongoDB hệ quản trị sở liệu mã nguồn mở, CSDL thuộc NoSql hàng triệu người sử dụng MongoDB database hướng tài liệu (document), liệu lưu trữ document kiểu JSON thay dạng bảng CSDL quan hệ nên truy vấn nhanh Sau crawl liệu lưu vào MongoDB, từ sử dụng theo yêu cầu Nhóm 02 14 Tiểu luận Internet giao thức Hình 12: Dữ liệu sau crawl hiển thị lên web Sau có liệu MongoDB, truy vấn liệu hiển thị chúng lên giao diện web Đây liệu mà cần lấy từ LinkedIn ban đầu Từ dùng liệu để Dưới số hình ảnh sử dụng cơng cụ Power BI để phân tích liệu: Hình 13: Mô tả liệu crawl theo thời gian Nhóm 02 15 ... thác hết tiềm Big Data quản lý Mục tiêu tiểu luận tìm hiểu Big Data ứng dụng thực tiễn Big Data tìm hiểu giao thức ứng dụng Big Data Khái niệm ứng dụng Big Data 2.1 Khái niệm Big Data? Dữ liệu... làm rõ vấn đề này, nhóm em xin trình bày đề tài ? ?Ứng dụng Big Data giao thức ứng dụng phục vụ cho xu hướng Big Data nay? ?? i Tiểu luận Internet giao thức MỤC LỤC LỜI NÓI ĐẦU i MỤC LỤC ii THUẬT... Big Data - thách thức hội 3.1 Góc nhìn doanh nghiệp 4 3.2 Góc nhìn kỹ thuật 3.3 Góc nhìn xã hội Xây dựng hệ thống lưu trữ phân tích liệu Big Data Giao thức ứng dụng phục vụ cho truyền tải liệu Big

Ngày đăng: 26/02/2023, 16:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w