1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập 2 lý thuyết về data môn học công nghệ 4 0 trong lãnh vực cơ khí me4063

60 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 2,43 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LÝ THUYẾT VỀ DATA MƠN HỌC CƠNG NGHỆ 4.0 TRONG LÃNH VỰC CƠ KHÍ - ME4063 GVHD: TRẦN QUANG PHƯỚC SVTH Kiều Trung Tín Bùi Trung Kiên Huỳnh Nhật Trường Huỳnh Lê Hữu Tuấn Ngô Trần Quang Châu Lê Gia Khánh MSSV 1910610 1910285 1910652 1915762 1912766 1913734 Phân công 4, 6, Tổng hợp 5 Ghi Nhóm trưởng MỤC LỤC MỤC LỤC 1 Data Collection 1.1 Khái niệm 1.2 Các phương pháp thu thập liệu 1.3 Hâu thu thập liệu sai cách 1.4 Yếu tố quan trọng thu thập liệu 1.5 Các bước để thu thập liệu 1.6 Hadoop 1.6.1 Khái niệm 1.6.2 Kiến trúc Hadoop 1.6.3 Hoạt động Hadoop 12 Data Integration 12 2.1 Khái niệm 12 2.3 Hệ thống lưu trữ liệu HDFS 15 2.3.1 Khái niệm 15 2.3.2 Ưu điểm bật HDFS 15 2.3.3 Kiến trúc HDFS 16 Data processing 18 3.1 Định nghĩa 18 3.2 Chức data processing 18 3.3 Các hình thức xử lý liệu 19 3.4 Công cụ hỗ trợ xử lý Apache Spark 20 3.5 Các thành phần Apache Spark 21 3.6 Các liệu bị trùng lặp liệu không liên quan 23 3.7 Chuyển liệu sang dạng để dễ dàng phân tích 24 Data Analysis 25 4.1 Apache Hadoop 25 4.2 Apache Hive 25 4.2.1 Khái niệm 25 4.2.2 Nguyên lý hoạt động 26 4.2.3 Cấu trúc Apache Hive 26 4.2.4 Các Tính Năng Chính 27 4.2.5 Ưu điểm nhược điểm 28 4.3 Apache Impala 28 4.3.1 Khái niệm 28 4.3.2 Nhiệm vụ 29 4.3.3 Ưu điểm nhược điểm Impala 29 4.3.4 Các tính Impala 30 4.3.5 Cơ sở liệu quan hệ Impala 30 4.4 Apache Drill 31 4.4.1 Tìm hiểu Apacha Drill 31 4.4.2 Khái niệm 32 Data Visualization 32 5.1 Khái niệm 32 5.2 Các loại trực quan hóa liệu 34 5.3 Các công cụ trực quan hóa 34 5.4 Ưu điểm nhược điểm 35 5.5 Power BI 35 5.5.1 Sơ phần mềm Power BI 35 5.5.2 Các thành phần Power BI 36 5.5.3 Ưu điểm nhược điểm 36 5.5.4 Hướng dẫn sử dụng Power BI 37 5.6 Apache Zeppelin 44 5.6.1 Giới thiệu Apache Zeppelin 44 5.6.2 Các tính Apache Zeppelin 45 5.7 Tableau 53 5.7.1 Giới thiệu Tableau 53 5.7.2 Ưu điểm, nhược điểm Tableau 55 Data Management 56 6.1 Khát quát 56 6.2 Ứng dụng 56 6.3 Điểm mạnh 56 6.3.1 Hệ thống phân tán 56 6.3.2 Cơ chế lưu liệu .57 6.4 Cấu trúc liệu 58 6.5 Tính dư thừa 58 6.6 Ưu điểm nhược điểm 58 6.6.1 Ưu điểm 58 6.6.2 Nhược điểm .58 1.1 Data Collection Khái niệm Data collection trình thu thập đo lường thông tin biến số quan tâm, theo cách thức có hệ thống thiết lập cho phép người ta trả lời câu hỏi nghiên cứu nêu, kiểm tra giả thuyết đánh giá kết Thành phần Data collection nghiên cứu chung cho tất lĩnh vực nghiên cứu bao gồm khoa học vật lý xã hội, nhân văn, kinh doanh, v.v Mặc dù phương pháp khác tùy theo ngành học, trọng tâm việc đảm bảo thu thập xác trung thực không đổi Bất kể lĩnh vực nghiên cứu sở thích xác định liệu (định lượng, định tính) gì, việc Data collection xác điều cần thiết để trì tính tồn vẹn nghiên cứu Cả việc lựa chọn cơng cụ Data collection thích hợp (hiện có, sửa đổi phát triển) hướng dẫn mô tả rõ ràng để sử dụng chúng cách làm giảm khả xảy sai sót 1.2 Các phương pháp thu thập liệu - Phương pháp quan sát (observation) Quan sát phương pháp thu thập liệu cách ghi lại có kiểm sốt kiện hành vi ứng xử người Phương pháp thu thập liệu tiện dụng thường dùng kết hợp với phương pháp khác để kiểm tra chéo độ xác liệu thu thập - Phương pháp vấn Phỏng vấn hỏi đáp bên vấn viên bên người vấn thơng qua hình thức tiếp xúc Trong thực tiễn hình thức tiếp xúc vấn đa dạng: Các hình thức tiếp xúc vấn: + Phỏng vấn trực tiếp; + Phỏng vấn qua thư tín; + Phỏng vấn qua điện thoại; + Phỏng vấn qua Email… Phương pháp thử nghiệm - Thử nghiệm phịng thí nghiệm để quan sát đo lường phản ứng tâm lý theo dõi vấn, thảo luận nhóm trọng điểm Phịng thí nghiệm thường chia làm ngăn: Ngăn dành cho người vấn, hay thử nghiệm; Ngăn dành cho quan sát viên trang bị kỹ thuật, - ngăn trang bị kính chiều Thử nghiệm trường việc quan sát đo lường thái độ, phản ứng khách hàng trước thay đổi nhà cung cấp sản phẩm/dịch vụ như: thay đổi giá bán, thay đổi cách thức phục vụ, chăm sóc khách hàng… Việc quan sát thực nơi diễn giao dịch, gọi thử nghiệm trường - Phương pháp điều tra thăm dò Điều tra việc tìm hiểu thật kỹ nguồn kiện, trọng tới việc thu thập thông tin nhân chứng, vật chứng Trong nghiên cứu marketing phương pháp thu thập liệu áp dụng phổ biến ưu nhằm bảo đảm nguyên tắc nghiên cứu khoa học Công cụ chủ yếu dùng để thu thập thông tin, kiện phương pháp “Bảng câu hỏi – Questions Form” khách hàng tự trả lời Nó đặc biệt hữu dụng nghiên cứu định lượng vì: Đối tượng nghiên cứu chủ yếu nghiên cứu marketing ý kiến, kỳ vọng khách hàng, nhà cung cấp, người tiêu dùng… cần đo lường, tính tốn, so sánh cách cụ thể Vì vậy, cách thức để thu thập liệu “bảng câu hỏi” điều tra thăm dò phù hợp - Thảo luận nhóm (focus group) Thảo luận nhóm phương pháp thu thập liệu phổ biến nghiên cứu định tính Các liệu thu thập thông qua thảo luận nhóm đối tượng nghiên cứu (nhóm tập trung hay nhóm chuyên đề) dẫn dắt người điều khiển chương trình (moderator) 1.3 Hâu thu thập liệu sai cách - Khơng có khả trả lời xác câu hỏi nghiên cứu Khơng có khả lặp lại xác thực nghiên cứu Phát sai lệch dẫn đến lãng phí tài nguyên Đánh lừa nhà nghiên cứu khác để theo đuổi đường điều tra khơng có kết Thỏa hiệp định sách Gây hại cho người tham gia động vật - Mặc dù mức độ tác động từ việc Data collection bị lỗi khác tùy theo kỷ luật chất điều tra, có khả gây tác hại không cân xứng kết nghiên cứu sử dụng để hỗ trợ khuyến nghị sách cơng 1.4 Yếu tố quan trọng thu thập liệu Đảm bảo chất lượng Vì đảm bảo chất lượng có trước việc Data collection, trọng tâm ‘phịng ngừa’ (tức ngăn chặn vấn đề với việc Data collection) Phòng ngừa hoạt động tiết kiệm chi phí để đảm bảo tính tồn vẹn việc Data collection Biện pháp chủ động thể rõ việc chuẩn hóa giao thức phát triển sổ tay thủ tục toàn diện chi tiết để Data collection Sổ tay hướng dẫn viết làm tăng nguy không xác định sớm vấn đề sai sót q trình nghiên cứu Những thất bại chứng minh theo số cách: Sự không chắn thời gian, phương pháp danh tính (những) người chịu trách nhiệm xem xét liệu Liệt kê phần mục cần thu thập Mô tả mơ hồ công cụ Data collection sử dụng thay cho hướng dẫn bước nghiêm ngặt việc quản lý kiểm tra Không xác định nội dung chiến lược cụ thể để đào tạo đào tạo lại nhân viên chịu trách nhiệm Data collection Các hướng dẫn sử dụng, điều chỉnh hiệu chuẩn thiết bị Data collection bị che khuất (nếu thích hợp) Khơng có chế xác định để ghi lại thay đổi thủ tục phát triển trình điều tra Kiểm sốt chất lượng Mặc dù hoạt động kiểm soát chất lượng (phát / giám sát hành động) diễn sau Data collection, chi tiết cần thực cẩn thận sổ tay thủ tục Một cấu trúc thông tin liên lạc xác định rõ ràng tiền đề cần thiết để thiết lập hệ thống giám sát Khơng có khơng chắn luồng thơng tin điều tra viên nhân viên sau phát sai sót q trình Data collection Một cấu trúc giao tiếp phát triển khuyến khích việc giám sát lỏng lẻo hạn chế hội phát lỗi Việc phát giám sát hình thức quan sát nhân viên trực tiếp chuyến thăm thực địa, gọi hội nghị, đánh giá thường xuyên thường xuyên báo cáo liệu để xác định không quán, giá trị cực đoan mã không hợp lệ Mặc dù việc thăm địa điểm khơng phù hợp với tất lĩnh vực, việc không kiểm tra hồ sơ thường xuyên, dù định lượng hay định lượng, khiến nhà điều tra khó xác minh việc Data collection tiến hành theo thủ tục thiết lập sổ tay hướng dẫn Ngoài ra, cấu trúc thông tin liên lạc không mô tả rõ ràng sổ tay thủ tục, việc truyền tải thay đổi thủ tục đến nhân viên bị tổn hại Kiểm soát chất lượng xác định phản hồi bắt buộc “hành động” cần thiết để sửa chữa thực hành Data collection bị lỗi giảm thiểu cố xảy tương lai Những hành động có khả xảy thủ tục Data collection viết cách mơ hồ bước cần thiết để giảm thiểu tái diễn không thực thông qua phản hồi giáo dục 1.5 Các bước để thu thập liệu Bước 1: Xác định mục tiêu nghiên cứu Trước bắt đầu trình thu thập liệu, bạn cần xác định xác bạn muốn đạt Bạn bắt đầu cách viết tuyên bố vấn đề: vấn đề thực tế khoa học mà bạn muốn giải lại quan trọng? Tiếp theo, hình thành nhiều câu hỏi nghiên cứu xác định xác bạn muốn tìm hiểu Tùy thuộc vào câu hỏi nghiên cứu bạn, bạn cần thu thập liệu định lượng định tính: Dữ liệu định lượng thể số đồ thị phân tích thơng qua phương pháp thống kê Dữ liệu định tính thể từ ngữ phân tích thơng qua diễn giải phân loại Nếu mục đích bạn kiểm tra giả thuyết, đo lường xác điều có hiểu biết thống kê quy mô lớn, thu thập liệu định lượng Nếu mục đích bạn khám phá ý tưởng, hiểu kinh nghiệm hiểu biết chi tiết bối cảnh cụ thể, thu thập liệu định tính Nếu bạn có nhiều mục tiêu, bạn sử dụng cách tiếp cận phương pháp hỗn hợp để thu thập hai loại liệu Bước 2: Chọn phương pháp thu thập liệu bạn Dựa liệu bạn muốn thu thập, định phương pháp phù hợp cho nghiên cứu bạn Nghiên cứu thực nghiệm trước hết phương pháp định lượng Phỏng vấn / nhóm tập trung dân tộc học phương pháp định tính Điều tra, quan sát, nghiên cứu lưu trữ thu thập liệu thứ cấp phương pháp định lượng định tính Cẩn thận xem xét phương pháp bạn sử dụng để thu thập liệu giúp bạn trực tiếp trả lời câu hỏi nghiên cứu Bước 3: Lập kế hoạch cho thủ tục thu thập liệu bạn Khi bạn biết sử dụng (các) phương pháp nào, bạn cần lập kế hoạch xác cách bạn thực chúng Bạn tuân theo quy trình để thực quan sát đo lường xác biến mà bạn quan tâm? Ví dụ: bạn thực khảo sát vấn, định câu hỏi có dạng gì; bạn tiến hành thử nghiệm, đưa định thiết kế thử nghiệm bạn Đôi biến số bạn đo lường trực tiếp: ví dụ: bạn thu thập liệu độ tuổi trung bình nhân viên cách hỏi ngày sinh Tuy nhiên, bạn thường quan tâm đến việc thu thập liệu khái niệm biến trừu tượng mà quan sát trực tiếp Hoạt động hóa có nghĩa biến ý tưởng khái niệm trừu tượng thành quan sát đo lường Khi kế hoạch Nếu bạn thu thập liệu nào, bạn cần chuyển định nghĩa khái niệm bạn muốn nghiên cứu thành định nghĩa hoạt động bạn thực đo lường Bước 4: Thu thập liệu Cuối cùng, bạn triển khai phương pháp chọn để đo lường quan sát biến mà bạn quan tâm Để đảm bảo liệu chất lượng cao ghi lại cách có hệ thống, số phương pháp hay nhất: Ghi lại tất thông tin liên quan bạn lấy liệu Ví dụ, ghi lại xem thiết bị phịng thí nghiệm có hiệu chuẩn lại trình nghiên cứu thử nghiệm hay không Kiểm tra kỹ việc nhập liệu thủ công để tìm lỗi Nếu bạn thu thập liệu định lượng, bạn đánh giá độ tin cậy tính hợp lệ để có dấu hiệu chất lượng liệu bạn 1.6 Hadoop 1.6.1 Khái niệm Hadoop Apache framework nguồn mở viết Java cho phép phát triển ứng dụng phân tán có cường độ liệu lớn cách miễn phí Nó thiết kế để mở rộng quy mô từ máy chủ đơn sang hàng ngàn máy tính khác có tính tốn lưu trữ cục (local computation and storage) Hadoop phát triển dựa ý tưởng từ cơng bố Google mơ hình Map-Reduce hệ thống file phân tán Google File System (GFS) Và có cung cấp cho mơi trường song song để thực thi tác vụ Map-Reduce Nhờ có chế streaming mà Hadoop phát triển ứng dụng phân tán java lẫn số ngơn ngữ lập trình khác C++, Pyhthon, Pearl, 1.6.2 Kiến trúc Hadoop Hadoop có cấu trúc liên kết master-slave Trong cấu trúc này, có node master nhiều node slave Chức node master gán tác vụ cho node slave khác quản lý tài nguyên Các node slave máy tính thực tế khơng mạnh Các node slave lưu trữ liệu thực master có metadata Kiến trúc Hadoop gồm có ba lớp là:HDFS (Hadoop Distributed File System), Map-Reduce, Yarn HDFS (Hadoop Distributed File System) Là hệ thống file phân tán, cung cấp khả lưu trữ liệu khổng lồ tính tối ưu hố việc sử dụng băng thơng node HDFS sử dụng để chạy cluster lớn với hàng chục ngàn node Cho phép truy xuất nhiều ổ đĩa ổ đĩa Nói cách khác, sử dụng ổ đĩa mà gần không bị giới hạn dung lượng Muốn tăng dung lượng cần thêm node (máy tính) vào hệ thống Có kiến trúc Master-Slave NameNode chạy máy chủ Master, có tác vụ quản lý Namespace điều chỉnh truy cập tệp client

Ngày đăng: 09/05/2023, 14:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w