1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu xây dựng giải pháp làm sạch và tích hợp dữ liệu lớn TT

25 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 1,1 MB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Hữu Tuyên NGHIÊN CỨU XÂY DỰNG GIẢI PHÁP LÀM SẠCH VÀ TÍCH HỢP DỮ LIỆU LỚN Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ Hà Nội – 2021 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS HÀ HẢI NAM Phản biện 1: ……………………………………………………………… Phản biện 2: ……………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Internet công nghệ số ngày phát triển nay, liệu tạo với dung lượng lớn Đối với tổ chức, doanh nghiệp liệu tạo từ nguồn khác liệu khách hàng, liệu nghiệp vụ, liệu nhân sự, liệu điều tra từ mạng xã hội v.v Tổ chức lớn liệu đa dạng Do liệu thu thập từ nguồn khác dẫn đến định dạng liệu đa dạng không tuân thủ theo tiêu chuẩn quán Dữ liệu dạng có cấu trúc, phi cấu trúc bán cấu trúc Điều dẫn đến khó khăn việc chuẩn hóa lưu trữ liệu phục vụ khai thác sau Dữ liệu thu thập từ nguồn khác dẫn đến trùng lặp nội dung, lỗi tả, lỗi ngữ nghĩa v.v Với phát triển cơng nghệ phân tích liệu tiên tiến việc áp dụng trí tuệ nhân tạo vào giải vấn để liên quan đến tổ chức, đòi hỏi cần có liệu để phát huy hiệu công nghệ Để xây dựng kho liệu lớn đòi hỏi nghiên cứu cơng nghệ làm sạch, tích hợp liệu lưu trữ hệ thống liệu lớn phục vụ khai thác sau Đây tốn lớn, khó phức tạp nghiên cứu giới [1] Tại Việt Nam, chiến lược chuyển đổi số quốc gia xác định việc xây dựng sở liệu lớn quốc gia phục vụ chuyển đổi số quốc gia Đây xu hướng tất yếu xây dựng phủ điện tử hướng tới phủ số Chính phủ số phủ định dựa liệu Nghị định 47/2020/NĐ-CP ngày 09/04/2020 quản lý, kết nối chia sẻ liệu số quan nhà nước cho thấy tầm quan trọng việc tích hợp chia sẻ liệu Các thử thách quy trình, cơng nghệ làm sạch, tích hợp lưu trữ liệu lớn chưa giải triệt để Với chiến lược liệu mở[2], tương lai Việt Nam có nguồn liệu phong phú khổng lồ từ khu vực công tư mở cho cộng đồng Để tận dụng nguồn liệu cho phát triển kinh tế xã hội, lực làm tích hợp liệu lớn cần thiết Các doanh nghiệp lớn Việt Nam VNPT, Viettel có nguồn liệu đa dạng, phong phú khổng lồ liệu khách hàng, lịch sử sử dụng khách hàng, ý kiến phản hồi khách hàng…Đây nguồn nhiên liệu quan trọng doanh nghiệp khai thác hiệu Tích hợp liệu đưa khung nhìn ảo thống tất liệu phạm vi, cho phép người dùng truy vấn liệu thơng qua lược đồ tích hợp hồn chỉnh Việc xây dựng hệ thống tích hợp liệu quan trọng ứng dụng thực tế Các cơng ty ứng dụng tích hợp liệu để lấy báo cáo số liệu chi nhánh Trong an ninh sử dụng tích hợp để điều tra tội phạm, tìm kiếm Các tổ chức quy mô lớn cần lấy thông tin từ đơn vị trực thuộc Hay việc so sánh, kiểm định thông tin từ nhiều hệ thống khác Nội dung luận văn tập trung vào giới thiệu vấn đề xung quanh việc làm tích hợp liệu lớn Các nội dung luận văn bao gồm: tổng quan liệu, làm tích hợp liệu lớn Giới thiệu số kỹ thuật, cơng nghệ tích hợp liệu điển hình thường sử dụng phần cuối tơi xin trình bày thực nghiệm làm tích hợp liệu lớn trường Đại học Đại Nam 3 CHƯƠNG I TỔNG QUAN 1.1 Khái niệm liệu, làm liệu 1.1.1 Dữ liệu Hiện xuất nhiều khái niệm liệu, nói liệu tập hợp kiện, chẳng hạn số, từ, hình ảnh, nhằm đo lường, quan sát mô tả vật 1.1.2 Các dạng liệu  Dữ liệu có cấu trúc (Structured Data)  Dữ liệu phi cấu trúc (Unstructured Data)  Dữ liệu bán cấu trúc (Semi-structured Data) 1.1.3 Làm liệu Làm liệu trình phát sửa đổi liệu bị thiếu, bị nhiễu không quán sở liệu v.v Qua có liệu mà dựa vào phân tích, đánh giá, dự đốn vật việc xác 1.1.4 Dữ liệu lớn Dữ liệu lớn (BigData ) tập hợp liệu có khối lượng lớn, đa dạng, thay đổi nhanh phức tạp không công cụ quản lý liệu truyền thống lưu trữ xử lý cách hiệu Dữ liệu lớn có đặc trưng sau[5]:  Dung lượng lớn:  Tốc độ cao  Đa dạng  Xác thực  Giá trị Hình 1.1: Năm đặc trưng liệu lớn Các công nghệ sử dụng liệu lớn Thứ nhất, liệu lớn sử dụng hệ thống quản lý liệu phân tán mà điển hình hệ thống tệp tin phân tán Hadoop (Hadoop Distributed File System), hệ thống quản lý sở liệu không quan hệ (NoSQL Databases) Hệ thống tệp tin phân tán Hadoop có kiến trúc chủ/tớ (master/slave) với nút quản lý tên (cùng nút lưu dự phòng) nhiều nút quản lý liệu làm việc theo chế độ xử lý theo lô Dung lượng liệu hệ thống tệp tin phân tán Hadoop lên tới vài Texabytes Thứ hai, tồn số tảng phân tích liệu lớn mà bốn tảng điển hình MapReduce, Apache Hadoop, Spark Cụm tính tốn hiệu cao (High Performance Computing Cluster: HPCC) 1.2 Tích hợp liệu 1.2.1 Lịch sử phát triển Đầu năm 1980, nhà khoa học máy tính bắt đầu thiết kế hệ thống cho khả tương tác sở liệu khơng đồng Hệ thống tích hợp liệu điều khiển siêu liệu có cấu trúc thiết kế Đại học Minnesota vào năm 1991, dành cho Sê-ri Microdata sử dụng cơng cộng tích hợp (Integrated Public Use Microdata Series) IPUMS sử dụng phương pháp lưu trữ liệu, trích xuất, chuyển đổi tải liệu từ nguồn không đồng vào lược đồ xem đơn để liệu từ nguồn khác trở nên tương thích Ngày nay, tích hợp liệu khơng cịn điều với người Tích hợp liệu triển khai nhiều đơn vị nhiều cấp độ kiến trúc sở liệu 1.2.2 Khái niệm tích hợp liệu Tích hợp liệu trình kết hợp từ nhiều nguồn liệu khác vào lược đồ từ truy vấn, cung cấp cho người sử dụng nhìn tổng thể liệu 1.2.3 Vai trị tích hợp liệu Tích hợp CSDL trở thành cơng nghệ mà nhiều công ty đầu tư, xây dựng đặc biệt số lượng khả kết nối liệu tăng lên Khi người cần truy cập nhiều liệu chia liệu phòng ban, công ty nhận thức rõ tất liệu tích hợp CSDL tiết kiệm thời gian công sức lớn Tích hợp liệu cần thiết để đạt giá trị gia tăng từ tài nguyên, thành phần tồn lưu trữ phân tán 1.3 Một số lĩnh vực áp dụng liệu lớn  1.3.1 Viễn thơng  1.3.2 Y tế, chăm sóc sức khỏe  1.3.3 Bán lẻ 1.4 Kết luận chương Chương 1, giới thiệu tổng quan khái niệm liệu, làm liệu khái niệm tích hợp liệu vai trị tích hợp liệu lớn Từ có nhìn tổng quan đề tài “Nghiên cứu xây dựng giải pháp làm tích hợp liệu lớn” 6 CHƯƠNG II: XÂY DỰNG QUY TRÌNH LÀM SẠCH VÀ TÍCH HỢP DỮ LIỆU LỚN 2.1 Mơ hình làm tích hợp liệu lớn Ngày nay, với cách mạng 4.0 bùng nổ liệu lĩnh vực sống Ví dụ, liệu hành chính, liệu từ hoạt động thương mại, liệu từ thiết bị cảm biến v.v Dữ liệu thu thập từ nhiều nguồn liệu nhiều định dạng khác hay thiếu sót trình tổng hợp liệu, v.v Việc bùng nổ liệu dẫn đến liệu ngày trở nên phức tạp khiến cho trình xử lý, lưu trữ phân tích liệu trở nên đầy thách thức Mơ hình tổng qt q trình làm tích hợp liệu trình bày hình sau: Hình 2.1: Q trình làm tích hợp liệu 2.2 Quy trình làm liệu 2.2.1 Các yêu cầu nguyên lý làm sạch, tích hợp liệu lớn Làm liệu quy trình chuẩn bị liệu trước phân tích thông qua xử lý hay loại bỏ liệu khơng xác, khơng đầy đủ, khơng phù hợp định dạng, bị trùng lắp, khơng có giá trị, khơng đủ thơng tin, khơng liên quan,… liệu ảnh hưởng đến kết phân tích sau Mục đích làm liệu hướng đến không đơn loại bỏ liệu, tạo không gian để thêm vào liệu thay thế, mà phải tìm cách tăng tối đa độ xác liệu cố gắng hạn chế tối đa việc loại bỏ liệu Dưới số tính chất liệu cần quan tâm:  Tính xác liệu  Khối lượng liệu  Tính quán liệu  Tính vẹn tồn liệu  Tính hợp lệ liệu  Tính độc  Tính liên quan tính kịp thời 2.2.2 Nghiên cứu cơng đoạn làm Hình sau trình bày bốn bước trình làm liệu Hình 2.2: Các bước trình làm liệu 2.2.3 Đề xuất quy trình làm Quá trình làm liệu bao gồm năm giai đoạn; (1) phân tích liệu, (2) định nghĩa quy tắc liệu chuyển đổi, (3) xác minh, (4) chuyển đổi (5) luồng liệu làm trở lại Phân tích liệu Định nghĩa quy tắc chuyển đổi liệu Xác minh Chuyển đổi liệu Dữ liệu làm Hình 2.3: Quy trình làm liệu Bước trình làm liệu phân tích liệu để xác định lỗi không quán xảy sở liệu Nói cách khác, giai đoạn gọi kiểm tốn liệu, giai đoạn tìm thấy tất loại bất thường bên sở liệu Bên cạnh đó, siêu liệu thuộc tính liệu thu thập thơng qua phân tích liệu để phát vấn đề chất lượng liệu Có hai cách tiếp cận phân tích liệu lập hồ sơ liệu khai thác liệu Hồ sơ liệu nhấn mạnh vào phân tích cá thể thuộc tính riêng lẻ Trong đó, khai thác liệu tập trung vào việc khám phá mẫu liệu cụ thể tập liệu lớn Kết từ bước dấu hiệu cho trường hợp bất thường xảy bên sở liệu hay không Tiếp theo, quy trình chuyển đổi xác định việc phát loại bỏ dị thường thực chuỗi hoạt động liệu Nó định sau phân tích liệu để có thơng tin dị thường có Số lượng bước chuyển đổi cần thiết phụ thuộc vào số lượng nguồn liệu, mức độ không đồng độ "bẩn" liệu Để cho phép tạo mã chuyển đổi tự động, phép chuyển đổi liên quan đến giản đồ bước làm phải định ngôn ngữ ánh xạ truy vấn khai báo Một thách thức giai đoạn đặc tả quy trình làm việc quy tắc ánh xạ áp dụng cho liệu bẩn Bước thứ ba giai đoạn xác minh Trong giai đoạn này, tính đắn hiệu quy trình chuyển đổi đánh giá Giai đoạn bao gồm nhiều lần lặp lại để xác minh tất lỗi sửa yêu cầu tương tác với chun gia miền Vì số lỗi nhìn thấy sau chuyển đổi, đó, chu trình phân tích, thiết kế xác minh cần thiết Sau liệu xác minh xác thực, bước chuyển đổi thực để làm liệu kho liệu Quá trình chuyển đổi yêu cầu lượng lớn siêu liệu đặc điểm liệu cấp độ cá thể lược đồ, ánh xạ chuyển đổi định nghĩa quy trình làm việc Thơng tin chi tiết q trình chuyển đổi phải ghi lại để hỗ trợ chất lượng liệu Cuối cùng, sau tất lỗi loại bỏ, liệu bẩn nên thay liệu làm 2.3 Phương pháp tích hợp liệu Có phương pháp sử dụng tích hợp liệu kỹ thuật hợp (consolidation), liên hiệp (federation) lan truyền (propagation) 2.3.1 Kỹ thuật hợp liệu 2.3.2 Kỹ thuật liên hiệp liệu 2.3.3 Kỹ thuật lan truyền liệu 2.4 Các cơng nghệ tích hợp liệu Hiện để thực kỹ thuật tích hợp liệu trình bày có nhiều giải pháp cơng nghệ Ở phần trình bày ba số cơng nghệ phổ biến 10 thường sử dụng việc tích hợp liệu: ETL (extract, transform and load); EII (enterprise information integration) EAI (enterprise application integration) 2.4.1 Công nghệ ETL (Extract, Transform and Load) 2.4.2 Công nghệ EII (Enterprise Information Integration) 2.4.3 Công nghệ EAI (Enterprise Application Integration) 2.4.4 Nhận xét đánh giá 2.5 Kết luận chương Sau tìm hiểu tổng quan khái niệm, vai trị việc làm tích hợp liệu lớn Chương đề xuất quy trình làm liệu, tìm hiểu cơng nghệ, kỹ thuật làm tích hợp liệu lớn Từ làm sở cho việc tiến hành thực nghiệm chương 11 CHƯƠNG III: THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Thực trạng liệu trường Đại học Đại nam Trường Đại học có nhiều liệu quan trọng thơng tin tổ chức, thông tin đào tạo, thông tin sinh viên, … Để quản trị liệu tốt sử dụng khai thác giá trị từ liệu trên, trường Đại học Đại Nam xây dựng kho liệu tập trung gồm nhiều phân hệ sau: Phân hệ quản lý máy tổ chức, sở vật chất Phân hệ quản lý đào tạo, tuyển sinh Phân hệ quản lý sinh viên Phân hệ quản lý nghiên cứu khoa học, hoạt động hướng nghiệp Phân hệ khảo thí đảm bảo chất lượng đào tạo V.v… Nhằm nâng cao chất lượng uy tín trường Đại học Đại Nam trường đại học, cao đẳng Mỗi học kỳ nhà trường tổ chức lấy ý kiến đối tượng liên quan để phân tích, đánh giá kết hoạt động cá nhân, phận nhà trường Một việc việc lấy ý kiến phản hồi sinh viên hoạt động giảng dạy Tuy nhiên, để đảm bảo tính khách quan xác việc đánh giá giảng viên kỳ hoàn thành nhiệm vụ mức độ lại cần xem xét từ nhiều khía cạnh kết từ khảo sát ý kiến phản hồi sinh viên hoạt động giảng dạy, đánh giá lãnh đạo khoa giảng viên, lãnh đạo nhà trường…Có vấn đề đặt là, có nhiều liệu để đánh giá giảng viên học kỳ Từ vấn đề trên, tích hợp liệu cần đưa để giải toán nhằm quản lý phân tích liệu cần thiết 3.2 Môi trường cài đặt phục vụ thực nghiệm Để chuẩn bị môi trường phục vụ thực nghiệm cho luận văn, thực cài đặt phần mềm liệt kê bảng sau 12 STT Tên phần mềm, công cụ Mục đích Sử dụng ngơn ngữ lập trình python Python 3.9 thư viện python để thực làm liệu Môi trường để chạy ứng dụng Java Java Cài đặt CSDL SQL Server Tạo CSDL chứa bảng liệu phục vụ việc thực nghiệm 2019 Cài đặt SQL Server Công cụ trực quan để thuận tiện kết nối Management Studio (SSMS) quản lý CSDL SQL Server Cài đặt cơng cụ SPSS 20 Phân tích liệu liệu nguồn để nhận diện vấn đề cần xử lý làm Cài đặt công cụ ETL Pentaho Phục vụ việc phát triển luồng ETL tích Data Integration 9.2 hợp liệu hệ thống 3.3 Thực nghiệm Quy trình thực thực nghiệm gồm bước sau: Chuẩn bị liệu • Cài đặt mơi trường, cơng cụ • Chuẩn bị liệu Làm liệu • Nhận diện lỗi liệu • Xử lý liệu lỗi Tích hợp liệu • Tích hợp liệu làm Hình 3.1: Quy trình thực thực nghiệm 13 3.3.1 Chuẩn bị liệu Dữ liệu đầu vào để tiến hành thực nghiệm gồm phần: CSDL Khảo sát sinh viên: Là CSDL lưu thông tin sinh viên thông tin khảo sát sinh viên/cựu sinh viên dùng cho mục đích đánh giá, đảm bảo chất lượng Thông tin khảo sát sinh viên: Kết khảo sát sinh viên từ file, cloud form,… (a) Chuẩn bị CSDL Khảo sát sinh viên Thiết kế Cơ sở liệu “Khảo sát sinh viên” để chứa liệu khảo sát, đánh giá chất lượng giảng dạy với trình tự thực sau: Thiết kế sơ đồ thực thể Tạo CSDL bảng hệ quản trị CSDL SQL Server 2019 Thiết kế luồng ETL để đồng thông tin sinh viên từ kho CSDL trường Đại học Đại Nam đến CSDL Khảo sát sinh viên Thiết kế sơ đồ thực thể liên kết bảng CSDL Khảo sát sinh viên hình sau Hình 3.2: Sơ đồ liên kết thực thể CSDL Khảo sát sinh viên 14 Các bảng sở liệu Khảo sát sinh viên STT Tên bảng Bảng Khoa Mô tả Bảng thông tin khoa trường Đại học Đại Nam, đồng hàng ngày từ kho CSDL trường Đại học Đại Nam thông qua kỹ thuật ETL Bảng Lophoc Bảng thông tin lớp học trường Đại học Đại Nam, đồng hàng ngày từ kho CSDL trường Đại học Đại Nam thông qua kỹ thuật ETL Bảng Monhoc Bảng thông tin môn học trường Đại học Đại Nam, đồng hàng ngày từ kho CSDL trường Đại học Đại Nam thông qua kỹ thuật ETL Bảng Sinhvien Bảng thông tin sinh viên trường Đại học Đại Nam, đồng hàng ngày từ kho CSDL trường Đại học Đại Nam thông qua kỹ thuật ETL Bảng Bảng lưu kết từ phiếu khảo sát hoạt động Khaosat_hoatdong_giangday giảng dạy từ sinh viên, liệu cần làm làm để tích hợp Thực tạo CSDL Khảo sát sinh viên công cụ SQL Server management studio: 15 Hình 3.3: Danh sách bảng CSDL Khảo sát sinh viên Thiết kế luồng ETL để đồng đồng thông tin sinh viên từ kho CSDL trường Đại học Đại Nam đến CSDL Khảo sát sinh viên 16 Hình 3.4: Luồng ETL đồng thơng tin sinh viên Hình 3.5: Chi tiết luồng ETL đồng thông tin sinh viên 17 (b) Chuẩn bị file khảo sát sinh viên Bộ liệu thực nghiệm liệu từ việc khảo sát lấy ý kiến phản hổi sinh viên hoạt động giảng dạy trường Đại học Đại nam, liệu chứa câu trả lời sinh viên hỏi nội dung 17 câu hỏi phiếu khảo sát cho 17 khoa với số lượng sinh viên theo học hệ quy 6000 sinh viên hệ khác 2000 sinh viên (Biểu mẫu chi tiết phiếu khảo sát trình bày mục phụ lục 1) Tuy nhiên, liệu thu thập từ sinh viên gặp số lỗi như: Thiếu giá trị, liệu ngoại lại liệu trùng lắp Vì vậy, trước tích hợp liệu khảo sát sinh viên vào kho liệu chung tồn trường liệu cần phải làm để thuận lợi cho việc tích hợp liệu có kết xác sau Hình 3.7 mơ tả liệu mẫu sau thu thập Hình 3.6: Tập liệu mẫu khảo sát sinh viên 18 3.3.2 Tiến hành thực nghiệm làm liệu Tiến hành làm liệu trải qua bước sau Bước 1: Phát kiếm tra, nhằm khảo sát phát nhiễu liệu theo liệu khảo sát Kiểm tra tổng thể qua công cụ thống kê qua phần mềm chuyên dụng SPSS Bước 2: Sửa lỗi, từ phát vấn đề gặp phải qua bước 1, bước tiến hành thao tác làm liệu trước vào q trình tích họp liệu 3.3.3 Phân tích liệu nhận diện lỗi Bộ liệu xuất số lỗi thường gặp như: Thiếu giá trị, liệu ngoại lại, trùng lặp liệu Sau tơi trình bày cách xử lý lỗi cơng cụ SPSS trước đưa vào tích hợp liệu Lỗi thiếu giá trị Như thấy hình 3.7 có giá trị bị thiếu bơi màu vàng, sau đẩy liệu vào SPSS phân tích cho bảng kết báo thiếu giá trị câu 2, câu liệu Trùng lặp liệu Trong hình 3.7 Tập liệu mẫu khảo sát sinh viên nhìn thấy có cột trường thơng tin “ MaSV” trùng nhau, đánh dấu màu đỏ Giá trị ngoại lai Trong bảng phiếu hỏi khảo sát, phương án trả lời từ đến Tuy nhiên liệu lại xuất giá trị 7, bơi xanh hình 3.7 (a) Thực làm liệu Với lỗi liệu nhận diện mục, trình bày cách xử lý với lỗi sau Lỗi thiếu giá trị Sử dụng phương pháp cập nhật giá trị bị thiếu thông qua giá trị tương quan gần liệu Kết đạt sau: 19 Hình 3.7: Kết xử lý lỗi thiếu giá trị Lỗi giá trị ngoại lai Trong bảng phiếu hỏi khảo sát, phương án trả lời từ đến Tuy nhiên liệu lại xuất giá trị Thực chuẩn hóa liệu theo tập kết phương án từ đến Giá trị nhỏ giá trị kết nhỏ (là 1): chuẩn hóa thành giá trị Giá trị lớn giá trị kết lớn (là 5): chuẩn hóa thành giá trị 20 Hình 3.8: Kết xử lý lỗi giá trị ngoại lai 3.3.4 Tích hợp liệu vào kho liệu chung trường Đại học Đại nam Dữ liệu khảo sát sinh viên sau làm sạch, tích hợp từ CSDL Khảo sát sinh viên vào CSDL trường Đại học Đại Nam thông qua kỹ thuật ETL 21 Hình 3.9: Luồng ETL tích hợp liệu khảo sát làm 22 Kết đạt được: Dữ liệu khảo sát sinh viên tích hợp thành công vào kho CSDL Đại học Đại Nam Hình 3.10: Bảng liệu khảo sát tích hợp vào CSDL Đại học Đại Nam 3.4 Kết luận chương Từ kiến thức tìm hiểu chương chương Chương vào giải toán thực tế Trường Đại học Đại nam với số liệu nằm nhiều nguồn khác Chương tiến hành làm liệu Lấy ý kiến phản hồi sinh viên hoạt động giảng dạy sau tích hợp vào liệu lớn Đại học Đại Nam tồn 23 KẾT LUẬN Kết đạt Vấn đề làm tích hợp liệu lớn giới Việt Nam, nhiên để xây dựng hệ thống có tính đặc thù với trường đại học, cao đẳng v.v đặc biệt trường có liệu lớn cần quan tâm phát triển nhiều Một số vấn đề mà luận văn được như: - Nghiên cứu làm liệu Các phương pháp làm sạch, tích hợp liệu lớn - Xây dựng, cài đặt, thử nghiệm với mơ hình trường Đại học Đại nam Hướng phát triển luận văn Hướng mở rộng đề tài tiếp tục nghiên cứu mở rộng chức cơng cụ làm sạch, tích hợp liệu lớn nhằm đáp ứng yêu cầu chức sử dụng thay đổi nhanh chóng cơng nghệ Cụ thể là: - Phát triển phiên Web - Hỗ trợ kết nối đến loại CSDL khác - Nâng cấp tính phân tích liệu - Sử dụng thuật toán học máy học sâu nâng cao để làm sạch, tích hợp liệu - Thực làm liệu với quy mô lớn ... niệm liệu, làm liệu khái niệm tích hợp liệu vai trị tích hợp liệu lớn Từ có nhìn tổng quan đề tài ? ?Nghiên cứu xây dựng giải pháp làm tích hợp liệu lớn? ?? 6 CHƯƠNG II: XÂY DỰNG QUY TRÌNH LÀM SẠCH VÀ... cơng cụ • Chuẩn bị liệu Làm liệu • Nhận diện lỗi liệu • Xử lý liệu lỗi Tích hợp liệu • Tích hợp liệu làm Hình 3.1: Quy trình thực thực nghiệm 13 3.3.1 Chuẩn bị liệu Dữ liệu đầu vào để tiến hành... tập trung vào giới thiệu vấn đề xung quanh việc làm tích hợp liệu lớn Các nội dung luận văn bao gồm: tổng quan liệu, làm tích hợp liệu lớn Giới thiệu số kỹ thuật, cơng nghệ tích hợp liệu điển

Ngày đăng: 15/04/2022, 11:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w