Bài giảng Phân tích dữ liệu lớn

285 18 3
Bài giảng Phân tích dữ liệu lớn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU LỚN Giảng viên Nguyễn Tu Trung, Trần Mạnh Tuấn BM HTTT, Khoa CNTT, Trường ĐH Thủy Lợi Hà Nội, 2019 Nội dung  Cách mạng công nghiệp lần thứ 4  Công nghệ số  Dữ liệu lớ[.]

TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU LỚN Giảng viên: Nguyễn Tu Trung, Trần Mạnh Tuấn BM HTTT, Khoa CNTT, Trường ĐH Thủy Lợi Hà Nội, 2019 Nội dung       Cách mạng công nghiệp lần thứ Cơng nghệ số Dữ liệu lớn Dữ liệu lớn đến từ đâu? Đặc trưng liệu lớn Ứng dụng liệu lớn  Tiếp cận liệu lớn  Cơng nghệ xử lý liệu lớn NTTrung Bài giảng PTDLL 2/38 Cách mạng công nghiệp lần thứ  Đặc trưng cách mạng cơng nghiệp:  Có đột phá khoa học công nghệ  Tạo thay đổi chất sản xuất  Các cách mạng công nghiệp NTTrung Bài giảng PTDLL 3/38 Cách mạng công nghiệp lần thứ  Cách mạng công nghiệp lần 4:  Sản xuất thông minh dựa tiến công nghệ thông tin, công nghệ sinh học, công nghệ nano…  Với tảng đột phá công nghệ số Hệ kết nối không gian số-thực thể (cyber-physical systems)  Cách mạng số hoá:  ‘Phiên số’ thực thể: Biểu diễn thực thể ‘0’ ‘1’ máy tính (digitalization)  Thí dụ: bệnh án điện tử…  Hệ kết nối không gian số‐thực thể (cyber‐physical system): hệ kết nối thực thể ‘phiên số’ chúng  => Thay đổi phương thức sản xuất:  Hành động giới thực thể  Tính tốn, điều khiển khơng gian số NTTrung Bài giảng PTDLL 4/38 Cơng nghệ số  Số hố (thí dụ máy ảnh, in ấn, truyền hình…)  Xử lý liệu số hoá NTTrung Bài giảng PTDLL 5/38 Công nghệ số - Đột phá gần NTTrung Bài giảng PTDLL 6/38 Dữ liệu lớn  Theo wikipedia:  Dữ liệu lớn (Big data) thuật ngữ liệu lớn phức tạp mà phương pháp truyền thống không đủ ứng dụng để xử lý liệu  Theo Gartner:  NTTrung Dữ liệu lớn nguồn thông tin có đặc điểm chung khối lượng lớn, tốc độ nhanh liệu định dạng nhiều hình thức khác nhau, muốn khai thác địi hỏi phải có hình thức xử lý để đưa định, khám phá tối ưu hóa quy trình Bài giảng PTDLL 7/38 Dữ liệu lớn đến từ đâu?  Đến từ nhiều nguồn khác NTTrung Bài giảng PTDLL 8/38 Dữ liệu lớn đến từ đâu?  “Chỉ ngày em bé sinh đời, số lượng liệu thu thập tương đương với 70 lần thông tin Thư viện Quốc hội Mỹ (The Library of Congress)” NTTrung Bài giảng PTDLL 9/38 Dữ liệu lớn đến từ đâu? NTTrung Bài giảng PTDLL 10/38 Ví dụ minh họa phân lớp văn  Có tập tài liệu để huấn luyện sau vector hoá (sử dụng phương pháp đơn giản đếm số lần xuất hiện) rút trích đặc trưng sau:  Bộ từ vựng (đặc trưng) : var, bit, chip, log NTTrung Docs Var Bit Chip Log Class Doc1 42 25 56 Math Doc2 10 28 45 Comp Doc3 11 25 22 Comp Doc4 33 40 48 Math Doc5 28 32 60 Math Doc6 22 30 Comp Bài giảng PTDLL 7/20 Thực thi phân văn với ví dụ  Có lớp chủ đề:  C1 = “Comp”  C2 = “Math”  B1: Huấn luyện chủ đề  B2: Phân lớp chủ đề NTTrung Bài giảng PTDLL 8/20 Huấn luyện chủ đề  Tính xác xuất lớp Ci: P(C1 = “Comp”) = 3/6 = 0.5  P(C2 = “Math”) = 3/6 = 0.5   B1: Huấn luyện chủ đề Các xác suất P(xk|C1)  Các xác suất P(xk|C2)  NTTrung Bài giảng PTDLL 9/20 Các xác suất P(xk|C1)  Tổng số từ lớp C1 = “Comp”:      |TextC1| = (10 + 11 + 8) + (28 + 25 + 22) + (45 + 22 + 30) + (2 + + 1) = 208 P(var|Comp) = (10 + 11 + 8) / 208 = 29/208 P(bit|Comp) = (28 + 25 + 22) / 208 = 75/208 P(chip|Comp) = (45 + 22 + 30) / 208 = 97/208 P(log|Comp) = (2 + + 1) / 208 = 7/208 NTTrung Bài giảng PTDLL 10/20 Các xác suất P(xk|C2)  Tổng số từ lớp C2 = “Math”:      |TextC2| = (42 + 33 + 28) + (25 + 40 + 32) + (7 + + 9) + (56 + 48 + 60) = 388 P(var|Math) = (42 + 33 + 28) / 388 = 103/388 P(bit|Math) = (25 + 40 + 32) / 388 = 97/388 P(chip|Math) = (7 + + 9) / 388 = 24/388 P(log|Math) = (56 + 48 + 60) / 388 = 164/388 NTTrung Bài giảng PTDLL 11/20 Phân lớp chủ đề  Cho văn có vector đặc trưng Docnew = (23, 40, 15, 50)  𝐹 𝑑𝑜𝑐 𝑛𝑒𝑤 , 𝐶1 = P(Math) * [P(var|Math) * 23 * P(bit|Math) * 40 * P(chip|Math) * 15 * P(log|Math) * 50] = 0.5 * [103/388 * 23 * 97/388 * 40 * 24/388 * 15 * 164/388 * 50] = 598.627  𝐹 𝑑𝑜𝑐 𝑛𝑒𝑤 , 𝐶2 = P(Comp) * [P(var|Comp) * 23 * P(bit|Comp) * 40 * P(chip|Comp) * 15 * P(log|Comp) * 50] = 0.5 * [29/208 * 23 * 75/208 * 40 * 97/208 * 15 * 7/208 * 50] = 272.204  Kết luận: Văn Docnew thuộc lớp Math 𝑝 𝑑𝑜𝑐 𝑛𝑒𝑤 = max(𝐹 𝑑𝑜𝑐 𝑛𝑒𝑤 , 𝐶𝑖 ) = 598,627 NTTrung Bài giảng PTDLL 12/20 MapReduce hoá thuật toán Bayes  Nhiệm vụ:  MapReduce hóa việc đếm số lần xuất Ci xk|Ci  Ý tưởng:      NTTrung Chia liệu thành nhiều phần nhỏ Đếm số lần xuất biến Ci xk|Ci hàm Map Tập hợp kết tính tổng theo biến hàm Reduce Lưu thông tin số lần xuất biến Ci xk|Ci Giai đoạn phân lớp: tính xác suất P(Ci) P(xk|Ci) dựa liệu số lần xuất biến Ci xk|Ci để tính 𝐹 𝑋𝑛𝑒𝑤 , 𝐶𝑖 Bài giảng PTDLL 13/20 Lưu đồ thuật toán MapR educe _Baye s NTTrung Bài giảng PTDLL 14/20 MapReduce hoá thuật toán Bayes  Dữ liệu đầu vào:  Là danh sách file văn (có thể lưu file txt)  Mỗi hàng liệu huấn luyện mô tả file văn bản, gồm tên lớp tên file:  number D:\\Hadoop\\test\\input\\file1.txt  Được chuyển sang kiểu key/value làm đầu vào cho thuật tốn  Mơ hình MapReduce:  map (keyIn, valIn) -> list (keyInt, valInt)  reduce (keyInt, list (valInt)) -> (keyOut, valOut)  Áp dụng cho thuật toán Bayes:  Xây dựng hàm Map_TextBayes  Xây dựng hàm Reduce_TextBayes NTTrung Bài giảng PTDLL 15/20 Xây dựng hàm Map_TextBayes  Đầu vào:    cặp key/value biểu diễn liệu mô tả file văn keyIn giá trị bye offset dòng valIn text biểu liệu file văn (number D:\\Hadoop\\test\\input\\file1.txt)  Xử lý: Tính ValInt   Đếm cho xuất Ci Đếm cho xuất xk|Ci  Đầu ra:    NTTrung cặp key/value trung gian keyInt Ci xk|Ci valInt giá trị Bài giảng PTDLL 16/20 Xây dựng hàm Reduce_TextBayes  Trước hàm reduce thực   Kết hàm map trộn lại Các cặp keyInt gom thành nhóm  Đầu vào:   keyInt chuyển từ hàm map list(valInt) list giá trị  Xử lý:  Tính tổng giá trị list(valInt)  Đầu ra:   NTTrung keyOut keyInt (Ci xk|Ci) valOut tổng giá trị list(valInt) Bài giảng PTDLL 17/20 Phân cụm ảnh với MapReduce_K-Means  Phát biểu toán phân cụm ảnh  Giải pháp phân cụm ảnh với MapReduce_KMeans NTTrung Bài giảng PTDLL 18/20 Phát biểu toán phân cụm ảnh   Input: n điểm ảnh số cụm k Output: Các cụm Ci (i=1 k) (các cụm điểm ảnh) cho hàm tiêu chuẩn E đạt giá trị tối thiểu NTTrung Bài giảng PTDLL 19/20 Phân cụm ảnh với MapReduce_K-Means  B1: Chuyển đổi liệu Chuyển đổi liệu điểm ảnh thành list hàng  Mỗi hàng list giá trị thành phần vector biểu diễn cho điểm ảnh   B2: Thực phân cụm với MapReduce_K-Means  B3: Chuyển đổi kết phân cụm MapReduce_KMeans cho liệu ảnh gốc NTTrung Bài giảng PTDLL 20/20 Tra cứu thơng tin từ internet  Ví dụ:   Tra cứu thông tin khách sạn, tham khảo: http://www.trivago.vn Tra cứu thông tin sản phẩm điện máy  Các bước xây dựng ứng dụng:    NTTrung B1: Thu thập liệu từ internet B2: Lưu vào CSDL NoSQL B3: Xây dựng ứng dụng tra cứu thông tin truy xuất liệu từ CSDL NoSQL Bài giảng PTDLL 21/20

Ngày đăng: 02/10/2023, 13:39