1. Trang chủ
  2. » Luận Văn - Báo Cáo

tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh

66 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông TinCHƯƠNG 2: MÔ HÌNH MAPREDUCE TRONG PHÂN TÍCH DỮ LIỆU LỚN 222.2.3 Các trình nền của Hadoop... Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tinphân tán nha

Trang 1

TRƯỜNG ĐẠI HỌC THỦY LỢI

KHOA CÔNG NGHỆ THÔNG TIN

- -🙡🙡🙡

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌCNgành Công nghệ thông tin

Trang 2

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Sau hơn 4 năm học tập và nghiên cứu tại Khoa Công nghệ thông tin - TrườngĐại học Thủy Lợi, em đã được trải nghiệm trong môi trường đào tạo tốt và nhậnđược sự chỉ dạy nhiệt tình của các thầy, các cô trong khoa.

Trước hết, em xin được bày tỏ lòng biết ơn và gửi lời cảm ơn chân thành đến

TS Nguyễn Tu Trung đã dạy cho em có được những kiến thức vững chắc, tận tình

chỉ bảo, nhắc nhở và hướng dẫn em trong suốt quá trình làm đồ án tốt nghiệp.Em cũng xin chân thành cảm ơn các thầy cô giáo trong khoa Công nghệthông tin nói riêng và trường Đại học Thủy Lợi nói chung đã trang bị cho tôi nhữngkiến thức quý báu làm hành trang trong những năm học vừa qua.

Em cũng xin bày tỏ lòng biết ơn sâu sắc đến: Cha mẹ và những người thântrong gia đình đã chăm sóc, nuôi dạy, hỗ trợ, động viên và tạo mọi điều kiện thuậnlợi nhất cho em trong suốt thời gian qua và đặc biệt trong thời gian em làm đồ án tốtnghiệp.

Ngoài ra, em cũng chân thành cảm ơn các bạn, các anh, các chị đã ủng hộ,giúp đỡ, trao đổi kiến thức, kinh nghiệm và động viên tôi trong thời gian học tập vànghiên cứu.

Trong quá trình nghiên cứu của mình, mặc dù được sự hướng dẫn rất nhiệt

tình, nghiêm túc của TS Nguyễn Tu Trung cùng với sự nỗ lực của cá nhân nhưng

cũng không thể tránh được những thiếu sót Em rất mong nhận được sự cảm thôngvà những góp ý từ quý Thầy, Cô và các bạn để đề tài được hoàn thiện hơn.

Em xin chân thành cảm ơn!

Hà Nội, ngày … tháng … năm 2019 Sinh viên thực hiện

Vũ Thị Hường

SVTH: VŨ THỊ HƯỜNG 1 LỚP: 57TH2

Trang 3

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

CHƯƠNG 2: MÔ HÌNH MAPREDUCE TRONG PHÂN TÍCH DỮ LIỆU LỚN 22

2.2.3 Các trình nền của Hadoop 322.1.5 Ứng dụng của hadoop.34

SVTH: VŨ THỊ HƯỜNG 2 LỚP: 57TH2

Trang 4

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

3.2 Ý tưởng và giải pháp MapReduce hoá thuật toán KMeans 42

3.4 Thuật toán IPKMeans – cải tiến của PKMeans cho phân cụm ảnh 44

CHƯƠNG 5: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM ĐÁNH GIÁ58

SVTH: VŨ THỊ HƯỜNG 3 LỚP: 57TH2

Trang 5

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Bảng 9 Mã giả thuật toán IPKMeans cho hàm mapImage(key, value) 46Bảng 10 Thuật toán IPKMeans cho hàm reduceImage(key, value) 47

Bảng 12 Kết quả ảnh sau khi phân cụm kích thước 128x128 và 300x300 62Bảng 13 Kết quả ảnh sau khi phân cụm kích thước 500x500 và 700x700 62

SVTH: VŨ THỊ HƯỜNG 4 LỚP: 57TH2

Trang 6

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Bảng 20 Kết quả đánh giá hiệu suất theo kích thước dữ liệu 66

DANH MỤC HÌNH ẢNH

Hình 2 Xu hướng doanh thu từ phân tích dữ liệu lớn đem lại 12

SVTH: VŨ THỊ HƯỜNG 5 LỚP: 57TH2

Trang 7

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

MỞ ĐẦU1 Tổng quan về vấn đề nghiên cứu

Những năm gần đây, sự phát triển mạnh của công nghệ thông tin đã làm chokhả năng thu thập và lượng thông tin tăng nhanh một cách chóng mặt Sự ra đời củacác kênh truyền thông mới như mạng xã hội và các thiết bị tiên tiến hơn đã đặt rathách thức cho các nền công nghiệp phải tìm những cách để xử lý dữ liệu.

Các phương pháp song song hóa đã được đề cập từ lâu, khi mà J.VonNeumann giới thiệu mô hình tính toán song song có tên Otomat tế bào Từ đó đếnnay, lý thuyết về xử lý song song trở thành lĩnh vực nghiên cứu quan trọng và ngàycàng đem lại tính năng vượt trội so với mô hình lập trình tuần tự truyền thống

Năm 2004, Google giới thiệu thiệu mô hình tính toán MapReduce tính toán

SVTH: VŨ THỊ HƯỜNG 6 LỚP: 57TH2

Trang 8

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

phân tán nhanh trên một tập dữ liệu lớn và dữ liệu được đặt trên nhiều cụm máytính Cho đến nay MapReduce đã có tầm ảnh hưởng lớn nhất [9].

2 Lý do chọn đề tài.

Ngày nay, mọi doanh nghiệp lớn và vừa đều bị bao vây bởi hàng tấn dữ liệuphi cấu trúc từ nhiều nguồn khác nhau và không ngừng gia tăng từng ngày.Vì vậy,chúng ta luôn phải đối mặt với việc xử lý một lượng dữ liệu khổng lồ được gọi làBig Data Hầu hết dữ liệu lớn được tạo ra là ảnh.

Thị giác máy tính là một lĩnh vực nghiên cứu mới mẻ đầy tiềm năng và rất

được quan tâm Tầm quan trọng và những khó khăn của việc gom cụm các đốitượng mang tính tri giác của con người từ lâu đã được nghiên cứu nhiều trong cáclĩnh vực của thị giác máy tính đặc biệt trong lĩnh vực xử lý ảnh

Phân cụm ảnh được ứng dụng rất mạnh mẽ trong các bài toán phân tích vàhiểu ảnh tự động, một trong những bước quan trọng của việc khai thác các hình ảnh,nhưng đó cũng là một bài toán khó mà tới bây giờ các nhà khoa học cũng chưa tìm

ra cách giải hoàn toàn thấu đáo Vậy: Làm thế nào để phân chia một ảnh thành cáctập con? Những cách khả thi để có thể làm được điều đó là gì?

Trong khoảng 30 trở lại đây đã có rất nhiều thuật toán được đề xuất để giảiquyết vấn đề phân cụm ảnh Các thuật toán này hầu hết đều tiếp cận theo 2 hướngchủ yếu là: dựa trên pixel và dựa trên trên đồi tượng [10] Tuy nhiên việc xử lý ảnhcòn tồn tại nhiều vấn đề như: Độ phức tạp của thời gian tính toán theo cấp sốnhân; khối lượng dữ liệu được xử lý giới hạn, vấn đề về lỗi, … [11]

Xuất phát từ thực tế và để giải quyết vấn đề đặt ra, em đã chọn thuật toánIPKMeans - phương pháp phân cụm ảnh song song hoá dựa trên mô hình

MapReduce để giải quyết bài toán phân cụm ảnh lớn với đề tài "Tìm hiểu thuậttoán K-Means dựa trên mô hình MapReduce và ứng dụng trong phân cụmảnh." thực hiện làm học phần tốt nghiệp của mình.

3 Đối tượng nghiên cứu.

- Nghiên cứu kỹ thuật chuyển đổi điểm ảnh sang không gian màu RGB.- Nghiên cứu mô hình lập trình MapReduce và Hadoop.

- Nghiên cứu phân cụm ảnh với thuật toán K-Means, PKMeans và IPKMeans.

SVTH: VŨ THỊ HƯỜNG 7 LỚP: 57TH2

Trang 9

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

- Nghiên cứu nền tảng mở docker, docker-compose tạo lập môi trường nhiềumáy ảo xử lý tính toán song song.

4 Phạm vi nghiên cứu.

- Mô hình MapReduce và Apache Hadoop.- Thuật toán KMeans, PKMeans, IPKMeans.- Ứng dụng phân cụm ảnh với Kmeans và IPKMeans.- Xử lý phân cụm ảnh tính toán song song.

- Nền tảng mở docker, docker-compose.

5 Mục tiêu đề tài.

- Tìm hiểu về kỹ thuật xử lý ảnh, bài toán phân cụm ảnh xám, ảnh màu.- Hiểu về cơ chế hoạt động của Hadoop bao gồm HDFS (Hadoop Distributed

File System) và MapReduce.

- Hiểu về thuật toán KMeans và IPKMeans.

- Xây dựng ứng dụng demo phân cụm ảnh với thuật toán KMeans vàIPKMeans.

- Chạy thử nghiệm ứng dụng song song nhiều node sử dụng docker.- Thử nghiệm, phân tích đánh giá giải pháp KMeans và IPKMeans.

- 2.1.4 Nguyên tắc hoạt động của Hadoop MapReduce 34 -

6 Cấu trúc của đồ án tốt nghiệp.Cấu trúc đồ án tốt nghiệp

Nội dung của đồ án tốt nghiệp được trình bày trong ba phần chính như sau:

1 Phần mở đầu

2 Phần nội dung: bao gồm năm chương:

➤ Chương 1: Tổng quan về BigData và phân cụm dữ liệu.

Chương này, trình bày tổng quan về dữ liệu lớn, phân tích dữ liệu lớn, phâncụm dữ liệu, phân cụm ảnh, phân tích quy trình phân cụm ảnh, đưa ra vấn đề bàitoán phân cụm, quy trình hoạt động và một số ứng dụng của phân cụm.

➤ Chương 2: Mô hình MapReduce trong phân tích dữ liệu lớn.

SVTH: VŨ THỊ HƯỜNG 8 LỚP: 57TH2

Trang 10

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Chương này, trình bày về mô hình MapReduce, kiến trúc, nguyên tắc hoạtđộng, ưu nhược điểm và ứng dụng của MapReduce; tổng quan về apache hadoop.

➤ Chương 3: Phân cụm dữ liệu với thuật toán KMeans.

Chương này, trình bày về tổng quan, các bước xử lý, tính toán của thuật toánKMeans Trình bày thuật toán cải tiến của KMeans là PKMeans và IPKMeans, phântích từng giải thuật hàm map, hàm reduce, lưu đồ biểu diễn thuật toán IPKMeans vàáp dụng phân cụm ảnh.

➤ Chương 4: Cơ sở công nghệ.

Chương này, trình các công nghệ cần thiết xây dựng ứng dụng xử lý phâncụm ảnh dữ liệu lớn song song Đưa ra lý do dùng công nghệ đó vào vai trò nào củaứng dụng và giải thích rõ ưu và nhược điểm.

➤ Chương 5: Phân tích ứng dụng và thực nghiệm đánh giá.

Chương này, trình bày các phân tích, các tính năng của ứng dụng; mô tả dữliệu thực nghiệm, đưa ra kết quả và phân tích đánh giá kết quả thực nghiệm.

Theo wikipedia: Dữ liệu lớn(Big data) là một thuật ngữ chỉ bộ dữ liệu lớn

hoặc phức tạp mà các phương pháp truyền thống không đủ các ứng dụng để xử lýdữ liệu này.

Theo Gartner : Dữ liệu lớn là những nguồn thông tin có đặc điểm chung khối

lượng lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đómuốn khai thác được phải đòi hỏi phải có hình thức mới để đưa ra quyết định khámphá và tối ưu hóa quy trình.

Nguồn dữ liệu lớn: Dữ liệu đến từ rất nhiều nguồn khác nhau:

SVTH: VŨ THỊ HƯỜNG 9 LỚP: 57TH2

Trang 11

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Hình 1 Tốc độ gia tăng nguồn dữ liệu.- Dữ liệu lớn được hình thành chủ yếu từ 9 nguồn:[3]

(1) Dữ liệu hành chính (phát sinh từ chương trình của một tổ chức, có thể là chínhphủ hay phi chính phủ) Ví dụ: hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm, (2) Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dịch giữa các thực thể).Ví dụ: các giao dịch thẻ tín dụng, giao dịch trên mạng, …

(3) Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tinh, cảm biếnđường, cảm biến khí hậu.

(4) Dữ liệu từ các thiết bị theo dõi Ví dụ theo dõi dữ liệu từ điện thoại di động.(5) Dữ liệu từ các hành vi Ví dụ như tìm kiếm trực tuyến (tìm kiếm sản phẩm, dịchvụ hay thông tin khác), đọc các trang mạng trực tuyến,

(6) Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức, trên cácphương tiện thông tin xã hội.

(7) Dữ liệu điện lực bao gồm các thông tin cụ thể từ các điểm giao nhau của các nútthông tin sử dụng.

(8) Dữ liệu các thiết bị tìm kiếm, công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn,nơi họ có thể tìm thấy dữ liệu họ cần.

(9) Dữ liệu từ các kênh truyền thông xã hội, được tạo ra và phát triển bởi các trangtruyền thông xã hội như Facebook, Instagram,…

SVTH: VŨ THỊ HƯỜNG 10 LỚP: 57TH2

Trang 12

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

- Dự báo quy mô thị trường dữ liệu lớn: Dựa trên doanh thu, từ năm 2011 đến

năm 2027 (tính bằng tỷ USD).

Hình 2 Xu hướng doanh thu từ phân tích dữ liệu lớn đem lại.

Thị trường dữ liệu lớn toàn cầu được dự báo sẽ tăng lên 103 tỷ USD vào năm2027, gấp đôi quy mô thị trường dự kiến vào năm 2018 .

Đặc trưng cơ bản của dữ liệu lớn [3].

Hình 3 Đặc trưng của dữ liệu lớn.

(1)Khối lượng lớn (Volume):

- Khối lượng dữ liệu rất lớn là đặc điểm tiêu biểu nhất của dữ liệu lớn và dữ liệuđang ngày càng tăng lên.

- Kích cỡ tính đến 2014 thì có thể trong khoảng vài trăm terabyte (1 petabyte =1024 terabyte) chỉ cho 1 tập hơn dữ liệu.

SVTH: VŨ THỊ HƯỜNG 11 LỚP: 57TH2

Trang 13

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

- Sử dụng công nghệ “đám mây” mới có khả năng lưu trữ được dữ liệu lớn.

- Dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc.

- Ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc( tài liệu, blog, hình ảnh, )- Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau.

(4) Độ tin cậy/chính xác (Veracity):

- Một trong những tính chất phúc tạp nhất của BigData là độ tin cậy/chính xác củadữ liệu.

- Xu hướng phương tiện truyền thông xã hội và mạng xã hội ngày nay và sự giatăng mạng mẽ tính tương tác và chia sẻ của người dùng mobile làm cho bức trangxác định về độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn.

- Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chấtquan trọng của bigdata.

(5) Giá trị(Value):

- Là đặc điểm quan trọng nhất của dữ liệu lớn Trước khi làm phân tích dữ liệu lớnthì việc đầu tiên là lảm rõ, xác định rõ được giá trị của thông tin mang lại ra sao.- Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại.

1.1.2 Tổng quan về phân tích dữ liệu lớn.

Nhiệm vụ khoa học công nghệ dữ liệu lớn:

- Quản trị dữ liệu (Data management): Lưu trữ, bảo trì và truy nhập các nguồn dữliệu lớn.

- Mô hình hoá và phân tích dữ liệu (Big Modeling and analytics): Tìm cách hiểuđược dữ liệu và tìm ra các thông tin hoặc tri thức quý báu từ dữ liệu.

SVTH: VŨ THỊ HƯỜNG 12 LỚP: 57TH2

Trang 14

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

- Trao đổi, hiển thị dữ liệu và kết quả phân tích dữ liệu (Visualization Decisions andValues) để tạo ra sản phẩm giá trị.

✯ Yêu cầu khi phân tích dữ liệu lớn.

- Khả năng mở rộng: Hệ thống có khả năng đối phó với sự tăng trưởng của dữ liệu,tính toán và độ phức tạp.

- Hiệu suất vào ra dữ liệu: Tốc độ truyền dữ liệu giữa hệ thống và thiết bị ngoại vi.

- Khả năng chấp nhận lỗi: Khả năng tiếp tục hoạt động đúng trong trường hợp thất

bại của một hay nhiều thành phần.

- Xử lý thời gian thực: Khả năng xử lý dữ liệu và đưa ra kết quả chính xác trong

những ràng buộc thời gian nhất định.

SVTH: VŨ THỊ HƯỜNG 13 LỚP: 57TH2

Trang 28

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Hình 15 Lợi ích hadoop.2.2.2 Kiến trúc của Apache Hadoop.

Thành phần: Hiện tại, Hadoop gồm 4 module:

Hình 16 Thành phần của hadoop.

- Core: Là kiến trúc trung tâm của hadoop, cung cấp cơ chế quản lý tài nguyên hiệu

quả, linh hoạt và bảo mật thống nhất các công cụ trên toàn hadoop cluster Đồngthời cung cấp cho các lập trình viên mọt framework duy nhất để viết các ứng dụngsử dụng dữ liệu trên hadoop.

- HDFS – Sức mạnh của Hadoop: Là hệ thống file phân tán, cung cấp khả năng

lưu trữ dữ liệu khổng lồ và tính năng tối ưu hoá việc sử dụng băng thông giữa các

node Có thể được sử dụng để chạy trên một cluster lớn với hàng chục ngàn node - Duy trì một cấu trúc cây phân cấp các file thư mục mà các file sẽ đóng vai

trò là các node.

- Mỗi file được chia thành 1 hay nhiều block, mỗi block sẽ có 1 block ID đểnhận diện Các block cùng 1 file sẽ có cùng kích thước Mỗi block của file sẽđược lưu trữ thành ra nhiều bản sao khác nhau vì mục đích an toàn dữ liệu.

SVTH: VŨ THỊ HƯỜNG 27 LỚP: 57TH2

Trang 29

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Hình 17 Cấu trúc cây phân cấp file của Hadoop.Kiến trúc tổng quát:

Hình 18 Kiến trúc tổng quát của HDFS.

Hoạt động đọc trên HDFS:

SVTH: VŨ THỊ HƯỜNG 28 LỚP: 57TH2

Trang 30

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Hình 19 Hoạt động đọc trên HDFS.

Hoạt động ghi trên HDFS:

Hình 20 Hoạt động ghi trên HDFS.

- MapReduce – Sức mạnh của Hadoop: Là một mô hình lập trình cho phép bạn xửlý dữ liệu khổng lồ được lưu trữ trong Hadoop.

SVTH: VŨ THỊ HƯỜNG 29 LỚP: 57TH2

Trang 31

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông TinHBase: Một cơ sở dữ liệu phân tán, sử dụng HDFS làm hạ tầng cho việc lưu trữ dữ

liệu bên dưới và cung cấp khả năng tính toán song song dựa trên MapReduce.

- HBase: một cơ sở dữ liệu phân tán, theo hướng cột (column-oriented) HBase sử

dụng HDFS làm hạ tầng cho việc lưu trữ dữ liệu bên dưới và cung cấp khả năngtính toán song song dựa trên MapReduce.

- Hive: một data warehouse phân tán Hive quản lý dữ liệu được lưu trữ trên HDFS

và cung cấp một ngôn ngữ truy vấn dựa trên SQL.

- Chukwa: một hệ thống tập hợp và phân tích dữ liệu Chukwa chạy các collector

(các chương trình tập hợp dữ liệu), các collector này lưu trữ dữ liệu trên HDFS vàsử dụng MapReduce để phát sinh các báo cáo.

2.2.3 Các trình nền của Hadoop.

Khi “chạy Hadoop” có nghĩa là chạy một tập các trình nền - daemon, hoặccác chương trình thường trú, trên các máy chủ khác nhau trên mạng của bạn Nhữngtrình nền có vai trò cụ thể, một số chỉ tồn tại trên một máy chủ, một số có thể tồn tạitrên nhiều máy chủ Các daemon bao gồm: [14]

NameNode: Là một trình nền quan trọng nhất của Hadoop.

+ NameNode là master của HDFS để chỉ đạo các trình nền, duy trì thông tin về

cấu trúc cây phân cấp, các file thư mục và các metadata khác của hệ thống.+ Quản lý các meta-data của hệ thống HDFS như file system space, danh sách

các file trên hệ thống và các block id tương ứng của từng file.+ Quản lý danh sách slave và tình trạng hoạt động của các DataNode.+ Điều hướng quá trình đọc/ghi dữ liệu từ client lên các DataNode.

+ Đáp ứng các yêu cầu tạo/xoá các block dữ liệu từ NameNode.

SVTH: VŨ THỊ HƯỜNG 30 LỚP: 57TH2

Trang 32

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

+ Client liên lạc trực tiếp với các trình nền DataNode để xử lý các file cục bộtương ứng với các block

Secondary NameNode:

+ Là một trình nền hỗ trợ giám sát trạng thái của các cụm HDFS Giống nhưNameNode, mỗi cụm có một SNN và nó thường trú trên một máy của mình.+ Nhiệm vụ: Duy trì một bản sao của meta-data trên NameNode và bản sao

này sẽ được dùng để phục hồi lại NameNode nếu NameNode bị hư hỏng.

JobTracker: Master MapReduce.

+ Tiếp nhận các yêu cầu thực thi MapReduce job.

+ Phân chia job thành các task và phân công cho các Task Tracker thực hiện.+ Quản lý tình trạng thực hiện của Task Tracker.

+ Tiếp nhận các task được Job Tracker phân công và thực hiện nó.

Client gọi JobTracker bắt đầu công việc xử lý dữ liệu, JobTracker làm việc và giaocác nhiệm vụ cho mỗi TaskTracker trong cluster.

Hình 21 Mô tả hoạt động của JobTracker.

Trong mỗi cluster, kiến trúc của Hadoop là master-slave (chủ-tớ): NameNode vàSVTH: VŨ THỊ HƯỜNG 31 LỚP: 57TH2

Trang 33

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông TinJobTracker là Master và DataNode & TaskTracker là slave.

2.1.4 Nguyên tắc hoạt động của Hadoop MapReduce.

- Hadoop chia đầu vào cho mỗi công việc MapReduce vào các mảnh có kích thướccố định gọi là các split.

- Hadoop tạo ra một task map cho mỗi split, thời gian xử lý mối split nhỏ hơn so vớithời gian xử lý toàn bộ đầu vào.

=> Vì vậy xử lý các split một cách song song, thì quá trình xử lý sẽ cân bằng tải tốthơn Khi “chạy Hadoop” có nghĩa là chạy một tập các trình nền - daemon, hoặc cácchương trình thường trú, trên các máy chủ khác nhau trên mạng của bạn Nhữngtrình nền có vai trò cụ thể, một số chỉ tồn tại trên một máy chủ, một số có thể tồn tạitrên nhiều máy chủ

2.1.5 Ứng dụng của hadoop.

Công nghệ này đã được sử dụng rộng rãi bởi một số trang web lớn nhất thếgiới, chẳng hạn như Facebook, eBay, Amazon, Baidu, và Yahoo.

- Facebook: Sử dụng Hadoop để lưu trữ các log nội bộ và kích thước của nguồn dữ

liệu Các dữ liệu này được dùng làm nguồn cho các báo cáo phân tích và máy học.

CHƯƠNG 3: PHÂN CỤM DỮ LIỆU VỚI THUẬT TOÁN KMEANS3.1 Thuật toán KMeans.

3.1.1 Tổng quan về thuật toán KMeans.

+ Thuật toán KMeans là một trong các thuật toán phân cụm điển hình trong họcmáy không giám sát Do MacQueen đề xuất trong lĩnh vực thống kê năm 1967 [1].

SVTH: VŨ THỊ HƯỜNG 32 LỚP: 57TH2

Ngày đăng: 15/05/2024, 18:45

HÌNH ẢNH LIÊN QUAN

Hình  4. Công cụ quản lý dữ liệu lớn. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 4. Công cụ quản lý dữ liệu lớn (Trang 14)
Hình  21. Mô tả hoạt động của JobTracker. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 21. Mô tả hoạt động của JobTracker (Trang 32)
Hình  22. Mô hình phân cụm đơn giản. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 22. Mô hình phân cụm đơn giản (Trang 34)
Hình  23. Minh họa quá trình phân cụm. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 23. Minh họa quá trình phân cụm (Trang 35)
Hình  24. Lưu đồ thuật toán KMeans. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 24. Lưu đồ thuật toán KMeans (Trang 35)
Bảng 2. Giải thuật thuật toán KMeans. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 2. Giải thuật thuật toán KMeans (Trang 36)
Bảng 5. Lặp lần 2 tâm cụm và điểm thuộc tâm cụm. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 5. Lặp lần 2 tâm cụm và điểm thuộc tâm cụm (Trang 38)
Bảng 6. Lặp lần 3 tâm cụm và điểm thuộc tâm cụm. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 6. Lặp lần 3 tâm cụm và điểm thuộc tâm cụm (Trang 39)
Bảng 7. Thuật toán PKMeans cho hàm map(key,value) - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 7. Thuật toán PKMeans cho hàm map(key,value) (Trang 41)
Bảng 8. Thuật toán PKMeans cho hàm reduce(key,V) - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 8. Thuật toán PKMeans cho hàm reduce(key,V) (Trang 42)
Hình  24. Lưu đồ thuật toán IPKMeans. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 24. Lưu đồ thuật toán IPKMeans (Trang 44)
Hình  25. Tổng quan hệ điều hành linux. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 25. Tổng quan hệ điều hành linux (Trang 46)
Hình  27. Logo công nghệ docker. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 27. Logo công nghệ docker (Trang 48)
Hình  28. Kiến trúc của docker. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 28. Kiến trúc của docker (Trang 49)
Hình  29. Quy trình thực thi hệ thống trên docker. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 29. Quy trình thực thi hệ thống trên docker (Trang 50)
Hình  30. Cài đặt nhiều node bên trong một mạng docker. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 30. Cài đặt nhiều node bên trong một mạng docker (Trang 51)
Hình  31. Logo ngôn ngữ lập trình Java. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 31. Logo ngôn ngữ lập trình Java (Trang 52)
Hình  32. Minh hoạ ứng dụng của Java. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 32. Minh hoạ ứng dụng của Java (Trang 53)
Bảng 11. Ảnh dữ liệu đầu vào. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 11. Ảnh dữ liệu đầu vào (Trang 59)
Hình  34. Giao diện ứng dụng phân cụm. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
nh 34. Giao diện ứng dụng phân cụm (Trang 59)
Bảng 15. Kết quả tâm cụm sinh ra sau khi hội tụ 2. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 15. Kết quả tâm cụm sinh ra sau khi hội tụ 2 (Trang 61)
Bảng 17. Kết quả thống kê thời gian thực thi 300x300. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 17. Kết quả thống kê thời gian thực thi 300x300 (Trang 62)
Bảng 16. Kết quả thống kê thời gian thực thi 128x128. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 16. Kết quả thống kê thời gian thực thi 128x128 (Trang 62)
Bảng 20. Kết quả đánh giá hiệu suất theo kích thước dữ liệu. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 20. Kết quả đánh giá hiệu suất theo kích thước dữ liệu (Trang 63)
Bảng 21. Biểu đồ đánh giá hiệu suất thực thi. - tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh
Bảng 21. Biểu đồ đánh giá hiệu suất thực thi (Trang 64)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN