tìm hiểu thuật toán k means dựa trên mô hình mapreduce và ứng dụng trong phân cụm ảnh

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông TinCHƯƠNG 2: MÔ HÌNH MAPREDUCE TRONG PHÂN TÍCH DỮ LIỆU LỚN 222.2.3 Các trình nền của Hadoop... Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tinphân tán nha

Trang 1

TRƯỜNG ĐẠI HỌC THỦY LỢI

KHOA CÔNG NGHỆ THÔNG TIN

- -🙡🙡🙡

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

Ngành Công nghệ thông tin

Trang 2

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin

Sau hơn 4 năm học tập và nghiên cứu tại Khoa Công nghệ thông tin - TrườngĐại học Thủy Lợi, em đã được trải nghiệm trong môi trường đào tạo tốt và nhậnđược sự chỉ dạy nhiệt tình của các thầy, các cô trong khoa

Trước hết, em xin được bày tỏ lòng biết ơn và gửi lời cảm ơn chân thành đến

TS Nguyễn Tu Trung đã dạy cho em có được những kiến thức vững chắc, tận tình

chỉ bảo, nhắc nhở và hướng dẫn em trong suốt quá trình làm đồ án tốt nghiệp

Em cũng xin chân thành cảm ơn các thầy cô giáo trong khoa Công nghệthông tin nói riêng và trường Đại học Thủy Lợi nói chung đã trang bị cho tôi nhữngkiến thức quý báu làm hành trang trong những năm học vừa qua

Em cũng xin bày tỏ lòng biết ơn sâu sắc đến: Cha mẹ và những người thântrong gia đình đã chăm sóc, nuôi dạy, hỗ trợ, động viên và tạo mọi điều kiện thuậnlợi nhất cho em trong suốt thời gian qua và đặc biệt trong thời gian em làm đồ án tốtnghiệp

Ngoài ra, em cũng chân thành cảm ơn các bạn, các anh, các chị đã ủng hộ,giúp đỡ, trao đổi kiến thức, kinh nghiệm và động viên tôi trong thời gian học tập vànghiên cứu

Trong quá trình nghiên cứu của mình, mặc dù được sự hướng dẫn rất nhiệt

tình, nghiêm túc của TS Nguyễn Tu Trung cùng với sự nỗ lực của cá nhân nhưng

cũng không thể tránh được những thiếu sót Em rất mong nhận được sự cảm thông

và những góp ý từ quý Thầy, Cô và các bạn để đề tài được hoàn thiện hơn

Em xin chân thành cảm ơn!

Hà Nội, ngày … tháng … năm 2019 Sinh viên thực hiện

Vũ Thị Hường

SVTH: VŨ THỊ HƯỜNG 1 LỚP: 57TH2

Trang 3

CHƯƠNG 2: MÔ HÌNH MAPREDUCE TRONG PHÂN TÍCH DỮ LIỆU LỚN 22

2.2.3 Các trình nền của Hadoop 322.1.5 Ứng dụng của hadoop

34

Trang 4

3.2 Ý tưởng và giải pháp MapReduce hoá thuật toán KMeans 42

3.4 Thuật toán IPKMeans – cải tiến của PKMeans cho phân cụm ảnh 44

CHƯƠNG 5: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM ĐÁNH GIÁ

58

Trang 5

Bảng 9 Mã giả thuật toán IPKMeans cho hàm mapImage(key, value) 46Bảng 10 Thuật toán IPKMeans cho hàm reduceImage(key, value) 47

Bảng 12 Kết quả ảnh sau khi phân cụm kích thước 128x128 và 300x300 62Bảng 13 Kết quả ảnh sau khi phân cụm kích thước 500x500 và 700x700 62

Trang 6

Bảng 20 Kết quả đánh giá hiệu suất theo kích thước dữ liệu 66

DANH MỤC HÌNH ẢNH

Hình 2 Xu hướng doanh thu từ phân tích dữ liệu lớn đem lại 12

Trang 7

MỞ ĐẦU

1 Tổng quan về vấn đề nghiên cứu

Những năm gần đây, sự phát triển mạnh của công nghệ thông tin đã làm chokhả năng thu thập và lượng thông tin tăng nhanh một cách chóng mặt Sự ra đời củacác kênh truyền thông mới như mạng xã hội và các thiết bị tiên tiến hơn đã đặt rathách thức cho các nền công nghiệp phải tìm những cách để xử lý dữ liệu.Các phương pháp song song hóa đã được đề cập từ lâu, khi mà J.VonNeumann giới thiệu mô hình tính toán song song có tên Otomat tế bào Từ đó đếnnay, lý thuyết về xử lý song song trở thành lĩnh vực nghiên cứu quan trọng và ngàycàng đem lại tính năng vượt trội so với mô hình lập trình tuần tự truyền thống Năm 2004, Google giới thiệu thiệu mô hình tính toán MapReduce tính toán

Trang 8

phân tán nhanh trên một tập dữ liệu lớn và dữ liệu được đặt trên nhiều cụm máytính Cho đến nay MapReduce đã có tầm ảnh hưởng lớn nhất [9]

2 Lý do chọn đề tài.

Ngày nay, mọi doanh nghiệp lớn và vừa đều bị bao vây bởi hàng tấn dữ liệuphi cấu trúc từ nhiều nguồn khác nhau và không ngừng gia tăng từng ngày.Vì vậy,chúng ta luôn phải đối mặt với việc xử lý một lượng dữ liệu khổng lồ được gọi làBig Data Hầu hết dữ liệu lớn được tạo ra là ảnh.

Thị giác máy tính là một lĩnh vực nghiên cứu mới mẻ đầy tiềm năng và rất

được quan tâm Tầm quan trọng và những khó khăn của việc gom cụm các đốitượng mang tính tri giác của con người từ lâu đã được nghiên cứu nhiều trong cáclĩnh vực của thị giác máy tính đặc biệt trong lĩnh vực xử lý ảnh

Phân cụm ảnh được ứng dụng rất mạnh mẽ trong các bài toán phân tích vàhiểu ảnh tự động, một trong những bước quan trọng của việc khai thác các hình ảnh,nhưng đó cũng là một bài toán khó mà tới bây giờ các nhà khoa học cũng chưa tìm

ra cách giải hoàn toàn thấu đáo Vậy: Làm thế nào để phân chia một ảnh thành các tập con? Những cách khả thi để có thể làm được điều đó là gì?

Trong khoảng 30 trở lại đây đã có rất nhiều thuật toán được đề xuất để giảiquyết vấn đề phân cụm ảnh Các thuật toán này hầu hết đều tiếp cận theo 2 hướngchủ yếu là: dựa trên pixel và dựa trên trên đồi tượng [10] Tuy nhiên việc xử lý ảnh còn tồn tại nhiều vấn đề như: Độ phức tạp của thời gian tính toán theo cấp số nhân; khối lượng dữ liệu được xử lý giới hạn, vấn đề về lỗi, … [11]

Xuất phát từ thực tế và để giải quyết vấn đề đặt ra, em đã chọn thuật toánIPKMeans - phương pháp phân cụm ảnh song song hoá dựa trên mô hình

MapReduce để giải quyết bài toán phân cụm ảnh lớn với đề tài "Tìm hiểu thuật toán K-Means dựa trên mô hình MapReduce và ứng dụng trong phân cụm ảnh." thực hiện làm học phần tốt nghiệp của mình.

3 Đối tượng nghiên cứu.

- Nghiên cứu kỹ thuật chuyển đổi điểm ảnh sang không gian màu RGB

- Nghiên cứu mô hình lập trình MapReduce và Hadoop

- Nghiên cứu phân cụm ảnh với thuật toán K-Means, PKMeans và IPKMeans

Trang 9

- Nghiên cứu nền tảng mở docker, docker-compose tạo lập môi trường nhiềumáy ảo xử lý tính toán song song

4 Phạm vi nghiên cứu.

- Mô hình MapReduce và Apache Hadoop

- Thuật toán KMeans, PKMeans, IPKMeans

- Ứng dụng phân cụm ảnh với Kmeans và IPKMeans

- Xử lý phân cụm ảnh tính toán song song

- Nền tảng mở docker, docker-compose

5 Mục tiêu đề tài.

- Tìm hiểu về kỹ thuật xử lý ảnh, bài toán phân cụm ảnh xám, ảnh màu

- Hiểu về cơ chế hoạt động của Hadoop bao gồm HDFS (Hadoop DistributedFile System) và MapReduce

- Hiểu về thuật toán KMeans và IPKMeans

- Xây dựng ứng dụng demo phân cụm ảnh với thuật toán KMeans vàIPKMeans

- Chạy thử nghiệm ứng dụng song song nhiều node sử dụng docker

- Thử nghiệm, phân tích đánh giá giải pháp KMeans và IPKMeans

- 2.1.4 Nguyên tắc hoạt động của Hadoop MapReduce 34 -

6 Cấu trúc của đồ án tốt nghiệp.

Cấu trúc đồ án tốt nghiệp

Nội dung của đồ án tốt nghiệp được trình bày trong ba phần chính như sau:

1 Phần mở đầu

2 Phần nội dung: bao gồm năm chương:

➤ Chương 1: Tổng quan về BigData và phân cụm dữ liệu.

Chương này, trình bày tổng quan về dữ liệu lớn, phân tích dữ liệu lớn, phâncụm dữ liệu, phân cụm ảnh, phân tích quy trình phân cụm ảnh, đưa ra vấn đề bàitoán phân cụm, quy trình hoạt động và một số ứng dụng của phân cụm

➤ Chương 2: Mô hình MapReduce trong phân tích dữ liệu lớn.

Trang 10

Chương này, trình bày về mô hình MapReduce, kiến trúc, nguyên tắc hoạtđộng, ưu nhược điểm và ứng dụng của MapReduce; tổng quan về apache hadoop

➤ Chương 3: Phân cụm dữ liệu với thuật toán KMeans.

Chương này, trình bày về tổng quan, các bước xử lý, tính toán của thuật toánKMeans Trình bày thuật toán cải tiến của KMeans là PKMeans và IPKMeans, phântích từng giải thuật hàm map, hàm reduce, lưu đồ biểu diễn thuật toán IPKMeans và

áp dụng phân cụm ảnh

➤ Chương 4: Cơ sở công nghệ.

Chương này, trình các công nghệ cần thiết xây dựng ứng dụng xử lý phâncụm ảnh dữ liệu lớn song song Đưa ra lý do dùng công nghệ đó vào vai trò nào củaứng dụng và giải thích rõ ưu và nhược điểm

➤ Chương 5: Phân tích ứng dụng và thực nghiệm đánh giá.

Chương này, trình bày các phân tích, các tính năng của ứng dụng; mô tả dữliệu thực nghiệm, đưa ra kết quả và phân tích đánh giá kết quả thực nghiệm

Theo wikipedia: Dữ liệu lớn(Big data) là một thuật ngữ chỉ bộ dữ liệu lớn

hoặc phức tạp mà các phương pháp truyền thống không đủ các ứng dụng để xử lý

dữ liệu này

Theo Gartner : Dữ liệu lớn là những nguồn thông tin có đặc điểm chung khối

lượng lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đómuốn khai thác được phải đòi hỏi phải có hình thức mới để đưa ra quyết định khámphá và tối ưu hóa quy trình

✯ Nguồn dữ liệu lớn: Dữ liệu đến từ rất nhiều nguồn khác nhau:

Trang 11

Hình 1 Tốc độ gia tăng nguồn dữ liệu.

- Dữ liệu lớn được hình thành chủ yếu từ 9 nguồn:[3]

(1) Dữ liệu hành chính (phát sinh từ chương trình của một tổ chức, có thể là chínhphủ hay phi chính phủ) Ví dụ: hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm, (2) Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dịch giữa các thực thể)

Ví dụ: các giao dịch thẻ tín dụng, giao dịch trên mạng, …

(3) Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tinh, cảm biếnđường, cảm biến khí hậu

(4) Dữ liệu từ các thiết bị theo dõi Ví dụ theo dõi dữ liệu từ điện thoại di động.(5) Dữ liệu từ các hành vi Ví dụ như tìm kiếm trực tuyến (tìm kiếm sản phẩm, dịch

vụ hay thông tin khác), đọc các trang mạng trực tuyến,

(6) Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức, trên cácphương tiện thông tin xã hội

(7) Dữ liệu điện lực bao gồm các thông tin cụ thể từ các điểm giao nhau của các nútthông tin sử dụng

(8) Dữ liệu các thiết bị tìm kiếm, công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn,nơi họ có thể tìm thấy dữ liệu họ cần

(9) Dữ liệu từ các kênh truyền thông xã hội, được tạo ra và phát triển bởi các trangtruyền thông xã hội như Facebook, Instagram,…

Trang 12

- Dự báo quy mô thị trường dữ liệu lớn: Dựa trên doanh thu, từ năm 2011 đến

năm 2027 (tính bằng tỷ USD)

Hình 2 Xu hướng doanh thu từ phân tích dữ liệu lớn đem lại.

Thị trường dữ liệu lớn toàn cầu được dự báo sẽ tăng lên 103 tỷ USD vào năm

2027, gấp đôi quy mô thị trường dự kiến vào năm 2018

✯ Đặc trưng cơ bản của dữ liệu lớn [3]

Hình 3 Đặc trưng của dữ liệu lớn.

(1)Khối lượng lớn (Volume):

- Khối lượng dữ liệu rất lớn là đặc điểm tiêu biểu nhất của dữ liệu lớn và dữ liệuđang ngày càng tăng lên

- Kích cỡ tính đến 2014 thì có thể trong khoảng vài trăm terabyte (1 petabyte =

1024 terabyte) chỉ cho 1 tập hơn dữ liệu

Trang 13

- Sử dụng công nghệ “đám mây” mới có khả năng lưu trữ được dữ liệu lớn

- Dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc

- Ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc( tài liệu, blog, hình ảnh, )

- Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau

(4) Độ tin cậy/chính xác (Veracity):

- Một trong những tính chất phúc tạp nhất của BigData là độ tin cậy/chính xác của

dữ liệu

- Xu hướng phương tiện truyền thông xã hội và mạng xã hội ngày nay và sự giatăng mạng mẽ tính tương tác và chia sẻ của người dùng mobile làm cho bức trangxác định về độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn

- Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chấtquan trọng của bigdata

(5) Giá trị(Value):

- Là đặc điểm quan trọng nhất của dữ liệu lớn Trước khi làm phân tích dữ liệu lớnthì việc đầu tiên là lảm rõ, xác định rõ được giá trị của thông tin mang lại ra sao

- Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại

1.1.2 Tổng quan về phân tích dữ liệu lớn.

✯Nhiệm vụ khoa học công nghệ dữ liệu lớn:

- Quản trị dữ liệu (Data management): Lưu trữ, bảo trì và truy nhập các nguồn dữliệu lớn

- Mô hình hoá và phân tích dữ liệu (Big Modeling and analytics): Tìm cách hiểuđược dữ liệu và tìm ra các thông tin hoặc tri thức quý báu từ dữ liệu

Trang 14

- Trao đổi, hiển thị dữ liệu và kết quả phân tích dữ liệu (Visualization Decisions andValues) để tạo ra sản phẩm giá trị

✯ Yêu cầu khi phân tích dữ liệu lớn.

- Khả năng mở rộng: Hệ thống có khả năng đối phó với sự tăng trưởng của dữ liệu,tính toán và độ phức tạp

- Hiệu suất vào ra dữ liệu: Tốc độ truyền dữ liệu giữa hệ thống và thiết bị ngoại vi

- Khả năng chấp nhận lỗi: Khả năng tiếp tục hoạt động đúng trong trường hợp thất

bại của một hay nhiều thành phần

- Xử lý thời gian thực: Khả năng xử lý dữ liệu và đưa ra kết quả chính xác trong

những ràng buộc thời gian nhất định

Trang 28

Hình 15 Lợi ích hadoop.

2.2.2 Kiến trúc của Apache Hadoop.

✯ Thành phần: Hiện tại, Hadoop gồm 4 module:

Hình 16 Thành phần của hadoop.

- Core: Là kiến trúc trung tâm của hadoop, cung cấp cơ chế quản lý tài nguyên hiệu

quả, linh hoạt và bảo mật thống nhất các công cụ trên toàn hadoop cluster Đồngthời cung cấp cho các lập trình viên mọt framework duy nhất để viết các ứng dụng

sử dụng dữ liệu trên hadoop

- HDFS – Sức mạnh của Hadoop: Là hệ thống file phân tán, cung cấp khả năng

lưu trữ dữ liệu khổng lồ và tính năng tối ưu hoá việc sử dụng băng thông giữa các

node Có thể được sử dụng để chạy trên một cluster lớn với hàng chục ngàn node

- Duy trì một cấu trúc cây phân cấp các file thư mục mà các file sẽ đóng vaitrò là các node

- Mỗi file được chia thành 1 hay nhiều block, mỗi block sẽ có 1 block ID đểnhận diện Các block cùng 1 file sẽ có cùng kích thước Mỗi block của file sẽđược lưu trữ thành ra nhiều bản sao khác nhau vì mục đích an toàn dữ liệu

Trang 29

Hình 17 Cấu trúc cây phân cấp file của Hadoop.

Kiến trúc tổng quát:

Hình 18 Kiến trúc tổng quát của HDFS.

Hoạt động đọc trên HDFS:

Trang 30

Hình 19 Hoạt động đọc trên HDFS.

Hoạt động ghi trên HDFS:

Hình 20 Hoạt động ghi trên HDFS.

- MapReduce – Sức mạnh của Hadoop: Là một mô hình lập trình cho phép bạn xử

lý dữ liệu khổng lồ được lưu trữ trong Hadoop.

Trang 31

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin HBase: Một cơ sở dữ liệu phân tán, sử dụng HDFS làm hạ tầng cho việc lưu trữ dữ

liệu bên dưới và cung cấp khả năng tính toán song song dựa trên MapReduce

- HBase: một cơ sở dữ liệu phân tán, theo hướng cột (column-oriented) HBase sử

dụng HDFS làm hạ tầng cho việc lưu trữ dữ liệu bên dưới và cung cấp khả năngtính toán song song dựa trên MapReduce

- Hive: một data warehouse phân tán Hive quản lý dữ liệu được lưu trữ trên HDFS

và cung cấp một ngôn ngữ truy vấn dựa trên SQL

- Chukwa: một hệ thống tập hợp và phân tích dữ liệu Chukwa chạy các collector

(các chương trình tập hợp dữ liệu), các collector này lưu trữ dữ liệu trên HDFS và

sử dụng MapReduce để phát sinh các báo cáo

2.2.3 Các trình nền của Hadoop.

Khi “chạy Hadoop” có nghĩa là chạy một tập các trình nền - daemon, hoặccác chương trình thường trú, trên các máy chủ khác nhau trên mạng của bạn Nhữngtrình nền có vai trò cụ thể, một số chỉ tồn tại trên một máy chủ, một số có thể tồn tạitrên nhiều máy chủ Các daemon bao gồm: [14]

NameNode: Là một trình nền quan trọng nhất của Hadoop.

+ NameNode là master của HDFS để chỉ đạo các trình nền, duy trì thông tin về

cấu trúc cây phân cấp, các file thư mục và các metadata khác của hệ thống.+ Quản lý các meta-data của hệ thống HDFS như file system space, danh sáchcác file trên hệ thống và các block id tương ứng của từng file

+ Quản lý danh sách slave và tình trạng hoạt động của các DataNode.+ Điều hướng quá trình đọc/ghi dữ liệu từ client lên các DataNode

+ Đáp ứng các yêu cầu tạo/xoá các block dữ liệu từ NameNode

Trang 32

+ Client liên lạc trực tiếp với các trình nền DataNode để xử lý các file cục bộtương ứng với các block

Secondary NameNode:

+ Là một trình nền hỗ trợ giám sát trạng thái của các cụm HDFS Giống nhưNameNode, mỗi cụm có một SNN và nó thường trú trên một máy của mình.+ Nhiệm vụ: Duy trì một bản sao của meta-data trên NameNode và bản saonày sẽ được dùng để phục hồi lại NameNode nếu NameNode bị hư hỏng

JobTracker: Master MapReduce.

+ Tiếp nhận các yêu cầu thực thi MapReduce job

+ Phân chia job thành các task và phân công cho các Task Tracker thực hiện.+ Quản lý tình trạng thực hiện của Task Tracker

TaskTracker:

+ Tiếp nhận các task được Job Tracker phân công và thực hiện nó

Client gọi JobTracker bắt đầu công việc xử lý dữ liệu, JobTracker làm việc và giao các nhiệm vụ cho mỗi TaskTracker trong cluster.

Hình 21 Mô tả hoạt động của JobTracker.

Trong mỗi cluster, kiến trúc của Hadoop là master-slave (chủ-tớ): NameNode và SVTH: VŨ THỊ HƯỜNG 31 LỚP: 57TH2

Trang 33

Đồ Án Tốt Nghiệp Khoa Công Nghệ Thông Tin JobTracker là Master và DataNode & TaskTracker là slave.

2.1.4 Nguyên tắc hoạt động của Hadoop MapReduce.

- Hadoop chia đầu vào cho mỗi công việc MapReduce vào các mảnh có kích thước

2.1.5 Ứng dụng của hadoop.

Công nghệ này đã được sử dụng rộng rãi bởi một số trang web lớn nhất thếgiới, chẳng hạn như Facebook, eBay, Amazon, Baidu, và Yahoo

- Facebook: Sử dụng Hadoop để lưu trữ các log nội bộ và kích thước của nguồn dữ

liệu Các dữ liệu này được dùng làm nguồn cho các báo cáo phân tích và máy học

CHƯƠNG 3: PHÂN CỤM DỮ LIỆU VỚI THUẬT TOÁN KMEANS 3.1 Thuật toán KMeans.

3.1.1 Tổng quan về thuật toán KMeans.

+ Thuật toán KMeans là một trong các thuật toán phân cụm điển hình trong họcmáy không giám sát Do MacQueen đề xuất trong lĩnh vực thống kê năm 1967 [1]

Tiêu đề	Tìm Hiểu Thuật Toán K-Means Dựa Trên Mô Hình Mapreduce Và Ứng Dụng Trong Phân Cụm Ảnh
Tác giả	Vũ Thị Hường
Người hướng dẫn	TS. Nguyễn Tu Trung
Trường học	Trường Đại Học Thủy Lợi
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2019
Thành phố	Hà Nội

Định dạng
Số trang	66
Dung lượng	7,35 MB