ỨNG DỤNG THỬ NGHIỆM CÔNG NGHỆ DỮ LIỆU LỚN TRONG XỬ LÝ ẢNH VĂN BẢN

Mục lục DANH SÁCH HÌNH VẼ LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ DỮ LIỆU LỚN 1.1 Mở đầu 1.2 Lược sử hình thành Dữ liệu lớn .8 1.3 Định nghĩa Dữ liệu lớn .10 1.4 Xu hướng phát triển công nghệ liệu lớn .18 CHƯƠNG 2: CÔNG NGHỆ DỮ LIỆU LỚN TẠI VIỆT NAM .30 2.1 Hiện trạng xu hướng phát triển công nghệ liệu lớn Việt Nam 30 2.2 Ảnh hưởng công nghệ liệu lớn đến phát triển kinh tế xã hội 38 2.3 Ảnh hưởng công nghệ liệu lớn phủ 44 CHƯƠNG 3: NỀN TẢNG CÔNG NGHỆ PHÂN TÍCH DỮ LIỆU LỚN .53 3.1 Bộ công cụ phân tích liệu lớn .53 3.2 Kiến trúc Apache Hadoop .54 3.3 Kiến trúc Apache Spark 65 CHƯƠNG 4: ỨNG DỤNG THỬ NGHIỆM CÔNG NGHỆ DỮ LIỆU LỚN TRONG XỬ LÝ ẢNH VĂN BẢN 71 4.1 Đặt vấn đề .71 4.2 Nhận dạng văn theo mẫu 74 4.3 Ứng dụng công nghệ liệu lớn để xử lý ảnh văn 85 4.4 Xây dựng ứng dụng tìm kiếm ảnh văn 89 4.5 Đánh giá khuyến cáo 92 CHƯƠNG 5: MỘT SỐ KIẾN NGHỊ VÀ ĐỀ XUẤT 94 5.1 Đề xuất xây dựng chiến lược phát triển công nghệ liệu lớn .94 5.2 Đề xuất ứng dụng liệu lớn 96 5.3 Đề xuất tảng công nghệ liệu lớn 100 KẾT LUẬN 110 DANH SÁCH HÌNH VẼ Hình 1.1: Lược sử hình thành Dữ liệu lớn – Nguồn Internet Hình 1.2 : Đồ thị lượng liệu tạo giới năm 2011- Báo cáo IDC 11 Hình 1.3: Mô hình “3Vs” Big Data – Nguồn Internet 12 Hình 1.4: Mô hình “5Vs” Big Data – Nguồn Internet 13 Hình 1.5: Dự báo thị trường Big Data đến năm 2026 – Nguồn Wikibon .20 Hình 1.6: Phân khúc thị trường Big Data năm 2014 – Nguồn Wikibon 20 Hình 1.7: Dự báo phân khúc thị trường Big Data năm 2020 – Nguồn Wikibon .21 Hình 1.8: Dự báo phân khúc thị trường Big Data năm 2026 – Nguồn Wikibon .21 Hình 2.1 Thông tin Younet media công bố kiện BKAV thức công bố kiện mắt Bphone ngày 26/05/2015 .33 Hình 2.2 Nền tảng cung cấp dịch vụ ADATAO 34 Hình 3.1: Hệ sinh thái Apache Hadoop v1.x (nguồn skillspeed.com) 56 Hình 3.2: Hệ sinh thái Apache Hadoop v2.x (nguồn skillspeed.com) 57 Hình 3.3: Các dịch vụ bên hệ thống HDFS phiên 1.x 59 Hình 3.4: Các dịch vụ bên hệ thống HDFS phiên 2.x 62 Hình 3.5: Các dịch vụ bên hệ thống Apache Hadoop phiên 2.x 63 Hình 3.6: Mô hình MapRecude hệ thứ 64 Hình 3.7: Kiến trúc thành phần lõi Apache Spark 66 Hình 4.1: Một số mẫu nhận dạng thư viện 76 Hình 4.2: Thống kê 20 từ xuất nhiều 90 000 báo tiếng Anh 81 Hình 4.3: Phân đoạn ảnh văn viết tay .82 Hình 4.4: Mô tả trình nhận dạng ảnh văn phương pháp mẫu từ .83 Hình 4.5: Kết thực so sánh hai mẫu ảnh chữ 84 Hình 4.6: Ví dụ phân đoạn từ ảnh .84 Hình 4.7: Văn đánh mục theo vùng tọa độ 85 Hình 4.8: Dữ liệu ảnh văn trích xuất .86 Hình 4.9: Các từ xuất ảnh văn 87 Hình 4.10: Minh họa số ngược 87 Hình 4.11: Hình minh họa thuật lập mục đợn giản với maper reduce 89 Hình 4.12: Các bước xử lý chương trình tìm kiếm 89 Hình 4.13: Dạng ảnh xám .90 Hình 4.14 Minh họa phân đoạn ảnh văn 90 Hình 4.15: Biểu diễn liệu tiền xử lý 90 Hình 4.16: Kết tìm kiếm với từ "the" .91 Hình 4.17: Kết thực với hệ thống 91 Hình 4.18: Kết thực với hệ thống Hadoop .92 LỜI MỞ ĐẦU Ngày nay, phát triển Internet làm thay đổi mạnh mẽ cách thức hoạt động tổ chức Các ứng dụng Web 2.0, mạng xã hội, điện toán đám mây phần mang lại cho tổ chức phương thức kinh doanh Trong kỷ nguyên IoT (Internet of Things), cảm biến nhúng vào thiết bị di động điện thoại di động, ô tô, máy móc công nghiệp góp phần vào việc tạo chuyển liệu, dẫn đến bùng nổ liệu thu thập Theo báo cáo IDC, năm 2011, lượng liệu tạo giới 1.8ZB , tăng gần lần năm Dưới bùng nổ này, thuật ngữ Big Data sử dụng để liệu khổng lồ, chủ yếu cấu trúc, thu thập từ nhiều nguồn khác Với ưu điểm tác động mạnh mẽ Dữ liệu lớn (Big Data) ứng dụng liên quan, Big Data xem yếu tố định đến việc phát triển mang lại lợi cạnh tranh tổ chức Tuy nhiên, để đạt thành công việc xây dựng thực dự án Big Data, vấn đề có liên quan cần xác định, từ tìm phương hướng để giải Mục tiêu nghiên cứu nhằm đưa nhìn toàn cảnh Big Data đồng thời nhấn mạnh vào vấn đề xu hướng phát triển công nghệ Big Data ảnh hưởng đến phát triển kinh tế xã hội quản lý nhà nước Bên cạnh nghiên cứu bản, đề tài tập trung vào nghiên cứu công nghệ tảng để xây dựng ứng dụng xử lý liệu lớn (tập trung vào Apache Hadoop) Thêm vào đó, nhóm đề tài thực ứng dụng thử nghiệm tảng việc xử lý liệu ảnh văn Việc xây dựng ứng dụng thực tế vừa giúp nhóm đề tài nắm bắt kỹ thuật, công nghệ tảng, vừa ứng dụng vào nhu cầu thực tế Viện CNPM & NDS gắn liền với nhiệm vụ Kho liệu Viện Cuối cùng, đề tài đưa số đề xuất ứng dụng liệu lớn nên triển khai phân tích số tảng công nghệ xử lý liệu lớn để có đánh giá lựa chọn phù hợp CHƯƠNG 1: TỔNG QUAN VỀ DỮ LIỆU LỚN 1.1 Mở đầu Một nửa kỷ sau máy tính bước vào xã hội thống, liệu bắt đầu tích lũy nhiều tới mức mà điều mẻ đặc biệt xảy Không giới tràn ngập thông tin nhiều hết, mà thông tin tăng nhanh Sự thay đổi quy mô dẫn đến thay đổi trạng thái Thay đổi lượng dẫn tới thay đổi chất Các khoa học thiên văn, gen, trải nghiệm bùng nổ năm 2000, đưa thuật ngữ “dữ liệu lớn”, khái niệm mà di trú vào tất lĩnh vực đời sống người Không có định nghĩa xác cho liệu lớn Ban đầu ý tưởng dung lượng thông tin tăng lớn tới mức số lượng cần khảo sát không vừa vào nhớ máy tính dùng để xử lý, kỹ sư cần cải tạo công cụ họ dung để phân tích tất thông tin Đó xuất xứ công nghệ xử lý MapReduce Google nguồn mở tương đương nó, Hadoop, khởi đầu từ Yahoo Những công nghệ cho phép ta quản lý khối lượng liệu lớn nhiều so với trước đây, quan trọng không cần đưa liệu vào hàng ngăn nắp bảng sở liệu cổ điển Các công nghệ nghiền liệu khác, bỏ qua cấu trúc phân cấp đồng cứng nhắc cổ điển, tầm ngắm Đồng thời, công ty Internet thu thập vô số liệu quý giá có động kinh tế lớn để khai thác chúng, nên công ty trở thành người sử dụng hàng đầu công nghệ xử lý đại nhất, vượt qua công ty truyền thống, có tới hàng chục năm kinh nghiệm nhiều Dữ liệu lớn đề cập tới thứ người ta làm với quy mô lớn mà làm với quy mô nhỏ hơn, để trích xuất hiểu biết tạo dạng giá trị mới, theo cách thức làm thay đổi thị trường, tổ chức, mối quan hệ công dân phủ, Nhưng bước khởi đầu Thời đại liệu lớn thách thức cách sống tương tác với giới Nổi bật nhất, xã hội phải cắt giảm số nỗi ám ảnh quan hệ nhân để đổi lấy mối tương quan đơn giản, mà biết Điều làm đổ vỡ hàng kỷ tập quán thiết lập thách thức hiểu biết việc làm để đưa định hiểu thực tế Dữ liệu lớn đánh dấu bước khởi đầu biến đổi lớn Đúng kính thiên văn tạo điều kiện cho hiểu biết vũ trụ kính hiển vi cho phép hiểu biết vi trùng, kỹ thuật để thu thập phân tích tập hợp lớn liệu giúp tìm ý nghĩa giới theo cách thức mà vừa bắt đầu ưa thích Cuộc cách mạng thật máy tính toán liệu mà liệu cách ta sử dụng chúng Để đánh giá mức độ cách mạng thông tin tiến triển tới đâu, ta xem xét xu hướng xuyên xuốt lĩnh vực xã hội Lấy ví dụ thiên văn học Khi Sloan Digital Sky Survey (SDSS – Trạm quan sát bầu trời kỹ thuật số Sloan) bắt đầu hoạt động vào năm 2000, kính thiên văn New Mexico tuần thu thập nhiều liệu thu thập toàn lịch sử ngành thiên văn Đến năm 2010, lưu trữ trạm bạt ngàn với số khổng lồ 140 tera (10 mũ 12) byte thông tin Nhưng kẻ kế nhiệm, kính thiên văn Large Synoptic Survey (LSST) Chile, dự kiến vận hành vào năm 2016, năm ngày thu thập lượng liệu tương đương Những số lượng vô to lớn tìm thấy xung quanh Khi nhà khoa học lần đầu giải mã gen người vào năm 2003, họ thập kỷ làm việc miệt mài để xác định trình tự cho ba tỷ cặp sở Bây giờ, sau thập kỷ, thiết bị đơn lẻ xác định trình tự cho số lượng DNA ngày Trong ngành tài chính, khoảng tỷ cổ phiếu mua bán ngày thị trường chứng khoán Mỹ, số khoảng hai phần ba giao dịch thuật toán máy tính dựa mô hình toán học xử lý hàng núi liệu để dự đoán lợi nhuận cố gắng giảm thiểu rủi ro Các công ty Internet đặc biệt bị tràn ngập Google xử lý 24 peta (10 mũ 15) byte liệu ngày, khối lượng gấp hàng ngàn lần tất ấn phẩm Thư viện Quốc hội Mỹ Facebook, công ty không tồn thập kỷ trước, nhận 10 triệu ảnh tải lên Các thành viên Facebook nhấp nút “like” gửi lời bình luận gần ba tỷ lần ngày, tạo dấu vết số để công ty “đào xới” nhằm biết sở thích người sử dụng Trong đó, 800 triệu người sử dụng dịch vụ Youtube Google tải lên video giây Thành viên mạng Twitter tăng khoảng 200 phần trăm năm đến năm 2012 có 400 triệu tweet ngày Từ khoa học tới y tế, từ ngân hàng tới Internet, lĩnh vực khác nhau, chúng có câu chuyện tương tự: số lượng liệu giới tăng nhanh, vượt sức máy tính mà trí tưởng tượng Nhiều người thử đưa số thực tế lượng thong tin xung quanh tính toán xem tăng Họ có mức độ thành công khác họ đo lường thứ khác Một nghiên cứu toàn diện Martin Hilbert Trường Truyền thông Báo chí Annenberg thuộc Đại học Nam California thực Ông nỗ lực đưa số cho thứ sản xuất, lưu trữ truyền tải Chúng không bao gồm sách, tranh, email, ảnh, nhạc, phim (cả dạng analog digital), mà có trò chơi điện tử, gọi điện thoại, chí hệ thống điều hướng xe thư gửi qua bưu điện Ông bao gồm phương tiện truyền thông phát sóng truyền hình radio, dựa tiếp cận khán giả Theo ước lượng Hilbert, 300 exa (10 mũ 18) byte liệu lưu trữ tồn vào năm 2007 Để dễ hình dung ý nghĩa nó, thử nghĩ Một phim dài dạng kỹ thuật số nén vào tập tin giga byte Một exa byte tỷgiga byte Tóm lại vô nhiều Điều thú vị năm 2007 khoảng phần trăm liệu dạng analog (giấy, sách, ảnh in,vân vân) Phần lại dạng digital – kỹ thuật số Nhưng gần đây, tranh khác Mặc dù ý tưởng cuộc“cách mạng thông tin” “thời đại kỹ thuật số” xuất từ năm 1960, chúng trở thành thực vài khía cạnh Tới tận năm 2000, có phần tư thông tin lưu trữ giới số hóa Ba phần tư lại giấy,phim, đĩa nhựa, băng từ, thứ tương tự Lượng thông tin kỹ thuật số lúc chưa nhiều Nhưng liệu kỹ thuật số phát triển nhanh – ba năm lại tăng gấp đôi, theo Hilbert – nên tình hình nhanh chóng tự đảo ngược Thông tin analog, ngược lại, không tăng Do vào năm 2013 lượng thông tin lưu trữ giới ước lượng khoảng 1.200 exa byte, chưa đến phần trăm phi kỹ thuật số Chẳng có cách phù hợp để hình dung kích thước liệu có ý nghĩa Nếu tất in thành sách, chúng phủ kín bề mặt nước Mỹ với chiều dày 52 lớp Nếu ghi vào CD-ROM xếp chồng lên nhau, chúng tạo thành cột vươn cao tới mặt trăng Vào kỷ thứ ba trước Công nguyên, Ptolemy II Ai Cập cố gắng lưu trữ tác phẩm viết ra, Thư viện lớn Alexandria tượng trưng cho toàn tri thức giới Trận lũ lớn kỹ thuật số quét qua trái đất tương đươngvới việc cung cấp cho người sống trái đất hôm 320 lần nhiều thông tin ước lượng lưu trữ Thư viện Alexandria 1.2 Lược sử hình thành Dữ liệu lớn Tốc độ bùng nổ thông tin (thuật ngữ sử dụng lần năm 1941, theo The Oxford English Dictionary) buộc người phải có đánh giá kích thước liệu đổi ý tưởng xây dựng ứng dụng có liên quan đến liệu Sự hình thành thuật ngữ Dữ liệu lớn ghi nhận lần báo cáo Michael Cox David Ellsworth vào tháng 10 năm 1997 trình bày viết “Application-controlled demand paging for out-of-core visualization” Hội nghị IEEE lần thứ Hình 1.1: Lược sử hình thành Dữ liệu lớn – Nguồn Internet Tháng năm 1999 Steve Bryson, David Kenwright, Michael Cox, David Ellsworth, Robert Haimes xuất “Visually exploring gigabyte data sets in real time” tờ Communications of the ACM Đây viết CACM sử dụng thuật ngữ “Big Data” (tên phần viết “Big Data for Scientific Visualization”) Bài báo mở đầu nhận định: “Những máy tính mạnh lợi cho việc khảo sát nhiều lĩnh vực, bất lợi; tính toán nhanh chóng tạo lượng lớn liệu Nếu trước liệu megabyte coi lớn, tìm thấy liệu cá nhân vào khoảng 300GB Tuy nhiên hiểu biết liệu thu từ tính toán cao cấp nỗ lực đáng kể Nhiều nhà khoa học cho biết khó khăn xuất xem xét tất số Còn theo Richard W Hamming, nhà toán học người tiên phong lĩnh vực khoa học máy tính, lại mục đích máy tính thấu hiểu vật, dừng lại số” Tháng 10 năm 1999, Bryson, Kenwright Haimes với David Bank, Robert van Liere, Sam Uselton trình bày báo cáo “Automation or interaction: what’s best for big data?” hội nghị IEEE năm 1999 Tháng 11 năm 2000, Francis X Diebold trình bày với Đại hội Thế giới lần thứ VIII Hiệp hội kinh tế lượng tài liệu có tiêu đề “Big Data Dynamic Factor Models for Macroeconomic Measurement and Forecasting” Trong ông khẳng định rằng: “Gần đây, nhiều ngành khoa học, vật lý, sinh học, khoa học xã hội, vốn buộc phải đương đầu với khó khăn – thu lợi từ tượng Big Data gặt hái nhiều thành công Big Data bùng nổ số lượng (và đôi khi, chất lượng), khả liên kết độ sẵn sàng liệu, chủ yếu kết tiến gần chưa có việc ghi lại liệu công nghệ lưu trữ” Tháng năm 2001, Doug Laney, nhà phân tích Tập đoàn Meta, công bố nghiên cứu có tiêu đề “3D Data Managment: controlling Data Volume, Velocity, and Variety” Một thập kỷ sau, “3Vs” trở thành thuật ngữ chấp nhận rộng rãi xác định liệu lớn ba chiều, thuật ngữ không xuất nghiên cứu Laney Tháng năm 2008, A special issue of Nature on Big Data nghiên cứu ý nghĩa liệu lớn khoa học đại Tháng 12 năm 2008, Randal E Bryant, Randy H Katz, Edward D Lazowska đưa viết “Big-Data Computing: Creating Revolutionary breakthroughs in Commerce, Science and Society”, mô tả : “Cũng công cụ tìm kiếm làm thay đổi cách tiếp cận thông tin, hình thức khác sử dụng liệu lớn làm thay đổi cách hoạt động công ty, nhà nghiên cứu khoa học, học viên y tế, quốc phòng tình báo đất nước ta… Sử dụng liệu lớn có lẽ đổi lớn công nghệ máy tính suốt thập kỷ qua Chúng bắt đầu nhìn thấy tiềm việc thu thập, xếp xử lý liệu tất tầng lớp xã hội Một khoản đầu tư dù khiêm tốn phủ liên bang thúc đẩy phát triển mở rộng ” Tháng năm 2010, Kenneth Cukier đăng tờ The Economist a Special Report viết có tựa đề “Data, data everywhere” Cukier viết: “…thế giới chứa số lượng thông tin số lớn đến mức không tưởng, ngày nhân rộng với tốc độ nhanh hết… Hiệu thể khắp nơi, từ kinh doanh đến khoa học, từ phủ cho nghệ thuật Các nhà khoa học kỹ sư máy tính đặt thuật ngữ cho tượng này: Big Data” Tháng năm 2011, James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hưng Byers Viện toàn cầu McKinsey công bố nghiên cứu “Big data: The next frontier for inovation, competition, and productivity” Trong nghiên cứu, họ tính toán đến năm 2009, gần tất lĩnh vực kinh tế Mỹ đạt mức lưu trữ trung bình 200 terabyte (gấp hai lần kích thước liệu nhà bán lẻ Mỹ Wal-Mart năm 1999) công ty có 1.000 nhân viên chứng khoán đầu tư khu vực dịch dẫn đầu lượng liệu lưu trữ Tổng cộng, nghiên cứu ước tính khối lượng lưu trữ khoảng 7,4 exabyte doanh nghiệp 6,8 exabyte người tiêu dùng năm 2010 Tháng năm 2012, Danah Boyd Kate Crawford đưa luận điểm họ “Critical Question for Big Data” tờ Information, Communications and Society Họ định nghĩa Big Data “một tượng văn hóa, công nghệ học thuật dựa tương tác của: (1) Công nghệ tối đa hóa sức mạnh tính toán độ xác thuật toán để thu thập, phân tích, liên kết, so sánh tập liệu lớn (2) Phân tích: tạo liệu lớn để xác định mô hình để làm cho tuyên bố kinh tế, xã hội, kỹ thuật pháp lý (3) Thần thoại: Niềm tin phổ biến liệu lớn cung cấp hình thức cao trí thông minh kiến thức tạo mà hiểu biết mà trước không thể, với hào quang thật, khách quan, xác.” 1.3 Định nghĩa Dữ liệu lớn Có nhiều định nghĩa Dữ liệu lớn Forrester: “Big Data is the frontier of a firm's ability to store, process, and access (SPA) all the data it needs to operate effectively, make decisions, reduce risks, and serve customers.” Forrester Nhưng định nghĩa để đặc tả mà nhiều nguồn trích dẫn Gartner: "Big Data are high-volume, high-velocity, and/or high-variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization” (Gartner 2012) Hình 1.2 : Đồ thị lượng liệu tạo giới năm 2011- Báo cáo IDC Trên giới có nhiều định nghĩa Big Data Vào năm 2001, nhà phân tích Doug Laney hãng META Group (bây công ty nghiên cứu Gartner) nói thách thức hội nằm việc tăng trưởng liệu mô tả ba chiều “3V”: tăng số lượng lưu trữ (volume), tăng tốc độ xử lý (velocity) tăng chủng loại (variety) Giờ đây, Gartner với nhiều công ty tổ chức khác lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” để định nghĩa nên Big Data Đến năm 2012, Gartner bổ sung thêm Big Data ba tính chất phải “cần đến dạng xử lí để giúp đỡ việc đưa định, khám phá sâu vào vật/sự việc tối ưu hóa quy trình làm việc” 10 veeg thuế hải quan • Các CSDL chuyên ngành khác: CSDL công dân, CSDL tài nguyên, CSDL môi trường, CSDL đất đai Tất liệu tập hợp, chia sẻ khai thác (bằng công nghệ liệu lớn) giúp khám phá nhiều giá trị bổ ích giúp cải thiện việc quản lý điều hành xã hội Ví dụ, việc phần tích hồ sơ sức khỏe, CSDL môi trường hồ sơ quản lý xây dựng cho ta mối tương quan sức khỏe người dân khu vực định với môi trường khu vực Việc giúp quan quản lý nhà nước có hành động phù hợp để điều chỉnh việc quản lý quy hoạch Lợi ích từ việc khai thác liệu công nghệ liệu lớn rõ ràng to lớn, nhiên để thực triển khai ứng dụng nhiều việc phải làm Bản thân liệu thu thập lưu trữ nhiên lại bị phân tán rời rạc Chưa có chế chia sẻ thông tin đơn vị sở hữu liệu, chưa có đơn vị chuyên trách đứng để tập hợp xây dựng ứng dụng liệu lớn phục vụ cho ngành Nên nhớ, liệu lớn thực phát huy lượng liệu phải đủ lớn 5.2.2 Ứng dụng liệu lớn dựa thông tin vị trí Ngày nay, liệu thông tin vị trí loại liệu thu thập lưu trữ tự động cách phổ biến Các điện thoại thông minh thu thập liệu vị trí gửi trở lại hãng sản xuất Apple, Google hay Microsoft cách tự động mà người dùng Ngoài ra, với giảm giá thành mạnh mẽ, module định vị GPS dùng phổ biến để theo dõi vị trí xe máy, xe ô tô từ cá nhân nhà nước Ở Việt Nam, liệu vị trí thu thập hàng ngày, nhiên liệu chưa quan tâm sử dụng để tạo giá trị mới, đặc biệt lĩnh vực quản lý nhà nước Ở khu vực tư nhân, có nhiều dịch vụ khai thác liệu nhằm tạo loại hình kinh doanh Điển hình dịch vụ kinh doanh vận tải GrabTaxi Uber Đây hai dịch vụ thành công việc cung cấp dịch vụ dựa thông tin vị trí Ngoài việc sử dụng để cung cấp dịch vụ, toàn vị trí (lộ trình người sử dụng) thu thập lưu trữ Tuy nhiên, thông tin chủ yếu khai thác tổ chức nước Các công ty cung cấp dịch thông tin di động (viettel, Vinaphone, mobifone ) 87 nắm tay lượng liệu lớn thông tin vị trí khách hàng xác định nhờ trạm phát sóng họ Tuy nhiên, việc khai thác thông tin hạn chế chưa chia sẻ để tạo ứng dụng liệu lớn hiệu Nếu liệu thông tin vị trí khai thác hiệu đem lại nhiều lợi ích to lớn cho việc quản lý nhà nước hỗ trợ doanh nghiệp Ví dụ việc tích lũy liệu vị trí cho phép phát ùn tắc giao thông mà không cần trông thấy xe, nhờ số lượng tốc độ máy điện thoại di chuyển đường tiết lộ thông tin Các ghi thông tin vị trí địa lý ngày từ di chuyển hàng triệu thuê bao điện thoại di động tạo báo cáo giao thông thời gian thực thành phố khắp nước Các liệu vị trí cho biết khu vực thành phố có sống đêm nhộn nhịp nhất, để ước tính có người có mặt biểu tỉnh Các nghiên cứu rằng, việc phân tích chuyển động mô hình gọi cho phép xác định người mắc bệnh cúm trước thân họ biết họ bị bệnh Đối với doanh nghiệp kinh doanh vận tải, dũ liệu định vị cho biết cách chi tiết thời gian, địa điểm, khoảng cách xe chạy thực tế, cho phép công ty biết nơi chốn xe trường hợp chậm trễ, để giám sát nhân viên, theo dõi hành trình họ để tối ưu hóa tuyến đường Việc phân tích liệu giúp công ty tối ưu tuyến đường để giảm chi phí giúp ổn định giá thành vận tải Đối với quan quản lý nhà nước, liệu kết hợp với liệu tai nạn giao thông giúp đưa dự báo giúp cải thiện tình hình tai nạn giao thông 5.2.3 Ứng dụng liệu lớn dựa thông tin tương tác Các diễn đàn, mạng xã hội không đơn giản cung cấp cho cách để tìm giữ liên lạc với bạn bè đồng nghiệp, chúng lấy yếu tố vô hình sống hàng ngày biến thành liệu sử dụng để làm điều mẻ Facebook liệu hóa mối quan hệ Twitter giúp liệu hóa cảm xúc cách tạo cách dễ dàng cho người dùng ghi lại chia sẻ điều bận tâm họ Việc thu thập phân tích liệu đem lại hiệu không ngờ Thông qua việc phân tích mạng xã hội, diễn đàn, trang thông tin điện tử đánh giá phản ứng người dân với sách đưa hay tượng xã hội 88 5.3 Đề xuất tảng công nghệ liệu lớn Với ưu điểm mình, Apache Hadoop trung tâm phiên giải pháp Big Data, lựa chọn tảng Hadoop để xây dựng ứng dụng liệu lớn lựa chọn phù hợp Nền tảng Big Data phân loại theo hướng mà người dùng tiếp cận với Hadoop Một số doanh nghiệp cung cấp dịch vụ Big Data tích hợp với phiên Hadoop, doanh nghiệp khác cung cấp Hadoop kết nối với hệ thống phân tích liệu có sẵn Cách thức thứ hai thường bao gồm việc xử lý song song liệu tạo nên thương hiệu doanh nghiệp lĩnh vực Big Data từ trước Hadoop xuất hiện: Vertica and Aster Data Sức mạng Hadoop trường hợp xử lý liệu phi cấu trúc song song với khả phân tích sở liệu có, bao gồm liệu có cấu trúc phi cấu trúc Thực tế việc triển khai Big Data không gói gọn hai thể loại liệu cấu trúc phi cấu trúc Ta tìm thấy tồn Hadoop phần hệ thống hoạt động với sở liệu quan hệ MPP Cũng giống Linux, giải pháp Hadoop sử dụng mã nguồn Apache Hadoop Thay vào đó, đóng gói thành phân phối Ở mức tối thiểu, phân phối trải qua trình thử nghiệm, thường bao gồm thành phần bổ sung công cụ quản lý giám sát Bản phân phối thường dùng Cloudera, Hortonworks and MapR Không phải phân phối thương mại hóa, dự án BigTop mục tiêu nhằm tạo phân phối Hadoop bảo trợ Apache 5.3.1 Những hệ thống tích hợp Hadoop Các nhà cung cấp phần mềm Hadoop hàng đầu liên kết sản phẩm Hadoop họ với phần lại sở liệu dịch vụ phân tích Những nhà cung cấp không yêu cầu khách hàng phải tìm kiếm Hadoop từ bên thứ ba, mà cung cấp Hadoop phần cốt lõi giải pháp Big Data, tăng cường công cụ phân tích workflow EMC Greenplum 89 • Database : Greenplum Database • Deployment options : ◦ Appliance: Modular Data Computing Appliance ◦ Software: Enterprise Linux) • Hadoop : Bundled distribution (Greenplum HD); Hive, Pig, Zookeeper, Hbase • NoSQL component : Hbase Được mua lại EMC, trở thành trung tâm chiến lược công ty, Greenplum công ty tương đối mới, so với công ty khác lĩnh vực Họ biến thành lợi việc tạo tảng phân tích, với đội ngũ nghiên cứu khoa học linh hoạt Greenplum Unified Analytics Platform (UAP) bao gồm ba yếu tố: sở liệu Greenplum MPP, cho liệu có cấu trúc; phân phối Hadoop, Greenplum HD; lớp làm việc nhóm hiệu suất dành cho đội ngũ khoa học liệu Greenplum HD xây dựng dựa phân phối Hadoop tương thích với MapR, nhằm thay hệ thống tập tin, tăng tốc độ triển khai tốc độ cung cấp liệu, tính bền vững khác Khả tương tác HD sở liệu Greenplum MPP cho phép truy vấn đồng thời truy cập hai sở liệu liệu Hadoop Chorus tính độc đáo, cho thấy quan tâm Greenplum đến ý tưởng khoa học liệu tầm quan trọng đội ngũ nghiên cứu linh hoạt đến việc khai thác hiệu Big Data Nó hỗ trợ nhiều vai trò tổ chức, từ nhà phân tích, nhà khoa học liệu DBA nhằm điều hành kinh doanh bên liên quan Nhằm đảm bảo vai trò EMC thị trường Data Center, Greenplum UAP cung cấp module có sẵn cấu hình IBM • Database : DB2 • Deployment options : Software (Enterprise Linux), Cloud • Hadoop : Bundled distribution (InfoSphere BigInsights); Hive, Oozie, Pig, Zoo90 keeper, Avro, Flume, HBase, Lucene • NoSQL component : Hbase InfoSphere BigInsights phân phối Hadoop IBM, phần sản phẩm cung cấp quản lý thông tin thương hiệu “InfoSphere” Mọi vấn đề Big Data IBM nhằm nhấn mạnh vào “Big”, khiến IBM biết đến với tên gọi “Big Blue” BigInsights bổ sung cho Hadoop với loạt tính năng, bao gồm công cụ quản lý quản trị Nó cung cấp công cụ phân tích văn nhằm nhận dạng thực thể: xác định người, địa chỉ, số điện thoại, … Ngôn ngữ truy vấn Jaql IBM cung cấp kết nối Hadoop sản phẩm IBM khác, sở liệu quan hệ kho liệu Netezza InfoSphere BigInsights tương thích với sở liệu sản phẩm kho liệu khác IBMm bao gồm DB2, Netezza kho liệu thân InfoSphere dòng phân tích Để hỗ trợ thăm dò phân tích, BigInsights cung cấp với BigSheets, công cụ trình diễn Big Data dạng bảng liệu IBM đánh địa luồng liệu Big Data thông qua InfoSphere BigInsights tạm thời chưa cung cấp dạng thiết bị sử dụng đám mây qua Rightscale, Amazon, Rackspace, đám mây IBM Smart Enterprise Microsoft • Database : SQL Server • Deployment options : Software (Windows Server), Cloud (Windows Azure Cloud) • Hadoop : Bundled distribution (Big Data Solution); Hive, Pig Microsoft sử dụng Hadoop nhân tố dịch vụ Big Data, theo đuổi cách tiếp cận nhằm làm tăng khả đáp ứng Big Data thông qua công cụ phân tích, bao gồm công cụ quen thuộc Excel Power Pivot Giải pháp Big Data Microsoft mang Hadoop đến với tảng Windows Server tảng đám mây Windows Azure Microsoft đóng gói thành phân phối Hadoop riêng họ, tích hợp với Window System Center Active Directory Họ dự định đóng góp phản hồi với Apache Hadoop nhằm đảm bảo phiên 91 mã nguồn mở Hadoop chạy Windows Về phía server, Microsoft cung cấp tích hợp với sở liệu SQL Server sản phẩm kho liệu Tuy nhiên không bắt buộc phải sử dụng giải pháp kho liệu Microsoft Kho liệu Hadoop Hive phần giải pháp Big Data, bao gồm kết nối từ Hive đến ODBC Excel Microsoft tập trung đội ngũ lập trình tạo JavaScript API cho Hadoop Sử dụng JavaScript, lập trình viên tạo Hadoop jobs cho MapReduce, Pig Hive chí từ môi trường dựa trình duyệt Microsoft đồng thời cung cấp Visual Studio NET tích hợp với Hadoop Việc triển khai dựa hệ thống máy chủ đám mây kết hợp hybrid Oracle • Deployment options : Appliance (Oracle Big Data Appliance) • Hadoop : Bundled distribution (Cloudera’s Distribution including Apache Hadoop); Hive, Oozie, Pig, Zookeeper, Avro, Flume, HBase, Sqoop, Mahout, Whirr • NoSQL component : Oracle NoSQL Database Tham gia vào thị trường Big Data vào cuối năm 2011, Oracle tiếp cận theo hướng dựa công cụ Bộ công cụ Big Data Oracle tích hợp Hadoop, công cụ phân tích R, CSDL Oracle NoSQL, kết nối với CSDL Oracle dòng sản phẩm kho liệu Exadata Cách tiếp cận Oracle hướng tới thị trường doanh nghiệp cao cấp, đặc biệt trọng đến việc triển khai nhanh chóng, hiệu suất cao Đây nhà cung cấp tích hợp ngôn ngữ phân tích phổ biến R với Hadoop, vận hành CSDL NoSQL theo lối riêng trái ngược với Hadoop Hbase Thay phát triển phân phối Hadoop riêng, Oracle hợp tác với Cloudera để nhận hỗ trợ Hadoop, mang lại cho Oracle giải pháp Hadoop hoàn thiện chứng nhận Kết nối CSDL lần thúc đẩy tích hợp liệu có cấu trúc Oracle với liệu phi cấu trúc lưu trữ Hadoop HDFS CSDL NoSQL Oracle CSDL dạng key-value mở rộng, xây dựng dựa 92 công nghệ Berkeley DB (Mike Olson, CEO Cloudera giám đốc điều hành SleepyCat, công ty sáng tạo nên Berkeley DB) Oracle định vị CSDL NoSQL phương tiện việc thu thập liệu Big Data trước phân tích Sản phẩm Oracle R Enterprise cung cấp tích hợp trực tiếp vào CSDL Oracle, Hadoop, cho phép đoạn script R thực thi liệu mà không cần phải lấy khỏi kho liệu Phân tích CSDL với kết nối Hadoop Xử lý song song khối lượng lớn (MPP) liệu dành cho xử lý liệu Big Data có cấu trúc, với Hadoop liệu phi cấu trúc Cùng với Greenplum, Aster Data Vertica hai sản phẩm Big Data đầu trước thời kỳ Hadoop Những giải pháp MPP chủ yếu xử lý liệu nhằm phân tích khối lượng công việc tích hợp liệu, cung cấp kết nối đến Hadoop kho liệu Trong thương vụ mua lại gần cho thấy sản phẩm trở thành công cụ phân tích nhà cung cấp dịch vụ kho lưu trữ liệu: Teradata mua lại Aster Data, EMC mua lại Greenplum, HP mua lại Vertica So sánh số giải pháp: Aster Data ParAccel Vertica Database CSDL phân tích MPP CSDL MPP Deployment options -Appliance: Aster MapReduce Appliance -Software: Enterprise Linux -Cloud: Amazon EC2, Terremark and Dell Clouds -Software: Enterprise Linux -Cloud: Cloud Edtion Hadoop Cho phép kết nối đến Cho phép tích hợp Cho phép kết nối đến Hadoop Hadoop Hadoop Pig phân tích CSDL MPP phân tích -Appliance: HP Vertica Appliance -Software: Enterprise Linux -Cloud: Cloud and Virtualized 5.3.2 Các công ty Hadoop Trực tiếp sử dụng Hadoop đường để tạo giải pháp Big Data, đặc biệt mà sở hạ tầng bạn chưa đáp ứng với dòng sản phẩm nhà cung 93 cấp lớn Thực tế, CSDL có tính kết nối với Hadoop, có nhiều phân phối Hadoop để lựa chọn Căn vào đặc tính định hướng người phát triển giới Big Data, phân phối Hadoop thường xuyên cung cấp dạng phiên chỉnh sửa công cộng Những chỉnh sửa thiếu chức quản trị, chứa toàn chức cần thiết cho việc đánh giá phát triển Phiên phân phối Hadoop đến từ Cloudera IBM, tập trung vào khả sử dụng quản lý Phiên bổ sung cải tiến định hướng hiệu suất cho Hadoop, giống MapR Platform Computing Trong trì khả tương thích API, nhà cung cấp thay thành phần gây trì trệ điểm yếu phân phối Apache thành phẩn có hiệu suất tốt xử lý mạnh Cloudera Là nhà cung cấp phiên Hadoop lâu năm nhất, Cloudera cung cấp cho giải pháp Hadoop dành cho công ty, với dịch vụ, đào tạo hỗ trợ Cùng với Yahoo, Cloudera có đóng góp đáng kể Hadoop, thông qua nhiều hội nghị ngành công nghiệp để nâng tầm Hadoop đến vị trí Hortonworks Mặc dù đặt chân vào thị trường, Hortonworks có lịch sử lâu dài với Hadoop Tách từ Yahoo, nơi khởi nguồn Hadoop, Hortonworks gắn bó chặt chẽ thúc đẩy công nghệ cốt lõi Apache Hadoop Hortonworks đối tác Microsoft nhằm hỗ trợ thúc đẩy trình tích hợp Hadoop 94 5.3.3 Đánh giá số phân phối Hadoop: Cloudera EMC Greenplum Hortonworks IBM Hortonworks Data Platform InfoSphere BigInsights Tên sản phẩm Cloudera’s Greenplum HD Distribution including Apache Hadoop Bản miễn phí CDH (Đã tích hợp kiểm thử phân phối Apache Hadoop) Community Edition (chứng nhận 100% mã nguồn mở, hỗ trợ phân phối Apache Hadoop stack) Basic Edition (tích hợp phân phối Hadoop) thương Cloudera Enterprise (Bổ sung thêm lớp phần mềm quản lý nằm CDH) Enterprise Edition (Tích hợp phiên MapR's M5 tương thích với Hadoop, thay cho MapR's C++ dựa hệ thống tập tin; bổ sung thêm công cụ quản lý MapR ) Enterprise Edition (Bản phân phối Hadoop, bổ sung giao diện bảng tính BigSheets, lập lịch, phân tích văn bản, đánh mục, kết nối JDBC, hỗ trợ bảo mật) Bản mại Thành Hadoop Bảo mật phần Hive, Oozie, Hive, Pig, Hive, Pig, ZooPig, Zookeeper, keeper, HBase, Zookeeper, HBase None, Ambari Avro, Flume, HBase, Sqoop, Mahout, Whirr Hive, Oozie, Pig, Zookeeper, Avro, Flume, HBase, Lucene - Cloudera Manager - Kerberos Chức bảo mật: xác thực LDAP , ủy quyền dựa theo vai trò, đảo ngược proxy Giao diện quản - Cloudera trị Manager - Giao diện quản Apache - Giao diện quản trị Ambari trị 95 Quản lý Job - Quản lý tập - Bộ cung cụ - Giám sát, quản trung cảnh quản trị MapR trị, quản lý vòng báo Heatmap cluster đời cho Hadoop cluster - Chức quản trị bao gồm quản trị Hadoop HDFS MapReduce, quản trị cluster server, xem nội dung tập tin HDFS -Cloudera Manager - Phân tích, giám sát Job, tìm kiếm log - Chức quản lý Job - Khởi tạo Job, thay thế, hủy, kiểm tra trạng thái, ghi log Kết nối CSDL - Công cụ quản lý Job có tính sẵn sàng đáp ứng cao - JobTracker HA hệ phân tán NameNode HA ngăn ngừa khả thất lạc Job, khởi chạy lại dự phòng cố Apache Ambari - Giám sát, quản trị, quản lý vòng đời cho Hadoop cluster Greenplum Database DB2, Netezza, InfoSphere Warehouse Tính tương tác Truy cập HDFS - Fuse-DFS - Mount HDFS tương tự hệ thống tập tin truyền thống Cài đặt APIs bổ sung Cài đặt dựa trình cài đặt - NFS Truy cập HDFS tương tự hệ thống tập tin mạng - WebHDFS - Sử dụng REST API để truy cập HDFS - Cài đặt nhanh - Công cụ cài đặt hướng giao diện Jaql (Ngôn ngữ truy vấn chức năng, khai báo thiết kế để xử lý liệu lớn) 96 MapR Microsoft Platform Computing Tên sản phẩm MapR Big Data Solution Platform MapReduce Bản miễn phí MapR M3 Edition (bản phân phối miễn phí kết hợp với cải tiến hiệu MapR) Bản mại Thành Hadoop thương MapR M5 Edition (Tăng cường M3 với tính đáp ứng cao tính bảo vệ liệu) Platform MapReduce Developer Edition (Phiên không bao gồm chức quản lý tài nguyên ) Big Data Solution (phiên Hadoop Windows, tích hợp CSDL Microsoft sản phẩm phân tích) Platform MapReduce (nâng cao khả thực thi Hadoop MapReduce, cung cấp API tương thích với Apache Hadoop) phần Hive, Pig, Flume, Hive, Pig HBase, Sqoop, Mahout, None, Oozie Bảo mật tích hợp Directory Active Giao diện quản - Giao diện quản trị - Tích hợp System - Giao diện quản trị trị - Công cụ quản trị Center - Quán lý Platform MapR Heatmap cluster MapReduce Workload Quản lý Job - Công cụ quản lý Job có tính sẵn sàng đáp ứng cao - JobTracker HA hệ phân tán NameNode HA ngăn ngừa khả thất lạc Job, khởi chạy lại dự phòng cố Kết nối CSDL SQL Server, SQL Server Parallel Data Warehouse Tính tương tác Hive ODBC Driver, Excel Hive Add-in Truy cập HDFS - NFS - Truy cập HDFS tương tự hệ thống tập tin mạng Cài đặt APIs bổ sung REST API JavaScript API Bao gồm R, C/C+ 97 +,C#, Java, Python Quản lý phiên Mirroring, snapshots 98 KẾT LUẬN Những lợi ích mà liệu lớn đem lại cho chối cãi, Những ảnh hưởng lớn rõ ràng mặt đời sống xã hội Vì vậy, hiểu nắm bắt khái niệm liệu lớn quan trọng cần thiết để nhanh chóng đưa liệu lớn vào ứng dụng công việc hàng ngày, nâng cao hiệu công việc, suất lao động Có thể nói liệu lớn chìa khóa để thúc đẩy kinh tế phát triển giai đoạn đòn bẩy để giúp thoát khỏi bẫy thu nhập trung bình để vươn lên đuổi kịp phát triển giới Với mục tiêu bước đầu nắm bắt xác đầy đủ liệu lớn, đồng thời làm chủ công nghệ tảng việc xử lý liệu lớn để xây dựng ứng dụng thực tế Nhóm nghiên cứu thực nghiên cứu liệu lớn, xu hướng ảnh hưởng lên đời sống kinh tế xã hội, qua giúp nhóm thực đề tài hiểu nắm rõ khái niệm xây dựng toàn liệu lớn phù hợp Nghiên cứu tài liệu tham khảo tốt cho cá nhân, đơn vị bắt đầu tìm hiểu liệu lớn Bên cạnh nghiên cứu lý thuyết, mục tiêu đạt đề tài xây dựng ứng dụng thử nghiệm dựa nghiên cứu thực đề tài Ứng dụng có tính thực tiễn cao, gắn liền với hoạt động khác Viện CNPM & NDS Với nghiên cứu này, chắn sau đề tài kết thúc, nhóm tiếp tục hoàn thiện ứng dụng xử lý tìm kiếm ảnh văn công nghệ liệu lớn để tích hợp vào kho liệu giúp nâng cao hiệu khai thác kho liệu cho đơn vị triển khai Hoàn thiện ứng dụng tạo tiền đề để nhóm tiếp tục nghiên cứu xây dựng ứng dụng phân tích liệu khác để tận dụng nguồn liệu văn số hóa cách tối đa hiệu 99 TÀI LIỆU THAM KHẢO Per-Erik Danielsson (1980), “Euclidean distance”, Computer Graphics and Image Processing, volume 14, 1980, 11, 227-248 Jonathan J Hull, Siamak Khoubyari, and Tin Kam Ho (1992), Word Image Matching in a Methodology for Degraded Text Recognition, University of New York Fatima EL Jamiy, Abderrahmane Daif, Mohamed Azouazi and Abdelaziz Marzak (2014), “The potential and challenges of Big data - Recommendation systems next level application”, IJCSI International Journal of Computer Science Issues, Volume 11, 2014 Jimmy Lin and Chris Dyer (2010), Data-Intensive Text Processing with MapReduce, University of Maryland R Manmatha, Chengfen Han, E.M Risenman, and W.B Croft (1996), “Indexing Handwriting Using Word Matching”, Proceeding of Digital Libraries’96, 1st ACM International Conference on Digital Libraries, 1996, pp 151-159 Allen Wittenauer, Deploying Grid Services Using Hadoop, ApacheCon EU 2008, April 2008 Kenneth Cukier and Viktor Mayer-Schönberger, Big Data: A Revolution That Will Transform How We Live, Work, and Think, Hachette UK, Mar 14, 2013 Vincenzo Morabito, Big Data and Analytics Strategic and Organizational Impacts, Springer Edward J Yoon, An Introduction to Bulk Synchronization Parallel on Hadoop, HUG, Korea, December 2009 10 Hadoop wiki (http://wiki.apache.org/hadoop/) 11 http://www.ibm.com/developerworks/vn/library/data/2013Q1/dm-1209hadoopbigd ata/ 12 https://hbr.org/2015/06/inventory-management-in-the-age-of-big-data 13 https://en.wikipedia.org/wiki/Apache_Spark 100 14 http://techkites.blogspot.com/2015/02/implementing-real-time-trending-engine.ht ml 15 http://blog.brakmic.com/data-science-for-losers-part-3-scala-apache-spark/ 16 https://www.linkedin.com/pulse/apache-spark-next-big-data-thing-navdeep-singhgill 17 http://www.infoq.com/articles/apache-spark-introduction 101 ... vào đó, nhóm đề tài thực ứng dụng thử nghiệm tảng việc xử lý liệu ảnh văn Việc xây dựng ứng dụng thực tế vừa giúp nhóm đề tài nắm bắt kỹ thuật, công nghệ tảng, vừa ứng dụng vào nhu cầu thực tế... đầu đua công nghệ Việt Nam với tên tuổi OTT giới, bỏ xa ứng dụng nội địa khác, mỏ vàng đáng mơ ước công ty công nghệ Việt Nam Với việc tận dụng tập liệu lớn, với công nghệ liệu lớn, công ty vừa... Các ứng dụng liệu lớn sử dụng phổ biến tạo lợi ích cao 10 lĩnh vực 1.4.1 Sự hiểu biết khách hàng mục tiêu Đây lĩnh vực lớn công bố công khai cách liệu lớn sử dụng ngày Ở đây, liệu lớn sử dụng

Định dạng
Số trang	101
Dung lượng	2,49 MB