Xây dựng điện toán đám mây tích hợp công cụ thu tin tự động

Một phần của tài liệu Tìm hiểu mô hình điện toán đám mây và vấn đề bảo mật dữ liệu trong điện toán đám mây (Trang 49 - 59)

CHƯƠNG 3: ỨNG DỤNG BẢO VỆ THÔNG TIN TRONG

3.1 Xây dựng điện toán đám mây tích hợp công cụ thu tin tự động

Grank Karlitschek, một chuyên gia phát triển phần mềm KDE người Đức, đã bắt đầu phát triển ownCloud vào đầu năm 2010, với mục đích cung cấp một phần mềm miễn phí nhằm thay thế các nhà cung cấp dịch vụ lưu trữ đán mây độc quyền. OwnCloud [19] là một ứng dụng mã nguồn mở miễn phí có giao diện web

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

mạnh mẽ để xây dựng một hệ thống lưu trữ đám mây nhằm đồng bộ hóa dữ liệu, chia sẻ tập tin, và lưu trữ từ xa.

OwnCloud được viết bằng ngôn ngữ PHP/javascript và được thiết kế để làm việc với nhiều hệ quản lý cơ sở dữ liệu, bao gồm cả MySQL, MariaDB, SQLite, Oracle Database, và PostgreSQL. Hơn nữa ownCloud có thể được triển khai trên tất cả các nền tảng như Linux, Macintosh, Windows và Android. Đây là một ứng dụng chạy trên hệ thống mạnh mẽ, nền tảng độc lập, linh hoạt về cấu hình và khả năng sử dụng, không giới hạn về không gian lưu trữ hay số lượng client kết nối.

OwnCloud có một số đặc tính cơ bản sau:

- Lưu trữ các tập tin, thư mục, danh bạ, thư viện ảnh, lịch…

- Có thể truy cập từ điện thoại, thiết bị di động, laptop, hoặc trình duyệt web.

- Đồng bộ dữ liệu lưu trữ từ máy chủ về các thiết bị cá nhân và ngược lại.

- Chia sẽ dữ liệu lưu trữ cá nhân với người khác thông qua URLs.

- Lưu trữ tập tin theo cấu trúc thư mục thông thường hoặc WebDAV.

- Cho phép lấy lại dữ liệu đã xóa trong thùng rác. Mặc định hệ thống sẽ lưu trữ các file đã xóa trong 30 ngày.

- Cho phép mã hóa dữ liệu để đảm bảo an toàn hơn cho dữ liệu của người sử dụng.

- Có khả năng tùy biến cao.

- Kết nối với các dịch vụ lưu trữ bên ngoài như DropBox, GoogleDrive, Amazon S3…

- Tích hợp tính năng xem file PDF và ODF (Open Document Format for Office Applications) trực tiếp.

Một số ưu điểm của ownCloud:

Các mô hình lưu trữ đám mây hiện nay đã được sử dụng phổ biến, đối với cả cá nhân hay doanh nghiệp, tập đoàn lớn… Việc lựa chọn các giải pháp thương mại nổi tiếng như DropBox, OneDrive, Google Drive đều mang lại những lợi ích thiết thực. Tuy nhiên, các dịch vụ này có điểm chung là phải mất phí để được sử

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

dụng nhiều dung lượng hơn so với mức miễn phí được phép và dữ liệu của người dùng sẽ lưu trữ trên máy chủ của người khác nên vẫn tiềm ẩn nguy cơ mất an toàn thông tin. Vì thế, những thông tin bí mật, nhạy cảm đặt ra yêu cầu về xây dựng một tiện ích lưu trữ đám mây riêng, nằm trong hệ thống mạng nội bộ, được bảo vệ và tin tưởng.

Người dùng có thể tự xây dựng dịch vụ lưu trữ và đồng bộ dữ liệu cho riêng mình, không phụ thuộc vào nhà cung cấp, không mất phí mua tài khoản và kiểm soát dữ liệu nhạy cảm của mình.

- OwnCloud bảo vệ và quản lý các dữ liệu nhạy cảm bằng cách lưu trữ chúng trên bất kì hệ thống lưu trữ có sẵn nào, với bộ phần mềm hoàn thiện chạy trên các server an toàn đặt trong trung tâm dữ liệu của chính tổ chức; được điều khiển bởi các quản trị mà tổ chức tin tưởng và được quản lý với chính sách của chính tổ chức đó.

- OwnCloud tích hợp vào hệ thống hệ thống hạ tầng và an ninh hiện có, được quản lý từ chính sách của tổ chức, từ thư mục người dùng, quản trị, bảo mật, giám sát, lưu trữ và sao lưu, để phát hiện xâm nhập.

- OwnCloud mở rộng chức năng dễ dàng thông qua một tập hợp toàn diện các APIs để tùy chỉnh nhanh chóng khả năng của hệ thống, đáp ứng yêu cầu dịch vụ, và khả năng mở rộng tính năng trong tương lai.

- OwnCloud cung cấp cho người dùng cuối khả năng truy cập đơn giản đến các tài liệu mà họ cần và sử dụng chúng trên bất kì thiết bị mà họ sử dụng hàng ngày nào.

3.1.2 Giới thiệu Apache Nutch

Nutch Apache được phát triển trên nền tảng gồm 3 thành phần chính đó là:

Solr (sử dụng Lucene thư viện mã nguồn mở có chức năng xây dựng chỉ mục và tìm kiếm, sử dụng Tika công cụ để phát hiện và rút trích metadata và nội dung văn bản có cấu trúc từ những loại tài liệu khác nhau) và Hadoop (cung cấp nền tảng tính toán phân tán với hệ thống tập tin phân tán).

Một số ưu điểm chính của Nutch:

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

- Tính trong suốt: Các Search Engine trên thị trường không tiết lộ cho người dùng về giải thuật được sử dụng bên trong, đặc biệt là giải thuật ranking các trang kết quả. Nutch cho phép người dùng xem và thậm chí có thể chỉnh sửa hoặc áp dụng các giải thuật khác tùy ý.

- Tính mở: Bằng việc chỉnh sửa các giải thuật đã được cài đặt, Nutch có thể trở thành một Search Engine theo chủ đề, chuyên sâu cho một lĩnh vực.

- Tính tận dụng: Như mọi hệ thống mã nguồn mở khác, sử dụng Nutch là việc kế thừa thành quả lao động của cộng đồng, tiết kiệm thời gian và công sức phát triển.

- Tính tích hợp: Nutch được tích nhiều công nghệ tiên tiến để xử lý văn bản và dữ liệu lớn (scalability). Các tiện ích mở rộng (plugins) có thể dễ dàng cài đặt vào Nutch làm phong phú tính năng của hệ thống.

Kiến trúc của Nutch

Hình 3.1: Kiến trúc của Nutch

Về kiến trúc, Nutch bao gồm hai thành phần là trình thu thập thông tin (Crawler) và trình tìm kiếm thông tin (Searcher). Crawler lấy dữ liệu từ các trang và tạo ra bộ chỉ mục ngược (inverted index). Searcher sử dụng inverted index để trả lời câu truy vấn query.

Mô tả hoạt động Nutch:

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

Hình 3.2: Hoạt động của Nutch

Bước 1: Injector lấy tất cả các liên kết tới các địa chỉ cần thu thập dữ liệu và thêm chúng vào crawdb. Crawdb với vai trò là trung tâm của Nutch sẽ xử lý thông tin trên tất cả những liên kết đã biết.

Bước 2: Dựa trên dữ liệu của crawldb, bộ phận Generator tạo một danh sách thông tin cần thu thập và đặt chúng trong một thư mục segment mới được khởi tạo.

Bước 3: Bộ phận fetcher lấy nội dung từ các liên kết trong danh sách thu thập và ghi chúng vào thư mục segment tạo ở bước 2.

Bước 4: Bộ phận parser sẽ xử lý nội dung của từng trang web. Nếu bộ phận thu thập thông tin phát hiện ra có sự thay đổi đối với thông tin đã thu thập, bộ phận updater sẽ thêm dữ liệu mới vào crawldb ở bước tiếp.

Bước 5: Trước khi đánh chỉ mục, tất cả các liên kết cần phải được đảo ngược. Các liên kết đảo ngược được lưu trong bộ phận linkdb.

Bước 6 và 7: Sử dụng dữ liệu từ tất cả các nguồn khả dụng, bộ phận đánh chỉ mục tạo chỉ mục và lưu trong thư mục Solr. Thư viện Lucene được dùng để đánh chỉ mục. Bây giờ người dùng có thể tìm kiếm thông tin trong dữ liệu đã thu thập thông qua Solr.

Trong toàn bộ quá trình hoạt động, các bộ lọc (filters), các bộ chuẩn hóa (normalizers) và các tiện ích mở rộng khác cho phép Nutch xử lý linh hoạt, hiệu quả và có thể dễ dàng tùy biến.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

3.1.3 Xây dựng hệ thống ownCloud tích hợp công cụ thu tin tự động Apache Nutch

Luận văn thực hiện xây dựng đám mây riêng ownCloud phiên bản hoàn thiện ổn định là 9.0, Apache Nutch được cài đặt là phiên bản 1.15 và Solr phiên bản 7.7.1 trên máy ảo Wmware cài đặt hệ điều hành Ubuntu Desktop 16.04 LTS.

Chuẩn bị:

- Cài đặt phần mềm Vitrualbox trên máy tính sử dụng hệ điều hành Windows 7 của Microsoft, sau đó tiến hành tạo máy ảo dung lượng 20 GB, memory 1024MB, processors: 2.

- Cài hệ điều hành Ubuntu Desktop 16.04 LTS trên máy ảo này.

Cài đặt:

Tiến hành cài đặt máy chủ ownCloud theo hướng dẫn tại [19, 24] cho hệ điều hành Ubuntu.

Khi đã hoàn thiện cài đặt máy chủ, ta có thể truy cập máy chủ ownCloud thông qua trình duyệt web trên chính máy chủ theo địa chỉ http://localhost/owncloud/index.php hoặc trên máy tính khác theo địa chỉ

http://your-ip/owncloud/index.php (với your-ip là địa chỉ ip của máy chủ owncloud được thiết lập trong trusted domain).

Hình 3.3: Đăng nhập máy chủ ownCloud qua localhost

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

Hình 3.4: Đăng nhập máy chủ ownCloud qua địa chỉ IP

Cài đặt thêm ứng dụng desktop clients trên Windows 7 để đồng bộ dữ liệu với ownCloud server nếu có nhu cầu. Trong quá trình xây dựng ứng dụng, em cài đặt ứng dụng desktop client 1.8 cho windows 7 theo hướng dẫn tại [24].

Hình 3.5: Desktop client đồng bộ dữ liệu với máy chủ ownCloud

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

Hình 3.6: Đăng nhập tài khoản đồng bộ với máy chủ ownCloud

Hình 3.7: Chọn thư mục đồng bộ với máy chủ ownCloud

Cài đặt hệ thống tiến hành theo hướng dẫn tại [19] dành cho hệ điều hành Linux. Hệ thống thu thập thông tin tự động Nutch được cài đặt là phiên bản 1.15 và Solr phiên bản 7.7.1. Ta tiến thiết lập tham số để hệ thống có thể hoạt động bao gồm: các địa chỉ sẽ thu thập dữ liệu, độ sâu khi thu thập, các bộ lọc để chuyên sâu nội dung thu thập. Sau đó sẽ khởi chạy hệ thống.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

Hình 3.8: Thiết lập tham số thu thập thông tin tự động

Hình 3.9: Khởi chạy hệ thống

Tiến hành tích hợp máy tìm kiếm của hệ thống thu tin vào hệ thống ownCloud mà ta đã xây dựng bằng công cụ External Site của ownCloud [20].

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

Hình 3.10: Tích hợp Search Engine vào ownCloud

Hình 3.11: Giao diện phần khai thác thông tin đã thu thập

Hệ thống đám mây tự động thu thập thông tin được thiết lập và phân quyền quản lý tài khoản người dùng theo yêu cầu và mục đích sử dụng. Theo đó thông tin người dùng được bảo vệ và quản lý bằng mã hóa hàm băm.

Thiết lập tài khoản admin:

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

Hình 3.12: Thiết lập tài khoản Admin

Một phần của tài liệu Tìm hiểu mô hình điện toán đám mây và vấn đề bảo mật dữ liệu trong điện toán đám mây (Trang 49 - 59)

Tải bản đầy đủ (PDF)

(84 trang)