1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo khai phá dữ liệu

34 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thực tập hệ thống thông tin quản lý TRƯỜNG ĐẠI xx KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI TÌM HIỂU VỀ ELASTICSEARCH VÀ SỬ DỤNG KHẢ NĂNG TÌM KIẾM CỦA NÓ Giảng viên hướng dẫn xxx Sinh viên thực hiện xxxxx Chuyên ngành THƯƠNG MẠI ĐIỆN TỬ Lớp xx Khóa 2019 – 2023 Hà Nội, tháng 06 năm 2022 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện Họ và tên Chữ ký Ghi chú xx xx Giảng viên chấm Họ và tên Chữ ký Ghi chú Giảng viên chấm 1 Giảng viên chấm 2 MỤC LỤC PHIẾU CH.

TRƯỜNG ĐẠI xx KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: TÌM HIỂU VỀ ELASTICSEARCH VÀ SỬ DỤNG KHẢ NĂNG TÌM KIẾM CỦA NO Giảng viên hướng dẫn Sinh viên thực Chuyên ngành Lớp Khóa : xxx : xxxxx : THƯƠNG MẠI ĐIỆN TỬ : xx : 2019 – 2023 Hà Nội, tháng 06 năm 2022 PHIẾU CHẤM ĐIỂM Sinh viên thực hiện: Họ tên Chữ ký Ghi xx xx Giảng viên chấm: Họ tên Chữ ký Ghi Giảng viên chấm 1: Giảng viên chấm 2: MỤC LỤC LỜI MỞ ĐẦU Trong lời báo cáo “Tìm hiểu Elasticsearch sử dụng khả tìm kiếm của nó”, nhóm chúng em muốn gửi lời cảm ơn biết ơn chân thành tới tất người hỗ trợ, giúp đỡ chúng em kiến thức tinh thần trình thực làm Chúng em xin chân thành gửi lời cảm ơn tới thầy, giáo Trường Đại Học Điện Lực nói chung thầy cô giáo Khoa Công nghệ thơng tin nói riêng tận tình giảng dạy, truyền đạt cho chúng em kiến thức kinh nghiệm quý báu suốt trình học tập Đặc biệt, chúng em xin gửi lời cảm ơn đến Giảng viên hướng dẫn Phạm Đức Hồng, giảng viên Khoa Công nghệ thông tin - Trường Đại Học Điện Lực Thầy tận tình theo sát giúp đỡ, trực tiếp bảo, hướng dẫn suốt trình nghiên cứu học tập chúng em Trong thời gian học tập với thầy, chúng em tiếp thu thêm nhiều kiến thức bổ ích mà cịn học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Đây điều cần thiết cho chúng em q trình học tập cơng tác sau Do thời gian thực có hạn kiến thức nhiều hạn chế nên làm nhóm chúng em chắn khơng tránh khỏi thiếu sót định Chúng em mong nhận ý kiến đóng góp thầy, giáo bạn để nhóm em có thêm kinh nghiệm tiếp tục hồn thiện báo cáo Chúng em xin chân thành cảm ơn! CHƯƠNG TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu Khai phá liệu (data mining): Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Đây lĩnh vực liên ngành khoa học máy tính… Mục tiêu tổng thể q trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp Ngồi bước phân tích thơ, cịn liên quan tới sở liệu khía cạnh quản lý liệu, xử lý liệu trước, suy xét mô hình suy luận thống kê, thước đo thú vị, cân nhắc phức tạp, xuất kết cấu trúc phát hiện, hình hóa cập nhật trực tuyến Khai thác liệu bước phân tích q trình "khám phá kiến thức sở liệu" KDD 1.1.1 Diễn giải Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process), bao gồm: -Xác định vấn đề không gian liệu để giải vấn đề (Problem understanding and data understanding) -Chuẩn bị liệu (Data preparation), bao gờm q trình làm liệu (data cleaning), tích hợp liệu (data integration), chọn liệu (data selection), biến đổi liệu (data transformation) -Khai thác liệu (Data mining): xác định nhiệm vụ khai thác liệu lựa chọn kỹ thuật khai thác liệu Kết cho ta nguồn tri thức thô -Đánh giá (Evaluation): dựa số tiêu chí tiến hành kiểm tra lọc ng̀n tri thức thu -Triển khai (Deployment) - Quá trình khai thác tri thức khơng q trình từ bước đến bước cuối mà q trình lặp có quay trở lại bước qua 1.1.2 Các phương pháp khai thác liệu Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại đối tượng vào lớp cho trước Hồi qui (Regression): Khám phá chức học dự đoán, ánh xạ mục liệu thành biến dự đoán giá trị thực Phân nhóm (Clustering): Một nhiệm vụ mơ tả phổ biến người ta tìm cách xác định tập hợp hữu hạn cụm để mô tả liệu Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm mơ tả nhỏ gọn cho (hoặc tập hợp con) liệu Mơ hình ràng buộc (Dependency modeling): Tìm mơ hình cục mơ tả phụ thuộc đáng kể biến giá trị tính tập liệu phần tập liệu Dò tìm biến đổi độ lệch (Change and Deviation Dectection): Khám phá thay đổi quan trọng liệu 1.1.3 Một số tính bật của khai phá liệu • • • • • Dự đoán mẫu dựa xu hướng liệu Tính tốn dự đốn kết Tạo thơng tin phản hời để phân tích Tập trung vào sở liệu lớn Phân cụm liệu trực quan 1.1.4 Quy trình khai phá liệu Các bước quan trọng khai phá liệu bao gồm: Bước 1: Tiền xử lý, làm liệu – Trong bước này, liệu làm cho khơng có tạp âm hay bất thường liệu Bước 2: Tích hợp liệu – Trong q trình tích hợp liệu, nhiều ng̀n liệu kết hợp lại thành Bước 3: Lựa chọn liệu – Trong bước này, liệu trích xuất từ sở liệu Bước 4: Chuyển đổi liệu – Trong bước này, liệu chuyển đổi để thực phân tích tóm tắt hoạt động tổng hợp Bước 5: Khai phá liệu – Trong bước này, trích xuất liệu hữu ích từ nhóm liệu có Bước 6: Đánh giá mẫu – Chúng ta phân tích số mẫu có liệu Bước 7: Trình bày thơng tin – Trong bước cuối cùng, thông tin thể dạng cây, bảng, biểu đờ ma trận Q trình thực qua bước: 1- Tìm hiểu lĩnh vực tốn (ứng dụng): Các mục đích tốn, tri thức cụ thể lĩnh vực 2- Tạo nên (thu thập) tập liệu phù hợp 3- Làm tiền xử lý liệu 4- Giảm kích thức liệu, chuyển đổi liệu: Xác định thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến 5- Lựa chọn chức khai phá liệu: Phân loại, gom cụm, dự báo, sinh luật kết hợp 6- Lựa chọn/ Phát triển (các) giải thuật khai phá liệu phù hợp 7- Tiến hành khai phá liệu 8- Đánh giá mẫu thu biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ mẫu dư thừa,… - Sử dụng tri thức khai phá Hình 1.1 Quy trình khai phá liệu 1.1.5 Ứng dụng khai phá liệu Có nhiều ứng dụng khai phá liệu thường thấy như: • Phân tích thị trường chứng khốn • Phát gian lận • Quản lý rủi ro phân tích doanh nghiệp… 1.1.6 Các cơng cụ khai phá liệu RapidMiner: Công cụ phải kể tới RapidMiner Đây cơng cụ khai phá liệu phổ biến Được viết tảng JAVA không yêu cầu mã hóa để vận hành Ngồi ra, cịn cung cấp chức khai thác liệu khác tiền xử lý liệu, biểu diễn liệu, lọc, phân cụm Weka: Công cụ cho đời Đại học Wichita phần mềm khai thác liệu mã nguồn mở Tương tự RapidMiner, công cụ khơng u cầu mã hóa sử dụng GUI đơn giản Sử dụng Weka, người dùng gọi trực tiếp thuật toán học máy nhập chúng mã Java Weka trang bị đa dạng chức trực quan hóa, tiền xử lý, phân loại, phân cụm Knime: Với khả hoạt động vơ mạnh mẽ tích hợp nhiều thành phần khác học máy khai phá liệu để cung cấp tảng KNime hỗ trợ người dùng nhiều việc xử lý phân tích liệu, trích xuất, chuyển đổi tải liệu Apache Mahout: Từ tảng Big Data Hadoop, người ta cho cho đời thêm Apache Mahout với mục đích giải nhu cầu ngày tăng khai phá liệu hoạt động phân tích Hadoop Nó trang bị nhiều chức học máy khác phân loại, hồi quy, phân cụm Oracle Data Mining: Khi sử dụng Oracle Data Mining cho phép người dùng thực khai phá liệu sở liệu SQL để trích xuất khung hình biểu đờ Các phân tích hiển thị cách trực quan giúp người dùng dễ dàng đưa dự đoán cho kế hoạch tương lai TeraData: TeraData cung cấp dịch vụ kho chứa công cụ khai phá liệu Nhờ khả thông minh trang bị, cơng cụ dựa tần suất sử dụng liệu người dùng thực việc cho phép truy cập nhanh hay chậm Với liệu bạn thường xuyên cần sử dụng, TeraData cho phép truy cập nhanh liệu sử dụng Đối với liệu, nhập kho yêu cầu cần thiết Orange: Công cụ lập trình Python với giao diện trực quan tương tác dễ dàng Phần mềm Orange biết đến việc tích hợp cơng cụ khai phá liệu học máy thông minh, đơn giản 1.2 Tiền xử lý Quá trình tiền xử lý liệu, phải nắm dạng liệu, thuộc tính, mơ tả liệu thao tác Sau tiếp hành giai đoạn chính: làm sạch, tích hợp, biến đổi, thu giảm liệu 1.2.1 Dữ liệu Tập liệu - Một tập liệu (dataset) tập hợp đối tượng (object) thuộc tính chúng - Mỗi thuộc tính (attribute) mơ tả đặc điểm đối tượng Hình 1.2 Ví dụ dataset Các kiểu tập liệu - Bản ghi (record): Các ghi cở sở liệu quan hệ Ma trận liệu Biểu diễn văn Hay liệu giao dịch.„ - Đồ thị (graph): World wide web Mạng thông tin, mạng xã hội - Dữ liệu có trật tự: Dữ liệu khơng gian (ví dụ: đờ) Dữ liệu thời gian (ví dụ: time-series data) Dữ liệu chuỗi (ví dụ: chuỗi giao dịch) Các kiểu giá trị thuộc tính: - Kiểu định danh/chuỗi (norminal): khơng có thứ tự Ví dụ: Các thuộc tính : Name, Profession, … - Kiểu nhị phân (binary): trường hợp đăc biệt kiểu định danh Tập giá trị gờm có giá trị (Y/N, 0/1, T/F) - Kiểu có thứ tự (ordinal): Integer, Real, … - Lấy giá trị từ tập có thứ tự giá trị Ví dụ: Các thuộc tính lấy giá trị số : Age, Height ,… Hay lấy tập xác định, thuộc tính Income lấy giá trị từ tập {low, medium, high} 10 Elasticsearch sử dụng distributed inverted indices để tìm kết phù hợp cho full-text searches giúp việc tìm kiếm từ tập liệu lớn trở nên vơ nhanh chóng - Dễ dàng sử dụng API Elasticsearch cung cấp API RESTful đơn giản sử dụng schemafree JSON documents giúp việc indexing, searching, querying thật dễ dàng - Đa ngôn ngữ Một tính khác biệt mà Elasticsearch sở hữu đa ngơn ngữ Nó hỗ trợ nhiều tài liệu viết ngôn ngữ khác tiếng Ả Rập, tiếng Braxin, tiếng Trung, tiếng Anh, tiếng Pháp, tiếng Hindi, tiếng Hàn, - Theo định hướng tài liệu (Document-Oriented) Elasticsearch lưu trữ thực thể phức tạp giới thực dạng structured JSON documents lập mục tất trường theo mặc định giúp cho liệu ln tìm kiếm Vì khơng có hàng cột liệu, bạn thực full-text search phức tạp cách dễ dàng - Tự động hoàn thành (autocompletion) Elasticsearch cung cấp chức tự động hoàn thành Bằng cách dự đoán từ cách sử dụng ký tự, autocompletion tăng tốc độ tương tác người máy tính - Schema-Free Elasticsearch schema-free chấp nhận tài liệu JSON Nó cố gắng phát cấu trúc liệu, lập mục liệu, làm cho liệu tìm kiếm 2.3.2 Nhược điểm - Elasticsearch thiết kế cho mục đích search, với nhiệm vụ khác ngồi search CRUD elastic so với database khác Mongodb, Mysql … Do người ta dùng elasticsearch làm database chính, mà thường kết hợp với database khác 20 - Trong elasticsearch khơng có khái niệm database transaction , tức khơng đảm bảo tồn vẹn liệu hoạt động Insert, Update, Delete Tức thực thay đổi nhiều ghi xảy lỗi làm cho logic bị sai hay dẫn tới mát liệu Đây phần khiến elasticsearch không nên database - Khơng thích hợp với hệ thống thường xuyên cập nhật liệu Sẽ tốn cho việc đánh index liệu 21 CHƯƠNG TRIỂN KHAI CHƯƠNG TRÌNH 3.1 Cài đặt Elasticsearch B1: Tạo file docker-compose.yml cấp với thư mục src B2 : Mở terminal IDE lên chạy lệnh docker-compose up -d nhấn enter đợi chạy xong! B3: Kiểm tra: Sau chạy xong bạn mở chrome lên vào truy cập vào url http://localhost:9200/ kết thành cơng 22 3.2 Hiện thị thông tin Elasticsearch 3.3 Tạo cập nhật Index Document Elasticsearch Liệt kê Index: Muốn liệt kê Index GET đến /_cat/indices?v Khởi tạo Index: 23 PUT /customer?pretty Xóa index: DELET /indexname?pretty GET /_cat/indices?v DELETE /hoc-sinh/_doc/2 PUT /hoc-sinh PUT /hoc-sinh/_doc/1 { "name":"duc", "age": "22", "class": "D14HTTMDT2" } GET /article/_doc/1 GET /article 3.4 Truy vấn, tìm kiếm Elasticsearch Truy vấn # tìm tất Document có index /hoc-sinh/ GET bank/_search { 24 "query": { "match_all": {} } } # took – thời gian (mili giây) hoàn thành truy vấn # timed_out - cho biết vượt thời gian (thời gian hồn thành vượt ngưỡng bị dừng) hay khơng # _shards - cho biết tìm shard (phân đoạn index) # hits - kết tìm kiếm # hits.total - tổng số kết tìm # hits.hits - mảng liệu thực trả (mặc định 10 document đầu tiên) #cho thêm vào tham số size để lấy số kết trả (mặc định không trả tối đa 10) GET bank/_search { "query": { "match_all": {} }, "size": } #dữ liệu trả phần tử với tham số from GET bank/_search { "query": { "match_all": {} }, "from": 2, "size": 10 } 25 #sắp xếp giảm dần theo trường liệu balance GET bank/_search { "query": { "match_all": {} }, "size": 10, "sort": { "balance": { "order": "desc" } } } #Tùy chọn trường liệu trả #chỉ lấy liệu account_number balance bank GET /bank/_search { "query": { "match_all": {} }, "_source": [ "account_number", "balance" ] 26 } #Tìm kiếm liệu phù hợp #tìm tài khoản bank có account_number 20 GET /bank/_search { "query": { "match": { "account_number": 20 } } } #địa address có chứa mill HOẶC lane #ưu tiên chuẩn lên trước GET /bank/_search { "query": { "match": { "address": "mill lane" } } } #tìm tất địa phải có chứa từ mill VÀ lane 27 #điều kiện must kết trả tất truy vấn GET /bank/_search { "query": { "bool": { "must": [ { "match": { "address": "mill" } }, { "match": { "address": "lane" } } ] } } } #phép logic HOẶC GET /bank/_search { "query": { 28 "bool": { "should": [ { "match": { "address": "mill" } }, { "match": { "address": "lane" } } ] } } } # điều kiện must_not tử tự phép logic PHỦ ĐỊNH GET /bank/_search { "query": { "bool": { "must_not": [ { "match": { 29 "address": "mill" } }, { "match": { "address": "lane" } } ] } } } #Kết hợp nhiều điều kiện must, must_not, should vào truy vấn GET /bank/_search { "query": { "bool": { "must": [ { "match": { "age": "40" } } ], 30 "must_not": [ { "match": { "state": "ID" } } ] } } } #Để lọc dùng đến filter, ví dụ sử dụng loại range để lọc lấy lấy liệu balance khoảng GET /bank/_search { "query": { "bool": { "must": { "match_all": {} }, "filter": { "range": { "balance": { "gte": 20000, "lte": 30000 } 31 } } } } } 32 KẾT LUẬN Báo cáo đề cập đến nội dung kho liệu ứng dụng lưu trữ khai phá tri thức kho liệu nhằm hỗ trợ định Về mặt lý thuyết, khai phá liệu bao gờm bước: Hình thành, xác định định nghĩa toán, thu thập tiền xử lý liệu, khai phá liệu, rút tri thức, sử dụng tri thức phát Phương pháp khai phá liệu là: phân lớp, định, suy diễn… Các phương pháp áp dụng liệu thơng thường Về thuật tốn khai phá liệu, báo cáo trình bày số thuật tốn minh họa thuật toán kinh điển phát tập báo phổ biến khai phá luật kết hợp Về mặt cài đặt thử nghiệm, báo cáo giới thiệu kỹ thuật khai phá liệu theo thuật tốn hời quy tuyến tính áp dụng vào tốn dự điểm sinh viên Trong trình thực báo cáo, chúng em cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên, với thời gian trình độ có hạn nên khơng tránh khỏi hạn chế thiếu sót Chúng em mong nhận nhận xét góp ý thầy giáo bạn bè để hồn thiện kết nghiên cứu 33 TÀI LIỆU THAM KHẢO [1] Giáo trình khai phá liệu [2] Bài giảng khai phá liệu 34 ... Sử dụng tri thức khai phá Hình 1.1 Quy trình khai phá liệu 1.1.5 Ứng dụng khai phá liệu Có nhiều ứng dụng khai phá liệu thường thấy như: • Phân tích thị trường chứng khốn • Phát gian lận • Quản... rút tri thức, sử dụng tri thức phát Phương pháp khai phá liệu là: phân lớp, định, suy diễn… Các phương pháp áp dụng liệu thơng thường Về thuật tốn khai phá liệu, báo cáo trình bày số thuật toán... kho liệu ứng dụng lưu trữ khai phá tri thức kho liệu nhằm hỗ trợ định Về mặt lý thuyết, khai phá liệu bao gờm bước: Hình thành, xác định định nghĩa toán, thu thập tiền xử lý liệu, khai phá liệu,

Ngày đăng: 17/06/2022, 14:08

Xem thêm:

TỪ KHÓA LIÊN QUAN

w