1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng Data mining vào Analytics để chuẩn hóa website Hungvuong.edu.vn

29 495 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 527,32 KB

Nội dung

Một trong những nguồn dữ liệu được quan tâm và nó quyết định nhiều đến sự thành bại của một doanh nghiệp là dữ liệu đến từ website.Hàng ngày dữ liệu về khách truy cập của một webs

Trang 1

BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN

ĐỀ TÀI:

Người thực hiện: Lê Xuân Nguyên

Nguyễn Thị Phương Trang

Trang 3

MỤC LỤC

LỜI MỞ ĐẦU 3

I Tổng quan về Data mining 4

1 Giới thiệu: 4

2 Ứng dụng của Data mining 5

3 Các bước chính của Data mining 7

4 Các hướng chính của data mining 7

5 Một số công nghệ thường áp dụng trong data mining: 8

6 Khai phá dữ liệu Web 9

II Ứng dụng Data mining vào Analytics để chuẩn hóa 12

website Hungvuong.edu.vn 12

1 Giới thiệu Google Analytics 12

2 Ứng dụng google analytics vào trang web Đại học Hùng Vương TP.HCM 14

14

PHỤ LỤC CÁC THUẬT NGŨ SỬ DỤNG TRONG 23

GOOGLE ANALYTICS 23

Tổng kết 27

TÀI LIỆU THAM KHẢO 28

Trang 4

LỜI MỞ ĐẦU



Trong thời đại hiện nay việc khai thác dữ liệu và sử dụng chúng đang là mộtvấn đề quan tâm hàng đầu của mọi lĩnh vực Dữ liệu được khai thác có thể là từ nhiềunguồn: có cấu trúc và phi cấu trúc Một trong những nguồn dữ liệu được quan tâm và

nó quyết định nhiều đến sự thành bại của một doanh nghiệp là dữ liệu đến từ website.Hàng ngày dữ liệu về khách truy cập của một website rất lớn và nó trở thành mộtnguồn tài nguyên quý báu cho doanh nghiệp Trong bài thu hoạch này chúng tôi xintrình bày việc khai phá dữ liệu từ website trường đại học Hùng Vương Tp HCMthông qua một ứng dụng nổi tiếng của google là Google Analytics

Website các trường đại học hiện nay được cải thiện rất nhiều về hình thức lẫnnội dung đăng tải bởi nó là bộ mặt của một trường đại học, một trong các tiêu chíđánh giá một trường đại học có tuy tín và chất lượng hay không cũng phụ thuộc vàowebsite trường đó Tuy nhiên, từ hàng triệu người truy cập vào các website đó họ cóhài lòng về nội dung hay không, thông tin nào họ quan tâm nhất trên website, baonhiêu người không hài lòng về website đó… Hay nội dung nào trên trang web họthấy thích thú nhất, bao nhiêu người sẽ quay trở lại website họ đã truy câp? …Tất cảnhững điều đó chúng ta phải phân tích từ nguồn dữ liệu truy cập của người dùng Từnhững báo cáo đó chúng ta mới có thể cải thiện được website cho trường đại học, gópphần vào công tác quản lý đào tạo và tuyển sinh của trường

Trang 5

I Tổng quan về Data mining

1 Giới thiệu:

Trong thời điểm Công nghệ thông tin đang phát triển mạnh mẽ như hiện nay, vớimật độ sử dụng dày đặt các ứng dụng CNTT vào tất cả mọi ngành nghề trong đờisống, dẫn đến lượng thông tin cần để lưu trữ tăng đột biến

Vậy vấn đề được đặt ra như sau: làm thế nào để người sử dụng sử dụng hiệu quảcác nguồn dữ liệu mà mình đang lưu trữ, làm thế nào để khai thác được dữ liệu có íchtừ những khối dữ liệu khổng lồ có sẵn…

Nhìn vào cách thức hoạt động của một số ứng dụng như: chương trình tìm kiếmGoogle, mạng chia sẻ Facebook, hay website buôn bán trực tuyến Amazon.comngười sử dụng nhận thấy như sau:

 Google luôn trả cho người sử dụng kết quả tìm kiếm tốt nhất, thông minh nhất

và có độ chính xác cao hơn rất nhiều khi người sử dụng đăng nhập và tìmkiếm bằng tài khoản Google, so với khi tìm kiếm nhưng không sử dụng tàikhoản Google

 Khi sử dụng Facebook người sử dụng thường thắc mắc tính năng suggestionsfriends Bởi những tài khoản chức năng này giới thiệu đa số là những người

mà họ quen biết Vậy tại sao Facebook lại thông minh đến mức như vậy?

 Amazon.com là website bán hàng trực tuyến lớn trên internet, người sử dụng

để ý rằng mỗi khi người sử dụng xem thông tin chi tiết về một món hàng nào,

ví dụ mặt hàng sách, khi họ xem một quyển sách nào đó trên website thì baogiờ cũng kèm theo 1 danh sách các quyển sách gợi ý mua kèm theo quyểnngười sử dụng đang xem, một thống kê cho thấy có tới trên 70% đầu sáchđược người dùng mua thêm thông qua hình thức gợi ý này Vậy điều gì làmcho việc bán sách hiệu quả đến như vậy?

Tất cả các vấn đề trên đều có một hướng giải quyết liên quan đến Data mining.Data mining được định nghĩa như là một quá trình chắt lọc, trích xuất thông tin cómối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn (cực lớn)

Trang 6

nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm nhữngtập thông tin hữu ích mà bình thường không thể nhận diện được Một ví dụ hay đượcsử dụng là việc khai thác vàng từ đá và cát, Data mining được ví như công việc "Đãicát tìm vàng" trongmột tập hợp lớn các dữ liệu cho trước Thuật ngữ Data mining ámchỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô.

2 Ứng dụng của Data mining

Ứng dụng của Data mining rất đa dạng:

 Phân tích dữ liệu và hỗ trợ quyết định

o Phân tích và quản lý thị trường

Quảng cáo cá nhân (target marketing), quản lý quan hệ kháchhàng (CRM),

phân tích giỏ hàng, bán hàng liên quan (crossselling), phân chia thị trường

o Phân tích và quản lý rủi ro

Dự đoán, giữ khách hàng, phân tích cạnh tranh

o Phát hiện gian lận và phát hiện các mẫu bất thường

 Các ứng dụng khác

o Khai phá văn bản (nhóm tin – email, tài liệu…)

o Khai phá Web

o Khai phá dữ liệu luồng (chuỗi)

Các công cụ, kỹ thuật Data mining có thể trả lời các câu hỏi mà các công cụ truyềnthống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp Nó có thể tìm thấy đượcnhững thông tin cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc không xem xét đến để cóthể dự đoán những xu thế, hành động xảy ra trong tương lai

Để có thể Data mining một cách hiệu quả, điều đầu tiên cần phải thu thập dữ liệu

và định nghĩa lại theo các tiêu chí cần phân tích Các kỹ thuật Data mining có thể càiđặt rất nhanh chóng trên các nền tảng phần mềm, phần cứng phổ thông mà không cầnđòi hỏi quá phức tạp, tuy vậy Data mining thường gắn liền với việc phân tích một

Trang 7

khối lượng dữ liệu cực lớn nên cần ứng dụng các công nghệ high performance client/server hoặc xử lý song song (parallel programming).

Data mining ứng dụng trong các bài toán yêu cầu cần có các chức năng, nghiệp vụnhư:

 Tự động hóa việc dự đoán các xu thế và hành vi sẽ diễn ra trong tương lai:Data mining tự động hóa quá trình tìm kiếm và trích xuất các tập thông tin có mốiquan hệ hoặc tương quan trong một tập dữ liệu cực lớn Một ví dụ đơn giản: tại saoFacebook lại có thể gợi ý cho người sử dụng toàn những người mà họ đã quenbiết? Facebook dựa vào các thông tin mà người sử dụng lưu trữ như: các mối quan

hệ, các công ty đã làm, các trường đã học…Facebook đã mô hình hóa các tham số

có độ liên quan nhất định để đưa ra những gợi ý mà có xác xuất đúng rất cao Tấtcả các điều đó Facebook làm được là quá trình thu thập dữ liệu hoạt động củangười dùng trên site, sau đó sử dụng các công nghệ data mining để cung cấp nộidung, tính năng phù hợp nhất cho người dùng

 Tự động hóa việc khám phá, nhận diện ra những tập thông tin quá khứ mà hệthống chưa biết: Công cụ Data mining trong quá trình phân tích dữ liệu sẽ nhậndiện ra những tập thông tin, dữ liệu không có hoặc bị ẩn bởi những mối liên hệ màđược xác định trước Ví dụ như trong việc bán hàng, có những sản phẩm không cómối liên hệ gì với nhau, nhưng lại hay bán được cùng nhau, từ đó đưa ra cơ chếrecommendation (tự động giới thiệu sản phẩm đến khách hàng) Cụ thể, tại saoAmazon lại có thể đưa ra danh sách các quyển sách bán kèm có tỷ lệ bán được caonhư vậy? Để làm được điều này Amazon đã đầu tư phát triển hệ thốngrecommendation trong hàng chục năm, thời gian dài đó không chỉ là phát triểnthuần túy công nghệ mà còn là quãng thời gian thu thập và phân tích hành vi ngườisử dụng trên site của Amazon, thời gian càng dài, dữ liệu thu thập càng lớn, dẫnđến tập thông tin có độ tương quan càng nhiều và càng chính xác Ví dụ: khi bạnđăng nhập vào website, hệ thống sẽ lưu lại những nội dung tìm kiếm của bạn, vàkhi bạn xem một cuốn sách A bất kỳ, hệ thống sẽ tự động giới thiệu cuốn sách B

Trang 8

mà tỷ lệ mua cùng cuốn A là cao nhất và những cuốn sách có nội dung gần giốngcuốn A và phù hợp với các nội dung tìm kiếm mà hệ thống đã lưu về bạn Và đâycũng là một quá trình Data mining.

Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong các công tylấy khách hàng làm trung tâm như truyền thông, tài chính, marketing, bán hàng, cácnghành công nghiệp sản xuất … Nó cho phép các công ty xác định được các mốiquan hệ giữa các yếu tố nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí

là kỹ năng của nhân viên công ty… các yếu tố bên ngoài như đối thủ cạnh tranh,chính sách kinh tế hay nhu cầu thị trường … Và nó còn hỗ trợ việc xác định được sựtác động của các chính sách khuyến mãi, giảm giá, độ hài lòng của khách hàng và lợinhuận của doanh nghiệp…

3 Các bước chính của Data mining

Data mining bao gồm các bước sau:

a Thu thập, chuẩn hóa dữ liệu và nhập dữ liệu vào hệ thống kho dữ liệu(Datawarehouse)

b Đưa ra các cơ chế truy xuất cho các ứng dụng phân tích dữ liệu

c Sử dụng các phần mềm phân tích để tính toán

d Kết xuất dữ liệu dưới dạng dễ hiểu, như biểu đồ hoặc dạng report

4 Các hướng chính của data mining

Data mining được chia thành các hướng chính như:

1) Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắtkhái niệm

Trang 9

Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tàichính & thị trường chứng khoán …

3) Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào mộttrong những lớp đã biết trước

Ví dụ: phân lớp người truy cập theo quốc gia, tỉnh thành…

Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây

quyết định, mạng nơ ron nhân tạo

4) Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng nhưtên của cụm chưa được biết trước)

5) Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kếthợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứngdụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báocao

5 Một số công nghệ thường áp dụng trong data mining:

 Mạng trí tuệ nhân tạo (Artificial neural networks): Đây là mô hình mà hệthống có thể tự học thông qua đào tạo với tập dữ liệu ban đầu, từ đó suy đoán ra cáctập kết quả từ tập dữ liệu mà nó khai thác

 Cây quyết định (Decisions Trees):

Học cây quyết định là phương pháp được sử dụng rộng rãi cho việc học quy nạptừ một mẫu lớn Đây là phương pháp xấp xỉ hàm mục tiêu có giá trị rời rạc Mặtkhác, cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới

dạng tri thức là các luật If-then

Thuộc tính tốt nhất là thuộc tính có độ lấy thông tin lớn nhất

Phương pháp học máy dùng cây quyết định và dựa trên cây quyết định là rấthiệu quả bởi vì nó có thể làm việc được với một số lượng lớn các thuộc tính, vàhơn nữa từ cây quyết định có thể rút ra được một hệ thống luật học được

 Giải thuật di truyền (Generic Algorithms): Kỹ thuật này sử dụng trong các quátrình phối hợp, biến đổi, chọn lọc tự nhiên kế thừa từ khái niệm tiến hóa

Trang 10

 Phương pháp Người láng giềng gần nhất (Nearest neighbor method): Đây là kỹthuật phân loại từng bản ghi/thông tin trong tập dữ liệu dựa trên sự kết hợp của krecords có độ giống nhau nhất trong tập dữ liệu quá khứ.

 Nguyên tắc suy diễn (Rule induction): Kỹ thuật bóc tách dữ liệu dựa trên nguyêntắc Nếu-Thì từ các tập dữ liệu thống kê

6 Khai phá dữ liệu Web

(Khai phá web là một trong những ứng dụng chính của Data mining Trong phạm

vi đề tài này, chúng tôi xin trình bày về dữ liệu web, và quá trình khai phá dữ liệu web)

Với sự phát triển ngày càng lớn mạnh và phổ biến của mạng Internet, con người đãdần làm quen và sử dụng Internet như một nhu cầu thiết yếu của cuộc sống VớiInternet con người đã làm quen với các trang Web cùng với vô vàn các thông tin haycác nhu cầu khác Intrnet đã trở thành một trong những kênh về khoa học, thông tinkinh tế, thương mại và quảng cáo Có thể nói trang Web như là cuốn từ điển Báchkhoa toàn thư Thông tin trên các trang Web đa dạng về mặt nội dung cũng như hìnhthức Có thể nói Internet như một xã hội ảo, nó bao gồm các thông tin về mọi mặt củađời sống kinh tế, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh Sựphát triển nhanh chóng của mạng Internet đã sinh ra một khối lượng khổng lồ các dữliệu dạng siêu văn bản (dữ liệu Web) Có thể nói nhu cầu tìm kiếm thông tin trên môt

cơ sở dữ liệu phi cấu trúc đã được phát triển chủ yếu cùng với sự phát triển củaInternet

Tuy nhiên cùng với sự đa dạng và số lượng lớn thông tin như vậy đã nảy sinh vấn

đề quá tải thông tin Người ta không thể tìm tự kiếm địa chỉ trang Web chứa thông tin

mà mình cần, cũng như những người chủ của các trang web cũng không thể biếtđược chính xác mục đích của mình thể hiện trên trang web đã đến được với ngườixem chưa Ví dụ, giả sử chúng ta có các trang Web về các vấn đề tuyển sinh, tintức… Căn cứ vào nội dung của các tài liệu mà khách hàng xem hoặc download về,sau khi phân lớp chúng ta sẽ biết khách hàng hay tập trung vào nội dung gì trên trang

Trang 11

Web của chúng ta, từ đó chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung

mà khách hàng quan tâm và ngược lại Còn về phía khách hàng sau khi phân tíchchúng ta cũng biết được khách hàng hay tập trung về vấn đề gì, để từ đó có thể đưa ranhững hỗ trợ thêm cho khách hàng đó Từ những nhu cầu thực tế trên, phân lớp vàtìm kiếm trang Web vẫn là bài toán hay và cần phát triển nghiên cứu hiện nay

Khác với khai phá dữ liệu trên những cơ sở dữ liệu bình thường, đối với dạng

cơ sở dữ liệu siêu văn bản, ta cần chú ý:

 Cơ sở dữ liệu web có kích thước lớn, và không được lưu trữ ở cùng một nơi, nóđược lưu trữ phân tán trên rất nhiều máy tính khắp nơi trên thế giới Như vậy việcxây dựng một kho dữ liệu (datawarehouse) để lưu trữ, sao chép hay tích hợp các dữliệu trên Web là rất khó khăn, gần như không thể

 Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bảntruyền thống khác Các dữ liệu trong các CSDL truyền thống thì thường là loại dữliệu đồng nhất (về ngôn ngữ, định dạng,…), còn dữ liệu Web thì hoàn toàn khôngđồng nhất Ví dụ về ngôn ngữ dữ liệu Web bao gồm rất nhiều loại ngôn ngữ khácnhau (Cả ngôn ngữ diễn tả nội dung lẫn ngôn ngữ lập trình), nhiều loại định dạngkhác nhau (Text, HTML, PDF, hình ảnh âm thanh,…), nhiều loại từ vựng khác nhau(Địa chỉ Email, các liên kết (links), các mã nén (zipcode), số điện thoại)… Điều này

là một thử thách rất lớn cho việc tìm kiếm và phân loại thông tin cần thiết

Khai phá dữ liệu Web cũng sẽ tập trung vào các thành phần có trong trang Web Đó chính là:

1 Khai phá nội dung trang Web (Web Content mining)

Khai phá nội dung trang Web gồm hai phần:

a Web Page Content

Nghĩa là sẽ sử dụng chỉ các từ trong văn bản mà không tính đến các liên kết giữacác văn bản

b.Search Result

Trang 12

Tìm kiếm theo kết quả Trong các máy tìm kiếm, sau khi đã tìm ra những trangWeb thoả mãn yêu cầu người dùng, còn một công việc không kém phần quan trọng,

đó là phải sắp xếp kết quả theo thứ tự dộ gần nhau với nội dung cần tìm kiếm

2 Web Structure Mining

Khai phá dựa trên các siêu liên kết giữa các văn bản có liên quan

3 Web Usage Mining

Phân tích các Web log để khám phá ra các mẫu truy cập của người dùng trongtrang Web

Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu hướngtruy cập trang Web của từng đối tượng người dùng tại mỗi thời điểm khác nhau

Trang 13

II Ứng dụng Data mining vào Analytics để chuẩn hóa

website Hungvuong.edu.vn

1 Giới thiệu Google Analytics

Google Analytics là một công cụ hoạt động trên nền web sử dụng hoàn toàn miễnphí của Google Google Analytics là một trong những giải pháp phân tích trang webmạnh mẽ nhất trên thị trường và là công cụ được các nhà quản trị website và nhữngngười làm SEO ưa chuộng nhất hiện nay Nhờ Google Analytics , chúng ta có thể thuthập thông tin, theo dõi, thống kê, đo lường, phân tích, xử lý dữ liệu trên từngwebsite và chiến dịch quảng cáo

Cách thức hoạt động của Google Analytics

Hình 1: Giao diện tổng quan của Google Analytics

Trang 14

Đối với Google Analytics người sử dụng có thể:

Biết được lượng người truy cập vào website của mình hàng ngày là bao nhiêu, họđến website từ đâu (qua tìm kiếm trên Google, qua click vào link từ website khác,hay gõ trực tiếp tên website ….) Nếu là tìm kiếm trên Google thì người sử dụng sẽbiết được họ tìm kiếm từ khóa nào, và từ đó người quản trị dễ dàng đưa ra nhữngchiến lược và định hướng nội dung tốt hơn nữa để thu được lượng truy cập nhiều hơn

số lần xem trang, nó có thể được sử dụng để xem nội dung được ghé thăm nhiều nhất,thời gian trên trang web cho mỗi truy cập, nó theo dõi các màn trình diễn của các

Hình 2: Cách thức hoạt động của Google Analytics

Ngày đăng: 10/04/2015, 16:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w