1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu Luận Dữ Liệu Lớn Trong Kinh Tế Và Kinh Doanh.pdf

18 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu Luận Dữ Liệu Lớn Trong Kinh Tế Và Kinh Doanh
Trường học Học Viện Chính Sách Và Phát Triển
Thể loại tiểu luận
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 18
Dung lượng 2,62 MB

Nội dung

Năm 2014, công ty nghiên cứu và tư vấn công nghệ thông tin hàng đầu thế giới là Gartner đã công bố mô hình “5V” năm tính chấ- t quan trọng của dữ liệu l n.. Điều này có nghĩa là dữ liệu

Trang 1

B K Ộ Ế HOẠCH VÀ ĐẦU TƯ

TIỂ U LU N

D Ữ LIỆ U L N TRONG KINH T VÀ KINH DOANH Ớ Ế

HÀ NỘI - 2023

Trang 2

M C L C Ụ Ụ

DANH M C B NG BI U Ụ Ả Ể Câu 2: Phân tích đặc trưng 5V của dữ liệu lớn Nếu giả sử em là chủ sở hữu một nguồn dữ liệu c a 1 t ủ ỷ ngườ ử ụi s d ng m ng xã h i thì em s có gi i pháp kinh doanh h p pháp nào t ạ ộ ẽ ả ợ ừ

kho d u này 1ữ liệ

2.1 Phân tích đặc trưng 5V của d u l n 1ữ liệ ớ 2.2 N u gi s em là ch s h u m t ngu n d u c a 1 t ế ả ử ủ ở ữ ộ ồ ữ liệ ủ ỷ ngườ ử ụi s d ng m ng xã h i thì ạ ộ

em s có gi i pháp kinh doanh h p pháp t kho d u 5ẽ ả ợ ừ ữ liệ

Câu 3: Trình bày sơ lược 4 kỹ thuật phân tích dữ liệu lớn So sánh sự khác biệt giữa phân

c m và phân l p d u? Hãy l y m t ví d minh h a trong th c t mà em bi t v k thuụ ớ ữ liệ ấ ộ ụ ọ ự ế ế ề ỹ ật

phân c m và phân lụ ớp. 6 3.1 Trình bày sơ lược 4 k thu t phân tích d u l n 6ỹ ậ ữ liệ ớ 3.2 So sánh s khác bi t gi a phân c m và phân l p d u L y m t ví d minh h a trong ự ệ ữ ụ ớ ữ liệ ấ ộ ụ ọ thự ếc t mà em bi t v k thu t phân c m và phân lớp 14ế ề ỹ ậ ụ

Trang 3

DANH M C B NG BI U Ụ Ả Ể

Bảng 3.2 S khác bi t gi a phân c m và phân l p d ự ệ ữ ụ ớ ữ liệu 14

Trang 4

1

Câu 2: Phân tích đặc trưng 5V của d ữ liệu l n N u gi s em là ch s h ớ ế ả ử ủ ở ữu m t ngu ộ ồn

dữ liệu c a 1 tủ ỷ ngườ ử ụi s d ng m ng xã h i thì em s có gi i pháp kinh doanh hạ ộ ẽ ả ợp

pháp nào t kho d ừ ữ liệu này.

2.1 Phân tích đặc trưng 5V của dữ liệu lớn

Năm 2014, công ty nghiên cứu và tư vấn công nghệ thông tin hàng đầu thế giới là Gartner đã công bố mô hình “5V” năm tính chấ- t quan trọng của dữ liệu l n ớ

• Kích thước (Volume)

B n thân cái tên dả ữ liệ ớn có liên quan đếu l n một kích thước r t l n, m t dấ ớ ộ ữ liệu có

thực sự được coi là “Big Data” hay không ph ụthuộc vào kh i lư ng dữ ệu ố ợ li

Chúng ta không ph i nói v d ả ề ữ liệu hàng Terabyte mà là nh ng d ữ ữ liệu hàng Zettebyte hay Brontobyte Chúng ta có th l y các thí nghi m c a Máy gia t c h t l n (LHC) ể ấ ệ ủ ố ạ ớ ở Châu

Âu làm ví d ụ cho “Big Data” Khi các thí nghiệm này được tiến hành, k t qu s ế ả ẽ được ghi

nh n b i 150 tri u c m bi n v i nhi m v truy n t i d u kho ng 40 tri u l n m i giây ậ ở ệ ả ế ớ ệ ụ ề ả ữ liệ ả ệ ầ ỗ

K t qu là nế ả ếu như LHC ghi nhận h t k t qu t m i c m bi n thì lu ng d ế ế ả ừ ọ ả ế ồ ữ liệu s ẽ ở nên tr

vô cùng l n, có th ớ ể đạt đến 150 tri u Petabyte mệ ỗi năm, hoặc 500 Exabyte m i ngày, cao ỗ hơn 200 lần so với tấ ảt c các nguồn dữ liệu khác trên thế giới gộp loại

Trong mỗi giây như thế ại có đế l n khoảng 600 triệu vụ va chạm giữa các hạt vật chất

diễn ra, nhưng sau khi chọ ọ ạ ừn l c l i t kho ng 99,999% các lu ng dả ồ ữ liệu đó, chỉ có tầm

100 v va chụ ạm là được các nhà khoa học quan tâm Điề này có nghĩa là cơ quan chủu

qu n cả ủa hệ thống LHC phải tìm những bi n pháp mệ ới để qu n lý và x ả ử lí h t mế ớ ữ liệ d u

kh ng l này ổ ồ

Việc tăng trưởng này khi n cho dữ liệu tr nên quá lế ở ớn để có thể lưu trữ và phân tích theo công ngh CSDL truy n th ng V i công nghệ ề ố ớ ệ điện toán đám mây (Cloud Computing), t i các trung tâm d ạ ữ liệu (Data Center) chúng ta đã có thể lưu trữ và sử d ng ụ

nh ng t p dữ ậ ữ liệu này v i sớ ự giúp đỡ ủ c a các hệ thống phân tán, nơi mà dữ liệu chỉ được lưu trữ một phần tại các địa điểm khác nhau và được quản trị bởi các phần mềm chuyên

d ng ụ

Trang 5

2

• Tốc đ (Velocity) Vận tốc ộ –

Ngoài đặc trưng đầu tiên là khối lượng rất lớn thì khi nói đến “Big Data” là phải nói

đế ốn t c độ dữ liệu mới được tạo ra và t c độ xửố lý d liệu hiện nay Hãy tưởng tượng đó ữ

là các thông điệp của mạng xã hội lan truyền theo đơn vị giây hay đó là tốc độ mà các giao dịch thẻ tín d ng gian lụ ận được kiểm tra Một ví dụ ụ thể c cho khối lượng d ữ liệu đã tạo ra, vào năm 2016 lượng truy c p toàn c u ch ậ ầ ỉ là 6.2 exabytes/tháng, tuy nhiên đến năm

2020 thì con s ố này đã lên đến 40.000 exabytes/tháng Điều đó có thể ải thích đượ gi c, d ữ liệu hi n nay phát triệ ển nhanh đến mức nào

Công ngh dệ ữ liệu l n cho phép chúng ta có th phân tích dớ ể ữ liệu ngay khi chúng đang được t o ra mà không cạ ần lưu trữ chúng trong các CSDL X lý d ử ữ liệu nhanh ở mức

thời gian thực (real-time), có nghĩa dữ ệu được xử lý ngay tức thời ngay sau khi chúng li

phát sinh (tính đến b ng mili giây) ằ

• Đa dạng (Variety)

Đặc trưng thứ ba của “Big Data” là sự đa dạng của các loại dữ liệu Sự đa dạng về

định dạng dữ liệu lớn được thể ện thông qua các yếu t sau: hi ố

+ Đa dạng về ngu n gồ ốc: D ữ liệu l n có th ớ ể được thu th p t nhi u ngu n khác nhau, ậ ừ ề ồ bao g m các ngu n dồ ồ ữ liệu n i b c a t ộ ộ ủ ổ chức, dữ liệ u t các nguừ ồn bên ngoài như mạng

xã h i, trang web, máy c m bi n, thi t b IoT (Internet of Things), các h ộ ả ế ế ị ệ thống giao thông,

và nhi u ngu n dề ồ ữ liệu khác

+ Đa dạng về định dạng: Dữ liệ ớu l n có th t n tể ồ ại dưới nhiều định d ng khác nhau ạ như văn bản, hình ảnh, âm thanh, video, tệp log, tệp đồ thị, tệp dạng bảng, và nhiều định

d ng d u khác ạ ữ liệ

+ Đa dạng về kích thước: Dữ liệ ớn thường có kích thướu l c r t l n, t hàng terabyte ấ ớ ừ đến petabyte hoặc thậm chí exabyte Điều này có nghĩa là dữ liệu lớn bao g m mồ ột lượng

l n thông tin và chi tiớ ết về các s ki n, giao dự ệ ịch, hành vi người dùng, và nhi u thông tin ề khác

+ Đa dạng về tốc độ: Dữ liệu lớn thường được t o ra và c p nh t liên t c t nhi u ạ ậ ậ ụ ừ ề ngu n khác nhau Ví d , dồ ụ ữ liệu t các m ng xã hừ ạ ội đượ ạc t o ra trong th i gian th c, d ờ ự ữ

Trang 6

3

liệu t máy c m biừ ả ến IoT được g i v i tử ớ ốc độ nhanh Điều này yêu cầu khả năng xử lý d ữ

liệu lớn và phân tích nhanh chóng để ậ t n dụng được giá trị ủa dữ ệu c li

Sự đa dạng c a dủ ữ liệ ớn đòi hỏu l i các công nghệ và phương pháp xử lý dữ liệu phù

h p, bao gợ ồm kho lưu trữ dữ liệu, công c phân tích d u, thuụ ữ liệ ật toán thông minh để tìm

ra những thông tin quan trọng, xu hướng và hi u biể ết từ ữ liệu đa dạ d ng này

• Độ tin c y (Veracity) – ậ Độ chính xác

M t trong nh ng tính ch t ph c t p nh t cộ ữ ấ ứ ạ ấ ủa “Big Data” là độ tin c y/chính xác cậ ủa

dữ liệu vì khối lượng lớn thường đi kèm với vi c thi u chính xác và chệ ế ất lượng c a d ủ ữ liệu

Tính xác th c là mự ột đặc tính của “Big Data” liên quan đến tính nhất quán, độ chính xác, chất lượng hay độ tin c y c a dậ ủ ữ liệu Tính xác th c c a dự ủ ữ liệu đề ập đế c n s sai ự

l ch, nhi u, bệ ễ ất thường trong dữ liệu Nó cũng đề ập đế c n dữ liệu không đầy đủ ho c s ặ ự

hi n di n c a l i, giá tr ngo i lệ ệ ủ ỗ ị ạ ệ Để chuyển đổi lo i dạ ữ liệu này thành m t ngu n thông ộ ồ tin nhất quán, th ng nhố ấ ẽ m t thách tht s ộ ức lớn cho các tổ chức và doanh nghi p ệ Trong khi tr ng tâm chính c a các doanh nghi p là s d ng toàn b ọ ủ ệ ử ụ ộ tiềm năng của d ữ liệu để thu th p thông tin chi ti t, h có ậ ế ọ xu hướng b l các vỏ ỡ ấn đề do qu n tr d ả ị ữ liệu kém

g p ph i Khi chúng ta nói v ặ ả ề độ chính xác của d u l n, nó không ch là v ữ liệ ớ ỉ ề chất lượng của d ữ liệu mà còn ph ụ thuộc vào mức độ đáng tin cậy c a ngu n d u và các quy trình ủ ồ ữ liệ

d u cữ liệ ủa bạn

Chẳng h n, ta l y m t ví d biạ ấ ộ ụ để ết tác động của tính tin c y c a d ậ ủ ữ liệu b ng cách có ằ thông tin của hàng triệu người có nhu cầu tiêu dùng một lo i hàng hóa cạ ủa doanh nghiệp Tuy nhiên, dữ liệu này không thể chuyển đổi thành dữ liệu bán hàng do thông tin khách hàng không chính xác Chất lượng dữ liệu kém ho c dặ ữ liệu không chính xác có th dể ẫn

đến việc nhắm m c tiêu sai khách hàng và thông tin liên lụ ạc, điều này cuối cùng gây ra thiệt h i vạ ề doanh thu cho doanh nghi p ệ

Bài toán phân tích và lo i b dạ ỏ ữ liệu thi u chính xác và nhiế ễu đang là tính chất quan trọng c a Big Data T t nhiên d ủ ấ ữ liệu không được phép sai hoàn toàn, nhưng chúng ta sẵn sàng hy sinh một chút trong s ự chính xác để đổi l i hiạ ểu bi t v ế ề xu hướng chúng D ữ liệu

l n biớ ến đổi các con s thành m t cái gì ố ộ đó mang tính xác suất nhiều hơn là tính chính xác

Trang 7

4

• Giá trị (Value)

Chữ V cuối cùng trong 5V của “Big Data” và cũng là chữ V quan trọng nhất chính là giá trị Nó đề ập đế c n giá tr ị mà “Big Data” có thể cung c p và nó liên quan trấ ực tiếp đến

nh ng gì tữ ổ chức có th làm v i dể ớ ữ liệu được thu thập đó Việc ti p cế ận được dữ liệ ớn u l

s ẽ chẳng có ý nghĩa gì nếu chúng ta không chuyển được chúng thành những thứ có giá trị

vì giá tr c a d ị ủ ữ liệu lớn tăng lên đáng kể tùy thu c vào nh ng hi u bi t sâu s c có th thu ộ ữ ể ế ắ ể được từ chúng

Ví d , n u chúng ta có m t b d ụ ế ộ ộ ữ liệu c a hàng t hoủ ỷ ạt động khám ch a b nh c a các ữ ệ ủ

b nh nhân t i m t b nh vi n l n trong thệ ạ ộ ệ ệ ớ ời gian 5 năm gần đây mà được lưu trữ m t cách ộ

cơ học trên hệ thống máy chủ thì cũng sẽ không mang lại giá trị gì cho bệnh viện cũng như các bệnh nhân Tuy nhiên, nếu bộ dữ liệu đó được đem ra phân tích nhằm tìm được các xu hướng khám chữa bệnh, các loại thuốc nào điều trị hiệu quả hơn, loại bệnh nào người bệnh hay mắc phải, bác sỹ nào khám chữa bệnh tốt hơn, thời gian đ ều trị bệnh tối i

ưu là bao nhiêu ngày,… thì điều này sẽ mang lại giá trị rất lớn cho cả bệnh viện và cộng

đồng vì sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽ ảm được chi phí điề gi u trị và các chi phí liên quan đến y t ế

M t ví dộ ụ khác để thể ệ hi n giá tr c a dị ủ ữ liệ ớu l n là quá trình chuyển đổ ố ủi s c a mỗi

tổ chức mà doanh nghi p Trong nhệ ững năm gần đây, khi nhu cầu về chuyển đổ ối s ngày một tăng lên, dữ liệu lớn đã nổi lên như một ngu n nhiênli u chính ti p s c cho cu c hành ồ ệ ế ứ ộ trình này Kh ả năng phân tích một lượng l n d u c u trúc (Structured Data) và d ớ ữ liệ ấ ữ liệu phi c u trúc (Unstructured Dấ ata) để có được nh ng thông tin chi tiữ ết, thường là theo thời gian thực, là cơ sở ề n n t ng cả ủa hầu h t các n lế ỗ ực chuyển đổi số, vì thông tin chi ti t thu ế được thông qua phân tích dữ liệu lớn được sử dụng để thúc đẩy quá trình số hóa và tự

động hóa quy trình làm việc Khi các t chức có thể tận d ng dữ liệu l n cho mục đích ổ ụ ớ báo cáo và c i tiả ến quy trình thì “giá trị đích thực sẽ đến từ khả năng kết h p dợ ữ u l n liệ ớ với các nỗ lực chuyển đổi số để cho phép số hóa và t ng hóa toàn b hoự độ ộ ạ ột đng nhằm thúc đẩy hiệu quả và các mô hình kinh doanh mới” Nếu chuyển đổi số cho mỗi tổ chức

Trang 8

5

và doanh nghiệp là con đường thì dữ liệu l n là m t trong nhớ ộ ững phương tiện giúp đi nhanh trên con đường đó

2.2 N u gi s em là ch s h u m t ngu n d u c a 1 t ế ả ử ủ ở ữ ộ ồ ữ liệ ủ ỷ người sử ụ d ng m ng xã

hội thì em sẽ có gi i pháp kinh doanh h p pháp t kho d ả ợ ừ ữ liệu.

- Dựa vào đặc trưng về kích thước (Volume): em sẽ áp dụng kỹ thuật phân tích đám đông để xác định được hành vi, nhu cầu của người tiêu dùng để đưa ra những chiến lược tiếp th , marketing, quảng cáo phù h p ị ợ

- Dựa vào đặc trưng về tốc độ (Velocity): em sẽ s d ng các công c phân tích d ử ụ ụ ữ liệu

để phân tích, d ự báo xu hướng người tiêu dùng thông qua các bài đăng, bình luận, lượt xem, hoạt động của người dùng trên mạng xã hội để tìm hiểu và phát tri n nh ng sể ữ ản

phẩm, dịch v phù hụ ợp

- Dựa vào đặc trưng về đa dạng (Variety): em có thể tìm được các nhóm khách hàng

tiềm năng thông qua các nguồn dữ ệu khác nhau (hình li ảnh, video, văn bản th hiể ện thông tin người dùng…) để tìm ra những đặc điểm chung của từng phân khúc khách hàng tiềm năng như sở thích, độ tuổi, phong cách… và đưa ra những d ch v , sị ụ ản phẩm cũng như các chiến lược qu ng cáo, marketing phù h p v i t ng t p khách hàng ả ợ ớ ừ ệ

- Dựa vào đặc trưng về độ tin c y (Veracity): em có th ậ ể đánh giá tính chính xác về các

d ữ liệu như thông tin người dùng (tài khoản, bài đăng, bình luận…) để xác minh xem thông tin của người dùng là th t hay gi , có l ch s gian l n, lậ ả ị ử ậ ừa đảo hay dính vào

những dư luận tiêu cực không, để tìm ra nh ng bi n pháp gi i quy t ho c lo i b ra ữ ệ ả ế ặ ạ ỏ

khỏi nguồn dữ liệu c n tìm kiầ ếm

- Dựa vào đặc trưng về giá trị (Value): em s s d ng nh ng d ẽ ử ụ ữ ữ liệu thu được từ người dùng trên m ng xã hạ ội như những vấn đề, xu hướng, tính năng… mà họ quan tâm

hoặc đang xu hướng để tìm cách để phát tri n nh ng s n ph m, d ch vể ữ ả ẩ ị ụ đem lại giá trị và lợi ích cho người dùng

Trang 9

6

Câu 3: Trình bày sơ lược 4 kỹ thuật phân tích dữ liệu lớn So sánh sự khác biệt giữa

phân cụm và phân lớp dữ u? Hãy l y m liệ ấ ột ví dụ minh h a trong thọ ực tế mà em biết

v k thu t phân c m và phân lề ỹ ậ ụ ớp.

3.1 Trình bày sơ lược 4 k thu t phân tích d ỹ ậ ữ liệu lớn

• Phân lớp d ữ liệu:

Phân l p (Classification) là k ớ ỹ thuật ph biổ ến và được quan tâm nhi u nh t trong phân ề ấ tích dữ liệu, đặc bi t là các t p dệ ậ ữ liệu l n B n ch t c a vi c phân l p là quá trình gán ớ ả ấ ủ ệ ớ nhãn cho một đối tượng dữ liệu m i vào m t l p (trong t p nhãn lớ ộ ớ ậ ớp đã cho trước) nh ờ

m t mô hình phân l p Trong thộ ớ ực tế chúng ta cũng thường xuyên s d ng k ử ụ ỹ thuật phân

l p dớ ữ liệu như khi nhìn thấy hình nh c a mả ủ ột người m i g p lớ ặ ần đầu tiên thì chúng ta

có th dể ự đoán xem giới tính c a h là Nam hay N vủ ọ ữ ới độ chính xác rất cao Để có th ể

dự đoán được giới tính thì trước đó (từ ồ h i còn nhỏ) chúng ta đã được d y qua hình nh ạ ả

m u c a m t t p hẫ ủ ộ ậ ợp người và được ch rõ ai là gi i tính Nam , ai là gi i tính ỉ ớ “ ” ớ “Nữ” Hay

v i bài toán bài toán phân loớ ại thư rác (Email Spam), để có khả năng nhận dạng được thư nào là thư rác thì hệ thống phải phân tích các dữ liệu về thư điện tử trước đó…

Phân lớp d ữ liệu chính là quá trình phân tích d u có sữ liệ ẵn để trích rút ra mô hình mô

t dả ữ liệu ho c dặ ự đoán xu hướng dữ liệu Dự đoán xu hướng dữ liệu cụ thể là dự đoán nhãn l p cho dớ ữ u mliệ ới, v i bài toán dớ ự đoán giới tính thì nhãn lớp là “Nam” và “Nữ”,

với bài toán nhận dạng thư rác thì nhãn lớp tương ứng là “Spam” và “Non Spam”

Theo tài li u tham kh o (Nguy n Hà Nam, 2013) thì bài toán phân l p dệ ả ễ ớ ữ liệu được phát biểu như sau: Cho m t b d u hu n luy n T (Trainning Dataset), m i ph n t d ộ ộ ữ liệ ấ ệ ỗ ầ ử ữ liệu g m n thuồ ộc tính và được gán một nhãn lớp c trong tập nhãn lớp C Yêu cầu đặt ra là

v i m t ph n t dớ ộ ầ ử ữ liệu mới chưa biết nhãn l p, ta ph i th c hi n gán nhãn l p cho phớ ả ự ệ ớ ần

t d u này d a trên b d u hu n luyử ữ liệ ự ộ ữ liệ ấ ện ban đầu

- Quá trình phân lớp d ữ liệu:

+ Bước 1: Giai đoạn học (huấn luy n) ệ

Giai đoạn học là giai đoạn xây d ng mô hình mô t d ự ả ữ liệu d a trên b d ự ộ ữ liệu đã biết trước nhãn l p hay dữ liệu huấn luyện Dữ liệu huấn luyện là m t tập các phần tử dữ liệu ớ ộ

có gán nhãn, trong đó có một thuộc tính là thuộc tính lớp cho biết phần tử dữ liệu này được gán nhãn cho lớp nào

Trang 10

7

Quá trình hu n luyấ ện được th c hi n b ng m t thu t toán phân l p, thu t toán thự ệ ằ ộ ậ ớ ậ ực

hi n h c d ệ ọ ữ liệu hu n luyấ ện để ừ đó trích rút thông tin và xác định một mô hình mô t d t ả ữ liệu Mô hình ở đây chính là các quy tắc, lu t hay công th c toán h c mô t l p Thuậ ứ ọ ả ớ ật toán phân l p chính là c t lõi c a quá trình h c, thu t toán phân l p t t thì hi u qu gán ớ ố ủ ọ ậ ớ ố ệ ả nhãn đạt độ chính xác cao

+ Bước 2: Giai đoạn phân l p ớ

Giai đoạn phân lớp là giai đoạn sử dụng mô hình xây dựng được ở giai đoạn huấn luyện để phân lớp dữ liệu mới nếu hiệu quả phân lớp chấp nhận được Để đánh giá mô hình phân l p là ch p nhớ ấ ận được hay không, ta s d ng m t b dử ụ ộ ộ ữ liệu kiểm tra đã biết trước nhãn l p c a các phần tử dữ liệu Bộ dữ liệu kiớ ủ ểm tra này độ ập v i b dữ liệu c l ớ ộ

hu n luyấ ện trước đó Ta thực hi n phân l p các m u dệ ớ ẫ ữ liệu trong b dộ ữ liệu ki m tra, t ể ừ

đó xác định xem có bao nhiêu phần tử dữ liệu được phân lớp đúng và bao nhiêu phân tử

dữ liệu b phân l p sai N u k t qu kiị ớ ế ế ả ểm tra đạt độ chính xác cao (t l ph n t dỉ ệ ầ ử ữ liệu được phân lớp đúng cao) thì mô hình có thể đư c sử dụng để thực hiện phân l p cho dữ ợ ớ liệu mới chưa biết trước nhãn lớp

- Một số mô hình phân l p d ớ ữ liệu:

+ Cây quyết định (Decision Tree): là mô hình phân l p dớ ạng cây dùng để ể bi u diễn các tri thức đơn giản cho việc phân lo i các m u vào m t s các l p Trong m t cây quyạ ẫ ộ ố ớ ộ ết

định, các nút biểu diễn các thuộc tính c a mẫu dữ liệu, các cạnh biểu diễn các giá tr có ủ ị

thể có c a m t thu c tính và các lá chủ ộ ộ ỉ định các nhãn l p M t ph n t dớ ộ ầ ử ữ ệu được dự li đoán lớp bằng cách đưa các thuộc tính của nó vào kiểm tra trên cây quyết định, một quá trình kiểm tra như vậy sẽ dẫn từ gốc tới một lá theo các giá trị của thuộc tính của phần tử

d ữ liệu đó và lá nhận được cho biết nó được gán nhãn l p nào ớ

+ Rừng ng u nhiên (Random Forest):ẫ là m t thành viên trong h thu t toán Cây quyộ ọ ậ ết định, bao gồm t p h p các cây quyậ ợ ết định mà mỗi cây được ch n theo m t thu t toán dọ ộ ậ ựa vào ng u nhiên Khi phân l p, m i cây s cho m t d ẫ ớ ỗ ẽ ộ ự đoán và dự đoán cuối cùng c a thuủ ật toán R ng ng u nhiên là dừ ẫ ự đoán c ếhi m phần đa số ừ t các dự đoán của các cây đơn Có thể hiểu đơn giản theo cách khác là R ng ng u nhiên coi m i cây quyừ ẫ ỗ ết định như mộ ửt c tri b phiỏ ếu độ ập (như mộc l t cu c b u cộ ầ ử thực s ), sau khi ki m phi u, câu tr l i nh n ự ể ế ả ờ ậ

Ngày đăng: 22/05/2024, 16:17

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN