1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ Án Website thương mại điện tử

65 349 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 3,17 MB

Nội dung

TMĐT gồm các hoạt động mua bán hàng hóa và dịch vụ qua phương tiệnđiện tử, giao nhận các nội dung kỹ thuật số trên mạng, chuyển tiền điện tử, mua bán cổ phiếu điện tử, vận đơn điện tử, đ

Trang 1

LỜI NÓI ĐẦU

Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và những ứngdụng của nó trong đời sống Máy tính điện tử không còn là một thứ phương tiện lạlẫm đối với mọi người mà nó dần trở thành một công cụ làm việc và giải trí thôngdụng và hữu ích của chúng ta, không chỉ ở công sở mà còn ngay cả trong gia đình.Trong nền kinh tế hiện nay, với xu thế toàn cầu hóa nền kinh tế thế giới , mọimặt của đời sống xã hội ngày càng được nâng cao, đặc biệt là nhu cầu trao đổi hànghóa của con người ngày càng tăng cả về số lượng và chất lượng Thông qua các sảnphẩm và công nghệ này, chúng ta dễ dàng nhận ra tầm quan trọng và tính tất yếucủa thương mại điện tử Với những thao tác đơn giản trên máy tính có nối mạngInternet bạn sẽ có tận tay những gì mình cần mà không phải mất nhiều thời gian.Bạn chỉ cần vào các trang dịch vụ thương mại điện tử , làm theo hướng dẫn và clickvào những gì bạn cần các nhà dịch vụ sẽ mang đến tận nhà cho bạn Hiện nay thậtkhó để có thể tiếp thu thông tin từ một khối lượng rất lớn dữ liệu, tìm kiếm và pháthiện được tri thức quả là một điều không dễ dàng gì? Hiện nay đã có rất nhiều cácnghiên cứu, phương pháp mang tính khoa học dựa trên yếu tố thông minh nhất đã rađời, nhằm phục vụ cho quá trình trích lọc được dữ liệu một cách tối ưu và từ đó tìmkiếm được tri thức cần có Vì vậy một wesbsite cần có ứng dụng giải thuật thôngminh vào là điều tất yếu

Để đáp ứng và phục vụ nhu cầu của khách hàng cũng như các doanh nghiệphay các công ty Em xin tìm hiểu và hoàn thành đồ án : “Xây dựng website thươngmại điện tử hỗ trợ tư vấn thông minh”

Để có được kết quả như ngày hôm nay , em xin gửi lời cảm ơn chân thành vàsâu sắc nhất đến toàn bộ các quý thầy cô trong khoa công nghệ thông tin trườngĐại học Công Nghiệp Hà Nội đã tạo điều kiện giúp đỡ em trong suốt quá trình họctập tại trường Em xin gửi lời cảm ơn đặc biệt nhất đến thầy Th.s Nguyễn VănThắng, thầy đã luôn hướng dẫn chỉ bảo tận tình cho em hoàn thành đồ án thực tậptốt nghiệp một cách tốt nhất

Em xin chân thành cảm ơn !

Hà Nội, ngày 30/04/2016

Sinh viên thực hiện Đào Văn Hải

Trang 2

TÓM TẮT ĐỒ ÁN

Đồ án tốt nghiệp với đề tài “Xây dựng website thương mại điện tử hỗ trợ tưvấn thông minh” được xây dựng áp dụng cho các công ty, tổ chức bán các mặt hàngđiện thoại Mục đích của đề tài là xây dựng một website áp dụng kỹ thuật khai phá

dữ liệu giúp khách hàng có thể xem và lựa chọn sản phẩm phù hợp, quảng cáo sảnphẩm theo nhóm khách hàng, tìm kiếm tên hàng thông minh

Nội dung của đồ án gồm ba chương:

- Chương 1: Tổng quan về thương mại điện tử

- Chương 2: Các hệ hỗ trợ ra quyết định

- Chương 3: Các thuật toán hỗ trợ ra quyết định

- Chương 4: Phân tích thiết kế hệ thống

- Chương 5: Hướng phát triển

Đồng thời website cũng hỗ trợ đặt hàng trực tuyến, giúp nhà quản lý quản lý thôngtin về sản phẩm, đơn đặt hàng

GRADUATION PROJECT SUMMARY

Graduation project with topic “Build e-commerce sites to support smart advice” isbuilt to apply in companies, organizations selling phones items The purpose ofproject is to built a website apply the data mining techniques to help customer canveiw and select products, products advertisement by customer group, look forintelligent products name

Content of project containd 3 chapter:

Chapter 1: An overview of e-commerce

Chapter 2: The decision support system

Chapter 3: The algorithm supports the decision

Chapter 4: The system design analysis

Chapter 5: Career developement

In addition, website also to support online order items, help the manager manage

Trang 3

Mục lục

LỜI NÓI ĐẦU 1

TÓM TẮT ĐỒ ÁN 2

DANH SÁCH HÌNH VẼ 6

DANH SÁCH BẢNG BIỂU 7

DANH SÁCH CÁC TỪ VIẾT TẮT 7

CHƯƠNG 1: TỔNG QUAN VỀ THƯƠNG MẠI ĐIỆN TỬ 8

1.1 Các đặc trưng của Thương mại điện tử 8

1.2 Cơ sở để phát triển Thương mại điện tử 9

1.3 Các loại hình giao dịch Thương mại điện tử 10

1.4 Các hình thức hoạt động chủ yếu của Thương mại điện tử 11

1.4.1 Thư điện tử 11

1.4.2 Thanh toán điện tử 12

1.4.3 Truyền dung liệu 12

1.4.4 Mua bán hàng hóa hữu hình 12

1.5 Lợi ích của Thương mại điện tử 13

1.5.1 Thu thập được nhiều thông tin 13

1.5.2 Giảm chi phí sản xuất 13

1.5.3 Giảm chi phí bán hàng, tiếp thị và giao dịch 13

1.5.4 Xây dựng quan hệ với đối tác 14

1.5.5 Tạo điều kiện sớm tiếp cận kinh tế tri thức 14

CHƯƠNG 2: CÁC HỆ HỖ TRỢ RA QUYẾT ĐỊNH 16

2.1 Khai phá dữ liệu là gì? 16

2.2 Một số phương pháp khai thác dữ liệu phổ biến 17

2.3 Tình hình ứng dụng khai phá dữ liệu 20

CHƯƠNG 3 CÁC THUẬT TOÁN HỖ TRỢ RA QUYẾT ĐỊNH 22

Trang 4

3.1 Tập phổ biến và thuật toán Apriori 22

3.2 Thuật toán tìm kiếm chuỗi gần đúng 28

CHƯƠNG 4 PHÂN TÍCH THIẾT KẾ HỆ THỐNG 31

4.1 Khảo sát 32

4.2 Định nghĩa bài toán 35

4.3 Xác định ca sử dụng và tác nhân 36

4.4 Biểu đồ Use case mức khung cảnh 38

4.5 Đặc tả ca sử dụng 38

4.5.1 Ca sử dụng: Đăng nhập 38

4.5.2 Ca sử dụng: Đăng xuất 39

4.5.3 Ca sử dụng: Quản lý khách hàng 40

4.5.4 Ca sử dụng: Quản lý mặt hàng 40

4.5.6 Ca sử dụng: Quản lý nhà cung cấp 43

4.5.7 Ca sử dụng: Quản lý đơn đặt hàng 44

4.5.8 Ca sử dụng: Quản lý luật gợi ý khách hàng 45

4.5.9 Ca sử dụng: Báo cáo, thống kê 46

4.5.10 Ca sử dụng: Tìm kiếm sản phẩm 47

4.5.11 Ca sử dụng: Xem sản phẩm 47

4.5.12 Ca sử dụng: Đặt hàng online 47

4.5.13 Ca sử dụng: Quản lý game show 49

4.5.14 Ca sử dụng: Quản lý cửa hàng cá nhân 50

4.6 Cơ sở dữ liệu vật lý 52

4.6.1 Các bảng dữ liệu trong cơ sở dữ liệu 52

4.6.2 Mô hình cơ sở dữ liệu quan hệ 57

4.7 Ứng dụng mô hình giải thuật vào bài toán 57

4.7.1 Ứng dụng của giải thuật apriori vào bài toán 57

Trang 5

4.7.2 Ứng dụng của giải thuật tìm kiếm vào bài toán 59

4.8 Giao diện 60

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 63

5.1 Kết luận 63

5.2 Hướng phát triển 63

TÀI LIỆU THAM KHẢO 64

Trang 6

DANH SÁCH HÌNH VẼ

Hình 1: Biểu đồ UC mức khung cảnh 38

Hình 2: Biểu đồ UC ca sử dụng Login 39

Hình 3: Biểu đồ UC ca sử dụng Logout 39

Hình 4: Biểu đồ UC quản lý khách hàng 40

Hình 5: Biểu đồ UC quản lý mặt hàng 41

Hình 6: Biểu đồ lớp quản lý mặt hàng 42

Hình 7: Biểu đồ trình tự thêm mặt hàng 42

Hình 8: Biểu đồ UC quản lý nhà cung cấp 44

Hình 9: Biểu đồ UC quản lý hóa đơn 45

Hình 10: Biểu đồ UC ca sử dụng quản lý luật gợi ý khách hàng 46

Hình 11: Biểu đồ UC quản lý thống kê 46

Hình 12: Biểu đồ UC đặt hàng 48

Hình 13: Biểu đồ UC quản lý game show 50

Hình 14: Biểu đồ ca sử dụng quản lý cửa hàng cá nhân 51

Hình 15 : Biểu đồ lớp cơ sở dữ liệu quan hệ 57

Hình 16: Minh họa giải thuật áp dụng vào bài 58

Hình 17: Giao diện trang chủ 60

Hình 18: Giao diện trang Admin 61

Hình 19: Giao diện trang xem sản phẩm và gợi ý 62

Trang 7

DANH SÁCH BẢNG BIỂU

Bảng sản phẩm (Product) 52

Bảng loại sản phẩm (ProductType) 52

Bảng khách hàng (User) 53

Bảng Đơn hàng(Order) 53

Bảng Chi tiết đơn hàng(OrderDetail) 54

Bảng Cửa hàng cá nhân(Shopmyself) 54

Bảng GameShow (Gameshow) 54

Bảng ThongTinSP(Customer) 55

Bảng nhà cung cấp (Supplier) 56

Bảng thuật toán Apriori (Apriori) 56

Bảng gợi ý theo nhóm người dùng (Suggest_Buy) 56

DANH SÁCH CÁC TỪ VIẾT TẮT

Trang 8

CHƯƠNG 1: TỔNG QUAN VỀ THƯƠNG MẠI ĐIỆN TỬ

Thương mại điện tử là hình thức mua bán hàng hóa và dịch vụ thông quamạng máy tính toàn cầu

Phạm vi của TMĐT rất rộng, bao quát hầu hết các lĩnh vực hoạt động kinh

tế Việc mua bán hàng hóa và dịch vụ chỉ là một trong hàng ngàn lĩnh vực áp dụngcủa TMĐT Theo nghĩa hẹp, TMĐT chỉ gồm các hoạt động thương mại được tiếnhành trên mạng máy tính mở như Internet Trên thực tế, chính các hoạt động thươngmại thông qua mạng Internet đã làm phát sinh thuật ngữ Thương mại điện tử

TMĐT gồm các hoạt động mua bán hàng hóa và dịch vụ qua phương tiệnđiện tử, giao nhận các nội dung kỹ thuật số trên mạng, chuyển tiền điện tử, mua bán

cổ phiếu điện tử, vận đơn điện tử, đấu giá thương mại, hợp tác thiết kế, tài nguyênmạng, mua sắm công cộng, tiếp thị trực tuyến đến người tiêu dùng và các dịch vụsau bán hàng TMĐT được thực hiện đối với cả thương mại hàng hóa (ví dụ nhưhàng tiêu dùng, các thiết bị y tế chuyên dụng) và thương mại dịch vụ (ví dụ nhưdịch vụ cung cấp thông tin, dịch vụ pháp lý, tài chính); các hoạt động truyền thống(như chăm sóc sức khỏe, giáo dục) và các hoạt động mới (ví dụ như siêu thị ảo).TMĐT đang trở thành một cuộc cách mạng làm thay đổi cách thức mua sắm củacon người

1.1 Các đặc trưng của Thương mại điện tử

So với các hoạt động Thương mại truyền thống, TMĐT có một số điểm khácbiệt cơ bản như sau:

- Các bên tiến hành giao dịch trong TMĐT không tiếp xúc trực tiếp với nhau

và không đòi hỏi biết nhau từ trước:

Trong Thương mại truyền thống các bên thường gặp gỡ nhau trực tiếp đểtiến hành giao dịch Các giao dịch được thực hiện chủ yếu theo nguyên tắc vật lýnhư chuyển tiền, séc, hóa đơn, vận đơn, gửi báo cáo Các phương tiện viễn thôngnhư: fax, telex chỉ được sử dụng để trao đổi số liệu kinh doanh Tuy nhiên, việc sửdụng các phương tiện điện tử trong Thương mại truyền thống chỉ để chuyển tảithông tin một cách trực tiếp giữa hai đối tác của cùng một giao dịch

TMĐT cho phép mọi người cùng tham gia từ các vùng xa xôi hẻo lánh đếncác khu vực đô thị lớn, tạo điều kiện cho tất cả mọi người ở khắp mọi nơi đều có cơ

Trang 9

hội ngang nhau tham gia vào thị trường giao dịch toàn cầu và không đòi hỏi nhấtthiết phải có mối quen biết với nhau.

- Các giao dịch Thương mại truyền thống được thực hiện với sự tồn tại của khái niệm biên giới quốc gia, còn TMĐT được thực hiện trong một thị trường không có biên giới (thị trường thống nhất toàn cầu) TMĐT trực tiếp tác động tới môi trường cạnh tranh toàn cầu:

TMĐT càng phát triển, thì máy tính cá nhân trở thành cửa sổ cho doanhnghiệp hướng ra thị trường trên khắp thế giới Với TMĐT, một doanh nhân dù mớithành lập đã có thể kinh doanh ở Nhật Bản, Đức và Chilê mà không hề phải bước

ra khỏi nhà, một công việc trước kia phải mất nhiều năm

- Trong hoạt động giao dịch TMĐT đều có sự tham ra của ít nhất ba chủ thể, trong đó có một bên không thể thiếu được là người cung cấp dịch vụ mạng, các cơ quan chứng thực:

Trong TMĐT, ngoài các chủ thể tham gia quan hệ giao dịch giống như giaodịch thương mại truyền thống đã xuất hiện một bên thứ ba đó là cung cấp dịch vụmạng, các cơ quan chứng thực… là những người tạo ra môi trường cho các giaodịch TMĐT Nhà cung cấp dịch vụ mạng và cơ quan chứng thực có nhiệm vụchuyển đi, lưu giữ các thông tin giữa các bên tham gia giao dịch TMĐT, đồng thời

họ cũng xác nhận độ tin cậy của các thông tin trong giao dịch TMĐT

- Đối với Thương mại truyền thống thì mạng lưới thông tin chỉ là phương tiện

để trao đổi dữ liệu, còn đối với TMĐT thì mạng lưới thông tin chính là thị trường:

Thông qua TMĐT, nhiều loại hình kinh doanh mới được hình thành Ví dụ: các dịch

vụ gia tăng giá trị trên mạng máy tính hình thành nên các nhà trung gian ảo làm cácdịch vụ môi giới cho giới kinh doanh và tiêu dùng, các siêu thị ảo được hình thành

để cung cấp hàng hóa và dịch vụ trên mạng máy tính

1.2 Cơ sở để phát triển Thương mại điện tử

Để phát triển TMĐT cần phải có hội đủ một số cơ sở:

Hạ tầng kỹ thuật Internet phải đủ nhanh, mạnh đảm bảo truyền tải các nội dungthông tin bao gồm âm thanh, hình ảnh trung thực và sống động Một hạ tầngInternet mạnh cho phép cung cấp các dịch vụ như xem phim, xem TV, nghe nhạcv.v trực tiếp Chi phí kết nối Internet phải rẻ để đảm bảo số người dùng Internet đủlớn

Trang 10

Hạ tầng pháp lý: phải có luật về TMĐT công nhận tính pháp lý của các chứng từđiện tử, các hợp đồng điện tử ký qua mạng, phải có luật bảo vệ quyền sở hữu trí tuệ,bảo vệ sự riêng tư, bảo vệ người tiêu dùng v.v để điều chỉnh các giao dịch quamạng.

Phải có cơ sở thanh toán điện tử an toàn bảo mật Thanh toán điện tử qua thẻ, quatiền điện tử, thanh toán qua EDI Các ngân hàng phải triển khai hệ thống thanh toánđiện tử rộng khắp

Phải có hệ thống cơ sở chuyển phát hàng nhanh chóng, kịp thời và tin cậy

Phải có hệ thống an toàn bảo mật cho các giao dịch, chống xâm nhập trái phép,chống virus, chống thoái thác

Phải có nhân lực am hiểu kinh doanh, công nghệ thông tin, TMĐT để triển khai tiếpthị, quảng cáo, xúc tiến, bán hàng và thanh toán qua mạng

1.3 Các loại hình giao dịch Thương mại điện tử

Trong TMĐT có ba chủ thể tham gia: Doanh nghiệp (B) giữ vai trò động lựcphát triển TMĐT, người tiêu dùng (C) giữ vai trò quyết định sự thành công củaTMĐT và chính phủ (G) giữ vai trò định hướng, điều tiết và quản lý Từ các mốiquan hệ giữa các chủ thể trên ta có các loại giao dịch TMĐT: B2B, B2C, B2G,C2G, C2C Sau đây là các loại hình giao dịch Thương mại điện tử:

2 Bảng 1.1 Các loại hình giao dịch Thương mại điện tử

(Business)

Khách hàng(Customer)

Chính phủ(Government)Doanh nghiệp

(Business)

B2B thông qua Internet,

Extranet, EDI

B2C bán hàng qua mạng

G2C quỹ hỗ trợ trẻ

em, sinh viên, học sinh

G2G giao dịch giữa các cơ quan chính phủ

Trang 11

Trong các loại hình giao dịch TMĐT trên thì 2 loại hình: B2B và B2C là 2loại hình quan trọng nhất:

B2B (Business To Business): Là mô hình TMĐT giữa các doanh nghiệp vớidoanh nghiệp

B2C (Business To Customer): Là mô hình TMĐT giữa doanh nghiệp vàngười tiêu dùng

Cả hai hình thức thươnng mại điện tử này đều được thực hiện trực tuyến trênmạng Internet Tuy nhiên, giữa chúng tồn tại sự khác biệt Trong khi Thương mạiđiện tử B2B được coi là hình thức kinh doanh bán buôn với lượng khách hàng làcác doanh nghiệp, các nhà sản xuất thì thương mại điện tử B2C lại là hình thức kinhdoanh bán lẻ với đối tượng khách hàng là các cá nhân

Trên thế giới, xu hướng thương mại điện tử B2B chiếm ưu thế vượt trội sovới B2C trong việc lựa chọn chiến lược phát triển của các công ty kinh doanh trựctuyến

Trong thương mại điện tử B2B, việc giao dịch giữa một doanh nghiệp vớimột doanh nghiệp khác thường bao gồm nhiều công đoạn: từ việc chào bán sảnphẩm, mô tả đặc tính kỹ thuật của sản phẩm cho đến đàm phán giá cả, điều kiệngiao hàng, phương thức thanh toán Chính vì vậy mà các giao dịch này được coi làphức tạp hơn so với bán hàng cho người tiêu dùng Thương mại điện tử B2B đượccoi như là một kiểu “phòng giao dịch ảo”, nơi sẽ thực hiện việc mua bán trực tuyếngiữa các công ty với nhau, hoặc có thể gọi là phòng giao dịch mà tại đó các doanhnghiệp có thể mua bán hàng hóa trên cơ sở sử dụng một nền công nghệ chung Khitham gia vào sàn giao dịch này, khách hàng có cơ hội nhận được những giá trị giatăng như dịch vụ thanh toán hay dịch vụ hậu mãi, dịch vụ cung cấp thông tin về cáclĩnh vực kinh doanh, các chương trình thảo luận trực tuyến và cung cấp kết quảnghiên cứu về nhu cầu của khách hàng cũng như các dự báo công nghiệp đối vớitừng mặt hàng cụ thể

1.4 Các hình thức hoạt động chủ yếu của Thương mại điện tử

1.4.1 Thư điện tử

Các doanh nghiệp, các cơ quan Nhà nước, sử dụng thư điện tử để gửi thưcho nhau một cách “trực tuyến” thông qua mạng, gọi là thư điện tử (electronic

Trang 12

mail, viết tắt là e-mail) Thông tin trong thư điện tử không phải tuân theo một cấutrúc định trước nào.

1.4.2 Thanh toán điện tử

Thanh toán điện tử là việc thanh toán tiền thông qua các phương tiện điện tử

Ví dụ: trả lương bằng cách chuyển tiền trực tiếp vào tài khoản, trả tiền mua hàngbằng thẻ mua hàng, thẻ tín dụng Ngày nay, với sự phát triển của TMĐT, thanh toánđiện tử đã mở rộng sang các lĩnh vực mới đó là:

- Trao đổi dữ liệu điện tử tài chính (Financial Electronic Data Interchange, gọi tắt

là FEDI)

- Tiền lẻ điện tử (Internet Cash)

- Ví điện tử (electronic purse)

- Giao dịch điện tử của ngân hàng (digital banking)

Trao đổi dữ liệu điện tử

Trao đổi dữ liệu điện tử (electronic data interchange, viết tắt là EDI) là việctrao đổi các dữ liệu dưới dạng “có cấu trúc” (stuctured form), từ máy tính điện tửnày sang máy tính điện tử khác, giữa các công ty hoặc đơn vị đã thỏa thuận bánbuôn với nhau

Theo Ủy ban liên hợp quốc về luật thương mại quốc tế (UNCITRAL), “Traođổi dữ liệu điện tử (EDI) là việc chuyển giao thông tin từ máy tính điện tử này sangmáy tính điện tử khác bằng phương tiện điện tử, có sử dụng một tiêu chuẩn đã đượcthỏa thuận để cấu trúc thông tin”

1.4.3 Truyền dung liệu

Dung liệu (Content) là nội dung của hàng hóa số, giá trị của nó không phảitrong vật mang tin mà nằm trong bản thân nội dung của nó Hàng hóa có thể đượcgiao qua mạng thay vì trao đổi bằng cách đưa vào các băng đĩa, in thành văn bản Ngày nay, dung liệu được số hóa và truyền gửi theo mạng, gọi là “giao gửi số hóa”(digital delivery)

1.4.4 Mua bán hàng hóa hữu hình

Đến nay, danh sách các hàng hóa bán lẻ qua mạng đã mở rộng, từ hoa đếnquần áo, đã làm xuất hiện một loạt hoạt động gọi là “mua hàng điện tử” hay “mua

Trang 13

hàng hóa hữu hình Tận dụng tính năng đa phương tiện của môi trường Web vàJava, người bán xây dựng trên mạng “các cửa hàng ảo”, gọi là ảo bởi vì cửa hàng cóthật nhưng ta chỉ xem toàn bộ quang cảnh cửa hàng và các hàng hóa chứa trong đótrên từng trang màn hình một.

1.5 Lợi ích của Thương mại điện tử

1.5.1 Thu thập được nhiều thông tin

TMĐT giúp người ta tham gia thu được nhiều thông tin về thị truờng, đốitác, giảm chi phí tiếp thị và giao dịch, rút ngắn thời gian sản xuất, tạo dựng và củng

cố quan hệ bạn hàng Các doanh nghiệp nắm được thông tin phong phú về kinh tếthị trường, nhờ đó có thể xây dựng được chiến lược sản xuất và kinh doanh thíchhợp với xu thế phát triển của thị trường trong nước, khu vực và quốc tế Điều nàyđặc biệt có ý nghĩa đối với các doanh nghiệp vừa và nhỏ, hiện nay đang được nhiềunước quan tâm, một trong những động lực phát triển kinh tế

1.5.2 Giảm chi phí sản xuất

TMĐT giúp giảm chi phí sản xuất, trước hết là chi phí văn phòng Các vănphòng không giấy tờ (paperless office) chiếm diện tích nhỏ hơn rất nhiều, chi phítìm kiếm chuyển giao tài liệu giảm rất nhiều lần (trong đó khâu in ấn được bỏ hẳn).Theo số liệu của hãng General Electricity của Mỹ, tiết kiệm theo hướng này đạt tới30% Điều quan trọng hơn, với góc độ chiến lược, là các nhân viên có năng lựcđược giải phóng khỏi nhiều công đoạn sự vụ có thể tập trung vào nghiên cứu pháttriển, sẽ đưa đến những lợi ích to lớn lâu dài

1.5.3 Giảm chi phí bán hàng, tiếp thị và giao dịch

TMĐT giúp giảm thấp chi bán hàng và chi phí tiếp thị Bằng phương tiệnInternet/Web, một nhân viên bán hàng có thể giao dịch được với rất nhiều kháchhàng, catalogue điện tử (electronic catalogue) trên Web phong phú hơn nhiều vàthường xuyên cập nhật so với catalogue in ấn chỉ có khuôn khổ giới hạn và luônluôn lỗi thời Theo số liệu của hãng máy bay Boeing của Mỹ, đã có tới 50% kháchhàng đặt mua 9% phụ tùng qua Internet (và nhiều các đơn hàng về lao vụ kỹ thuật),

và mỗi ngày giảm bán được 600 cuộc gọi điện thoại

TMĐT qua Internet/Web giúp người tiêu thụ và các doanh nghiệp giảm đáng

kể thời gian và chi phí giao dịch (giao dịch được hiểu là từ quá trình quảng cáo, tiếpxúc ban đầu, giao dịch đặt hàng, giao dịch thanh toán) Thời gian giao dịch quaInternet chỉ bằng 7% thời gian giao dịch qua Fax, và bằng khoảng 0.5 phần nghìn

Trang 14

thời gian giao dịch qua bưu điện chuyển phát nhanh, chi phí thanh toán điện tử quaInternet chỉ bằng từ 10% đến 20% chi phí thanh toán theo lối thông thường

Tổng hợp tất cả các lợi ích trên, chu trình sản xuất (cycle time) được rútngắn, nhờ đó sản phẩm mới xuất hiện nhanh và hoàn thiện hơn

1.5.4 Xây dựng quan hệ với đối tác

TMĐT tạo điều kiện cho việc thiết lập và củng cố mối quan hệ giữa cácthành viên tham gia vào quá trình thương mại: thông qua mạng (Internet/Web) cácthành viên tham gia (người tiêu thụ, doanh nghiệp, các cơ quan Chính phủ ) có thểgiao tiếp trực tiếp (liên lạc “ trực tuyến”) và liên tục với nhau, có cảm giác nhưkhông có khoảng cách về địa lý và thời gian nữa; nhờ đó sự hợp tác và sự quản lýđều được tiến hành nhanh chóng một cách liên tục: các bạn hàng mới, các cơ hộikinh doanh mới được phát hiện nhanh chóng trên phạm vi toàn quốc, toàn khu vực,toàn thế giới, và có nhiều cơ hội để lựa chọn hơn

1.5.5 Tạo điều kiện sớm tiếp cận kinh tế tri thức

Trước hết, TMĐT sẽ kích thích sự phát triển của ngành công nghệ thông tintạo cơ sở cho sự phát triển kinh tế tri thức Lợi ích này có một ý nghĩa lớn đối vớicác nước đang phát triển: nếu không nhanh chóng tiếp cận nền kinh tế tri thức thìsau khoảng một thập kỷ nữa, nước đang phát triển có thể bị bỏ rơi hoàn toàn Khíacạnh lợi ích này mang tính chiến lược công nghệ và tính chính sách phát triển cầncho các nước công nghiệp hóa

1.6 Những trở ngại của việc tiếp cận Thương mại điện tử

Trong hầu hết các trường hợp, nếu có một hệ thống TMĐT sẽ mang lại nhiềuthuận lợi và lợi ích trong kinh doanh Thế nhưng, tại sao nhiều doanh nghiệp vẫnkhông tận dụng các tiến bộ kỹ thuật tuyệt vời của Internet và TMĐT? Đó chính làmột số rào cản hay nói cách khác đó chính là những khó khăn khi các doanh nghiệptiếp cận đến TMĐT:

Không thích thay đổi.

Thiếu hiểu biết về công nghệ.

Sự chuẩn bị đầu tư và chi phí.

Không có khả năng để bảo trì.

Thiếu sự phối hợp với các công ty vận chuyển.

Trang 15

Trong tất cả các lý do trên, “không thích thay đổi” là lý do phổ biến nhấtngăn cản doanh nghiệp tham gia vào TMĐT, họ cảm thấy đơn giản hơn với những

gì họ đã làm Ví dụ một chủ doanh nghiệp nhỏ, họ đã có nhiều năm thành côngtrong công việc kinh của họ, rõ ràng họ không muốn chuyển đến một hệ thốngTMĐT vì nếu vậy họ phải có một thời gian khá dài để thích ứng với sự thay đổinày Đây là loại tư duy thường liên quan trực tiếp đến lý do “thiếu hiểu biết về côngnghệ” mà nhiều cá nhân ngày nay đang lo ngại bởi kỹ thuật - công nghệ cao và cũngkhông thạo trong lĩnh vực công nghệ của doanh nghiệp Vì vậy, điều lo sợ về côngnghệ (hoặc các khía cạnh của học tập mới của công nghệ) là một rào cản lớn trongthị trường TMĐT Ngoài ra, TMĐT sẽ luôn yêu cầu một đầu tư ngay từ ban đầu đểthiết lập một hệ thống Bên cạnh đó, để nâng cao hệ thống TMĐT sẽ phải duy trìqua thời gian và đây cũng chính là một rào cản Vì vậy, để tiếp cận TMĐT, cácdoanh nghiệp phải xem xét mọi tình huống trên cở sở cá nhân doanh nghiệp và dựthảo một chiến lược để vượt qua những trở ngại đó

Trang 16

CHƯƠNG 2: CÁC HỆ HỖ TRỢ RA QUYẾT ĐỊNH

Cùng với sự phát triển không ngừng của tin học ngày nay, các thiết bị phầncứng ngày càng mạnh mẽ, khả năng lưu trữ dữ liệu khổng lồ Sự phát triển của côngnghệ thông tin đã khác quá xa so với cách đây vài năm Song song với sự phát triểnphần cứng, các chương trình phần mềm ngày càng phát triển, đặc biệt là các chươngtrình quản trị CSDL như Oracle, SQL Server, … có thể lưu trữ, quản trị một lượng

dữ liệu khổng lồ Chúng ta đang nắm giữ một lượng dữ liệu khổng lồ, nhưng chúng

ta lại rơi vào tình trạng “thừa dữ liệu nhưng thiếu thông tin và các tri thức có giátrị” Cuộc sống ngày càng phát triển dẫn đến con người có nhiều đòi hỏi hơn, nhất

là trong công nghệ thông tin thì việc chắt lọc các tri thức trong kho dữ liệu khổng lồcàng trở lên quang trọng Chính vì vậy, vấn đề đặt ra cho chúng la là làm thế nàotìm hiểu, khám phá và chắt lọc ra các thông tin tri thức ý quan trọng trong kho dữliệu khổng lồ kia Đây chính là nguyên nhân để khai phá dữ liệu (data mining) rađời và đánh dấu một kỉ nguyên mới cho công nghệ thông tin, thúc đẩy sự phát triểncủa các phương pháp cùng thuật toán khác nhau, giải quyết các bài toán về quản lý

dữ liệu

Hiện nay, khai phá dữ liệu đã không còn xa lạ đối với chúng ta nữa Khai phá

dữ liệu được nói đến trên sách báo, trong các cuộc hội thảo, các ứng dụng côngnghệ thông tin, người ta nhắc đến rất nhiều Khai phá dữ liệu (data mining) đượcứng dụng và triển khai rộng rãi trong các lĩnh vực công nghệ thông tin và các hoạtđộng kinh doanh Trong đó hệ ra quyết định là một phần trong khai phá dữ liệu,giúp tìm kiếm các thông tin có ích, cùng các “quy luật”, các “hành vi” của nhữngđối tượng nào đó và thậm trí có thể “đoán trước tương lai” Vậy khai phá dữ liệu làgì? Hệ hỗ trợ ra quyết định là gì? Và ứng dụng của nó trong công nghệ thông tin vàcác hoạt động kinh doanh?

2.1 Khai phá dữ liệu là gì?

2.1.1 Khái niệm

Khai phá dữ liệu là một khái niệm ra đời vào những năn cuối của thập kỷ 80

Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩntrong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quanđến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình cótính chính quy (regularities) trong tập dữ liệu

Trang 17

Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát

hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ

toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn Trong đó, khai

phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc

biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu

2.1.2 Ví dụ minh họa

Để minh họa hoạt động cũng

như mẫu chiết xuất được của quá

trình khai phá dữ liệu, trong chương

này chúng ta sẽ dùng chủ yếu một ví

dụ đơn giản như đã cho trên Hình

2.2 Hình 2.2 mô tả một tập dữ liệu

hai chiều gồm có 23 điểm mẫu Mỗi

điểm biểu thị cho một khách hàng đã

vay ngân hàng Trục hoành biểu thị

cho thu nhập, trục tung biểu thị cho

tổng dư nợ của khách hàng Dữ liệu

khách hàng được chia thành hai lớp: dấu x biểu thị cho khách hàng bị vỡ nợ, dấu o

biểu thị cho khách hàng có khả năng trả nợ Tập dữ liệu này có thể chứa những

thông tin có ích đối với các tổ chức tín dụng trong việc ra quyết định có cho khách

hàng vay nữa không Ví dụ như ta có mẫu “Nếu thu nhập < t đồng thì khách hàng

vay sẽ bị vỡ nợ” như mô tả trên Hình 2.2

2.2 Một số phương pháp khai thác dữ liệu phổ biến

Như đã phân tích ở trên, ta thấy khai phá dữ liệu không có gì mới mà hoàn

toàn dựa trên các phương pháp cơ bản đã biết Vậy khai phá dữ liệu có gì khác so

với các phương pháp đó? Và tại sao khai phá dữ liệu lại có ưu thế hơn hẳn chúng?

Các phân tích sau đây sẽ giải đáp câu hỏi này

Mặc dù người ta đã cố gắng cải tiến các phương pháp học máy để có thể phù

hợp với mục đích khai phá dữ liệu nhưng sự khác biệt giữa cách thiết kế, các đặc

điểm của cơ sở dữ liệu đã làm cho phương pháp học máy trở nên không phù hợp

với mục đích này, mặc dù cho đến nay, phần lớn các phương pháp khai phá dữ liệu

vẫn đựa trên nền tảng cơ sở của phương pháp học máy Những phân tích sau đây sẽ

cho thấy điều đó

XXX

XXXX

X

X

XNợ

Thu nhậpCho vay

Không cho vay

Hình 1: Phân lớp dữ liệu khách hàng

Trang 18

Trong quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp được tích hợpmột cách logic của dữ liệu được lưu trong một hay nhiều tệp và được tổ chức để lưutrữ có hiệu quả, sửa đổi và lấy thông tin liên quan được dễ dàng Ví dụ như trong cơ

sở dữ liệu quan hệ, dữ liệu được tổ chức thành các tệp hoặc các bảng có các bản ghi

có độ dài cố định Mỗi bản ghi là một danh sách có thứ tự các giá trị, mỗi giá trịđược đặt vào một trường Thông tin về tên trường và giá trị của trường được đặttrong một tệp riêng gọi là thư viện dữ liệu (data dictionary) Một hệ thống quản trị

cơ sở dữ liệu sẽ quản lý các thủ tục (procedures) để lấy, lưu trữ, và xử lý dữ liệutrong các cơ sở dữ liệu đó

Trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập đến một tập các mẫu(instance hay example) được lưu trong một tệp Các mẫu thường là các vector đặcđiểm có độ dài cố định Thông tin về các tên đặc điểm, dãy giá trị của chúng đôi khicũng được lưu lại như trong từ điển dữ liệu Một giải thuật học còn sử dụng tập dữliệu và các thông tin kèm theo tập dữ liệu đó làm đầu vào và đầu ra biểu thị kết quảcủa việc học (ví dụ như một khái niệm)

Với so sánh cơ sở dữ liệu thông thường và CSDL trong học máy như trên, cóthể thấy là học máy có khả năng được áp dụng cho cơ sở dữ liệu, bởi vì không phảihọc trên tập các mẫu mà học trên tệp các bản ghi của cơ sở dữ liệu

Tuy nhiên, phát hiện tri thức trong cơ sở dữ liệu làm tăng thêm các vấn đềvốn đã là điển hình trong học máy và đã quá khả năng của học máy Trong thực tế,

cơ sở dữ liệu thường động, không đầy đủ, bị nhiễu, và lớn hơn nhiều so với các tập

dữ liệu học máy điển hình Các yếu tố này làm cho hầu hết các giải thuật học máytrở nên không hiệu quả trong hầu hết các trường hợp Vì vậy trong khai phá dữ liệu,cần tập trung rất nhiều công sức vào việc vượt qua những khó khăn, phức tạp nàytrong CSDL

2.2.2 Phương pháp hệ chuyên gia

Các hệ chuyên gia cố gắng nắm bắt các tri thức thích hợp với một bài toánnào đó Các kỹ thuật thu thập giúp cho việc lấy tri thức từ các chuyên gia conngười Mỗi phương pháp đó là một cách suy diễn các luật từ các ví dụ và giải phápđối với bài toán chuyên gia đưa ra Phương pháp này khác với khai phá dữ liệu ởchỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn rất nhiều so với các

dữ liệu trong cơ sở dữ liệu, và chúng thường chỉ bao được các trường hợp quantrọng Hơn nữa, các chuyên gia sẽ xác nhận tính giá trị và hữu dụng của các mẫu

Trang 19

phát hiện được Cũng như với các c6ng cụ quản trị cơ sở dữ liệu, ở các phươngpháp này đòi hỏi có sự tham gia của con người trong việc phát hiện tri thức.

2.2.3 Phát kiến khoa học

Khai phá dữ liệu rất khác với phát kiến khoa học ở chỗ những khai phá trong

cơ sở dữ liệu ít có chủ tâm và có điều khiển hơn Các dữ liệu khoa học có từ thựcnghiệm nhằm loại bỏ tác động của một số tham số để nhấn mạnh độ biến thiên củamột hay một số tham số đích Tuy nhiên, các cơ sở dữ liệu thương mại điển hình lạighi một số lượng thừa thông tin về các dự án của họ để đạt được một số mục đích

về mặt tổ chức Độ dư thừa này (hay có thể gọi là sự lẫn lộn – confusion) có thểnhìn thấy và cũng có thể ẩn chứa trong các mối quan hệ dữ liệu Hơn nữa, các nhàkhoa học có thể tạo lại các thí nghiệm và có thể tìm ra rằng các thiết kế ban đầukhông thích hợp Trong khi đó, các nhà quản lý cơ sở dữ liệu hầu như không thể xa

xỉ đi thiết kế lại các trường dữ liệu và thu thập lại dữ liệu

2.2.4 Phương pháp thống kê

Một câu hỏi hiển nhiên là khai phá dữ liệu khác gì so với phương pháp thống

kê Từ nhiều năm nay, con người đã sử dụng phương pháp thống kê một cách rấthiệu quả để đạt được những mục đích của mình

Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết vữngchắc cho các bài toàn phân tích dữ liệu nhưng chỉ có tiếp cận thống kê thuần túythôi chưa đủ Thứ nhất, các phương pháp thống kê chuẩn không phù hợp đối vớicác kiểu dữ liệu có cấu trúc trong rất nhiều các cơ sở dữ liệu Thứ hai, thống kêhoàn toàn theo dữ liệu (data driven), nó không sử dụng tri thức sẵn có về lĩnh vực.Thứ ba, các kết quả phân tích thống kê có thể sẽ rất nhiều và khó có thể làm rõđược Cuối cùng, các phương pháp thống kê cần có sự hướng dẫn của người dùng

để xác định phân tích dữ liệu như thế nào và ở đâu

Sự khác nhau cơ bản giữa khai phá dữ liệu và thống kê là ở chỗ khai phá dữliệu là một phương tiện được dùng bởi người sử dụng đầu cuối chứ không phải làcác nhà thống kê Khai phá dữ liệu tự động quá trình thống kê một cách có hiệu quả,

vì vậy làm nhẹ bớt công việc của người dùng đầu cuối, tạo ra một công cụ dễ sửdụng hơn Như vậy, nhờ có khai phá dữ liệu, việc dự đoán và kiểm tra rất vất vảtrước đây có thể được đưa lên máy tính, được tính, dự đoán và kiểm tra một cách tựđộng

Trang 20

2.3 Tình hình ứng dụng khai phá dữ liệu.

Mặc dù còn rất nhiều vấn đề mà khai phá dữ liệu cần phải tiếp tục nghiêncứu để giải quyết nhưng tiềm năng của nó đã được khẳng định bằng sự ra đời củarất nhiều ứng dụng

Khai phá dữ liệu được ứng dụng rất thành công trong “cơ sở dữ liệu thịtrường” (database marketing), đây là một phương pháp phân tích cơ sở dữ liệukhách hàng, tìm kiếm các mẫu trong số các khách hàng và sử dụng các mẫu này đểlựa chọn các khách hàng trong tương lai Tạp chí Business Week của Mỹ đã đánhgiá hơn 50% các nhà bán lẻ đang và có ý định sử dụng “cơ sở dữ liệu thị trường”cho hoạt động kinh doanh của họ (Berry 1994) Kết quả ứng dụng cho thấy sốlượng thẻ tín dụng American Express bán ra đã tăng 15% - 20% (Berry 1994) Cácứng dụng khác của khai phá dữ liệu trong kinh doanh như phân tích chứng khoán vàcác văn kiện tài chính; phân tích và báo cáo những thay đổi trong dữ liệu, bao gồmCoverstory của IRI (Schmitz, Armstrong, & Little 1990), Spotlight của A.C Nielsen(nand & Kahn 1992) đối với các dữ liệu bán hàng trong siêu thị, KEFIR của GTEcho cơ sở dữ liệu y tế (Matheus, Piatetsky-Shapiro, & McNeil); phát hiện và phòngchống gian lận cũng thường là bài toán của khai phá dữ liệu và phát hiện tri thức Ví

dụ như hệ thống phát hiện gian lận trong dịch vụ y tế đã được Major và Riedingerphát triển tại Travelers insurance năm 1992 Internal Revenue Service đã phát triểnmột hệ thống chọn thuế thu để kiểm toán Nestor FDS (Blanchard 1994) được pháttriển dựa trên mạng neuron để phát hiện ra gian lận trong thẻ tín dụng

Các ứng dụng của khai phá dữ liệu trong khoa học cũng được phát triển Ta

có thể đưa ra một số ứng dụng trong khoa học như:

 Thiên văn học: Hệ thống SKICAT do JPL/Caltech phát triển được sửdụng cho các nhà thiên văn để tự động xác định các vì sao và các dảithiên hà trong một bản khảo sát lớn để có thể phân tích và phân loại(Fayyad, Djorgovski, & Weir)

 Phân tử sinh học: Hệ thống tìm kiếm các mẫu trong cấu trúc phân tử(Conklin, Fortier, và Glasgow 1993) và trong các dữ liệu gen (Holder,Cook, và Djoko 1994)

 Mô hình hóa những thay đổi thời tiết: các mẫu không thời gian như lốc,gió xoáy được tự động tìm thấy trong các tập lớn dữ liệu mô phỏng vàquan sát được (Stolorz et al 1994)

Trang 21

1.1. Hệ hỗ trợ ra quyết định.

1.1.1 Khái niệm

Trong thập niên 1970, Scott Morton đưa ra khái niệm đầu tiên về Hệ hỗ trợ

ra quyết định (Decision Support Systems - DSS) Ông định nghĩa DSS như là những hệ thống máy tính tương tác nhằm giúp những người ra quyết định sử dụng dữ liệu và mô hình để giải quyết các vấn đề không có cấu trúc

Hệ Hỗ Trợ Quyết Định - HHTQĐ là các hệ dựa trên máy tính, có tính tương tác, giúp các nhà ra quyết định dùng dữ liệu và mô hình để giải quyết các bài toán phi cấu trúc (S Morton, 1971) HHTQĐ kết hợp trí lực của con người với năng lực của máy tính để cải tiến chất lượng của quyết định Đây là các hệ dựa vào máy tính hỗ trợ cho người ra quyết định giải các bài toán nửa cấu trúc (Keen and Scott Morton, 1978) HHTQĐ là tập các thủ tục dựa trên mô hình nhằm xử lý dữ liệu và phán đoán của con người để giúp nhà quản lý ra quyết định (Little, 1970)

1.1.2 Các thành phần của Hệ hỗ trợ ra quyết định

Một hệ hỗ trợ ra quyết định gồm có bốn thành phần chính:

- Phân hệ Quản lý dữ liệu

- Phân hệ Quản lý mô hình

- Phân hệ Quản lý dựa vào kiến thức

- Phân hệ Quản lý giao diện người dùng

Tuy nhiên không phải hệ hỗ trợ ra quyết định nào cũng có đầy đủ những thành phần trên

Trang 22

CHƯƠNG 3 CÁC THUẬT TOÁN HỖ TRỢ RA QUYẾT

dữ liệu thì ta gọi là một tập phổ biến Một dãy tuần tự các hành vi, chẳng hạn như

“mua máy tính trước, sau đó là mua máy camera kỹ thuật số, rồi đến thẻ nhớ”, nếuđiều này thường gặp trong cơ sở dữ liệu của cửa hàng, thì nó là một dãy tuần tự phổbiến Một cấu trúc như Graph, Tree, lattices, hay có thể kết hợp với itemsets haysubsequences Nếu cấu trúc đó xuất hiện thường xuyên, nó được gọi là mẫu cấu trúcphổ biến Tìm kiếm những mẩu phổ biến như vậy đóng vai trò rất quan trọng trongviệc khai thác các luật kết hợp, các mối tượng quan và nhiều quan hệ thú vị khác từ

cơ sở dữ liệu Hơn thế nữa, nó còn giúp giải quyết các bài toán như phân loại, phânnhóm và nhiều bài toán khác Chính vì vậy, khai thác mẫu phổ biến hiện nay là mộtbài toán rất quan trọng trong lĩnh vực Data Mining và là một chủ đề đáng quan tâmkhi nghiên cứu về Data Mining

3.1.2 Luật kết hợp.

Cho I = {I1, I2,….,Im} là một tập các items Cho D là bộ dữ liệu có liên quanđến bài toán, và là một tập trong CSDL giao dịch Mỗi giao dịch T là một tập cácitems và TI Mỗi giao dịch có một định danh, được gọi là TID Cho A là tập cácitems Một giao dịch T được gọi là chứa A khi và chỉ khi A T

Một luật kết hợp có dạng A=>B, với A I, B I và A B = Ø Luật A=>Bngầm chứa trong D với độ đo support s, trong đó s là tỷ lệ các giao dịch trong Dchứa A B, được diễn tả bằng xác suất P(A B) Luật A=>B có độ đo confidence

c trong tập D, thì c là tỷ lệ giữa các giao dịch trong D chứa A thì chứa luôn B, đượcdiễn tả bằng xác suất P(B | A) nghĩa là:

support (A=>B) = P( A B) (3.2)

confidence (A=>b) = P( B|A ) (3.3)

Những luật thỏa mãn cả hai ngưỡng min_sup và min_conf được gọi là mạnh

Trang 23

Một tập các items được gọi là itemset Một itemset chứa k items được gọi làk-itemset Chẳng hạn tập {computer, antivirus_software} là 2-itemset Độ phổ biếncủa một itemset là số lượng các giao dịch có chứa itemset Thường được biết vớicác tên là support count, hay count của itemset

Nếu độ đo support count của một itemset I thỏa ngưỡng min_sup cho trướcthì I là một tập phổ biến Một tập phổ biến gồm k-items được ký hiệu là L k.

có thể chuyển về bài toán khai thác các tập phổ biến

3.1.3 Thuật toán: Apriori.

Thuật toán: Apriori Tìm các tập item phổ biến bằng cách sử dụng một cáchtiếp cận level-wise lặp đi lặp lại dựa trên sự phát sinh ứng viên

Input:

D, cơ sở dữ liệu của các giao tác;

min_sup, ngưỡng độ hỗ trợ tối thiểu

Output: L, các tập item phổ biến trong D

Method:

(1) L1 = find_frequent_1-itemsets(D);

(2) for (k = 2;Lk-1  0;k++)

(3) Ck = apriori_gen(Lk-1);

(4) for each giao tác t  D // quét D để đếm

(5) Ct = subset(Ck, t); // lấy các tập con của t mà là các ứng viên

(6) for each ứng viên c  Ct

Trang 24

procedure apriori_gen(Lk-1:tập (k-1) item phổ biến)

(1) for each tập item l1  Lk-1

(2) for each tập item l2  Lk-1

(3) if (l1[1] = l2[1])  (l1[2] = l2[2])  …  (l1[k-2] = l2[k-2])  (l1[k-1] < l21]) then {

[k-(4) c = l1 kết l2; // bước kết: phát sinh các ứng viên

procedure has_infrequent_subset(c: ứng viên tập k item;

Lk-1: các tập (k-1) item phổ biến); // sử dụng kiến thức trước

(1) for each tập con (k-1) s of c

Trang 25

sẽ có các luật sau

{A1} => {A2,A5},{A2} =>{A1,A5},{A5} =>{A1,A2}

{A1,A2} =>{A5},{A1,A5} =>{A2},{A2,A5} => {A1}

Ví dụ: Giả sử ta có có sở dữ liệu giao dịch (Transaction Database -TDB) như sau :Bảng biểu 1: Sơ đồ minh họa thuật toán apriori

Thuật toán Apriori khai phá luật kết hợp được mô tả qua các bước sau

Ta có frequent itemsets I ={B,C,E}, với min_conf =80% ta có 2 luật kết hợp là{B,C} => {E} và {C,E} => {B}

Trang 26

Giả sử có cơ sở dữ liệu giao dịch bán hàng gồm 5 giao dịch như sau:

Thuật toán Apriori tìm các luật kết hợp trong giao dịch bán hàng trên như sau:

Trang 27

Kết quả ta có các luật kết hợp sau (với min_sup= 40%, min_conf=70%)

R1: Beer => Diaper (support =60%, confidence = 75%)

R2: Diaper =>Beer (support =60%,confidence = 75%)

R3: Milk =>Beer (support =40%, confidence = 100%)

R4: Baby Powder => Diaper (support =40%,confidence = 100%)

Từ kết quả các luật được sinh ra bởi giao dịch bán hàng trên, ta thấy rằng có luật cóthể tin được (hợp lý) như Baby Powder => Diaper, có luật cần phải phân tích thêmnhư Milk =>Beer và có luật có vẻ khó tin như Diaper =>Beer.Ví dụ này sinh ra cácluật có thể không thực tế vì dữ liệu dùng để phân tích (transaction database) hay còngọi là tranining data rất nhỏ

Thuật toán Apriori được dùng để phát hiện các luật kết hợp dạng khẳng định(Positive Rule X=>Y) nhị phân (Binary Association Rules) chứ không thể phát hiệncác luật kết hợp ở dạng phủ định (Negative Association Rule) chẳn hạn như các kếthợp dạng “Khách hàng mua mặt hàng A thường KHÔNG mua mặt hàng B” hoặc

“Nếu ủng hộ quan điểm A thường KHÔNG ủng hộ quan điểm B” Khai phá cácluật kết hợp dạng phủ định (Mining Negative Association Rules) có phạm vi ứngdụng rất rộng và thú vị nhất là trong Marketing, Health Care và Social NetworkAnalysis

Trang 28

3.2 Thuật toán tìm kiếm chuỗi gần đúng.

Sự tương tự giữa hai chuỗi ký tự theo các độ đo kinh điển (dãy con chung dàinhất, xâu con chung dài nhất, khoảng cách Edit, …) chỉ hiệu quả khi có lỗi xảy ra ởmẫu hay văn bản do một số ký tự bị xóa, chèn, thay thế và đều coi trọng trật tự củacác ký tự trong chuỗi Tuy nhiên các tiếp cận này chưa đáp ứng đầy đủ nhu cầu thực

tế khi tìm kiếm thông tin tương tự trong các hệ thống xử lý văn bản

Khi ứng dụng trong thực tế, mỗi từ có thể xem là một “ký tự hình thức” Vớimẫu P là câu “Hà Nội là thủ đô của nước Việt Nam”, có thể hình thức hóa P =abcdefghk và chuỗi S là “Đất nước Việt Nam chúng ta có thủ đô là Hà Nội”, vàhình thức hóa S = lghkmnodecab Tính độ tương tự giữa hai chuỗi theo các độ đokinh điển được các kết quả như sau:

Độ dài dãy con chung dài nhất: 3, vậy độ tương tự có thể xem là 3/12 [1] Khoảng các Edit: 15 (số phép xóa chèn hay thay thế ký tự để biến đổi chuỗi Pthành S) [1]

Khoảng cách Hamming chỉ có thể áp dụng cho hai chuỗi có độ dài bằng nhaunên không thể áp dụng để tính độ tương tự giữa hai chuỗi này [1]

Bằng các phương pháp trên, độ tương tự giữa P và S rất nhỏ, song về mặt ngữnghĩa có thể nói là rất gần nhau Các tình huống tương tự rất hay gặp trong thực tế,như khi cần tìm kiếm tên người nước ngoài (chẳng hạn ‘C.J.Date’ và ‘Date.C.J’,

“Christian Charras” và “Charas C.”), khi có sự sai khác do biến đổi hình thái từ, cấutrúc câu (“approximate searching” và “search approximately”), một số trường hợpthứ tự ghép từ khác nhau nhưng mang ngữ nghĩa gần giống nhau (“toán logic” và

“logic toán”, “lung linh” và “linh lung”) hoặc do thứ tự sai song vẫn hiểu được đúngnghĩa (“toán giải tích” và “giải tích toán”) [1]

Độ tương tự được đề xuất ở đây cho phép đo độ tương tự về mặt hình thứcgiữa hai chuỗi theo quan điểm thống kê

Trong các thuật toán của bộ môn khoa học máy tính, khái niệm Khoảng cáchLevenshtein thể hiện khoảng cách khác biệt giữa 2 chuỗi kí tự Khoảng cáchLevenshtein giữa chuỗi S và chuỗi T là số bước ít nhất biến chuỗi S thành chuỗi Tthông qua 3 phép biến đổi là

 xoá 1 kí tự

Trang 29

 thay kí tự này bằng kí tự khác.

Khoảng cách này được đặt theo tên Vladimir Levenshtein, người đã đề ra kháiniệm này vào năm 1965 Nó được sử dụng trong việc tính toán sự giống và khácnhau giữa 2 chuỗi, như chương trình kiểm tra lỗi chính tảcủa winword spellchecker Ví dụ: Khoảng cách Levenshtein giữa 2 chuỗi "kitten"

và "sitting" là 3, vì phải dùng ít nhất 3 lần biến đổi

1 kitten -> sitten (thay "k" bằng "s")

2 sitten -> sittin (thay "e" bằng "i")

3 sittin -> sitting (thêm kí tự "g")

Để tính toán Khoảng cách Levenshtein, ta sử dụng thuật toán quy hoạchđộng, tính toán trên mảng 2 chiều (n+1)*(m+1), với n, m là độ dài của chuỗicần tính Sau đây là đoạn mã (S, T là chuỗi cần tính khoảng cách, n, m là độdài của chuỗi S, T):

int LevenshteinDistance(char s[1 m], char t[1 n])

// d is a table with m+1 rows and n+1 columns

d[i-1, j] + 1, // trường hợp xoá

d[i, j-1] + 1, // trường hợp thêm

d[i-1, j-1] + cost // trường hợp thay thế

)

}

return d[m, n]

4 ví dụ,

Trang 30

Giá trị bảng so sánh chuối kí tự:

Trang 31

CHƯƠNG 4 PHÂN TÍCH THIẾT KẾ HỆ THỐNG

Cùng với sự phát triển không ngừng về kỹ thuật máy tính và mạng điện tử,công nghệ thông tin cũng được những công nghệ có đẳng cấp cao và lần lượt chinhphục hết đỉnh cao này đến đỉnh cao khác Mạng Internet là một trong những sảnphẩm có giá trị hết sức lớn lao và ngày càng trở nên một công cụ không thể thiếu, lànền tảng chính cho sự truyền tải, trao đổi thông tin trên toàn cầu

Giờ đây, mọi việc liên quan đến thông tin trở nên thật dễ dàng cho người sửdụng: chỉ cần có một máy tính kết nối internet và một dòng dữ liệu truy tìm thì gầnnhư lập tức… cả thế giới về vấn đề mà bạn đang quan tâm sẽ hiện ra, có đầy đủthông tin, hình ảnh và thậm chí đôi lúc có cả những âm thanh nếu bạn cần…

Bằng internet, chúng ta đã thực hiện được nhiều công việc với tốc độ nhanhhơn và chi phí thấp hơn nhiều so với cách thức truyền thống Chính điều này, đãthúc đẩy sự khai sinh và phát triển của thương mại điện tử và chính phủ điện tử trênkhắp thế giới, làm biến đổi đáng kể bộ mặt văn hóa, nâng cao chất lượng cuộc sốngcon người

Trong hoạt động sản xuất, kinh doanh, giờ đây, thương mại điện tử đãkhẳng định được vai trò xúc tiến và thúc đẩy sự phát triển của doanh nghiệp Đốivới một cửa hàng bán linh kiện điện tử, việc quảng bá và giới thiệu đến khách hàngcác sản phẩm do công ty của bạn bán và các sự kiện khuyến mãi trong từng thờiđiểm một cách hiệu quả và kịp thời là yếu tố mang tính quyết định cho sự tồn tại vàphát triển của công ty Vì vậy, sẽ thật thiếu sót nếu công ty của bạn chưa xây dựngđược một website để giới thiệu rộng rãi các sản phẩm Và một vấn đề được đặt rasong song cùng với nó, là làm sao để có thể quản lý và điều hành website một cách

dễ dàng và hiệu quả, có như vậy, thì mới tránh được sự nhàm chán cho những kháchhàng thường xuyên của website, và thu được những kết quả như mong muốn Đây

là vấn đề hết sức cấp thiết và luôn là mỗi trăn trở của hầu hết các công ty, cửa hàngnói riêng và cả các doanh nghiệp khác nói chung, nhất là các doanh nghiệp ViệtNam – với họ, thương mại điện tử còn rất mới

Thông qua bài tập này, em xin được trình bày những thuật toán của hệ hỗ trợ

ra quyết định, đồng thời ứng dụng của nó trong thương mại điện tử Nhắm hỗ trợ,gợi ý khách hàng ra quyết định trong việc mua sản phẩm của website

Trang 32

4.1 Khảo sát

Cửa hàng điện thoại “Thanh Lâm”cửa hàng kinh doanh các mặt hàng điệnthoại di động và phụ kiện, cửa hàng kinh doanh theo hình thức bán buôn và bán lẻ Cửa hàng ở địa chỉ số ngõ 168– đường Cầu Diễn – huyện Từ Liêm – Hà Nội Sốđiện thoại : 01683532465 Email: d.vanhai94@gmail.com

Mới thành lập từ đầu năm 2010, cửa hàng cung cấp đa dạng, phong phú các mặthàng điện thoại đi động, smartphone, phụ kiện từ bình dân đến cao cấp của các hãngsản xuất khác nhau cho người tiêu dùng

Sau một vài, cửa hàng đi vào hoạt động ổn định và hiện tại cửa hàng có nhu cầutin học hóa công việc kinh doanh

Thông tin về các sản phẩm đối với các sản phẩm nói chung: mã sản phẩm, tênsản phẩm, tên hãng, giá bán, nhà cung cấp…Thông tin về các sản phẩmsmartphone: thông tin về màn hình, camera, thiết kế, pin, kết nối Thông tin về cácsản phẩm thường thấy là mã sản phẩm, tên sản phẩm, hãng sản xuất,… và đối vớimỗi sản phẩm khác nhau sẽ những thông tin hiển thị khác nhau

Tại cửa hàng, hầu hết các sản phẩm được bày trong tủ kính và được sắp xếptheo từng loại sản phẩm Trong mỗi loại, các sản phẩm cùng dòng sản phẩm vàcùng hãng sản xuất thì bày gần nhau Ví dụ như các sản phẩm thuộc hãng iphone thì

để trên cùng, các hãng khác thì để một nơi riêng Các sản phẩm cùng loại như tainghe, pin thì được để riêng một nơi để tiện quản lý và quan sát…

Trên mỗi một sản phẩm đều có ghi rõ thông tin sản phẩm bao gồm tên sảnphẩm, thông số kĩ thuật, tên hãng, bảo hành, …và giá bán do cửa hàng niêm yếtCửa hàng quản lý hàng hóa bằng cách lưu trữ thông tin hàng hóa vào sổ Cửahàng lưu trữ các thông tin của sản phẩm bao gồm: Mã sản phẩm, Tên sản phẩm,Nhãn hiệu, Thông số kĩ thuật, Giá bán, Giá khuyến mại, Số lượng, Loại sản phẩm…Phần lớn các sản phẩm đều có mã sản phẩm do nhà sản xuất quy định, mã sảnphẩm đó được in trực tiếp trên bao bì của sản phẩm Ngoài ra một số sản phẩmkhông có mã, cửa hàng tự sinh mã cho sản phẩm đó

Các mặt hàng của cửa hàng thuộc nhiều thương hiệu khác nhau như: Cácthương hiệu nổi tiếng: Iphone, Samsung, Nokia, Oppo …

Phần lớn các sản phẩm đều có giá bán do nhà phân phối đề ra, tuy nhiên cửahàng chỉ bán cho khách với mức giá <= mức giá niêm yết của nhà phân phối

Ngày đăng: 19/05/2018, 13:22

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4]. Cannady, J., 1998, “Artificial Neural Networks for Misuse Detection,”Proceedings, National Information Systems Security Conference (NISSC’98), October, Arlington, VA Sách, tạp chí
Tiêu đề: Artificial Neural Networks for Misuse Detection
[5]. A.Sung &amp; S.Mukkamala, "Identifying important features for intrusion detection using SVM and neural networks,” in symposium on application and the Internet Sách, tạp chí
Tiêu đề: Identifying important features for intrusiondetection using SVM and neural networks
[6]. K.M.Faroun, A.Boukelif, "Neural network learning improvement using K-means clustering algorithm to detect network intrusions”, April17, 2006, [7]. Xiao-Yan YANG, Kun GAO, Wei-gang ZHANG, “Study of Intrustion Detection System Based on Improved BP Neural Networks”, school of Computer Science and Information Technology, Zhejiang Wanli University Sách, tạp chí
Tiêu đề: Neural network learning improvement usingK-means clustering algorithm to detect network intrusions”, April17, 2006, [7]. Xiao-Yan YANG, Kun GAO, Wei-gang ZHANG, “Study of IntrustionDetection System Based on Improved BP Neural Networks
[9]. Hua Jiang, Junhu Ruan, “The Application of Genetic Neural Network in Network Intrusion Detection”, School of Economics and Management, Hebei University of Engineering, Handan, China Sách, tạp chí
Tiêu đề: The Application of Genetic Neural Network inNetwork Intrusion Detection
[18] “Hidden Markov Model for Information Extraction”, Trương Công Nguyên Thanh Báo cáo Seminar công nghệ tri thức, Đại học CNTT HCM Sách, tạp chí
Tiêu đề: Hidden Markov Model for Information Extraction
[10]. Genevieve Orr, Nici Schraudolph and Fred Cummins http://www.willamette.edu/~gorr/classes/cs449/intro.html(Tham khảo ngày 25/4/2016) Link
[11]. Christos Stergiou and Dimitrios Siganos. Neural Networks.http://www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html (Tham khảo ngày 25/4/2016) Link
[1]. ZHENG, H.L. Yang: Implementation of Intrusion Detection Classifier System Based on the BP Network, Journal of Hefei University of Technology (2003) Khác
[2]. GUO, C.Y., YU X.L.: An Intrusion Detection Model Based on Neural Network, Journal of Taiyuan University of Technology (2001) Khác
[3]. WANG, X.D.,SHE, K.: Intelligent IDS Based on BP Neural Network, Journal of Chendou University of Information Technology (2005) Khác
[8]. Arvind Rapaka, Alexander Novokhodko, Donald Wunsch,”Intrusion Detection Using Radial Basic Function Network on Sequences of System Calls”, Applied Computational Intelligence Laboratory, University of Missouri-Rolla Department of Electrical and Computer Engineering Khác
[13]. Daniel Delic, Hans-J. Lenz, and Mattis Neiling. Improving the Quality of Association Rule Mining by Means of Rough Sets. First International Workshop on Soft Methods in Probability and Statistics SMPS 2002 , Warsaw (Poland) September 9-11, 2002 Khác
[14]. Jiye Li. Rough Set Based Rule Evaluations and Their Applications. PhD thesis, University of Waterloo, Ontario, Canada, pp.41-111,2007 Khác
[15]. Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A.Inkeri Verkamo. Finding interesting rules from large sets of discovered association rules. Third International Conference on Information and Knowledge Management (CIKM’94), pages 401–407. ACM Press, 1994 Khác
[16]. R. Agrawal and R. Srikant, Fast Algorithms for Mining Association Rules, In Proceedings of the International Conference on Very Large Databases, 1994, pp.487-499 Khác
[17]. Bài nghiên cứu khoa học: Neural networks - kỹ thuật và ứng dụng nâng cao hiệu năng của hệ thống phát hiện xâm nhập – Phan Thanh Nam Khác

TỪ KHÓA LIÊN QUAN

w