1. Trang chủ
  2. » Luận Văn - Báo Cáo

nguyễn lê nhật toàn 2108110107 k15httt01

48 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ thống tự động trích xuất và lưu trữ dữ liệu doanh nghiệp từ website
Tác giả Nguyễn Lê Nhật Toàn
Người hướng dẫn TS. Trần Hoài Thuận
Trường học Trường Đại học Gia Định
Chuyên ngành Công nghệ thông tin
Thể loại Báo cáo Thực tập Tốt nghiệp
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 48
Dung lượng 1,6 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ NGÂN HÀNG MB (4)
    • 1.1. Giới thiệu khái quát về MB BANK (13)
      • 1.1.1. Lịch sử hình thành và phát triển (13)
      • 1.1.2. Tầm nhìn và sứ mệnh (15)
      • 1.1.3. Cơ cấu tổ chức (16)
    • 1.2. Mục tiêu và chiến lược của ngân hàng (20)
      • 1.2.1. Mục tiêu ngắn hạn và dài hạn (20)
      • 1.2.2. Chiến lược phát triển và đổi mới (21)
    • 1.3. Giới thiệu tổng quan về Ngân hàng MB BANK chi nhánh Hàm (24)
      • 1.3.1. Giới thiệu về chi nhánh Hàm Nghi (24)
      • 1.3.2. Sơ đồ cơ cấu tổ chức của chi nhánh Hàm Nhi (25)
  • CHƯƠNG 2: TỔNG QUAN VỀ WEB SCRAPING (28)
    • 2.1. Khái Niệm và Nguyên Lý Web Scraping (28)
    • 2.2. Các Kỹ Thuật Web Scraping Hiện Đại (29)
      • 2.2.1. Phương Pháp Cơ Bản: Sử Dụng Requests và BeautifulSoup (29)
      • 2.2.2. Tự Động Hóa Trình Duyệt: Ứng Dụng Selenium cho Các (29)
    • 2.3. Các Thư Viện Python Phổ Biến trong Web Scraping (30)
      • 2.3.1. Requests: Thư Viện Gửi Yêu Cầu HTTP (30)
      • 2.3.3. Selenium: Công Cụ Tự Động Hóa Trình Duyệt Web (31)
      • 2.3.4. Tesseract OCR: Nhận Diện Ký Tự từ Hình Ảnh (32)
  • CHƯƠNG 3: PHÂN TÍCH VÀ TRIỂN KHAI (35)
    • 3.1. Mục Tiêu và Yêu Cầu của Đề Tài (35)
    • 3.2. Quy Trình Triển Khai và Thực Hiện (36)
      • 3.2.1. Thu Thập Dữ Liệu từ Các Trang Web (36)
      • 3.2.2. Xử Lý Hình Ảnh và Nhận Diện Ký Tự bằng OCR (36)
      • 3.2.3. Lưu Trữ và Quản Lý Dữ Liệu trong File Excel (37)
    • 3.3. Phân Tích Mã Nguồn (38)
      • 3.3.1. Gửi Yêu Cầu và Phân Tích Mã Nguồn HTML (38)
      • 3.3.2. Chuyển Đổi Dữ Liệu Base64 thành Hình Ảnh và Trích Xuất Văn Bản (39)
      • 3.3.3. Tạo và Lưu Dữ Liệu vào File Excel (40)
  • CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ VÀ HIỆU QUẢ (41)
    • 4.1. Kết Quả và Tính Chính Xác của Dữ Liệu Đã Thu Thập (41)
    • 4.2. Đánh Giá Chất Lượng và Hiệu Suất (42)
      • 4.2.1. Đánh Giá Độ Chính Xác của Việc Trích Xuất Văn Bản từ Hình Ảnh (42)
    • 4.3. Khó Khăn và Giải Pháp Đã Áp Dụng (44)
  • CHƯƠNG 5: KẾT LUẬN (45)
    • 5.1. Tổng Kết và Nhận Xét (45)
    • 5.2. Đề Xuất Cải Tiến và Phát Triển Công Cụ (45)
    • 5.3. Đề Xuất Cho Các Nghiên Cứu và Dự Án Tương Lai (47)
  • TÀI LIỆU THAM KHẢO (48)

Nội dung

➢ Giai đoạn 2005- 2009 Trong giai đoạn 2005-2009, MB áp dụng một loạt các giải pháp đổi mới tổng thể từ mở rộng quy mô hoạt động, phát triển mạng lưới, đầu tư công nghệ, tăng cường nhân

GIỚI THIỆU TỔNG QUAN VỀ NGÂN HÀNG MB

Giới thiệu khái quát về MB BANK

1.1.1 Lịch sử hình thành và phát triển

Sau 27 năm phát triển, MB khẳng định vị thế của một trong những ngân hàng hàng đầu tại Việt Nam, với các chỉ số hiệu quả luôn nằm trong nhóm dẫn đầu thị trường Cụ thể như sau:

Ngày 4/11/1994, Ngân hàng thương mại cổ phần Quân đội (MB) được thành lập với số vốn gần 20 tỷ đồng, 25 nhân sự và một điểm giao dịch duy nhất tại 28A Điện Biên Phủ, Hà Nội

Mười năm đầu (1994-2004) là giai đoạn mang tính “mở lối” định hình phương châm hoạt động, xác định chiến lược kinh doanh và xác định thương hiệu Kiên định với mục tiêu và tầm nhìn dài hạn, MB đã vững vàng vượt qua cuộc khủng hoảng tài chính Châu Á năm 1997 và là ngân hàng cổ phần duy nhất có lãi Năm 2004, tròn 10 năm thành lập, tổng vốn huy động của

MB tăng gấp trên 500 lần, tổng tài sản trên 7.000 tỷ đồng, lợi nhuận trên 500 tỷ đồng và khai trương trụ sở mới tại số 3 Liễu Giai, Ba Đình, Hà Nội

Trong giai đoạn 2005-2009, MB áp dụng một loạt các giải pháp đổi mới tổng thể từ mở rộng quy mô hoạt động, phát triển mạng lưới, đầu tư công nghệ, tăng cường nhân sự, hướng mạnh về khách hàng với việc tách bạch chức năng quản lý và chức năng kinh doanh giữa Hội sở và Chi nhánh, tổ chức lại đơn vị kinh doanh theo nhóm khách hàng cá nhân, khách hàng doanh nghiệp vừa và nhỏ, nguồn vốn và kinh doanh tiền tệ

Có thể nói, đây là giai đoạn tạo cơ sở vững chắc để MB đẩy mạnh triển khai các sáng kiến chiến lược sau này, góp phần đưa MB trở thành một trong

4 những định chế tài chính hàng đầu Việt Nam hiện nay Năm 2009, đánh dấu

15 năm phát triển, MB vinh dự nhận Huân chương Lao động Hạng Ba do Chủ tịch nước trao tặng

Năm 2010, MB bắt đầu nghiên cứu xây dựng chiến lược giai đoạn mới 2011 – 2016, với kỳ vọng đưa MB vào TOP 3 ngân hàng thương mại cổ phần không do nhà nước nắm cổ phần chi phối Năm 2011, MB đã thực hiện thành công việc niêm yết cổ phiếu MBB trên Sở giao dịch chứng khoán Tp HCM từ ngày 1/11/2011

Trong bối cảnh nền kinh tế bước vào giai đoạn khó khăn, ngành ngân hàng dưới áp lực tái cấu trúc mạnh mẽ, MB kiên định với chiến lược phát triển bền vững, an toàn đã vươn lên dẫn đầu về nhiều chỉ tiêu tài chính quan trọng, hoàn thành mục tiêu nằm trong TOP 3 trước 2 năm – vào năm 2013 Với những thành quả đạt được, năm 2014, MB vinh dự đón nhận Huân chương Lao động Hạng Nhất Đến năm 2015, tiếp tục được phong tặng danh hiệu Anh Hùng Lao động

Trong giai đoạn này, MB định hướng tầm nhìn “Trở thành Ngân hàng thuận tiện nhất” với mục tiêu đến năm 2021 sẽ nằm trong Top 5 hệ thống Ngân hàng Việt Nam về hiệu quả kinh doanh và an toàn, dẫn đầu về số hóa.Trong các năm này, dù gặp nhiều khó khăn bởi đại dịch Covid- 19 toàn cầu, MB đã có sự tăng trưởng mạnh mẽ, bứt phá trong hoạt độngkinh doanh, hoàn thành xuất sắc các nhiệm vụ, chỉ tiêu đề ra Giai đoạn này đánh dấu bước chuyển mình thay đổi Nhận diện thương hiệu mới thành công từ năm 2019, lột xác thành một ngân hàng năng động, trẻ trung – Lọt vào Top 2 thương hiệu được yêu thích nhất; Thương hiệu tăng gấp đôi, tăng 127 bậc so với năm 2020, lọt vào Top 300 thương hiệu ngân hàng có giá trị và mạnh nhất thế giới (theo báo cáo Banking 500 2022 của Brand Finance) MB tự hào tiếp tục nằm trong

TOP doanh nghiệp đạt lợi nhuận trên 10.000 tỷ đồng, TOP 5 các Ngân hàng tốt nhất Việt Nam

Hình ảnh 1.1.1.1 Logo hiện tại của MB Bank

1.1.2 Tầm nhìn và sứ mệnh

Trở thành một ngân hàng thuận tiện nhất đối với khách hàng, tập trung vào các nhóm KH sau:

+ Các khách hàng doanh nghiệp truyền thống, các tập đoàn kinh tế và các doanh nghiệp lớn

+ Tập trung có chọn lọc doanh nghiệp vừa và nhỏ

+ Phát triển các dịch vụ khách hàng cá nhân

+ Mở rộng các hoạt động kinh doanh trên thị trường vốn

+ Phát triển hoạt động ngân hàng đầu tư

+ Liên kết chặt chẽ giữa Ngân hàng và các thành viên để hướng tới trở thành một tập đoàn tài chính mạnh

Vì sự phát triển của đất nước, vì lợi ích của khách hàng: MB dành mọi nỗ lực xây dựng một đội ngũ nhân lực tinh thông về chuyên môn, tận tâm trong phục vụ nhằm mang lại cho các doanh nghiệp, cá nhân những giải pháp tài

6 chính –ngân hàng khôn ngoan với chi phí tối ưu và sự hài lòng mỹ mãn Ngân hàng đã dần khẳng định được uy tín của mình bằng việc tăng trưởng ổn định và vững chắc, tỷ lệ tăng trưởng về lợi nhuận luôn ở mức cao, vốn điều lệ tăng 1511 lần so với ngày đầu thành lập và đạt 37.783 tỷ đồng Giá trị cốt lõi của MB: Đoàn kết – Kỷ luật – Tận tâm, Thực Thi – An toàn – Hiệu quả

Nhiệm vụ, chức năng của các phòng ban tiêu biểu

Hệ thống cơ cấu tổ chức của MB khá hoàn thiện và vững chắc, có sự phân quyền và giao nhiệm vụ cụ thể từ trên xuống dưới, tạo điều kiện cho các phòng ban quản lý, hoàn thành công việc hiệu quả cũng như kiểm soát được rủi ro, góp phần đem lại kết quả hoạt động tối ưu cho ngân hàng

Cơ cấu tổ chức quản lý của MB bao gồm:

+ Đại hội đồng cổ đông

Các cơ quan giúp việc còn lại:

+ Các uỷ ban cao cấp

+ Cơ quan kiểm toán nội bộ

+ Khối quản trị rủi ro

+ Khối kinh doanh Đại hội đồng cổ đông

Là cơ quan có thẩm quyền quyết định cao nhất của MB Đại hội đồng cổđông sẽ thông qua định hướng phát triển ngân hàng; có quyết định sửa đổi, bổ sung

7 điều lệ MB; quyết định số lượng; bầu, miễn nhiệm, bãi nhiệm thành viên thành viên Hội đồng quản trị và Ban kiểm soát (Điều36, 37 điều lệ MB) Hội đồng quản trị

Là cơ quan có thẩm quyền quyết định các vấn đề liên quan đến mục đích,quyền lợi của MB bao gồm: chiến lược, kế hoạch trung hạn, hàng năm vàcác vấn đề khác theo quy định của pháp luật và điều lệ của MB Đồngthời quản lý ngân hàng, nhân danh MB để đưa ra các quyết định thực hiện quyền và nghĩa vụ của công ty, cũng như các quyền và nghĩa vụ nằm ngoài thẩm quyền của Đại hội đồng cổ đông (Điều 47 điều lệ MB)

Thành viên của Hội đồng quản trị bao gồm:

+ Ông Lưu Trung Thái – Chủ tịch HĐQT

+ Bà Vũ Thị Hải Phượng – Phó Chủ tịch HĐQT

+ Ông Đỗ Minh Phương – Phó Chủ tịch HĐQT

+ Bà Nguyễn Thị Ngọc – Thành viên HĐQT

+ Bà Nguyễn Thị Thuỷ - Thành viên HĐQT

+ Ông Lê Viết Hải – Thành viên HĐQT

+ Bà Vũ Thái Huyền – Thành viên HĐQT

+ Ông Ngô Minh Tuấn – Thành viên HĐQ

+ Ông Kiểu Đặng Hùng – Thành viên HĐQT

+ Ông Trần Trung Tín – Thành viên HĐQT

Mục tiêu và chiến lược của ngân hàng

1.2.1 Mục tiêu ngắn hạn và dài hạn

Nhận thức được vai trò quan trọng của doanh nghiệp vừa và nhỏ trong sự phát triển chung của kinh tế cả nước, MBBank luôn tiên phong triển khai những chương trình, chính sách, ra mắt và cải tiến liên tục các sản phẩm dịch vụ tài chính đa dạng, tạo đà cho các doanh nghiệp hoạt động vững vàng và lớn mạnh hơn trong sản xuất kinh doanh Đặc biệt, từ đầu năm 2019 tới nay,

MBBank thực hiện đẩy mạnh chuỗi hoạt động tương tác, kết nối giữa doanh nghiệp với ngân hàng thông qua chiến dịch Ngân hàng cộng đồng, trong đó,

MBBank là ngân hàng giao dịch chính của doanh nghiệp vừa và nhỏ tại các địa phương

Hình 1.2.1.1 MB Bank Ngân hàng thuận tiện nhất Đây là một chiến dịch dài hơi được MBBank đặc biệt chú trọng trong lộ trình kế hoạch phát triển dài hạn với tầm nhìn đề ra là trở thành "Ngân hàng thuận

11 tiện nhất" cho cộng đồng doanh nghiệp Sau hơn hai năm triển khai tới nay, cùng với sự đón nhận tích cực từ phía các doanh nghiệp vừa và nhỏ trên nhiều địa phương khắp cả nước, MBBank vẫn đang tiếp tục các hoạt động đa dạng và chuyên sâu hơn nằm trong chiến dịch Ngân hàng cộng đồng nhằm hiện thực hóa các mục tiêu của mình

1.2.2 Chiến lược phát triển và đổi mới Đầu tư cơ sở hạ tầng công nghệ, phủ sóng thương hiệu đa nền tảng, đồng thời, số hóa khả năng tiếp cận người dùng là chiến lược giúp MB đạt lợi nhuận 26.306 tỷ đồng

Theo báo cáo kết quả kinh doanh năm 2023, lợi nhuận Ngân hàng TMCP Quân đội (MB) hơn 26.300 tỷ đồng, tăng trưởng trên 15%, nằm trong top 3 lợi nhuận toàn ngành Để đạt được sự tăng trưởng này, MB đã thực hiện nhiều chiến lược dài hơi đầu tư cho công nghệ, đồng thời, số hóa nền tảng giao dịch

Trong cuộc đua số hóa ngành ngân hàng, lợi thế cạnh tranh sẽ thuộc về ngân hàng có khả năng làm chủ công nghệ Nhận thức được điều này, MB đã đầu tư mạnh mẽ vào hạ tầng công nghệ thông tin từ sớm Đặc biệt, để nghiên cứu và đẩy mạnh hoạt động phát triển các sản phẩm tài chính sáng tạo, MB đã xây dựng mô hình Innovation Lab - không gian sáng tạo số đảm nhận hai nhiệm vụ: dẫn dắt công nghệ và áp dụng các công nghệ mới đối với các hoạt động của ngân hàng

Hình 1.2.2.1 Đội ngũ nhân sự tại MB

Bên cạnh đó, MB cũng xây dựng đội ngũ kỹ sư, chuyên gia công nghệ trong ngân hàng thay vì sử dụng dịch vụ của bên thứ ba Đến nay, đội ngũ chuyên gia và kỹ sư công nghệ đạt hơn 2.000 nhân sự, chiếm 10% tổng nhân sự toàn ngân hàng

Về các dự án tự động hóa, MB ứng dụng AI, Machine Learning, Deep

Learning trong hoạt động chăm sóc khách hàng và vận hành nội bộ Các mô hình và phân tích dữ liệu cũng được nhà băng sử dụng để thiết kế chính sách, đồng hành, thúc đẩy kinh doanh và nhận diện sớm rủi ro So với năm 2022, số lượng dự án tự động hóa các hoạt động trong năm 2023 đã tăng gấp 1,5 lần Với khoản kinh phí xấp xỉ 50 triệu USD mỗi năm, MB thuộc nhóm những ngân hàng chi mạnh tay nhất cho hệ thống công nghệ

Trong 3 năm gần đây, MB đã triển khai dịch vụ ngân hàng trên nền tảng đối tác - Banking as a Service (BaaS) Với hơn 1000 APIs phủ rộng nhiều lĩnh

13 vực, các chủ hộ kinh doanh, doanh nghiệp SME có thể kết nối và sử dụng trực tiếp các dịch vụ của MB trên các nền tảng đối tác thông qua API ở đa dạng các dịch vụ như thu hộ VietQR, thu hộ định danh; thanh toán, chi trả đối tác, chi hộ lương; nhận thông báo biến động số dư thời gian thực (real- time); quản lý dòng tiền; gửi tiết kiệm, mua và bán chứng chỉ tiền gửi trên kênh số Đại diện ngân hàng này cho biết, đặt khách hàng là trung tâm của chuyển đổi số, của đổi mới và sáng tạo là động lực để MB nghiên cứu cũng như phát triển sản phẩm, giải pháp tiếp thị phù hợp với sở thích, thói quen của từng tệp khách hàng

Hình 1.2.2.2 Khách hàng đang trải nghiệm ứng dụng MB Bank

Nắm bắt nhu cầu thể hiện cá tính riêng của người dùng, MB phát triển nhiều sản phẩm mang tính cá nhân hóa cao, hợp xu thế Trong đó có bộ sưu tập thẻ đa năng hai trong một MB Hi Collection với lượng phát hành gần 2 triệu thẻ

14 trong 2023, dịch vụ tài khoản số đẹp hay vòng tay thời trang tích hợp thanh toán MB Stellar Tất cả các sản phẩm của MB đều có thể tiếp cận qua nhiều kênh, từ app MB Bank, sàn thương mại điện tử đến livestream qua nền tảng mạng xã hội, đảm bảo cho khách hàng có thể tiếp cận ở đa dạng lứa tuổi Song song đó, ngân hàng cũng tung loạt ưu đãi thẻ quanh năm, áp dụng tại trên 100.000 điểm mua sắm của các thương hiệu giúp khách hàng tiết kiệm chi phí Với việc liên tục phát hành các bộ sưu tập mới cũng như cho phép mở thẻ phi vật lý trên ứng dụng MBBank, MB hướng đến xu thế thanh toán không tiền mặt, chuyển đổi xanh, ứng dụng công nghệ để giúp khách hàng có cuộc sống thuận tiện và hạnh phúc hơn

Ngoài việc lọt vào top ba lợi nhuận toàn ngành, MB hiện cũng là ngân hàng dẫn đầu về quy mô khách hàng với hơn 26 triệu người dùng, tương đương khoảng 25% dân số Việt Nam Trong năm 2024, nhà băng hướng tới mục tiêu phục vụ 30 triệu khách hàng.

Giới thiệu tổng quan về Ngân hàng MB BANK chi nhánh Hàm

1.3 Giới thiệu tổng quan về Ngân hàng MB BANK chi nhánh Hàm Nghi

1.3.1 Giới thiệu về chi nhánh Hàm Nghi

Tên công ty, thông tin sơ bộ: Ngân hàng TMCP Quân Đội (MBBank) – chi nhánh Hàm Nghi Địa chỉ: Tầng trệt (tầng 1), tầng 2, tầng 3, tòa nhà Beta số 55 Nam Kỳ

Khởi Nghĩa, phường Nguyễn Thái Bình, Quận 1, TPHCM

Giám đốc: Lê Đình Hùng

1.3.2 Sơ đồ cơ cấu tổ chức của chi nhánh Hàm Nhi

Hình 1.3.2.1 Sơ đồ tổ chức của chi nhánh Hàm Nghi a/Ban Giám Đốc

• Chịu trách nhiệm điều hành toàn bộ hoạt động của chi nhánh

• Quản lý chiến lược kinh doanh, đảm bảo các mục tiêu tài chính

• Đưa ra các quyết định quan trọng và giám sát việc thực hiện các chính sách của ngân hàng

Phó Giám đốc phụ trách:

• Hỗ trợ Giám đốc trong việc quản lý và điều hành

• Đảm nhận phụ trách các mảng công việc cụ thể như khách hàng doanh nghiệp, khách hàng cá nhân, và các dịch vụ tài chính

• Thay mặt Giám đốc giải quyết các công việc khi Giám đốc vắng mặt b/Các Phòng Ban Chuyên Môn

Phòng Khách Hàng Doanh Nghiệp

Giám đốc Phòng Khách Hàng Doanh Nghiệp:

• Chịu trách nhiệm quản lý và điều hành các hoạt động liên quan đến khách hàng doanh nghiệp

• Phát triển chiến lược và kế hoạch kinh doanh để thu hút và duy trì khách hàng doanh nghiệp

• Đảm bảo cung cấp dịch vụ chất lượng và giải quyết kịp thời các yêu cầu của khách hàng

Cán bộ Khách Hàng Doanh Nghiệp (CV.KHDN):

• Xử lý các giao dịch liên quan đến khách hàng doanh nghiệp

• Tư vấn, hỗ trợ khách hàng doanh nghiệp về các sản phẩm và dịch vụ của ngân hàng

• Thực hiện các công việc liên quan đến việc phát triển và duy trì mối quan hệ với khách hàng doanh nghiệp

Cán bộ Xử lý nghiệp vụ (CV.Xử lý nghiệp vụ):

• Đảm nhận các công việc xử lý nghiệp vụ liên quan đến khách hàng doanh nghiệp

• Kiểm tra và duyệt các hồ sơ, chứng từ giao dịch

• Đảm bảo tuân thủ các quy định và chính sách của ngân hàng c/ Phòng Khách Hàng Cá Nhân

Phó Giám đốc phụ trách Phòng Khách Hàng Cá Nhân (Phó Giám đốc

• Hỗ trợ Giám đốc trong việc quản lý và điều hành các hoạt động của phòng

• Đưa ra chiến lược phát triển dịch vụ cho khách hàng cá nhân

• Giám sát và đánh giá hiệu quả công việc của các nhân viên trong phòng

Cán bộ Khách Hàng Cá Nhân (CV.KHCN):

• Xử lý các giao dịch liên quan đến khách hàng cá nhân

• Tư vấn, hỗ trợ khách hàng cá nhân về các sản phẩm và dịch vụ của ngân hàng

• Phát triển và duy trì mối quan hệ với khách hàng cá nhân d/ Phòng Hành Chính Nhân Sự

Giám đốc Dịch vụ Phó:

• Phụ trách các dịch vụ và hoạt động hành chính của chi nhánh

• Quản lý các hoạt động nhân sự, tuyển dụng và đào tạo

• Đảm bảo môi trường làm việc thuận lợi và tuân thủ các quy định pháp luật

Cán bộ Hành Chính Nhân Sự:

• Thực hiện các công việc liên quan đến hành chính và nhân sự

• Hỗ trợ tuyển dụng, đào tạo và quản lý hồ sơ nhân viên

• Đảm bảo các hoạt động hành chính diễn ra suôn sẻ e/ Các Vị Trí Khác

• Đảm nhận các giao dịch trực tiếp với khách hàng tại quầy

• Giải quyết các yêu cầu và thắc mắc của khách hàng

• Đảm bảo các giao dịch được thực hiện chính xác và nhanh chóng

• Quản lý và điều hành các hoạt động tài chính và thương mại của chi nhánh

• Phân tích, báo cáo tài chính và đưa ra các khuyến nghị kinh doanh

• Đảm bảo sự tuân thủ các quy định về tài chính của ngân hàng và pháp luật

TỔNG QUAN VỀ WEB SCRAPING

Khái Niệm và Nguyên Lý Web Scraping

Web scraping là quá trình thu thập dữ liệu từ các trang web tự động thay vì làm thủ công Nó rất hữu ích trong nhiều lĩnh vực như phân tích dữ liệu, marketing, nghiên cứu thị trường, và hơn thế nữa Dưới đây là các nguyên lý cơ bản của web scraping:

• Gửi yêu cầu HTTP: Để bắt đầu thu thập dữ liệu từ một trang web, bạn cần gửi yêu cầu HTTP đến máy chủ của trang đó Phương thức phổ biến bao gồm GET và POST Phương thức GET được sử dụng để yêu cầu dữ liệu từ một URL cụ thể, trong khi phương thức POST thường được sử dụng khi gửi dữ liệu đến máy chủ

• Nhận phản hồi từ máy chủ: Khi máy chủ nhận được yêu cầu, nó sẽ trả về phản hồi chứa dữ liệu yêu cầu Phản hồi này thường là mã HTML của trang web, nhưng có thể là JSON hoặc XML nếu trang web cung cấp dữ liệu theo định dạng này

• Phân tích cú pháp dữ liệu: Sau khi nhận được phản hồi từ máy chủ, bước tiếp theo là phân tích cú pháp dữ liệu Điều này có thể được thực hiện bằng cách sử dụng các công cụ phân tích HTML như BeautifulSoup hoặc các công cụ phân tích JSON Việc phân tích cú pháp giúp trích xuất các phần dữ liệu cụ thể từ HTML hoặc JSON

• Lưu trữ dữ liệu: Sau khi dữ liệu đã được trích xuất và phân tích, nó cần được lưu trữ để sử dụng trong tương lai Dữ liệu có thể được lưu vào cơ sở dữ liệu, hoặc các định dạng file như CSV, Excel, JSON Việc lưu trữ dữ liệu giúp dễ dàng quản lý và truy xuất sau này

Ví dụ: Khi bạn sử dụng web scraping để thu thập giá cổ phiếu từ một trang web tài chính, bạn gửi một yêu cầu GET đến URL của trang web cổ phiếu Bạn nhận được phản hồi là HTML chứa thông tin giá cổ phiếu Sau đó, bạn

19 sử dụng một công cụ như BeautifulSoup để phân tích HTML và trích xuất giá cổ phiếu Cuối cùng, bạn lưu trữ giá cổ phiếu vào một file CSV để phân tích sau này.

Các Kỹ Thuật Web Scraping Hiện Đại

2.2.1 Phương Pháp Cơ Bản: Sử Dụng Requests và BeautifulSoup

Requests là thư viện Python đơn giản và mạnh mẽ cho việc gửi yêu cầu

HTTP BeautifulSoup là công cụ để phân tích và trích xuất dữ liệu từ HTML

Requests và BeautifulSoup là hai thư viện phổ biến trong Python để thu thập và phân tích dữ liệu từ trang web

2.2.2 Tự Động Hóa Trình Duyệt: Ứng Dụng Selenium cho Các Trang

Selenium là một công cụ tự động hóa trình duyệt web, rất hữu ích khi bạn cần tương tác với các trang web động hoặc có nội dung được tải bằng

JavaScript Selenium không chỉ có thể gửi các yêu cầu HTTP mà còn có khả năng tương tác với các yếu tố trên trang web như nhấp chuột, nhập văn bản, và cuộn trang Điều này rất quan trọng cho các trang web mà nội dung không được tải ngay lập tức và yêu cầu người dùng phải tương tác để truy cập thông tin

Tính Năng Chính của Selenium:

• Tự Động Hóa Trình Duyệt: Selenium hỗ trợ nhiều trình duyệt web như Chrome, Firefox, Safari và Edge Bạn có thể sử dụng Selenium để tự động hóa các tác vụ như mở trang web, nhấp chuột vào các liên kết, và điền vào các form

• Tương Tác với Các Yếu Tố: Selenium có khả năng tương tác với các yếu tố của trang web, chẳng hạn như nút bấm, ô nhập liệu, danh sách thả xuống, và các yếu tố động khác Điều này cho phép bạn thực hiện các hành động như đăng nhập vào tài khoản, tìm kiếm, và chuyển đổi giữa các trang

• Xử Lý Nội Dung Động: Nhiều trang web hiện nay sử dụng JavaScript để tải dữ liệu sau khi trang web được tải Selenium có thể chờ cho các yếu tố động được tải hoàn tất trước khi tiếp tục thực hiện các hành động hoặc trích xuất dữ liệu

• Chạy Các Tình Huống Test: Selenium được thiết kế để thực hiện các bài kiểm tra tự động hóa trên trình duyệt, giúp kiểm tra các tính năng của trang web trong các điều kiện khác nhau.

Các Thư Viện Python Phổ Biến trong Web Scraping

2.3.1 Requests: Thư Viện Gửi Yêu Cầu HTTP

Requests là một thư viện Python rất phổ biến và mạnh mẽ để gửi yêu cầu

HTTP và nhận phản hồi từ máy chủ Nó đơn giản hóa quá trình gửi các yêu cầu HTTP và xử lý các phản hồi từ máy chủ, làm cho nó trở thành một công cụ hữu ích trong web scraping

Gửi Yêu Cầu: Requests cho phép bạn gửi các yêu cầu GET, POST, PUT,

DELETE, và nhiều phương thức khác Bạn có thể dễ dàng thêm các tham số vào URL, gửi dữ liệu dưới dạng form hoặc JSON, và cấu hình tiêu đề HTTP

Xử Lý Phản Hồi: Sau khi gửi yêu cầu, Requests cung cấp các thuộc tính và phương thức để xử lý phản hồi, chẳng hạn như text để lấy nội dung HTML và json() để phân tích dữ liệu JSON

Quản Lý Phiên Làm Việc: Requests hỗ trợ việc duy trì phiên làm việc thông qua đối tượng Session, cho phép bạn gửi nhiều yêu cầu với cùng một phiên và duy trì các cookie giữa các yêu cầu

2.3.2 BeautifulSoup: Phân Tích và Trích Xuất Dữ Liệu từ HTML

BeautifulSoup là một thư viện Python được thiết kế để phân tích cú pháp HTML và XML, giúp bạn dễ dàng trích xuất dữ liệu từ các tài liệu HTML BeautifulSoup biến HTML thành cấu trúc cây, cho phép bạn truy xuất các phần tử và thuộc tính của nó một cách dễ dàng

Phân Tích Cú Pháp: BeautifulSoup hỗ trợ nhiều bộ phân tích cú pháp HTML và XML, bao gồm html.parser, lxml, và html5lib Bạn có thể chọn bộ phân tích phù hợp với nhu cầu của bạn

Tìm và Trích Xuất Dữ Liệu: Bạn có thể sử dụng các phương thức như find(), find_all(), và select() để tìm các phần tử cụ thể trong tài liệu HTML BeautifulSoup cũng hỗ trợ việc truy xuất các thuộc tính và văn bản của phần tử

Dễ Dàng Sử Dụng: BeautifulSoup có một API dễ sử dụng và cung cấp nhiều tính năng mạnh mẽ để xử lý HTML không hợp lệ hoặc không đầy đủ

2.3.3 Selenium: Công Cụ Tự Động Hóa Trình Duyệt Web

Selenium không chỉ là một thư viện cho web scraping mà còn là một công cụ mạnh mẽ để tự động hóa các tác vụ trên trình duyệt web Selenium rất hữu ích khi bạn cần tương tác với các yếu tố trang web động mà không thể xử lý chỉ với Requests và BeautifulSoup

Tự Động Hóa Trình Duyệt: Selenium cho phép bạn mở và điều khiển các trình duyệt web Bạn có thể thực hiện các hành động như nhấp chuột, cuộn trang, và nhập văn bản vào các ô nhập liệu

Hỗ Trợ Nhiều Trình Duyệt: Selenium hỗ trợ nhiều trình duyệt web khác nhau, bao gồm Chrome, Firefox, Safari và Edge Bạn có thể sử dụng các driver tương ứng để tự động hóa các trình duyệt này

Xử Lý Nội Dung Động: Selenium có thể chờ cho các yếu tố động được tải hoặc trở nên có sẵn trước khi thực hiện các hành động tiếp theo Điều này rất hữu ích cho các trang web sử dụng JavaScript để tải dữ liệu

2.3.4 Tesseract OCR: Nhận Diện Ký Tự từ Hình Ảnh

Tesseract OCR là một phần mềm mã nguồn mở nổi tiếng dùng để nhận diện ký tự quang học (OCR - Optical Character Recognition) Tesseract có khả năng chuyển đổi văn bản từ hình ảnh hoặc tài liệu quét thành văn bản có thể chỉnh sửa được Được phát triển bởi Google, Tesseract hỗ trợ nhiều ngôn ngữ và cung cấp một công cụ mạnh mẽ cho các ứng dụng cần trích xuất thông tin từ hình ảnh

Các Tính Năng Chính của Tesseract OCR:

• Nhận Diện Văn Bản Từ Hình Ảnh: Tesseract có khả năng nhận diện văn bản từ nhiều loại hình ảnh khác nhau, bao gồm hình ảnh có chứa văn bản in đậm, in nghiêng, hoặc văn bản trong các tài liệu quét

• Hỗ Trợ Nhiều Ngôn Ngữ: Tesseract hỗ trợ nhiều ngôn ngữ khác nhau, từ tiếng Anh, tiếng Pháp, tiếng Đức, đến các ngôn ngữ có ký tự phi Latin như tiếng Trung, tiếng Nhật, và tiếng Ả Rập Bạn có thể tải xuống các gói ngôn ngữ bổ sung để cải thiện khả năng nhận diện cho các ngôn ngữ cụ thể

PHÂN TÍCH VÀ TRIỂN KHAI

Mục Tiêu và Yêu Cầu của Đề Tài

Mục tiêu chính của đề tài là xây dựng một công cụ tự động hóa quy trình trích xuất và lưu trữ dữ liệu từ các trang web doanh nghiệp Các yêu cầu cụ thể của đề tài bao gồm:

• Khả Năng Gửi Yêu Cầu HTTP và Phân Tích HTML: Công cụ phải có khả năng gửi các yêu cầu HTTP đến các trang web để lấy dữ liệu và phân tích nội dung HTML của trang web đó Điều này cho phép trích xuất thông tin từ các phần tử HTML như tiêu đề, liên kết, và dữ liệu văn bản

• Tự Động Hóa Việc Thu Thập Dữ Liệu Từ Nhiều Trang Web: Công cụ cần phải có khả năng tự động xử lý nhiều URL khác nhau, thu thập dữ liệu từ các trang web doanh nghiệp khác nhau mà không cần can thiệp thủ công mỗi lần

• Trích Xuất Văn Bản Từ Hình Ảnh Sử Dụng OCR: Đối với các dữ liệu văn bản không thể trích xuất trực tiếp từ HTML (như các mã số thuế hoặc số điện thoại trong hình ảnh base64), công cụ cần sử dụng OCR (nhận diện ký tự quang học) để chuyển đổi văn bản trong hình ảnh thành văn bản có thể chỉnh sửa

• Lưu Trữ Dữ Liệu Vào Các File Định Dạng Phổ Biến: Dữ liệu thu thập được cần được lưu trữ vào các định dạng file phổ biến như Excel (.xlsx), CSV (.csv) hoặc JSON (.json), cho phép dễ dàng xem xét, phân tích và chia sẻ dữ liệu

Quy Trình Triển Khai và Thực Hiện

3.2.1 Thu Thập Dữ Liệu từ Các Trang Web

Gửi Yêu Cầu HTTP: Sử dụng thư viện requests để gửi các yêu cầu HTTP đến các URL Thư viện này cho phép thực hiện các phương thức HTTP như GET hoặc POST để lấy nội dung của trang web

Phân Tích HTML: Sử dụng thư viện BeautifulSoup để phân tích nội dung HTML của trang web BeautifulSoup chuyển đổi mã HTML thành cấu trúc cây, giúp dễ dàng tìm kiếm và trích xuất các phần tử cụ thể như tiêu đề công ty, liên kết chi tiết, và thông tin liên lạc

Lọc và Trích Xuất Dữ Liệu: Xác định các phần tử HTML chứa thông tin cần thiết, ví dụ như tên công ty, mã số thuế, và số điện thoại Sử dụng các phương thức của BeautifulSoup để tìm và trích xuất dữ liệu từ các phần tử HTML

3.2.2 Xử Lý Hình Ảnh và Nhận Diện Ký Tự bằng OCR

Sử dụng Tesseract OCR để trích xuất văn bản từ các hình ảnh base64 được lấy từ các trang web

Chuyển Đổi Hình Ảnh Base64: Các hình ảnh chứa thông tin quan trọng thường được mã hóa dưới dạng chuỗi base64 trong HTML Sử dụng Python để giải mã chuỗi base64 và chuyển đổi thành đối tượng hình ảnh

Trích Xuất Văn Bản Từ Hình Ảnh: Sử dụng Tesseract OCR để nhận diện ký tự trong hình ảnh đã giải mã pytesseract là thư viện Python giúp tích hợp Tesseract OCR vào mã Python, cho phép trích xuất văn bản từ hình ảnh

‘ocr base64_image(base64_str)’ chuyển đổi ảnh từ định dạng base64 và sử dụng OCR để trích xuất văn bản từ ảnh

3.2.3 Lưu Trữ và Quản Lý Dữ Liệu trong File Excel

Sử dụng thư viện openpyxl để tạo và lưu dữ liệu vào file Excel, đồng thời hỗ trợ lưu trữ vào file CSV và JSON

Lưu Dữ Liệu Vào File Excel: Sử dụng thư viện openpyxl để tạo và quản lý các file Excel Thư viện này cho phép tạo các bảng tính, viết dữ liệu vào các ô, và lưu file Excel

Lưu Dữ Liệu Vào File CSV và JSON: Dữ liệu có thể được lưu vào các định dạng khác như CSV hoặc JSON Sử dụng thư viện csv để tạo và lưu file

CSV, và thư viện json để lưu dữ liệu vào file JSON

Quản Lý Dữ Liệu và Lịch Sử: Lưu trữ lịch sử các URL đã xử lý trong file

JSON để tham chiếu sau này, giúp người dùng theo dõi các trang web đã được xử lý và tránh lặp lại

28 Đoạn mã lưu trữ dữ liệu vào các định dạng file khác nhau dựa trên lựa chọn của người dùng (.xlsx, csv, hoặc json)

Quy trình triển khai công cụ bao gồm nhiều bước từ thu thập dữ liệu, xử lý hình ảnh, đến lưu trữ dữ liệu Sử dụng các công cụ như Requests,

BeautifulSoup, Tesseract OCR, và các thư viện quản lý file Python giúp tự động hóa và tối ưu hóa quá trình trích xuất dữ liệu từ các trang web doanh nghiệp.

Phân Tích Mã Nguồn

3.3.1 Gửi Yêu Cầu và Phân Tích Mã Nguồn HTML

Quy trình gửi yêu cầu và phân tích mã nguồn HTML là bước đầu tiên trong việc trích xuất dữ liệu từ các trang web Đoạn mã dưới đây thực hiện các bước chính:

• Gửi Yêu Cầu HTTP: Sử dụng thư viện requests, chúng ta gửi yêu cầu HTTP đến URL của trang web cần thu thập dữ liệu Phản hồi từ yêu cầu này chứa mã nguồn HTML của trang web response = requests.get(url) Đoạn mã này gửi một yêu cầu GET đến URL và lưu trữ phản hồi trong biến response

• Phân Tích HTML: Sau khi nhận được mã nguồn HTML, chúng ta sử dụng BeautifulSoup để phân tích cú pháp HTML BeautifulSoup giúp

29 chuyển đổi mã HTML thành cấu trúc cây, từ đó dễ dàng truy xuất các phần tử và dữ liệu cần thiết soup = BeautifulSoup(response.text, 'html.parser') Đoạn mã này khởi tạo đối tượng BeautifulSoup với mã HTML từ phản hồi và phân tích nó với parser 'html.parser'

• Trích Xuất Dữ Liệu: Sử dụng các phương thức của BeautifulSoup, chúng ta có thể tìm và trích xuất thông tin từ các phần tử HTML như tiêu đề công ty, liên kết chi tiết, và các dữ liệu khác liên quan đến công ty companies = soup.find_all('div', class_='search-results') Đoạn mã này tìm tất cả các phần tử có lớp 'search-results', nơi chứa thông tin về các công ty

Sử dụng Requests để gửi yêu cầu HTTP và BeautifulSoup để phân tích

HTML.3.3.2 Chuyển Đổi Dữ Liệu Base64 thành Hình Ảnh và Trích Xuất

Văn Bản Đoạn mã gửi yêu cầu HTTP và phân tích HTML để thu thập thông tin công ty

3.3.2 Chuyển Đổi Dữ Liệu Base64 thành Hình Ảnh và Trích Xuất Văn

Chuyển Đổi Dữ Liệu Base64: Khi dữ liệu hình ảnh được mã hóa dưới dạng base64 trong HTML, cần giải mã dữ liệu này để tạo hình ảnh có thể xử lý được Sử dụng thư viện base64 để giải mã chuỗi base64 thành dữ liệu hình ảnh nhị phân, sau đó sử dụng PIL để mở hình ảnh

Trích Xuất Văn Bản từ Hình Ảnh: Sử dụng pytesseract (giao diện Python cho Tesseract OCR) để trích xuất văn bản từ hình ảnh Tesseract OCR nhận diện các ký tự trong hình ảnh và chuyển đổi chúng thành văn bản

‘ocr_base64_image()’ xử lý ảnh base64 và trích xuất văn bản

3.3.3 Tạo và Lưu Dữ Liệu vào File Excel

Tạo File Excel: Sử dụng thư viện openpyxl, chúng ta có thể tạo file Excel và thêm dữ liệu vào đó openpyxl cho phép tạo các bảng tính, định dạng ô, và lưu trữ dữ liệu

Lưu Dữ Liệu vào File Excel, CSV, hoặc JSON: Dựa trên định dạng file được chọn, dữ liệu sẽ được lưu vào file Excel, CSV, hoặc JSON openpyxl lưu dữ liệu vào file Excel, csv lưu vào file CSV, và json lưu vào file JSON

Tạo và lưu dữ liệu vào các file Excel, CSV hoặc JSON dựa trên định dạng được chọn

ĐÁNH GIÁ KẾT QUẢ VÀ HIỆU QUẢ

Kết Quả và Tính Chính Xác của Dữ Liệu Đã Thu Thập

Kết quả của quá trình thu thập dữ liệu nên phản ánh đúng thông tin từ các trang web, với độ chính xác cao Điều này có nghĩa là dữ liệu đã được trích xuất chính xác và không có lỗi trong quá trình xử lý Các yếu tố đánh giá bao gồm:

• Độ Chính Xác: Dữ liệu thu thập được phải chính xác và khớp với thông tin trên trang web gốc Điều này bao gồm tên công ty, mã số thuế, số điện thoại, và các thông tin khác

• Tính Toàn Vẹn: Không có dữ liệu bị mất hoặc bị hỏng trong quá trình thu thập (hình ảnh chất lượng thấp) và lưu trữ Mỗi phần tử dữ liệu phải được lưu trữ đầy đủ và chính xác

Hình ảnh 1: Giao diện công cụ

Sau đó em sẽ thêm url của trang mà anh chị trong công ty hay dùng nhất để lọc data khách hàng đó là trang “tratencongty.com” Hiển thị giao diện người dùng của công cụ, cho thấy các trường nhập URL, nút chạy, và thanh tiến trình

Hình ảnh 2: Kết quả sau khi chạy

Hiển thị kết quả dữ liệu đã thu thập được và lưu vào file, bao gồm dữ liệu doanh nghiệp trong định dạng Excel, CSV, hoặc JSON.

Đánh Giá Chất Lượng và Hiệu Suất

4.2.1 Đánh Giá Độ Chính Xác của Việc Trích Xuất Văn Bản từ Hình Ảnh

Tesseract OCR đã thể hiện khả năng nhận diện ký tự từ hình ảnh khá tốt, đặc biệt là khi hình ảnh có chất lượng tốt Công cụ OCR có thể xử lý hình ảnh

33 với độ phân giải cao và ít nhiễu một cách hiệu quả, giúp trích xuất văn bản chính xác từ hình ảnh mã số thuế, số điện thoại, và các thông tin khác

Hình ảnh 3: Đây là trang web đã lọc

Mã số thuế với số điện thoại là hình ảnh không thể coppy

Hình ảnh 4: Sau khi đã lọc qua file Excel

Do vì có một số hình ảnh kém nên không thể lọc được nhưng so với nhập bằng tay thì nhanh hơn gấp nhiều lần thuận tiện hơn cho anh chị và các bạn công tác viên mới vào để lọc và gọi khách hàng

Khó Khăn và Giải Pháp Đã Áp Dụng

• Cấu Trúc HTML Phức Tạp: Một số trang web có cấu trúc HTML phức tạp, yêu cầu các kỹ thuật trích xuất dữ liệu nâng cao như XPath và CSS Selectors

• Hình Ảnh Chứa Văn Bản Có Chất Lượng Thấp: Các hình ảnh chứa văn bản không rõ ràng hoặc có độ phân giải thấp gây khó khăn trong việc nhận diện ký tự bằng OCR

• Sử Dụng XPath và CSS Selectors: Để trích xuất dữ liệu từ các cấu trúc HTML phức tạp, đã áp dụng các kỹ thuật trích xuất nâng cao như XPath và CSS Selectors để định vị chính xác các phần tử cần thiết

• Xử Lý Hình Ảnh: Đã áp dụng các kỹ thuật xử lý hình ảnh để cải thiện chất lượng hình ảnh trước khi áp dụng OCR, như làm sắc nét hình ảnh và loại bỏ nhiễu

Tổng kết, công cụ đã đạt được nhiều thành công trong việc tự động hóa quá trình trích xuất và lưu trữ dữ liệu từ "tratencongty.com" Tuy nhiên, công cụ vẫn cần cải thiện để xử lý các tình huống khó khăn hơn và mở rộng khả năng tương thích với các trang web có cấu trúc khác nhau Hiện tại, tập trung vào việc tối ưu hóa công cụ cho trang web chính mà công ty sử dụng đã giúp giải quyết những vấn đề cấp bách nhất

Ngày đăng: 05/08/2024, 22:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w