• Kiến thức
  • Kỹ năng
  • Nghề nghiệp
  • Công cụ hỗ trợ
  • Luật doanh nghiệp

Video

Business Analysis

Đăng ký nhận tin

 

Ý kiến học viên

  • Nguyễn Thị Mai Bình

    Business Analyst
    Với một người ngoại đạo như mình thì những chuyên đề về "kỹ thuật" của BA hết sức quan trọng. Ví dụ như sử dụng các diagram để mô hình hóa requirement, viết User Story/Use case, v...v..
     
    Đến với khóa học Fundamental Business Analysis, mình đã được gặp thầy Lộc, một người người rất nhiệt tình và có tâm. Ngoài việc chia sẻ các kinh nghiệm thực tế trên lớp thì thầy còn dành thời gian ra để tư vấn, hỗ trợ, góp ý CV cho mình. Bên cạnh đó trung tâm và anh Phụng cũng hỗ trợ gửi CV, kết nối học viên tới mạng lưới các công ty đối tác chất lượng, điều này giúp học viên như mình tìm được công việc phù hợp nhất. Cảm ơn BAC.
    Xem chi tiết +
  • Phạm Quế

    Business Analyst

    Khoá học Product Design của BAC đã cung cấp cho tôi nhiều kiến thức và nền tảng vô cùng hữu ích. Giảng viên giảng dạy rất nhiệt tình, truyền cho chúng tôi ngọn lửa đam mê và nhiệt huyết trong ngành. Đồng thời chia sẻ các kiến thức và kỹ năng cần thiết trong bài giảng một cách dễ hiểu hơn. Số lượng học viên không quá nhiều nên chất lượng giảng giạy vô cùng tốt. Giảng viên sửa bài tập 1-1 nên bài giảng sẽ chuyên sâu hơn.

    Xem chi tiết +
  • Nguyễn Văn Long

    Chuyên viên về chế độ kế toán & Giải pháp nghiệp vụ Tài chính kế toán trong ứng dụng CNTT - Tập đoàn Điện lực Việt Nam (EVN)

    Tôi đã tham gia khóa Phân tích nghiệp vụ phần mềm cơ bản 3.0 tại BAC. Ở đây, tài liệu đào tạo cung cấp nhiều nội dung bổ ích và trình bày dễ hiểu. Giảng viên rất nhiệt tình, ngoài nội dung giảng dạy theo giáo trình còn chia sẻ nhiều kinh nghiệm thực tiễn, các câu hỏi của học viên đều được giải đáp ngay trên lớp và có minh họa từ các dự án trong thực tế. Sau tất cả, tôi cảm ơn BAC và Thầy giáo Thái Sơn.

    Xem chi tiết +
BAC TRAINING & CONSULTANCY VN BAC TRAINING & CONSULTANCY VN BAC TRAINING & CONSULTANCY VN BAC TRAINING & CONSULTANCY VN
Language  
Điện thoại tư vấn0909 310 768
Facebook Youtube Linkedin

Apr 23, 2023

Data Cleaning là gì? Quy trình Data Cleaning gồm những bước nào?

Dữ liệu cung cấp rất nhiều sức mạnh cho thế giới hiện đại của chúng ta. Nhưng hầu hết chúng ta không phải là nhà khoa học dữ liệu hoặc kỹ sư phần mềm, chúng ta không hiểu được chiều sâu và độ phức tạp của các quy trình như làm sạch dữ liệu để biến hàng núi điểm dữ liệu thành thông tin chi tiết hữu ích về kinh doanh.

Data Cleaning mang đến vô số lợi ích cho doanh nghiệp

1. Data Cleaning là gì?

Làm sạch dữ liệu hay Data Cleaning là quá trình lấy dữ liệu như bạn hiện có và dọn dẹp nó bằng cách sửa lỗi, xác định các điểm dữ liệu không chính xác, các mục nhập trùng lặp,...

Data Cleaning được xem là một công việc quan trọng không thể thiếu. Quá trình này giúp dữ liệu được chuẩn hóa, tăng tính chính xác, mang đến những câu trả lời đáng tin cậy và giúp các công cụ phân tích dữ liệu truy cập và làm việc thuận lợi.

2. Data Cleaning bao gồm những giai đoạn nào?

Data Cleaning là một quá trình gồm nhiều bước từ thu thập cho đến xử lý, giải quyết,...

2.1. Tổng hợp dữ liệu và kiểm toán

Dữ liệu thường được lưu trữ ở nhiều nơi trước khi quá trình làm sạch bắt đầu. Có thể đó là thông tin liên hệ của khách hàng tiềm năng nằm rải rác trên CRM, một vài bảng tính và thậm chí có thể là một vài sổ tay vật lý, chỉ dành cho người mới bắt đầu. Tổng hợp dữ liệu thu thập tất cả và gộp nó thành một “nguồn sự thật” duy nhất.

Một trong những cải tiến đơn giản nhất có thể thực hiện đối với quy trình làm sạch dữ liệu định kỳ là tự động hóa bước tổng hợp này. Lỗi của con người là mối lo ngại với bất kỳ phần nào được thực hiện thủ công và tự động hóa có thể tạo điều kiện cập nhật theo thời gian thực nếu được thực hiện đúng.

Sau khi được thu thập, dữ liệu được kiểm tra về chất lượng và “tính toàn vẹn” ở một số khía cạnh như:

  • Độ chính xác: có nghĩa là dữ liệu có “đúng” trong một ngữ cảnh nhất định hay không. Một trong những hệ thống chính xác được sử dụng rộng rãi nhất là AVS, kiểm tra thông tin thẻ tín dụng đối với địa chỉ thanh toán trong quá trình mua hàng trực tuyến.
  • Tính đầy đủ: cho dù mọi đầu vào được yêu cầu đều có giá trị hay không. Trong trường hợp khách hàng tiềm năng, sẽ không hữu ích lắm nếu mục nhập có tên nhưng không có họ, điều này có thể khiến mục nhập gần như vô dụng.
  • Tính nhất quán: một số mục có thể được tìm thấy ở nhiều nơi (ví dụ: thông tin liên hệ được lấy từ nhiều nguồn) và xung đột ở đây có thể gây ra sự cố.
  • Hiệu lực: dữ liệu thường phải đáp ứng một số ràng buộc nhất định để nó có ý nghĩa khi so sánh với các giá trị khác. Hầu hết các vấn đề về tính hợp lệ đều được tìm thấy trong dữ liệu do hệ thống cũ thu thập.
  • Tính đồng nhất: máy tính thường không thực hiện tốt công việc so sánh các số và giá trị với nhau trừ khi tất cả chúng được định dạng theo cùng một cách.

Kiểm kê những vấn đề mà dữ liệu có ở dạng thô cung cấp điểm khởi đầu cho quy trình làm sạch thực tế. Làm thế nào để bạn làm sạch nó nếu bạn không biết thế nào là "bẩn"?

2.2. Quy trình làm sạch dữ liệu

Tất cả các vấn đề được phát hiện trong bước trước cần được kiểm tra. Phần này rất phức tạp và không phải mọi mục nhập dữ liệu đều có thể được cứu vãn. Một số vấn đề có thể được khắc phục, một số vấn đề có thể được sửa chữa một phần và một số vấn đề không thể khắc phục được.

Cho dù được thực hiện thủ công hay thông qua các công cụ tự động hóa, sẽ có một chút phân loại xảy ra khi tiến trình làm sạch dữ liệu thông qua toàn bộ danh sách. Một số dữ liệu sẽ cần phải làm sạch ít hoặc không cần làm sạch và một số dữ liệu hoàn toàn không thể sửa được.

Các vấn đề chất lượng khác nhau yêu cầu các phương pháp hiệu chỉnh khác nhau, chẳng hạn như:

  • Phân tích cú pháp: một số giá trị dễ xử lý hơn các giá trị khác. Ví dụ, các giá trị số dễ hiểu hơn, kiểm tra chất lượng và thường dễ sửa hơn. Một số yêu cầu phân tích chỉ để hiểu đầu vào giống như với bất kỳ đầu vào dữ liệu “phi cấu trúc” nào.
  • Loại bỏ trùng lặp: nhiều mục nhập có thể tạo ra vấn đề, vì vậy cần phải nỗ lực rất nhiều để điều hòa sự không nhất quán giữa chúng. Lý tưởng nhất là thông tin chính xác được xác định và các bản sao bị lỗi sẽ bị loại khỏi cơ sở dữ liệu.
  • Phân tích thống kê: ngay cả trong bối cảnh kinh doanh, việc kiểm soát các điểm bất thường và ngoại lệ cực đoan là một thông lệ quan trọng. Mặc dù một số trường hợp sử dụng cần thiết hơn những trường hợp khác nhưng việc áp dụng các mô hình thống kê cho dữ liệu có thể giúp ngăn một số mục nhập làm sai lệch các con số. Và mặc dù các ngoại lệ không phải lúc nào cũng bị xóa nhưng việc xác định chính xác chúng sẽ giúp kiểm soát và cho phép các nhóm giải quyết chúng một cách riêng biệt.
  • Rà soát dữ liệu nhạy cảm: thông tin nhận dạng cá nhân (PII) có thể là một vấn đề đối với một số ngành và trường hợp sử dụng và có thể cần phải xử lý đúng cách thông tin đó để tuân thủ pháp luật. Trong một số trường hợp, dữ liệu có thể bị xóa hoặc ẩn hoàn toàn. Ở những nơi khác, nó phải hiển thị với một số người, nhưng các biện pháp kiểm soát quyền phải được thực hiện để bảo vệ quyền riêng tư.
  • Chuyển đổi dữ liệu: ngay cả khi dữ liệu khá sạch để bắt đầu, thường cần phải định dạng lại một số lượng nhất định để cho phép các công cụ phân tích sử dụng dữ liệu đó một cách hiệu quả. Đó là lúc chuyển đổi dữ liệu xuất hiện. Thường là một phần của chức năng ETL, đây là nơi dữ liệu được chuẩn hóa và căn chỉnh với định dạng đích.

Dựa trên các lỗi dữ liệu và các phương pháp làm sạch phù hợp, quy trình công việc được chỉ định. Quy trình làm việc là một kế hoạch chiến đấu để giải quyết đúng các vấn đề và làm sạch toàn bộ tập dữ liệu.

2.3. Tự động hóa trong Data Cleaning

Tự động hóa thường đóng một phần trong quy trình làm sạch dữ liệu, mặc dù mức độ tự động hóa sẽ phụ thuộc vào một số yếu tố. Các quy trình công việc tiên tiến nhất hoàn thành gần như tất cả công việc thông qua tự động hóa. Trên thực tế, gần như không thể mở rộng quy trình công việc nếu không tăng mức độ tự động hóa được triển khai.

Tuy nhiên, không có gì lạ khi các phần của quy trình làm việc tiếp tục dựa vào các quy trình thủ công sau khi một giải pháp tự động hóa vừa hiệu quả vừa khả thi về mặt tài chính. Ngoài ra, khó đạt được tự động hóa hoàn toàn và thường là không nên làm. Một số cấp độ giám sát của con người cung cấp một dự phòng an toàn quan trọng để bắt lỗi mà máy không thể nhận ra.

Ngoài ra, tự động hóa có thể không có khả năng sửa chữa một số mục nhập mà con người vẫn có thể sửa chữa. Trong trường hợp cụ thể, các mục nhập không đầy đủ gần như không thể sửa bằng tự động hóa, nhưng trong một số trường hợp, chúng có thể được một người điền vào một cách tương đối dễ dàng.

Đặt những cân nhắc đó sang một bên, việc quyết định cách thức, thời điểm và địa điểm triển khai tự động hóa có thể khó khăn. Một mặt, các quy trình thủ công tốn thời gian, tẻ nhạt và dễ xảy ra lỗi do con người. Mặt khác, quy trình làm việc tự động có thể tốn kém về mặt tính toán, khó thực hiện và triển khai và ai đó phải xây dựng quy trình tự động hóa ngay từ đầu.

Cuối cùng, câu trả lời “đúng” sẽ phụ thuộc vào các chi tiết cụ thể của trường hợp sử dụng. Mặc dù nhiều tổ chức tìm thấy thành công bằng cách thuê ngoài.

3. Hậu xử lý, phòng ngừa và chính sách

Sau khi quy trình làm việc hoàn tất, có thể có một số chi tiết cuối cùng cần giải quyết, các mục nhập cần được xử lý thủ công, xem xét tính toàn vẹn của kết quả,… Khi đã xử lý xong, dữ liệu sẽ sẵn sàng để đưa vào công cụ kinh doanh mà bạn lựa chọn.

Tận dụng mọi nỗ lực mà một quy trình công việc đơn lẻ yêu cầu, thật dễ hiểu tại sao rất nhiều tổ chức tránh làm sạch dữ liệu. Tuy nhiên, với các hệ thống, quy trình và chính sách phù hợp, chi phí làm sạch dữ liệu có thể giảm đáng kể.

Khi đã sẵn sàng và được triển khai đúng cách, văn hóa chất lượng dữ liệu có thể giảm đáng kể chi phí hoạt động cho quy trình làm việc và tăng cường hiệu quả của dữ liệu. Cải thiện chất lượng của dữ liệu được thu thập là một phần kỹ thuật và quản lý một phần.

Quá trình làm sạch dữ liệu có thể được cải thiện thông qua các phương pháp như:

  • Xóa hoặc cập nhật các hệ thống cũ
  • Chọn công cụ công nghệ phù hợp nhất với trường hợp sử dụng
  • Xây dựng hệ thống hỗ trợ tích hợp và tương tác giữa các ứng dụng
  • Thiết kế và triển khai tự động hóa cho các tác vụ tốn nhiều thời gian và dễ bị lỗi nhất

Tương tự, chính sách có thể được sử dụng để thúc đẩy chất lượng dữ liệu trong toàn tổ chức bằng các chiến thuật như:

  • Thúc đẩy cam kết về chất lượng dữ liệu và dẫn đầu bằng ví dụ
  • Cung cấp hỗ trợ và nguồn lực cần thiết để tạo điều kiện cải tiến
  • Nâng cao nhận thức về tầm quan trọng của chất lượng dữ liệu
  • Khuyến khích hợp tác giữa các phòng ban
  • Đo lường nỗ lực chất lượng dữ liệu và ăn mừng thành công
4. Bắt đầu quá trình Data Cleaning

Có khá nhiều điều mà bạn cân nhắc trước khi quyết định xem bạn có cần xóa dữ liệu của mình hay không.

  • Bạn có dữ liệu gì?
  • Nó được thu thập ở đâu?
  • Nó đang được lưu trữ ở đâu?
  • Bạn đang tổng hợp nó ở đâu?
  • Những gì làm sạch cần phải được thực hiện?

Có những công cụ có thể trợ giúp việc này, nhưng hầu hết chúng sẽ dành cho các trường hợp sử dụng khác nhau, thường được phân chia theo ngành hoặc tích hợp cần thiết.

Cũng cần lưu ý rằng nhiều công cụ của bên thứ ba có sẵn sẽ tập trung vào một phần cụ thể của quy trình như tổng hợp dữ liệu, làm sạch hoặc xóa dữ liệu, phân tích dữ liệu,... giải pháp trong một hoặc có thể yêu cầu nhiều công cụ riêng biệt được tích hợp với nhau.

Lưu ý rằng các công cụ tốt nhất không chỉ giúp máy tính hiểu dữ liệu dễ dàng. Nó cũng giúp con người phân tích dữ liệu dễ dàng hơn. Dữ liệu tốt, sạch sẽ là một nguồn tài nguyên quý giá, tốn kém để có được và xử lý. Đó là lý do tại sao rất nhiều thương hiệu không thu được lợi ích từ dữ liệu của họ. Nhưng với các hệ thống tinh chỉnh phù hợp được áp dụng, ngay cả những đội có nguồn lực hạn chế cũng có thể gặt hái thành quả.

Hy vọng bài viết đã cung cấp những thông tin hữu ích cho bạn đọc. Đừng quên đón xem các bài viết mới nhất sẽ được cập nhật tại BAC's Blog.

Nguồn tham khảo:

https://technologyadvice.com/

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.
 
 

CÁC KHOÁ HỌC BUSINESS ANALYST BACs.VN DÀNH CHO BẠN

Khoá học Online:

  • Chìa khoá thành công dành cho Business Analyst

  • Công cụ & Kỹ năng dành cho Business Analyst

Khoá học Offline:

Tại Tp.HCM:

  • Phân tích nghiệp vụ cơ bản 3.0

  • Phân tích nghiệp vụ nâng cao 3.0

  • Luyện thi chứng chỉ IIBA 3.0

Tại Hà Nội:

  • Hà Nội - Phân tích nghiệp vụ 3.0

  • Hà Nội - Phân tích nghiệp vụ nâng cao 3.0

Tham khảo lịch khai giảng TẤT CẢ các khóa học mới nhất

Ban biên tập nội dung - BAC

 

Click để đọc tiếp

  • QUẢN LÝ QUY TRÌNH NGHIỆP VỤ, TỰ ĐỘNG HÓA LÀ GÌ?
    QUẢN LÝ QUY TRÌNH NGHIỆP VỤ, TỰ ĐỘNG HÓA LÀ GÌ?

    Quy trình nghiệp vụ giúp doanh nghiệp hoạt động hiệu quả, đảm bảo công việc được thực hiện suôn sẻ và rõ ràng. Việc tự động hóa quy trình, nhờ vào công nghệ hiện đại và AI, giúp giảm khối lượng công việc thủ công, tiết kiệm thời gian, chi phí và tối ưu hiệu suất. Lợi ích của tự động hóa bao gồm tăng năng suất, cải thiện trải nghiệm khách hàng và nâng cao khả năng quản lý dữ liệu. Tương lai của tự động hóa hứa hẹn sẽ tạo ra bước tiến mới, giúp doanh nghiệp phát triển bền vững và thích nghi nhanh hơn với sự thay đổi của thị trường.

  • API LÀ GÌ? KHÁM PHÁ CẦU NỐI GIỮA CÁC ỨNG DỤNG
    API LÀ GÌ? KHÁM PHÁ CẦU NỐI GIỮA CÁC ỨNG DỤNG

    API là nền tảng quan trọng kết nối các ứng dụng và dịch vụ trong kỷ nguyên số, tạo ra sự linh hoạt, hiệu quả và mở rộng cho các hệ thống. Bài viết sau giới thiệu API, cách hoạt động, các kiểu kiến trúc phổ biến cùng các công cụ kiểm thử API như Postman. Bạn sẽ hiểu rõ hơn về tầm quan trọng và ứng dụng thực tế của API trong công nghệ hiện đại.

  • Phân tích dự báo trong ngành Bán lẻ : 7 Use Cases
    Phân tích dự báo trong ngành Bán lẻ : 7 Use Cases

    Bài viết cung cấp cái nhìn tổng quan về vai trò quan trọng của phân tích dự báo trong ngành bán lẻ. Doanh nghiệp bán lẻ có thể vận dụng phân tích dự báo để đưa ra quyết định sáng suốt, nâng cao khả năng cạnh tranh và gặt hái thành công trong thị trường đầy biến động như hiện nay.

  • Sử dụng AI để phát huy sức mạnh của Business Analysis
    Sử dụng AI để phát huy sức mạnh của Business Analysis

    Trí tuệ nhân tạo (AI) đang mang đến một cuộc cách mạng cho lĩnh vực Business Analysis, giúp cho các Business Analyst tiết kiệm thời gian, công sức và đưa ra quyết định sáng suốt hơn. Bên cạnh đó, AI còn giúp các doanh nghiệp cải thiện hiệu quả hoạt động và đưa ra những bước đột phá trong đổi mới.

Bình luận

CÔNG TY CỔ PHẦN ĐÀO TẠO VÀ TƯ VẤN BAC

Mã số doanh nghiệp: 0312713743 do Sở Kế hoạch & Đầu tư TP.HCM cấp ngày 28/03/2014
Trụ sở chính: Lầu 6 - Tòa nhà Thiên Phước 1, 244 Cống Quỳnh, Phường Phạm Ngũ Lão, Quận 1, TP. HCM.
Chi nhánh: Lầu 11, Tòa nhà Hải Âu, Số 39B Trường Sơn, Quận Tân Bình, Tp.HCM.
Email: info@bacs.vn - Web: www.bacs.vn - Điện thoại: (84) 909 310 768

Đã thông báo bộ công thương
DMCA.com Protection Status

Copyright © 2014 BAC JSC.
All Rights Reserved.

BAC - Business Analyst Training Center