Ở phần 1 bài viết cùng chủ đề, BigDataUni đã giới thiệu các khái niệm về Data quality, Data quality management; lợi ích; tầm quan trọng; và các tiêu chuẩn, tiêu chí đánh giá chất lượng dữ liệu. Mặc dù nhiều công ty, tổ chức hiện nay đã nhận thức được sự cần thiết của các nhiệm vụ trong Data quality, nhưng họ vẫn phải đối mặt với nhiều thách thức, khó khăn khác nhau dẫn đến việc thiết lập, và triển khai các giải pháp thích hợp càng được quan tâm hơn bao giờ hết. Bài viết hôm nay, BigDataUni sẽ cùng với các bạn khám phá những vấn đề trên.
Dành cho bạn nào chưa xem phần 1:
TỔNG QUAN VỀ DATA QUALITY – CHẤT LƯỢNG DỮ LIỆU (P1)
Trước khi đi vào nói về thách thức, và giải pháp trong quản lý chất lượng, chúng ta cùng bàn luận sơ lược về tác hại của chất lượng dữ liệu kém là như thế nào, nhằm nhấn mạnh lại một lần nữa tầm quan trọng của Data quality management (DQM).
Tác hại của dữ liệu kém chất lượng – bad hay low data quality
Nguồn hình asalesguy.com
Đầu tiên, dữ liệu kém chất lượng sẽ tác động, ảnh hưởng đến toàn bộ tổ chức, có thể tác động đến hầu hết các bộ phận chức năng, các hoạt động kinh doanh. Ví dụ ảnh hưởng đến chi phí phải bỏ ra, tính hiệu quả của các chiến dịch marketing, chăm sóc khách hàng; khả năng thấu hiểu khách hàng và mức độ chính xác của những quyết định, giải pháp đề ra.
Dữ liệu chất lượng kém sẽ “phá hủy” những giá trị, lợi nhuận mà một tổ chức có thể nhận được. Theo một nghiên cứu gần đây của Gartner, công ty đi đầu trong lĩnh vực nghiên cứu và tư vấn, thì những tổ chức được khảo sát (chủ yếu tại thị trường Hoa Kỳ, và một số quốc gia phát triển khác) cho rằng dữ liệu kém làm tổn thất trung bình 15 triệu USD mỗi năm.
Tác hại của dữ liệu “xấu” còn được nhìn ở khía cạnh vô hình chính là khi khách hàng, nhân viên, người sử dụng dữ liệu, người tiếp nhận thông tin, không tin tưởng, hay mất niềm tin vào những lời nói, hành động, kết quả có được dựa trên quá trình quản lý, phân tích dữ liệu. Ví dụ, bạn là nhân viên phát triển kinh doanh, có nhiệm vụ đề xuất các báo cáo, chiến lược lên cấp quản lý, trưởng phòng, và dữ liệu bạn sử dụng đã cũ, hoặc dữ liệu không phù hợp, không liên quan đến mục tiêu chẳng hạn như đẩy mạnh đầu tư, cung cấp sản phẩm cho phân khúc khách hàng nào đó. Liệu cấp quản lý có tin những lời bạn trình bày, báo cáo bạn đưa ra khi họ xemqua bộ dữ liệu bạn sử dụng? Hay ví dụ khác điển hình là sự cố lộ thông tin cá nhân khách hàng của Thế Giới Di Động trong năm 2018 vừa rồi đã khiến chúng ta không còn tin tưởng hoàn toàn vào mức độ bảo mật thông tin của Thế Giới Di Động.
Không chỉ riêng Thế Giới Di Động tại nước ta, mà các ông trùm về công nghệ và mạng xã hội như Facebook, Google, Twitter gần đây cũng đã để lộ thông tin người dùng, và dĩ nhiên uy tín, niềm tin của người dùng đang giảm dần theo thời gian. Như đã nói ở bài viết trước, nhu cầu đảm bảo và cải thiện chất lượng không chỉ dừng lại là gia tăng giá trị, hay lợi nhuận mà còn tăng mức độ bảo mật thông tin, tuân thủ các điều luật của quốc gia về an ninh dữ liệu, tăng sự minh bạch trong việc sử dụng, khai thác dữ liệu. Vậy nên chúng ta cũng có thể kết luận dữ liệu chât lượng kém có thể tác động đến hình ảnh thương hiệu của tổ chức.
Nguồn hình Internet
Trong một nghiên cứu của công ty hàng đầu về phần mềm, công nghệ, IBM trong năm 2016, trích trong Havard Business Review thì có đến 3.1 nghìn tỷ USD chi phí bỏ ra cho dữ liệu chất lượng kém hàng năm, chỉ tính trong thị trường Hoa Kỳ. Lý do là những người đứng đầu, những người ra quyết định, nhà quản lý, nhân viên có chuyên môn về dữ liệu, nhà khoa học dữ liệu và những nhân viên khác phải điều chỉnh, chỉnh sửa, cải thiện dữ liệu chất lượng kém trong công việc, nhiệm vụ hàng ngày của họ. Dĩ nhiên làm như vậy sẽ vừa tốn thời gian, vừa tốn kém, giảm hiệu suất làm việc, và hoạt động của toàn tổ chức. Ví dụ một nhân viên tại một phòng ban bất kỳ cần một tập dữ liệu để phân tích và hoàn thành báo cáo gấp, nhưng nếu tập dữ liệu bị lỗi, dữ liệu bên trong bị trùng lặp, hay không có giá trị (missing values) thì sẽ phải rất mất thời gian để tự chỉnh sửa, và làm báo cáo cho kịp thời hạn được giao, cũng như gặp phải nguy cơ báo cáo không có độ chính xác cao. Nguyên nhân một phần vì nhân viên ấy không có khả năng, không có thời gian gặp người phụ trách việc thu thập, xuất dữ liệu để trình bày mong muốn của mình, và giải thích các vấn đề gặp phải.
Theo Forrester, một công ty nghiên cứu thị trường nổi tiếng tại Hoa Kỳ, gần một phần ba các nhà phân tích dành hơn 40 % thời gian để kiểm tra và xác thực dữ liệu phân tích của họ trước khi có thể được sử dụng để ra quyết định chiến lược. Ngoài ra theo Figure Eight, 60% – phần thời gian ước tính mà các nhà khoa học dữ liệu dành cho việc làm sạch và sắp xếp dữ liệu. Khẳng định lần nữa, chất lượng dữ liệu kém sẽ làm chậm tốc độ khai thác giá trị từ dữ liệu, và làm chậm tốc độ đề ra những giải pháp, chiến lược dựa trên dữ liệu.
Hơn nữa, nếu không nhanh chóng phân tích và tìm ra những thông tin hữu ích từ dữ liệu hay không được đảm bảo về chất lượng, dẫn đến kết quả phân tích có thể không chính xác, đặc biệt đối với dữ liệu mới (vừa thu thập), dữ liệu khách hàng, tình hình thị trường,.. thì công ty sẽ không thể nắm bắt, cập nhật nhu cầu khách hàng, xu hướng tiêu dùng một cách thường xuyên trong thời gian ngắn, không thể tiếp cận khách hàng tiềm năng, dẫn đến bỏ lỡ nhiều cơ hội kinh doanh tốt, không đạt mục tiêu doanh thu, bị bỏ lại sau bởi những đối thủ cạnh tranh ngày nay.
Chúng ta cũng đã bàn luận một số tác hại của dữ liệu kém chất lượng nhưng chưa nói đến các đặc điểm, các vấn đề từ dữ liệu mà dựa vào đó cho rằng kém chất lượng, hay trả lời cho câu hỏi “thế nào là dữ liệu kém chất lượng?” – là dữ liệu không đáp ứng các tiêu chuẩn và tiêu chí đánh giá, đo lường được chúng tôi giới thiệu ở phần 1 lần trước. Cụ thể một số ví dụ như:
- Dữ liệu cung cấp thông tin không đáng tin cậy
- Dữ liệu không đầy đủ, thiếu giá trị tại các ô quan sát
- Dữ liệu bị trùng lặp
- Dữ liệu mơ hồ, khó diễn giải ý nghĩa, không có thông tin mô tả về dữ liệu cụ thể
- Dữ liệu cung cấp thông tin lỗi thời
- Dữ liệu cập nhật trễ
- Dữ liệu có định dạng phức tạp, không nhất quán.
- ….
Thách thức đối với Data quality management
Tiếp theo chúng ta sẽ đi vào phân tích những thách thức mà mỗi công ty, tổ chức phải đối mặt khi triển khai Data quality management, cũng vừa là những nguyên nhân dẫn đến các vấn đề về chất lượng dữ liệu:
- Nguyên nhân và thách thức đến từ cơ cấu tổ chức, và cách thức quản lý của các cấp lãnh đạo
Nhiều người cho rằng hầu hết các vấn đề về chất lượng dữ liệu là do lỗi thu thập, nhập dữ liệu. Nhưng theo nhiều chuyên gia cho rằng những lỗ hổng trong việc vận hành, quản lý các quy trình kỹ thuật và kinh doanh kém gây ra nhiều vấn đề hơn so với việc nhập sai dữ liệu hay thực hiện những thao tác với dữ liệu không đúng cách. Nhiều vấn đề về chất lượng dữ liệu là do thiếu cam kết của tổ chức đối với việc đảm bảo chất lượng dữ liệu, bắt nguồn từ việc thiếu sự quản lý, lãnh đạo chặt chẽ.
Tổ chức, hay công ty nào cũng có nguồn dữ liệu cần được khai thác, và được xem là nguồn sống, nền tảng để phát triển. Tương tự như phân bổ nguồn lực tài chính, phân bổ nhân lực vào các bộ phận chức năng, phòng ban khác nhau, thì việc chia sẻ dữ liệu thông tin xuyên suốt tổ chức cũng vô cùng quan trọng. Mặc dù vậy, rất ít tổ chức có một hệ thống luân chuyển chia sẻ dữ liệu vừa hiệu quả, vừa được quản lý nghiêm ngặt. Trong hầu hết các tổ chức, sự khác biệt của dữ liệu khi được chia sẻ và luân chuyển (ví dụ sự khác biệt về cấu trúc dữ liệu, định dạng, dữ liệu trước khi chia sẻ và sau khi chia sẻ không khớp, bị thất lạc, không đầy đủ,…) là một vấn đề lớn; không những gây trở ngại cho việc tích hợp, sử dụng dữ liệu mà còn dẫn đến nhiều hậu quả nghiêm trọng hơn.
Nếu việc quản lý, xây dựng các hệ thống dữ liệu không hỗ trợ tốt cho quá trình chia sẻ thông tin, dữ liệu thì dẫn đến những trường hợp như nhân viên cần tìm kiếm các dữ liệu quan trọng dành cho công việc của mình sẽ trở nên khó khăn hơn (gần giống như chúng tôi đã phân tích ở phần tác hại của dữ liệu chất lượng kém); việc báo cáo dữ liệu bị lỗi, tiến hành khắc phục các vấn đề từ dữ liệu, sửa đổi dữ liệu; và theo sát và duy trì chất lượng của dữ liệu trong suốt quá trình luân chuyển, chia sẻ sẽ trở nên phức tạp hơn, tốn kém nhiều thời gian, giảm hiệu suất làm việc của toàn tổ chức.
Do đó, thách thức đầu tiên mỗi tổ chức phải đối phó để cải thiện chất lượng dữ liệu, để triển khai Data quality management (DQM) thành công chính là thách thức làm sao phải đẩy mạnh tính hiệu quả của cách thức quản lý, vận hành và sự lãnh đạo đúng đắn không chỉ từ ban điều hành mà còn từ toàn bộ nhân viên.
- Nguyên nhân và thách thức đến từ quá trình nhập dữ liệu
+ Vấn đề về giao diện (phần mềm) nhập dữ liệu
Giao diện nhập dữ liệu được thiết kế kém có thể góp phần vào các vấn đề chất lượng dữ liệu kém. Nếu giao diện nhập dữ liệu không có khả năng chỉnh sửa hoặc kiểm soát để ngăn chặn các trường hợp như dữ liệu không chính xác, dữ liệu bị trùng lặp, dữ liệu bị thiếu giá trị (missing values),… trước khi được đưa vào các hệ thống xử lý dữ liệu, thì chất lượng dữ liệu không đạt tiêu chuẩn cho giai đoạn phân tích. Ngoài ra, việc giao diện hay phần mềm nhập dữ liệu bị trục trặc cũng sẽ ảnh hưởng đến dữ liệu. Do đó thách thức đề ra ở đây là việc lựa chọn giao diện, phần mềm, và xây dựng hệ thống các bước nhập dữ liệu sao cho phù hợp nhất.
+ Vấn đề từ việc sử dụng giao diện, và các trường dữ liệu trong thời gian dài
Nhiều công ty thường sử dụng lại các trường dữ liệu đã được dùng trước đó, vào các dự án, mục tiêu kinh doanh mới khác nhau thay vì thay đổi cơ cấu dữ liệu, giao diện nhập dữ liệu vì cho rằng mất thời gian, tốn kém. Nhưng điều này sẽ dẫn đến sự không phù hợp, và tác động lên chất lượng dữ liệu.
+ Vấn đề từ việc traning (huấn luyện) nhập dữ liệu
Thiếu kiến thức về quy trình có thể dẫn đến nhập dữ liệu không chính xác, ngay cả khi có các công cụ kiểm tra, điều khiển và chỉnh sửa. Nếu nhân viên nhập dữ liệu không quan tâm hay coi nhẹ các tác hại từ việc dữ liệu không chính xác, kém chất lượng mà chú trọng vào tốc độ xử lý, thì chất lượng dữ liệu sẽ không được đảm bảo để sử dụng cho các giai đoạn sau bởi những bộ phận, phòng ban khác.
+ Vấn đề từ việc thay đổi các quy trình kinh doanh
Các quy trình kinh doanh thay đổi theo thời gian dẫn đến các quy tắc kinh doanh mới và yêu cầu về chất lượng dữ liệu được đề ra. Tuy nhiên, thay đổi quy tắc kinh doanh không phải lúc nào cũng được kết hợp với các hệ thống dữ liệu một cách kịp thời và toàn diện. Lỗi dữ liệu sẽ xảy ra nếu một giao diện không được nâng cấp để đáp ứng các yêu cầu mới và dữ liệu có khả năng bị ảnh hưởng.
+ Vấn đề từ việc vận hành các quy trình kinh doanh không nhất quán
Dữ liệu được tạo ra thông qua các quy trình kinh doanh được thực thi không nhất quán có khả năng không nhất quán, chất lượng dữ liệu có thể bị ảnh hưởng.
- Nguyên nhân và thách thức đến từ các chức năng, quy trình xử lý dữ liệu bị tác động bởi các thay đổi trong mục tiêu, định hướng phát triển tổ chức, và các thay đổi của hệ thống dữ liệu
Các chức năng, quy trình xử lý dữ liệu từ việc xác định nguồn dữ liệu, thu thập, lưu trữ, đến chọn lọc, làm sạch, chuyển đổi, truyền tải, tiến hành phân tích,… đều có thể xảy ra những lỗi khác nhau, tác động đến chất lượng dữ liệu. Nguyên nhân không chỉ từ các nhân viên thực hiện sai thao thác, hay vẫn chưa được trang bị đầy đủ chuyên môn, kỹ năng cần thiết; mà còn bắt nguồn từ sự thay đổi trong định hướng phát triển như việc sát nhập, hay mua lại có thể tác động đến hệ thống thu thập dữ liệu việc xác định nguồn dữ liệu thu thập, chia sẻ dữ liệu, thông tin; bắt nguồn từ việc thay đổi các quy tắc kinh doanh, không cập nhật vào những hệ thống dữ liệu; bắt nguồn từ sự thay đổi của cấu trúc dữ liệu và người sử dụng dữ liệu không được thông báo trước, các phần mềm hệ thống không được tinh chỉnh, cập nhật theo.
Thách thức đề ra là xây dựng hệ thống đánh giá chất lượng dữ liệu linh hoạt hơn và việc đảm bảo duy trì những hệ thống, quy trình, cách thức, chức năng xử lý dữ liệu sao cho nhất quán, hiệu quả, và cập nhật, điều chỉnh một cách phù hợp, nhanh chóng trước sự thay đổi về mục tiêu, quy tắc kinh doanh, định hướng phát triển ngắn hạn đến dài hạn của tổ chức (hay các biến đổi từ môi trường hoạt động bên trong, bên ngoài tổ chức)
Với các tổ chức, công ty quy mô lớn có tiềm lực về tài chính, khả năng thay đổi, tiếp cận tốt với công nghệ kỹ thuật tiên tiến, thì thách thức từ quá trình nhập dữ liệu sẽ dễ dàng đối phó, còn ngược lại là thách thức lớn đối với những tổ chức, công ty quy mô nhỏ, tiềm lực tài chính kém, không có khả năng thay đổi, tiếp cận công nghệ.
Ngoài ra còn có nhiều thách thức và nguyên nhân khác đến từ hệ thống mà chúng tôi không tiện đề cập ở đây vì tránh đi quá sâu và làm dài bài viết.
- Nguyên nhân và thách thức đến từ cách thức sửa chữa, xử lý các vấn đề dữ liệu
Cách sửa chữa, điều chỉnh dữ liệu bị lỗi, chất lượng kém một cách thủ công, sai quy cách là những thay đổi được thực hiện trực tiếp trên dữ liệu trong cơ sở dữ liệu mà không tuân thủ, không thông qua các quy tắc nghiệp vụ, quy tắc kinh doanh được đề ra khi sử dụng các phần mềm, giao diện, ứng dụng làm việc với dữ liệu, và điều này khiến dữ liệu trở nên “tệ hơn”. Thông thường ở một số công ty, việc dữ liệu được chỉnh sửa thủ công và nhanh chóng, xảy ra khi xuất hiện những trường hợp khẩn cấp, hoặc nhân viên muốn đẩy nhanh tiến độ công việc,…Mặc dù chúng ta biết rằng sự linh hoạt là cần thiết trong công việc nhưng đối với dữ liệu thì khác. Chất lượng dữ liệu bị ảnh hưởng có thể tác động tiêu cực đến bất kỳ phòng ban, bộ phận chức năng khác trong công ty khi họ sử dụng dữ liệu.
Ngoài thách thức xây dựng những tiêu chuẩn đánh giá chất lượng cụ thể, cũng như một tập hợp những phương pháp, một bộ các bước chuẩn tắc trong từng quy trình làm việc với dữ liệu, thì việc thiết lập các giải pháp thích hợp để xử lý những dữ liệu bị lỗi, dữ lý kém chất lượng cũng cần được quan tâm.
- Thách thức đến từ hệ thống bảo mật thông tin, dữ liệu
Như chúng tôi đã nói ở bài viết trước và tại phần tác hại của chất lượng dữ liệu kém trong bài viết này, thì vấn đề về bảo mật thông tin, minh bạch trong việc sử dụng thông tin, dữ liệu của khách hàng, tuân thủ các điều luật như luật An ninh mạng tại nước ta hay bộ luật GDPR được ban hành tại các nước liên minh châu Âu EU, ngày càng được chú trọng nhiều hơn, trở thành một trong những quy tắc kinh doanh buộc bất kỳ tổ chức, công ty thuộc mọi lĩnh vực, ngành nghề, quy mô phải thực thi.
Tuy nhiên, thách thức để xây dựng một hệ thống dữ liệu đạt chuẩn (ví dụ trong ngành ngân hàng, tài chính có tiêu chuẩn an ninh là PCI DSS) tích hợp, áp dụng các công cụ, phần mềm tiên tiến hỗ trợ chống tin tặc, hacker, virus tinh vi đánh cắp thông tin, đang ngày trở nên khó khăn, phức tạp hơn, đòi hỏi mỗi tổ chức, công ty phải thường xuyên cảnh giác, cập nhật những công nghệ mới. Ngoài ra, thách thức còn hiện hữu trong việc thiết liệp các quy định nội bộ, quy tắc đảm bảo mọi nhân viên phải được trang bị, và tuân thủ tuyệt đối để tăng cường bảo mật dữ liệu. Bên cạnh đó, việc triển khai các biện pháp chứng minh cho khách hàng, người tiêu dùng sự minh bạch trong sử dụng thông tin, dữ liệu cá nhân cũng cần được lưu ý.
Những thách thức, nguyên nhân chúng tôi vừa giới thiệu ở trên nằm ở khía cạnh của tổ chức, công ty, sau đôi chúng ta sẽ nói về các thách thức mà chính dữ liệu đem lại.
- Khối lượng dữ liệu ngày càng lớn, sự đa dạng của các nguồn dữ liệu, mang lại các kiểu dữ liệu phong phú và các cấu trúc dữ liệu phức tạp qua đó làm tăng sự khó khăn cho việc tích hợp, xử lý dữ liệu.
Trước đây, các công ty chỉ sử dụng dữ liệu được tạo từ hệ thống kinh doanh của riêng họ, chẳng hạn như dữ liệu bán hàng và hàng tồn kho. Nhưng bây giờ, dữ liệu cần được thu thập và phân tích đã vượt qua giới hạn ban đầu. Nguồn dữ liệu hiện nay được gắn với thuật ngữ “Big data” – dữ liệu lớn. Vì sao gọi là Big data?
Đơn giản do khối lượng dữ liệu ngày càng lớn, sự đa dạng của loại dữ liệu, nguồn dữ liệu mà mỗi công ty phải thu thập (dữ liệu từ internet, mạng xã hội, dữ liệu từ các thiết bị I.o.T,..). Ngoài ra, cấu trúc và định dạng dữ liệu cũng rất phong phú: dữ liệu phi cấu trúc, ví dụ: tài liệu, video, âm thanh, v.v … các loại dữ liệu bán cấu trúc, và dữ liệu có câu trúc khác.
Đối với các công ty để có được dữ liệu lớn với cấu trúc phức tạp từ các nguồn khác nhau và tích hợp chúng một cách hiệu quả là một nhiệm vụ khó khăn. Những xung đột và hiện tượng không nhất quán hoặc mâu thuẫn giữa các dữ liệu từ các nguồn khác nhau rất thường xảy ra, điều này ảnh hưởng đến chất lượng của dữ liệu, dữ liệu không có đầy đủ điều kiện để sử dụng cho các giai đoạn sau. Hơn nữa khối lượng dữ liệu lớn, mà hệ thống không thể xử lý nổi cũng làm chậm tiến độ khai thác dữ liệu (đối với dữ liệu cấu trúc phực tạp sẽ mất rất nhiều thời gian để chuyển đổi dữ liệu.), làm tăng chi phí, và các vấn đề về bảo mật khác cũng có thể xảy ra.
Thách thức của mỗi tổ chức chính là xây dựng một hệ thống dữ liệu có thể bắt kịp với các xu hướng Big data, ứng phó tốt với những thay đổi của dữ liệu về khối lượng, nguồn thu thập, định dạng, cấu trúc, đảm bảo dữ liệu được lưu trữ, xử lý hiệu quả với chất lượng dữ liệu luôn được duy trì và cải thiện.
- Dữ liệu hiện nay thay đổi liên tục, và có vòng đời ngắn, giá trị thông tin của dữ liệu giảm nhanh hơn trong thời gian ngắn.
Với sự phát triển của Internet, mạng xã hội, mạng 4G, 5G,… việc thông tin, dữ liệu cập nhật chậm và khả năng xử lý dữ liệu để cho ra kết quả trong thời gian hợp lý yếu kém, sẽ là bước lùi của bất kỳ công ty trước đối thủ cạnh tranh. Đây cũng là thách thức yêu cầu công ty phải triển khai hệ thống dữ liệu tối ưu áp dụng công nghệ, phần mềm tiên tiến để đảm bảo quản lý chất lượng dữ liệu vừa đảm bảo dữ liệu được thu thập và phân tích nhanh chóng.
- Dữ liệu không chính xác, thông tin không đáng tin cậy
Vấn đề dữ liệu ban đầu trước khi thu thập đã không chính xác, không đáng tin cậy do một số nguyên nhân khách quan ví dụ về dữ liệu thông tin cá nhân khách hàng bị lỗi do khách hàng cung cấp sai hay nguyên nhân chủ quan như hệ thống thu thập dữ liệu gặp trục trặc. Khả năng tiếp cận khách hàng hiện tại và khách hàng tiềm năng một cách hiệu quả và có hệ thống đối với từng công ty là rất quan trọng, do đó nếu dữ liệu khách hàng không đảm bảo yêu cầu về chất lượng, thì các mục tiêu về doanh thu, mục tiêu phát triển sản phẩm, dịch vụ,… sẽ gặp trở ngại.
Không chỉ riêng dữ liệu về thông tin cá nhân khách hàng, các dữ liệu về lịch sử giao dịch, dữ liệu về hoạt động tài chính, dữ liệu sản xuất cũng không phải lúc nào cũng chính xác, tin tưởng tuyệt đối. Vậy nên, công ty phải xây dựng các tiêu chuẩn đánh giá chất lượng dữ liệu bao gồm cả những phương pháp kiểm tra, xác thực dữ liệu.
Còn rất nhiều thách thức khác như thiếu nhân lực có kỹ năng chuyên môn, các vấn đề về quyền kiểm soát, sở hữu dữ liệu của tổ chức, và các vấn đề dữ liệu như dữ liệu bị trùng lặp, dữ liệu lỗi thời, thiếu những tiêu chuẩn đánh giá phù hợp, hay quá nhiều tiêu chuẩn đánh giá nghiêm ngặt dẫn đến dữ liệu có giá trị nhưng chất lượng không đạt yêu cầu và bị loại bỏ, gây lãng phí tài nguyên dữ liệu.
BigDataUni xin kết thúc phần thách thức, để chúng ta đi vào phần giải pháp.
Nguồn Rawpixel.com
Giải pháp cải thiện chất lượng dữ liệu
Để có một hệ thống quản trị chất lượng dữ liệu – Data quality management (DQM) hiệu quả thì mỗi công ty cần phải có các những quy trình, yếu tố thành phần sau:
Về mặt con người
Tất cả những hệ thống, phần mềm hoạt động tốt không chỉ dựa vào các tính năng ưu việt của chúng mà còn nhờ sự kiểm soát, vận hành bởi con người. Để có một hệ thống DQM hoàn chỉnh, thì công ty phải bổ sung những vi trí sau với các nhân viên, ứng viên có kỹ năng, kiến thức chuyên môn đầy đủ:
- Nhân viên phụ trách quản lý DQM có nhiệm vụ giám sát các hoạt động có trong DQM và tham gia vào những sáng kiến, mục tiêu kinh doanh (hay Business Intelligence – các quy trình, cách thức sử dụng dữ liệu (data) để hỗ trợ các nhà quản lý trong các công ty đưa ra các quyết định về kinh doanh). Ngoài ra, họ còn phải kiểm soát, quản lý các hoạt động hàng ngày liên quan đến phạm vi dữ liệu, ngân sách cho các dự án dữ liệu và việc triển khai những dự án, chương trình.
- Nhân viên IT, nhân viên cập nhật, điều chỉnh hệ thống phụ trách các vấn đề về công nghệ, đi đầu trong việc đề ra các giải pháp về công nghệ được ứng dụng trong DQM, giải thích rõ ràng, cung cấp thông tin về những lợi ích, và những hiểu biết chuyên sâu cho ban điều hành, và nhân viên ở các bộ phận khác liên quan.
- Nhân viên phân tích dữ liệu, nhân viên phân tích kinh doanh (Data analyst và Business Analyst) xác định nhu cầu chất lượng, các tiêu chuẩn đo lường chất lượng dữ liệu đứng ở góc độ tổ chức. Những nhu cầu, tiêu chuẩn này sau đó được tích hợp vào các mô hình, hệ thống dữ liệu. Họ còn phải đảm bảo những lý thuyết, ý nghĩa đằng sau chất lượng dữ liệu được truyền đạt tới nhân viên thuộc các phòng ban, bộ phận chức năng khác.
Ngoài ra, DQM còn có sự tham gia của CDO – Chief Data Officer – giám đốc dữ liệu, nhân viên giám sát dữ liệu, nhân viên phân tích, kiểm định chất lượng dữ liệu, nhân viên quản trị hệ thống, nhân viên kiểm soát quyền sở hữu dữ liệu,…
Hệ thống những tiêu chuẩn đánh giá chất lượng dữ liệu
Các tiêu chuẩn đánh giá chất lượng dữ liệu phải được hình thành dựa trên các yêu cầu, mục tiêu, quy tắc kinh doanh, và những yêu cầu về kỹ thuật. Ở bài viết phần 1 chúng tôi đã giới thiệu rõ nên sẽ không nhắc lại trong bài viết này.
Data profiling
Data profiling là một hình thức phân tích dữ liệu được sử dụng để kiểm tra dữ liệu và đánh giá chất lượng. Data profiling sử dụng các kỹ thuật thống kê để khám phá cấu trúc, nội dung và chất lượng thực sự của các tập dữ liệu; so sánh đối chiếu với các metadata (loại dữ liệu được dùng để mô tả chính dữ liệu đó), lập báo cáo gửi đến cấp quản lý, nhân viên phân tích dữ liệu,…
Ví dụ:
- Xác định số lượng null values: xác định số lượng dữ liệu vô giá trị, không có giá trị
- Giá trị tối đa / tối thiểu (max, min values): Xác định các ngoại lệ
- Xác định phân phối tần suất của các đối tượng nghiên cứu trong tập dữ liệu
- Xác định format, loại dữ liệu: xác định mức độ không tuân thủ các yêu cầu định dạng, cũng như xác định các định dạng không đạt yêu cầu
Quá trình này sẽ cho tổ chức cái nhìn sâu sắc về dữ liệu hiện có, mục đích so sánh với các tiêu chuẩn chất lượng đề ra ban đầu, xác định các vấn đề tiềm ẩn. Mặt khác, trong Data profiling, các thước đo độ chính xác, hoàn chỉnh của dữ liệu cũng được xác định rõ ràng, cụ thể hơn. Tuy Data profiling là một cách hiệu quả để tổ chức hiểu về dữ liệu, nhưng nó chỉ mới là bước đầu tiên trong việc cải thiện chất lượng dữ liệu.
Data quality processing
Những quy trình cài thiện chất lượng cần thiết cho DQM như:
- Data cleansing: là quá trình làm sạch sử dữ liệu, biến đổi dữ liệu làm cho nó phù với các tiêu chuẩn chất lượng, và các quy tắc trong kinh doanh, bao gồm phát hiện và sửa lỗi dữ liệu để đưa chất lượng dữ liệu về mức chấp nhận được.
- Data enhancement: tăng cường hoặc làm giàu dữ liệu là quá trình thêm các thuộc tính vào tập dữ liệu để tăng chất lượng và khả năng sử dụng dữ liệu.
- Data parsing: phân dữ liệu thành từng phần, tiến hành phân tích để xác định nội dung, giá trị của dữ liệu, dữ liệu nào hợp lệ và không hợp lệ.
- Data formating: xác định các định dạng không phù hợp, và chuyển đổi thành định dạng phù hợp theo yêu cầu.
- Data transformation và standardization: chuyển đổi dữ liệu sao cho phù hợp, đảm bảo đạt yêu cầu về chất lượng dữ liệu. Còn Standardization là quá trình thiết lập các tiêu chuẩn, các thuộc tính chuẩn hóa của dữ liệu, là cơ sở để thực thi việc chuyển đổi dữ liệu.
- Data reporting: là quá trình loại bỏ, ghi lại, và báo cáo những dữ liệu không đạt yêu cầu, có chất lượng kém. Việc giám sát và báo cáo các vấn đề của dữ liệu sẽ tăng sự hiệu quả của DQM và góp phần giúp công ty ngăn chặn những rủi ro phát sinh kịp thời.
- Data repair: sửa chữa dữ liệu là quá trình xác định cách khắc phục dữ liệu tốt nhất, và cách thức hiệu quả nhất để thực hiện những thay đổi trên dữ liệu.
Tiếp theo là một số những giải pháp thực tiễn hiệu quả có thể giúp tổ chức cải thiện DQM tốt hơn:
- Trước khi triển khai Data quality management (DQM), mỗi tổ chức phải hình thành các chiến lược quản lý chất lượng dữ liệu một cách cụ thể và chi tiết, từ việc xác định các quy trình, các công việc có trong DQM, phân bổ nhân lực phù hợp cho từng vị trí công việc, phẩn bổ nguồn tài chính hợp lý tạo điều kiện ứng dụng các phần mềm, công nghệ tiên tiến.
- Xác định mục tiêu kinh doanh và những dữ liệu quan trọng. Do không phải tất cả dữ liệu nào cũng quan trọng tương đương nhau, quản lý chất lượng dữ liệu nên tập trung vào các dữ liệu mang yếu tố quyết định đến sự thành công của tổ chức ví dụ như dữ liệu khách hàng, vì nó cung cấp nhiều thông tin hữu ích và giá trị hơn cho các hoạt động sản xuất, bán hàng, tiếp thị,… Việc dữ liệu nào được ưu tiên sẽ phải dựa trên các yếu tố như yêu cầu bảo mật, giá trị về mặt lợi nhuận, giá trị phân tích, hay có tác động đến khách hàng hoặc những bên liên quan.
- Các dữ liệu sau khi thu thập cần được triển khai những bước kiểm tra ban đầu, tìm hiểu về nội dung, thông tin dữ liệu cung cấp có phù hợp không, tìm hiểu về những mối quan hệ của các đối tượng nghiên cứu (ví dụ khách hàng, sản phẩm,…) bên trong tập dữ liệu, so sánh, đối chiếu dữ liệu với những tiêu chuẩn đánh giá chất lượng, yêu cầu về dữ liệu được đề ra, khi xác định trước các vấn đề, công ty sẽ dễ dàng suy nghĩ giải pháp, định hướng hành động sắp tới.
- Xác định những mục tiêu trong việc cải thiện chất lượng dữ liệu, và những giải pháp cải thiện chất lượng dữ liệu hiệu quả đã được kiểm chứng, giúp đối phó với những vấn đề phát sinh một cách cụ thể, sau đó trang bị cho nhân viên trong tổ chức để họ biết được tầm quan trọng của chất lượng dữ liệu và biết phải làm gì khi làm việc, thao tác với dữ liệu chất lượng tốt, lẫn chất lượng kém.
- Luôn luôn “review” lại dữ liệu hiện có, như chúng tôi đã từng nói trong những bài viết về Data management, và phần 1 bài viết về Data quality, chất lượng dữ liệu tác động đến toàn bộ hệ thống quản lý và phân tích dữ liệu, có thể bị ảnh hưởng, bị thay đổi tại bất kỳ quy trình làm việc, xử lý với dữ liệu, ví dụ như ta có thể nói ở giai đoạn thu thập, lưu trữ dữ liệu đã đạt đủ yêu cầu nhưng không thể sử dụng trong giai đoạn nghiên cứu và phân tích do chúng bị lỗi định dạng khi được chuyển đổi, tích hợp. Việc kiểm tra lại dữ liệu, là việc đảm bảo chất lượng dữ liệu luôn ở trạng thái tốt nhất ở mọi thời điểm.
- Cập nhật, ứng dụng những công nghệ, phần mềm cho phép cảnh báo trước, ngăn ngừa dữ liệu chất lượng kém đi vào hệ thống phân tích, hay được sử dụng ở các giao diện công cụ khác, điều này sẽ làm giảm thời gian, chi phí cho việc chỉnh sửa, cải thiện dữ liệu đồng thời tránh trường hợp hệ thống gặp lỗi khi nhận dữ liệu xấu, hoặc trường hợp công ty đã phân tích, khai thác dữ liệu xong mới phát hiện lỗi từ dữ liệu.
- Sự tham gia, theo dõi các hoạt động quản lý chất lượng dữ liệu của các cấp quản lý, những người điều hành, người đứng đầu tổ chức để đảm bảo DQM được vận hành hiệu quả, đồng thời đề ra những quy tắc, quy định để tổ chức vừa tuân thủ các bộ luật về bảo mật an toàn thông tin, vừa thể hiện sự minh bạch trong quá trình sử dụng thông tin cá nhân, của khách hàng.
Đến đây là kết thúc phần 2 bài viết về Tổng quan Data quality. Nếu có thắc mắc, các bạn hãy comment dưới bài viết. Mong được sự ủng hộ của các bạn ở những bài viết sắp tới. Nguồn tham khảo:
https://www.datapine.com/blog/data-quality-management-and-metrics/
https://www.bmc.com/blogs/what-is-data-quality-management/
https://www.scnsoft.com/blog/guide-to-data-quality-management
https://www.ringlead.com/blog/7-common-data-quality-issues/
https://www.anodot.com/blog/price-pay-poor-data-quality/
https://www.gartner.com/smarterwithgartner/how-to-stop-data-quality-undermining-your-business/
https://www.lotame.com/why-is-data-quality-important/
http://ds.datasourceconsulting.com/blog/top-10-data-quality-problems-part-1
Tài liệu The Data Management Body of Knowledge (DMBOK, phiên bản 2, năm 2017) của DAMA
Research paper: “The Challenges of Data Quality and Data Quality Assessment in the Big Data Era” của Li Cai1, và Yangyong Zhu,
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực Big Data sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.