Data analytics trong năm 2020 (P.1)

Bigdatauni.com Follow Fanpage Contact

Data analytics trong năm 2020. Như vậy chúng ta đã bước qua năm 2021, và kết thúc một năm 2020 phải nói là ngày đáng quên nhất trong lịch sử nhân loại, là một năm sóng gió, vô vàn thách thức, khó khăn đối với mọi tổ chức thuộc hầu hết các ngành và lĩnh vực khác nhau trên thế giới nguyên nhân bắt nguồn từ khủng hoảng dịch bệnh Covid-19. Tuy nhiên nó vẫn không có dấu hiệu dừng lại và theo các chuyên gia nguy cơ kéo dài đến tận sang năm.

Hậu quả mà Covid-19 để lại cho đời sống xã hội, sức khỏe cộng đồng, cho nền kinh tế tại các quốc gia là không thể nào ước tính hết được nhưng có các cuộc cách mạng đã diễn ra vô cùng âm thầm và mạnh mẽ đó chính là chuyển đổi số – Digital Transformation, làn sóng ứng dụng Data analytics, từ Big Data, Machine Learning hay đến thành tựu AI vào các hoạt động khác nhau từ lợi nhuận đến phi lợi nhuận.

Trong chủ đề “Data analytics trong năm 2020”, BigDataUni và các bạn sẽ cùng tham khảo một số các số liệu về ngành Data analytics từ các công ty nghiên cứu thị trường, xem qua các báo cáo hay từ các công ty trong ngành để tìm hiểu tình hình ứng dụng Data analytics, trong lĩnh vực thương mại, kinh doanh nói chung.

Trước tiên bài viết phần 1 chúng ta sẽ tìm hiểu số liệu thị trường và báo cáo của Anaconda, sang bài viết phần 2 chúng ta sẽ đi qua các báo cáo khác và bàn luận về đất nước Việt Nam.

Hồi tháng 5 vừa rồi BigDataUni đã gửi đến các bạn 3 bài biết về tác động của Covid-19 lên Data science, Data analytics, bạn nào quan tâm có thể tham khảo qua các link dưới đây:

Tác động của COVID – 19 đối với Data Science

Ứng dụng của Big data, AI Trong thời kỳ dịch bệnh Covid – 19

Dữ liệu – vũ khí chống lại Covid – 19

Một vài số liệu về thị trường

Theo số liệu nghiên cứu của Allied Market Research thị trường Big Data và Business Analytics (gồm các phân khúc Hardware, Software, Service) trên toàn cầu trong năm 2019 đạt giá trị 193.14 tỷ USD, dự báo đến năm 2027 sẽ đạt gần 421 tỷ USD, tốc độ tăng trưởng kép hàng năm CAGR là 10.9% trong kỳ dự báo.

Không có số liệu cụ thể nhưng theo Allied Market Research, do tác động của Covid-19, các biện pháp giãn cách xã hội, hạn chế giao thương,… khiến giá trị thị trường năm 2020 trên toàn cầu có thể sẽ giảm so với năm trước tuy nhiên dự báo sau khi Covid-19 được kiểm soát, có dấu hiệu hồi phục kinh tế, thì kỳ vọng tăng trở lại.

Số liệu của MarketsandMarkets về riêng thị trường Big Data dự báo trong năm 2020 ước tính sẽ đạt 138.9 tỷ USD, và đạt 229.4 tỷ USD năm 2025, tốc độ tăng trưởng kép CAGR là 10.6% tuy nhiên chưa tính đến tác động của Covid-19. Còn về riêng thị trường Business Intelligence, năm 2020 dự báo đạt giá trị 23.1 tỷ USD, mỗi năm tăng với tỷ lệ 7.6%, và đạt 33.3 tỷ năm 2025 đã tính đến tác động của Covid-19.

Theo MarketsandMarkets trong một thời gian ngắn, sự bùng phát Covid-19 đã ảnh hưởng đến tất cả các thị trường, cũng như hành vi của khách hàng. Covid-19 có tác động đáng kể đến các nền kinh tế và xã hội ở các nước. Với việc các văn phòng, tổ chức giáo dục và cơ sở sản xuất bị đóng cửa trong khoảng thời gian không xác định, các sự kiện và thể thao lớn bị hoãn lại, đồng thời xu hướng làm việc tại nhà và hạn chế tiếp xúc xã hội được thực hiện trên toàn cầu suốt một năm qua, các doanh nghiệp đang ngày càng nỗ lực triển khai các công nghệ hỗ trợ họ vượt qua thời điểm khó khăn này. Các chuyên gia phân tích, chuyên gia BI và chuyên gia Data science đã được kêu gọi để giúp các giám đốc điều hành đưa ra các quyết định kinh doanh nhằm ứng phó với những thách thức mới do sự lây lan Covid-19.

Theo một cuộc khảo sát gần đây bao gồm 300 chuyên gia phân tích dữ liệu trên khắp Hoa Kỳ do Burtch Works và Viện Phân tích Quốc tế (International Institute for Analytics) thực hiện, 43% người được hỏi cho biết rằng phân tích dữ liệu là chiến lược ưu tiên hàng đầu, giúp tổ chức của họ đưa ra các quyết định quan trọng để ứng phó cuộc khủng hoảng Covid-19. Hơn 26% số người được hỏi nói rằng họ đang xử lý một số lượng đáng kể các yêu cầu liên quan đến Covid-19 và hơn 10% được yêu cầu tập trung hoàn toàn vào các phân tích liên quan đến tác động của Covid-19.

Do đó có thể thấy Covid-19 tuy làm chậm đi tốc độ tăng trưởng của ngành Data analytics nhưng mặt khác lại tạo cơ hội để ngành có “đất diễn” tại hầu hết các quốc gia, và có điều kiện phát triển hơn nữa ở nhiều lĩnh vực khác như sinh học, y học, cộng đồng, xã hội,…

Về động cơ phát triển của thị trường Big data analytics, vẫn xuất phát từ nhu cầu của chính các công ty, khi họ có tiềm lực tài chính, nền tảng công nghệ, có nguồn dữ liệu lớn và dồi dào cần khai thác thì sẵn sàng đẩy mạnh ứng dụng các giải pháp Big data. Lợi ích của phân tích dữ liệu Big data thì ở thời điểm hiện tại không cần phải giải thích thêm nữa, quá rõ ràng. Còn về đời sống, xã hội, xu hướng người tiêu dùng ưa chuộng sử dụng những thiết bị thông minh, công nghệ cao, thích trải nghiệm hay xu hướng các quốc gia thậm chí ở nước ta đang tập trung phát triển các thành phố thông mình – Smart city, hay đẩy mạnh chuyển đổi số không chỉ ở khu vực doanh nghiệp tư nhân mà còn ở nhà nước, chính phủ, phi lợi nhuận. Vì vậy dù không thể biết thị trường Big data analytics chịu tác động ra sao từ Covid-19 năm nay nhưng có thể khẳng định trong tương lai sắp tới sẽ vẫn có thể phát triển với tốc độ ngày một cao.

Nói riêng về Business Intelligence, động cơ thúc đẩy chính theo MarketsandMarkets chính là nhu cầu ngày càng tăng về các ứng dụng, phần mềm, nền tảng hỗ trợ xây dựng Dashboard, Data visualization để tóm tắt kết quả kinh doanh, trực quan hóa dữ liệu nhằm nâng cao khả năng đưa ra quyết định kinh doanh. Business Intelligence không còn xa lạ đối với các công ty ở những quốc gia khác, thậm chí tại Việt Nam. Nó không còn là xu hướng của những năm trước mà trở thành công cụ quan trọng không thể thiếu đối với bất kỳ tổ chức nào ở hiện tại.

Ngày nay, hầu hết các công ty đang hướng đến áp dụng một quy trình đơn giản bao gồm xác định, thu thập, quản lý và chia sẻ một lượng lớn dữ liệu. Các giải pháp BI được sử dụng cho mục này để tạo điều kiện xây dựng một quy trình ra quyết định kinh doanh nhanh chóng và hiệu quả. Dữ liệu phải được cung cấp chia sẻ dưới hình thức trực quan đạt tiêu chuẩn, dễ hiểu, dễ nắm bắt, qua đó xác định được ví dụ sở thích và xu hướng của khách hàng, trích xuất những hiểu biết sâu sắc về chiến lược cần áp dụng và giúp duy trì sự cân bằng giữa cung và cầu của các sản phẩm và dịch vụ mới và hiện có.

Các công cụ trực quan hóa dữ liệu trên nền tảng đám mây cho phép các tổ chức đáp ứng hiệu quả về chi phí và khả năng mở rộng để phân tích dữ liệu. Data visualization giúp các công ty định hình tốt hơn các động lực kinh doanh và các chỉ số Hiệu suất Chính (KPI) thông qua các giải pháp BI. Đại dịch Covid-19 hiện tại cũng làm tăng nhu cầu về các giải pháp trực quan hóa dữ liệu và bảng điều khiển – Dashboard để theo dõi dữ liệu bệnh nhân trên toàn thế giới và đưa ra quyết định dựa trên báo cáo. Nhiều công ty đã hỗ trợ những Chính phủ các nước những giải pháp trực quan hóa để theo dõi sự lây lan Covid-19. Các bạn có thể xem lại các bài viết của BigDataUni về tác động của Covid-19 lên Data science để biết thêm chi tiết, link ở nằm trên đầu.

Còn về Business Analytics, số liệu về thị trường Business Analytics trên toàn cầu theo Mordor Intelligence năm 2019 đạt 67.92 tỷ dự kiến đạt 103.65 tỷ USD năm 2025, với tốc độ tăng trưởng kép hàng năm là 7.3%.

*Các bạn nào chưa phân biệt được Business Intelligence và Business Analytics là gì có thể tham khảo tại các bài blog của Đại học Havard, và của Tableau, bài viết có hạn nên chúng tôi không thể giải thích ở đây.

Theo chuyên gia Jennifer Hamel, là Research manager, thuộc mảng Analytics and Intelligent Automation Services đến từ tổ chức IDC (International Data Corporation)

“Thị trường Business Analytics không tránh khỏi tác động của Covid-19, nhưng nhu cầu của doanh nghiệp về các insights hữu ích trích xuất từ dữ liệu và các giải pháp tự động hóa để hỗ trợ hoạt động kinh doanh một cách liên tục và hỗ trợ khả năng phục hồi từ những ngày đầu tiên của cuộc khủng hoảng sẽ khiến họ đầu tư chi tiêu mạnh hơn trong năm 2020 này và qua đó tăng trưởng với tỷ lệ 2 con số vào năm 2021” – có nghĩa mặc dù bị ảnh hưởng của Covid-19, nhưng điều kiện thị trường vẫn cho phép thị trường Business Analytics tiếp tục đi lên.

Động cơ phát triển của thị trường Business Analytics vẫn cũng chính từ nhu cầu của các công ty tại các quốc gia tập trung đẩy mạnh khai thác nguồn dữ liệu mà mình có thể có được. Một nguyên nhân khác chúng tôi muốn nói đến đó là xu hướng khách hàng mua sắm online đang ngày càng mạnh mẽ, và càng mạnh hơn khi dịch bệnh Covid-19 bùng phát trong năm qua, không cần số liệu chứng minh chúng ta cũng thấy rõ điều này. Dữ liệu khách hàng nhờ đó gia tăng theo cấp số nhân và dĩ nhiên luôn chứa đựng rất nhiều insights giá trị. Thị trường Business Analytics và cả Business Intelligence vì thế càng có cơ hội tăng trưởng bất chấp ảnh hưởng Covid-19.

Một vài số liệu khác về thị trường AI trong năm 2020. Theo số liệu IDC dự báo trong năm 2020, doanh thu thị trường AI bao gồm phân khúc Software, Hardware, dịch vụ, sẽ đạt 156.5 tỷ USD, tăng 12.3% năm 2019. Tốc độ tăng trưởng trong năm nay chậm hơn năm trước do tác động của Covid-19 tuy nhiên việc đẩy mạnh đầu tư vào AI sẽ hồi phục trở lại khi tình hình dịch bệnh được cải thiện. Theo dự báo mới nhất của IDC đến năm 2024, thị trường AI sẽ đạt doanh thu toàn cầu là 300 tỷ USD, tốc độ tăng trưởng kép hàng năm sẽ là 17.1%.

Phần mềm AI là phân khúc lớn nhất mang lại khoảng 80% tổng doanh thu thị trường AI. Trong đó doanh thu phần mềm đến từ Ứng dụng AI là 120,4 tỷ USD năm 2020 và Nền tảng phần mềm AI là 4,3 tỷ USD năm 2020.

Báo cáo của Anaconda – State of Data Science 2020

Nếu các bạn nào sử dụng Python chắc hẳn đều biết đến Anaconda, một nền tảng cho phép cài đặt, quản lý, sử dụng các Packages của ngôn ngữ lập trình Python hỗ trợ thực hiện các task Data analytics, Data mining, đến Machine learning hay gọi Data science nói chung. Anaconda được coi là nền tảng phổ biến nhất hiện nay với hơn 20 triệu người dùng trên khắp thế giới.

Hàng năm các chuyên gia tại Anaconda thực hiện khảo sát trên toàn cầu và đúc kết thành một báo cáo hoàn chỉnh có tên “The State of Data science” trình bày về các góc nhìn khác nhau về ngành khoa học dữ liệu từ những tác động của nó lên các lĩnh vực liên quan, từ thách thức, cơ hội nó mang lại, xu hướng,… Báo cáo mới nhất năm 2020 lần này tập trung vào tình hình Data science được phát triển như thế nào trong lĩnh vực kinh doanh thương mại, và các tổ chức giáo dục cần trang bị gì cho học sinh, sinh viên để họ trở thành những chuyên gia khoa học dữ liệu thế hệ mới.

Chúng ta cùng nhìn qua một số những highlight chính trong report.

Anaconda khảo sát hơn 2000 người đến từ các công ty, tổ chức khác nhau trên toàn thế giới hoạt động trong lĩnh vực Data science, công nghệ, nghiên cứu,…trong đó gần 60% làm việc với các ngành nghề liên quan đến kinh doanh thương mại.

Theo khảo sát các chuyên gia, người có chuyên môn về Data science thì có 28% làm việc trong các bộ phận phòng ban có liên quan đến Data science, 22% làm việc trọng bộ phận R&D, và 21% ở các phòng ban thuộc chức năng kinh doanh như Marketing, Sales, HR,… Qua đây cho thấy không chỉ mỗi lĩnh vực khoa học dữ liệu mới cần các chuyên gia mà ở các chức năng kinh doanh cũng vậy, cho thấy xu hướng tận dùng nguồn tài sản dữ liệu để mang lại giá trị kinh doanh vẫn còn cao.

Nguồn: Anaconda

Trong 1 quá trình Data analytics, thời gian dành cho chuẩn bị, khám phá dữ liệu gọi Data preparation hay Data exploration chiếm nhiều nhất.

Theo kết quả khảo sát dưới đây, load dữ liệu và làm sạch dữ liệu chiếm tổng cộng đến 45% trong tổng số thời gian. Tiếp đến là trực quan hóa dữ liệu Data visualization để khám phá các đối tượng nghiên cứu trong tập dữ liệu, phát hiện trước các pattern quan trọng trước khi đến giai đoạn chọn lựa mô hình Model selection.

Lựa chọn mô hình phù hợp với các đặc điểm của dữ liệu, của các đối tượng tìm được ở giai đoạn chuẩn bị, kết hợp với mục tiêu bài toán, mục đích nghiên cứu thì đơn giản hơn và chiếm ít thời gian nhất chỉ 11% trong tổng số thời gian.

Ở đây chúng ta thấy được tầm quan trọng của chuẩn bị dữ liệu, hiểu dữ liệu, hiểu được đối tượng, đảm bảo chất lượng dữ liệu (Data quality) là rất cao, và đòi hỏi sự cẩn thận, kỹ càng. Trải qua nhiều năm, thì điều này vẫn bất di, bất dịch, quyết định giá trị nhận được từ Data analytics hay Data mining.

Nếu xảy ra sơ sót, hay lỗi phạm thì nguyên quá trình phía sau từ xây dựng mô hình, đánh giá mô hình dựa trên những lý thuyết, nguyên tắc một cách tối ưu ra sao cũng sẽ không hiệu quả. Hơn nữa khi đưa mô hình vào ứng dụng thực tế, tác hại sẽ lớn hơn rất nhiều. Data preparation và Data cleansing, visualization đòi hỏi kỹ năng, tư duy, kinh nghiệm phân tích cao.

Tuy nhiên thời gian dành cho Data preparation và Data cleansing, visualization là nhiều nguyên nhân không chỉ xuất phát từ chính yếu tố chủ quan của người làm phân tích như cách phân tích, phương pháp áp dụng,… mà còn ở chính nền tảng công nghệ, công cụ hỗ trợ, đặc tính, chất lượng dữ liệu.

Nếu quy trình xây dựng nghiên cứu, xác định loại dữ liệu phù hợp, cách thu thập dữ liệu diễn ra một cách “đúng nhất” thì dữ liệu có thể đạt chất lượng như mong đợi, không có missing values, không bị lỗi format, không cần transformation (chuyển đổi), cũng như nền tảng, phần mềm cho Data storage, Data management, Data analytics/ Data mining được đầu tư thì phần nào sẽ giảm bớt thời gian, gánh nặng cho chuyên gia phân tích.

Nguồn: Anaconda

Huấn luyện mô hình, và đánh giá mô hình để chọn lựa mô hình phù hợp để ứng dụng đa phần không chiếm nhiều thời gian. Nều người làm phân tích có kinh nghiệm, chuyên môn cao, từng làm các công trình nghiên cứu tương tự, thì thời gian sẽ quá trình này sẽ càng rút ngắn.

Nhưng trường hợp mô hình không mang lại giá trị, không đưa ra kết quả dự báo chính xác, thì bước chọn lựa mô hình, training, scoring sẽ phải bắt đầu lại. Thậm chí sau nhiều lần nếu vẫn không đạt yêu cầu, thì sẽ phải xem xét lại toàn bộ quá trình.

Nguồn: Anaconda

Tiếp theo, trong ngôn ngữ lập trình hỗ trợ thực hiện các task phân tích dữ liệu thì Python vẫn luôn là lựa chọn số 1. Trong số người khảo sát có 47% luôn luôn sử dụng Python cho các công việc của mình, 28% là thường xuyên sử dụng. Đứng thứ 2 trong danh sách chắc chắn là ngôn ngữ lập trình R.

Trong một tổ chức, các nhóm chuyên gia dữ liệu, hay bộ phận phân tích dữ liệu được hình thành dưới nhiều hình thức, quy mô, chức năng khác nhau, có tổ chức thì tách ra riêng lẻ, có tổ chức sẽ thúc đẩy sự phối hợp với các phòng ban khác.

Anaconda tập trung khảo sát theo 4 hướng tiếp cận chính: tích hợp vào bộ phận R&D, tích hợp vào bộ phận IT, phân bổ vào các bộ phận chức năng kinh doanh khác, hay đứng riêng là một bộ phận dữ liệu (Data science Center of Excelence – COE)

Kết quả dưới đây, lưu ý các bạn xem xét từng vòng, dành cho từng hướng tiếp cận đã nói ở trên, đừng so sánh các vòng với nhau ngay lập tức.

Nguồn: Anaconda

Đây là một dạng biểu đồ khá hay của Anaconda cho các bạn nếu muốn làm report hoàn hảo. Quay trở lại với kết quả khảo sát, cách đọc như sau. Các bạn xem từng vòng trước rồi so sánh tỷ lệ phần tích cực, sau đó lấy tỷ lệ này so sánh với các vòng khác.

Do không có số cụ thể nên chúng ta chỉ có thể nhìn bằng mắt thường. Vòng IT, tức khảo sát mức độ ảnh hưởng một cách hiệu quả của Data science lên thành quả kinh doanh (tức khả năng Data science hỗ trợ đạt được kết quả kinh doanh mong đợi) khi tích hợp team Data science vào bộ phận IT, thì khảo sát cho thấy sự kém hiệu quả, và khó khăn trong phối hợp, khi phần “Almost always” – luôn tác động hiệu quả, và “Most of the time” – hầu hết đều tác động hiệu quả, nhỏ hơn so với phần “Sometimes” – thi thoảng tác động hiệu quả và phần “Almost never” – không bao giờ tác động hiệu quả cộng lại.

Xét tiếp như trên cho vòng tiếp theo thì có thể thấy Tích hợp vào Bộ phận R&D mức độ ảnh hưởng cao hơn một chút. Nguyên nhân có thể suy đoán là làm việc cùng bộ phận IT, những người cũng chỉ biết về kỹ thuật ít nắm bắt được nhu cầu/ mục tiêu đề ra của các công trình nghiên cứu hơn là bộ phận R&D.

Làm việc với các phòng ban, chức năng kinh doanh thì sẽ dễ dàng cho team Data science mang lại ảnh hưởng tốt hơn khi nhanh chóng nắm bắt được các nhu cầu thực tế.

Tuy nhiên theo khảo sát, tốt nhất là tổ chức vẫn nên hình thành một bộ phận Data science mà ở đó các chuyên gia trong lĩnh vực dữ liệu có thể tự mình xây dựng các quy trình làm việc tối ưu, các chính sách phối hợp với từng phòng ban, thiết lập các quy tắc quản lý, chuyển đổi, truyền tải dữ liệu,… mà không bị chi phối bởi các bộ phận, phòng ban khác trong công ty.

Thực chất áp dụng hướng tiếp cận nào còn tùy thuộc vào nguồn lực, nền tảng công nghệ của chính tổ chức chứ không thể phụ thuộc vào nguyện vọng của những người làm phân tích. Ví dụ nếu tổ chức hạn chế về nguồn tài chính, thiếu nhân lực chuyên môn thì xây dựng COE là cực kỳ khó khăn, nhưng ngược lại nếu mạnh về tiền bạc, sẵn sàng đầu tư vào công nghệ, sẵn sàng chuyển đổi số hay định hướng dữ liệu thì rất cần COE.

Theo khảo sát tổng quan thì trong số người được phỏng vấn thì có 48% cho rằng họ có thể ảnh hưởng lên kết quả kinh doanh của tổ chức hầu hết mọi lúc “Most of the time”, con số thực sự cũng không quá cao.

Phần nào cho thấy được tuy Data science đã cho thấy tầm quan trọng của nó trong hỗ trợ các lĩnh vực khác như kinh doanh thế nhưng để ứng dụng nó thành công đòi hỏi mỗi tổ chức cần phải có tầm nhìn và chiến lược đúng đắn, để Data science phát huy hết công suất của mình.

Còn xét về lĩnh vực mà team Data science có tác động hiệu quả lên kết quả kinh doanh, thì cao nhất là 3 ngành tư vấn, công nghệ, và tài chính ngân hàng, tỷ lệ lần lượt là 71%, 60%, 57%.

Nguồn: Anaconda

Khá bất ngờ khi chúng ta không thấy lĩnh vực thương mại điện tử, và bán lẻ trong kết quả khảo sát. Theo chúng tôi, 2 lĩnh vực này trong giai đoạn trước, trong và hậu Covid-19, rất cần sự hỗ trợ của Data science khi xu hướng khách hàng mua sắm online là rất nhiều, nguồn dữ liệu dồi dào để khai thác các insight hữu ích, thúc đẩy hoạt động sales, marketing, tăng trải nghiệm khách hàng.

Theo báo cáo của Allied Market Research, thị trường Big Data Analytics toàn cầu tính riêng cho lĩnh vực bán lẻ trong năm 2019 đạt quy mô thị trường gần 4.5 tỷ USD, dự báo trong năm 2020, bất chấp tình hình Covid-19, thì quy mô thị trường sẽ tăng với tốc độ tăng trưởng kép 20.4%, giữ nguyên trong kỳ dự báo đến năm 2027 sẽ đạt 17.85 tỷ USD.

Quay trở lại với báo cáo của Anaconda, mặc dù Data science hay Data analytics không còn là một ngành mới nổi, giờ đây đã chính thức khẳng định vị thế rõ rệt của mình. Tuy nhiên, theo khảo sát, các chuyên gia dường như không hài lòng với công việc hiện tại của mình

Nguồn: Anaconda

49% các chuyên gia được khảo sát làm việc trong R&D thì có kế hoạch dài hạn trong tương lai đối với tổ chức, tiếp đến là trong các bộ phận chức năng kinh doanh và ít nhất chính là trong IT, chỉ 34% là có kế hoạch dài hạn với tổ chức, 21% chưa xác định được kế hoạch.

Theo Anacoda, ở tất cả các bộ phận khác nhau, đều có tỷ lệ nhân viên khả năng nghỉ việc cao trong khoảng thời gian 1-2 năm. Do sự thiếu hụt nhân tài là vấn đề đã rất lâu trong Data science và nhu cầu ngày càng cao về nguồn nhân lực là các Data scientist có những hiểu biết sâu sắc về lĩnh vực mà họ làm việc, thì các tổ chức nên xác định và đầu tư vào các chương trình có tác động, sức ảnh hưởng để tăng tỷ lệ giữ chân các chuyên gia của mình.

Tuy nhiên, bản thân chính các tổ chức cũng chưa hài lòng với chất lượng nhân lực của mình. Anaconda có khảo sát các trường đại học, và các sinh viên để xem các kỹ năng được dạy, được học và các kỹ năng theo những tổ chức cho rằng nhân lực họ đang thiếu.

Nguồn: Anaconda

Big Data management (quản lý dữ liệu Big Data) và kỹ năng kiến trúc hệ thống, phần mềm dữ liệu Engineering skills là các kỹ năng các doanh nghiệp còn thiếu mà các sinh viên không học, và chính các đại học cũng thường không dạy.

Chúng ta cũng thấy được xác suất thống kê (Probability & statistics) – nền tảng của Data science và Python được dạy chủ yếu ở các trường đại học, tiếp đến là Machine learning, và trực quan hóa dữ liệu (Data viz). Nhưng các sinh viên tập trung học Python là chính, xác suất thống kê ít được nhắc đến.

Anaconda cũng khảo sát 346 sinh viên về những thách thức lớn nhất trong việc có một công việc mơ ước ngành Data science:

Nguồn: Anaconda

Thì có 40% lo lắng về việc mình thiếu kinh nghiệm làm việc, 26% lo lắng thiếu các kỹ năng về phần mềm, kỹ thuật, 18% thiếu các kỹ năng mềm, 7% lo lắng không tìm được công việc cho thấy mục đích, định hướng tương lai, 4% lo lắng về công việc không trả đủ thu nhập.

Ngoài ra báo cáo của Anaconda còn đề cập đến các khó khăn lớn nhất mà các chuyên gia trong lĩnh vực AI, Machine learning phải xử lý như dữ liệu, mô hình bị biased do tác động xã hội (cao nhất, tỷ lệ 27% số người khảo sát), tiếp đến là các vấn đề về quyền riêng tư, bảo mật thông tin cá nhân (tỷ lệ 22% số người khảo sát)

Khảo sát các chuyên gia về tình hình phát triển các giải pháp xử lý vấn đề mô hình bị bias, và không giải thích được các kết quả, insights từ các mô hình AI, Machine learning (Model Explainability)

Chỉ có 15% đã có giải pháp xử lý bias, và 19% đã có giải pháp xử lý vấn đề Model Explainability, con số vẫn còn khá thấp.

Để đạt được lợi thế cạnh tranh từ ứng dụng khoa học dữ liệu hay Data science nằm ở việc triển khai các mô hình kết hợp ứng dụng các kết quả phân tích khác để “tăng sức mạnh” cho các bộ phận chức năng và thúc đẩy lợi nhuận từ các sản phẩm kinh doanh. Gặt hái những giá trị này chắc chắn là một trong những mục tiêu quan trọng nhất trong công việc của một nhà khoa học dữ liệu. Nhưng để đưa vào triển khai thực tế, thì các chuyên gia phải đối mặt với nhiều thách thức khác nhau.

Khảo sát của Anaconda chỉ ra 3 thách thức lớn nhất các chuyên gia hiện đang gặp phải:

  • Các yếu tố không thể kiểm soát từ môi trường, sự phụ thuộc vào môi trường
  • Tổ chức thiếu các kỹ năng cần thiết, không đủ năng lực để ứng dụng thành quả Data science vào thực tế
  • Các thách thức về vấn đề bảo mật thông tin.

Đến đây là kết thúc phần trình bày báo cáo của Anaconda. Để tham khảo chi tiết tất cả các thông tin trong báo cáo, các bạn truy cập vào đường link này: Anaconda

Hi vọng qua report này, các bạn hiểu được phần nào tổng quan tình hình ứng dụng Data analytics của các công ty trên toàn cầu, và chất lượng, yêu cầu nhân lực trong ngành. Sang bài viết phần 2, chúng ta sẽ đi tiếp các báo cáo khác cụ thể hơn về tình hình ứng dụng Data analytics trong kinh doanh. Ngoài ra ở bài viết phần 2, chúng ta sẽ cùng bàn luận một chút về các doanh nghiệp trong nước.

 Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.

Mục nhập này đã được đăng trong BLOG. Đánh dấu trang permalink.
error: Content is protected !!