Ở bài viết trước chúng ta đã tìm hiểu tổng quan về thị trường Data Science trên toàn cầu năm 2019, bao gồm các số liệu về thị trường và đặc biệt là tình hình áp dụng, khai thác, phân tích dữ liệu trong hoạt động kinh doanh cũng như ứng dụng AI, Big data ở những công ty, tổ chức lớn trên toàn cầu. Trong bài viết lần này chúng ta sẽ tìm hiểu một vài số liệu hay về nghề Data Scientist trên toàn cầu cập nhật trong năm 2020 bao gồm giới thiệu sơ yêu cầu về học vấn, kỹ năng quan trọng nhất, kinh nghiệm làm việc (qua báo cáo của 365DataScience), mức lương trung bình ở một số khu vực trên thế giới (trong bài viết này chúng ta sẽ chỉ tập trung vào khu vực Mỹ và châu Âu, châu Á báo cáo từ BurtchWorks, Big Cloud)
Nếu các bạn có theo dõi fanpage của BigDataUni từ lâu thì có thể nhớ chúng tôi đã từng post một infographic có tiêu đề “The Typical Data Scientist 2019”. Đây là infographic của tổ chức 365DataScience chuyên về đào tạo trong ngành Data science với hơn 450000 học viên tham gia. Báo cáo nổi tiếng hàng năm của 365DataScience được nhiều trang web, blog thuộc lĩnh vực công nghệ, Data Science trích dẫn đó là “How to become data scientist” tức là nghiên cứu về những xu hướng tập trung vào các yêu cầu, kỹ năng cần có để trở thành một Data Scientist.
Các bạn có thể tham khảo bài viết gốc báo cáo của 365DataScience tại đây
Báo cáo của 365DataScience được triển khai dựa trên nguồn dữ liệu được công khai trên Linkedin của 1001 người hiện đang là Data scientist từ cấp thấp nhất (junior) cho đến chuyên gia trên toàn cầu. Với 40% các nhà khoa học dữ liệu làm việc tại Hoa Kỳ; 30% là các nhà khoa học dữ liệu ở Anh; 15% hiện đang làm việc ở Ấn Độ; và 15% ở các quốc gia khác. Về quy mô công ty, 50% làm việc cho các công ty thuộc tạp chí Fortune 500. Con số 1001 có vẻ khá ít, nhưng phần nào chúng ta sẽ thấy được các xu hướng mới trong nghề Data scientist ở góc độ toàn cầu.
- Số lượng nhà khoa học dữ liệu mang giới tính nam cao gấp 2 lần so với nữ. Từ đây có thể thấy ngành khoa học dữ liệu tuy thú vị, mới mẻ và có nhiều cơ hội nghề nghiệp nhưng với lượng kiến thức rất nhiều và khá khô khan, yêu cầu phải biết thêm về công nghệ, phần mềm phân tích nên nhìn chung không được nhiều phụ nữ ưa chuộng.
- Hầu hết các Data Scientist đều biết sử dụng tiếng Anh là ngôn ngữ thông dụng, theo sau là tiếng mẹ để của họ. Đây là điều hiển nhiên có lẽ ai cũng biết, thì nếu các bạn theo học ngành này cũng nhận thấy mình phải đọc rất nhiều tài liệu tiếng Anh, các giáo trình, các công tỉnh nghiên cứu mà mình tham khảo tất cả đều bằng tiếng Anh cho đến cả những phần mềm phân tích. Không chỉ trong lĩnh vực Data science, mà ở mọi lĩnh vực khác nếu bạn muốn tích lũy kiến thức, phát triển nghề nghiệp thì không thể thiếu tiếng Anh.
- Để trở thành một nhà khoa học dữ liệu thực sự với kiến thức chuyên môn vững vàng thì trung bình 1001 Data scientist được thu thập dữ liệu phải có gần 8 năm rưỡi kinh nghiệm làm việc tổng thể, tăng nửa năm so với số liệu từ năm 2019.
- Dành gần 8 năm rưỡi kinh nghiệm làm việc tổng thể để trở thành một Data scientist, nhưng thời gian là một Data scientist thực sự với chức danh cụ thể và được sự tín nhiệm từ người khác, đồng thời thể hiện sự uy tín về chuyên môn, kinh nghiệm theo số liệu trung bình thì chỉ là 3 năm rưỡi. Theo ý kiến của 365DataScience, họ cho rằng khi một người trở thành Data scientist họ có thể luôn nghĩ mình ở vị trí số 1 trong tổ chức bất kỳ. Theo chúng tôi, có thể họ dậm chân tại chỗ không có sự phát triển thêm về nghề nghiệp, kinh nghiệm thực hiện nhiều dự án
- Xét về ngôn ngữ lập trình của ngành Data science sử dụng trong công việc thì có 90% sử dụng ngôn ngữ lập trình Python hoặc R. Nếu các bạn có đang học và thực hành những lý thuyết trong Data science (lý thuyết Statistics, Data mining,…) thông qua tìm hiểu các bài toán, ví dụ thực tế thì thấy đa phần được thực hiện bằng Python hoặc R. Không nhắc đến, nhưng nhiều bạn đang đọc bài viết này của chúng tôi có thể đã “master” 2 ngôn ngữ lập trình này từ lâu rồi phải không? Đơn giản là do chúng rất phổ biến vì nhiều ưu điểm mà chúng tôi xin phép không kể ra ở đây. Không riêng 365DataScience, ở những trang web, bài blog của các chuyên gia trong ngành họ cũng cho rằng Python hoặc R, là Data analytst thông thường chưa tính đến Data scientist phải biết một trong 2 công cụ.
Bàn luận thêm, khác với Data scientist, đối với những bạn muốn trở thành Data analyst nhưng khó tiếp thu, nói đơn giản là cảm thấy không thể học ngôn ngữ lập trình vì có quá nhiều thứ để nhớ, cộng thêm việc thực hiện bài toán phân tích đôi khi cảm thấy phức tạp, các bạn vẫn có thể học sử dụng các phần mềm phân tích từ trực quan dữ liệu như Power BI, cho đến Data mining như KNIME, SPSS Modeler, Statistics như Minitab, SPSS Statistics, chứ không phải bó buộc hoàn toàn vào Python và R, do Data analyst thông thường có thể không đòi hỏi quá nghiêm ngặt về công cụ sử dụng nói cách khác là bạn không cần “phải thật giỏi” Python/ R, hơn nữa một số công ty tuyển dụng họ cũng đang triển khai các phần mềm phân tích hỗ trợ công việc hiệu quả, nên cũng đừng quá lo lắng về cơ hội làm việc hạn hẹp. Tuy nhiên nếu hoạt động và làm việc trong môi trường hay ngành liên quan đến dữ liệu, Python/ R không còn được xem như những công cụ thông thường, chúng đã trở thành yêu cầu mà ai cũng phải đáp ứng, xét theo mức độ từ cơ bản đến nâng cao. Hơn nữa, khả năng linh hoạt trong ứng dụng công cụ hỗ trợ phân tích dữ liệu cũng là điểm cộng cần thiết.
Nói thêm, để trở thành Data Scientist bạn gần như phải thật vững hầu hết các kiến thức về toán, từ toán cơ bản đến toán cao cấp như đại số tuyến tính, tích phân, vi phân,… đến Statistics xác suất thống kê để hiểu về cách tóm tắt dữ liệu, các phân tích dữ liệu cơ bản, sau đó là Statistical modeling, Data mining đến Machine Learning từ xử lý dữ liệu, khám phá dữ liệu căn bản ban đầu đến các thuật toán từ đơn giản đến phức tạp, chuyên sâu, lập mô hình, các phương pháp đánh giá mô hình phân tích…, rồi phải có kiến thức về mảng Computer Science, AI. Đặc biệt, Data Scientist cần nắm rõ quy trình từng bước khai thác dữ liệu, xây dựng mô hình từ A đến Z hơn bất kỳ ai hết. Nếu làm việc trong một ngành, lĩnh vực cụ thể như lĩnh vực kinh doanh, thì cũng phải có kiến thức về kinh doanh, biết áp dụng phân tích dữ liệu hỗ trợ sáng kiến, chiến lược kinh doanh – một phần của Business Intelligence. Khả năng nghiên cứu, cùng với những soft skills cũng là yêu cầu lớn để trở thành Data scientist.
Chưa hết, một nhà khoa học dữ liệu cũng cần phải biết thêm về kiến trúc dữ liệu, phần mềm, về cơ sở dữ liệu, các hệ cơ sở quản trị dữ liệu, kể cả cách thu thập dữ liệu ví dụ phổ biến như “crawl” dữ liệu từ website…Các bạn thấy đó, quá nhiều thứ phải biết, những gì chúng tôi liệt kê chưa chắc đã đủ, tuy nhiên những yêu cầu càng cao (chưa nói đến trình độ học vấn – sẽ được trình bày ngay sau đây) thì cái giá nhận lại cũng xứng đáng, lương của một Data scientist là rất cao nếu so sánh với những nghề còn lại, cũng vì thế mà nó được gọi là “Nghề sexy nhất” của thế kỷ 21. Cụ thể số liệu về mức lương chúng tôi sẽ nói ở phần sau bài viết.
Dưới đây là biểu đồ minh họa những mảng kiến thức, những lĩnh vực mà một Data Scientist cần phải biết:
Biểu đồ được vẽ bởi tiến sĩ Ryan Urbannowicz đến từ Đại học Pennsylvania, Hoa Kỳ
Gợi ý thêm: các bạn có thể xem thêm bài viết của 365DataScience hướng dẫn chi tiết từng bước để trở thành 1 Data scientist, bài viết có đề cập đến các kỹ năng, kiến thức cần có của cả Data Scientist, và Data Analyst. Link bài viết: https://365datascience.com/career-data-science-ultimate-guide/
Như các bạn thấy ở trên thì ngoài Python và R, có đến 51.2% trong số 1001 Data scientist của báo cáo là có kỹ năng về SQL, một ngôn ngữ truy vấn dữ liệu dành riêng cho cấu trúc cơ sở dữ liệu, chúng tôi cũng đã nói ở trên một nhà khoa dữ liệu cần có kiến thức về cở sở dữ liệu, và để làm được điều này họ phải biết SQL hay còn gọi là Structured Query Language. Các bạn có thể search và tìm hiểu thêm về SQL, nhưng nếu đã có những hiểu biết ban đầu về ngành Data analytics hay Data science chúng tôi chắc chắn bạn cũng đã biết về SQL.
- Một thống kê tiếp theo cho thấy các công ty có hay không có trong tạp chí Forrtune 500 đều đang tập trung ứng dụng Python/ R vào khai thác dữ liệu. Chúng ta cũng thấy điều tương tự tại các quốc gia, khu vực những nơi mà 1001 Data scientist đang làm việc. Các bạn có thể nhìn vào các biểu đồ dưới đây sẽ thấy rõ, chúng tôi cũng không cần giải thích thêm. Chỉ lưu ý một điểm, là tỷ lệ sử dụng Python và R tại các công ty lớn trong tạp chí Fortune 500 thấp hơn các công ty không thuộc Fortune 500, thì theo 365DataScience các công ty lớn thuộc Fortune 500 đang đinh hướng tiếp cận và đầu tư những công nghệ, phần mềm mới hơn thay vì chỉ tập trung mỗi R hay Python.
- Quay trở lại với báo cáo của 365DataScience, thông tin thống kê khác đó là 1001 Data scientist trong mẫu dữ liệu trước khi học trở thành Data scientist thì họ đã làm những công việc gì.
Chúng ta không xét đến 52.4% những người trước đó đã là Data scientist, do dữ liệu thu thập chỉ trong 1 năm 2019 nên có thể những người này từ lâu đã là nhà khoa học dữ liệu. Dựa trên hình chúng ta thấy có đến 11% trong 47.6% người còn lại đã từng là Data analyst rồi mới tiến đến trở thành Data scientist, và không chừng trong 52.4%, người đã từng là Data analyst có thể chiếm tỷ lệ khá nhiều. Thực tế hiện nay, để trở thành một nhà khoa học dữ liệu, từ “khoa học” nghĩa là bạn phải biết gần như mọi thứ, thì một trong những kỹ năng quan trong đó là phải phân tích được dữ liệu, có tư duy về dữ liệu. Vì thế Data analyst không nên bị coi thường, nó là bước khởi đầu hoàn hảo để trở thành một Data scientist.
Tiếp đến có 8.2% trong 47.6% người còn lại đã từng làm nghiên cứu, là học viên ở các học viện, nghĩa là có thể họ chưa có kinh nghiệm đi làm thực tế, họ học thẳng để trở thành một Data scientist. Hiện nay vẫn có nhiều trường đại học, trung tâm đào tạo,… có các khóa học dài hạn, bao gồm cả các khóa huấn luyện để trở thành Data scientist, không nhất thiết bạn phải là Data analyst mới được làm Data scientist. Sau cùng 7% trong 47.6% người còn lại đã từng là thực tập sinh, tức có một số họ đã được học để trở thành Data scientist đang thực tập tại các công ty, một số có thể đang làm công việc khác công liên quan, nhưng thấy được lợi ích, hoặc niềm đam mê là một Data scientist, họ cố gắng học tập và chuyển đổi công việc.
- Xét về trình độ học vấn cao nhất, thì một Data scientist thông thường thường có bằng thạc sĩ hay còn gọi là Master, tỷ lệ 56.2%, tiếp đến là PhD – bằng tiến sỹ, với tỷ lệ 26.6%, bằng cử nhân thông thường chiếm tỷ lệ có 12.8%. Tỷ lệ thạc sĩ kinh doanh – MBA chỉ chiếm 3%.
Các số liệu cho thấy ngành Data science yêu cầu về kiến thức, trình độ chuyên môn cao thông thường phải học lên thạc sĩ. Nhưng khi một ngành và lĩnh vực đòi hỏi sự chuyên môn hóa cao thì mới cần học đến cấp bậc tiến sĩ, tuy nhiên theo 365DataScience đây không phải điều kiện tiên quyết và cốt lõi để trở thành Data science nên các bạn cũng đừng quá hoang mang. Sau cùng, có rất ít người chuyên ngành là kinh doanh, và có bằng thạc sĩ kinh doanh, trở thành một Data scientist. Nguyên nhân giả định là nhiều thạc sĩ kinh doanh tiếp cận lĩnh vực Data science ở mức độ vừa đủ để giúp họ ra quyết định kinh doanh hiệu quả hơn hay nhu cầu thực hiện các nghiên cứu chuyên sâu kết hợp cả 2 lĩnh vực, không nhất thiết phải là một nhà khoa học dữ liệu, nên số ít trong họ có thể có đam mê riêng về Data science, muốn chuyển hướng sang Data science vì một số nguyên nhân như cơ hội thăng tiến hơn trong sự nghiệp, hay mức lương hấp dẫn.
- Khi so sánh theo quốc gia nơi mà 1001 Data scientist trong báo cáo đang làm việc, để xem liệu yêu cầu về trình độ học vấn khác nhau như thế nào giữa các quốc gia.
Các bạn có thể thấy xét trong 1001 Data scientist, tỷ lệ những người làm việc tại Mỹ, Vương quốc Anh, Ấn Độ và các nước khác có bằng thạc sĩ là đều trên 50%. Cơ cấu giữa Mỹ và Vương quốc Anh gần bằng nhau, thú vị là ở Ấn Độ, tỷ lệ người tham gia trong báo cáo làm việc tại Ấn Độ có bằng tiến sĩ chỉ là 3.3%, trong khi bằng cử nhân thông thường là 32%. Nói vui nhưng thực tế, tại Ấn Độ không cần là tiến sĩ thì mới trở thành Data scientist.
- Về học tập và nghiên cứu, thì 1001 Data scientist trong báo cáo có nhiều lĩnh vực học tập và nghiên cứu khác nhau, đã có bằng cấp cụ thể (nói đơn giản là chuyên ngành đã từng tốt nghiệp). Kết quả thu thập cho thấy tỷ lệ 20.1% trong số Data scientist được thu thập dữ liệu, tốt nghiệp với chuyên ngành về Khoa học dữ liệu/ phân tích dữ liệu, tiếp đến là khoa học máy tính và xác suất thống kê – như đã nói ở trên, đây cũng là 2 lĩnh vực mà một Data scientist cần biết. Ở vị trí tiếp theo là ngành kinh tế và khoa học xã hội. Xu hướng ứng dụng Data science vào kinh tế ngày nay không còn là xu hướng mới nổi, mà là rất mạnh mẽ ở những năm tiếp theo khi công nghệ phát triển, và dữ liệu một công ty kinh doanh cần khai thác đã tăng lên rất nhiều. Xu hướng không xuất hiện chỉ riêng ở các công ty mà ngay cả cá nhân con người. Hiện nay có sự chuyển đổi nghề nghiệp từ làm kinh doanh sang phân tích dữ liệu, nguyên nhân có thể nhiều công ty cần nhân lực để phân tích dữ liệu hay chỉ là thu thập, xử lý dữ liệu khi thấy được tầm quan trọng của khai thác tài sản dữ liệu, bên cạnh nguyên nhân khác là độ “hot” của những nghề liên quan đến dữ liệu (về cơ hội nghề nghiệp, mức lương), và nhiều người thấy rằng với kiến thức nền tảng về kinh doanh, họ sẽ dễ dàng áp dụng phân tích dữ liệu vào công việc chuyên môn của mình, tạo bước đệm thăng tiến trong sự nghiệp nhờ vào những thông tin hữu ích có được từ phân tích, họ có thể đưa ra nhiều quyết định, chiến lược tốt hơn, kiến thức kinh doanh có thể gia tăng đồng thời với kinh nghiệm. Nói chung một người có chuyên môn về kinh tế nếu có thêm kiến thức vững vàng về Data science thì sẽ đạt được rất nhiều lợi ích.
Qua biểu đồ cũng thấy được con đường trở thành một Data scientist ngắn nhất, tốt nhất, nếu nhìn vào 1001 Data scientist, thì đó là phải có chuyên môn về Khoa học dữ liệu và phân tích.
- Vậy thì nếu muốn trở thành Data scientist, có thể học các khóa học online nếu đã tốt nghiệp một chuyên ngành khác? Trong báo cáo của 365DataScience, có 41% trong 1001 Data scientist, cung cấp thông tin rằng họ có tham gia ít nhất 1 khóa học trực tuyến về Data Science, và trung bình 1 người có đến 4 bằng cấp liên quan.
- Thông tin khác trong báo cáo này mà chúng tôi muốn nói đến đó là ngay cả khi có bằng cấp về Data science thì liệu chúng ta có thể kiếm một việc làm ngay lập tức dưới chức danh Data sciencetist không? Chỉ 1% trong 1001 Data scientist có trong báo cáo cho rằng họ được nhận ngay vào làm Data scientist tại các công ty mà không cần kinh nghiệm. Vậy nếu muốn trở thành Data scientist thì kinh nghiệm làm trong ngành này nên là bào nhiêu năm? Ít nhất 1 năm chính là khuyến nghị của 365DataScience, cũng theo họ những người trẻ cấp độ Junior chưa có nhiều kinh nghiệm khó có thể xin một vị trí Data scientist chưa có nhiều kinh nghiệm.
Kết thúc báo cáo 365DataScience ở đây, các bạn có thể tìm hiểu thêm về những thông tin khác, mà chúng tôi không thể trình bày hết ở đây, trong báo cáo gốc, link truy cập chúng tôi để ở đầu bài viết.
Tiếp theo chúng ta cùng đi qua các báo cáo khác của BurtchWorks, Big Cloud cả 2 công ty này đều là những công ty hàng đầu trong lĩnh vực tuyển dụng nhân sự ngành Data science và Big Data.
“The Burtch Works Study Salaries of Data Scientists &Predictive Analytics Professionals” – báo cáo của BurtchWorks trong năm 2019 khảo sát 1840 chuyên gia phân tích dự báo (Predictive Analytics Professionals – PAPs) và 421 Data Scientists, đang làm việc tại Hoa Kỳ.
Báo cáo về mức lương căn bản của Data scientists và PAPs được Burtch Works chia là các cấp độ theo người đóng góp cá nhân (Individual Contributor – tham gia các dự án, tự chịu trách nhiệm, không chịu sự quản lý bởi bất kỳ ai), cấp độ theo quản lý (Managers)
Vì bài viết có hạn nên chúng tôi không tiện giải thích mỗi cấp độ là gì, các bạn có thể đọc sơ, tạm dịch để hiểu các biểu đồ dưới đây.
Đối với PAPs tại Hoa Kỳ so sánh từ năm 2019 vs 2018
Có sự tăng nhẹ từ 2 – 4% trong mức lương tính theo năm ở Individual Contributor xét ở mọi cấp độ, còn ở Manager thì chỉ có tăng 4% ở cấp độ 3. Dưới đây là số liệu chi tiết
Đối với Data Scientist tại Hoa Kỳ so sánh từ năm 2019 vs 2018
Có sự tăng nhẹ 1% trong mức lương tính theo năm ở Individual Contributor xét ở cấp độ 2, 3, còn ở Manager thì chỉ có tăng 1- 3% ở cấp độ 1, 2, cấp độ 3 không tăng. Dưới đây là số liệu chi tiết
Nếu so sánh PAPs và Data Scientist trong năm 2019
Data Scientist tại Hoa Kỳ thường có mức lương cao hơn rất nhiều so với PAPs trừ vị trí manager cấp độ 2 trở lên.
Tìm hiểu một chút về kiến thức và kỹ năng của Data Scientist và PAPs mà Brutch Works thống kê được:
Giống như báo cáo của 365DataScience, các Data scientist và PAPs làm việc tại Hoa Kỳ hầu hết có bằng thạc sĩ, điểm đặc biệt là Data Scientist tỷ lệ có bằng tiến sĩ ngang bằng với tỷ lệ có bằng thạc sĩ, cho thấy một phần nào đó yêu cầu rất cao về trình độ học vấn trong ngành Data science tại thị trường này, nhìn qua thì thấy tỷ lệ Data scientist có mỗi bằng cử nhân thông thường là rất ít.
Phân tích dự báo thường áp dụng nhều trong lĩnh vực kinh doanh nên kiến thức kinh doanh phần nào cũng là kiến thức quan trọng đối với PAPs, tiếp đến là kiến thức kinh tế. Cả Data scientists và PAPs được yêu cầu phải nắm vững kiến thức toán học và thống kê, nên đều đạt tỷ lệ cao nhất. Riêng Data Science, khoa học máy tính là lĩnh vực họ cũng phải học và nắm vững kiến thức ưu tiến sau toán và thống kê.
Chúng ta cùng đi qua nhanh các báo cáo còn lại của Big Cloud
Báo cáo đầu tiên Data science salary report 2020 APAC về mức lương ngành Data Science tại thị trường châu Á Thái Bình Dương APAC khảo sát 1300 chuyên gia trong ngành.đến từ các quốc gia khác nhau trong khu vực APAC, với tỷ lệ cao nhất 48% có bằng Thạc Sĩ tuy nhiên chỉ thống kê được mức lương tại Singapore và tại Úc và New Zealand.
Python được sử dụng nhiều nhất, nhiều hơn rất nhiều so với R, khác với những báo cáo ở trên chúng ta vừa đi qua. Thông tin về mức lương như đã nói chỉ có 2 thị trường Singapore, Úc và New Zealand
Báo cáo thứ 2 về thị trường châu Âu Data science salary report 2020 Europe về mức lương ngành Data Science tại thị trường châu Âu khảo sát 1300 chuyên gia trong ngành.đến từ các quốc gia khác nhau trong khu vực, với tỷ lệ hơn 50% có bằng Thạc Sĩ
Python vẫn được sử dụng nhiều nhất. Như vậy chung quy có thể kết luận đây là ngôn ngữ lập trình phổ biến nhất trong ngành Data Science trên toàn cầu. Chúng ta cùng nhìn qua mức lương trung bình Data scientist tại một số nước Pháp, Đức, Ý, Hà Lan, Vương quốc Anh, Thụy Sĩ.
Như vậy đến đây cũng két thúc bài viết lần này, mong các bạn tiếp tục ủng hộ BigDataUni ở những bài viết sắp tới.
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.