Quay trở lại với các chủ đề về các phương pháp phân tích trong Data analytics hay Data mining. Chủ đề gần nhất mà chúng ta đã tìm hiểu, đó chính là Time series, phân tích dãy số thời gian để tìm hiểu xu hướng biến động của đối tượng nghiên cứu, và đưa ra dự báo trong tương lai. Tiếp tục với một ứng dụng hay nói cách khác một mảng phân tích khác liên quan đến dữ liệu thời gian, chính là Survival analysis – phân tích sống sót.
Phần 1, BigDataUni và các bạn sẽ cùng nhau làm quen với Survival analysis thông qua tìm hiểu về khái niệm, ứng dụng, khám phá về loại dữ liệu, tính chất dữ liệu sử dụng.
Survival analysis được tạm dịch sang tiếng Việt nghĩa là phân tích sống sót. Chắc các bạn cũng nghĩ dữ liệu áp dụng trong phương pháp này sẽ tập trung tìm hiểu về cách thức tồn tại hay sống sót của một con người. Đó là chỉ đúng một phần thôi.
Survival analysis đầu tiên được ứng dụng nhiều trong y học, phục vụ cho việc chẩn đoán, xác định giai đoạn bệnh của bệnh nhân, lên pháp đồ điều trị. Đó là cách nói “làm nhẹ”, để tránh việc các bạn hiểu theo hướng tiêu cực. Nhưng thực chất Survival analysis được các chuyên gia y khoa, bác sĩ áp dụng nhằm xác định hay ước tính tỷ lệ sống sót của bệnh nhân trong tương lai.
Tuy nhiên nếu chỉ sử dụng trong lĩnh vực này, thì phương pháp phân tích sống sót có lẽ sẽ ít được biết đến, coi nó là một công cụ dành riêng cho y học mà thôi. Nhưng sự thật không phải như vậy, khi khoa học, công nghệ phát triển, người ta mới dần thấy được sự hữu ích của Survival analysis ở những khía cạnh và góc độ khác.
Trong bối cảnh ngày nay, Data analytics đã trở thành một phần không thể thiếu của mọi lĩnh vực. Tầm quan trọng của phân tích dữ liệu nằm ở chỗ cần áp dụng loại phân tích nào cho nguồn dữ liệu có được. Tùy thuộc vào bản chất và loại dữ liệu, việc sử dụng các loại phân tích cũng có thể khác nhau. Survival analysis cũng vậy, nó phụ thuộc hoàn toàn vào loại dữ liệu mà trong đó phải chứa tối thiểu 2 thành phần: thời gian và sự kiện xảy ra.
Khác với Time series, chúng ta xem xét biến động của đối tượng nghiên cứu thông qua một biến định lượng cụ thể như doanh thu, giá cả, sản lượng,… ở Survival analysis thì quan tâm đến yếu tố định tính của đối tượng nghiên cứu ví dụ như sự kiện quan tâm khi nào sẽ xuất hiện.
Cụ thể hơn nếu Time series dự báo giá trị cho đối tượng nghiên cứu tại một mốc thời gian cụ thể trong tương lai thì Survival analysis lại tập trung xác định khoảng thời gian đến lúc sự kiện quan tâm xảy đến với đối tượng nghiên cứu. Ví dụ ở lĩnh vực y học, thì sự kiện này chính là trạng thái bệnh nhân “sống” hoặc “chết”. Tuy nhiên, trong chủ đề Survival analysis mà BigDataUni gửi đến các bạn, chúng ta sẽ hướng đến chính là lĩnh vực kinh doanh.
Vậy Survival analysis thực chất là gì? Ứng dụng chính của nó trong lĩnh vực kinh tế?
Survival analysis là một tập hợp các phương pháp thống kê, phân tích phục vụ cho quá trình tìm hiểu về sự kiện quan tâm và thời điểm nó xảy ra hay nói cách khác, nó giúp chúng ta ước lượng khoảng thời gian cho đến khi sự kiện xảy ra với một đối tượng hay nhóm đối tượng nghiên cứu.
Hoặc đơn giản nhất, Survival analysis xác định khoảng thời gian cần để một sự kiện nào đó diễn ra (khoảng thời gian trước khi một sự kiện xuất hiện).
Xét ở góc độ dữ liệu, thì biến mục tiêu trong các mô hình phân tích sống sót sẽ là một biến thời gian, đơn vị đo lường có thể là ngày, tuần, tháng, năm,… kết hợp biến nhị phân (biến chỉ có 2 giá trị có hoặc không) xác định sự kiện đã hoặc chưa xảy ra.
Nhiều bạn sau khi học phân tích hồi quy – Regression analysis có thể nghĩ đơn giản: để dự báo khoảng thời gian xảy ra sự kiện thì sử dụng hồi quy tuyến tính (linear regression), các biến độc lập x sẽ là các yếu tố tác động lên khoảng thời gian cần tìm. Tuy nhiên nếu chỉ dựa vào dữ liệu thời gian thì sao chúng ta có thể biết sự kiện đã xảy ra hay chưa?
Mặt khác, để dự báo nguy cơ sự kiện xuất hiện, biến nhị phân hay biến phục thuộc chỉ có 2 giá trị với 0 (chưa…) và 1 (đã…), các biến độc lập x sẽ là các yếu tố tác động lên khả năng sự kiện diễn ra. Tuy nhiên chúng ta lại quên mất tìm hiểu khoảng thời gian bao lâu?
Survival analysis có sử dụng phương pháp hồi quy nhưng hoàn toàn khác với Linear regression và Logistic regression như ở trên, nó tập trung xây dựng mô hình được gọi là “Time to event”, định lượng ảnh hưởng của các biến dự báo lên thời gian đến khi sự kiện xảy ra. Chúng tôi sẽ nhắc lại lần nữa ở phần giới thiệu loại dữ liệu trong Survival analysis
Chúng ta đã nói đến thời gian có thể được đo lường bằng ngày, tháng, năm,… nhưng cụ thể thì sự kiện nên được hiểu như thế nào?
Sự kiện trong Survival analysis phản ánh chính ứng dụng của phương pháp này trong các lĩnh vực khác nhau.
Đầu tiên trong y tế. Sự kiện hay event có thể là biến cố mà bệnh nhân gặp phải: “sống” hoặc “chết”. Ví dụ
+ Sau bao nhiêu tháng, thì bệnh nhân mắc ung thư giai đoạn cuối sẽ “chết”?
+ Sau bao nhiêu ngày thì pháp đồ điều trị hoặc thuốc điều trị sẽ giúp bệnh nhân “khỏi bệnh” hay “phục hồi”?
+ Khoảng thời giao bao lâu thì người dân sẽ bị “nhiễm bệnh” sau khi tiêm vắc-xin?
+ Phương pháp điều trị có thể giúp bệnh nhân cầm cự trong thời gian bao lâu trước khi “tử vong”?
Xét trong bối cảnh Covid-19 thì giả sử như thế nào?
+ Bệnh nhân bị nhiễm vi-rút Corona thì sau bao nhiêu ngày sẽ phát hiện các triệu chứng và chính thức bị coi là “nhiễm bệnh”?
+ Sau bao nhiều ngày thì bệnh nhân mắc Covid-19 có thể “tử vong”?
+ Sau bao nhiều ngày nhận điều trị thì bệnh nhân mắc Covid-19 có thể “hồi phục” hoàn toàn?
+ Sau bao nhiêu ngày từ lúc khỏi bệnh (xét nghiệm âm tính) cho đến lúc bệnh nhân “tái phát trở lại”?
Các kết quả thu được từ Survival analysis sẽ giúp các bác sĩ, chuyên gia xác định thêm những insight hữu ích khác như tác động của yếu tố bệnh nền lên khả năng tử vong, các nhóm người độ tuổi nào, giới tính nào thì dễ mắc bệnh, và tử vong nhất, phương pháp chữa bệnh nào có tỷ lệ sống sót cao nhất, số ngày trung bình bệnh nhân có thể cầm cự khi đã hoặc chưa tiếp nhận điều trị,…
Bên cạnh được ứng dụng chủ yếu trong y học, Survival analysis còn giúp ích nhiều ở các những lĩnh vực khác nhau. Ví dụ Phân tích sự sống còn cực kỳ hữu ích cho việc nghiên cứu nhiều các loại sự kiện khác nhau trong cả khoa học xã hội và tự nhiên, bao gồm động đất, tai nạn ô tô, sụp đổ thị trường chứng khoán, chấm dứt việc làm, sinh con, kết hôn, ly hôn, nghỉ hưu và bắt giữ tội phạm, phân tích sự kiện lịch sử,…
Chúng ta tập trung tìm hiểu ứng dụng Survival analysis trong lĩnh vực kinh doanh, sản xuất.
Ví dụ Survival analysis được sử đụng dể xác định thời gian máy móc, thiết bị gặp lỗi, bị hỏng hóc hay hiểu đơn giản máy móc, thiết bị trong nhà máy sản xuất có thể được khai thác trong khoảng thời gian bao lâu. Các công ty qua đó sẽ có thể xây dựng kế hoạch đầu tư vào những tài sản cố định của mình tốt hơn, kế hoạch khấu hao, bảo trì hiệu quả.
- Đối với sản phẩm là hàng công nghệ, thiết bị điện tử từ gia dụng đến thiết bị thông minh, phân tích sống sót giúp dự báo khoảng thời gian bao lâu sau khi đưa vào sử dụng thì sẽ bị lỗi, hư hỏng, gần giống như ước tính độ bền. Các công ty dựa trên thông tin có được sẽ đưa ra các chính sách bảo hành, đổi trả phù hợp. Và quan trọng hơn, không chỉ riêng phân tích sống sót, thông qua quy trình khai thác dữ liệu sẽ giúp các công ty xác định những yếu tố khách quan và chủ quan dẫn đến việc sản phẩm của họ gặp vấn đề.
- Đối với các quá trình vận hành hay quy trình triển khai chiến lược, survival analysis hỗ trợ các công ty dự báo khoảng thời gian bao lâu thì chúng sẽ đem lại thành quả hay thất bại.
- Đối với quá trình bán hàng, sales, thì survival analysis giúp các nhân viên bán hàng tìm hiểu về khoảng thời gian từ những bước đầu tương tác với khách hàng cho đến chốt đơn, ghi nhận doanh thu. Hay khoảng thời gian nhân viên sale từ lúc được đào tạo cho đến khi có được khách hàng đầu tiên.
- Đối với hoạch định nguồn nhân lực, Survival analysis giúp bộ phận nhân sự xác định khoảng thời gian từ lúc nhân viên được nhận cho đến khi nhân viên tự động xin nghỉ việc (quit/ employee churn). Kết quả phân tích có được vô cùng hữu ích, để bộ phận nhân sự lên kế hoạch giữ chân hoặc đăng tin tuyển dụng để tìm người thay thế, một cách linh hoạt dựa trên hiệu suất công việc.
Cuối cùng, chức năng quan trọng nhất trong các công ty kinh doanh, sản xuất hay nói cách khác ứng dụng phổ biến nhất của Survival analysis chính là dự báo khi nào khách hàng rời dịch vụ hay Customer churn.
Tất cả các ngành nghề kinh doanh ngày nay, thẳng thừng mà nói cạnh tranh rất khốc liệt, cạnh tranh từ từng sản phẩm, dịch vụ cho đến cạnh tranh từng khách hàng, từng % thị phần. Giữ chân thành công khách hàng không còn là một xu hướng trong chiến lược kinh doanh mà nó từ lâu đã trở thành ưu tiên hàng đầu của không chỉ các công ty dịch vụ mà còn các công ty bán lẻ, thương mại điện tử, các công ty chuyển kênh bán hàng của mình lên nền tảng trực tuyến,…
Customer Lifetime Value – hay còn gọi là CLV, giá trị vòng đời khách hàng, đơn giản là số tiền một khách hàng bỏ ra cho bất kỳ sản phẩm, dịch vụ của công ty từ lần đầu mua hàng cho đến lần cuối cùng mua hàng. Customer Lifetime Value là thước đo quan trọng bên cạnh Churn rate – tỷ lệ giữ chân khách hàng, để đánh giá các hoạt động Marketing và CRM có hiệu quả hay không.
Survival analysis sẽ giúp các công ty phân tích được khoảng thời gian khách hàng tham gia dịch vụ (mua hàng của công ty) đến lúc khách hàng rời dịch vụ (ngừng mua hàng công ty). Với các phân khúc khách hàng có CLV cao, dựa vào kết quả có được từ Survival analysis, các công ty sẽ đưa ra hành động giữ chân nhanh chóng, giảm tối đa tỷ lệ Churn rate của chính nhóm khách hàng này.
Sự kiện hay biến cố diễn ra trường hợp này không chỉ là việc khách hàng ngưng mua hàng mà có thể là khách hàng đã unsubscribe/ unfollow kênh fanpage nào đó, không còn đăng nhập vào website với tư cách khách hàng thân thiết,…
Survival analysis còn có thể hỗ trợ công ty xác định kênh bán hàng, kênh marketing nào đang đem lại doanh thu tốt hơn, tăng trải nghiệm hiệu quả hơn dựa vào dự báo tỷ lệ churn rate.
Ví dụ để các bạn dễ hình dung hơn:
Giả sử bạn là trưởng nhóm bán hàng của chuỗi Bán lẻ trực tuyến ABC. Bạn đã nhận đề xuất chiến lược giữ chân khách hàng có CLV cao từ bộ phận Marketing đó là ưu đãi giảm giá 1 triệu cho lần mua hàng tiếp theo/ 1 khách hàng, chiến dịch kéo dài trong 6 tháng mà thôi. Bạn có nhiệm vụ chọn ra phân khúc khách hàng có CLV cao để nhắm mục tiêu. Tuy nhiên sau các cuộc họp, bạn đề xuất khách thay vì xét CLV thì chỉ cần khách hàng mua hàng trên 10 triệu trong một lần 1 hàng duy nhất thì sẽ giảm ngay 1 triệu. Chiến lược này vừa thu hút cả khách hàng mới và khách hàng cũ.
Đối với khách hàng mới thì cách thức marketing có vẻ đơn giản hơn, nhưng đối với khách hàng cũ, họ đã quá quen thuộc thì cần phải đổi mới. Tuy nhiên đầu tiên, bạn phải xác định nhóm khách hàng cũ nào còn ở lại dịch vụ, hay lâu rồi chưa mua hàng, hay đã rời dịch vụ. Bạn muốn nhắm mục tiêu những khách hàng có khả năng mua hàng trị giá 10 triệu càng sớm càng tốt. Bạn có dữ liệu lịch sử về hành vi mua hàng đối với khách hàng cũ, những khách hàng có thẻ thành viên và những khách hàng chỉ đăng ký tài khoản. Bạn biết được tỷ lệ phản hồi của họ trên các chiến dịch tương tự và chiến dịch cuối cùng mà họ được nhắm mục tiêu, và khoảng thời gian họ phản hồi. Nếu lần cuối cùng phản hồi hay mua hàng đã quá 9 tháng thì xem xét là tạm thời “churn”. Tiếp tục, điều bạn cần làm là phân tích các chiến dịch tương tự, xem khoảng thời gian phản hồi chủ yếu là bao nhiêu, tức khoảng thời gian từ lúc công bố chiến dịch đến lúc khách hàng tương tác, và sau đó là nhắm mục tiêu đến nhóm khách hàng có khả năng phản hồi sớm nhất.
Ứng dụng của Survival analysis là rất nhiều, bất cứ khi nào một nhà phân tích, một nhà kinh doanh muốn tìm hiểu về một sự kiện mà mình quan tâm khi nào sẽ xảy ra cũng như các yếu tố tác động lên nó thì Survival analysis sẽ luôn là phương pháp thích hợp, cần được nghĩ đến đầu tiên.
Như vậy chúng ta đã tìm hiểu qua các ứng dụng của Survival analysis. Chúng ta đi đến phần quan trọng khác là loại dữ liệu được sử dụng trong Survival analysis, cách mô tả và trực quan hóa.
Nhưng trước khi vào phân cuối cùng của bài viết này, chúng ta cùng tổng hợp lại các loại thời gian xét theo tính chất được dùng trong Survival analysis. Có 3 loại tổng quát:
- Failure time: nếu coi biến cố hay sự kiện là cái gì nó tiêu cực như “thất bại”, “chết”, “khách hàng rời dịch vụ”,… thì khoảng thời gian trước khi hoặc cho đến khi sự kiện hay biến cố đó xảy ra thì gọi là Failure time hay Time to Failure
- Survival time: ngược lại ở trên nếu coi sự kiện là cái gì nó tích cực như bệnh nhân “hồi phục”, “sống”, “khách hàng phản hồi chiến dịch”,… thì khoảng thời gian trước khi hoặc cho đến khi sự kiện hay biến cố đó xảy ra thì gọi là Survival time hay Time to Survival.
- Event time: các sự kiện quan tâm nói chung, không xét đến tiêu cực hay tích cực thì khoảng thời gian trước khi hoặc cho đến khi sự kiện hay đó xảy ra thì gọi là Event time hay Time to Event.
Tuy nhiên, cách giải thích trên chỉ mang tính chất tham khảo, để các bạn dễ nhớ mà thôi. Trong thực tế, phổ biến nhất, các chuyên gia chỉ thường dùng thuật ngữ Survival time hoặc Failure time thay thế cho nhau mà thôi, và tùy vào cách nghĩ, cách hiểu của từng người đối với sự kiện quan tâm. Nhưng luôn có 1 điểm chung duy nhất là nghiên cứu Time to Event.
Tìm hiểu về loại dữ liệu sử dụng trong Survival Analysis
Về bản chất, một quá trình tồn tại hay còn gọi “Survival” mô tả một khoảng thời gian “sống” từ thời điểm bắt đầu cụ thể cho đến khi xảy ra một sự kiện cụ thể. Do đó, đặc điểm chính thứ nhất của dữ liệu Survival là mô tả sự thay đổi trong tình trạng/ trạng thái, và coi nó như là thước đo cơ bản.
Cụ thể, thay đổi trạng thái là sự xuất hiện của một sự kiện chỉ định sự kết thúc của vòng đời hoặc sự kết thúc của quá trình tồn tại.
Ví dụ, sự thay đổi trạng thái xảy ra khi một người chết, kết hôn hoặc khi ô tô bị hỏng, hoặc khách hàng phản hồi từ lúc bắt đầu chiến dịch, máy móc bị hỏng,… Chính tính chất này làm cho Survival analysis vận hành gần giống như một số phương pháp thống kê thông thường áp dụng cho dữ liệu hay kết quả định tính, điển hình là Logisitic regression như đã nói ở trên.
Nói chung, các mô hình phân tích truyền thống cũng có thể được sử dụng để kiểm tra sự thay đổi trạng thái hoặc sự xuất hiện của một sự kiện cụ thể. Tuy nhiên, chúng lại bỏ qua thời gian xảy ra của sự kiện quan tâm, và do đó không có khả năng mô tả một quá trình từ thời gian bắt đầu đến lúc sự kiện xuất hiện. Từ đó có thể ảnh hưởng đến chất lượng của các kết quả phân tích, tạo ra các kết luận sai lệch. Nguy hiểm nhất là trong lĩnh vực y tế.
Ví dụ, hồi quy logistic có thể được áp dụng để ước tính xác suất xảy ra 1 sự kiện trong khoảng thời gian dài có xác định; tuy nhiên, nó không xem xét thời gian chính xác khi nào sự kiện xảy ra và do đó không tính đến “độ dài” của quá trình tồn tại. Giả sử rằng hai nhóm bệnh nhân có tỷ lệ mắc Covid-19 là như nhau dựa vào kết quả từ hồi quy logistic. Và vào thời điểm cuối của quá trình theo dõi, một nhóm được đưa đi đến bệnh viện phòng chống bệnh truyền nhiễm, nhóm còn lại giữ lại ở nơi cách ly. Các bạn có thể đoán được, nhóm được đưa đi trước sẽ hồi phục tốt hơn nếu mắc bệnh, nhóm còn lại nguy hiểm hơn, do được chuyển đi chậm. Hậu quả sẽ nặng nề hơn nếu nhóm bị giữ lại được cho về do qua hết thời gian cách ly. Thực tế có một số trường hợp dù cách ly 14 ngày, xét nghiệm 3 lần âm tính, vẫn có thể bị nhiễm bệnh.
Rõ ràng, hồi quy logistic bỏ qua yếu tố thời gian là “khi nào sẽ mắc bệnh” và do đó không cung cấp thông tin chính xác.
Tính chất thứ 2 của dữ liệu Survival suy ra từ vấn đề được nói đến ở trên, đó là mô tả thời gian đến lúc sự kiện “Time – to – event” Trong tài liệu về Survival analysis, thời gian tại thời điểm xảy ra một sự kiện cụ thể được coi là một biến ngẫu nhiên, được gọi là thời gian sự kiện, Failure time/ Survival time/ Event time như đã nói. So với các kỹ thuật thống kê tập trung vào cấu trúc, phần lớn các mô hình Survival analysis được thiết kế để mô tả một quá trình thời gian: từ khi bắt đầu một khoảng thời gian cụ thể đến khi xảy ra một sự kiện cụ thể.
Tính chất thứ 3 của Survival data là Censoring (dữ liệu thiếu thông tin, dữ liệu bị cắt xén). Survival data thường được thu thập trong khoảng thời gian mà sự xuất hiện của một sự kiện cụ thể được nhìn thấy, được quan sát.
Do đó, các nhà nghiên cứu chỉ có thể quan sát những sự kiện xảy ra trong quá trình giám sát giữa hai mốc thời gian. Trong một tổng thể nghiên cứu, trước khi bắt đầu tiến hành giám sát, một số đối tượng hay đơn vị quan sát sẽ không được theo dõi, hoặc một số trong quá trình giám sát bị mất dấu, hoặc một số vào thời điểm gần cuối quá trình không được ghi nhận. Tất cả các trường hợp sẽ gây nên việc thiếu dữ liệu, thiếu thông tin. Gọi chung là Censoring.
Thông qua 2 tính chất 1, 2 các bạn cũng hiểu được 1 tập dữ liệu survival đầy đủ phải có mốc thời gian đầu, mốc thời gian cuối, giữa 2 mốc sẽ có sự kiện quan tâm xảy ra. Tuy nhiên trong thực tế Survival data không bao giờ đủ.
Lấy ví dụ Covid-19 lại để các bạn dễ hình dung, giả sử chúng ta đang nghiên cứu 2 nhóm bệnh nhân có nguy cơ mắc Covid như nhau, nhưng 1 nhóm được đưa đến bệnh viện bệnh truyền nhiễm chữa trị, nhóm 2 cách ly tại trại tập trung và hết thời hạn sẽ cho về nhà.
Nhóm 1, nếu có ai có triệu chứng nhiễm trong thời hạn cách ly chúng ta sẽ quan sát được ngay. Tuy nhiên nhóm 2, sau khi hết thời hạn, cho về nhà nhưng một số người bắt đầu có triệu chứng nhiễm thì chúng ta sẽ không biết ghi nhận chính xác thời điểm. Dữ liệu chính thức bị Censoring. Mặc dù vẫn có thể thu thập lại, nhưng phần nào là chậm quá trình phân tích và dự báo.
Ví dụ khác: sẽ có những khách hàng vẫn mua hàng của công ty trong tương lai mặc dù qua thời hạn theo dõi công ty kết luận họ rời dịch vụ khi không có phản hồi, hoặc nhân viên vẫn làm việc cho công ty trong thời gian theo dõi rồi sau đó nghỉ việc, hoặc những máy móc vẫn hoạt động bình thường trong thời gian theo dõi. Chúng ta không biết khi nào các đối tượng sẽ trải qua sự kiện mà chúng ta quan tâm trong thời điểm nghiên cứu như khi nào khách hàng churn, nhân viên nghỉ, máy móc hư,… Tất cả những gì chúng ta biết hiện tại là họ chưa trải qua các sự kiện đó.
Khoảng thời gian tới lúc sự kiện diễn ra (các trường hợp này gọi là Survival time) lớn hơn khoảng thời gian cho phép của nghiên cứu.
Do trường hợp dữ liệu Survival analysis bị vấn đến Censored là rất nhiều nhưng các chuyên gia cũng từ lâu đã tìm ra các phương pháp để handle, giúp mang lại kết quả phân tích chính xác cho dù thông tin bị thiếu ở các mốc thời điểm khác nhau. Các phương pháp phân tích trong Survival analysis chúng tôi sẽ gửi đến các bạn ở những bài viết tới.
Các loại Censoring
- Right censoring
Dữ liệu bị cắt xén bên phải, đây là trường hợp phổ biến nhất. Nếu một đối tượng quan sát tham gia vào quá trình nghiên cứu mà bị mất dấu, và thời điểm xảy ra sự kiện nằm đâu đó ở phía bên phải trục hoành – trục thời gian đã bị cắt xén, nói dễ hiểu là không biết và không có thông tin do nằm ngoài khoảng thời gian nghiên cứu.
Trên hình minh họa, chúng ta có 3 bệnh nhân thử nghiệm loại thuốc trị ung thư. Bệnh nhân A chết trước khi quá trình nghiên cứu kết thúc, chúng ta không gọi là Censoring, do chúng ta vẫn ghi nhận được sự kiện
Bệnh nhân B vẫn còn sống sau khi quá trình nghiên cứu kết thúc, dấu “+” nghĩa là cần theo dõi tiếp để thu thập thêm thông tin, tức dữ liệu đang bị thiếu ở phía bên phải, ghi nhận Right Censoring ở đây. Chúng ta không biết chính xác thời điểm trong tương lai bệnh nhân còn sống hay không.
Bệnh nhân C cũng cần được theo dõi kể từ lúc người này rút lui trước khi nghiên cứu kết thúc. Vì vậy, chúng ta chỉ biết rằng bệnh nhân C sống sót cho đến khi họ rút lui, nhưng một lần nữa chúng ta không biết chính xác thời gian sống sót của bệnh nhân này, thời điểm nào ở phía bên phải dấu “+”
Dạng tiếp theo là Left censoring
- Left censoring
Trường hợp một quan sát hay một điểm dữ liệu ở phía trước ở 1 mốc thời gian cụ thể, tức trải qua sự kiện ở trước 1 mốc thời gian cụ thể, nhưng chúng ta không biết chính xác là thời điểm nào. Trường hợp Left-Censoring xảy ra khi thiết kế nghiên cứu diễn ra trong 2 giai đoạn. Những đối tượng quan sát nào sau khi kết thúc giai đoạn thứ nhất nhưng không đủ điều kiện, hoặc bị bỏ sót ở giai đoạn thứ hai thì không thể ghi nhận thông tin, dẫn đến Left censoring.
Ví dụ, nghiên cứu về hiệu quả của thuốc tránh thai ở lần sử dụng đầu tiên sau khi kết hôn, giả sử 1 cặp vợ chồng quen nhau và đã sử dụng thuốc tránh thai trước khi kết hôn, nên sẽ không đủ điều kiện để đưa vào nghiên cứu, không được theo dõi, nên chúng ta sẽ không có thông tin liệu người vợ có mang bầu hay không, nên có thể coi là Left censoring.
Ví dụ khác như về Covid-19, giả sử một bệnh viện xét nghiệm Covid trên 100 bệnh nhân. Nhưng có một số người sau đó dương tính với Covid-19. Bệnh viện không biết liệu những người này đã tiếp xúc với người nhiễm trước khi xét nghiệm hay không, do sau một khoản thời gian bệnh mới bộc lộ rõ. Nghĩa là có thể người bệnh đã bị nhiễm Covid-19 trước khi xét nghiệm mà chúng ta không rõ.
Như hình trên, chúng ta không biết trước thời điểm t, từ 0 đến t, không biết người bệnh tiếp xúc virus khi nào.
Nếu Right censoring, survival time của đối tượng > thời gian nghiên cứu thực tế thì Left censoring là ngược lại, survival time của đối tượng < hoặc bằng thời gian nghiên cứu.
- Interval censoring
Là trường hợp trong khoảng thời gian nghiên cúu, có trường hợp sự kiện xảy ra và chúng ta không ghi nhận được, không biết xảy ra lúc nào nhưng chắc chắn nó nằm giữa thời điểm bắt đầu và thời điểm kết thúc nghiên cứu. Ví dụ đơn giản và dễ hiểu nhất, các nhà xã hội học nghiên cứu tỷ lệ tử vong của dân số theo từng độ tuổi khác nhau, sẽ có trường hợp các nhà xã hội học không biết cụ thể đối tượng quan sát nào sẽ tử vong ở thời điểm nào, nhưng chắc chắn là nằm trong 1 năm, do họ tổng hợp dữ liệu điều tra dân số đầu năm, biết chính xác tất cả người dân trong nghiên cứu đều còn sống.
Quay trở lại ví dụ Covid-19, giả sử chúng ta xét nghiệm ở 2 lần ở 2 thời điểm khác nhau
Sau lần 1, bệnh nhân này xét nghiệm âm tính, nhưng sau khi test lần 2, theo dõi và kiểm tra thì bị dương tính, tuy nhiên chúng ta không biết liệu người đó có tiếp xúc với người nhiễm Covid-19 trước khi test lần 2 sau khi test lần 1 hay không hoặc trước khi test lần 1, kết quả lần 1 không chính xác.
- Left truncation
Dữ liệu bị xén bên trái, đây cũng là trường hợp thường gặp trong Survival analysis xảy ra do vấn đề nhập dữ liệu trễ, số liệu trễ (late entry/ delayed entry). ‘
Các đối tượng có thể đã trải qua sự kiện được quan tâm trước khi bước vào nghiên cứu. Ví dụ nghiên cứu nguy cơ mắc một bệnh nào đó vào thời kỳ mãn kinh ở hiện tại. Một đối tượng quan sát là nữ tham gia nghiên cứu khi đã mãn kinh 1 năm về trước. Giả sử người này mắc bệnh nào đó từ 1 năm về trước sau khi mãn kinh mà chúng ta chưa ghi nhận. Nên số liệu của người này bị cắt xén bên trái.
Ví dụ về mẫu dữ liệu:
Ví dụ có 25 bệnh nhân nguy cơ mắc Covid như trên, có phân nhóm và cân nặng cụ thể, sau khi xét nghiệm covid lần 1, một số âm tính và một số dương tính, sau đó được theo dõi trong 1 tháng, nếu có triệu chứng bất ký sẽ tiếp tục xét nghiệm lần 2 – lần cuối cùng. Chúng ta sẽ phải phân tích thời gian sau khi xét nghiệm lần 1 âm tính đến lần 2 để tìm hiểu tỷ lệ mắc Covid-19, và đưa ra biện pháp phòng ngừa. Bệnh nhân 24, 25 sau lần 1 âm tính đến tận 21 ngày mới phát hiện bệnh. Nếu tỷ lệ này cao, cần đưa ra thời hạn cách ly kéo dài hơn. Time ở đây là số ngày, Event là kết quả lần 2, yếu tố tác động khác là cân nặng và kết quả lần 1.
Trước khi kết thúc, các bạn cùng nhìn qua đồ thị dưới đây, đồ thị không liên quan đến bảng số liệu trên:
Bên trên là đồ thị minh họa ví dụ về Survival analysis, các mốc thời gian ứng với tỷ lệ sống sót (tỷ lệ sự kiện quan tâm xảy ra) dựa trên phương pháp Kaplan-Meier Estimate. Tại thời điểm năm thứ 10, tỷ lệ sống sót là 0.84. Đây là dạng đồ thị được sử dụng phổ biến nhất trong Survival analysis. Cách xây dựng biểu đồ, và phương pháp Kaplan-Meier BigDataUni sẽ giới thiệu đến các bạn ở các bài viết sau.
Như vậy đến đây kết thúc phần 1 bài viết, phần 2 chúng ta đi vào hai function quan trọng nhất của Survival analysis là Survival function và Hazard function. Mong các bạn ủng hộ!
Tài liệu tham khảo:
“An Introduction to Survival Analysis” – Mario Cleves và cộng sự
“Survival Analysis A Practical Approach” – David Machin và cộng sự
“Survival Analysis – Models and Applications” – Xian Liu và cộng sự
https://towardsdatascience.com/survival-analysis-part-a-70213df21c2e
https://towardsdatascience.com/survival-analysis-intuition-implementation-in-python-504fde4fcf8e
http://www.sthda.com/english/wiki/survival-analysis-basics
https://www.kdnuggets.com/2017/11/survival-analysis-business-analytics.html
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.