生存分析工具执行常用生存分析方法。生存模型模拟某个事件(例如,寿险保单失效)发生之前的时间。生存模型的独特之处在于其具有删失功能;测试或试验可能在相关事件发生之前结束(例如,保单持有人可能在保单失效前去世)。
重要
此工具不会随 Alteryx Designer 或 R 工具自动安装。要使用此工具,请从 Alteryx 社区 Gallery 下载。
此工具可用于两个目的(取决于配置设置):
洞察数据集的“生存函数”(即估算整个群体生存时间的分布)。
确定特定因素是否影响群体的生存函数(例如比较各个组的生存函数)。
使用所需参数选项卡设置模型生成控件。
模型名称:需要为每个模型命名,以便日后识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。
输入类型:选择下列选项之一(取决于数据流中的数据)。
数据包含持续时间:数据包含表示持续时间的字段。
选择持续时间变量:选择表示持续时间的字段。
数据包含开始和停止时间:数据包含表示开始时间的字段和表示停止时间的字段。
选择开始时间/左删失变量:选择表示开始时间的字段。
选择结束时间/右删失变量:选择表示结束时间的字段。
删失:
数据左删失:数据包含一个字段,该字段用 0/1 表示生存记录开始部分的删失状态。
选择左删失变量:选择 0/1 变量,其中 0 表示删失,1 表示生存记录从开始时间或 0 开始(前提是先前已指定“数据包含持续时间”)。
数据右删失:数据包含一个字段,该字段用 0/1 表示生存记录结束部分的截断状态。
选择右删失变量:选择 0/1 变量,其中 0 表示删失,1 表示生存记录在结束时间或持续时间结束(前提是先前已指定“数据包含持续时间”)。
使用分析选项选项卡,可以更明确地界定如何计算分析。
Kaplan-Meier 估算:此选项将生成数据集的生存曲线,并提供按一个变量分组的选项。
选择分组字段:此选项支持比较不同组的生存曲线。
选择分组变量:选择与分组变量对应的字段。
使用置信区间:此选项将显示 KM 估算图形的上下限,并在表格中显示这些上下限。
输入置信水平:输入用于计算 KM 估算上下限的置信水平。
Cox 比例风险:用于查看影响生存曲线的协变量的影响和显著性。
选择预测变量:须选择至少一个。
相同时间处理方法:处理相同时间的方法。**
纳入案例权重:此选项支持选择包含每个记录权重的字段。
选择字段指定权重:选择包含案例权重的字段。
使用图表选项选项卡设置图表输出控件。
图表大小:选择英寸或厘米来丈量图表大小。
图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x (96 dpi);2x (192 dpi);或 3x (288 dpi)。较低的分辨创建相对较小的文件,最适合在显示器上查看。更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
将“浏览”工具连接到每个输出锚点以查看结果。
O 锚点:包含序列化模型及模型名称和对象大小的表格。各种模型的可用性取决于在“分析选项”下选择的“分析类型”。
摘要分析 - 生存对象、Kaplan-Meier 估算对象
分组分析 - 生存对象、Kaplan-Meier 估算对象、Cox 比例风险对象
因子分析 - 生存对象、Cox 比例风险对象
Cox PH 模型可以直接从 O 输出的第二个输出元素访问。如果该模型是“model”,则可分别通过“model$surv”和“model$KMest”访问生存对象和 KM 估算对象。
R 锚点:由生存分析工具生成的报告片段组成,具体取决于在“分析选项”下选择的“分析类型”。
摘要分析 - 统计数据摘要和生存函数图表。
分组分析 - 统计数据摘要;各组的观测结果与预期结果;Logrank 检验、似然比检验和 Wald 检验的组间相似性对比结果;不同组的生存曲线对比图;以及各组的不同生存曲线和累积风险曲线。
因子分析 - 统计数据摘要;Logrank 检验、似然比检验和 Wald 检验关于预测变量影响的因子分析检验结果;以及详述预测因子影响的 Cox 比例风险模型的摘要。
D 锚点:对于“摘要分析”和“分组分析”(在该情况下,会添加指定分组的额外字段),此选项构成生存曲线的 Kaplan-Meier 估算。因子分析不提供该选项。
*https://zh.wikipedia.org/wiki/生存分析 **https://stat.ethz.ch/R-manual/R-devel/library/survival/html/coxph.html