
以统计的观点,所有的模型都是错误的,因为会有数据采集的偏差、维度的缺失以及性能刻画不足,但并不影响使用,只要知道模型有缺陷就好。还有就是要多和医生交流,不断迭代模型。
大家总认为统计显著性是线性,但在医学中这种关系经常是非线性。
在医学统计中,要关注这个人他跟普通人的区别在什么地方,不能直接用统计规律。
这种乱的线点做统计分析的话,根本不会有任何显著性。
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
本文内容选自加拿大约克大学数学统计系终身教授王晓刚于近期在清华大数据“技术·前沿”系列讲座所做的题为《统计学概论和医疗临床大数据分析》的演讲。
以统计的观点,所有的模型都是错误的,因为会有数据采集的偏差、维度的缺失以及性能刻画不足,但并不影响使用,只要知道模型有缺陷就好。还有就是要多和医生交流,不断迭代模型。
大家总认为统计显著性是线性,但在医学中这种关系经常是非线性。
在医学统计中,要关注这个人他跟普通人的区别在什么地方,不能直接用统计规律。
这种乱的线点做统计分析的话,根本不会有任何显著性。
THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。
深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)
数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。
在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。