 |
| 过敏性鼻炎流行病学调查项目 |
简述: 该调查通过了数据清洗的方法得到的点样成功率高达 72.8% 。 在问卷中设定的 40 个过敏源中,使用先进的数据挖掘方法通过聚类分析得到了过敏源的不同分组。通过文献,发现本次调查结果与亚洲一些地区的相关数据十分接近。因此该调查提供了流行病学统计调查的新思路。
目的:患病率与过敏源调查
调查方式:制作问卷在北京社区中调查
问卷分析:问卷问题较多( 47 个),其中 22 个问题涉及过敏源, 16 个问题涉及症状调查。问卷量较大,共 7200 份。
本公司承担调查问卷收集后的录入与统计分析工作。
统计分析流程:
1. 筛选有效样本
依据问卷的答题情况筛选有效样本,具体规则如下:
- 问卷答题率低于 50%
- 问卷答题情况完全相同(抄袭嫌疑)
- 问卷填写极其不规范
2. 筛选阳性样本
依据 16 个涉及症状的问题答题情况筛选阳性样本,具体办法如下:
- 根据临床医生确定的临床常见六种症状确定
- 对于答题不足六种症状的问卷,结合其他问题答题情况进行筛选
3. 假阳性样本、假阴性样本筛查
采用 SVM 多元非线性多维回归的办法,综合考虑 16 个涉及症状的问题筛选。
4. 由 2 , 3 可以得到相对精确的阳性样本,医生现场点样的结果显示,有效率高达 72.8%
5 .针对不同的症状和过敏源答题情况做关联与聚类分析,涉及方法有:
- 因子分析
- 机器学习方法 ---- 支持向量机( SVM )
项目采用的工具:
- STATA :常规统计
- S-plus :数据清洗,有效样本筛选
- R-language :假阳性、假阴性样本筛查,绘图,回归分析,关联分析
- SVM-light :假阳性、假阴性样本筛查,聚类分析,回归分析,关联分析
待发文章:Minzhen ,流行病学调查统计分析的新思路
讨论:
- 通过数据清洗的方法得到的点样成功率高达 72.8% ,而传统的方法得到的点样成功率一般不超过 65% ,较高的点样成功率使调查更加成功,大幅节约成本。
- 在问卷中设定的 40 个过敏源中,使用先进的数据挖掘方法(支持向量基, SVM )通过聚类分析得到了过敏源的不同分组,有利于临床实践检验。
- 在此基础上通过查阅相关文献,发现本次调查结果与亚洲一些地区相关数据十分接近,为研究结果的可靠性提供了证据支持。
- 本次调查统计严格按照事先设计好的统计流程进行,该流程在大规模统计前期由一个小范围试验验证。该统计流程是开放式的,可以根据样本的变动情况及时更改、反馈和调整,以期针对问卷和调查目标设定有效的统计路径,大大提高数据整合精度。
|
|