全“数”战“疫”——数据驱动模式如何自我升华

原创 数智大学 火石数智 十七年前,非典席卷而过,逆风远航着,是互联网的桅篷和绳索。今时今日,新冠病毒汹涌而来,人间为祸,终究逃不过,大数据的封锁。——IT战士·火石数智2020开年之际,新型冠状病毒带来的肺炎疫情汹涌而至。疫情突发性高、传染性强、扩散性广、风

原创 数智大学 火石数智

十七年前,

非典席卷而过,

逆风远航着,

是互联网的桅篷和绳索。

今时今日,

新冠病毒汹涌而来,

人间为祸,

终究逃不过,

大数据的封锁。

——IT战士·火石数智

2020开年之际,新型冠状病毒带来的肺炎疫情汹涌而至。疫情突发性高、传染性强、扩散性广、风险性大,防控工作任务艰巨、时间紧迫、形势严峻。在这场疫情阻击战中,大数据、云计算、人工智能等快速发展的新一代信息通信技术加速与交通、医疗、教育等领域深度融合,让疫情防控的组织和执行更加高效,数据驱动也成为了战“疫”的强有力武器。

互联网、大数据、数据挖掘这三者是数据驱动模式的三要素。在抗击COVID-19的战场上,数据战疫全线出击。冰冷的数据不断升华着它的价值:从疫情的全局监控、到网格化的隔离防控,甚至在对疫情研究的指导和舆情的分析上都大有可为。

▲ 流程图:关于数据驱动模式的三要素

数据并不具有生命,但是分析数据却能够赋予其生机。那么数据的价值又是如何挖掘出来的呢?本文将从数据驱动的三大方面应用来分析它在疫情中是如何进行自我升华并发挥出作用的。

定位信息,全局监控

01

手机定位

在抗疫战斗中,我们感受到了太多大数据时代带来的便捷。

比如说:在不清楚自己或者他人是否有流行病学史的时候,只要编辑一条短信,就可以查询一个人(一部手机)是否去过疫情严重的地区。

这是因为只要手机处于开机状态,就会定时地向基站发送定位信息,从而能够积累海量而且全面的数据。利用这些定位数据,通讯运营商就可以将你最近半个月的出行轨迹与疫情风险地图关联起来。

02

防疫健康码

同样,目前各省区使用的健康码也离不开位置信息。它相较于手机定位而言,更有针对性,也有一个更加动态的分级。

例如,杭州使用的健康码,按照人们去过的地区的疫情风险等级分为红、黄、绿这3种码,就像在特殊情况中为人们的通行开设红绿灯一般。虽然基于大数据的健康码看似是“一刀切”,但是它渐渐地从一市到一省再到全国通用,健康码为全局的防控和企业的复工复产提供了很大的参考价值,同时健康打卡和申诉的模式,也可以提高对于人群划分的精准性。

▲ 图示:杭州健康码

03

疑似同乘数据查询

人群的行动轨迹中,地域更换途中乘坐的交通工具同样存在感染风险。通过集成电信运营商、互联网公司、交通部门等单位的信息,大数据可以分析出人员密切接触风险。因此,个人已经可以在一些大的互联网平台上查询到网上公示的疑似病例所乘坐过的火车,飞机或者轨交线路等出行数据甚至还有疑似病例和自身的关联风险。

电力数据,隔离防控

让我们看看国家电网杭州供电公司在滨江区“战疫”期间贡献的几个数字:“近10万户居民”、“超过1000万条电力数据”、“3个场景”、“6套算法模型来精准判断出区域内人员日流动量和分布情况”,可实时监测居家隔离人员以及独居老人等特殊群体,极大地方便了社区人员的登记和服务等相关工作。

从数据的角度来看,这可谓是时空时序数据挖掘的一个经典案例。下面小编尝试从经典机器学习的角度来进行算法模拟。(高能预警:非专业人士理解可能存在困难)

01

数据建模

假设一条用户数据就是7天内(以天为单位)的用电量曲线,而一个具体的场景就是一条特定形状的曲线。

02

相似度衡量

用户曲线和模型曲线是否相似,可以计算对应向量的余弦相似度(Cosine)或者欧式距离。但是有可能家庭人数不同的家庭用电的平均数也不一样,所以数据要先进行归一化(Normalize),公式如下:

Similariy=Cosine(Normlize(用户向量),Normlize(模型向量))

03

实战演练

如下,模型向量代表七天内昨天刚回到家里的两口之家,用户向量1和2为实际用户数据。

模型向量:[ 1. 1. 1. 1. 1. 10. 1.]

用户向量1:[ 2.1 2. 1.9 2.2 2.1 21. 1. ]

用户向量2:[ 2.1 2. 1.9 2.2 2.1 2. 20. ]

归一化前后的三条数据如图:

▲ 归一化前的曲线

▲ 归一化后的曲线

通过公式计算:

模型向量和用户数据1的余弦相似度为0.9986;

模型向量和用户数据2的余弦相似度为0.2369.

如果相似度等于1意味着形状完全相同,实际计算的结果,即0.9986说明用户1很可能昨天刚从外地回到家,建议今晚敲门核查

当然上面分析的其实是讲述了数据挖掘中最基本的相似度概念,而怎么通过海量数据聚类分析来选取最合适的曲线形状并衡量一个特定场景的用电情况才是模型落地关键的一步,这需要算法工程师的反复实践。

同时,我们也可以得知电力大数据应用在疫情人员流动轨迹上是可以帮助各地方、各单位及时识别外来及返工人员带来的风险,助力增产扩能,快速确定供电方案,为政府指导疫情防控提供有价值的数据支撑和决策参考,帮助各地科学、高效地安排复工复产工作。

数说舆情,学术助力

疫情突降,火石数智迅速响应社会,快速搭建“战疫助手平台”并上线了学术模块,旨在通过大数据分析的算法研究,将疫情相关文献进行智能结构化和可视化呈现,让奋战在科研一线的科学人员更快捷高效地获取最新疫情学术信息。希望能为疫情防控贡献一份力量。

12月1号,《柳叶刀》披露首位确诊病例

12月30号,李文亮等医生吹哨

1月6号,世卫组织首次就不明肺炎发布新闻

1月10号,春运开始

1月23号,武汉封城

1月31号,“双黄连事件”

2月1号,国内假期延长,美国使用瑞德西韦治愈首例肺炎患者

2月10号,第一批企业复工

2月26号,境外新增确诊首超中国

1月21号,互联网平台疫情地图首次上线

1月28号,火石疫情供需平台上线

2月9号,互联网平台防控健康码正式上线

2月22号,火石数智战役助手非新冠患者资讯平台上线

2月29号,战役助手学术模块上线AI战”疫“

火石数智的战疫助手学术模块主要分为下面几个部分:

●文献解读

●临床解读

●指南解读

疫情相关的学术研究一旦有了新的进展,互联网上马上会有许多不同的声音和讨论。目前火石数智从ClinicalTrials,中国临床试验中心,PubMed,知网等国内外学术网站整理的临床和文献数据均已实现日更。按以往发生的事件来看,临床的治疗方案更为接近时事热点,如果我们对其关联的疫情相关舆情再进行情感分析,也许能发现一些问题的本质。

Step 1

临床治疗方案的数据研究

对截至2020年3月24号的135篇ClinicalTrials和465篇中国临床试验中心的临床治疗方案进行机器自动分类和医学人员专业复核,最终的汇总治疗方案分类通过词云展示出来的效果如下:

▲ 国外治疗方案(数据来源:数智整理国内外临床数据)

▲ 国内治疗方案(数据来源:数智整理国内外临床数据)

不难发现,国内外专业的临床治疗方案中,常规治疗都是作为保底疗法。在常规治疗的基础上,国内的中药或中西医结合治疗的临床试验占据主流,而国外以抗病毒的临床试验为主。

Step2

主流治疗方案的舆情研究

针对中药或中西医结合治疗、抗病毒治疗两种主流治疗方案,将其和火石国内疫情相关的舆情Elasticsearch数据库中100多万条数据进行深度关联,分别筛选出50107和5364条新闻,每一条新闻都将标题和内容进行分句,筛选出和治疗方案密切相关的语句。

利用hanLP中文分词的NLP分词模式切分语句,然后用TF-IDF算法统计高频关键词重新制作舆情的词云图,让我们再一次直观地感受一下两种主流治疗方案在视觉方面上的不同冲击。

▲ 中药或中西医药结合治疗(数据来源:数智舆情库)

▲ 抗病毒治疗(数据来源:数智舆情库)

以上数据来源都是来自国内社交平台公开的100多家舆情数据。可以看出舆情上中药或中西医结合治疗讨论的比较多的是双黄连,连花清瘟,防治,口服液,抗病毒治疗讨论的比较多的是瑞德西韦,吉利德,法匹拉韦,阿比多尔,抑制,注射液。排除双黄连事件的影响,中药的焦点药物——连花清瘟日前也在中国走向世界的疫情防控中发挥越来越大的作用。

Step3

疫情相关舆情的情感研究

舆情数量不代表口碑,因为数量与口碑并不是正相关的,但是我们可以结合历史时间线和舆情的情感分析一起来看问题。

对Step2中前10000个高频关键词的正负极性的词汇的权重和频次加权计算,并且综合考虑否定关键词,进一步建立算法模型,预测出舆情的正负极性。就如我们在逛网店的时候经常会先看差评,因此我们也先陈列舆情中的差评以展开解释:

1.关于不同治疗方案的舆情总量和负面数量随时间变化的曲线

如果结合历史时间线来看,在2019年12月30号吹哨人爆料后,互联网的“大海”开始荡起一丝波澜,而后到了2020年1月23号武汉封城之际,舆情对治疗方案的讨论就开始暴增,在2020年1月31号的双黄连的夸大宣传以及之后的美国抗病毒药物瑞德西韦的报道都使疫情关联的舆情数量呈大幅度增长趋势。

但是从舆情数量来看,负面舆情和总体的趋势呈正相关,但没有明显的关系。

▲ 不同治疗方案的国内舆情趋势图(数据来源:数智舆情库)

2.关于不同治疗方案的负面和正面舆情比值随时间变化的曲线

去掉早期数据量偏低的影响,从2020年1月20号之后数据总量上来以后,中药和中西医结合治疗方案的负面和正面舆情比值在1.0附近游走,从数据意义上看真的是“褒贬参半”,而且基本上处于抗病毒治疗方案的上方。但是随着国内疫情逐步得到控制,抗病毒方案的负评比例也有几次高于前者。

思考:中药和中西医结合治疗方案的临床试验在国内是占据主流,相关的舆论讨论一直较多,但客观实际上争议却更多,褒贬不一。随着中国抗击疫情逐步交出满意的案卷,我相信在未来,中医将会在更广阔的舞台上发挥巨大的作用。

▲ 不同治疗方案的国内舆情负面和正面对比趋势图(数据来源:数智舆情库)

数据驱动,展望未来

我们有时候担心数据太少,是因为数据总量虽然多,但是可以被算法所训练出来的有价值的样本太少而无法达到理想效果。

我们有时候又担心数据太多,是因为四面八方皆可为战也。每个角度都看似可以分析,但在真正分析的时候往往有些角度根本得不到心中想要的结论,所以在分析的时候尽量找一个合适的切入点展开研究。

如果说数据是核心的“生产资料”,那么数据驱动模式则是源源不断的“生产力”。未来的时代是数据的时代,没有算法是可以脱离数据而单独存在,没有行业可以脱离数据而继续远航。

疫情既是挑战,也蕴含机遇。数据驱动在此次疫情中在多个领域“大显身手”,助力企业恢复“马力”,无不凸显出它本身的重要性。等疫情的阴霾消散,可以期待数据驱动决策将会海阔天空,大有可为,相信数据驱动创造价值与美好未来!

—END—

声明:本文为火石数智-数智大学原创文章,欢迎个人转发分享,网站、公众号等转载需经授权。

数智大学

火石数智内部学习的永动机!学习和创造是我们的信仰,为了更好的提升火石数智全员的专业赋能,我们每周定期举行内外部学习培训,并将数智大学授课系列不定期的分享给大家~

本期讲师:祎聪

评论