世界各地的研究人员都在竞相寻找抗击冠状病毒疫情的方法。
他们面临很多挑战,其中之一是关联不同的数据集以建立联系并获得见解。在这项工作中,图形数据科学起着关键作用,使研究人员能够创建有关不同研究的知识图,甚至是冠状病毒感染数据。
Graph数据库供应商Neo4j位于加利福尼亚州圣马特奥市,该公司正在帮助研究人员进行Graph4Good项目,该项目使用Neo4j的同名图形数据库来研究COVID-19–冠状病毒引起的疾病。
4月8日,Neo4j正式发布Neo4j for Graph Data Science系统,该系统结合了Graph Data Science Library、用于可视化的Neo4j Bloom、核心Neo4j图形数据库以及高级支持。
Graph Data Science是Neo4j图形数据库之上的一层,它结合机器学习算法和数据科学来预测和分析关系。德国糖尿病研究中心(称为Deutsches ZentrumfürDiabetesforschung,简称DZD)的数据和知识管理负责人Alexander Jarasch特别喜欢这项功能。
构建COVID-19知识图
DZD研究各种疾病,重点是糖尿病。Jarasch指出,糖尿病患者更容易感染COVID-19以及死亡。
他说:“我们之所以绘制图表,是因为在某些时候,疾病之间是相互联系的。这是我使用Neo4j的最关键的原因之一。”
虽然某些疾病相互关联,但并非所有数据都被连接。Jarasch指出,德国和世界各地的很多科学研究数据都是孤立的。
他说:“因此,我们有一个高度连通的空间,但目前根本没有连通。”
DZD正在使用Neo4j和图形数据库技术来连接多个研究源,而原本它们都是孤立存在。
Jarasch解释说:“对于冠状病毒,我们拥有一个数据集,其中包含超过40,000本出版物,但是没有人能够阅读所有这些出版物。因此,我们制作了一个知识图,以便人们可以自动分析,并从研究文献中学习一些东西。”
图形数据科学和COVID-19
DZD已开始使用Neo4j Graph Data Science Library来处理其原始患者数据,以进行糖尿病研究,现在也准备将其用于COVID-19研究。
Jarasch说:“这个Graph Data Science Library现在是我们的下一步工作,我们已经准备好数据库并且拥有所需的连接。因此,下一步是在图形上运行算法,以找到一些有趣的信息。”
Jarasch将Graph Data Science功能描述为“假设生成器”,以查看某些连接是否可能。他说,他希望研究人员能够在数据集中发现一些以前未发现的连接,关键的挑战是建立相关连接。与任何类型的数据科学一样,数据质量至关重要。
他说:“我没有使用大数据一词;而是在使用智能数据一词。因此,只要你具有相关的数据源,就不必一定是大数据集,然后我们就可以运行一些智能算法来找到新的假设。”
Neo4j Graph Data Science的工作原理
Neo4j公司数据科学首席产品经理Alicia Frame说,Graph Data Science Library使用Neo4j图形数据库中已经存储的数据进行推理并得出见解。
Frame说,核心Neo4j数据库对事务性读写很有用,并且使用户能够进行基于图形的查询。用户带着问题来到数据库,并且知道如何编写查询,这将有助于获得正确的答案。图数据科学库是一个工作空间,用于获取事务图,将其投影到内存中并使用支持图算法执行的优化数据结构。
Frame说:“因此,你可以将其视为类似于机器学习工具,它可以使用存储在Neo4j中的数据。”
Frame表示,她看到Graph Data Science Library可帮助抗击COVID-19的很多关键领域。其中之一是联系人跟踪,并确定感染者的接触者。不过,纽约市这样人口稠密的地方进行联系人跟踪可能会受到限制,因为人们有很多接触者。
Frame说,在纽约,关键需求是对医疗服务提供方的资源分配和预测,而Graph Data Science可以提供帮助。该系统可以使用算法来帮助确定特定的医疗保健提供方何时可能超负荷然后推荐另一个合适的选择。
Frame说:“我可以使用相似性算法,并说,‘我知道此提供方可能会不堪重负,我需要根据全局拓扑为他们找到最佳提供方,以推荐其作为患者社区的替代方案。’”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Java、JDBC和Postgres
现在越来越多的企业开始部署PostgreSQL,为什么呢?当你看到这个许可开源数据库所提供的功能,你就不会对此 […]
-
5个元数据管理最佳实践
在数据驱动的环境中,元数据不仅仅是数据的副产品;还是综合数据治理战略的关键组成部分。企业需要适当的元数据管理, […]
-
Cockroach Labs增加矢量搜索,更新定价选项
Cockroach Labs 近日推出矢量搜索功能,旨在使客户能够访问和操作非结构化数据,以训练生成式人工智能 […]
-
如何使用数据治理成熟度模型
如果没有强大的数据治理,数据就无法产生有价值的见解以及改善决策。数据治理成熟度模型可帮助企业评估当前的成就水平 […]