machine-learning - 在生物文本数据中应用机器学习

标签 machine-learning nlp sequence

我正在尝试解决以下问题 - 给定一个包含一堆生物信息的文本文件,找出一个被{上/下调}调节的基因。现在,为此我有许多这样的(60K)文件,并注释了其中一些(1000)个关于哪个基因被{上/下调}调节的文件。

条件-

  • 文件中的许多句子都提到了一些基因名称,其中一些还包含相邻文本,可以帮助人们确定这是否确实是正在调节的基因。
  • 一些文件也没有基因调制。但这些仍然提到了基因。
鉴于此,我想问(完全没有机器学习背景),我应该使用什么序列学习算法/工具来接收我带注释的(训练)数据(可能在以某种方式将文本转换为向量之后!)可以构建一个好的模型,然后在其上测试更多文件吗?

示例数据 -

Title: Assessment of Thermotolerance in preshocked hsp70(-/-) and (+/+) cells

Organism: Mus musculus

Experiment type: Expression profiling by array

Summary: From preliminary experiments, HSP70 deficient MEF cells display moderate thermotolerance to a severe heatshock of 45.5 degrees after a mild preshock at 43 degrees, even in the absence of hsp70 protein. We would like to determine which genes in these cells are being activated to account for this thermotolerance. AQP has also been reported to be important.

Keywords: thermal stress, heat shock response, knockout, cell culture, hsp70

Overall design: Two cell lines are analyzed - hsp70 knockout and hsp70 rescue cells. 6 microarrays from the (-/-)knockout cells are analyzed (3 Pretreated vs 3 unheated controls). For the (+/+) rescue cells, 4 microarrays are used (2 pretreated and 2 unheated controls). Cells were plated at 3k/well in a 96 well plate, covered with a gas permeable sealer and heat shocked at 43degrees for 30 minutes at the 20 hr time point. The RNA was harvested at 3hrs after heat treatment

这里我的主要基因是hsp70它是down-regulated (可从 hsp(-/-)HSP70 deficient 推导)。还有许多其他基因名称,例如 AQP 。 可能还有另一个根本没有修改基因的文件。事实上,没有实际基因调节的文件比有基因调节的文件更多,并且都包含基因名称提及。

任何想法都会很棒!!

最佳答案

如果您没有 ML 背景,我建议您购买这样的产品 one ,这个one或者这个one 。这些产品的开发时间长达数十年,团队预算高达数百万美元。

你想做的事情没那么简单。例如,许多论文通过首先引用另一篇论文的原始陈述然后否定它来包含否定陈述。在您的示例中,您将如何处理这个问题:

AQP has also been reported to be important by Doe et al. However, this study suggest that this might not be the case.

此外,如果您正在研究大量的生物医学研究论文,或者任何研究论文的语料库。你会发现大量的论文表明某些东西,例如基因是否上调,然后《细胞》杂志上发表了一篇论文,指出以前的所有研究都是错误的。

更糟糕的是,基因/蛋白质名称并不稳定。除了P53这样的一些著名的。有一堆普通的基因最初被认为是一个基因,但后来发现这是两个不同的东西。当这种情况发生时,社区有两种处理方式。要么两个基因都获得新名称(通常在末尾带有一些指示符),要么如果 split 不均匀,则较大的类别保留原始名称,而第二个基因获得新名称。更复杂的是,在这种 split 发生后,并非所有研究人员都能立即收到备忘录,因此仍然有大量出版物使用旧出版物。

这只是两个简单的问题,有数百个。

如果您这样做是为了个人致富。以下是一些建议:

  1. 在生物医学论文上构建语言模型。现有的语言模型通常是根据新闻通讯源或社交媒体数据构建的。所有三个语料库都声称是用英语编写的。但实际上这是三种不同的语言,有自己的语法和词汇

  2. 研究诸如嵌入和 word2vec 之类的东西。

  3. 看看 Kaggle 比赛,这是那里比较流行的话题。

  4. 订阅 KDD 和 BIBM 杂志或在附近的图书馆查找。关于这个主题的论文有数百篇。

关于machine-learning - 在生物文本数据中应用机器学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39306525/

相关文章:

python - 在标准化训练数据后使用 sklearn 预测新数据

nlp - winword中汇总功能的背景

python - 如何在单个发布请求中将多个文本字符串发送到谷歌云自然语言API

python - 如何用迭代器修改可迭代对象的元素? IE。如何在 Python 中获取写迭代器?

linux - 将具有序列的文件重命名为新序列

machine-learning - 卷积神经网络中的 "linear projection"是什么

python - 这两行代码有什么区别?机器学习阵列

java - 在 Spring boot App 中获取 h2o MOJO 模型(zip 文件)

python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词?

python - 如何识别数量不断增加且文件名形式相似的文件?