我正在尝试解决以下问题 - 给定一个包含一堆生物信息的文本文件,找出一个被{上/下调}调节的基因。现在,为此我有许多这样的(60K)文件,并注释了其中一些(1000)个关于哪个基因被{上/下调}调节的文件。
条件-
- 文件中的许多句子都提到了一些基因名称,其中一些还包含相邻文本,可以帮助人们确定这是否确实是正在调节的基因。
- 一些文件也没有基因调制。但这些仍然提到了基因。
示例数据 -
Title: Assessment of Thermotolerance in preshocked hsp70(-/-) and (+/+) cells
Organism: Mus musculus
Experiment type: Expression profiling by array
Summary: From preliminary experiments, HSP70 deficient MEF cells display moderate thermotolerance to a severe heatshock of 45.5 degrees after a mild preshock at 43 degrees, even in the absence of hsp70 protein. We would like to determine which genes in these cells are being activated to account for this thermotolerance. AQP has also been reported to be important.
Keywords: thermal stress, heat shock response, knockout, cell culture, hsp70
Overall design: Two cell lines are analyzed - hsp70 knockout and hsp70 rescue cells. 6 microarrays from the (-/-)knockout cells are analyzed (3 Pretreated vs 3 unheated controls). For the (+/+) rescue cells, 4 microarrays are used (2 pretreated and 2 unheated controls). Cells were plated at 3k/well in a 96 well plate, covered with a gas permeable sealer and heat shocked at 43degrees for 30 minutes at the 20 hr time point. The RNA was harvested at 3hrs after heat treatment
这里我的主要基因是hsp70
它是down-regulated
(可从 hsp(-/-)
或 HSP70 deficient
推导)。还有许多其他基因名称,例如 AQP
。
可能还有另一个根本没有修改基因的文件。事实上,没有实际基因调节的文件比有基因调节的文件更多,并且都包含基因名称提及。
任何想法都会很棒!!
最佳答案
如果您没有 ML 背景,我建议您购买这样的产品 one ,这个one或者这个one 。这些产品的开发时间长达数十年,团队预算高达数百万美元。
你想做的事情没那么简单。例如,许多论文通过首先引用另一篇论文的原始陈述然后否定它来包含否定陈述。在您的示例中,您将如何处理这个问题:
AQP has also been reported to be important by Doe et al. However, this study suggest that this might not be the case.
此外,如果您正在研究大量的生物医学研究论文,或者任何研究论文的语料库。你会发现大量的论文表明某些东西,例如基因是否上调,然后《细胞》杂志上发表了一篇论文,指出以前的所有研究都是错误的。
更糟糕的是,基因/蛋白质名称并不稳定。除了P53这样的一些著名的。有一堆普通的基因最初被认为是一个基因,但后来发现这是两个不同的东西。当这种情况发生时,社区有两种处理方式。要么两个基因都获得新名称(通常在末尾带有一些指示符),要么如果 split 不均匀,则较大的类别保留原始名称,而第二个基因获得新名称。更复杂的是,在这种 split 发生后,并非所有研究人员都能立即收到备忘录,因此仍然有大量出版物使用旧出版物。
这只是两个简单的问题,有数百个。
如果您这样做是为了个人致富。以下是一些建议:
在生物医学论文上构建语言模型。现有的语言模型通常是根据新闻通讯源或社交媒体数据构建的。所有三个语料库都声称是用英语编写的。但实际上这是三种不同的语言,有自己的语法和词汇
研究诸如嵌入和 word2vec 之类的东西。
看看 Kaggle 比赛,这是那里比较流行的话题。
订阅 KDD 和 BIBM 杂志或在附近的图书馆查找。关于这个主题的论文有数百篇。
关于machine-learning - 在生物文本数据中应用机器学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39306525/