首页 > 玄幻 > 开局一个属性面板,肝成无双国士 > 第213章 两天!我只需要两天!

第213章 两天!我只需要两天!

正在同步当前世界的文本数据。

⚡ 自动编译下一节点 阅读到底后自动进入下一段文本
⚡ 开启自动编译下一节点更爽 抵达章尾自动进入下一节点,阅读链路不中断。

  赵阳没有立刻给出答覆,他表情严肃地看著幕布上的基因表达调控网络图,此时他的大脑正在飞速运转。

  在179智商的推演下,结合他lv5的数学和信息学等级,很快,他脑海中构建出了几种处理这种高维度生物数据的数学模型。

  “常规的负二项分布模型处理这种带有大量重复序列的数据,必然会导致方差估计不准。”

  沉默了一会儿之后,赵阳看著顾明教授和周围的眾人,缓缓说出了自己的分析。

  “这种农作物本身的基因组过於庞大,市面上现成的商业生信分析软体,底层的统计算法大多是基於普通的二项分布或者泊松分布。在面对海量重复序列和测序深度不均时,极其容易將背景噪音放大,这就是你们得出几万个假阳性差异基因的根本原因。”

  会议室里的眾人都安静地听著。两个研二的学长连连点头,他们这几天被这些假阳性数据折磨得痛不欲生。

  “我来吧,教授。你把测序的原始数据文件全部拷贝给我。”

  赵阳看著顾明教授,直接给出了最终的解决方案。

  “我回去重新写一个比对和定量算法。不用现成的软体,我直接在底层用隱马尔可夫模型(hmm)和多维主成分分析(pca)结合的方式,对你们的表达量矩阵进行重新聚类。”

  赵阳的语气里带著绝对的自信。

  “隱马尔可夫模型可以通过观察到的测序序列序列状態,推断出隱藏的真实基因表达状態,最大程度滤除测序仪產生的物理噪音。然后用pca降维,剥离次要因素。”

  “我会儘可能地將假阳性的范围压缩到一百个基因以內。然后结合加权基因共表达网络分析,找出连接度最高的hub基因。最多两天时间,我给你们一个个位数的候选基因列表。你们直接拿去打抗体或者做qpcr验证就行了。”

  会议室里安静了下来。

  周围眾人眼神之中都带著不可思议的目光看著赵阳。

  两天?