第213章两天！我只需要两天！

正在同步当前世界的文本数据。

⚡ 自动编译下一节点 阅读到底后自动进入下一段文本

⚡ 开启自动编译下一节点更爽 抵达章尾自动进入下一节点，阅读链路不中断。

&emsp;&emsp;赵阳没有立刻给出答覆，他表情严肃地看著幕布上的基因表达调控网络图，此时他的大脑正在飞速运转。

&emsp;&emsp;在179智商的推演下，结合他lv5的数学和信息学等级，很快，他脑海中构建出了几种处理这种高维度生物数据的数学模型。

&emsp;&emsp;“常规的负二项分布模型处理这种带有大量重复序列的数据，必然会导致方差估计不准。”

&emsp;&emsp;沉默了一会儿之后，赵阳看著顾明教授和周围的眾人，缓缓说出了自己的分析。

&emsp;&emsp;“这种农作物本身的基因组过於庞大，市面上现成的商业生信分析软体，底层的统计算法大多是基於普通的二项分布或者泊松分布。在面对海量重复序列和测序深度不均时，极其容易將背景噪音放大，这就是你们得出几万个假阳性差异基因的根本原因。”

&emsp;&emsp;会议室里的眾人都安静地听著。两个研二的学长连连点头，他们这几天被这些假阳性数据折磨得痛不欲生。

&emsp;&emsp;“我来吧，教授。你把测序的原始数据文件全部拷贝给我。”

&emsp;&emsp;赵阳看著顾明教授，直接给出了最终的解决方案。

&emsp;&emsp;“我回去重新写一个比对和定量算法。不用现成的软体，我直接在底层用隱马尔可夫模型（hmm）和多维主成分分析（pca）结合的方式，对你们的表达量矩阵进行重新聚类。”

&emsp;&emsp;赵阳的语气里带著绝对的自信。

&emsp;&emsp;“隱马尔可夫模型可以通过观察到的测序序列序列状態，推断出隱藏的真实基因表达状態，最大程度滤除测序仪產生的物理噪音。然后用pca降维，剥离次要因素。”

&emsp;&emsp;“我会儘可能地將假阳性的范围压缩到一百个基因以內。然后结合加权基因共表达网络分析，找出连接度最高的hub基因。最多两天时间，我给你们一个个位数的候选基因列表。你们直接拿去打抗体或者做qpcr验证就行了。”

&emsp;&emsp;会议室里安静了下来。

&emsp;&emsp;周围眾人眼神之中都带著不可思议的目光看著赵阳。

&emsp;&emsp;两天？

第213章 两天！我只需要两天！