夏日炎炎,海南三亚崖州湾,田间的南繁季已结束,而“数据田”里的育种仍在进行。走进海南大学南繁学院,基因组与大数据育种实验室里,不见培养皿与种苗圃,映入眼帘的是运转不息的机房。
“我们的‘田’就在这里。”指着数据机房,副院长夏志强介绍,团队研发的人工智能(AI)生物信息科学家智能体与大模型,能在虚拟农田里“算”出作物长什么样,帮育种科研人员节省时间。
田间南繁,须守农时。每年9月到次年5月,北方的育种科研人员便如候鸟一般来到海南岛南部,利用充足的光热资源开展种子加代繁育,压缩育种周期。选种、种植、收获,重复6到7轮、花上8到10年,才能找出性状稳定、表现优良的品种。
“我们将积累的作物基因数据‘喂’给AI,让它帮我们预测作物未来的样子,就能提前淘汰掉不合格的品种。”夏志强说,在满足一定条件下,相关技术能帮育种人员节约近一半的时间。而要预测作物未来的样子,读懂“说明书”、迅速开展基因测序是关键。
实验室的孔板里,放着打碎的玉米叶片。经由设备提取分析,玉米的脱氧核糖核酸(DNA)信息被输入电脑中。打开AI科学家助手的对话框,输入指令,不一会儿,一份基因功能鉴定报告便在屏幕上呈现。1个人3天的工作量,AI科学家助手用5个小时就能完成。
毗邻南繁基地的优势,让实验室能更便利地获取包括水稻、玉米、大豆等作物样本。与企业合作开发的快速测序技术,让丰富的样本转化为海量的基因数据,成为滋养AI进化的沃土。育种人员只需在对话框内输入需求,就能快速获得精准的分析结果。
AI智能体当助手,大模型当上了翻译。今年5月,团队发布了首个水稻泛基因组大模型。通过阅读149份高质量水稻的“生命说明书”,这一大模型像学习一门新语言一样,理解了水稻DNA序列的内在规律。
“这片‘田’,不求大水漫灌,而是精准滴灌。我们选择了一条小而精的轻量化路线。”夏志强介绍,水稻泛基因组大模型将词元词表规模做了压缩,同参数量数十亿的多物种模型相比,7亿参数的设置让大模型“轻装上阵”。
按下回车,水稻泛基因组大模型开始思索:能读懂已有的DNA序列,也能弄懂语法进行“续写”;能标注基因功能、预测虚拟农田里的水稻将长成什么样,也能根据水稻的样子,反向推导出基因排布……高效的计算工具,让水稻能在试验田生长之前,先在代码里“自由舒展”。
“不仅仅是作物基因数据,我们还去新疆等地收集了气象等大数据,能给这片‘田’造出小气候。”夏志强说。未来,在种子播入田间之前,可借助大模型在虚拟空间中进行千万次模拟,从而精准锁定最具潜力、最能适应环境变化的“种子选手”。