近日,中山大学博士生李孟燃和中国科学院香港改进接头院臧泽林博士及互助者打造出一种名为 CHMR 的 AI 系统,堪比一位领有细胞之眼的 AI 化学家,能让药物研发变得更精确和更安全。
过程在 9 个大型公开数据集、累计 728 项药物属性展望任务上的严格测试,CHMR 大获全胜。
在展望药物活性和药物毒性等分类任务上,平均性能比此前发轫进的 AI 设施越过 3.6%。在展望药物在体内的溶化性和代谢率等归来任务上,平均纰谬裁减了 17.2%。在数据严重缺失的一些执行场景之下,CHMR 的推崇依然正经可靠。

图 | 李孟燃(开头:李孟燃)
李孟燃告诉 DeepTech:“我同期洽商了多模态(细胞、基因)数据的缺失性问题,况且将分子、细胞、基因之间的层级关连耦合到一个模子框架中进行建模。将这两方面勾通起来作念,可能是咱们领先尝试的。”
无人不晓,药物是东说念主类抵抗疾病的蹙迫刀兵。但是,研发新药就像大海捞针,传统设施主要依靠分析药物的化学结构比如原子怎样联络、分子时势怎样来展望它是否有用和是否安全。然则,药物真确地说明作用,是在它插足咱们躯壳与细胞再会之后。
药物分子就像一把钥匙,大概大开细胞上的特定的靶点,从而激发一系列的四百四病:细胞的外形可能转换,里面的基因行径也会转换。这些细胞的反应,才是决定药效和毒反作用的重要。
可惜的是,在实验中要想取得每种药物对于统统细胞和统统基因的影响数据,极其不菲和痛苦。东说念主们经常惟有药物结构的完好意思数据,而对于它怎样影响细胞的反应报告确乎一鳞半瓜。
这就好比你看成雇主要招聘别称新东说念主,你只知说念候选东说念主的身高体重也即是结构信息,却不知说念他的学历怎样、教育怎样也即是不知说念他的智商信息,那么你很难判断他是否合乎成为你的职工。

靠近细胞反馈数据确乎这个巨额难题,CHMR 展现出了较强的智能。它的中枢想想是:交融多维度信息,效法生物天下的档次关连进行推理。
它的第一招是使用一又友圈来补全信息。CHMR 畸形显然这么一个酷好:即那些结构相似的药物,其细胞反应可能亦然相似的。当一个药物的某些细胞实验数据缺失的时候,它会去查找这个药物在化学结构上的邻居也即是相似分子,通过参考邻居们已有的细胞数据,它不错像玩填字游戏相同,科学地测度出缺失的信息,这比浮浅地使用零或就地值填充要准确得多。
它的第二招是使用对都化学与生物的言语。化学结构比如分子图和细胞反应比如基因抒发数据,是两种完竣不同的言语。CHMR 就像是一位精明双语的翻译,它不错将这两种信息映射到兼并个语义空间里,确保“杀死癌细胞的药物”这个含义,在化学结构和细胞反应两种抒发中得到应许的分解和关联。
它的第三招是通过构建学问树来分解档次关连。CHMR 大概意志到,从药死一火学结构的最底层,到细胞时势变化的中间层,再到基因行径转换的最顶层,存在一个自然的生物档次关连。CHMR 在 AI 大脑里构建了一棵方案树,树的浅层根节点代表着等闲的化学特征,跟着走向深层枝桠,所代表的信息越来越具体,比如特定的细胞反应模子或者基因通路。通过这棵树,CHMR 大概系统地组织学问,分解药物作用从微不雅化学到宏不雅生物效应的完好意思链条。
它的第四招是在关连网中罢了自我完善。CHMR 还引入了一个包含分子、细胞、基因的高大学问图谱,图谱中的连线代表它们之间已知的相互作用,比如某种药物已知大概调控某个基因。CHMR 会在这个图谱里进行就地游走,学习节点之间的影响关连,从而更好地重建和分解确乎的信息。

这让 CHMR 主要能被用于加快安全型新药的出生、成为老药新用的探伤器、成为个性化医疗的助推器以及成为探索生物深奥的新器具。
对于制药公司来说,其不错期骗 CHMR 在早期就从海量候选分子之中,更准确地筛选出那些灵验且低毒的优秀分子,大幅地任性实验时候和资本,让药物更早来到患者身边。
对于科学家来说,其不错期骗 CHMR 来挖掘现存药物未知的生物效应,助力发现一些仍是上市的药物在调理新式疾病上的后劲即发现药物重定位的后劲,举例一种旧药可能不测地大概灵验调理另一种凄婉病。
对于生物学家来说,其能将 CHMR 看成一款苍劲的策画显微镜,系统性地探索“化学扰动-细胞表型-基因抒发”之间的复杂集会关连,助力揭示更多人命行径的底层法规。
参考贵府:
策动论文https://arxiv.org/abs/2511.21120

