洛桑联邦理工学院的研究人员开发了一种新的、独特的模块化机器学习模型,用于灵活的决策。它能够输入任何模式的文本、视频、图像、声音和时间序列,然后输出任意数量或组合的预测。
我们都听说过大型语言模型(LLM)——在大量文本上训练的大规模深度学习模型,构成了OpenAI的ChatGPT等聊天机器人的基础。下一代多模态模型(MM)可以从文本以外的输入中学习,包括视频、图像和声音。
创建较小规模的MM模型提出了重大挑战,包括对非随机缺失信息的鲁棒性问题。这是模型所没有的信息,通常是由于资源可用性存在偏差。因此,确保模型在做出预测时不会学习有偏差的缺失模式至关重要。
MultiModN扭转了局面
针对这个问题,来自EPFL计算机与通信科学学院教育机器学习(ML4ED)和机器学习与优化(MLO)实验室的研究人员开发并测试了与大型语言模型完全相反的模型。
MultiModN由MLO和耶鲁大学医学院联合主办的智能全球健康技术实验室负责人Mary-AnneHartley教授和ML4ED负责人TanjaKäser教授牵头,是一种独特的模块化多模式模型。它最近在NeurIPS2023会议上发布,有关该技术的论文已发布在arXiv预印本服务器上。
与现有的多模态模型一样,MultiModN可以从文本、图像、视频和声音中学习。与现有的MM不同,它由任意数量的较小、独立且特定于输入的模块组成,可以根据可用信息进行选择,然后以任意数量、组合或类型的输入序列串在一起。然后它可以输出任意数量的预测或预测的组合。
“我们在十项现实世界任务中评估了MultiModN,包括医疗诊断支持、学业成绩预测和天气预报。通过这些实验,我们相信MultiModN是第一个本质上可解释、抗MNAR的多模态建模方法,”VinitraSwamy解释道,博士学位ML4ED和MLO的学生,也是该项目的联合第一作者。
第一个用例:医疗决策
MultiModN的第一个用例将是作为资源匮乏环境中医务人员的临床决策支持系统。在医疗保健领域,临床数据经常缺失,可能是由于资源限制(患者无力承担测试)或资源丰富(由于执行了更好的测试而导致测试冗余)。MultiModN能够从现实世界的数据中学习,而不采用其偏差,并根据任何输入组合或数量调整预测。
Hartley解释道:“缺失是资源匮乏环境中数据的一个标志,当模型学习这些缺失模式时,它们可能会将偏差编码到预测中。面对不可预测的可用资源时对灵活性的需求正是MultiModN的灵感所在。”也是一名医生。
从实验室到现实生活
然而,发布只是实施的第一步。Hartley一直与洛桑大学医院(CHUV)和伯尔尼大学医院Inselspital的同事合作,开展临床研究,重点关注资源匮乏环境下的肺炎和结核病诊断,他们正在南非、坦桑尼亚、纳米比亚和贝宁招募数千名患者。
研究团队开展了大规模的培训活动,教导100多名医生系统地收集图像和超声视频等多模态数据,以便训练MultiModN对来自资源匮乏地区的真实数据敏感。
CHUV的传染病医生NoémieBoillat-Blanco博士说:“我们正在收集MultiModN旨在处理的复杂多模态数据。”伯尔尼大学医院Inselspital的KristinaKeitel博士补充道:“我们很高兴看到一个模型能够认识到我们环境中资源缺失的复杂性以及常规临床评估系统性缺失的复杂性。”
MultiModN的开发和培训是EPFL努力的延续,旨在使机器学习工具适应现实并服务于公众利益。它是在Meditron推出后不久推出的,Meditron是世界上表现最好的开源法学硕士,也旨在帮助指导临床决策。