韩国科学技术院让机器人变身“动作明星”
近年来,视觉-语言-动作模型成为了机器人领域的新星,它们结合了视觉感知、语言理解和常识知识,为训练通用机器人政策提供了基础。然而,这些模型的性能往往受到底层多模态大语言模型的限制,特别是在需要精确空间推理和时间推理的具体动作生成任务上表现不佳。
近年来,视觉-语言-动作模型成为了机器人领域的新星,它们结合了视觉感知、语言理解和常识知识,为训练通用机器人政策提供了基础。然而,这些模型的性能往往受到底层多模态大语言模型的限制,特别是在需要精确空间推理和时间推理的具体动作生成任务上表现不佳。