李飞飞博士解释了为何日常家务对机器人来说难度极高,以及具体难在何处。

6svjszwk

npub1sxgnpqfyd5vjexj4j5tsgfc826ezyz2ywze3w8jchd0rcshw3k6svjszwk

hex

699ed3d7e93b9fafb74720b306cc1227d2daec1710727a362e28b8f424574bd3

nevent

nevent1qqsxn8kn6l5nh8a0karjpvcxesfz05k6ast3qun6xchz3w85y3t5h5cprpmhxue69uhhyetvv9ujuem4d36kwatvw5hx6mm9qgsgryfssyjx6xfvnf2e29cyyur4dv3zp9z8pvchrevtkh3ugthgmdgldg85l

Kind-1 (TextNote)

2026-04-20T11:47:09Z

李飞飞博士解释了为何日常家务对机器人来说难度极高,以及具体难在何处。

“如果你让机器人打开最上层的抽屉,并且小心别碰到花瓶,这对机器人而言其实是一项非常艰巨的任务。”

原因在于机器人必须将语言指令与现实世界对应起来。“上层”“抽屉”“花瓶”这类词汇都是抽象概念,系统需要在复杂多变的场景中,把它们映射到三维空间位置、具体物体以及相互关系上。这就要求机器人具备可靠的感知能力、物体识别能力,以及在不确定环境下的空间推理能力。

同时,机器人也不具备人类的常识。“小心”意味着要预判行为后果、估算空间间隙,并且明白花瓶是易碎物品。如果没有丰富的世界知识作为支撑,想要把这类先验常识——比如抽屉有多重、花瓶可能会倾倒——编码进系统,是极为复杂和困难的。

通过奖励机制学习行为模式也十分困难。这类任务的成功反馈信号非常稀疏,单纯的随机试探几乎不可能完整完成整套正确操作。这会导致策略学习的样本效率极低,且系统稳定性差,尤其是在训练环境与实际应用环境存在差异时。

所谓稀疏奖励场景,是指智能体只有在任务最终完成时才能获得成功反馈,过程中几乎没有任何中间奖励。如果机器人需要打开抽屉且不碰倒花瓶,那么只有在抽屉成功打开、花瓶完好无损的情况下,它才能获得奖励;在此之前的每一次尝试,对学习系统而言都没有区别,奖励值均为0。

原始 JSON

{
  "kind": 1,
  "id": "699ed3d7e93b9fafb74720b306cc1227d2daec1710727a362e28b8f424574bd3",
  "pubkey": "81913081246d192c9a55951704270756b222094470b3171e58bb5e3c42ee8db5",
  "created_at": 1776685629,
  "tags": [
    [
      "alt",
      "A short note: 李飞飞博士解释了为何日常家务对机器人来说难度极高,以及具体难在何处。\n\n“如果你让机器人打开最上层的..."
    ],
    [
      "r",
      "https://通过奖励机制学习行为模式也十分困难。这类任务的成功反馈信号非常稀疏,单纯的随机试探几乎不可能完整完成整套正确操作。这会导致策略学习的样本效率极低,且系统稳定性差,尤其是在训练环境与实际应用环境存在差异时/"
    ],
    [
      "r",
      "https://同时,机器人也不具备人类的常识。“小心”意味着要预判行为后果、估算空间间隙,并且明白花瓶是易碎物品。如果没有丰富的世界知识作为支撑,想要把这类先验常识——比如抽屉有多重、花瓶可能会倾倒——编码进系统,是极为复杂和困难的/"
    ],
    [
      "r",
      "https://原因在于机器人必须将语言指令与现实世界对应起来。“上层”“抽屉”“花瓶”这类词汇都是抽象概念,系统需要在复杂多变的场景中,把它们映射到三维空间位置、具体物体以及相互关系上。这就要求机器人具备可靠的感知能力、物体识别能力,以及在不确定环境下的空间推理能力/"
    ],
    [
      "r",
      "https://所谓稀疏奖励场景,是指智能体只有在任务最终完成时才能获得成功反馈,过程中几乎没有任何中间奖励。如果机器人需要打开抽屉且不碰倒花瓶,那么只有在抽屉成功打开、花瓶完好无损的情况下,它才能获得奖励;在此之前的每一次尝试,对学习系统而言都没有区别,奖励值均为/"
    ],
    [
      "client",
      "Amethyst"
    ]
  ],
  "content": "李飞飞博士解释了为何日常家务对机器人来说难度极高,以及具体难在何处。\n\n“如果你让机器人打开最上层的抽屉,并且小心别碰到花瓶,这对机器人而言其实是一项非常艰巨的任务。”\n\n原因在于机器人必须将语言指令与现实世界对应起来。“上层”“抽屉”“花瓶”这类词汇都是抽象概念,系统需要在复杂多变的场景中,把它们映射到三维空间位置、具体物体以及相互关系上。这就要求机器人具备可靠的感知能力、物体识别能力,以及在不确定环境下的空间推理能力。\n\n同时,机器人也不具备人类的常识。“小心”意味着要预判行为后果、估算空间间隙,并且明白花瓶是易碎物品。如果没有丰富的世界知识作为支撑,想要把这类先验常识——比如抽屉有多重、花瓶可能会倾倒——编码进系统,是极为复杂和困难的。\n\n通过奖励机制学习行为模式也十分困难。这类任务的成功反馈信号非常稀疏,单纯的随机试探几乎不可能完整完成整套正确操作。这会导致策略学习的样本效率极低,且系统稳定性差,尤其是在训练环境与实际应用环境存在差异时。\n\n所谓稀疏奖励场景,是指智能体只有在任务最终完成时才能获得成功反馈,过程中几乎没有任何中间奖励。如果机器人需要打开抽屉且不碰倒花瓶,那么只有在抽屉成功打开、花瓶完好无损的情况下,它才能获得奖励;在此之前的每一次尝试,对学习系统而言都没有区别,奖励值均为0。",
  "sig": "50eb4cd99126cb3735a9bb7498dbd9f5494b4da832ec24b41ad55db2225e7b052b2738f257a8b1a73dd404884f9426db481377f45dd006b235584bd72eeab559"
}