怎样才算"看见"?

智能机器人必须要”看见”这个世界,才能在这个世界实现他的各类目标。 那怎么样才算”看见”这个世界呢? 照相机拍下照算”看见”吗? 摄像头录下视频算”看见”吗? 我觉得这都不能算”看见”,只能算记录下了影像信息。 “看见”的结果应该是对所见的场景有足够的理解,使得主体能够采取合理的行动以达到其相应的目标。

这里,相机和摄像头本身都不是主体,只是人类发明的”机械”工具。 因为相机和摄像机没有我们认为的足够有意义的通用目标。 即使相机和摄像头是智能机器人的一部分,相片和视频本身也不能算”看见”,而只能算原始视觉信号。 因为从相片的像素矩阵到机器人理解这个场景还需要很多复杂的信息处理流程。

现在我们来看另外一个场景。

一只小鸟正在院子里的葡萄藤上啄葡萄。 一个小姑娘看见了,从屋内跑出来,大喊着:”走开!走开!你这只馋嘴的小鸟,不要吃我家的葡萄!” 小鸟看见有人来了,赶紧飞走了。

这里,我们可以推断出:小鸟和小姑娘都”看见”了各自目标须要看见的事物,并且都采取了合理的行动来达成各自的目标。

主体 目标 看见什么 可能未看见
小鸟 吃葡萄 葡萄 屋里的小女孩
小姑娘 赶走小鸟 小鸟在吃葡萄
通往葡萄架的路
小鸟飞走了
葡萄藤上成熟的葡萄
小鸟 逃跑 小姑娘跑出来
逃跑的路径无障碍(路径上没看见障碍)
旁边有更多的葡萄

因此,从设计机器人的角度来看,”看见”意味着机器人需要将检测到的环境信号,转换成有效的环境模型,用于实现其目标。

  • 目标包括机器人当前目标和基于当前环境统计的常见目标。
    比如小鸟吃葡萄时,应该选择好了逃跑的路线。
    小姑娘看见小鸟吃葡萄,马上就”看见”了出去的路。
  • 环境模型应该是易于机器人作决策使用的数据结构。
    比如存在什么东西,发生了什么事情,这些事物与目标的关系等等
  • 作为外部检验方式,可以观察机器人:
    利用了哪些事物?
    达成了哪些目标?