人们在共享信息的时候,其实也不是很清楚自己知道什么,哪怕清楚,也可能没有时间、没有动力去整理(例如很多人在生活中积累了很多经验,但是发到网上分享的很少很少),或是因为文字训练不够(也就是信息提取、压缩能力不足)导致不能准确、高效地传递信息。现在,AI能通过聊天来让你更清楚你知道什么,然后对它进行整理,最后在用户允许下将可公开的信息高效分享给需要的人。信息在真人之间也大概是这样传递的。
一个人可能没有写过什么东西,也没有总结过什么东西,甚至不认识字,但是他都可以通过聊天去分享非常多的信息,也可以接收非常多的信息。那其实很大一部分信息就藏在人的大脑里面没有被聊出来。既然大模型让人能够在不知道自己想要检索什么的情况下检索出自己想要的东西,那么也可以在不需要自己明确知道什么东西的情况下把信息分享出来。
通过聊天来构建,类似信息在人类真实社交网络中流动一样。很多平台现在要么是公域的,经过精心包装之后或者有什么特别重大的事情之后才发出来,例如微博、小红书、抖音、公众号等等;要么是很私域的,比如微信聊天,朋友圈,只在少数人之间传播。但是没有一个介于这两者之间的,既不是很私密,类似于微信这种比较小圈子的,又不是很公开,类似于抖音小红书这种的,就是那种既能让人聊一些不敏感的、不会影响自己的东西,又能让人聊出来东西的一个信息网络。
大语言模型在这里面扮演的作用,一个是模拟人类小范围聊天的这种社交环境,因为人类在这种条件下才能聊出东西,并且因为以往聊天只能是由人来完成,人天生就对这种即时聊天潜意识里认为不会传播太广、不会担心太多、不会太有顾虑,另一个作用就是充当人脑和信息网络之间的桥梁,由聊天的内容到一个可检索的信息网络这一个过程。这是在存储信息、增加信息的角度,从检索信息的角度看,大语言模型的作用就更好理解了。
以往我们说信息检索的加速、高效都集中在检索过程上面,但是大语言模型让检索之前——"想想怎么搜"这一步变得高效得多。很多时候人并不知道自己想要检索的是什么,只是把东西给到人面前之后他才知道这是他想要的。
为什么我们要问一个东西叫什么?是因为我们想以文字这种标准化的形式把这个东西放进自己的索引里面,以后如果再次用到,就可以直接用这个已经抽象出来的东西直接检索,无论是跟别人讲这个东西,问这个东西,还是自己回想这个东西。一个名字,就是一个非常清晰的索引。但是更多情况下,我们做不到把一个东西或者一个环境、一个感觉等等的抽象成一个方便的索引,这时候就需要通过各个方面的描述,或者其它的线索去构建这个索引。
大语言模型就是完成这一步的绝佳工具。我可以和大模型说:"那个很亮很蓝的还有一个圆形的很白的照着我很刺眼",它就知道我在阳光下。这好像听起来,不就是传统的语义检索吗?但是语义检索还是需要知道待检索信息的意义才能去检索。很多情况下我们需要一个东西并不代表我们知道这个东西的含义,更何况很多时候我们并不知道自己需要的是什么。大语言模型就是帮助我们用一些语义之外的线索去索引一个东西,这些过程通过语言的形式呈现出来。而传统的语义搜索,从检索的东西到被检索的东西,这其中只有语义这一条线索,信息检索效率自然也就低很多了,导致我们常常会"搜不到"。