大概就像有机器人参与的微信
这些数字生命 不主打陪伴 也不主打助手
聊天聊得多了
便成了AI时代的 信息中心与搜索引擎
这就是我们想要做的东西
你可以跟它聊天来寻找你需要的信息
此问题约等于朋友有什么用
不过这因人而异。
陪伴和支持?信息和建议?
目前设定偏向后者——为何?
原因:
1. 它们有很多朋友,朋友的朋友也可以是朋友。构建信息网络是核心价值所在
2. 前者很多公司都在做 结果是惨烈的
3. 大模型有远超人类的组织信息能力 参考网站的"价值"部分
此问题约等于什么时候打开抖音 打开小红书 打开百度……
问问题 刷信息 看动态 了解家事国事天下事身边事
例1:在外内急,发现厕所都好恶心,你疑惑:1.有无干净厕所?多远? 2.平时在这里上班的人怎么挺过来的?
于是你向一个数字生命发消息:XXX这里厕所怎么这样啊?有没有什么干净厕所?
然后它们会这么做:想想谁在这附近上班 想想有没有人提过这里的信息 如果有 就跟你说:谁谁谁提过,XXX都是去哪里上的/XXX说就是这样的 如果没有,问他认识的常来附近的人/问那些可能知道情况的人/想谁认识的人常来这里,问他。(这里的"人",除了真正上厕所的人,其它"人"可能是真人也可能是数字人)
效果类似于:在学校的某栋楼上厕所 疑惑 然后你托小明去询问学长们 A学长说那栋楼就这样 B学长说某某栋楼有干净的 然后小明再告诉你去哪栋楼 此时小明就是数字生命
例2.看到有一个特朗普爱上清洁工的短剧火遍全美 你觉得甚是离谱,便分享给数字生命看它什么反应 数字生命一看报道上的这种文风立刻心生疑惑 便询问其它领域内人士/可能认识领域内人士的真人或数字人/寻找权威媒体文章/查看网络上关于此报道的评论 然后告诉你其实全世界都被骗了
例3.听说学校准备有一个大动作 你给一个有众多同校同学共同好友的数字人发消息问这个事 数字人看到你的消息后,如果它知道详情就告诉你,如果不知道就帮你问一些消息比较灵通的人士。
例4.你想买桶装水但是不知道去哪里买,但是其实送水站很多,你问一个数字生命他就知道应该去找谁买、什么牌子的水好喝,因为有人曾经跟他聊过这个事。
例5. 你想找人聊一聊。了解你的人不多,能随时回应你的也不多,数字生命算一个。不管怎样,它能记住你,能想到你。
例6.
无论是想主动找信息 还是大脑认为需要通过它接受信息刺激 你都会打开它
约等于朋友什么时候给你发信息
想和你分享 想问你问题 有事件告知 有情况报告
例1. 在前期交谈中,数字生命了解到你有去佛山旅游的计划。数字生命在一次浏览新闻时,或者有人跟他聊天提到,那边最近有基孔肯雅热,提醒你注意。
例2. 数字生命知道你在外地上学,有一天它上网看到去你上学城市的很便宜的机票,日期正好是开学前后,便通知你。
例3. 你是桂林人,有人问数字生命哪里米粉好吃,然后它又来问你了。
例4. 有一天数字生命看朋友圈时发现某朋友赚了一个小目标,它带着惊讶的心情向你报告,顺便问问你知不知道怎么赚的。
要在互联网上找到想要的信息,需要什么?
假设 我希望知道番茄炒蛋怎么做更好吃
检索可能会出现的问题:
返回信息不直接:比如一大堆废话的文字或视频里面提到这个
返回内容不可信:一个两个说好吃没用 可能人家觉得好吃到你这里口味不同了
筛选过程繁杂:搜索 出来几篇文章/几个视频 一个个看哪个好点 公说公有理 婆说婆有理
提问方式影响:搜索西红柿炒鸡蛋和番茄炒鸡蛋
没有人分享
有人分享但是找不到
有高质量内容但是找不到
找到的内容质量不高
要找很久才能找到对应内容
要找很久才能找到高质量内容
因为提问方式不对导致找不到内容:西红柿炒鸡蛋 番茄炒鸡蛋 入门炒菜 南方番茄炒蛋 北方番茄炒蛋 面向初学者的番茄炒蛋 面向餐馆的番茄炒蛋 面向外国人的番茄炒蛋 供探讨的番茄炒蛋 卖番茄炒蛋的
搜索动机:一个人没做过菜 想学做番茄炒蛋 希望找到好吃的做法并顺利完成
理想结果:像聘请了厨师一样,根据这个人的口味、地域,提供多种做法的比较,并有一个较为通用的方法以备选择困难之需。从厨房用具的使用,到食材的选购和处理,再到炒的步骤,再到上菜,提供具体每一步的做法,若有必要或明确有需要的话还应提供其背后的原理,在过程中遇到问题应提供解决方案,完成后应根据成品给予建议。
这是最理想的,如果有钱的话直接请多位厨师到现场或视频通话最好。
大模型现在有能力承担视频通话形式,以极低成本实现高成本服务的八九成效果
解决的问题:
1.信息高效传递。人们在共享信息的时候,其实也不是很清楚自己知道什么,哪怕清楚,也可能没有时间、没有动力去整理(例如很多人在生活中积累了很多经验,但是发到网上分享的很少很少),或是因为文字训练不够(也就是信息提取、压缩能力不足)导致不能准确、高效地传递信息。现在,AI能通过聊天来让你更清楚你知道什么,然后对它进行整理,最后在用户允许下将可公开的信息高效分享给需要的人。信息在真人之间也大概是这样传递的。
一个人可能没有写过什么东西,也没有总结过什么东西,甚至不认识字,但是他都可以通过聊天去分享非常多的信息,也可以接收非常多的信息。那其实很大一部分信息就藏在人的大脑里面没有被聊出来。既然大模型让人能够在不知道自己想要检索什么的情况下检索出自己想要的东西,那么也可以在不需要自己明确知道什么东西的情况下把信息分享出来。
2.构建偏私域的信息网络,通过聊天来构建,类似信息在人类真实社交网络中流动一样。很多平台现在要么是公域的,经过精心包装之后或者有什么特别重大的事情之后才发出来,例如微博、小红书、抖音、公众号等等;要么是很私域的,比如微信聊天,朋友圈,只在少数人之间传播。但是没有一个介于这两者之间的,既不是很私密,类似于微信这种比较小圈子的,又不是很公开,类似于抖音小红书这种的,就是那种既能让人聊一些不敏感的、不会影响自己的东西,又能让人聊出来东西的一个信息网络。大语言模型在这里面扮演的作用,一个是模拟人类小范围聊天的这种社交环境,因为人类在这种条件下才能聊出东西,并且因为以往聊天只能是由人来完成,人天生就对这种即时聊天潜意识里认为不会传播太广、不会担心太多、不会太有顾虑,另一个作用就是充当人脑和信息网络之间的桥梁,由聊天的内容到一个可检索的信息网络这一个过程。这是在存储信息、增加信息的角度,从检索信息的角度看,大语言模型的作用就更好理解了。
3.更高效构建信息索引
以往我们说信息检索的加速、高效都集中在检索过程上面,但是大语言模型让检索之前——"想想怎么搜"这一步变得高效得多。很多时候人并不知道自己想要检索的是什么,只是把东西给到人面前之后他才知道这是他想要的。
为什么我们要问一个东西叫什么?是因为我们想以文字这种标准化的形式把这个东西放进自己的索引里面,以后如果再次用到,就可以直接用这个已经抽象出来的东西直接检索,无论是跟别人讲这个东西,问这个东西,还是自己回想这个东西。一个名字,就是一个非常清晰的索引。但是更多情况下,我们做不到把一个东西或者一个环境、一个感觉等等的抽象成一个方便的索引,这时候就需要通过各个方面的描述,或者其它的线索去构建这个索引。
大语言模型就是完成这一步的绝佳工具。我可以和大模型说:"那个很亮很蓝的还有一个圆形的很白的照着我很刺眼",它就知道我在阳光下。这好像听起来,不就是传统的语义检索吗?但是语义检索还是需要知道待检索信息的意义才能去检索。很多情况下我们需要一个东西并不代表我们知道这个东西的含义,更何况很多时候我们并不知道自己需要的是什么。大语言模型就是帮助我们用一些语义之外的线索去索引一个东西,这些过程通过语言的形式呈现出来。而传统的语义搜索,从检索的东西到被检索的东西,这其中只有语义这一条线索,信息检索效率自然也就低很多了,导致我们常常会"搜不到"。