斯坦福毕业 用RL做Agent 华人创业团队种子:{轮融资}1200万美|元

2025-07-22 02:15:34      来源:人民网文旅体育

机器之心原创

PokeeAI公开测试版现已正式上线!

「哈喽,可以听到吗?」北京时间上午10点,大洋彼岸的Pokee.ai创始人朱哲清接通了我们的连线电话,此刻他正位于美国西海岸,当地时间为前一日晚上7点。

用他的话说最近的状态就是「忙」,非常忙。忙着发布Agent产品PokeeAI的公开测试版,忙着处理第一轮融资的各种后续事宜,忙着对核心4人组团队「扩张」至7人,忙里偷闲在小红书庆祝自己29岁生日,并在评论下认真回复网友提问……

「忙」,或许不是从最近开始的,往前数200多天,那时候也「忙」。忙着成立Pokee.ai,忙着与100多位投资人聊如何用强化学习模型构建AIAgent,忙着准备产品内测。

再往前数到2017年,依旧是「忙」。一边忙着在斯坦福攻读强化学习方向博士学位。一边忙着在Meta工作,带领团队将强化学习落地到广告竞价、自动内容生成等业务,为公司带来高额增收。

朱哲清似乎已经习惯了「忙」。可他说,创业虽然忙,但有了更多的时间去思考,这是一种全新的体验……

创业是从去年10月开始的,公司名为Pokee.ai,取自「小口袋」之意,寓指做一个轻便、决策能力强、随叫随到解决问题的模型。公司整体定位是聚焦于开发一款交互式、个性化、高效的AIAgent。

但较之主流以LLM为核心的AIAgent构建方式,Pokee.ai是以RL为核心,用朱哲清的话说,在Pokee的架构中,LLM主要是充当人机交互界面,类似「UI层」,用以理解用户意图,而真正决策、执行任务的全都是基于RL结构完成。

但那是去年10月,OpenAI还没有发布o1,将RL推向大众,DeepSeek也还没有引起全球狂欢。

在与大多数的投资人聊的时候,他们都觉得Pokee.ai这个方向是天方夜谭……如今,它已经慢慢从「非共识」变成了「共识」,而Pokee.ai也迈进新阶段。

最新消息,Pokee.ai完成1200万美元种子轮融资,由Point72Ventures领投,PokeeAI的公开测试版现已上线。

本周,在Pokee正式公测前,《机器之心》与朱哲清聊了聊,以下为对话内容:

机器之心:Pokee.ai去年10月成立,如今产品正式公测、完成种子轮融资,这样的节奏在你预期内吗?

朱哲清:整体节奏比较快,去年10月Pokee.AI成立,从概念验证,到通用Agent框架搭建,再到如今产品公测和融资宣布,其实也才7个多月。之前定的目标是,今年上半年最重要的是做完产品第一轮公测、拿到种子轮融资,现在全部完成,总体来说符合预期。

与Meta相比,节奏大概会快4—5倍,对我来说生活和工作节奏没有太大变化,甚至有更多时间去思考。我之前工作时同步在读博士,那时候特别忙,一周可能要工作100多个小时,现在还是100多个小时,但思考的时间变多了。

机器之心:你做的事情其实很少有人做,你印象中投资人问的最多的问题是什么?

朱哲清:刚开始和投资人聊的时候,总体感受就是他们不理解为什么要用一个跟别人不一样的方式去做Agent,那时候RL又不火、DeepSeek也没出来。当我第一次跟投资人说我们最终想做的是让一个RLSystem变成一个像通用操作系统一样的东西时,他们都觉得这是天方夜谭。

机器之心:说到做AIAgent的初衷,你曾说Pokee.AI做的是「目标不是像人一样完成任务,而是超过人类在某些任务中的策略选择和规划能力。」这是不是现在很火的ASI概念?

朱哲清:我觉得ASI与AGI的定义范畴其实很模糊,从某种意义上来说,我们可能已经实现了ASI,如果给你一个100万Token的文章,人类要读很久才能把它读完,而模型只需要几秒或几十秒钟就完成了,那从这个角度来说它已经SuperHumanIntelligence。

我们距离Agent「ChatGPT时刻」还有多远?

机器之心:在你看来,一个通用Agent应该具备哪些特点?

朱哲清:一个通用Agent的核心能力在于,不管是在什么场景下,要解决什么问题,只要把prompt告诉它,它就可以把任务完成,而不需要事先去配置要用哪些工具。

我们的设想是,客户给到一个prompt,说这是我要做的事情需求,这家公司或者开发者不需要处理,直接将prompt「扔」给Pokee,Pokee就根据prompt调用对应工具,把问题解决,将结果直接传回给公司或开发者,之后后者可以把内容用更好的展现形式反馈会给客户。

机器之心:可以理解为这是AIAgent的「ChatGPT时刻」吗?现在处于什么阶段?

朱哲清:是的,这是一个完完全全不需要人为配置的AIAgent,也是我们的最终设想。现在的AIAgent需要的(工具)配置量很大,要匹配MCPServer、找工具,而在prompt下面可以加的工具很有限,也不能拼命加,那总体的训练量就很大。

机器之心:所以当时创业是因为看到这些局限性,Pokee.ai是如何做的?

朱哲清:我们想做的就是如何能够让第三方开发者在几乎不需要做任何开发的情况下完成AIAgent的搭建,不管是NoCode还是LowCode。NoCode是指Pokee直接跑一个prompt,得到工作流后,直接复制粘贴给无数个场景下面;LowCode,是指别人通过我们的接口把他们想要解决的问题以Prompt形式传过来,从而把问题解决了,也不用告诉我们要用什么工具。

机器之心:以RL为核心的AIAgent和以LLM为核心的AIAgent的差异性在哪里?

朱哲清:首先,当下的很多LLM也用强化学习,而我们做的强化学习模型的工具调用范围和常规LLM模型的工具调用范围不一样,具体来说是动作空间(ActionSpace)的区别,就是LLM模型的动作空间只有Token,而强化学习模型的动作空间可能不是Token,是那些工具,直接通过工具本身的泛化性来完成对于AIAgent的搭建。

机器之心:在你对通用Agent的描述中,对prompt的要求很高,但似乎并不是每个人都会提问题,如何看待这一现象?

朱哲清:是的,现在用户在使用Pokee的时候也会遇到这个问题,已经把prompt给你了,可为什么你写出来的东西不是我想要的?关键就在于,用户给的prompt可能并不是他们的真正意图,想做的和说的是两回事。

该如何理解意图就叫做对齐(Alignment),这件事情非常难,因为没有一个GroundTruth,每个人说话方式都不一样。如果真的想要找到GroundTruth,说用户一定指的是这件事情,那必须要通过和这个人的长期Memory联系起来才能够找到。

如果我来评判这条路径上该怎么走,就是先要能够解决问题,之后把用户的非训练数据进行个性化(personalization),然后要去理解、对齐。大概就是三步走——决策能力、对于Memory的personalization、Alignment。

机器之心:能否举例说一下?

朱哲清:比如之前投资人在试用我们产品时,写了一个Prompt——能不能帮我draft一个LinkedInPost?那这个「draft」的意思到底是「单纯帮我写好但不要发出去」还是「帮我写好并直接发出去」?

要想了解他的真正意图就需要去看过往给他的员工或者同事说这句话的时候,他会怎么说,以及后者的回复,通过他们之间的交互来确认他说「draft」的意思。这是很复杂的一件事情,需要非常个性化的Memory才能完成。

机器之心:那当前处于哪一步?

朱哲清:整个行业第一步都还没做完,更别说二、三步了(笑)。

机器之心:基于此,该怎么做?

朱哲清:我觉得这是一个很有意义也非常前瞻的问题,但从商业化角度来说,这不是第一优先级,最先聚焦的应该是能不能解决问题?先把问题解决了,然后再往下探索能不能更好地理解(问题)。

机器之心:据了解,Pokee的架构是,将小型LLM作为人机交互界面,类似「UI层」,用于理解用户意图,而真正决策、执行任务的全部基于强化学习结构来完成。基于这一理解,其实你们对于prompt的要求很高?

朱哲清:对,这就复杂得多了,所以我一直说,LLM做得越好,我们就能做得越好。虽然我们是将RL而非LLM作为AIAgent核心,但我们与LLM并非竞争关系,如果纯语言方向不能变得更好,我们也会有瓶颈,根本无法完全完整地理解用户到底要说什么。

创业,一个孤独的漫长旅程

机器之心:从离开Meta开始创业到现在有大半年时间,你觉得工作和创业有什么区别,最大的感受是什么?

朱哲清:区别很大,期间也有过挣扎,但不是因为时间管理、劳累,而是创业本身是一条很模糊的路,或者说本来就没有路,你想走成什么样,它就是什么路。作为公司CEO,看似有很大的话语权,你说要往哪走就往哪走,但实际上能做的决策数量有限,要对公司、大家负责。

在大公司不一样,可以做无数次决策,甚至可以换组,这个东西做不下去就换个方向。

机器之心:据了解,团队从成立到今年4、5月份一直是四人核心配置,现在有多少人?有没有考虑扩张?

朱哲清:目前团队有7个人,接下来还会招两三个人,但是大概率在收入规模扩大前不会将团队配置超过10个人。

机器之心:所以也可以说AI时代的创业更为「轻量级」?

朱哲清:是的,AI时代,模型、产品打磨各方面其实用不了很多人,人多了,反而做事情会蹑手蹑脚。

机器之心:你们办公室位于哪里?日常工作状态是怎样的?

朱哲清:我们没有办公室。

机器之心:那平时开会也是线上?

朱哲清:全部线上,因为有人在西雅图,有人在湾区,还有人在新加坡,都不在一起。另外我们都是Meta出身,习惯了远程办公,即便没有办公室,效率也挺高,而且还能兼顾生活。现在,我们每天线上开一个会,要做什么,大家一起讨论决定。

  阿里巴巴向《环球时报》记者提供的数据显示,郑钦文的球拍、潘展乐的泳镜……这些冠军同款装备已登上淘宝热搜,卖爆天猫。其中郑钦文夺冠同款网球拍高居淘宝热搜第一名。自8月3日郑钦文夺冠至8月5日樊振东夺冠,其间超200万人在天猫搜索了“小球”品类相关商品,其中网球相关装备搜索量同比增长300%,“郑钦文同款”专业网球拍V14,48小时内收到了超4万人的问询,超3000人加购,成交量同比暴涨超2000%,成为天猫网球类目成交TOP1商品。不仅如此,就连郑钦文夺冠现场教练穿的“加油服”也火出圈。

责编:刘惜萍编辑

投资者纷纷抛售风险资产

  李鹏新严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予李鹏新开除党籍处分;由国家监委给予其开除公职处分;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

身价亿美元富豪捐精生超百名子女

  反观乌鲁木齐,偏居西北一隅的位置,为向西开放提供了便利。李瀚明指出,与乌鲁木齐类似的其实是哈萨克斯坦阿拉木图,两座城市都位于亚欧航路的中间点。利用空客A321XLR这样的远程窄体机,阿拉木图成功开航伦敦。在国内,乌鲁木齐是唯一一个用窄体机能直飞欧洲的航空枢纽。

伊朗宣布中东美军为合法目标

  连日来,河南多地持续高温出现不同程度旱情,引发关注。目前河南情况如何?当地采取了哪些抗旱措施?国家对抗旱又有何举措?一文速览。

一组数据看懂中国外资吸引力

  钟自然严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律,构成严重职务违法并涉嫌受贿、故意泄露国家秘密犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。

特朗普称打击伊朗处核设施

  阿里巴巴向《环球时报》记者提供的数据显示,郑钦文的球拍、潘展乐的泳镜……这些冠军同款装备已登上淘宝热搜,卖爆天猫。其中郑钦文夺冠同款网球拍高居淘宝热搜第一名。自8月3日郑钦文夺冠至8月5日樊振东夺冠,其间超200万人在天猫搜索了“小球”品类相关商品,其中网球相关装备搜索量同比增长300%,“郑钦文同款”专业网球拍V14,48小时内收到了超4万人的问询,超3000人加购,成交量同比暴涨超2000%,成为天猫网球类目成交TOP1商品。不仅如此,就连郑钦文夺冠现场教练穿的“加油服”也火出圈。

小腿后面突然开始收紧

  2013年,早在“一带一路”倡议提出时,对新疆的定位是:丝绸之路经济带上重要的交通枢纽、商贸物流和文化科教中心,打造丝绸之路经济带核心区。对陕西、甘肃、宁夏、青海的定位则为:面向中亚、南亚、西亚国家的通道、商贸物流枢纽、重要产业和人文交流基地。/p>

男方资助女子近万留学分手后索回

  张先生告诉《环球时报》记者,近年来走入网球馆和网球场的人越来越多,这一现象在郑钦文夺冠后更加明显,其中尤以青少年人群为多。/p>

那尔那茜涉嫌高考报名材料造假

  李瀚明进一步分析,西安接近中国的几何中心,这样的地理位置飞国内任何地方都很便利。加上西安产业发达,又是旅游胜地,这些因素让西安国内客流常年处于高位,间接影响了打造国际枢纽的必要性。此外,也是因为接近国内几何中心,西安无论哪个方向的洲际航线,都得使用宽体机。二线枢纽用宽体机飞国际线,往往存在客流不足、上座率不高的情况。