斯坦:福毕业 用RL做Agent 华人创业团队种子轮融资120、0万美元

2025-07-21 06:25:40      来源:株洲新闻网

机器之心原创

PokeeAI公开测试版现已正式上线!

「哈喽,可以听到吗?」北京时间上午10点,大洋彼岸的Pokee.ai创始人朱哲清接通了我们的连线电话,此刻他正位于美国西海岸,当地时间为前一日晚上7点。

用他的话说最近的状态就是「忙」,非常忙。忙着发布Agent产品PokeeAI的公开测试版,忙着处理第一轮融资的各种后续事宜,忙着对核心4人组团队「扩张」至7人,忙里偷闲在小红书庆祝自己29岁生日,并在评论下认真回复网友提问……

「忙」,或许不是从最近开始的,往前数200多天,那时候也「忙」。忙着成立Pokee.ai,忙着与100多位投资人聊如何用强化学习模型构建AIAgent,忙着准备产品内测。

再往前数到2017年,依旧是「忙」。一边忙着在斯坦福攻读强化学习方向博士学位。一边忙着在Meta工作,带领团队将强化学习落地到广告竞价、自动内容生成等业务,为公司带来高额增收。

朱哲清似乎已经习惯了「忙」。可他说,创业虽然忙,但有了更多的时间去思考,这是一种全新的体验……

创业是从去年10月开始的,公司名为Pokee.ai,取自「小口袋」之意,寓指做一个轻便、决策能力强、随叫随到解决问题的模型。公司整体定位是聚焦于开发一款交互式、个性化、高效的AIAgent。

但较之主流以LLM为核心的AIAgent构建方式,Pokee.ai是以RL为核心,用朱哲清的话说,在Pokee的架构中,LLM主要是充当人机交互界面,类似「UI层」,用以理解用户意图,而真正决策、执行任务的全都是基于RL结构完成。

但那是去年10月,OpenAI还没有发布o1,将RL推向大众,DeepSeek也还没有引起全球狂欢。

在与大多数的投资人聊的时候,他们都觉得Pokee.ai这个方向是天方夜谭……如今,它已经慢慢从「非共识」变成了「共识」,而Pokee.ai也迈进新阶段。

最新消息,Pokee.ai完成1200万美元种子轮融资,由Point72Ventures领投,PokeeAI的公开测试版现已上线。

本周,在Pokee正式公测前,《机器之心》与朱哲清聊了聊,以下为对话内容:

机器之心:Pokee.ai去年10月成立,如今产品正式公测、完成种子轮融资,这样的节奏在你预期内吗?

朱哲清:整体节奏比较快,去年10月Pokee.AI成立,从概念验证,到通用Agent框架搭建,再到如今产品公测和融资宣布,其实也才7个多月。之前定的目标是,今年上半年最重要的是做完产品第一轮公测、拿到种子轮融资,现在全部完成,总体来说符合预期。

与Meta相比,节奏大概会快4—5倍,对我来说生活和工作节奏没有太大变化,甚至有更多时间去思考。我之前工作时同步在读博士,那时候特别忙,一周可能要工作100多个小时,现在还是100多个小时,但思考的时间变多了。

机器之心:你做的事情其实很少有人做,你印象中投资人问的最多的问题是什么?

朱哲清:刚开始和投资人聊的时候,总体感受就是他们不理解为什么要用一个跟别人不一样的方式去做Agent,那时候RL又不火、DeepSeek也没出来。当我第一次跟投资人说我们最终想做的是让一个RLSystem变成一个像通用操作系统一样的东西时,他们都觉得这是天方夜谭。

机器之心:说到做AIAgent的初衷,你曾说Pokee.AI做的是「目标不是像人一样完成任务,而是超过人类在某些任务中的策略选择和规划能力。」这是不是现在很火的ASI概念?

朱哲清:我觉得ASI与AGI的定义范畴其实很模糊,从某种意义上来说,我们可能已经实现了ASI,如果给你一个100万Token的文章,人类要读很久才能把它读完,而模型只需要几秒或几十秒钟就完成了,那从这个角度来说它已经SuperHumanIntelligence。

我们距离Agent「ChatGPT时刻」还有多远?

机器之心:在你看来,一个通用Agent应该具备哪些特点?

朱哲清:一个通用Agent的核心能力在于,不管是在什么场景下,要解决什么问题,只要把prompt告诉它,它就可以把任务完成,而不需要事先去配置要用哪些工具。

我们的设想是,客户给到一个prompt,说这是我要做的事情需求,这家公司或者开发者不需要处理,直接将prompt「扔」给Pokee,Pokee就根据prompt调用对应工具,把问题解决,将结果直接传回给公司或开发者,之后后者可以把内容用更好的展现形式反馈会给客户。

机器之心:可以理解为这是AIAgent的「ChatGPT时刻」吗?现在处于什么阶段?

朱哲清:是的,这是一个完完全全不需要人为配置的AIAgent,也是我们的最终设想。现在的AIAgent需要的(工具)配置量很大,要匹配MCPServer、找工具,而在prompt下面可以加的工具很有限,也不能拼命加,那总体的训练量就很大。

机器之心:所以当时创业是因为看到这些局限性,Pokee.ai是如何做的?

朱哲清:我们想做的就是如何能够让第三方开发者在几乎不需要做任何开发的情况下完成AIAgent的搭建,不管是NoCode还是LowCode。NoCode是指Pokee直接跑一个prompt,得到工作流后,直接复制粘贴给无数个场景下面;LowCode,是指别人通过我们的接口把他们想要解决的问题以Prompt形式传过来,从而把问题解决了,也不用告诉我们要用什么工具。

机器之心:以RL为核心的AIAgent和以LLM为核心的AIAgent的差异性在哪里?

朱哲清:首先,当下的很多LLM也用强化学习,而我们做的强化学习模型的工具调用范围和常规LLM模型的工具调用范围不一样,具体来说是动作空间(ActionSpace)的区别,就是LLM模型的动作空间只有Token,而强化学习模型的动作空间可能不是Token,是那些工具,直接通过工具本身的泛化性来完成对于AIAgent的搭建。

机器之心:在你对通用Agent的描述中,对prompt的要求很高,但似乎并不是每个人都会提问题,如何看待这一现象?

朱哲清:是的,现在用户在使用Pokee的时候也会遇到这个问题,已经把prompt给你了,可为什么你写出来的东西不是我想要的?关键就在于,用户给的prompt可能并不是他们的真正意图,想做的和说的是两回事。

该如何理解意图就叫做对齐(Alignment),这件事情非常难,因为没有一个GroundTruth,每个人说话方式都不一样。如果真的想要找到GroundTruth,说用户一定指的是这件事情,那必须要通过和这个人的长期Memory联系起来才能够找到。

如果我来评判这条路径上该怎么走,就是先要能够解决问题,之后把用户的非训练数据进行个性化(personalization),然后要去理解、对齐。大概就是三步走——决策能力、对于Memory的personalization、Alignment。

机器之心:能否举例说一下?

朱哲清:比如之前投资人在试用我们产品时,写了一个Prompt——能不能帮我draft一个LinkedInPost?那这个「draft」的意思到底是「单纯帮我写好但不要发出去」还是「帮我写好并直接发出去」?

要想了解他的真正意图就需要去看过往给他的员工或者同事说这句话的时候,他会怎么说,以及后者的回复,通过他们之间的交互来确认他说「draft」的意思。这是很复杂的一件事情,需要非常个性化的Memory才能完成。

机器之心:那当前处于哪一步?

朱哲清:整个行业第一步都还没做完,更别说二、三步了(笑)。

机器之心:基于此,该怎么做?

朱哲清:我觉得这是一个很有意义也非常前瞻的问题,但从商业化角度来说,这不是第一优先级,最先聚焦的应该是能不能解决问题?先把问题解决了,然后再往下探索能不能更好地理解(问题)。

机器之心:据了解,Pokee的架构是,将小型LLM作为人机交互界面,类似「UI层」,用于理解用户意图,而真正决策、执行任务的全部基于强化学习结构来完成。基于这一理解,其实你们对于prompt的要求很高?

朱哲清:对,这就复杂得多了,所以我一直说,LLM做得越好,我们就能做得越好。虽然我们是将RL而非LLM作为AIAgent核心,但我们与LLM并非竞争关系,如果纯语言方向不能变得更好,我们也会有瓶颈,根本无法完全完整地理解用户到底要说什么。

创业,一个孤独的漫长旅程

机器之心:从离开Meta开始创业到现在有大半年时间,你觉得工作和创业有什么区别,最大的感受是什么?

朱哲清:区别很大,期间也有过挣扎,但不是因为时间管理、劳累,而是创业本身是一条很模糊的路,或者说本来就没有路,你想走成什么样,它就是什么路。作为公司CEO,看似有很大的话语权,你说要往哪走就往哪走,但实际上能做的决策数量有限,要对公司、大家负责。

在大公司不一样,可以做无数次决策,甚至可以换组,这个东西做不下去就换个方向。

机器之心:据了解,团队从成立到今年4、5月份一直是四人核心配置,现在有多少人?有没有考虑扩张?

朱哲清:目前团队有7个人,接下来还会招两三个人,但是大概率在收入规模扩大前不会将团队配置超过10个人。

机器之心:所以也可以说AI时代的创业更为「轻量级」?

朱哲清:是的,AI时代,模型、产品打磨各方面其实用不了很多人,人多了,反而做事情会蹑手蹑脚。

机器之心:你们办公室位于哪里?日常工作状态是怎样的?

朱哲清:我们没有办公室。

机器之心:那平时开会也是线上?

朱哲清:全部线上,因为有人在西雅图,有人在湾区,还有人在新加坡,都不在一起。另外我们都是Meta出身,习惯了远程办公,即便没有办公室,效率也挺高,而且还能兼顾生活。现在,我们每天线上开一个会,要做什么,大家一起讨论决定。

  截至6月13日,全省大、中型水库可用水总量40.48亿立方米,储量充足有保证,按照6月底前无有效降雨的最不利因素考虑,可放水7亿立方米用于抗旱灌溉;南水北调中线工程、大中型水库及河道供水正常,地下水源较充沛,能够满足抗旱需求。5月下旬以来,对全省98.72万眼农田建设灌溉机井和56.85万项灌排沟渠设备进行全面排查,及时修复损坏设施,确保抗旱灌溉需要。省财政近期专门安排3000万抗旱专项资金,支持各地开展抗旱工作。

责编:褚典编辑

歌手排名

  经查,陈玉祥丧失理想信念,背弃初心使命,执纪违纪,执法犯法,罔顾中央八项规定精神,热衷于吃喝享乐,长期频繁接受宴请,违规接受旅游、健身等活动安排;无视组织原则,在干部选拔任用中为他人谋取利益并收受财物;违规收受礼品、礼金;违反工作要求,干预和插手司法及执纪执法活动;甘于被“围猎”,把组织赋予的权力当作谋取私利的工具,大搞权钱交易,利用职务便利为他人在企业经营、项目运营等方面谋利,并非法收受巨额财物。

现在就出发

  据最新气象资料分析,21日前河南省将仍以高温天气为主,不过每天的高温影响范围和强度会有不同。预计16日东南部,18日北部、东部、南部,19日北部、东部,21日北中部、西南部最高气温将达37到39℃,局部超过40℃。

歌手顺序

  除了国际航线网络的短板,乌鲁木齐也缺乏国际顶级航司入驻。国泰航空凭借座舱、餐食、服务等方面的表现,建立起国际品牌形象,常年与新加坡航空、阿联酋航空、卡塔尔航空这样的顶级航司保持同一水准。通过国泰开航,乌鲁木齐有望在国际市场引起更多关注。

如愿

  反观乌鲁木齐,偏居西北一隅的位置,为向西开放提供了便利。李瀚明指出,与乌鲁木齐类似的其实是哈萨克斯坦阿拉木图,两座城市都位于亚欧航路的中间点。利用空客A321XLR这样的远程窄体机,阿拉木图成功开航伦敦。在国内,乌鲁木齐是唯一一个用窄体机能直飞欧洲的航空枢纽。

再来两张成毅

  纪宁说:“欧美国家的网球市场已逐渐进入饱和阶段,中国被认为可能带来新的爆发性增长点。”他认为,在中国这个网球新兴市场,应更充分地挖掘体育明星的商业价值。“这有利于全面释放中国体育经济的增长潜力。”

好听

  携程集团副总裁秦静认为,随着这一政策的施行,将加速中国与澳大利亚之间的旅游交流及经贸互动。同时,政策也将惠及在澳大利亚生活的逾百万华人华侨,使得他们回国探亲或旅游的过程更为简便顺畅。秦静指出,作为亚太地区的重要国家,中国与澳大利亚在经济上具有高度的互补性,合作潜力巨大,未来也期盼在旅游领域激发更强劲的合作动力。/p>

官方调查那尔那茜

  最近两起企业补税事件引起市场关注。一是湖北枝江酒业股份有限公司被要求补税8500万元,因这笔税款被追溯至1994年,使得税务“倒查30年”成为舆论焦点。二是宁波博汇化工科技股份有限公司3月份收到当地税务要求补税5亿元的通知,最近企业宣布停产。上述两起事件,引起了一些企业人士的担忧。这些担忧包括是否存在全国性查税,不少企业担忧如果倒查多年需要补税,这对于经营困难的当下无疑是“雪上加霜”。跟多位省级、市级税务人士交流得知,目前并没有全国性查税部署。一些地方根据当地税收大数据风险提示等对个别企业查税,是日常工作,也是税务部门正常履职。毕竟税务部门主要负责税收、社会保险费和有关非税收入的征收管理,发现偷逃税、少缴税行为,理应依法制止,否则就是渎职。(第一财经)/p>

好听

  游盈隆表示,赖清德上任第一个月,只获不到半数台湾民众的支持,赖清德社会支持基础的流失是全面性的,不同程度的。游盈隆指出,根据相关经验证据,近一个月赖清德社会支持基础的流失主要原因至少有三: