追踪前沿,理解本质。在这里,我不只阅读论文,更思考如何将它们转化为用户可感知的价值。
以下是我持续研究、复现与进行产品化推演的核心模型。
671B MoE架构,¥1/M tokens极致性价比,128K上下文
洞察:MoE架构是降低大模型成本的工程典范,Agent场景首选。
原生多模态旗舰,视觉理解与实时语音交互的标杆
洞察:原生多模态架构为实时交互场景提供技术可行性。
代码能力与复杂推理最强,200K上下文,Artifacts创新交互
洞察:Artifacts开创"边对话边创作"范式,工作流转折点。
Google旗舰,1M上下文+原生多模态+Agent能力
洞察:展示大模型OS化趋势,Agent执行能力是未来方向。
Meta开源旗舰,70B达到405B性能,私有化部署首选
洞察:单卡A100即可部署GPT-4级能力,企业私有化最佳选择。
月之暗面,128K长文本+联网搜索+o1级推理能力
洞察:"长文本+搜索"组合验证C端巨大需求,k1.5推理媲美o1。
阿里开源旗舰,0.5B~72B全规格,Apache 2.0商用友好
洞察:开源+阿里云生态组合,企业私有化部署的首选方案。
智谱AI,清华技术背景,Function Calling能力突出
洞察:工具调用准确率高,是构建AI Agent的理想基座模型。
持续更新中 · 每个模型都有详细的产品化思考与实践案例
日均使用4小时+,从产品经理视角深度评测主流AI编程工具
不止会用,更思考它们为何这样设计、未来将走向何方
日均使用4h+,Agent模式颠覆性体验。多文件编辑、代码库感知、@指令交互设计精妙
核心洞察:Composer+Agent模式展示了AI编程的终局形态——从辅助补全到自主完成任务
Cascade模式创新性强,Flow状态设计让AI真正"理解"你在做什么,上下文管理优秀
核心洞察:Flow状态追踪是产品创新亮点,让AI从"被动问答"变成"主动协作"
作为首批内测用户持续跟进迭代,中文理解优秀,与豆包生态深度整合,国内开发者友好
核心洞察:字节入局AI编程赛道的战略级产品,迭代速度快,值得持续关注
AI编程开山鼻祖,代码补全体验流畅,GitHub生态集成优势明显,企业采用率高
核心洞察:定义了"AI代码补全"品类,但在Agent时代需要加速进化以应对新竞争
免费策略打开市场,补全速度快,70+语言支持,40+ IDE集成,企业私有化部署
核心洞察:免费策略+Windsurf双产品线布局,展示AI编程赛道的差异化竞争路径
持续更新中 · 基于日常实际项目使用的一手体验
深度体验全球与国内主流AI Agent/工作流平台
从产品经理视角剖析Agent生态、交互范式与商业模式
国内Agent平台标杆,可视化工作流编排,丰富插件生态,支持AI写作、PPT、网页开发等
核心洞察:字节用"低门槛+生态打法"快速占领国内Agent市场,产品化能力值得学习
全球关注度最高的自主Agent,能独立规划、执行复杂任务,多子Agent协同,端到端交付
核心洞察:定义了"真正自主Agent"的标准——不是对话响应,而是端到端任务交付
开源LLM应用开发平台,可视化编排Workflow,支持RAG、Agent、多模型,私有化部署友好
核心洞察:开源+云服务双模式,让企业可以"先试后买",降低AI落地门槛
OpenAI官方Agent生态,GPTs支持自定义Agent,Operator实现浏览器自动化,生态最成熟
核心洞察:OpenAI用GPTs建立Agent分发平台,Operator探索"AI操作真实世界"的边界
LLM应用开发事实标准,支持多模型接入、状态管理、工具调用,Agent开发首选框架
核心洞察:定义了LLM应用开发的抽象层,让开发者可以快速切换模型而不改业务逻辑
开源工作流自动化平台,400+节点集成,AI节点支持,可视化编排,自托管友好
核心洞察:传统自动化+AI的结合代表,展示了AI如何增强而非替代现有工作流
百度企业级Agent平台,深度集成文心大模型,支持知识库、工具调用、多轮对话
核心洞察:百度ToB路线的Agent尝试,与云服务深度绑定的商业模式
智谱AI推出的Agent平台,基于GLM-4模型,支持自定义Agent、知识库、工具调用
核心洞察:学术背景团队的产品化尝试,技术扎实但产品体验还需打磨
持续更新中 · 重点跟进扣子空间、Manus等头部产品动态
通过中英文自然语言描述,自动生成可玩的3D/2D游戏,如FPS、飞行模拟等多种类型
AI支持文本、3D建模、物理引擎的无缝结合,提供沉浸式游戏体验
根据用户需求智能调整游戏场景、玩法规则及视觉效果,实现高度个性化
从概念输入到完整游戏生成全程由AI驱动,大幅降低开发门槛
适用于游戏、潮玩、IP形象及空间装置设计,提供高自由度3D视觉表达
生成后能直接在线体验,输出Web链接+ZIP下载,支持快速迭代与社交化传播
平台像资深制作人一样,不时提问、征集意见、提供选择,引导用户完成游戏创作
非专业用户也能在AI引导下完成游戏创作,无需编程或美术专业知识
专业团队可借助平台大幅缩短开发周期、降低成本,专注于创意与体验优化
生成后直接获得一个可分享的Web链接,点击即可在浏览器中体验游戏
下载完整的游戏源码包,可在本地进行深度定制和二次开发
生成后可直接在平台内进行微调修改,无需下载即可预览效果
为确保生成质量和用户意图准确传达,我们在关键节点设置了人机协同确认点,让用户可以随时介入和调整。
用户描述想法
AI追问细节
用户确认方向
AI批量产出
用户挑选满意的
AI整合发布
用户最终调整
非程序员也能做游戏,个人用户和小团队可直接量产作品
将传统6-18个月的开发周期缩短到数周甚至数天
批量生成游戏Demo,快速验证市场与玩法,提高创新尝试成功率
B2B:面向企业提供定制化生产能力
B2C:面向个人创作者收取订阅或分成
目标:验证"自然语言→可玩游戏"核心价值假设
结果:80%用户认为有价值,但"生成结果不符预期"是核心问题
目标:解决"AI理解偏差"问题,提升首次生成满意度
结果:首次满意度从45%提升到85%
目标:打通策划→美术→程序→测试→发布完整链路
输出:完整的端到端游戏生成Pipeline
目标:支持用户自定义风格,构建模板生态
结果:形成"生成→分享→复用"的正向飞轮
AI生成存在不可控性,通过多层确认机制和分阶段人工介入,确保产出质量可控、问题可追溯。
AI通过多轮对话澄清需求,生成需求确认单(游戏类型、玩法、风格、目标平台)
调用Midjourney/混元3D生成资产,每批次生成4个方案供选择
GPT-4基于模板生成游戏代码,自动运行Playwright测试验证可玩性
资产+代码组装为可运行游戏,生成预览链接
用户可在微调编辑器中调整参数、替换素材、修改代码
有记忆、有情感、可穿搭的AI伙伴。记住用户喜好、陪伴成长、提供情感支持,是用户的专属数字朋友
复刻历史名人的性格、思想、知识,实现跨时空对话。与孔子讨论人生、与爱因斯坦聊物理、与乔布斯谈产品
当前会话的完整对话历史,存储在Context Window中,支持多轮上下文理解
跨会话的关键信息摘要,存储在向量数据库中,每轮对话语义检索召回相关记忆
用户主动标记或系统识别的重要信息(如生日、喜好),永久保存并优先召回
虚拟人最大的挑战是保持人格一致性——不能前后矛盾、不能偏离设定。我们设计了三层人格架构:
固定的性格特征、说话风格、价值观,写入System Prompt,不随对话改变
根据对话内容实时调整的情绪状态(开心/难过/兴奋/关心),影响回复风格
适配当前场景的表达方式,如聊天/唱歌/安慰/讲故事,调用不同的技能模块
多模态虚拟人的体验关键是信号同步——表情、动作、语音必须协调一致,否则会让用户感到割裂。
输出文本+情感标签
根据情感标签驱动
匹配情感的动作库
情感化语音参数
时间戳对齐输出
目标:验证"有记忆、有情感的虚拟人"核心价值假设
结果:85%用户认为"记忆"是核心卖点,但"对话不够自然"是主要痛点
目标:解决"人设崩塌"和"对话不自然"问题
结果:人设一致性从70%提升到95%+
目标:让AI真正"记住"用户,建立长期关系
结果:用户感知"被记住"的满意度从40%提升到90%
目标:从文本对话升级到语音+表情+动作的多模态交互
结果:互动深度和使用时长显著提升,形成可复用的多模态Agent架构
用户问什么答什么,被动等待提问,用户不知道问什么就卡住了
实时监测用户状态,识别卡点后主动介入,像教练一样引导完成任务
Agent的行为完全由状态机驱动,确保在任何状态下都有明确的行为边界,避免AI"胡说八道"。
用户在某步骤停留超过阈值(如5秒),判定为可能卡住
用户连续多次操作失败(如动作识别失败),判定需要帮助
用户操作偏离预期路径(如该做A却做了B),判定需要纠正
帮助不是越多越好,而是恰到好处。我们设计了分层级的介入策略:
非侵入式提示,如界面上的高亮引导、小图标闪烁
Agent主动发起对话,询问是否需要帮助
展示分步骤操作说明,配合动画演示
LLM容易"跑偏",我们通过多层Prompt Pipeline确保回答始终与当前任务相关。
高频场景快速路由
当前状态+任务信息
场景定制化模板
GPT-4生成回复
确保回复在边界内
目标:验证"主动式AI助手"在C端游戏场景的价值
结果:验证"主动介入"比"被动问答"有效,但规则触发太机械,用户感觉被打扰
目标:构建可控、可追溯的Agent行为框架
结果:Agent行为有了明确边界,问题可定位、可复现
目标:精准识别用户"卡住了",减少误触发
结果:误触发率从40%降到8%,用户满意度显著提升
目标:解决LLM回答"跑偏"问题,提升相关性
结果:回答相关性从85%提升到95%+,新手留存显著提升
用自然语言描述,AI会引导你完善细节
上传20-50张参考图,AI将学习你的专属风格
拖拽图片到此处,或 点击上传
支持 PNG/JPG/WEBP,单张≤10MB