LLM 是放大器, 放大的是你的思考。
这一点既是它的卖点,也是它的罩门。
当与它独处时, 仿佛对面坐了一位智者, 只要我能提出足够好的问题, 他就能给出相应好的回复。
但当把它融入到产品中,推向 C 端用户市场时,面对的第一个问题: 用户跨不过思考和表达的双重门槛。
AI 平台产品经理想尽各种办法,来尽可能降低这个门槛:预设问题,回复之后跟随问题,等等。
最近看到的「妙刷」产品,是另一个降低门槛的思路:把思考和表达这个门槛,转换为拍照。 只需要抬手拍一张,即跨过了提供信息的门槛。
降低用户使用门槛, 确实是个价值巨大的课题。
Google AI Studio 目前已经支持 Google 搜索了,虽然这实际上是 Google 开发者的 AI 控制台,但我愿称之为目前最强的 C 端应用:
1. 200 万 Token 上下文;
2. 可随意修改聊天历史,带入后续的聊天,AI 回复你的内容你也可以改;
3. 能联网搜索 Google;
4. 能在聊天界面使用 JSON Mode;
5. 支持上传文档、图片、音频、视频;
5. 免费!免费!免费!
Flash 模型每日 2000 次免费调用,Pro 模型 50 次,Pro Experiment 独立 50 次。
🔍 ChatGPT Search 来了,初体验相当惊艳~
看到 Sam Altman 罕见自荐了一个浏览器插件,令人感到十分好奇。 回想了下,Open AI到底还有哪些神秘产品没有发布?
打开ChatGPT 网页,原来Search 正式登场了。快速测试后,不得不说新产品的体验确实令人惊艳:
- 首先是产品形态的惊喜。在输入框下方,多了个小小按钮——「搜索」。(这个登场大大超出了预期, 因为我们都是在等一个独立Search GPT)
- 然后,搜索的质量。快速测试一些实时性较高的搜索内容, 例如, 夏威夷冲浪🏄♀️,上海台风🌀 ,以及任天堂新App🎵; 每次查询的结果,都相当不错。
- 即使对我这个Perplexity 深度用户来说,从性能、易用性以及美观性,ChatGPT Search都做到了一流的体验。
- 最令人印象深刻的是输入框这里的设计,将聊天和搜索如此自然的融合,这种无缝感知是点睛之笔。
ChatGPT 再次将AI 的打开方式带到了新高度, Bravo 👏
🧩 One More Thing:
推荐尝试下这个Chrome小插件, ChatGPT Search 。我在随附的截图(5~6)中展示了用法:在浏览器输入框直接,输入搜索内容,直接进入结果页。 相信你多试几次,可能就会离不开了。
https://chromewebstore.google.com/detail/chatgpt-search/ejcfepkfckglbgocfkanmcdngdijcgld
**已经有超过 1 万个年轻人用「AI 遗嘱」写下自己的遗嘱了。**
「AI 遗嘱」是什么?是新世相发布的一个产品,帮助人们写遗嘱。
首先,别被"遗嘱"这个词吓到。这不是什么不吉利的事,恰恰相反,它是一次让人可以深度思考生命的机会。我们希望通过这个产品,激发年轻人去直面死亡、进而思考生命中真正重要的事情是哪些,真正重要的人是谁。
「AI 遗嘱」怎么写呢?并不是让 AI 帮你写,而是请 AI 来对你进行采访,AI 很会引导,它会不断追问细节、追问答案背后的深层思考。AI 大概会提出 10 个问题,之后, AI 将根据对话,整理出一篇完整的遗嘱。
目前,已经有超过 10000 人在 AI 的帮助下写了自己的遗嘱,也欢迎你来试一试。
通过写遗嘱,在与死亡四目相对后,我们或许能看清,人究竟在为什么而活。
从对死亡的思索中,获得对生的领悟。
**祝你聊得愉快。祝你活得尽兴。**
Invalid media: video
Midjourney 中国实验室产品 – 悠船同步上线区域重绘(inpainting)和转绘(style transfer)功能啦~!
盼 MJ 出这功能得有一年了吧,时间过得好快。
世界第一梯队的模型能力就是强~ 要在 comfy 里完成同样的需求,需要搭建很复杂的工作流,还得有本地算力,在悠船很轻松就搞好了~
能用中文写 prompt 方便好多,不过手动区域涂抹还是有些麻烦,感觉以后补上 SAM 自动分割会方便许多。
测试地址:https://desktop.youchuan.cn/
- 计算不同维度的错误率并识别分布规律
- 必要时建立专门的评估器
- 出现系统性问题时返回步骤3
👉 个人实践启发
在涉及到我们团队具体的工程实践上,我理解 Critique Shadowing 相当于在向用户输出output前的workflow里,自行加了一步evaluation,评估通过则展示给用户,评估不通过则返回继续生成再评估,循环往复直至评估通过为止再输出。流程如下:
A[用户输入] --> B[LLM生成回答]
B --> C[Critique评估器]
C -->|通过| D[展示给用户]
C -->|不通过| E[重新生成/优化]
E --> B
再进一步地,我还想到,也可以通过 Critique Shadowing 的评估结果来指导 prompt 优化。流程如下:
A[用户输入] --> B[LLM生成回答]
B --> C[Critique评估器]
C -->|不通过| D[分析不通过原因]
D --> E[自动调整Prompt]
E --> B
C -->|通过| F[记录通过模式]
F --> G[更新Prompt库]
总结来看,这个方法特别适合内容质量控制、代码审查自动化、用户反馈分析等需要专业判断同时又面临大规模数据处理的场景。
但是也很显然,这个方法论明显的弊端就是系统的复杂度及其token成本。实践中首先还是要基于自己的业务场景做合理评估,以ROI为导向,选择最适合自己的LLM质量控制策略。
我也很好奇大家都是怎么解决AI生成质量的优质及稳定性问题的?以及大家都在做哪些内容场景?不同的内容场景对内容质量及稳定性的需求差异还是挺明显的。
大家有什么好思路或者心得体会,也求分享😊
如果说学Cursor,开始AI编程有什么真正的诀窍的话,那就是:
先做出来,发布出来再说,不要怕不完美。
现在有Claude和GPT加持的AI编程工具,让大多数第一次有机会去真正完成一个由自己构建的产品。毕竟,在此之前,不管你是程序员还是产品经理,绝大多数人在此之前都没有完整做过一个产品。
如果你是产品经理的话,你的工作可能是画画原型,写写PRD,界面设计和代码工作都不在你手上。甚至以我之前在美团和阿里接触到的产品经理来说,他甚至不做“产品”本身的工作,只负责一个功能模块的一小点的细节优化和设计。
而对于程序员,也是类似的道理,前端的只做前端,后端只做后端,数据库的只管数据库。而我之前接触的程序员也大多不了解业务逻辑,不知道自己参与的产品用户群体是谁,其他模块的实现逻辑是什么样的,只是去用自己的能力忠实的实现产品的需求。
在AI的加持下,只要别有害怕、恐惧的情绪,你将第一次获得真真正正的去实现自己的想法的权利。
你需要产品经理,Claude和ChatGPT可以是产品经理。
你需要设计师,Claude、ChatGPT、Ideogram、Midjourney、Flux.1、v0.dev都可以是设计师。
你需要程序员,那更不用说了,Claude、ChatGPT精通所有编程语言。
你唯一需要担心的只是,你是否真的有想法,你是否真的想清楚了你想要去创造什么。
也许你没有想清楚,那也没问题,你可以边做边思考。前几天Paul Graham发了篇文章,认为有了AI之后,人的写作能力会进一步退化,因为写作是需要清晰的思考的,你想不清楚,你就没办法把东西写清楚。很多人会恐惧在写作过程中发现自己大脑中一团浆糊的状态,因此对此心生恐惧。而有了AI之后,大多数人确实是更不需要写作了。
但问题是,不写作的话,你怎么思考呢?
写作不是对思考的记录,而是思考本身。
同样的,去创造去完成一个产品的过程,也是你思考的过程。你没办法完全想清楚了才行动。你需要行动你才有机会想清楚。
而且,在做完之后一定要快速发布。只要完成了发布,你就等于让一个东西从你的大脑中解放了。很多人会想着先把东西做得更好更完美再发布,我想告诉你,千万不要!
完美是完成最大的敌人。世界上没有发布之后就不需要迭代的产品。
许多人之所以不愿意早早发布,其实是有些恐惧心理在其中的,担心其他人觉得不够好,担心这是否会让人觉得自己的水平不行。我真的建议你跟自己脑中的这些恶魔做些斗争。
举个例子,我发布的第一期关于Cursor的教学视频是做一个很简单在网页中生成二维码的Chrome插件,有不少人在底下评论,就做个这?
对的,那时候的我,只能做个那东西。但是我现在做了多个网站、上架了app,我相信评论我的那个人肯定没做到。而且我在做这些东西的过程中感受到了太多的心流和快乐,这个过程本身就是巨大的奖赏了。
而且我非常认同一个关于什么时候该发布自己的产品的观点,那就是如果你发布的产品的第一个版本不让你感到尴尬的话,那就说明你发布得太晚了。
所以,那个会让你尴尬的产品,你打算什么时候发布?
传统媒体的运作像一条单行道。创作通过既定渠道流向消费者。即使在分发被颠覆时 - 首先是社交媒体,然后是流媒体 - 基本模式仍然保持:有人创作,他人消费。角色清晰,界限分明。但我们现在见证着不同的事物。想象观看某个随着你观看而自我生成的内容 - 真正动态的内容,能响应你、理解你、为你创作。通用模拟和世界构建。当内容能实时塑造自己时,创作和分发之间的界限就消失了。这是全新媒体景观的基础。这关乎从根本上重新想象媒体可以成为什么:交互式的、生成式的、个性化的 - 同时又是共享的和普遍的。
这也是为什么纯AI公司正在过时。有趣的问题不再是关于技术 - 而是关于我们用它建造什么。下一波创新不会来自专注于建造更好模型的公司。模型是商品。技术基础现在已经完善并为所有人所知。没有秘密可言。变革的浪潮将来自那些懂得如何使用这些工具来创造新形式媒体、新型体验、新的讲故事方式的人。基础设施已经铺设。基础已经建立。现在来到激动人心的部分:用它创造有意义的东西。
AI公司的终结标志着更有趣事物的开始:真正新媒体的诞生。不仅仅是新平台或格式,而是全新的创作和体验内容的方式。我们不是在打造一家AI公司。这是一个更令人兴奋的使命。就像一直以来那样,回到我们的初心。
10$KPow3oWVP0b$/
【骆驼】加绒情侣夹克冲锋衣,领190元专属优惠券。
原价【389元】,券后👉【199元】!
这可是骆驼!!!靠谱!骆驼官旗•登山服外套合集男女同款,防水防风,一件顶6件!颜值和实力并存,拍照嘎嘎有氛围!
点击直达⬇️
https://s.click.taobao.com/pWbUCLt
👇
自助领券: ok.gocodehub.com
支持淘宝/京东/拼多多/唯品会等平台的渠道券
自购领券,省钱多多,不领必亏
Instagram 的 AI 小浣熊 KOL
纯 AI 内容,仅三个月,70篇帖子,13万粉丝。
讲述的是一个小浣熊偷了人类手机,跑到世界各地自拍的故事。
它是小浣熊版的如果相机。
但是气氛非常到位。
不要抱怨 AI 能力不足,现在是拼故事拼创意的时候。
谷歌除了 NotebookLM 之外又发布了一个新的学习工具。
Learn About 可以根据你提出的问题给出详细的解释,而且还会推荐合适的视频教程以及文字教程。
他还会询问你教程的难易程度,如果觉得太难就会给你制定更简单的学习计划。
目前需要美国 IP 才能使用:https://learning.google.com/experiments/learn-about/signup
我的2点发现:第一点,机器人的chatgpt时刻被吹的太多了。第二点,以demo视频形式作为展示的工作太多了,这2方面营销手段都不足够再次抓人眼球。
ChatGPT之前也有很多bot,比如说meta在2022年9月的blenderbot 3,但ChatGPT真正被大家惊呼一个原因是这样的革命性技术慢慢地在early adopter中传开了,大家亲身使用过发现他能够用来解决实际问题,比如说帮湾区的学生做题。所谓创新的扩散,从innovator慢慢扩散到early adopter,早期用户使用起来发现真的能解决一些需求,虽然不是普罗大众的需求
📣秋冬衣服优惠总结
===============
69.9🉐西域骆驼!秋冬季三合一户外冲锋衣!
https://08kaabr.kuaizhan.com/?_s=06IlN4
109.9🉐【贵人鸟】三合一户外冲锋衣
https://08kaabr.kuaizhan.com/?_s=36IlN4
269.0🉐骆驼服饰旗舰店•山海夹克
https://08kaabr.kuaizhan.com/?_s=56IlN4
98.9🉐1鸭宝宝男女同款加绒加厚六仿保暖防风裤
https://08kaabr.kuaizhan.com/?_s=66IlN4
33.88🉐【首单3元】正品nike袜子男高筒秋季运动3双
https://08kaabr.kuaizhan.com/?_s=86IlN4
179.0🉐爆款骆驼腾龙回货!!!休闲出游必穿!
https://08kaabr.kuaizhan.com/?_s=e6IlN4
159.0🉐361度外套秋冬加绒软壳防风防泼水冲锋衣
https://08kaabr.kuaizhan.com/?_s=h6IlN4
121.0🉐【乔丹】冬季新款冲锋衣外套
https://08kaabr.kuaizhan.com/?_s=i6IlN4
359.0🉐凑单332!骆驼运动三防羽绒服男女同款
https://08kaabr.kuaizhan.com/?_s=j6IlN4
188.0🉐NY-WHITE冬季长款加厚过膝羽绒服
https://08kaabr.kuaizhan.com/?_s=l6IlN4
299.0🉐【蛟龙】骆驼冲锋衣男女款2024春秋新款
https://08kaabr.kuaizhan.com/?_s=o6IlN4
88.0🉐拍2每件仅需44!森马集团三防马卡龙冲锋衣
https://08kaabr.kuaizhan.com/?_s=p6IlN4
399.0🉐骆驼热浪三合一可拆卸内胆秋冬新款登山服
https://08kaabr.kuaizhan.com/?_s=r6IlN4
59.0🉐2件59!森马休闲舒适百搭圆领卫衣
https://08kaabr.kuaizhan.com/?_s=v6IlN4
🎯 Critique Shadowing:
一个让AI稳定输出优质内容的实用工作流
我相信很多AI团队和我们一样,都头疼这个工程问题:如何保证AI生成质量的优质与稳定?
fine-tune也好,RAG也好,RL也好,结合具体的业务场景,我们也花了很多精力研究最适用的、更低成本、ROI更高的方法。
不得不说,最近发现的Critique Shadowing 工作流,让我觉得很有启发💡
这个方法来自 Hamel Husain 最新发表的一篇重磅文章🔗https://hamel.dev/blog/posts/llm-judge/,整整 6000 字的干货。
这个工作流本质上是在构建一个能够对齐领域专家判断的 LLM 评估系统。整个工作流包括:
1. 首先找到真正的领域专家
2. 建立多样化的测试数据集
3. 让专家进行系统评判和详细解释
4. 根据反馈进行迭代优化
5. 构建和训练 LLM 评判器
6. 进行全方位的错误分析
这个工作流通过系统化地将专家经验转化为可扩展的 AI 评估系统,特别适合那些需要专业判断但又面临大规模数据的场景。
这也让我想起 Hamel 之前那篇广受好评的 🔗https://hamel.dev/blog/posts/evals/index.html,都是非常务实的方法论。
在我看来,Critique Shadowing 的价值在于它不是纯理论的框架,而是一个能够真正落地、能够帮助团队构建可信赖的 AI 评估体系的方法。
👉 工作流程详解
1. 领域专家选择(Principal Domain Expert)
- 需具备深入的领域知识和丰富实践经验
- 能够清晰表达判断标准和评判理由
- 愿意参与迭代优化过程
2. 数据集创建
- 生成覆盖所有用例的多样化examples
- 结合真实和合成的用户交互数据
- 从小规模高质量样本开始,逐步扩充
3. 专家评审
- 进行通过/不通过的基础判断
- 提供详细的评判理由(用于训练 LLM)
- 记录关键决策点和评判标准
4. 错误修正
- 发现问题后修正并返回步骤3进行专家验证
- 持续积累和分类错误模式
- 重复验证直至专家确认问题解决
5. LLM 评判器构建
- 将专家示例转化为 few-shot examples
- 测试与专家判断的一致性
- 持续优化prompt直至达到满意的一致性水平
6. 错误分析与优化
最近两个月用上Cursor之后,每天都舍不得睡觉,很想早起去创造些东西。
上一次有这症状还是GPT Store发布后,上上次是GPT-4。
但是上班时好像从来没过这种感觉。
📷 回归本质:Runway 不是AI 公司
Hans 荐语:这篇来自Runway CEO Cristóbal Valenzuela的最新推文,充满了对AI、媒介和创造本质的深刻洞察,不愧是当代科技与创意交汇领域的领军人物之一。
如果你正在进行AI产品创造、媒介探索,或将AI应用于教育和研究等广泛领域,相信会在这段文字中找到大量共鸣和启发。Enjoy~
✨ 全文如下:
Runway不是一家AI公司。Runway是一家媒体和娱乐公司。实际上,我认为AI公司的时代已经结束了。
这并非因为AI失败了 - 恰恰相反。这是因为AI正在成为基础设施,就像电力或互联网一样基础。今天自称是AI公司就像自称是互联网公司一样。这毫无意义,因为它已经普遍存在。每个公司都使用互联网,每个公司都将使用AI。
对Runway来说,我们的重点是艺术、媒体和整个娱乐领域。我们近七年前创立Runway时的愿景至今基本保持不变:AI是讲故事的必要工具。为实现这一愿景,我们必须反向工作,打造最好的研究团队,以提供最好的模型,在此基础上开发最好的产品。
我经常将我们的工作比作一种新型相机。不是字面意义上的捕捉图像,而是就其历史影响而言。相机不仅创造了摄影 - 它还催生了整个产业、经济和艺术形式。电影、电视、抖音 - 都是那个最早能捕捉光和时间的革命性工具的产物。
我认为我们在Runway所做的工作是全新媒体景观的基础之一。就像相机改变了我们捕捉现实的方式一样,AI正在改变我们创造现实的方式。我们建立的模型和技术能力仅仅是开始 - 它们相当于最早的银版照片,虽然原始但充满可能性。许多人的错误在于将AI视为最终目标。事实并非如此。AI是机制,是支持更伟大事物的基础设施。真正的革命不在于技术本身,而在于它所能实现的:新的表达形式、新的讲故事方式、新的连接人类体验的方法。
复刻更简单了。
Meta 发布了他们的开源 NotebookLM 播客方案 NotebookLlama。
他们提供了一个教程一步一步教你构建 PDF 到 Podcast 工作流程。
具体包括四部分内容:
步骤 1:处理原始 PDF:使用 Llama-3.2-1B-Instruct 模型将 PDF 转换并存储为 .txt 文本文件。
步骤 2:编写播客脚本:使用 Llama-3.1-70B-Instruct 模型将文本改写成播客脚本
步骤 3:提升表现力:使用 Llama-3.1-8B-Instruct 模型增强脚本的表现力和感染力
步骤 4:语音合成:使用 parler-tts/parler-tts-mini-v1 和 bark/suno 生成自然对话风格的播客音频
教程地址:github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama
Invalid media: video
看到 Arc 浏览器进入维护不再活跃更新的新闻,有点感慨。Arc 刚出来时,挺喜欢的,也用过一段时间。但后来,我还是用回了 Chrome 浏览器。
Arc 最大的困局是:Chrome 已经足够好,一百分的话,Chrome 已经是 85 分产品。Arc 的创新,可能提升了 3-5 分,达到了 90 分体验。悲催的是,这增加的 5 分体验,很难让大量用户迁移。
AI 可能也有类似问题。比如 AI 写作这块,对大量用户来说,本就不怎么写作。为何要去写作?AI 不解决 WHY 的问题,只是在 HOW 上发力,总觉得是伪命题。
HOW 上的产品太多了,如果某个领域原本是 60 分体验,有了 AI 可以变成 80 分体验,这可能是机会。反之,如果原领域本就已有 80 分体验,AI 只是带来少量增量体验,那结局大概率和 Arc 会是一样的。赛道选择决定运气。
「十字路口」播客的会员数今天就破两万了 🎆
仍保持着中文 AI 播客最快增速(骄傲一脸)
因为做播客认识了很多新朋友、涨了很多新见识。感受上,做播客和跑步、冥想一样,不但每一次行动都能带来快乐,而且和 @Ronghui 约定保持周更频率,这样不断的 build 和输出也倒过来 push 自己得不断地输入,这种收获感和积累感让人内心笃定和平静。
如果一定要回答一点最大的收获是什么?我想如果不是做播客,我恐怕和很多人一样会觉得 “日子太平、生活无聊、经济通缩、万圣节都不让过了,这个世界每天没啥新玩意儿”,但因为做播客 push 我们更多阅读、更多思考、更多交友,才发现“卧槽,这个世界上好多新鲜的事、积极的人、了不起的想法,AI 的发展仍然保持着一日千里的速度,未来充满希望” ——世间万物,希望至美。