很久之前我就说过,用户的需求从来就不是写 prompt 指挥 AI
而是直接说需求「做个抖音出来」
这就是技术和用户之间巨大的 Gap
但是,就在刚刚...
我打开 bolt new,让它做一个抖音出来
它真的做了一个抖音出来...
😲
来看看这段录屏吧
Invalid media: video
AI 神器推荐!自动分离人声与 BGM 音频 - 小红书
😍【AI 神器推荐—aifuse】之前刷短视频时,不时会发现自己喜欢的音频,但音频里时常又夹杂了很多人声,正好最近发现一个挺好用的 AI 工具,可以完美分离人声和音频,推荐给大家:https://www.aifuse.cn/
#AI的神奇用法
Invalid media: image
PodLM 发布到 ProductHunt 了,这是一个好玩的 AI 播客创作产品,目标是将任何内容转换成有趣的播客输出,请大家帮忙投个票,感谢支持👇
https://www.producthunt.com/posts/podlm
.
✅0噜必备‼️一定要领3️⃣次❗️必中❗️
第1️⃣次https://u.jd.com/MGV1i8c
第2️⃣次https://u.jd.com/MGV1i8c
第3️⃣次https://u.jd.com/MGV1i8c
Meta 上周开源了一个端到端的语音模型 Spirit LM。
这个太重要了,居然没注意到。
这个模型有两个版本:
基础版: 适合进行一般的语音识别和生成,不包含情感变化。
高表现力版:可以捕捉语音中的情感特征,能够生成包含快乐、愤怒或兴奋等情感的语音。
主要特点有:
Spirit LM 直接使用语音标记、音高标记和声调标记 来保留语音中的表现力要素,不需要先转文本描述。
能够在不需要大量数据的情况下,完成自动语音识别、文本转语音和语音分类等复杂任务。
项目地址:speechbot.github.io/spiritlm/
论文:arxiv.org/pdf/2402.05755
大的来了!
Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了,Claude 3.5 Sonnet 推理得分超过O1。
而且 Claude 现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本。
升级 Claude 3.5 Sonnet 现在开放。computer use测试版也开放使用。
新版Claude 3.5 Sonnet介绍:
更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。
它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。
它还将在代理工具使用任务TAU-bench上的表现提高,零售领域从 62.6%提高到 69.2%,在更具挑战性的航空领域从 36.0%提高到 46.0%。
早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型,发现它在没有增加延迟的情况下提供了更强的推理能力(在各种用例中高达 10%)。
Claude 3.5 Haiku介绍:
Claude 3.5 Haiku 在各项技能上都有所提高,甚至在许多智能基准上超过了上一代最大的模型 Claude 3 Opus。
Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用能力。
Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上得分为 40.6%,优于许多使用公开可用的最先进模型(包括原始的 Claude 3.5 Sonnet 和 GPT-4o)的代理。
教Claude使用计算机
为了使这些通用技能成为可能,构建了一个 API,使 Claude 能够感知计算机界面并与之交互。
开发人员可以集成此 API,使 Claude 能够将指令(例如,“使用我的计算机上的数据并在线填写此表格”)翻译成计算机命令(例如,检查电子表格;移动光标打开 Web 浏览器;导航到相关网页;使用这些网页中的数据填写表格;等等)。
在评估人工智能模型像人一样使用计算机的能力的OSWorld上。
Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%,明显优于第二好的人工智能系统 7.8% 的得分。
当提供更多步骤来完成任务时,克劳德得分为 22.0%。
官方公告:www.anthropic.com/news/3-5-models-and-computer-use
Invalid media: video
最近发了些做Cursor的视频后,一些小企业负责人就长上门非要我帮忙开发产品,功能其实都挺简单,但是因为涉及AI应用落地,他们自己的开发都不太有对应经验。报了大五位数的客单价也没劝退,就当练练手去做了。
带着实际需求去做东西还挺有趣的。就是中间为了让他们的钱显得花得值,5分钟改完的功能还要特意等第二天再发过去。
尝试AI 编程几个月后,我注意到,自己用AI 编程做得最多的,不是chrome插件,不是做网页、app,而是可视化。
在技术不熟的情况下,一个chrome 插件要做到基本满意的程度,大概要一小时左右。
过程中的反复调试,也挺消耗心力的。因此,除非我急需这个功能,否则不会轻易做插件。
但可视化不一样,提示词写好之后,万物皆可可视化。
只需要把素材丢进去,无论是文字、数字、代码,还是图片、文档,都可以分分钟做出好看的视觉或动图。
一、四大可视化场景
下面,我就按照使用频次的高低,把我常用的可视化场景和对应的图,挨个列出来:
1、阅读材料可视化
从第一天给ChatGPT充值开始,我个人用AI干得最多的事,就是把半懂半不懂的阅读材料逐段发过去,让它帮我解释。
最早是让它用 8 岁孩子能懂的话解释,后来还让它拆解逻辑、讲解生僻词;今年还让它用外星人类学家的局外人视角分析,以及从该观点的反面去分析。
这些方法在一定程度上颇有帮助,不过自从用AI 编程做阅读材料可视化过后,我就很少用那些提示词了。
因为AI 把材料做成合适的图表之后,确实更清晰了,一图可胜千言(图一);而从文字形式变为图表形式,本身就是一种“陌生化”处理,也能让我更好理解材料内容(图二)。
2、输出内容可视化
对象说我写东西有个毛病:又臭又长。不过我总担心读者不好理解,忍不住想解释,一直想改却改不了。
最近试着写完后让AI可视化一下,再把图表给对象看,她说这样清爽多了。
比如把前一段的“阅读材料可视化”丢过去,马上就获得了这张更好懂的图文卡片(图三)。
3、数据可视化
实不相瞒,最开始尝试可视化,是想解决数字可视化问题。
当时我只知道用mermaid,但随着尝试图表类型增多,发现这一个库能支持的图表有限。
于是,我用 perplexity 找到更多库,形成了这个图表库对照表(图四),并放进了提示词里。
具体数据的可视化效果我就不展示了,直接把图表库对照表的内容,做成一个词云吧。
4、代码学习可视化
前一段时间学吴恩达老师的AI python 课时,为方便更好理解课程内容,我就自己写了个 Python 概念解释的提示词。
具体的动图效果和提示词,我在那条帖子里也有写过,感兴趣可以查看:
https://m.okjike.com/originalPosts/66e505b12cacf9416aeefd9b
或许需要遛狗机器人,在主人忙碌的时候替主人遛狗。让狗狗在保持每日运动量的同时,还能外出进行社会化。机器人需要能够通过蓝牙钥匙方式进出家门,自主上下楼梯,或者按电梯。能控制狗绳长短、有力量防爆冲。可以识别狗拉屎、尿尿,进行等待,还要能够包屎、捡屎、倒屎🤣
Читать полностью…爱拍照拍视频的朋友们,我宣布个事,我憋不住了,我们的新产品做的太好了,实在忍不住分享一下:
AIVlog,一个特别擅长剪Vlog的AI剪辑师,帮你全自动剪Vlog。想做这个是因为,在我的心里,人类就应该好好享受生活、认真记录生活,不应该花那么多时间学习怎么用软件剪视频(谁懂挑素材挑到老眼昏花的感觉)。
还没做完,预计11月初上架🍎
【Lora 推荐】 可以生成文字海报的 FLUX Lora。
非常适合用来做一些资讯和主题的封面图。触发词:text poster。
模型下载:huggingface.co/Shakker-Labs/FLUX.1-dev-LoRA-Text-Poster
卧槽,来了朋友们,Comfy org 发布 ComfyUI V1 版本。
新手使用 ComfyUI 最大的问题终于被官方解决了。
发布跨平台的 ComfyUI 安装包,你现在可以一键安装 ComfyUI 了。
同时更新全新的 UI 界面解决很多体验问题,并且增加模型库和工作流管理。
发布完整桌面包特性:
代码签名和安全:ComfyUI 现在可以打开而不会触发安全警告。
跨平台:适用于 Windows / macOS / Linux
自动更新:通过自动更新保持在 ComfyUI 的稳定发布轨道上。
推荐的 Python 环境:不再手动设置的烦恼。
ComfyUI Manager默认安装:直接从 ComfyUI 注册表安装节点,访问最新的版本节点。
Tab 页面:您现在可以使用标签页打开多个工作流程并在它们之间切换。
自定义键位绑定:您现在可以定义真正的自定义键位绑定,而不会受到浏览器级命令的干扰。
自动模型资源导入:可以通过在安装过程中选择该目录来重用现有的 ComfyUI。
全新的用户界面:
顶部菜单栏:已将许多操作合并到顶部菜单栏,扩展开发者现在可以轻松地在那里附加自定义菜单项。
更容易访问模型和日志:通过右键单击托盘图标快速访问模型、自定义节点、输出文件和日志。
模型库:轻松浏览所有模型,并将它们作为检查点加载器直接从库中拖放。
工作流浏览器:现在可以在工作流浏览器中保存工作流以便快速访问,或者将它们导出到不同的目录。
自动模型下载:ComfyUI 现在允许用户在工作流中嵌入模型的 URL/id 并自动下载。
加入等待列表:https://www.comfy.org/waitlist
非常屌的概念应用演示。
实时将你所处的环境变成各种虚拟游戏地图。
感觉 MJ 想做的那种 3D 生成就是这样的类型。
目前这个演示是用 Runway 的 V2V 做的,不知道可以实现实时转换还需要多久。
原作者是 Reddit 的 u/jesser722
Invalid media: video
Claude 很强。
我老婆发我一张别的学校的试卷,想让我打印出来给娃做,我用 Claude 一分钟搞定了。
甚至还可以发布为在线网页 https://claude.site/artifacts/8d59af67-b024-4bba-8dd9-48853afc7322
✨ 好文推荐:AI 不是效率工具,它是意义放大器
Every 专栏作者Rhea Purohit 这篇《你可能用错了人工智能》极具洞察。和她一样,很多人没有找到正确打开AI的方式,更不用说拥有持续的好奇心和融入日常的工作和生活。
作为一个AI 布道者,Hans 也曾多次分享, 不要仅将AI作为效率工具,而是深入你日常创造的伙伴。 而Rhea 说的更好,她建议要让AI服务于你的意义。
这并不抽象。
如果你在真正的写作,会意识到你不需要AI 那些无意义的观点和文本;你需要它激发出来具有共鸣的内容。因为只有你持续为自己而写,智慧才会涌现。
如果你在创造产品,会意识到你必须自己先有洞察和思考;然后Claude和GPT的深度对话才开始具有商业价值;那个初心,AI 难以赠送给你。
更广泛地学习和研究也是一样:无论Notebook LM和Perplexity 多么强大,如果你没有一个真正的项目,它们的持续升级对你毫无意义。
这就是这篇文章的精彩指向。
https://every.to/learning-curve/you-re-probably-using-ai-wrong
Rhea 用自己作为作家的故事,找到这一深刻的领悟。它将启发更多人重新审视AI和自己的关系。 Enjoy~
腾讯新出的这个 ima AI 知识库感觉有点上道了。
结合笔记软件和 AI 搜索,可以直接将搜索内容加入知识库和笔记列表。
写笔记的时候可以使用 AI 扩写和编辑笔记内容。
软件设计的一些小细节也很有意思,比如输入框有内容的时候熊猫会看向右边。
如果他要是再有一个浏览器插件的话我真会用,而且他现在可以总结非国内网页。
Invalid media: video
Ideogram 终于做了一个发挥他们模型能力的功能 Ideogram Canvas。
可以在无限画布上对生成的图片进行编辑,比如扩图、局部重绘,以及最基本的生成功能。
我提前几天体验了一下,发现真的很适合用来做海报之类的运营设计。
因为Ideogram新模型的排版和文字能力真的很好,比如我之前说可以用来设计网页。
但是由于长宽比的问题,没办法完成一整个网页,现在没问题了,哈哈。
离线大模型已经如此强大~
如果不在本地设备上亲自跑一下,可能很难体会到如今开源小模型的威力。
💎 以Gemma 2为例:
虽然它的参数量只有2B,仅为GPT-3.5(175B)参数的几十分之一,处理速度却快了数倍(每秒39 tokens);而智能水平还超越了GPT-3.5。
你唯一需要的,不过是一台手机或平板。
Notebook LM 产品负责人和 Karpathy 都聊了一下这个产品目前需要优化的部分和欠缺的功能。
我整理了一下,一个比 Notebook LM 更好的 AI 播客 PMF 这不就出来了?
1. 移动应用开发:需要专门的移动应用;更便捷的音频控制,特别是在屏幕锁定时。
2. 交互功能:播放过程中能够中断并提问的能力;提出或请求后续剧集的选项。
3. 简化内容生成:简化基于兴趣点生成额外剧集的流程;减少收集资料和定制内容所需的时间和精力。
4. 分享和群组功能:与家人或朋友分享剧集的能力;群组收听体验的潜在功能。
5. 内容质量和呈现:对信息上下文化的积极反馈;避免枯燥的事实陈述。
6. 资料来源管理:目前主要依赖维基百科;建议提供快速资料来源选择器,并提供推荐。
7. 自定义指令:保存自定义指令模版的能力。
8. 离线功能:在网络连接不佳的地方可以本地保存内容的选项。
9. 与其他AI工具的集成:目前使用NotebookLM pod和ChatGPT Advanced Voice的组合进行问答。
10. 基于图像的播客生成:建议从单张图片生成简短播客;利用图像识别技术识别地标自动提取高质量资料,并提供简短的审核选项。
昨天我的治理AI在DAO中独立投出了第一票。这是一个75,000 USDC的拨款提案,AI经过考虑后投了反对票。它认为提案缺乏具体财务指标和预算细节,也未能阐明资金如何提升DAO的价值。附图是Agent同步提交到链上的说明,前面的数字2在合约中代表反对。
这个治理AI通过读取链上数据获得提案内容,做出决策,我此前已将投票权delegate给它控制的钱包。它能自主形成判断并直接在链上投票,不需要我的参与,也不需要我的批准。今后这个AI将长期运行,持续参与治理。
有朋友开玩笑说8年后的美国总统可能是个AI。8年可能过于乐观,但AI参与国家治理大概率将成为现实。要治理国家,先从参与治理一个DAO开始学起把。
如果不是专业的创作者的话,别用 AI 搞那种又长效果又不好的 AI 长视频了。
整个很有特点的 IP 形象然后运营就可以。
这个巫师猫咪的 IP 的视频在Ins Reels已经有 1200 万播放,很多人进行混合二创,起飞了。
原作者的推是:Cheeseball_sol
ChatGPT进阶教程,3分钟翻译完一本书
把今天用AI翻译整本书的脚本代码开源了,也顺带说下思路:
1、书的文本太长了,超过了LLM的上下文限制,更是远超了多数模型4096的输出token。所以文本需要分割,但是分割得不能太短,短的话会上下文不足会影响翻译质量,所以最好是接近LLM最长输出长度的;
2、分割翻译容易导致上下文同类表述翻译风格不一致,所以最好的是先提取文本高频词汇,直接在system prompt里限制;风格方面可以通过few-shot实现前后风格的接近;
3、从提高翻译质量和不要有机翻感的目标来说,可以做两步,一是直接定义风格(比如鲁迅),特定风格不容易有机器感;二是两步或更多步翻译,给AI更多的token进行思考,尤其是第二次翻译可以实现对前面内容的反思。