纳米搜索这个 AI 搜索简直是创作者神器!
任何热点都能一键生成播客和视频快速分发。
搜索生成结果从文本拓展到了更多模态。
尤其是真人语音模型很自然。
下面是我用Lex的视频文稿生成的
这里尝试纳米搜索:http://n.cn/
播客生成:
App 中获取搜索结果后点击下方播放 UI 的分享按钮就可以下载生成的播客。
除了可以在声音市场(点击左上角头像→声音)选择既有的声音之外,还可自定义上传自己或家人的声音。
视频生成:
生成视频的时候只需要提供文档的链接就行,也可以从搜索结果提取。
然后 AI 会根据已有内容自动生成不同风格的口播稿和标题,当然你也可以自己再修改。
最后根据润色完的文本生成视频或者播客或者文档,他们甚至专门为不同的视频渠道做了适配,比如抖音和小红书的行文风格和标题就会不一样。
以 NotebookLM 为代表的 AI 交互新范式说了好久了,国内的跟进的是真的慢,反倒不管行不行都开始搞生成了。
但是今天发布的纳米搜索是我最近发现把这套融合的非常好的,甚至比 Perplexity 做的都很好。
他们把 AI 搜索完全做成了多模态的创作工具。
AI 时代以前的搜索引擎只能对文本进行处理,AI 时代的搜素引擎不再是内容检索工具而是内容生成工具和消费工具。
未来一个内容的消费场景会覆盖视频、图片、播客、数据图、PPT 甚至是不同的软件和交互布局。
和生财有术航海家沟通下来,发现目前 AI 领域有四大流派:
主流叙事 To VC派+ 传统工具出海派+ 新型套壳个体户派+商学院私董会派
亦仁说,存在着两种“看不见”:
传统做 App 的团队看不见ai网站的机会,因为网站没有 data.ai 和 sensortower 这种榜单;但凭借 AI 概念加持,很多半死不活的 App 工具厂商迎来第二春。
站长派,做 AI 网站的人,大多数是草根,看不见 App 的机会(开发成本也偏高) ,擅长 SEO 和蹭热点,或者去找达人/私域推广,甚至玩坏了 product hunt。
两种领域,都有人在赚钱,但互相融合的不多。
但,中国 90% 以上流量在 App 里(比如微信搜索 小红书搜索 和抖音搜索的体量,已经不亚于百度)
但在国外,web/PC 端的流量,还是和移动 App 端等量齐观的。尤其在北美等 Tier1 区域。
7. OpenAI 最初开放的 API 协议已经成了一个约定俗成的标准,后来的大模型在开放自家 API 时都会选择兼容 OpenAI 的 API,主要原因有两个:一是 OpenAI 的 API 开放的早,很多应用接入了,兼容它对第三方接入友好;二是 OpenAI 的 API 实现的确实很规范,照着模范生抄作业何乐不为。MCP 会不会也跟 OpenAI 的 API 协议一样,成为行业内的新标准,这个问题取决于先有鸡还是先有蛋:如果有足够多的第三方服务基于这套协议开放了自己的服务,其他大模型/应用客户端应该会跟进;如果主流的大模型/应用客户端都支持了这套协议,那么作为一个第三方,也肯定愿意按这套协议开放自己的服务(比起为 GPTs / Coze / Dify 分别写一个 API 给智能体调用,MCP 服务只需要写一次,可以在任意支持 MCP 的客户端调用)。
8. MCP 目前不支持 Remote Server,不能在网页版调用,只能在 Claude 桌面版使用。我写了一个用 Claude 客户端分析群聊记录的程序,结合实例来看 MCP 的应用,很好理解。MCP 的想象空间还是很大的,未来可期。
个人经验之谈,有表达不当之处,欢迎补充讨论。🌚
Qwen2vl-Flux 这个模型用 Qwen2VL 替换了 FLUX 中的 T5 模型。
让 FLUX 的多模态图像理解和提示词理解变得很强。
- 无文本图像直接基于图像生成图像
- 类似 IPA 将图片和文字结合生成对应风格的图片
- GridDot控制面板,细致的风格提取
- ControlNet 集成,支持 Depth 和 canny
模型下载:https://huggingface.co/Djrango/Qwen2vl-Flux
分享一个快速下载 huggingface 巨大模型文件的方法:当下载开始后,在 Chrome 里复制下载链接,然后粘到任意一个你有会员的下载器里(迅雷/夸克/百度云都可以试试)
速度会瞬间感人……
📣今日上午优惠总结
===============
269.0🉐紫色回货了!骆驼山海夹克冲锋衣
https://08x6am0.kuaizhan.com/?_s=uaiLS4
389.0🉐骆驼火山羽绒服男加厚冬季
https://08x6am0.kuaizhan.com/?_s=waiLS4
78.0🉐【棉服+400g连帽/高领加绒卫衣】森马两件套
https://08x6am0.kuaizhan.com/?_s=yaiLS4
49.9🉐啄木鸟官旗!加绒毛衣高领款
https://08x6am0.kuaizhan.com/?_s=zaiLS4
88.0🉐炸!高档货!森马3防三合一机能冲锋衣
https://08x6am0.kuaizhan.com/?_s=BaiLS4
39.9🉐炸!班尼路官方!420G重磅绒运动裤卫衣外套
https://08x6am0.kuaizhan.com/?_s=CaiLS4
39.9🉐【品质超硬】芬腾情侣款德绒保暖内衣套装
https://08x6am0.kuaizhan.com/?_s=DaiLS4
69.9🉐啄木鸟官旗!加绒加厚棉服
https://08x6am0.kuaizhan.com/?_s=EaiLS4
终于有可以直接生成 3D 场景的模型了。
英伟达发布 Edify 3D 生成模型。
可以利用 Agents 自动判断提示词场景中需要的模型,生成后将他们组合为一个场景。
Edify 3D 可以在两分钟内生成详细的、可用于生产的 3D 资源、生成有组织的 UV 贴图、4K 纹理和 PBR 材质
项目介绍:https://research.nvidia.com/labs/dir/edify-3d/
Invalid media: video
Claude 封号越来越凶了...
早晨起来群里又是一片哀嚎
我被封了!wc 我也被封了!我都被封麻了!
大家都在找国产平替 Claude
有位群友推荐了通义
因为上周通义发布了最强的开源代码模型 Qwen Coder 2.5
这个模型不仅达到了开源代码模型的最强水平
而且还和4o、Claude 3.5 都打得有来有回
通义PC官网上线了代码模式,用的就是这个模型
这是一个代码小白也可以用来写网页的工具,有点类似 Claude Artifact
输入自己的小需求,它就会自动生成相应的网页小工具
比如图里的这几个,计算器、单词卡
俄罗斯方块这样的小游戏也不在话下
虽然目前第一版有时候还会有点小bug
不过毕竟免费不限量使用,未来还是值得期待一下的
如果需要可以去通义官网试试,APP 应该还没上
通义官网指路
https://tongyi.aliyun.com/qianwen/
AI 可能是一种新的印刷术。
印刷术让内容复制大为便利。在15-16世纪,印刷术的崛起,打破了各大教堂对文本的控制。在印刷术崛起前的1424年,剑桥大学图书馆总共只有122本书。在印刷术崛起后的1454年至1500年的46年中,欧洲印刷了超过1200万册图书。
AI可能是一种新的印刷术。这种印刷术,在内容压缩的基础上,让内容的remix变得极为便利。任何用户都有能力通过AI产生内容。印刷,让人人可复制内容。AI,让人人能创作内容。
然而有意思的是,印刷术本身,并没有产生科学。但没有印刷术,科学在人类中的发展速度大概率会慢很多。AI可能也类似。AI本身产生不了创新,但AI工具可以极大帮助创新发生。本需要50-100年发生的创新,有了AI后,很可能能在接下来5-10年内发生。这非常让人激动。
AI硬件方向主理人Mark又更新啦
新增手势传感,反应很灵敏哈,我有那么一点有付费意愿啦。
客观的讲,如果不是研究学习以及二次开发,付费意愿还是不够。
最近与他一起参加阿里AI硬件的黑客松,顺手打算做一套智能体长期记忆与认知。立个小flag,半年后达到自己满意的效果。
89.99元包邮秒杀!
👉2024新款!鸿星尔克加厚保暖立领棉衣/
👉2🛒fu致(Kk2J3HFm5rX):// CZ3457🍑寶:/
--------------------
【国货之光线下商超热卖】每款每个颜色都好好看呀!是面包服的版型,穿着保暖的同时还不显胖!秋冬第/一件棉服就选它了!
--------------------
下单地址:https://08x6am0.kuaizhan.com/?_s=xd8iS4
音频模型最好的 Eleven Labs 终于做了这个功能。
你现在可以在 Elevenreader app 里面将收藏的文档、链接、电子书转换为智能播客。
声音相当自然,支持 32 种语言。
📣今日上午优惠总结
===============
199.0🉐199元王炸!骆驼男女同款加绒登山服
https://08x6am0.kuaizhan.com/?_s=yLR4T4
189.0🉐骆驼运动外套女春秋冬
https://08x6am0.kuaizhan.com/?_s=zLR4T4
79.0🉐骆驼户外抓绒衣男2024春秋摇粒绒上衣
https://08x6am0.kuaizhan.com/?_s=BLR4T4
158.0🉐【NASAURBAN】2024新款美式潮牌男女羽绒服
https://08x6am0.kuaizhan.com/?_s=CLR4T4
99.9🉐【迪士尼】加绒四件套A类牛奶绒加厚被套
https://08x6am0.kuaizhan.com/?_s=DLR4T4
59.9🉐A类母婴级原棉大豆秋冬被加厚保暖10斤
https://08x6am0.kuaizhan.com/?_s=FLR4T4
29.9🉐猫人纯棉男士内裤3条!
https://08x6am0.kuaizhan.com/?_s=ILR4T4
16.9🉐【森马加厚】羊毛麻花中筒袜
https://08x6am0.kuaizhan.com/?_s=KLR4T4
16.9🉐【雅鹿情侣】羊毛中式复古袜子5双
https://08x6am0.kuaizhan.com/?_s=NLR4T4
59.9🉐【宝派】羊绒护贴男女款保暖内衣
https://08x6am0.kuaizhan.com/?_s=PLR4T4
19.9🉐【5双】足燕秋冬男女防裂袜子
https://08x6am0.kuaizhan.com/?_s=RLR4T4
聊几点我对 Anthropic MCP 的看法:
1. 并没有像自媒体鼓吹的那样夸张,还不至于让 AI 行业变天,依然有很长的路要走;
2. 可以简单理解跟大模型已经支持的 Function Calling 是同一个东西,本质是为了让大模型可以调用外挂的服务,对接更多的数据和能力,再作为补充上下文回答用户的问题;
3. 区别点在于:Function Calling 由大模型通过 HTTP 请求第三方的外挂 API,而 MCP 是由大模型通过 RPC 请求第三方的外挂服务;
4. 从接入方式上看,Function Calling 更简单,第三方只需要写一个 API,再在大模型配置对 API 的请求参数即可。MCP 接入起来要复杂一些,第三方需要写个服务,实现协议里定义的 RPC 方法,再在大模型里面配置服务地址和参数,大模型客户端在启动的时候需要做一次服务发现,再连接到配置的 RPC 服务,才能在后续对话过程调用;
5. Function Calling 和 MCP 的核心和难点都在于大模型侧的意图识别,用户随机提问,如何找到匹配的外挂服务,实现 RAG,这是所有大模型面临的通用难题(比如 ChatGPT 有几百万的 GPTs 应用,如何根据用户提问路由到最匹配的那个 GPTs 来回答问题),MCP 协议并不能解决这个问题。Claude 客户端目前的实现方式,是让用户自己写个配置文件,告诉大模型有哪些可以调用的服务,再由 Claude 在对话时自动识别,跟 ChatGPT 之前让用户选择使用哪些 Plugins 的逻辑一致;
6. MCP 的亮点是定义了一套标准且相对完善的协议,对于大模型和应用的生态协同有很大的指导意义。类似由微软提出并在 VS Code 实现的 LSP 协议一样(定义了编辑器如何与第三方语言服务交互,实现代码补全/类型约束/错误提示等功能)。MCP 协议的适用对象主要是大模型/应用客户端和第三方服务,跟 LSP 不同的是,编程语言的数量相对有限,最多几百个语言服务,社区协同下很快就能全部支持,编辑器可以根据文件的后缀快速定位到要调用的语言服务。MCP 适用的第三方服务是海量的,MCP 的发展取决于有多少第三方服务愿意基于这套协议去实现 RPC 服务,最关键的还是大模型/应用客户端对海量 MCP 服务的路由寻址问题(没有固定的后缀,只能靠意图识别或者人工配置)。
卧槽,怪不得Runway要发图像模型狙击
Luma 的这套交互流程更新太牛批了。
将文字、图像、视频融合到一个流程中为创意服务,太强了,一定要试试。
具体更新内容:
- 发布ios客户端
- 创新的线性聊天交互页面,真正释放创意
- Luma Photon 图像模型
- 支持混合任何图片类型和风格
- 单张图片实现角色一致性
Invalid media: video
一个很好玩的 AI 自动剪辑视频项目。
将你上传的的多段视频、图片和音频根据提示词剪辑为一整个视频。
思路跟我前几天的快速视频剪切工具一样,通过 Qwen2.5-Coder 模型生成对应的 ffmpeg 命令现实的。
实现有点糙,但思路可以借鉴。
这里体验:https://huggingface.co/spaces/huggingface-projects/ai-video-composer
今天来上海706的Cursor AI 编程黑客松玩,
真 从0开始,甚至是现场开始下载安装Cursor+找基础教程。
我把一个已经想的比较细的需求做成网页,
不夸张的说,就我一个人实操的情况下,
10min搞定前端页面,
剩下60min主要在测prompts、接后台…
全程基本只在Curosr内完成,
最后竟然真的能run起来🙀
对我这样0编程基础的人来说冲击实在是太大了,
感觉积攒了很多idea但卡在没有足够的开发资源这个点上纠结的今天之前的我就是个纯🤡
个人创作的边界又大大扩展了😼
这几个LLM常识你懂几个?
记得Andrej Kapathy
在微软2023Build大会大会上分享过
State of GPT
于是翻出来看了下
发现很多意外的惊喜
图1:Prompt是什么?
Prompt弥补了人类大脑和LLM大脑两种认知架构的差异
人类要用自然语言进行编程
也需要深入理解模型的行为和反应
图2:描述了人类的思考逻辑
o1的出现恰恰是模仿了人类这个思维链
图3、图4:为何CoT(思维链)有效?
因为Transformer架构对每个Token块分配相同的短时间
所以复杂任务你必须要让他思考更长时间
即用更多Token块来让模型有时间思考
图5:为何大模型不会调用工具?
因为大模型不知道他不知道的
之前的语料里就没有何时应该用工具
如何用工具的内容
所以它不知道
太有意思了!
对话谷歌首席科学家Jeff Dean:AI将成为继PC之后的第二次计算革命,改变人类工作方式
大多数人有个误区:认为人人都能利用AI,其实不是的。只有本身就很强很有创造力的人才能驾驭AI——很强的人再利用了AI之后会变得超级强。你要能问出一个好问题,AI才能给你更好的结果,今天没有能力和没有创造力的人,其实是无法真正驾驭AI的,根本就“启发”不了AI,也就无法完成人机协作。AI时代人类的贫富分化会超过现在100倍,因为很多人公司就十来个人,但是却拥有几百万个24小时提供服务的AI数字员工。