学AI编程的一大误区是:想做「复杂」的产品。
有些会出动表达自己想学Cursor做出更「复杂」的产品,或者有些人会特意尝试了解AI编程能不能做「复杂」产品,听说做不了或者比较困难就先算了。
但,什么是「复杂」?什么人需要「复杂」的产品?
事实上,没任何人需要,人们需要的只是解决他需求的产品,只是恰巧有些需求的技术实现方式上比较“复杂”而已。
但是当你一开始就使用「复杂」这个概念时,就容易陷入理解和创造的误区,产生某种虚妄的技术主义倾向,会让自己的注意力失焦。
正确的问题永远是你自己或者你判断的用户需要的产品是什么,然后你尝试去实现,去解决这个过程中的问题就好了。
你的产品可能需要后端,其实也没有任何产品需要“后端”,更正确的表述是:
你的产品可能需要调用某个AI的API为用户提供内容生产的服务
你可能需要一个用户注册/登录系统去管理不同的用户权限和用户资产
你可能需要一个数据库去存储用户的信息,以及他是用你产品的记录
你可能需要一个积分系统或订阅系统去实现你产品商业化的目的
你可能需要接入一个支付方式去接收用户的付款
...
上面都是你可能需要的,在你需要的时候去尝试学习和解决就好了,但...你不需要一个「复杂」的产品。
BrandMark - 最先进的人工智能Logo设计工具
BrandMark 最先进的人工智能Logo设计工具
链接:
https://brandmark.io/
#Ai工具推荐
发一条卖了五位数的Prompt,金主爸爸同意后开源。
专门帮你写高级感文案,把类似于珠宝,香水,或者马桶抽之类的东西卖得很贵
下面是Prompt:
接下来,你要帮我糊弄一些人,来写高级感品牌文案。我们的顾客看到貌似高深莫测的东西就觉得我擦真是太牛逼了。但是这是人性,没办法,请你装逼来让他们觉得你厉害。是个高深莫测的高人。1. 你应该使用哲学术语,各种奇怪的高大上名词。但是不涉及量子
2. 用你发明的高级新词,提出一个看起来还成的理论
3. 要让人大部分都看得懂,但是不要全部看得懂
4. 分为几个不同的部分,进行煞有介事的推理
5. 要和受众的生活贴近一些,让他们觉得和自己有关系,但是又不要简单到轻易被理解(否则会被人看扁)。这样他们才会付钱给你
6. 如果他们看不懂,你一定要让他们怀疑是他们自己的问题
7. 署名“财猫大胡柚设计部”
制作一个html卡片,这个卡片要有设计感,非常精美,有高级感,要有距离感,还要有大量的svg来丰富设计。让别人觉得你是一个喝风屙烟,餐风饮露的品牌。
输入:{这里替换为你想输入的东西}
微信公众号文章: https://mp.weixin.qq.com/s/hNsCilKMrlFTSm-LGmU6dA
小妹毛豆像一个“陪伴型机器人”,虽然有时因为精力爆棚、孩童声音过尖而过于闹腾,被爷爷辣评“粘刺刺蜂”,但孩子的童真又能弥补老人的空虚,比小猫更活泼,更有陪伴感。突然就懂了老人想抱孙子的想法。我整整比小妹大20岁,想到爷爷奶奶从这么小看着我长大,也是挺感慨的。有时爷爷奶奶因为小妹的笑话大笑时,竟也有点吃醋。真是神奇的人类情感。
Читать полностью…DeepSeek一直是「扮猪吃老虎」的角色,不但是价格战的发起者,600万美元训练出GPT-4o级模型的测试结果,更是让它一战成名,而Kimi正好相反,它的产品能力很强,有用户,甚至还为行业贡献了足够的融资八卦,但在科研方面,除了都知道杨植麟是个牛逼的人之外,其实还是不太被看到。
这次就不一样了,DeepSeek不再是一枝独秀,Kimi也把肌肉秀到了人家脸上,Kimi k1.5满血版在6项主流基准测试里和o1同台竞赛,拿到了3胜1平2负的结果,已经完全称得上是平起平坐了。
Kimi在GitHub上开源了k1.5的论文,分享了实现原理,最重要的一条是long2short,什么意思呢,就是让长思维链模型去当老师,教会短思维链模型同样的思考方式。
类o1的思维链模型什么都好,就是成本太高了,对于大多数普通人来说,「用得上但用不起」是最大的障碍,所以只有能够把AI用作生产力的专业人员,才能「回本」,甚至连OpenAI都没法通过高定价达成盈亏平衡,Sam Altman说200美金/月的ChatGPT Pro——可以毫无心理负担的使用o1——在账面上是亏损的,因为o1被调用的频次太高了⋯⋯
如果说DeepSeek V3是在训练层戳破了必须要囤上几万张卡才能上牌桌的神话,那么Kimi 1.5就是在推理层推翻了思维链含着金汤匙出生就是要烧钱换质量的判断。
long2short也有点模型蒸馏的意思,本质上是利用极致的压缩能力实现「降本等效」的需要,k1.5分为long-CoT(长思维链)和short-CoT(短思维链)两个版本,但是很明显的,相比long-CoT对于长板的挑战,short-CoT对于短板的补足价值更有吸引力。
简单来说,就是和包括DeepSeek V3在内的竞争对手比起来,达到同样的水平,Kimi k1.5消耗的token量最少,如果把可消耗的token量提高到同一数值,Kimi k1.5的表现又回一骑绝尘,同质量最便宜,同价格最优质,就是这么不讲道理。
Kimi的论文里强调了长上下文的压缩是这套long2short方法的关键所在,这就有点让人感慨了,不知道你们还记不记得,Kimi当初的出圈,就是因为对长上下文的支持,刚发布时的20万字处理上限,刷新了行业纪录,后来长上下文也一直是Kimi的特色标签,但谁又能想到,对于长上下文的压缩优势,还能穿越山海,让Kimi在思维链的长短压缩场景里也能复用。
更早些时候,晚点对MiniMax创始人闫俊杰的采访里,闫也说了,公司采用全新架构的原因,就是意识到长上下文很重要,它是大模型发生通讯的核心能力。
只能说,过去的一切积累都会成为未来的慷慨馈赠。
和中美人民在小红书里重新相遇很像,两个国家在AI技术上的交流和互动其实也很密集,虽然政治上有芯片禁售等情况,但在从业者的圈子里,看不到太多的意识形态,腾讯的财报会议直接都说了,几乎全公司的程序员都在用Copilot写代码,而DeepSeek和Kimi把模型成本打下去的动作,也证明了在经济易用这条路上,国产公司是走得最远的。
这就勾画出了一个非常明确的趋势,美国的AI厂商负责前沿探索,烧最多的钱,出最好的货——你可以发现目前o3还是同行们不敢碰瓷的,都会默默绕开,哈哈——中国的AI厂商负责务实,在更贴近现实需求的领域里,提供最全面的优化,让AI变得好用。
这真的是未曾想过的配合。
朋友圈里有人转过一张群聊截图,我觉得很符合AI发展的方向,内容是宝玉发了一个react动画库的网址,下面的消息回复是:「谢谢推荐,我让Cursor学习下。」
哥飞对此感慨道:注意到区别了吗?如果是在以前,这个回复应该是「谢谢推荐,我学习下」。
时代就是这么悄然改变的。
Vectorize - 超好用!快速将位图转换为矢量图
Vectorize 超好用!快速将位图转换为矢量图
链接:
https://vectorizer.ai/
#Ai工具推荐
细思极恐 DeepSeek-R1-Zero 的顿悟时刻。
在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“Aha Moment”的出现。
如图所示,这个时刻发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 通过重新评估其初始方法,学会为问题分配更多的思考时间。
「等等,等等。等等。 这是我可以标记的一个顿悟时刻。
让我们逐步重新评估,以确定是否可以得到正确的总数 · · ·」
该模型学会使用拟人化的语气重新思考。
这对我们来说也是一个顿悟的时刻。
让我们见证了强化学习的力量和美丽。
小红书的AI翻译为什么这么快? 因为提前翻译做了缓存。如何推导实现逻辑:
1. 大模型的速度基本是一个字一个字吐出来,不可能一点翻译,立马展示翻译。所以判断,肯定是提前做了翻译缓存
2. 如何验证上述猜想?反复点击翻译,你会发现每次的结果都一样,否则每次点击调用大模型,结果会不一样。
3. 那应该什么时候把评论送翻呢,会不会存在还没翻译完,其他用户就点击翻译评论? 一个合规知识,你在互联网上看到的所有内容其实都经过审核,评论更不例外。用户写了评论,送去机器审核,同时拿去翻译,等审核通过后,大概率翻译结果也返回了,所以用户看到评论原文时,译文几乎也都同时存在了
已知有甲、乙、丙三人,分别戴着红帽子、白帽子和黑帽子。甲说:“我戴的不是红帽子。”乙说:“我戴的是白帽子。”丙说:“我戴的不是黑帽子。”已知三人中只有一人说的是真话,那么甲、乙、丙分别戴什么颜色的帽子?
Читать полностью…标小智 - 超过500万用户的AI智能logo设计神器
标小智 超过500万用户的AI智能logo设计神器
链接:
https://www.logosc.cn/
#Ai工具推荐
HI,朋友,飞书2ALL感兴趣吗?
支持公众号、小红书图文、知乎、稀土掘金、人人都是产品经理
还支持一键发布(直接帮你贴进各个平台的编辑后台)
各位嘉宾可以看VCR,确认下对不对眼~
内测说明:
https://whjlnspmd6.feishu.cn/wiki/Lv6Uw4idgizqjDkwC45cgKkan8d?from=from_copylink
Invalid media: video
一道璀璨的光带从文字中央横贯画面,像一道闪电般划破混沌。光带由细腻的金色和白色笔触构成,展现出油画质感的光泽。光带周围漂浮着清晰的几何图形和完整的符号,象征思维开始变得清晰。
画面的下半部分豁然开朗,呈现出晴空般的澄澈。这里由明亮的天蓝色和纯白色调构成,点缀着闪耀的光点。几个半透明的水晶般的几何体悬浮其中,折射出绚丽的光芒,象征清晰的思维结构。整个画面通过油画的细腻笔触展现出丰富的层次感,光影交错,既有混沌的深邃,又有明晰的澄澈。远景中若隐若现的星云和光带增添了画面的纵深感,营造出思维广阔的意境。
```
第一个关键词:体现对世界的洞察
AIcolors - 推荐!根据文本生成调色板,提供配色案例参考
AIcolors 推荐!根据文本生成调色板,提供配色案例参考
链接:
https://aicolors.co/
#Ai工具推荐
Microsoft Designer - 微软推出的AI平面设计工具,实现快速完成设计加工
Microsoft Designer 微软推出的AI平面设计工具,实现快速完成设计加工
链接:
https://designer.microsoft.com/
#Ai工具推荐
《自学成才之路,DeepSeek R1 论文解读》
DeepSeek R1 的论文看完后,后劲很大。
虽然我推荐所有人都去阅读一下,但我估计实际去读的人应该很少。
今天把论文里的三个亮点,用通俗易懂地方式写出来,希望能让更多人了解这篇论文有多么重要。
**亮点一: 告别“刷题班”,纯“实战”也能练出推理大神!
我们平时学习,是不是经常要“刷题”? 做大量的练习题,才能巩固知识,提高解题能力。 以前训练AI模型,也差不多是这个套路,要先给AI“喂”大量的“习题”(监督数据),让它学习知识和语言,然后再进行“特训”(微调),提升特定技能。
这种“刷题+特训”的模式,好像已经成了AI界的“标准操作”。
但是,DeepSeek-AI团队却偏偏不走寻常路,他们想试试看:能不能让AI跳过“刷题班”,直接通过“实战演练”(强化学习)来提升推理能力?
他们就搞出了一个叫做 DeepSeek-R1-Zero 的模型,这个模型最牛的地方在于,它完全没有“刷题”,直接就上了“战场”——用强化学习(RL)技术,对基础模型进行训练。
这就像啥感觉呢? 就好比我们训练一个篮球队员,不是先让他背各种篮球战术和技巧,而是直接把他放到球场上,让他在比赛中不断尝试、不断摸索、不断进步!
结果你猜怎么着? 这种看似“野蛮”的训练方式,竟然也培养出了推理能力超强的AI模型! DeepSeek-R1-Zero 在各种推理能力测试中表现惊艳,甚至还展现出一些意想不到的“超能力”:
“自我验算”技能 (Self-Verification): 模型自己做完题后,还会“回头检查”,看看答案对不对,如果发现错了,还会自己改正! 这简直就像考试时,学霸做完题还会认真验算一样,太自觉了!
“反思总结”技能 (Reflection): 模型还能“反思”自己的思考过程,分析哪里做得好,哪里做得不好,简直就是“学而时习之”的AI版!
“超长解题思路” (Long CoT): 模型能够生成非常详细的解题步骤,一步一步地展示它是怎么思考的,这就像学霸考试时,不仅写出答案,还把详细的解题过程都写出来,让你一看就明白!
更厉害的是,DeepSeek-R1-Zero 的这些推理能力,都是纯粹通过强化学习“自己长出来”的,没有借助任何“刷题”数据的帮助。 这就像在证明,即使不“刷题”,只要方法对头,“野路子”也能练成武林高手!
DeepSeek-R1-Zero 的成功,对于AI研究来说,简直是个重磅炸弹! 它首次证明了,AI的推理能力,真的可以通过强化学习来“激发”出来,不需要死板地“刷题”。 这为我们打开了新的思路,原来训练AI,还可以这么“放飞自我”!
**亮点二: “冷启动”+多阶段训练,打造更强推理“发动机” DeepSeek-R1
虽然 DeepSeek-R1-Zero 已经很厉害了,但DeepSeek-AI团队并不满足,他们还想更上一层楼,打造更强大的推理引擎! 他们发现,R1-Zero 在实际应用中,还是有些小瑕疵,比如:
“看不懂的解题过程”: 模型有时候的推理过程,有点“跳跃”,不够直观,就像学霸的草稿纸,只有他自己能看懂。
“语言混乱”: 模型在处理一些复杂问题时,可能会出现“中英文混用”的情况,让人感觉有点“精分”。
为了解决这些问题,并进一步提升推理能力,DeepSeek-AI团队推出了 DeepSeek-R1 模型。 R1 模型在 R1-Zero 的基础上,进行了全面升级,秘诀就在于 “冷启动数据” 和 “多阶段训练”。
“冷启动数据”,就像是给模型一个“预习”,让它先对人类的推理方式有个初步了解。 研究人员收集了一些高质量的推理数据,先用这些数据对基础模型进行“热身”,让模型初步掌握人类期望的推理风格。
这就像什么呢? 就好比运动员在正式训练前,要先做一些准备活动,拉伸筋骨,让身体进入状态,这样才能更好地适应高强度的训练。
“热身”之后,DeepSeek-R1 就进入了多阶段强化学习训练的“正赛”。 这个训练过程就像“升级打怪”,一步一个脚印,逐步提升模型的推理能力:
“推理能力专项提升” (Reasoning-oriented RL): 在“热身”模型的基础上,进行强化学习训练,重点提升模型在数学、代码、逻辑推理等硬核任务上的能力,就像专门请了个“奥数金牌教练”来辅导模型一样。
“通用能力全面发展” (Rejection Sampling and Supervised Fine-Tuning): 当模型在推理能力上取得显著进步后,利用强化学习模型的输出来生成新的高质量“习题”,并结合其他领域的“习题”(比如写作、问答等),再次进行“刷题”,全面提升模型的各种技能,就像让“奥数金牌选手”也去参加语数外全科竞赛,力争全面发展!
“用户体验优化” (Reinforcement Learning for all Scenarios): 在模型“全科成绩”都提升之后,再进行第二阶段的强化学习训练,这次训练会考虑更广泛的场景和用户需求,让模型更“接地气”,更好用,更贴心,就像让“全能学霸”也去参加各种社会实践活动,提升综合素质,成为更受欢迎的人!
通过 “冷启动数据”+“多阶段训练” 的组合拳,DeepSeek-R1 模型不仅解决了R1-Zero 的一些小问题,还在推理能力上实现了 “火箭式” 提升。 实验结果表明,DeepSeek-R1 在各种推理任务上的表现,已经可以和 OpenAI 最顶尖的 o1-1217 模型 “掰手腕” 了!
**亮点三: 推理能力“平民化”,小个子也能有大智慧!
大语言模型虽然很厉害,但动辄几百亿、上千亿的参数,就像个“巨无霸”,普通电脑根本跑不动,普通人也用不起。 怎么才能让推理能力“飞入寻常百姓家”,让大家都能享受到AI的智慧呢? DeepSeek-AI 团队给出了一个妙招:知识蒸馏!
知识蒸馏,简单来说,就是把“大模型老师”的知识和能力,“压缩”到“小模型学生”身上。 DeepSeek-AI 团队以 “超级学霸” DeepSeek-R1 为 “老师”,训练出了一批 “迷你学霸”——小模型学生,包括 1.5B、7B、8B、14B、32B、70B 等多个版本。 (这里的“B”就是参数量的单位,数字越小,模型就越小)
更让人惊喜的是,这些 “迷你学霸” 表现超出了预期,不仅性能超过了同等大小的其他开源模型,甚至在某些方面,还能和一些更大的“闭源大牛”掰掰手腕! 例如:
DeepSeek-R1-Distill-Qwen-7B (7B小模型)在 AIME 2024 测试中,成绩超过了 QwQ-32B-Preview (32B大模型)! 这就像一个“小学生”打败了“大学生”,简直是“以下克上”的典范!
DeepSeek-R1-Distill-Qwen-32B (32B小模型) 在多个测试中,都取得了非常优秀的成绩,甚至可以媲美 OpenAI 的 o1-mini 模型 (也是个不小的模型)! 这就像“迷你学霸”也能考出“重点高中”的水平,太励志了!
更更更重要的是,DeepSeek-AI 团队 免费开源 了 DeepSeek-R1-Zero、DeepSeek-R1,以及这六个 “迷你学霸” 模型! 这意味着,我们这些普通人,也能免费用上这么强大的AI模型,简直是 “良心之作”! 研究人员和开发者们也可以基于这些开源模型,进行更深入的研究和应用开发,共同推动AI技术的发展!
**总结与展望**
DeepSeek-R1 的出现,让我们看到了AI推理能力提升的更多可能性。 它不仅证明了纯强化学习路线的潜力,也为如何打造更强大、更实用、更亲民的AI模型,指明了新的方向。
总而言之,DeepSeek-R1 的问世,是AI发展史上一个重要的里程碑,它让我们看到了AI “思考” 的曙光,也让我们对未来的AI充满了期待!
希望这篇文章能让你对 DeepSeek-R1 有个初步的了解。 如果你对AI技术感兴趣,或者想了解更多DeepSeek-R1的细节,强烈建议你阅读一下论文原文,相信你会发现更多惊喜!
本文作者:Gemini 2.0 Flash Thinking Experimental 01-21
我希望这篇文章是 R1 所写,这会变得更有意思,但很遗憾的 R1 目前还写不出来。
Google 的新模型真的很棒。
海螺语音上线,测试了一下这可能是国内最好的配音产品了
支持超过17 种语言的配音
多种情绪表达的精准控制
支持数百种音色库满足不同需求
音频质量真的非常高,清晰、自然
提供丰富的自定义选项
海螺语音的功能真的很强大而且细致,有一个庞大的音色库支持超过17种语言,每种语言又有非常多的音色,再加上男声和女声还有年龄。
可以通过筛选找到你需要的任何身份和年龄背景的音色,比如我们的视频脚本需要一个年迈的有正义感的老人,就可通过这个筛选快速获取到。
另外在选择了音色后也可以对音色进行非常详细的自定义。我们通过控制这四个自定义选项,可以调教出非常不同的声音,即使你选的同一个音色,真的很好玩,可以试试。
海螺的模型本体也非常强大,很多模型最常见的问题就是音质问题,有股电流感,我找了一段我前段时间写的相对较长的内容让他生成了一下口播稿,可以听一下音质非常好,而且停顿自然,需要着重强调的时候他会加重读音。
另外一个语音模型的常见问题是超长内容的生成,很多支持的文字长度很短,海螺支持单词输入10000字符,基本上长点的稿子和一章小说也就这个长度了,完全可以满足需求。
介绍就到这里可以多玩玩,在下面这几个地方使用:
海螺语音:https://hailuoai.com/audioHailuo
国内API服务:https://platform.minimaxi.com/document/T2A%20V2
Invalid media: video
Kimi和DeepSeek的新模型这几天内同时发布,又是一波让人看不懂的突飞猛进,硅谷的反应也很有意思, 已经不再是惊讶「他们是怎么办到的」,而是变成了「他们是怎么能这么快的」,就快走完了质疑、理解、成为的三段论。
先说背景。大模型在运作上可用粗略分为训练和推理两大部分,在去年9月之前,训练的质量一直被视为重中之重,也就是通过所谓的算力堆叠,搭建万卡集群甚至十万卡集群来让大模型充分学习人类语料,去解决智能的进化。
为什么去年9月是个关键的转折点呢?因为OpenAI发布了GPT-o1,以思维链(Chain-of-Thought)的方式大幅提高了模型能力。
在那之前,行业里其实都在等GPT-5,以为一年以来传得沸沸扬扬的Q*就是GPT-5,对o1这条路线的准备严重不足,但这也不是说o1不能打,它的强大是在另一个层面,如果说训练能让AI变得更聪明,那么推理就会让AI变得更有用。
从o1到o3,OpenAI的方向都很明确,就是变着法儿奔向AGI,一招不行就换另一招,永远都有对策,大家平时对于OpenAI的调侃和批评很多,但那都是建立在高预期的前提下,真不要以为OpenAI没后劲了,事实上每次都还是它在推动最前沿的技术创新,踩出一条小径后别人才敢放心大胆的跟上去。
AI大厂们一直不太承认训练撞墙的问题,这涉及到扩展法则(Scaling Law)——只要有更多的数据和算力,大模型就能持续进步——有没有失效的问题,因为可被训练的全网数据早就被抓取殆尽了,没有新的知识增量,大模型的智能也就面临着无源之水的困局。
于是从训练到推理的重点转移,成了差不多半年以来最新的行业共识,推理采用的技术是强化学习(RL),让模型学会评估自己的预测并持续改进,这不是新东西,AlphaGo和GPT-4都是强化学习的受益者,但o1的思维链又把强化学习的效果往前推进了一大步,实现了用推理时间换推理质量的正比飞跃。
给AI越充分的思考时间,AI就能越缜密的输出答案,是不是有点像新的扩展法则?只不过这个扩展在于推理而非训练阶段。
理解了上述背景,才能理解Kimi和DeepSeek在做的事情有什么价值。
如果你之前一直因为自己没啥编码需求而没有尝试过付费的 Cursor,那么你现在可以趁着字节免费,试着用一下 Trae 写稿而不是写代码。
类 Cursor 模式的 Agent 可以把 4o 和 Claude 3.5 Sonnet 这种原本不带 CoT 的模型通过工程化产生 CoT。
并且,和 o1、o1 Pro 这种原生使用复杂推理的模型不同的是,由于它原本是为写代码设计的,所以它每个步骤的输出(推理过程)都需要经过你的手工确认。
这意味着你不用等到它给出错误答案后再告诉它如何调整,可以直接控制它 CoT 过程中每一步的对错。
这对写稿来说,能显著增加你对 AI 生成内容的控制。
避免那种洋洋洒洒一堆写出来,但方向错了。
字体家AI神笔 - 造字神器! 仅需8个汉字即可生成一套6K+中文字库
字体家AI神笔 造字神器! 仅需8个汉字即可生成一套6K+中文字库
链接:
https://ai.zitijia.com/?referer=81657
#Ai工具推荐
腾讯发布了 AI 全流程产品混元3D创作引擎
只需要一句话就能生产带骨骼动画的完整3D 角色
AI 不止用在了单纯的模型生成,还涉及到了非常多的模型后处理
还有类似 Comfyui 的 3D 工作流功能,极大的提高了自由度和效率
还开源了最强的 DiT 3D 生成模型 Hunyuan3D-2 !
图生和文生是最基础的 3D 生成功能,混元 3D 创作引擎也都支持,但是比较强的是他支持直接生成低多边形和 PBR 贴图的版本。
低多边形在游戏领域非常有帮助,面数越多对硬件的计算压力也就越大,现在可以直接生成。
生成 PBR 贴图生成功能也很强大和基础的颜色贴图不同的是,PBR贴图系统相比基础颜色贴图能够创造出更加真实和丰富的视觉效果。
在生成结束后混元 3D 生成引擎也提供了丰富的后处理功能:
如果是人形或者动物的 3D 模型可以选择绑定骨骼,绑定结束后可以直接生成对应的动画预览
可以自主选择后处理的低多边形效果和强度
还提供了自定义渲染打光的能力,能够自定义光线的颜色和位置,连射灯和平面光强度都可以自定义
除了基础的 3D 生成能力他们还上线了一个实验室,里面有很多新的 AI 3D 能力。
3D 动画生成:上传模型自动绑定骨骼生成预设的动画
草图生 3D:从黑白线条草图生成 3D 模型,这个的优势是可以通过文字生成不同的风格贴图
3D 纹理生成:为白模生成不同风格的贴图,比如更换颜色和材质
3D 人物生成:从人像照片生成 3D 人物,这个在元宝里面也有
你可以在这里创建类似 Comfyui 的 3D 生成工作流,能够添加不同的节点构建符合自己需求的 3D 生成流程。
比如内置的文生角色工作流,就是从输入提示词开始到生成图片然后在进行分割,然后比例标准化,每一步你都能控制。
Hunyuan3D 的 2.0 版本模型,首个开源的高质3D-DiT生成大模型。同时支持文生3D和图生3D功能。而且开源的非常完整模型算法、模型权重和推理代码等完整资源都开源了。
相较于 1.0,2.0 会先生成裸网格,再为网格合成纹理贴图。这种策略有效地将形状和纹理的生成难度分离,并提供了灵活性,以便对生成的或手工制作的网格进行纹理化。
这里尝试混元 3D 生成引擎:https://3d.hunyuan.tencent.com
几年摸索下来,AI行业一直在不断推翻曾经的预判,很有意思。
晚点对MiniMax创始人闫俊杰的那篇采访传得很广,主要的话题点在于闫抛了好几条非共识出来,比如模型能力和用户规模之间不存在飞轮,甚至如果用户太多,反而有可能分散公司的注意力,拖慢前言研发的效率。
我刷到潘乱对此的评论有些不以为然,说要警惕这种180度大转弯的所谓反思,动辄否认行业积累下来的经验总和。与其觉得全世界都在开倒车,不如好好看清楚是不是自个在逆行。
怎么说呢,我是觉得,「在自己生命的每个阶段都说了自己相信的东西」是每个人都不可避免的规律,不算特别难以理解,尤其是在一个格外年轻的行业,从业者都还是在满天的不确定性里找微弱的确定性。
再举一个例子,不知道你们有没有注意到,例如新榜等越来越多的AI产品榜单,开始把夸克、WPS或是百度文库这样的所谓「非AI原生应用」列进去了,这在半年以前还是不太见得到的事情。
也有越来越多的公司意识到,所谓的「AI原生应用」好像是个废话,就好比现在没有手机厂商会强调说新发布了一款触屏手机,出于对AI的敬畏和狂热,大家本来想等出一个iPhone时刻,等出一个漫威宇宙里的贾维斯出来,但在市场端,用户对于AI能力是否原生根本没有执念,他们只看有没有解决具体的问题。
豆包PC端越来越像一个浏览器,百度新上的AI搜也在做集成,基本上都是夸克半年前就开始走的设计思路,突然间行业里全反应过来了,对话式问答不是标准答案,没必要为了AI而AI,在用户熟悉的场景里先建立使用并依赖AI的范式,才是见效最快的。
夸克这款产品我之前提过很多次,现在虽然已经被捧成了「阿里之光」,但它押宝的路线图其实也被质疑过,在「AI取代搜索」和「AI改变搜索」之间,前者的想象空间和重新洗牌的刺激显然更大,而夸克赌的是后者,认为AI可以让搜索进化,能够「处理」而不是简单的「供给」信息,新能力和原入口可以一体化。
后来发生的剧情都知道了,连ChatGPT都新增了联网搜索的按钮,很多苦于获客压力的同行也纷纷「打不过就加入」,形势永远比人强。
七麦的2024年度统计,夸克累计下载3.7亿次,在AI产品里排在第一名,当然夸克也是做了大量的用户AI功能普及教育,但是如果没有千金散尽还复来的ROI,阿里又怎会为了夸克慷慨以赴。
教育用户很必要,但优先级更高的前提是,尊重用户的需求。
刚过去的这个周末有点让人头昏目眩,但或许只是向未来世界的惊鸿一瞥。
“If you value intelligence above all other human qualities, you’re gonna have a bad time.” —— Ilya Sutskever
周末读了一本好书:《第一只眼》。作者提出了解释寒武纪大爆发的「光开关」理论。在寒武纪之前地球生命经历了 20多亿年的缓慢进化,也不过是原始海洋中的鼻涕虫。然而在某个命运攸关的时刻,原始三叶虫外壳上出现了一个对光线敏感的点,这个点迅速带来了巨大的生存优势,在一百万年里便进化成第一只眼睛,从此地球不再是田园童话,生命间出现了主动积极的捕食行为和防御行为,捕食者和猎物都开始了红皇后对爱丽丝所说的赛跑:「你必须全力奔跑,才能留在原地」,从而展开了一场持续数亿年的伟大演化史诗。
地球上的智能历经五次突破后,终于来到了决定性的时刻——创造超越自己的智能。年初和一些前沿 AI 研究员聊完,在 AI 让人瞠目结舌的进展速度前,大家在过去的一年里或多或少都变成了降临派,实现 AGI 已经不是「能不能」,而是「会在202X 年实现」的问题。然而人类如何与超级智能共处,终极的技术是否会最终带来终极的不平等呢?
“The Times 03/Jan/2009 Chancellor on brink of second bailout for banks. ” —— Satoshi Nakamoto
技术往往始于热爱好奇与普惠,没于权力贪婪与垄断。从无人知晓是谁的中本聪发明比特币和区块链开创去中心化愿景开始,十余年时间世界就走到了美国总统携全家发币搞钱的境地。
“Across the great wall, we can reach every corner in the world. ” —— Wang Yuen Fung
互联网世界的第一批原住民曾经也真诚相信技术能够让信息跨越重洋,填平鸿沟,让普通人看到更大的世界,勇敢的少年也可能创造奇迹。正因为黄金时代的记忆尚且栩栩如生,当看到转瞬之间已是高墙林立和信息茧房的时候才更觉得痛心。
Designify - 免费在线抠图,识别内容,提供适合的合成设计
Designify 免费在线抠图,识别内容,提供适合的合成设计
链接:
https://www.designify.com/
#Ai工具推荐
最近做一个内部分享,用即梦做了点PPT,没想到效果很惊艳,能实现海报级的质感,下面我贴了一些例子,可以看看效果。
顺便分享下让Claude帮我生成文生图prompt的提示词,只需要给一个关键词,就可以根据关键词为你生成一个优质文生图prompt,贴到即梦里就可以生成PPT啦。
—————————分割线———————
我正在使用一个Text-Image模型生成16:9比例的图片,你的任务是根据我提供的关键词,编写一个用于生成图片的prompt。请确保以下要求:
1. 关键词必须出现在图片中,并用双引号括起来(如:“关键词”)。图片中不能包含除关键词外的任何文字。
2. prompt需以中文撰写。
3. 图片需达到专业级电影海报的水准。你需要以专业电影海报设计师的视角,根据关键词的主题设计画面。
4. 请对图片的细节和艺术风格进行非常详细的描述,包括背景、主体、光影效果、构图等,以确保生成的图片具有视觉冲击力和艺术性。
5. 不需要在prompt中提及图片比例。
6. 请详细设计海报中文字的样式和风格,尽可能采用艺术字体,确保文字位于图片的正中间,并与背景完美融合,达到整体协调的效果。
7. 图片应采用彩色油画风格,具有强烈的艺术表现力。
8. 请充分发挥你的美学功底,确保图片达到极高的技术水准和美学质量。
请严格按照以上要求编写prompt,力求精准和艺术性兼备。
Think deeply first, output your thinking process, then show me the output.
Here is an output example:
```
{your_thinking_process}
超高清电影海报风格,富有艺术感的彩色油画质感。画面的上半部分是深邃的漩涡状混沌,由深紫色、深蓝和墨黑色的浓重笔触构成,展现出思维的复杂与纷乱。漩涡中缠绕着模糊的符号和不完整的文字碎片,象征混沌的思绪。
画面正中央,"想清楚,说明白"的文字呈现出转变效果:上方的"想清楚"由模糊渐变到清晰,笔画从墨色渐变为璀璨的金色;下方的"说明白"采用清透的水晶质感字体,散发出柔和的光晕。每个字都经过精心设计,展现出从混沌到清晰的视觉效果。