手搓机器人成长记—基于Arduino的桌面机器人,简化版Looi_哔哩哔哩_bilibili
终于突破了人脸识别跟踪了,从rust的 opencv,到 node的opencv,分类器,又换了tensorflow,一路下来换了10几个方案,最后用了face-ip算是暂时解决了。
很难得的是,克制了自己想要直接动手改代码的冲动,全程AI辅助完成了。
Mac 上最顺手的翻译和OCR软件大更新。
支持了一大波各种大模型 API。
同时智谱还赞助了一个免费的 API,开箱即用,善莫大焉。
独立开发者和大模型公司的这种合作还是很好的,各取所需。
马上要万圣节了,今天刷到一个Lora很应景,有做中式恐怖内容的朋友可以试一下。
中式恐怖妆造,味道确实很正,大白天看的我都害怕。
详情页胆小慎入。
这里下载:www.liblib.art/modelinfo/42dd2c71701c41f1b4c786cca420bcd0
Arc 浏览器的公司宣布,将不会有 Arc 2.0
因为 Arc 虽好,但是很难上手
而一旦上手就成了死忠,拒绝交互的改变
于是官方决定尊重用户,直接开发一款全新的,AI Native 的,每个人都会操作的新产品。
新产品没有名字,甚至可能不是浏览器,那是什么呢?
只能从这个视频的一些 demo 里自己感受了
Invalid media: video
Claude 很强。
我老婆发我一张别的学校的试卷,想让我打印出来给娃做,我用 Claude 一分钟搞定了。
甚至还可以发布为在线网页 https://claude.site/artifacts/8d59af67-b024-4bba-8dd9-48853afc7322
✨ 好文推荐:AI 不是效率工具,它是意义放大器
Every 专栏作者Rhea Purohit 这篇《你可能用错了人工智能》极具洞察。和她一样,很多人没有找到正确打开AI的方式,更不用说拥有持续的好奇心和融入日常的工作和生活。
作为一个AI 布道者,Hans 也曾多次分享, 不要仅将AI作为效率工具,而是深入你日常创造的伙伴。 而Rhea 说的更好,她建议要让AI服务于你的意义。
这并不抽象。
如果你在真正的写作,会意识到你不需要AI 那些无意义的观点和文本;你需要它激发出来具有共鸣的内容。因为只有你持续为自己而写,智慧才会涌现。
如果你在创造产品,会意识到你必须自己先有洞察和思考;然后Claude和GPT的深度对话才开始具有商业价值;那个初心,AI 难以赠送给你。
更广泛地学习和研究也是一样:无论Notebook LM和Perplexity 多么强大,如果你没有一个真正的项目,它们的持续升级对你毫无意义。
这就是这篇文章的精彩指向。
https://every.to/learning-curve/you-re-probably-using-ai-wrong
Rhea 用自己作为作家的故事,找到这一深刻的领悟。它将启发更多人重新审视AI和自己的关系。 Enjoy~
腾讯新出的这个 ima AI 知识库感觉有点上道了。
结合笔记软件和 AI 搜索,可以直接将搜索内容加入知识库和笔记列表。
写笔记的时候可以使用 AI 扩写和编辑笔记内容。
软件设计的一些小细节也很有意思,比如输入框有内容的时候熊猫会看向右边。
如果他要是再有一个浏览器插件的话我真会用,而且他现在可以总结非国内网页。
Invalid media: video
Ideogram 终于做了一个发挥他们模型能力的功能 Ideogram Canvas。
可以在无限画布上对生成的图片进行编辑,比如扩图、局部重绘,以及最基本的生成功能。
我提前几天体验了一下,发现真的很适合用来做海报之类的运营设计。
因为Ideogram新模型的排版和文字能力真的很好,比如我之前说可以用来设计网页。
但是由于长宽比的问题,没办法完成一整个网页,现在没问题了,哈哈。
离线大模型已经如此强大~
如果不在本地设备上亲自跑一下,可能很难体会到如今开源小模型的威力。
💎 以Gemma 2为例:
虽然它的参数量只有2B,仅为GPT-3.5(175B)参数的几十分之一,处理速度却快了数倍(每秒39 tokens);而智能水平还超越了GPT-3.5。
你唯一需要的,不过是一台手机或平板。
📣今日上午优惠总结
===============
129.0🉐【骆驼旗舰店】情侣款防泼水运动工装裤
https://07qjpl4.kuaizhan.com/?_s=Lx4pM4
59.0🉐秋冬必备【骆驼】男女加绒长袖内胆卫衣
https://07qjpl4.kuaizhan.com/?_s=Px4pM4
199.0🉐199元王炸!骆驼官旗夹克冲锋衣
https://07qjpl4.kuaizhan.com/?_s=Qx4pM4
69.0🉐女款运动休闲圆领卫衣
https://07qjpl4.kuaizhan.com/?_s=Sx4pM4
59.0🉐路森!奥粒绒秋冬连帽卫衣
https://07qjpl4.kuaizhan.com/?_s=Vx4pM4
199.0🉐王炸!【骆驼】情侣防风防水登山服
https://07qjpl4.kuaizhan.com/?_s=0y4pM4
199.0🉐【骆驼】加绒情侣夹克冲锋衣
https://07qjpl4.kuaizhan.com/?_s=1y4pM4
19.9🉐冬款李宁纯棉防臭运动袜3双
https://07qjpl4.kuaizhan.com/?_s=3y4pM4
19.9🉐正品!!【李宁】纯棉袜3双
https://07qjpl4.kuaizhan.com/?_s=5y4pM4
399.0🉐叠服饰卷319!骆驼男装登山服夹克
https://07qjpl4.kuaizhan.com/?_s=8y4pM4
159.0🉐MY爆款2024冬季新款情侣羽绒服A
https://07qjpl4.kuaizhan.com/?_s=by4pM4
29.9🉐快锁库存!中国回力秋冬卫裤情侣款
https://07qjpl4.kuaizhan.com/?_s=cy4pM4
49.9🉐鸭宝宝7A抗菌男女同款亲子装保暖套装
https://07qjpl4.kuaizhan.com/?_s=ey4pM4
49.9🉐鸭宝宝男女同款加绒加厚六仿保暖防风裤
https://07qjpl4.kuaizhan.com/?_s=fy4pM4
359.0🉐【服饰券299】骆驼火山羽绒服连帽加厚
https://07qjpl4.kuaizhan.com/?_s=iy4pM4
29.0🉐【猫人】石墨烯抗菌男士内裤三条装
https://07qjpl4.kuaizhan.com/?_s=jy4pM4
27.8🉐【任选8件】南方黑芝麻糊到手24袋
https://07qjpl4.kuaizhan.com/?_s=ky4pM4
89.0🉐蒙牛低脂高钙中老年奶粉800g*2罐
https://07qjpl4.kuaizhan.com/?_s=my4pM4
52.0🉐特步秋冬保暖圆领加绒卫衣
https://07qjpl4.kuaizhan.com/?_s=ny4pM4
大模型生产力绘图,来了!
全文:https://mp.weixin.qq.com/s/bJbZ9bwPXxlpyREqLKhDvA
下面这些图,都是Claude这类大模型帮我绘制
内容涵盖海报,PPT,思维导图,中国水墨风画,名片,游戏界面,物体 等等
AI 大模型尽管不是为制作图片而生,但是绘图能力现在也出奇的好。
相比mj, sd 这些生图方法,大模型制图能够真正意义上制作 海报,架构图,思维导图,流程图等生产力绘图,具备巨大的优势。
同时,在简笔画,留白大写意这种作品上,也有着出奇的表现。
我花了两天的时间探索大模型绘图的各种可能,按之前的习惯,写成了系统论述文章发布。
目前来看,大模型理解能力已经很好,输出的上下文会是一个不小的限制。如果输出的上下文能够更长,一句话生成一个复杂的app,一个PPT,都是可以的,这也是轻易可预见的未来!
和AI的成长性相比,人类还是太渺小了
很久之前我就说过,用户的需求从来就不是写 prompt 指挥 AI
而是直接说需求「做个抖音出来」
这就是技术和用户之间巨大的 Gap
但是,就在刚刚...
我打开 bolt new,让它做一个抖音出来
它真的做了一个抖音出来...
😲
来看看这段录屏吧
Invalid media: video
AI 神器推荐!自动分离人声与 BGM 音频 - 小红书
😍【AI 神器推荐—aifuse】之前刷短视频时,不时会发现自己喜欢的音频,但音频里时常又夹杂了很多人声,正好最近发现一个挺好用的 AI 工具,可以完美分离人声和音频,推荐给大家:https://www.aifuse.cn/
#AI的神奇用法
Invalid media: image
PodLM 发布到 ProductHunt 了,这是一个好玩的 AI 播客创作产品,目标是将任何内容转换成有趣的播客输出,请大家帮忙投个票,感谢支持👇
https://www.producthunt.com/posts/podlm
.
✅0噜必备‼️一定要领3️⃣次❗️必中❗️
第1️⃣次https://u.jd.com/MGV1i8c
第2️⃣次https://u.jd.com/MGV1i8c
第3️⃣次https://u.jd.com/MGV1i8c
Meta 上周开源了一个端到端的语音模型 Spirit LM。
这个太重要了,居然没注意到。
这个模型有两个版本:
基础版: 适合进行一般的语音识别和生成,不包含情感变化。
高表现力版:可以捕捉语音中的情感特征,能够生成包含快乐、愤怒或兴奋等情感的语音。
主要特点有:
Spirit LM 直接使用语音标记、音高标记和声调标记 来保留语音中的表现力要素,不需要先转文本描述。
能够在不需要大量数据的情况下,完成自动语音识别、文本转语音和语音分类等复杂任务。
项目地址:speechbot.github.io/spiritlm/
论文:arxiv.org/pdf/2402.05755
大的来了!
Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet 也来了,Claude 3.5 Sonnet 推理得分超过O1。
而且 Claude 现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本。
升级 Claude 3.5 Sonnet 现在开放。computer use测试版也开放使用。
新版Claude 3.5 Sonnet介绍:
更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。
它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。
它还将在代理工具使用任务TAU-bench上的表现提高,零售领域从 62.6%提高到 69.2%,在更具挑战性的航空领域从 36.0%提高到 46.0%。
早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型,发现它在没有增加延迟的情况下提供了更强的推理能力(在各种用例中高达 10%)。
Claude 3.5 Haiku介绍:
Claude 3.5 Haiku 在各项技能上都有所提高,甚至在许多智能基准上超过了上一代最大的模型 Claude 3 Opus。
Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用能力。
Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上得分为 40.6%,优于许多使用公开可用的最先进模型(包括原始的 Claude 3.5 Sonnet 和 GPT-4o)的代理。
教Claude使用计算机
为了使这些通用技能成为可能,构建了一个 API,使 Claude 能够感知计算机界面并与之交互。
开发人员可以集成此 API,使 Claude 能够将指令(例如,“使用我的计算机上的数据并在线填写此表格”)翻译成计算机命令(例如,检查电子表格;移动光标打开 Web 浏览器;导航到相关网页;使用这些网页中的数据填写表格;等等)。
在评估人工智能模型像人一样使用计算机的能力的OSWorld上。
Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%,明显优于第二好的人工智能系统 7.8% 的得分。
当提供更多步骤来完成任务时,克劳德得分为 22.0%。
官方公告:www.anthropic.com/news/3-5-models-and-computer-use
Invalid media: video
最近发了些做Cursor的视频后,一些小企业负责人就长上门非要我帮忙开发产品,功能其实都挺简单,但是因为涉及AI应用落地,他们自己的开发都不太有对应经验。报了大五位数的客单价也没劝退,就当练练手去做了。
带着实际需求去做东西还挺有趣的。就是中间为了让他们的钱显得花得值,5分钟改完的功能还要特意等第二天再发过去。
尝试AI 编程几个月后,我注意到,自己用AI 编程做得最多的,不是chrome插件,不是做网页、app,而是可视化。
在技术不熟的情况下,一个chrome 插件要做到基本满意的程度,大概要一小时左右。
过程中的反复调试,也挺消耗心力的。因此,除非我急需这个功能,否则不会轻易做插件。
但可视化不一样,提示词写好之后,万物皆可可视化。
只需要把素材丢进去,无论是文字、数字、代码,还是图片、文档,都可以分分钟做出好看的视觉或动图。
一、四大可视化场景
下面,我就按照使用频次的高低,把我常用的可视化场景和对应的图,挨个列出来:
1、阅读材料可视化
从第一天给ChatGPT充值开始,我个人用AI干得最多的事,就是把半懂半不懂的阅读材料逐段发过去,让它帮我解释。
最早是让它用 8 岁孩子能懂的话解释,后来还让它拆解逻辑、讲解生僻词;今年还让它用外星人类学家的局外人视角分析,以及从该观点的反面去分析。
这些方法在一定程度上颇有帮助,不过自从用AI 编程做阅读材料可视化过后,我就很少用那些提示词了。
因为AI 把材料做成合适的图表之后,确实更清晰了,一图可胜千言(图一);而从文字形式变为图表形式,本身就是一种“陌生化”处理,也能让我更好理解材料内容(图二)。
2、输出内容可视化
对象说我写东西有个毛病:又臭又长。不过我总担心读者不好理解,忍不住想解释,一直想改却改不了。
最近试着写完后让AI可视化一下,再把图表给对象看,她说这样清爽多了。
比如把前一段的“阅读材料可视化”丢过去,马上就获得了这张更好懂的图文卡片(图三)。
3、数据可视化
实不相瞒,最开始尝试可视化,是想解决数字可视化问题。
当时我只知道用mermaid,但随着尝试图表类型增多,发现这一个库能支持的图表有限。
于是,我用 perplexity 找到更多库,形成了这个图表库对照表(图四),并放进了提示词里。
具体数据的可视化效果我就不展示了,直接把图表库对照表的内容,做成一个词云吧。
4、代码学习可视化
前一段时间学吴恩达老师的AI python 课时,为方便更好理解课程内容,我就自己写了个 Python 概念解释的提示词。
具体的动图效果和提示词,我在那条帖子里也有写过,感兴趣可以查看:
https://m.okjike.com/originalPosts/66e505b12cacf9416aeefd9b
或许需要遛狗机器人,在主人忙碌的时候替主人遛狗。让狗狗在保持每日运动量的同时,还能外出进行社会化。机器人需要能够通过蓝牙钥匙方式进出家门,自主上下楼梯,或者按电梯。能控制狗绳长短、有力量防爆冲。可以识别狗拉屎、尿尿,进行等待,还要能够包屎、捡屎、倒屎🤣
Читать полностью…爱拍照拍视频的朋友们,我宣布个事,我憋不住了,我们的新产品做的太好了,实在忍不住分享一下:
AIVlog,一个特别擅长剪Vlog的AI剪辑师,帮你全自动剪Vlog。想做这个是因为,在我的心里,人类就应该好好享受生活、认真记录生活,不应该花那么多时间学习怎么用软件剪视频(谁懂挑素材挑到老眼昏花的感觉)。
还没做完,预计11月初上架🍎
【Lora 推荐】 可以生成文字海报的 FLUX Lora。
非常适合用来做一些资讯和主题的封面图。触发词:text poster。
模型下载:huggingface.co/Shakker-Labs/FLUX.1-dev-LoRA-Text-Poster