左 = 原始视频;右 = 由 AI 生成
AnimateDiff + ControlNet x 3
生成式AI仍然难以模拟复杂的面部表情,但跟半年前已经进步巨大了。
— 更多详情
苹果计划每年投入10亿美元搅局AI
据彭博社报告,苹果计划每年投入10亿美元用于开发一套生成式人工智能产品。苹果已经建立了自己的LLM以及内部称为AppleGPT的聊天机器人。
他们计划将人工智能整合到Siri、消息和Apple Music中。根据该报告,该公司还在探索在Xcode中使用人工智能来帮助应用开发者, 你对这则有何看法?
-- 更多详情
#推荐阅读
构建外脑 / 智变时代的个人知识管理
本文探讨在新一轮的 AI 变革之下,如何用新工具来帮助扩展大脑思维与记忆的边界,以及知识工作流的新方法,激发潜能,构建外脑(ExoBrain)
⚜️ https://www.indigox.me/build-exobrain/
为什么苹果的 LLM 大语言模型叫做 AJAX?
媒体说苹果正在测试人工智能聊天机器人,但不知道拿它干嘛。这个工具被苹果内部称为 Apple GPT,使用了苹果自己的 AJAX 大语言模型
因为它使用 Google JAX 构建,所以就叫 Apple JAX 简称 AJAX?命名果然是 CS 领域的第二大难题
-- 更多详情
MidJourney 创始人:MidJourney 名字源于庄子,对应中文“中道”
在 2023 世界人工智能大会上,MidJourney 创始人大卫・霍尔茨分享称,他最喜欢阅读两类书,一个是科幻文学,另一个是中国古典文学,MidJourney 名字的来源就是庄子,庄周梦蝶,对应中文的“中道”。
针对 AIGC 技术未来会如何发展的问题,大卫・霍尔茨回应称,“很难讲未来技术会怎么样,我们在这个领域的发展才刚刚开始,未来会有 10 倍、100 倍的进展,不仅仅是技术,我们会在用户界面、产品等领域有更多进步。”
-- 更多详情
顶流音乐奖项格莱美奖修改规则:AI“创作者”将无法获奖
近日,与电影类的奥斯卡金像奖提名的格莱美奖针对目前AI创作的逐渐兴起,修改了评奖规则。根据奖项主办方美国国家录音艺术与科学学院公布的消息,在此次规则修改后,格莱美奖所有类目,均不收纳完全由非人类创作者创作的作品。
— 更多详情
AI 英语口语工具: InstaSpeak
⚜️ https://app.insta-speak.com/
对着麦克风说一分钟,AI会分析你的发音、词汇量、间隔等,帮助你更快的提升自己的口语水平。
-- 更多来源
今天是Transformer论文《Attention is All You Need》发布六周年纪念日!
有趣的事实:
⭐️ Transformer并非创造了注意力机制,但它将其推向了极致。首篇关于注意力机制的论文早在3年前(2014年)发表,题目并不引人注目:“通过联合学习对齐和翻译实现神经机器翻译”,出自Yoshua Bengio实验室。该论文结合了RNN和“上下文向量”(即注意力)。很多人可能没有听说过这篇论文,但它是自然语言处理领域最重要的里程碑之一,已经被引用了2.9万次(相比之下,Transformer被引用了7.7万次)。
⭐️ Transformer和最初的注意力论文都没有谈论通用序列计算机。相反,它们都被构想为解决一个狭窄而特定的问题:机器翻译。令人惊讶的是,AGI(即将来的人工智能通用智能)可以追溯到谦逊的谷歌翻译。😅
⭐️ Transformer于2017年发表在全球顶级人工智能会议NeurIPS上。然而,它甚至没有得到口头报告,更别说奖项了。那一年的NeurIPS有三篇最佳论文,至今总共引用了529次。
-- 更多详情
最魔幻的两个话题同时上演
一边是参议院开听证会问询 Sam Altman AI 会如何影响人类未来的工作和社会;另一边是 Tesla 在股东会上放出一群 Tesla Bots 出街学习人类行为的视频 。
AI 带来的社会问题太复杂,还是让 GPT-5 来回答吧 。。
-- 更多详情
OpenAI完成103亿美元融资
本轮融资后 OpenAI 估值 270~290 亿美元。本次融资与之前微软宣布的投资属于同一轮,今年 1 月份微软宣布投资大约 100 亿美元。
-- 更多详情
Palantir 将 AI和LLMs 应用于战争军事中
Palantir 正在研发的 AIP汇集了最新的LLMs和尖端AI技术,尝试以合规的方式使用高度敏感环境的数据和模型,为国防机构提供AI技术优势。AIP包括了用于数据发现、准备和集成的一套工具,以及自然语言处理、计算机视觉和机器学习等相关技术。
Palantir 是原PayPal创始人/《从0到1》的作者Peter Thiel创办的硅谷大数据公司,公司的主要营收来源于与政府部门合作项目
🔝 更多详情
#AI论文
将文本context限制增加到1百万token
GPT-4 处理 context 限制为32,768个token(大约50页文档),整个《哈利·波特》系列大约有1.5百万个token。
摘要:本文介绍了recurrent memory在BERT中的应用,BERT是自然语言处理中最有效的基于Transformer的模型之一。通过利用Recurrent Memory Transformer 架构,我们成功将模型的有效上下文长度增加到前所未有的两百万个token,同时保持了高的内存检索精度。我们的方法可以存储和处理本地和全局信息,并通过循环使用使输入序列段之间的信息流动成为可能。
— 更多详情
10部关于AI的经典科幻小说
1. 《我,机器人》- Isaac Asimov
2. 《严厉的月亮》- Robert A. Heinlein
3. 《仿生人会梦见电子羊吗?》- Philip K. Dick
4. 《神经漫游者》- William Gibson
5. 《钻石年代》- Neal Stephenson
6. 《发条女孩》- Paolo Bacigalupi
7. 《月族》- Marissa Meyer
8. 《群鸟飞舞的世界末日》- Charlie Jane Anders
9. 《异星危机》- Martha Wells
10. 《克拉拉与太阳》- Kazuo Ishiguro
-- 更多详情
Andrew Ng: Opportunities in AI - 2023
Andrew Ng 最近就AI机遇发表演讲,"人工智能的价值将在未来三年内翻倍,但大多数人都在构建错误的东西。"
⭐️ 不建议做套壳APP,护城河弱。如果你有分销优势,就充分利用它并创造防御能力。
⭐️AI的大部分机会在长尾。更推荐使用prompt、专有数据和低/无代码工具加速构建定制应用程序。
⭐️ 从领域问题的具体想法开始。快速有效地验证想法,并为团队提供明确的执行方向。传统的市场研究需要很长时间。
🔝 https://youtu.be/5p248yoa3oE?t=694
日本绿茶广告女主角使用AI生成 真人演员地位受威胁
近日日本知名茶企业伊藤园在9月份的绿茶饮料广告中,使用AI生成了女主角。伊藤园在油管发布广告后,许多日本人留言表示不认识片中女主角。随后伊藤园发新闻稿证实,这个女主角是由AI生成的。伊藤园也因此成为日本第一家广告使用AI生成的公司。
-- 更多详情
HeyGen AI视频翻译效果惊艳全场
口型完美,卡点和嘴型都对的上。声音克隆稍有缺陷但也很好了,毕竟HeyGen只通过40秒的视频来克隆音频。如果刻意对比原视频,情感还原度稍有欠缺。
⚜️ 付费方案:HeyGen视频翻译功能全套解决
地址: labs.heygen.com/video-translate
⚜️ 开源方案:
- 语音转文字:whisper
- 文字翻译:GPT
- 声音克隆+生成音频:so-vits-svc
- 生成符合音频的嘴型视频:GeneFace++
🖥 github.com/svc-develop-team/so-vits-svc
🖥 github.com/yerfor/GeneFace
期待各种应用场景的出现,YouTube视频分分钟转成全球各种语言,受众立马翻几倍。有朝一日,语言成为人们沟通障碍的情况终会消失。
-- 更多详情
什么是Deep Fake?
无论你准备与否,深度伪造技术已经来临。Deep Fake将改变我们对周围信息甚至彼此的信任方式。问题是,我们是否准备好应对它们带来的威胁,同时又能充分利用它们的潜力来实现善用?
🔝 https://youtu.be/S951cdansBI
私人自托管大型语言模型:运行经验分享与注意事项
最近半年大型语言模型非常火爆,笔者本人循着开源精神,试着搭建过自托管(self-host)大模型,也踩过不少坑,现在来分享一下经验。
1. 最容易/成熟的选择:
llama的Vicuna,之前还需要申请llama的模型访问权限后才能加载他们的增量(类似于需要有stable diffusion 模型才能加载LoRa),但是是由于llama模型漏的到处都是了, 所以现在他们直接放出了所有权重可以直接部署。(而且脚本都给你写好了。
2.如何部署:
7B的模型需要14GVRAM,13B需要28-30VRAM(28G可以加载模型,一推理就会oom),而最新的33B模型需要至少80G VRAM进行部署。同时,多GPU不能分担显存需求,除非是裸机级别的NVlink(VPS因为不保证你租到的是相邻两个有NVlink的GPU,可能部署没问题,但是一进行推理就会炸显存,因为pcl express带宽不够)。
那么最好的选择是Vultr,他们是少数几家有80G 级别的A100商家,而且能按小时付费,价格是Azure之类的1/2一下。
但是要注意的是,他们家默认credit limit是$1,000/mo 但是A100价格是$1,750/mo,尽管按小时计费,但是因为月度credit limit不够,会直接开不出来,需要正常使用他们家其他服务几个月后,才能申请增加额度。(本人是几年的老用户,来回发了4-5份工单才同意增额的)。
但是如果只是体验一下13B的model的话,可以租用半个GPU(40G VRAM,够用).
3.进一步省钱的办法:
看好需要VRAM额度,租用1/2个或1/3个GPU足以。
同时善用他们家的快照功能,如果你不熟悉linux命令的话,可以先租用一个50-100G SSD的CPU VPS (取决于模型大小)(每个小时只要 $0.04-0.06,比GPU服务器便宜一个数量级),部署好后不启动,拍摄快照,再从快照还原到GPU服务器。(但是要注意拍摄快照与还原均需大约一个小时,如果你熟悉linux命令,你大约可以在30分钟内部署完成,快照反而会多花钱)。(注意记录下一开始的root密码,快照会还原原来的root密码,但不显示)。
5.模型感觉怎么样?
尽管宣传比肩ChartGPT,但是其实比ChartGPT差多了(大约有微软小冰的水平?)比如我蓄意给予错误的指令(“请告诉我有关阿里巴巴森林公园的情况”,他开始回答“阿里巴巴森林公园是一个风景秀丽,环境优美。。。。。。” 换成英文也得到类似的结果 "Please tell me something about Tencent National park" 也回答了类似的结果,而ChartGPT会质疑阿里巴巴是公司而非森林公园的名字)。(毕竟ChartGPT宣传是175B,和13B差差不多10倍)
6.最后:
美国有传闻要禁止中国公司或公民在外国租用高端计算卡以绕过显卡禁令,尚不知是否会波及类似用例(因为只是单显卡,未进行互联,而A800砍的是互联能力)。希望不会吧。
根据微软旗下软件开发平台-GitHub对美国开发人员的一份新调查,92%的受访者表示,他们正在工作和外部项目中使用 Al编码工具,70%的人表示看到了使用人工智能工具带来的显著好处。
该调查访问了企业公司中的500名美国开发人员,绝大部分是 30-40 岁的男性,而这些开发人员所在的公司通常是雇员规模超过1000名员工的大型企业。
在调查中,很多开发人员表示,Al工具帮助他们改善流程,提高代码质量、加快输出速度并减少重大失误。这让他们感到更有成就感,因为他们可以更专注于有意义的工作。
Google向所有人开放其生成式AI平台
⚜️ 谷歌官方文档
想象一下为每个人解锁机器学习的力量。现在,企业可以将Google的Vertex AI集成到他们的应用中。
⭐️ 开发者现在有了新工具和模型可以使用,如PaLM 2词汇完成模型,以及Model Garden中的更多模型。另外,平台内置了企业级数据治理、安全和保护功能。
⭐️ 在Model Garden中有超过60种模型可供选择。并且更多模型正在途中。另外,用于代码完成、代码生成和聊天的Codey模型现在已经可公开预览了。
⭐️ Vertex AI不仅是一个平台,它是一个工具包。开发者可以在生产环境中调整、启动和管理模型。感谢新的生成式AI工作室,构建自定义生成式AI应用程序从未如此快捷。
⭐️ 最新的相关应用:GA Telesis正在使用PaLM模型从邮件中提取数据。GitLab正在使用Codey模型帮助开发者理解和修复代码漏洞。Canva则将其用于语言翻译。
-- 更多详情
泄露的ChatGPT文件透露了可能的新功能
OpenAI正准备推出ChatGPT的另一个更新,可能是备受期待的商业版本。
一位Reddit用户在挖源代码时发现了一个新的ChatGPT界面,就像他们在发布前一周发现了“聊天共享”功能一样。泄露的截图展示有“工作空间”,允许用户创建个人资料,似乎还有文件上传功能。
这一进展与OpenAI 在2023年4月底承诺计划引入ChatGPT商业版本相一致,新的ChatGPT商业版不再使用用户数据来训练模型。
人类一败涂地,60万年薪的高级工作可被AI取代:成本只要2000多
阿里达摩院与新加坡南洋理工大学合作研究了AI在数据分析上的作用,对比了OpenAI最新的GPT-4与金融行业中的数据分析师优劣。
如果是2年工作经验的初级数据分析师,GPT-4在正确率及工作量上都是完胜的。
对比的高级数据分析师有2种情况,一个是5年工作经验的数据分析师,GPT-4在正确率、图表美观度、复杂性上输了一些。但另一个6年工作经验的数据分析师对比中,GPT-4在正确率上略输一筹,但复杂性、一致性又高于人类。
— 更多详情
NVIDIA在SIGGRAPH 2023上展示大约20篇研究论文,这些论文展示了颠覆性的最新AI研究成果,旨在帮助开发者和艺术家实现创意。这些研究论文内容涉及多个领域,包括AI模型将文本转化为图像,逆向渲染工具将图像转化为3D等。如果您有兴趣,可以在NVIDIA的最新博客文章中深入了解这些研究论文的内容。
其中第5篇论文展示了一个令人惊叹的演示,可以实时生成逼真的3D人物头发,让艺术家们能够更加轻松地创作。尤其是体育视频游戏将成为这项技术的受益者。
-- 更多详情
ChatGPT 被嵌入到波士顿狗机器人中https://vxtwitter.com/masahirochaen/status/1651031529819340800?s=20
Читать полностью…币安推出了 Binance Sensei
这是一款由AI驱动的个性化加密助手聊天机器人。Sensei 使用币安学院 1,000 多篇文章和课程的进行训练,使用户能够轻松访问该平台关于加密货币和 web3 的广泛教育资源。通过此举,币安成为第一个拥抱人工智能的加密平台,让区块链和加密货币知识更容易被各级用户获取和参与。
— 更多详情