https://ecma-international.org/technical-committees/tc55/
草!
浮华暂借问: https://jandan.net/t/6122452
OO: 147 XX: 9
蛋友e6590d0856cd8: 睡梦中死才是最好
OO: 32, XX: 0
微软发布 Harrier 系列嵌入 AI 模型,MTEB-v2 基准测试超越谷歌夺冠
IT之家 4 月 9 日消息,微软必应(Bing)团队于 4 月 7 日发布博文,宣布为满足现代 AI 智能体系统对信息处理的高标准需求,开源推出业界领先的文本嵌入模型系列 Harrier,该模型在多语言 MTEB-v2 基准测试中排名第一。
IT之家注:嵌入模型是一种将文本、图像等高维数据转换为低维向量表示的技术,捕捉数据的语义特征,让相似内容在向量空间中距离更近。
在 AI 领域,它是搜索引擎、推荐系统和智能体进行信息检索、语义理解和知识推理的基础组件,直接决定了系统处理信息的质量与效率。
针对 AI 系统从单纯问答向执行操作转变过程中的“落地”难题,微软 Harrier 系列模型进一步提升嵌入质量,显著提升首次检索的事实准确率,降低系统延迟与成本,并有效减少模型幻觉,从而增强用户信任。
此次发布的 Harrier 系列包含三个版本:Harrier-OSS-v1-27B、Harrier-OSS-v1-0.6B 和 Harrier-OSS-v1-270M。所有型号均支持超过 100 种语言,具备 32k 上下文窗口,并能为任意输入生成固定尺寸的嵌入向量。
技术实现上,团队构建了可扩展的数据管道,利用 GPT-5 生成了超 20 亿个弱监督数据样本用于对比预训练,以及超 1000 万个高质量样本用于微调。
在训练策略上,团队为适配低端设备的部署需求,基于 E5 及 GritLM 等前期成果,在旗舰模型训练完成后,通过知识蒸馏技术推出了 Harrier-OSS-v1-0.6b 与 Harrier-OSS-v1-270m 两个轻量级版本。
在权威的多语言 MTEB-v2 基准测试中,Harrier 模型成功超越谷歌 Gemini Embedding 2,位列行业第一。
与竞品相比,Harrier 模型不仅性能优异,更采用完全开源策略。开发者可在无许可限制的情况下使用该模型,从而轻松提升 AI 应用的检索质量与语义理解能力。
基于 Harrier 的技术积累,微软正开发全新的检索服务。该服务将提供更优质的检索质量、更强的语义理解能力以及更稳健的上下文选择,未来将率先应用于必应搜索,以提升用户交互体验。
Show HN: Orange Juice – Small UX improvements that make HN easier to read http://oj-hn.com/
Читать полностью…
前段时间手机背板摔裂了,不影响用但碎玻璃刮手,而且总怕掉渣,就用纸胶带粘了一下。效果尚可,但手机的被摸频率太高,不用几天胶带边缘就会翘起脱胶,天天重新贴又太麻烦了。接着突然来了灵感想起恐怕二十年前看的三毛补牙的故事:
我先跑开一步,离荷西远一点,再小声说:“不脱落,不透水,胶性强,气味芳香,色彩美丽,请你说这是什么好东西?”“什么?”他马上又问,完全不肯用脑筋嘛!“指-甲-油。”我大叫起来。“哇,指甲油补人牙齿!”…
https://fonts.google.com/specimen/Datatype?preview.script=Latn
就用这个吧……
https://vxtwitter.com/initiumnews/status/1578279442836619264
Читать полностью…
咕咕咕: https://jandan.net/t/6122861
OO: 127 XX: 7
一拳一个哈哈怪: 好吃到瞳孔放大
OO: 32, XX: 0
我在思考为什么自己这么讨厌 React Server Component。或许它能把 Server Component 做成多个语言都能生成的 Static Fragement,不要强行把它缝到 React 里面创造一种假的无缝整合,我还能接受它。毕竟用 JS 写后端一直都是很扯的事情,连个像样的 ORM 都没有(如果你写过 Golang 甚至 PHP 的话就会知道 JS 的 ORM 有多不堪),TS 也不是一个为了写后端而生的语言,甚至它处理后端逻辑会让人很痛苦。
Читать полностью…
▎我终于做完了博客
「web 2.0时代,人人都会有自己的个人主页。」如果你经历过那个年代,那么肯定会对那个万物竞发的景象印象深刻:懂点技术的都在折腾自己的博客,而不懂技术的,也要在QQ空间之类的地方装装点点,玩出花来。
作为「数字原住民」的我也被这盛况感动,思忖着,想在这广袤的互联网空间开辟一块属于自己的地方。
查看全文>>
#回顾
Pgit: I Imported the Linux Kernel into PostgreSQL https://oseifert.ch/blog/linux-kernel-pgit
Читать полностью…
禁止 Claude Code 讲废话(语义压缩),“用更少 Token 来完成工作”。
#GitHub
https://github.com/JuliusBrussee/caveman
让 #AI 像原始人一样简单直接表达,减少 Token 用量,节约成本。
https://www.mimicpc.com/workflows/video-supir-upscaler
草,标题挂 SUPIR,里面实际上是 4x-UltraSharp, NMSL...