世界排名No.1的大模型,有多厉害?国内可免费访问!

广告 世界排名No.1的大模型,有多厉害?国内可免费访问! 世界排名No.1的大模型,有多厉害?国内可免费访问! 1:39 广告 广告 广告 了解详情 > 会员跳广告 首月9.9元 秒后跳过广告

开通搜狐视频黄金会员,尊享更高品质体验!

1080P及以上画质仅为黄金会员专享>

开通/续费会员 抱歉,您观看的视频加载失败 请检查网络连接后重试,有话要说?请点击 我要反馈>> 正在切换清晰度… 播放 按esc可退出全屏模式 00:00 00:00 00:27 广告 只看TA 高清 倍速 剧集 字幕 下拉浏览更多 5X进行中 炫彩HDRVIP尊享HDR视觉盛宴 超清 720P 高清 540P 2.0x 1.5x 1.25x 1.0x 0.8x 50 哎呀,什么都没识别到 反馈 循环播放 跳过片头片尾 画面色彩调整 AI明星识别 视频截取 跳过片头片尾 | 色彩调整 亮度 标准 饱和度 100 对比度 100 恢复默认设置 关闭 复制全部log

大模型的发展,可谓一日千里

有业内人士说:

大模型时代的技术发展,是以“日”为单位计算的。

王珏老师深以为然。

有人计算过,

以10个国内主要大模型

加上10个国外主要大模型

平均每3天就会发布一版重要更新!

这不,昨晚(6.5)Google官宣发布了

Gemini 2.5 Pro-0605版

(上一版是0506版,这才过去一个月……)

这一版创造了一个全新纪录:

在数学、编程、推理基准测试中,新版模型全都是No.1

完全碾压o3、Claude 4、DeepSeek-R1。

世界排名No.1的大模型,有多厉害?国内可免费访问!

Gemini-0605版在GPAQ——科学问题解决能力方面,

已经能够拿到86.4分,世界第一

(作为参考,DeepSeek是81分)

王珏老师专门试了一下一道“物理高考压轴题

(这是由我家孩子皮克同学贡献的,据说难倒了一大票学霸)

(陪伴很多《学习科学》课程学员的皮克同学今年高三,明天高考,默默祝福!)

世界排名No.1的大模型,有多厉害?国内可免费访问!

上次在测试时,

包括Gemini-0506版、Claude、Grok、DeepSeek在内的所有大模型

世界排名No.1的大模型,有多厉害?国内可免费访问!

第一问基本都对:

世界排名No.1的大模型,有多厉害?国内可免费访问!

然而,第二问、第三问所有大模型解错了!

今天,再用这道题测试了Gemini-0605版,

结果发现:第2问它也完全做对了!

——当然,第三问还是没解对……

让我们再耐心等待大模型的进化吧!

Gemini-0605版编程能力方面,同样是世界 No.1!

我随手让它“制作一个DNA结构的三维模型”,

结果它用了5、6分钟的时间,生成了一段代码

运行后果然是可缩放、旋转的DNA双螺旋结构模型,

录屏如下:

这效果,真的是太令人惊叹了!

我把这段代码发布到了Html2Web网站上,大家扫码即可把玩:

最让人感到震撼的,是它在Humanalitys Last Exam人类终极测试(HLE)中,同样拿下了当下的No.1

什么是“人类终极测试”呢?

因为传统的对大模型能力的测试(如MMLU即大规模多任务语言理解、AIME-数学竞赛题、GPQA-科学问题解决,

基本已被当下的大模型轻松通关”(参见下图)

世界排名No.1的大模型,有多厉害?国内可免费访问!

这样一来,

一来难以区分不同大模型的能力强弱,

二来也难以测出大模型的能力上限。

于是,HLE——人类终极测试也就应运而生!

看看上图,一年前的大模型的HLE成绩只有个位数

HLE的测试难度可见一斑!

HLE的题目收集自全球的贡献。当前包含的3,000道题目来自全球50个国家、500多所机构的近千名专家,包括数学家、化学家、语言学家等。

世界排名No.1的大模型,有多厉害?国内可免费访问!

它有三大设计目标:

1、覆盖人类知识的前沿

问题需达到研究生或专家水平,例如“计算对称群Σ的∞范畴下的自然余变换数量”。

2、抗检索性

所有问题无法通过简单的互联网搜索解决,例如“根据藏传希伯来语发音传统划分《诗篇》104:7的闭音节”。

3、多模态与自动化评分

10%的问题结合文本与图像(如古文字翻译、化学反应机理图),80%为精确匹配答案的简答题,20%为五选一以上的选择题。

HLE提出后,世界顶尖AI的表现让人咂舌,短短几天最高分从DeepSeek-R19.4,涨到了DeepSeek-0528的18.1分,O3的20.3分,以及Gemini0605的21.6分,可以说是进步飞快:

世界排名No.1的大模型,有多厉害?国内可免费访问!

所以,王珏老师再次强调我的观点:

在大多数人还没有察觉的情况下

人类社会已经进入了崭新的时代——智能化时代,

现在对AI未来能力的最乐观估计

恐怕也是极为保守的

它的能力一定会远超人类的想象!

因此,永远不要轻视它

——不要觉得它只会计算、不会像人类那样思考,

就觉得它不行,人家是“算法文明

算法文明的上限也许远高于人脑

——不要觉得它当下的能力不行

今天它的能力不够,也许明天就够了

今天还不会的事情,明天它可能就是专家了……

因此,今天关注大模型的发展、掌握大模型的使用

是每个人通往未来世界的“门票”!

当我们认清大模型的优势后

人类也不要妄自菲薄

人类有人类的独特能力和优势

但需注意:人类和大模型必须错位发展

不要和大模型在它擅长的方面比拼

——正像我们不会跟汽车比速度、比耐力一样!

最后,回到本文的主题:

Gemini 2.5 Pro这么优秀的大模型,

国内能不能访问呢?

可以的!

王珏老师一直推荐的AskManyAI网站,

https://askmany.cn/login?i=afad3e1d

或扫二维码访问:

可以让我们免费使用“Gemini 2.5 Pro免费版”(即0506版),如下图:

世界排名No.1的大模型,有多厉害?国内可免费访问!

如果您想使用Gemini-0605版的话,需勾选上图中的“Gemini 2.5 Pro”,不过这就需要充值了……

如果你没有特殊的需求,只是一般性地写写文档,免费版足够用了!

————————————————————返回搜狐,查看更多

原创文章,作者:全球主机资源网,如若转载,请注明出处:http://www.expobonomi.com/1365.html

(0)
全球主机资源网全球主机资源网
上一篇 2025年 7月 25日 上午12:39
下一篇 2025年 7月 25日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注