

D神又开播了?确实假的?
Deepseek憋了这样久大的,最近终于开动尽情开释了。上周他们刚悄咪咪把 V4 给端了上来,紧接着即是连着两波大降价。。梁神,你又来普度群生了?
成果今天,它又一霎来了给我推送了一波灰测:DeepSeek,有多模态能力了,准确来说是识图。
验过了牌,是确实。

想尝鲜的差友当今就不错绽开你的 DeepSeek 瞅一眼。
如果界面里多出了个“识图阵势”,恭喜你,你即是被内测到的运道儿,成功白嫖真实的多模态版 V4。
DeepSeek自家的接头员陈小康,也按耐不住发了个贴,咱们鲸鱼终于长眼睛了,再也不是国服盲僧了!

为啥大伙儿响应这样欢快?实在是DeepSeek因为没多模态,依然被诟病很长远,像海外三巨头ChatGPT、Gemini、Claude早就有多模态能力了,国内像豆包、千问等模子也作念得相等好。
而你这个被委托厚望的国产之光,这样多年了连个图都识别不了,只可靠 OCR,也即是识别图片里的翰墨,使用体验这块照实拉了一截。
而当今,这块短板终于被补王人了。
话未几说,咱们成功上测试吧。
领先,它照实是开脱了传统的OCR,真能看到图片全貌了,这点大伙不错定心。
比如咱们给它了一张用蓝色写出来的“这是一排红字”,如果只用传统OCR,它只可识别出翰墨是“这是一排红字”,完全识别不出是蓝色的。(以至可能无法识别)
而开启视觉阵势后,它不错精确识别出,这是一排蓝色的红字,以至嗅觉到了我的幽默。
不光如斯,它还有了视觉上的推理能力。
这张梗图寰球都见过吧?投降以差友的才智,完全看得懂图里在写啥。
于是我发给DeepSeek,让它帮我进行笑点解析。
它一番念念考事后,不光看出来了,还趁机作念了个原土化翻译“金大利亚”“银大利亚”“铜大利亚”,有点忍俊不禁了。
接着我又发它了一张共事开车时,唾手拍的图片,其实挺糊的,惟有些外不雅、光效上的信息不错分析。
成果它照旧猜出来了,这辆车照实是斯巴鲁,况且念念考13秒就给出了论断。
磋议到D真挚是数学能手,咱们又给它传了一张数学有关的梗图,说真话世超差点都没看懂,是哥们丈育了。
D真挚的确认,依旧相等竣工。
不光整显然了浅易运算,它以至看出了内部的几个谐音梗:取实部也即是去掉虚数“i”,也即是去掉“Eye”,体球网2026世界杯赛事直播入口也即是把眼睛去掉了。而倒三角是梯度也即是“Grad”,刚好和“Graduate”差未几,是以给小脸带上了学士帽。
依然健忘数学学问的差友们不错逐字复盘一下。
趁机呢,我也测了几个生计中的问题,比如这个3.5mm插头该插那儿。
这个方头USB口又该插那儿。
固然很浅易,但它能通晓我没对上焦的唾手拍,也算能胜任每每任务了。
但其实,字据世超的实测,D真挚刻下这个版块,也莫得到寰宇无敌的地步。
比如咱给它丢了一张图,相等秀好意思的地球夜景。
DeepSeek也看得蛮了了的,说这张相片来自国际空间站。
但其实,你们把相片翻过来望望,就会发现这张相片是一张晚霞底下的城市,这是倒悬过来的视角。。。
然后我丢给了公认的多模态能手Gemini。。。它还真看出来了。不是,降智了都这样强吗?
照旧没能让多模态之王用尽全力吗,哈吉鲸。
包括对一些东说念主脸的识别,亦然偶尔抽风,比如我把豆包的图片扔给了它,它给我识别的是啥,嗯,B站UP主罗翔。
还有这个经典的视错觉问题,这俩球彰着不不异大吧?成果D真挚一番念念考跟我说俩球不异大。
不外我也去扒了一下它的念念考经由,其实它早就看出来右边的球大了,但因为仔细读题,合计这是给它的错觉,是以领受拐骗我方,说它们不异大了。。可能是强化学习强化太猛了吧。
空洞评价,不错给到一个神鬼二象性,夯的本领夯,拉的本领拉完结。。
但话又说追忆了,DeepSeek刚长出眼睛,咱照旧得给它一些相宜这个宇宙的时辰吧。
终末,当今的 AI 巨头大乱斗,早依然过了阿谁只看跑分、只看文本输出能力的生手村阶段了。
Coding 水平、多模态能力、调用器具的丝滑进度等等等等,基本上不能偏废。
但之前大 D 真挚在多模态能力上的缺席,总让合计可惜。有种大伙们都在哼哧哼哧作念事干活了, DeepSeeK 却因为缺胳背少眼,Agent 能力大打扣头。
毕竟,刻下绝大部分的模子,API 都是带多模态,简略至少是带图片输入能力的。
也期待 DeepSeek 能把识图的多模态能力,尽快更新到 V4 新模子的 API 上头吧。
要知说念,之前蒙着眼睛,依然和不少敌手依然打得有来有回了。。 当今揭下眼罩,到本领用在 Claude Code、龙虾、Cowork 等等器具上的阐述,臆想还会有一大波的进步。
另外,按照 DeepSeek 这段时辰吐泡泡刷存在感的频率,臆想还有一堆连招等着起始呢。
未几说了,看 D 真挚扮演吧。

备案号: