DeepSeek 证明了什么

server/2025/1/31 19:18:35/

AI 这个词现在很火爆,但 AI 是新技术吗?不认为 AI 是一个新的技术,其实这些概念的提出都是在几十年前的事情了。

受限于当时的计算机计算能力,AI 很多概念都来源于人工神经网络,《人工智能》这门课程早在几十年前就是大学的必修课程了。

二十世纪40年代后期,心理学家唐纳德·赫布根据神经可塑性的机制创造了一种对学习的假说,现在称作赫布型学习。赫布型学习被认为是一种典型的非监督式学习规则,它后来的变种是长期增强作用的早期模型。

从1948年开始,研究人员将这种计算模型的思想应用到B型图灵机上。

但受限于当时的计算机处理能力,很多概念无法实现。

对搜索的厌倦

人类对知识的获取总是希望越快,越准确越好。

搜索引擎的作用是把所有所有索引到的内容通过一定的优先级进行排序的方式显示出来,但现实的过程中并没有对具体需要的内容进行分析和编排,导致很多内容无效。

使用 Google,对于一些一般性的内容,通常都能找到不少的答案,但那个答案是正确的,需要使用搜索的人自己去判断,甚至尝试。

在计算机里面举个例子,校验电话号码的正则表达式是什么?

如果之间使用搜索,会出现一堆结果,但那个结果是正确的,需要自己去验证。

AI 的作用

AI 针对上面的问题,进行了了处理,通常能够返回一个相对准确的结果。

针对这个相对准确的结果能够降低在搜索使用时候的无力感。

2025-01-28_09-21-32

我们甚至可以把 AI 定义为:带有 API 功能的更高准确率搜索引擎。

这个更高准确率是需要通过 LLM (大型语言模型)来训练后生成。

怎么训练 LLM

训练 LLM 需要计算能力,用土话来说,AI 对模型的训练算法需要 GPU 来通过更大的计算能力,CPU 也不是不可以,只是 GPU 的效果更好。

这个主要也是根据 CPU 和 GPU 的特性和指令集来决定的。

CPU-and-GPU

从上面的图片可以看到 GPU 在训练 AI 模型上比 CPU 更有优势。

在这个时候,简单粗暴的办法就是堆性能,你的模型可能不是那么先进,也可能是里面代码是有不少可以优化的地方,也可以采取一些方法来避免过度的使用硬件性能。

但在这一切都以快为基础的情况下,堆机器是最快的解决办法,这也很印度。

软件不行,硬件来凑。

华尔街在这里面看到了商机,也逐步的推高了英伟达的市场估值,好像现在没有英伟达的 高端 GPU 芯片模型都跑不了一样的。

当然,对马斯克和华尔街来说是乐见其成的,他们能够通过这些概念来强化市场。

前一段时间,AWS 来我们公司推销 LLM,最后什么都谈得还可以,唯独是这训练使用的机器谈不明白,因为 AWS 希望推荐使用最高性能的 GPU 优化后的机器来处理 LLM。

2025-01-28_09-26-25

就上面这个配置,一小时需要 3 美元,训练的适合还不能只用这样一台机器,还需要多个 VPS 叠加 GPU。

根据公司内部的资料完成训练的话,每个小时都几百美元的支出,这谁受得了。感觉 AWS 的目的就是来卖他们的 EC2 的,至于模型优化啥的都不是回事。

Deepseek

Deepseek 的做法就很中国。

我们擅长于把一个产品做到市场上都没有竞争对手,最大的对手是自己。

硬件差点意思,我们改软件。

我们证明,虽然我们达不到 GPT 完全等同的效率,但也大差不差,最主要的是我们便宜。我们能做到极致的便宜。

我们不需要高级的 GPU,就算是低性能的 GPU 我们也可以玩的。

Deepseek 可以说是 AI 市场的一根搅屎棍,本来华尔街那边都在等着数钱,结果有人站出来说这 AI 也不需要那么复杂的计算能力,就是个普通小机器也是可以玩的。

就好像说,Oracle 告诉你他们的数据库只适合跑小型机上,PGSQL 站起来说,就是个 4G 的虚拟机也可以玩数据库的高级功能的,性能大差不差。

SQLite 更加不服了,我更小。

对数据库和 LLM 来说,真实的需求是不同的,没有人能够承担数据丢失的损失,但 LLM 不同。

那个模型便宜我就用那个模型训练,就算训练坏了,没事,原始数据没丢,换个模型重新来,只要训练速度足够快,价格足够便宜。

Deepseek 的作用不在于说 Deepseek 真正有多强大,在于 Deepseek 把 AI 的一堆概念给整明白了,后来发现这东西也没那么玄乎,可能最后你可以在自己家都可以训练自己的 AI 了。

DeepSeek 证明了什么 - AI - iSharkFlyAI 这个词现在很火爆,但 AI 是新技术吗?不认为 AI 是一个新的技术,其实这些概念的提出都是在几十年前的事情了。 受限于当时的计算机计算能力,AI 很多概念都来源于人工神经网络,《人工智能》这门课程早在几十年前就是大学的必修课程了。 二十世纪40年代后期,心理学家唐纳德·赫布根据神经可塑性的机制创造了一种对学习的假说,现在称作赫布型学习。赫布型学习被认为是一种典型的非监督式学习规则,它后来的变种是长期增强作用的早期模型。 从…https://www.isharkfly.com/t/deepseek/16855


http://www.ppmy.cn/server/163862.html

相关文章

《CPython Internals》读后感

一、 为什么选择这本书? Python 是本人工作中最常用的开发语言,为了加深对 Python 的理解,更好的掌握 Python 这门语言,所以想对 Python 解释器有所了解,看看是怎么使用C语言来实现Python的,以期达到对 Py…

Java算法——排序

目录 引言1. 插入排序1.1 基本思想1.2 直接插入排序1.3 希尔排序 2. 选择排序2.1 基本思想2.2 直接选择排序2.3 直接选择排序变种2.4 堆排序 3. 交换排序3.1 基本思想3.2 冒泡排序3.3 快速排序3.3.1 快速排序的基本结构3.3.2 Hoare法3.3.3 挖坑法3.3.4 双指针法 3.4 快速排序非…

git Bash通过SSH key 登录github的详细步骤

1 问题 通过在windows 终端中的通过git登录github 不再是通过密码登录了,需要本地生成一个密钥,配置到gihub中才能使用 2 步骤 (1)首先配置用户名和邮箱 git config --global user.name "用户名"git config --global…

C++ 与机器学习:构建高效推理引擎的秘诀

随着深度学习模型逐渐从研究走向生产环境,推理能力成为部署中的关键环节。模型的推理引擎需要以极低的延迟快速处理输入数据,同时最大化地利用硬件资源。虽然 Python 被广泛用于模型的训练和开发,但 C 却在推理领域独占鳌头,其性能…

蓝牙技术在物联网中的应用有哪些

蓝牙技术凭借低功耗、低成本和易于部署的特性,在物联网领域广泛应用,推动了智能家居、工业、医疗、农业等多领域发展。 智能家居:在智能家居系统里,蓝牙技术连接各类设备,像智能门锁、智能灯泡、智能插座、智能窗帘等。…

iic、spi以及uart

何为总线? 连接多个部件的信息传输线,是部件共享的传输介质 总线的作用? 实现数据传输,即模块之间的通信 总线如何分类? 根据总线连接的外设属于内部外设还是外部外设将总线可以分为片内总线和片外总线 可分为数…

c++:vector

1.使用 1.1构造函数 常见的三种构造方式:空构造,拷贝构造,指定元素构造 1.2iterator begin和end也分为正向和反向。 注意:反向迭代器可以反向遍历是因为在定义rbegin和rend函数的时候把尾地址给到了rbegin,而不是说改…

计算机毕业设计Python+知识图谱大模型AI医疗问答系统 健康膳食推荐系统 食谱推荐系统 医疗大数据 机器学习 深度学习 人工智能 爬虫 大数据毕业设计

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…