大模型训练

大模型训练

2024/9/25 10:27:50

100页2秒？我们为什么需要这样的文档解析速度

100页2秒？我们为什么需要这样的文档解析速度

近期，TextIn通用文档解析完成最新一版产品迭代，将100页文档解析速度提升至最快2秒以内。 P50（百页） P90（百页） P95（百页） P99（百页） 平均（单页…

阅读更多...

LLM系列(0+)：大模型算法全流程解析与实战：从理论到落地的关键步骤，打造高效落地的解决方案实战应用之道

LLM系列(0+)：大模型算法全流程解析与实战：从理论到落地的关键步骤，打造高效落地的解决方案实战应用之道

LLM系列(0+)：大模型算法全流程解析与实战：从理论到落地的关键步骤，打造高效落地的解决方案实战应用之道 1. 引言针对近期进行的关于大语言模型落地的相关实践，本文旨在能够较为系统的整理和介绍大模型系列内容，分享关于构建行业专属大模型系统以及进行大模型优化的一些…

阅读更多...

MegaScale：万级GPU集群中大模型训练

MegaScale：万级GPU集群中大模型训练

论文链接：https://arxiv.org/abs/2402.15627 MegaScale系统简介 MegaScale是一个专为在超过10,000个GPU上训练大型语言模型（LLMs）而设计的生产系统。该系统通过算法和系统组件的协同设计，解决了大规模训练中的效率和稳定性挑战&…

阅读更多...

大模型是如何炼成的：揭秘深度学习训练的秘密与优化技巧

大模型是如何炼成的：揭秘深度学习训练的秘密与优化技巧

引言： 近年来，人工智能领域的突破性进展与大模型的崛起密不可分。从GPT-3到BERT，这些大型预训练模型在各种任务上展现出了惊人的能力。那么，这些大模型是如何训练出来的呢？本文将通过具体案例，带你走进深度…

阅读更多...

大模型面试：LLM+向量库的文档对话系统

大模型面试：LLM+向量库的文档对话系统

面试题 1.1 为什么大模型需要外挂(向量)知识库？如何将外部知识注入大模型，最直接的方法：利用外部知识对大模型进行微调回答大模型需要外挂(向量)知识库的原因： 知识更新频率：大模型在训练时使用的知识是静态的&a…

阅读更多...

在LangChain中初识向量数据库-LLM与向量数据库的惺惺相惜

在LangChain中初识向量数据库-LLM与向量数据库的惺惺相惜

引言在学习与使用LangChain的过程中,接触到了向量数据库,通过为大语言模型提供一个自己的语料库,可以让模型的回复结果都从语料库中来,这样模型就可以回答一些它不知道的问题.但对向量数据库的概念并不熟悉,所以仔细了解一下什么是向量数据库向量数据库的概念简单介绍向量…

阅读更多...

关于Embedding的两种实现方式

关于Embedding的两种实现方式

目录言简意赅方式一方式二以DNN为例两种方式全部demo代码言简意赅假设现在有一段话：“我爱你中国”，在训练入模的时候，常用的方法分别有：onehot、embedding、hash，如果词表很大、特征很多，那么onehot之…

阅读更多...

时间序列预测中如何构建层级化的 Transformer 架构？

时间序列预测中如何构建层级化的 Transformer 架构？

近年来，学界和业界致力于通过引入先进的网络架构和自监督预训练策略来提高时间序列预测的准确性。然而现有方法存在两大缺点。本文介绍一篇 KDD 2024 中的时间序列预测工作，来自中科大的研究者提出了一种新的生成式预训练分层 Transformer 架构用于预测&…

阅读更多...

百度大模型构建智能问答系统技术实践

百度大模型构建智能问答系统技术实践

背景随着大模型的飞速发展， AI 技术开始在更多场景中普及。在数据库运维领域，我们的目标是将专家系统和 AI 原生技术相融合，帮助数据库运维工程师高效获取数据库知识，并做出快速准确的运维决策。传统的运维知识库系统主要采用…

阅读更多...

百度智能云千帆 ModelBuilder 技术实践系列：通过 SDK 快速构建并发布垂域模型

百度智能云千帆 ModelBuilder 技术实践系列：通过 SDK 快速构建并发布垂域模型

百度智能云千帆大模型平台（百度智能云千帆大模型平台 ModelBuilder）作为面向企业开发者的一站式大模型开发平台，自上线以来受到了广大开发者、企业的关注。至今已经上线收纳了超过 70 种预置模型服务，用户可以快速的调用&#x…

阅读更多...

1个Prompt框架+4个公式，讲清产品经理如何用ChatGPT让工作效率翻倍

1个Prompt框架+4个公式，讲清产品经理如何用ChatGPT让工作效率翻倍

现在 ChatGPT 太火了，网上关于它的用法，真是五花八门，有人把它当搜索引擎，有人用它写文章写周报，有人用它写代码，有人用它做翻译。作为在移动互联网浪潮成长起来的产品经理，我能感受到&#x…

阅读更多...

大模型种草书籍——BERT基础教程：Transformer大模型实战，看完头皮发麻！

大模型种草书籍——BERT基础教程：Transformer大模型实战，看完头皮发麻！

《BERT基础教程：Transformer大模型实战》是一本专注于介绍自然语言处理（NLP）领域的先进技术——BERT（Bidirectional Encoder Representations from Transformers）及其应用的教程书籍。以下是这本书的简要介绍&#…

阅读更多...

百度智能云千帆 ModelBuilder 技术实践系列：通过 SDK 快速构建并发布垂域模型

百度智能云千帆 ModelBuilder 技术实践系列：通过 SDK 快速构建并发布垂域模型

百度智能云千帆大模型平台（百度智能云千帆大模型平台 ModelBuilder）作为面向企业开发者的一站式大模型开发平台，自上线以来受到了广大开发者、企业的关注。至今已经上线收纳了超过 70 种预置模型服务，用户可以快速的调用&#x…

阅读更多...

百度智能云千帆 ModelBuilder 技术实践系列：通过 SDK 快速构建并发布垂域模型

百度智能云千帆 ModelBuilder 技术实践系列：通过 SDK 快速构建并发布垂域模型

百度智能云千帆大模型平台（百度智能云千帆大模型平台 ModelBuilder）作为面向企业开发者的一站式大模型开发平台，自上线以来受到了广大开发者、企业的关注。至今已经上线收纳了超过 70 种预置模型服务，用户可以快速的调用&#x…

阅读更多...

大模型训练核心算法之——损失函数算法

大模型训练核心算法之——损失函数算法

“ 损失函数是实现大模型训练的基础” 今天就来介绍一下大模型训练的一个核心算法——损失函数算法。大模型正是利用损失差和反向传播算法来更新模型参数的权重，依此达到最优化模型参数的目的，而这也直接关系到大模型的推测效果。大模型损失函数计算…

阅读更多...

Transformer直接预测完整数学表达式，推理速度提高多个数量级

Transformer直接预测完整数学表达式，推理速度提高多个数量级

前言来自 Mata AI、法国索邦大学、巴黎高师的研究者成功让 Transformer 直接预测出完整的数学表达式。转载自丨机器之心符号回归，即根据观察函数值来预测函数数学表达式的任务，通常涉及两步过程：预测表达式的「主干」并选择数值常数&am…

阅读更多...