LLM

LLM

2024/9/13 20:42:59

详聊LLaMa技术细节：LLaMA大模型是如何炼成的？

详聊LLaMa技术细节：LLaMA大模型是如何炼成的？

本文介绍来自 Meta AI 的 LLaMa 模型，类似于 OPT，也是一种完全开源的大语言模型。LLaMa 的参数量级从 7B 到 65B 大小不等，是在数万亿个 token 上面训练得到。值得一提的是，LLaMa 虽然只使用公共的数据集，依然取得了强…

阅读更多...

零基础转行自学大模型路线规划（附快速学习路线图）

零基础转行自学大模型路线规划（附快速学习路线图）

每一波浪潮的到来，都意味一片无人占领的蓝海，也意味着众多新成长起来的巨头，还意味着什么？大量的技术人员需求，供不应求的开发市场，以及从业者的高薪与众多的机会。我们最常做的事情是目送着上一次浪潮的…

阅读更多...

一文读懂：如何将广告融入大型语言模型(LLM)输出

一文读懂：如何将广告融入大型语言模型(LLM)输出

本文是我翻译过来的，讨论了在线广告行业的现状以及如何将大型语言模型（LLM）应用于在线广告。原文请参见”阅读原文“。在2024年，预计全球媒体广告支出的69%将流向数字广告市场。这个数字预计到2029年将增长到79%。在Meta的2024…

阅读更多...

RAG数据集自动构造探索, 附prompt

RAG数据集自动构造探索, 附prompt

从文档中手动创建数百个 QA（问题-上下文-答案）样本可能非常耗时且劳动密集。此外，人工生成的问题可能难以达到全面评估所需的复杂程度，最终影响评估的质量。通过使用合成数据生成，开发人员在数据聚合过程中的时间可以减…

阅读更多...

百度大模型构建智能问答系统技术实践

百度大模型构建智能问答系统技术实践

背景随着大模型的飞速发展， AI 技术开始在更多场景中普及。在数据库运维领域，我们的目标是将专家系统和 AI 原生技术相融合，帮助数据库运维工程师高效获取数据库知识，并做出快速准确的运维决策。传统的运维知识库系统主要采用…

阅读更多...

ICLR2024：大视觉语言模型中对象幻觉的分析和缓解

ICLR2024：大视觉语言模型中对象幻觉的分析和缓解

https://arxiv.org/pdf/2310.00754 https://github.com/YiyangZhou/LURE 背景对象幻觉：生成包含图像中实际不存在的对象的描述早期的工作试图通过跨不同模式执行细粒度对齐（Biten et al.，2022）或通过数据增强减少对象共现模…

阅读更多...

如何训练一个大语言模型（LLMs）

如何训练一个大语言模型（LLMs）

目录前言大语言模型 Vs机器学习模型训练过程步骤1：数据策划（Data Curation)步骤2：格式化与预处理步骤3：训练模型步骤4：模型评估 LLM Leaderboard[LLM Leaderboard 2024](https://www.vellum.ai/llm-leaderboard)[Open…

阅读更多...

【AI落地应用实战】Amazon SageMaker JumpStart 体验零一万物的 Yi 1.5 模型

【AI落地应用实战】Amazon SageMaker JumpStart 体验零一万物的 Yi 1.5 模型

目录一、前言1.1、Amazon SageMaker JumpStart1.2、Yi-1.5 9B Chat 模型二、Yi 1.5实践流程2.1、准备SageMaker Studio环境2.2、部署Yi-1.5-9B模型2.3、运行推理Yi-1.5-9B模型三、体验总结中国大模型公司零一万物发布开源大模型Yi-1.5，包含多个版本。同时发布多…

阅读更多...

L-Eval：一个60k左右长文评测数据集

L-Eval：一个60k左右长文评测数据集

前言 L-Eval是复旦大学邱锡鹏老师团队在 2023 年 7 月左右发布的一个标准化的长文本语言模型（LCLMs）评估数据集，包含20个子任务、411篇长文档、平均长度为7217个单词，超过2000个人工标记的QA对。它分为封闭型任务和开放型任务&am…

阅读更多...

NV-Embed论文阅读笔记

NV-Embed论文阅读笔记

这是NVIDIA的一篇论文，LLM通常使用的是GPT的decoder范式作为一个生成模型，文章探讨如何利用这样的decoder生成模型来实现BERT这样的encoder的功能，即提取有效的embedding。现有的方法提取embedding的方式无非是 1 mean pooling； 2…

阅读更多...

《深入浅出多模态》（九）多模态经典模型：MiniGPT-v2、MiniGPT5

《深入浅出多模态》（九）多模态经典模型：MiniGPT-v2、MiniGPT5

🎉AI学习星球推荐： GoAI的学习社区知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职…

阅读更多...

GMS——利用 ChatGPT 和扩散模型进行制造业革命

GMS——利用 ChatGPT 和扩散模型进行制造业革命

概述论文地址：https://arxiv.org/abs/2405.00958 研究介绍了生成式制造系统（GMS），并表明这些系统能有效管理和协调自主制造资产，提高它们对不同生产目标和人类偏好的响应能力和灵活性。与传统的显式建模不同&#…

阅读更多...

illusionX——一个从理解情感到改变学习、创新教育体验集成情感计算的混合现实系统

illusionX——一个从理解情感到改变学习、创新教育体验集成情感计算的混合现实系统

概述论文地址：https://arxiv.org/pdf/2402.07924.pdf 近年来，情感计算在丰富人类与计算机和机器的交互方式方面备受关注。这一创新领域旨在通过理解和响应用户的情绪和心理状态，将人机交互转变得更加自然和直观。无论是情感识别、面部表情分…

阅读更多...

LLM系列 | 38：解读阿里开源语音多模态模型Qwen2-Audio

LLM系列 | 38：解读阿里开源语音多模态模型Qwen2-Audio

引言模型概述模型架构训练方法性能评估实战演示总结引言金山挂月窥禅径，沙鸟听经恋法门。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖铁观音的小男孩，今天这篇小作文主要是介绍阿里巴巴的语音多模…

阅读更多...

只需两步，让大模型智能体社区相信你是秦始皇

本文由上海交通大学与百川智能共同完成，第一作者鞠天杰是上海交通大学网络空间安全学院三年级博士生。他的研究方向是大模型与智能体安全。论文地址：https://arxiv.org/pdf/2407.07791 代码：https://github.com/Jometeorie/KnowledgeSpread…

阅读更多...

建议AI大模型小白必看的学习教程！！

建议AI大模型小白必看的学习教程！！

逼自己两周刷完 AI大模型(白嫖) LLM大模型自用资料，以及学习路线整理整理了我入门大模型的学习路线和自用资料，在全民LLM时期，多输入一些就多一重安全感。建议先对LLM全貌有了解，然后自顶向下去学习。前置知识是nlp基础如transf…

阅读更多...