【大语言模型LLM】- Meta开源推出的新一代大语言模型 Llama 3

ops/2024/9/18 12:39:53/ 标签: 语言模型, llama, 人工智能

在这里插入图片描述

🔥博客主页西瓜WiFi

🎥系列专栏《大语言模型

很多非常有趣的模型,值得收藏,满足大家的收集癖! 如果觉得有用,请三连👍⭐❤️,谢谢!

长期不定时更新,欢迎watch和fork!❤️❤️❤️

❤️感谢大家点赞👍 收藏⭐ 评论⭐


🎥语言模型LLM基础-系列文章

【大语言模型LLM】- AI工具收录集合,一篇就够了!
【大语言模型LLM】-大语言模型如何编写Prompt?
【大语言模型LLM】-如何使用大语言模型提高工作效率?
【大语言模型LLM】-使用大语言模型搭建点餐机器人

持续更新中…

一、热门大模型推荐

  • 国外

    • 🔥ChatGPT,OpenAI开发的一种基于GPT架构的对话生成模型。
    • 🔥Claude,美国人工智能初创公司Anthropic发布的大型语言模型
    • 🔥Grok-1, Grok-1是由马斯克旗下的人工智能初创公司xAI发布的大语言模型
  • 国内

    • 🔥文心一言,百度全新一代知识增强大语言模型
    • 🔥豆包,字节跳动公司基于云雀模型开发的AI工具。
    • 🔥Kimi,月之暗面开发的国产人工智能大模型。
  • AI绘图

    • 🔥Midjourney,人工智能研究实验室Midjourney, Inc.开发的Al图像生成工具。
    • 🔥Stable Diffusion,Stable Diffusion是2022年发布的深度学习文本到图像生成模型。
    • 🔥Microsoft Designer,强烈推荐👍,免费绘图+设计,Microsoft Designer是一款基于生成式AI技术的设计工具,它搭载了由OpenAI开发的AI绘画工具DALL-E 2。
  • AI写作

    • 🔥火山写作,字节跳动旗下的火山引擎团队推出的AI中英文写作助手。
    • 🔥新华秒笔,新华通讯社与博特智能共同研发推出,集成了案例参考、材料查找、AI写作、修改润色色、审核校对、文件学习等功能,全方位地辅助公职人员提高创作效率,节省人工编写的时间和精力。
    • 🔥星火内容运营大师,星火内容运营大师是一款由科大讯飞推出的AI智能写作软件,旨在帮助内容运营者提高工作效率和质量。
    • 🔥Paperpal,Paperpal正是以此为发想而研发的学术专项AI工具,旨在提升研究者的英语写作体验。

二、新一代大语言模型 Llama 3

2.1 Llama 3是什么?

2024年4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。Llama 3 包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为LIama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决力方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。

2.2 Llama 3的系列型号

Llama 3目前提供了两种型号,分别为8B(80亿参数)和70B(700亿参数)的版本,这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。

  • Llama-3-8B:8B参数模型,这是一个相对较小但高效的模型,拥有有80亿个参数。专为需要快速推理和较少计算资源的应用景设计,同时保持了较高的性能标准。
  • Llama-3-70B:70B参数模型,这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力,适合对性能要求更高的应用。
    后续,Llama 3还会推出400B参数规模的模型,目前还在训练中。Meta还表示等完成Llama 3的训练,还将发布一份详细的研究论文。

2.3 Llama 3的官网入口

  • 官方项目主页:https://llama.meta.com/llama3/
  • GitHub模型权重和代码:https://github.com/meta-llama/llama3/
  • Hugging Face模型:https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

2.4 Llama 3改进的地方

  • 参数规模:Llama3提供了8B和70B两种参数规模的模型,相比lama2,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
  • 训练数据集:Llama3的训练数据集比LIama2大了7倍,包含了超过15)万亿个token,其中包括4倍的代码数据,这使得Llama3在理解和生成代码方面更加出色。
  • 模型架构:Llama3采用了更高效的分词器和分组查询注意力(Grouped Query Attention,GQA)技术,提高了模型的推理效率和处理长文本的能力。
  • 性能提升:通过改进的预训练和后训练过程,Llama3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
  • 安全性:引入了Llama Guard2等新的信任和安全工具,以及Code Shield和CyberSec Eval2,增强了模型的安全性和可靠性。
  • 多语言支持:Llama3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。
  • 推理和代码生成:Llama3在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂
    任务处理上更加精准和高效。

2.5 Llama 3的技术架构

  • 解码器架构:Llama3采用了解码器(decoder-only)架构,这是一种标准的Transformer模型架构,主要用于处理自然语言生成任务。
  • 分词器和词汇量:Llama3使用了具有128K个token的分词器,这使得摸型能够更高效地编码语言,从而显著提升性能。
  • 分组查询注意力(GroupedQueryAttention,GQA):为了提高推理效率,Llama3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组,减少了计算量,同时保持了模型的性能。
  • 长序列处理:Llama3支持长达8,192个token的序列,使用掩码(maasking)技术确保自注意力(self-attention)不会跨越文档边界,这对于处理长文本尤其重要。
  • 预训练数据集:Llama3在超过15TB的token上进行了预训练,这这个数据集不仅规模巨大,而且质量高,为模型提供了丰富的语言信息。
  • 多语言数据:为了支持多语言能力,Llama3的预训练数据集包含了超过5%的非英语高质量数据,涵盖了超过30种语言。
  • 数据过滤和质量控制:Llama3的开发团队开发了一系列数据过虑管道,包括启发式过滤器、NSFW(不适合工作场所)过滤器、语义去重方法和文本分类器,以确保保训练数据的高质量。
  • 扩展性和并行化:Llama3的训练过程中采用了数据并行化、模型并行化和流水线并行化,这些技术的应用使得模型能够高效地在大量GPU上进行训练。
  • 指令微调(Instruction Fine-Tuning):Llama3在预训练模型的基础上,通过指令微调进一步提升了模型在特定任务上的表现,如对话和编程任务。

2.6 如何使用 Llama 3

开发人员
Meta已在GitHub、Hugging Face、Replicate上开源其Llama3模型,开发人员可使用torchtune等工具对Llama3进行定制和微调,以适应特定的用例和需求,感兴趣的开发者可以查看官方的入门指南并前往下载部署。

  • 官方模型下载:https://llama.meta.com/llama-downloads
  • GitHub地址:https://github.com/meta-llama/llama3/
  • Hugging Face地址:https://huggingface.co/meta-llama
  • Replicate地址:https://replicate.com/meta
    普通用户

不懂技术的普通用户想要体验Llama 3可以通过以下方式使用:

  • 访问Meta最新推出的Meta Al聊天助手进行体验(注:Meta.Al会员区,只有部分国家可使用)
  • 访问Replicate提供的Chat with Llama进行体验https://llama3.replicate.dev/
  • 使用Hugging Chat(https://huggingface.co/chat/),可手动将模型切换至Llama 3

http://www.ppmy.cn/ops/20050.html

相关文章

学习 Rust 的第十二天:如何使用向量

大家好, 今天我们来看看计算机科学中的一种基本数据结构,即向量。向量在 Rust 中扮演着至关重要的角色,它在各种编程任务中都发挥着重要作用。像 Rust 这样的系统编程语言以其对安全性和性能的强调而闻名,因此向量提供了一些强大…

Linux驱动开发——(八)Linux异步通知

目录 一、异步通知简介 二、信号处理 2.1 驱动程序中的处理 2.1.1 fasync_struct结构体 2.1.2 fasync操作函数 2.1.3 kill_fasync函数 2.2 应用程序中的处理 三、驱动代码 一、异步通知简介 异步通知的核心就是信号。信号类似于硬件上使用的中断,只不过信号…

http请求与响应,结合springboot

目录 简单参数&实体参数 get请求 post请求 简单参数&实体参数【总结】 springboot中接受简单参数 RequestParam注解 实体参数接收 数组集合参数 数组接收 集合接收 数组集合参数 【总结】 简单参数&实体参数 get请求 请求url: http://l…

Tiny11作者开源:利用微软官方镜像制作独属于你的Tiny11镜像

微软对Windows 11的最低硬件要求包括至少4GB的内存、双核处理器和64GB的SSD存储。然而,这些基本要求仅仅能保证用户启动和运行系统,而非流畅使用 为了提升体验,不少用户选择通过精简系统来减轻硬件负担,我们熟知的Tiny11便是其中…

C++知识点总结(31):位运算、进制转换

位运算、进制转换 一、前言二、位运算1. 按位与 &2. 按位或 |3. 按位异或 ^4. 按位取反 ~5. 按位左移 <<6. 按位右移 >> 三、进制转换1. 二进制数计算2. 十进制转 x 进制2.1 十进制转二进制2.2 十进制转八进制2.3 十进制转十六进制 3. x 进制转十进制3.1 二进制…

第三方登录以及微信小程序一键登录的实现方案

文章目录 场景解决 场景 第三方登录以及微信小程序一键登录的实现方案, 作下记录 解决 第三方登录 JustAuth微信小程序一件登录 wxjava

Tree-V2 实现 全选、反选

使用场景&#xff1a; 需要一个 tree 树形结构体&#xff0c;但是采用 普通的 tree &#xff0c;在数据量大的时候 会造成 tree 渲染的压力&#xff0c;尤其是在勾选的时候。 element ui plus 中 引入了 “Tree V2 虚拟化树形控件” 具体的内容可以 参考这里 <el-button …

微服务与单体应用之间的调用问题

前言 本文转自 www.microblog.store,且已获得授权 一、问题背景 microblog.store微博客使用了微服务架构,并且docker容器化部署; 另有一个独立的单体应用,功能是: 作为ip地址解析中心; 微服务集群以及该单体应用都部署到同一台服务器上面,有需要的时候微服务集群里面某个微服务…

spring源码

autowier自动注入 autowireConstructer getEarlyBeanReference populateBean

VUE3 ref,props,生命周期

1.--ref属性 1.1代码 1.1.1子表 <template><div class"person"><h1>中国</h1><h2 ref"title2">北京</h2><h3>尚硅谷</h3><button click"showLog">点我输出h2这个元素</button>&l…

javaEE初阶——多线程(五)

T04BF &#x1f44b;专栏: 算法|JAVA|MySQL|C语言 &#x1faf5; 小比特 大梦想 此篇文章与大家分享关于多线程的文章第五篇关于 多线程代码案例二 阻塞队列 如果有不足的或者错误的请您指出! 目录 2.阻塞队列2.1常见队列2.2 生产者消费者模型有利于进行解耦合程序进行削峰填谷…

A40 STM32_HAL库函数 之 Rcc扩展驱动所有函数的介绍及使用

A40 STM32_HAL库函数 之 Rcc扩展驱动所有函数的介绍及使用 1 该驱动函数预览1.1 HAL_RCCEx_PeriphCLKConfig1.2 HAL_RCCEx_GetPeriphCLKConfig1.3 HAL_RCCEx_GetPeriphCLKFreq 该文档修改记录&#xff1a;总结 1 该驱动函数预览 序号函数名描述1HAL_RCCEx_PeriphCLKConfig()配…

Android Binder——数据传输限制(二十三)

在前面的学习中,我们了解到在创建用户和内核的虚拟空间的时候,会开辟 1M-8K 的内存空间,用于当前进程与 Binder 驱动进行传递数据,但是在实际传输过程中,其实并不能达到1M-8k的数据。这里我们就来分析一下 Binder 通信数据传输的限制。 一、Linux系统启动 Linux 系统在启…

从docker container中调用宿主机命令行

在Docker容器中直接调用宿主机的命令行工具并不是推荐的做法&#xff0c;因为Docker设计的初衷是实现应用程序的隔离和可移植性。然而&#xff0c;在某些开发或调试场景下&#xff0c;你可能需要临时访问宿主机的资源。为了满足这样的需求&#xff0c;可以通过几种间接方式来实…

轮转数组(力扣)

思路一&#xff1a;时间复杂度&#xff08;往往考虑最坏的情况&#xff09;为O(n^2) &#xff08;最坏情况下 K*M &#xff08;N-1&#xff09;*N&#xff09; void rotate(int* nums, int numsSize, int k) { //针对k>numsSize的情况//思路1&#xff0c;创建一个临时变…

SpringBoot学习之Redis下载安装启动【Windows版本】(三十六)

一、下载Redis for Windows Redis 官方网站没有提供 Windows 版的安装包,但可以通过 GitHub 来下载安装包,下载地址:https://github.com/tporadowski/redis/releases 1、网站提供了安装包和免安装版本,这里我们直接选择下面的免安装版本 2、下载后的压缩包解压以后,如下…

【MySQL】SQL优化

SQL优化 插入数据 insert 一次插入数据和批量插入数据 insert into tb_test (id, name) values (1,Tom); insert into tb_test (id, name) values (1,Tom),(2,Jack),(3,Jerry);优化方案&#xff1a; 手动控制事务&#xff0c;且按主键顺序插入。start transaction; insert …

日期操作类 + http、https 请求工具类 + 开发环境 忽略 SSL 验证工具类 + 二维码工具类

日期操作类 package com.pay.common.util;import java.text.SimpleDateFormat; import java.util.Date; /*** 日期操作类* 创建者 科帮网* 创建时间 2017年7月31日*/ public class DateUtils {private final static SimpleDateFormat sdfYear new SimpleDateFormat("yyy…

53 语言模型【动手学深度学习v2】

https://www.bilibili.com/read/cv17622666/?jump_opus1https://www.bilibili.com/read/cv17622666/?jump_opus1

FANUC机器人SOCKET连接指令编写

一、创建一个.KL文件编写连接指令 创建一个KL文本来编写FANUC机器人socket连接指令 二、KAREL指令代码 fanuc机器人karel编辑器编辑的karel代码如下&#xff1a; PROGRAM SM_CON %COMMENT SOCKET连接 %STACKSIZE 4000 --堆栈大小 %INCLUDE klevccdfVAR status,data_type,in…