nlp初学者怎么入门?需要学习哪些?

news/2024/12/24 4:00:42/

入门姿势简单粗暴:打一些必要的基础就跑步进入Transformer。

大模型时代,传统的算法,像分词、词性标注,被替代得非常厉害,在入门阶段没必要花费太多精力在传统算法上面。

数学和编程基础

数学:

高数、线数、概率统计。大学水平就可以,如果基础差,可以后续边学边补。

Python:

语言推荐python,基本上绕不过去。不用学太深,掌握Python的基本语法、数据类型、控制结构(如循环和条件语句)、函数等就够了

推荐资源:b站小甲鱼

pytorch:

深度学习的主流框架之一。

推荐b站刘二大人《PyTorch深度学习实践》、我是土堆的《pytorch深度学习快速入门教程》

跑步进入Transformer

学习Transformer模型的基本架构和原理,包括自注意力机制、位置编码、多头注意力等等。

推荐资料:

吴恩达的deeplearning系列课程

斯坦福CS224-深度学习自然语言处理

李沐老师的《动手学深度学习》

都是经典,选自己能听得下去的听,完成作业,在这个过程中构建完整的知识体系版图。

Hugging Face Transformers:使用Hugging Face Transformers库来加载、训练、评估模型以及完成下游NLP任务。

预训练大语言模型

最近几年,随着gpt4,llama等带起的百模大战持续火热,预训练大模型这块的研究、应用和发展都受到了广泛的关注。尤其到了现今企业纷纷开始卷应用落地的时候,用人市场现状就是一方面有缺口,另一方面真正有全面项目落地经验的人才太少了。

像预训练大模型整套知识体系,包括常见的预训练模型、模型结构、主要的预训练任务等等,必须要有所侧重地学明白,无论是科研还是就业,都是重中之重。PEFT(Parameter-Efficient Fine-tuning)要学,有机会动手训一个大语言模型可行性比较低,但微调是每个人都可以实践的。另外就是要回langchain进行下游任务的开发。

项目实践

除了参加学校实验室的项目,做开源项目、参加实习都是获得项目实践机会的方法。还有就是参加竞赛。这些竞赛项目一般会提高提供基本的数据集以及要解决的问题,同时也会给出一些baseline代码作为参考,非常有助于入门学习。

1)Kaggle Kaggle大名鼎鼎的竞赛社区,有很多有意思的数据集和任务,可以通过参加Kaggle机器学习比赛来下载相关数据集。

2)天池大赛

阿里云举办的竞赛,完全来自真实业务场景。每场赛事沉淀的课题和数据集,在天池保留和开放。

国内的竞赛还有很多,和鲸,华为云,datafountain等。

大模型时代,考虑到成本和安全,在实际应用中,选择私有化部署一套自己的百亿量级的大模型的情况还是非常多的。因此项目实践中药着重锻炼的不但有编码能力,还有工程能力。

大量阅读经典论文,积累代码经验

阅读论文是获取知识和理解最新进展的重要途径。一个是细分领域的经典论文,包括baseline;另一个是前沿方案。针对论文中提到的陌生知识点,去有意识地学习;还可以通过关注论文的引用和参考文献来扩展阅读范围。

基础倒回来补 传统算法的基础知识对于模型可解释性、模型调试等方面具有重大意义。因此在掌握了Transformer等现代模型后,可以倒回来补充学习这些传统算法的基础知识,以达到更全面地理解NLP技术的本质和应用的目的。

为面试做准备 除了理论知识基础、项目经验、实习经验,按照当前的内卷形式,留出时间来专门准备面试是非常有必要的。可以尽可能多地过一些leetcode,多看一些面经分享。针对AIGC算法工程师方面,建议单做一份简历,真的香。


http://www.ppmy.cn/news/1557634.html

相关文章

【ETCD】【实操篇(二)】如何从源码编译并在window上搭建etcd集群?

要在 Windows 上编译 etcd 及 etcdctl 工具,并使用 bat 脚本启动 etcd 集群,首先需要准备好开发环境并确保依赖项正确安装。下面是从 etcd 3.5 源码开始编译和启动 etcd 集群的详细步骤: 目录 1. 安装 Go 环境2. 获取 etcd 源码3. 编译 etcd…

Java爬虫大冒险:如何征服1688商品搜索之巅

在这个信息爆炸的时代,数据就是力量。对于电商平台而言,数据更是金矿。今天,我们要踏上一场Java爬虫的冒险之旅,目标是征服1688这个B2B电商巨头,获取按关键字搜索的商品信息。这不仅是技术的挑战,更是智慧的…

Unity动态读取外部图片转Texture2D,内存过大问题解决方案

问题描述 加载原始图片2.63M的图片,分辨率为3023*4032,占用内存108.5M 加载原始图片12.6 M的图片,分辨率为6000*8000,占用内存427.2M 太恐怖了吧 解决方案 1.加载完图片,等比缩放,宽高改为1024或者512以下 1024占用5.2M,512占用1.3M,相比小了很多 2.原始Texture2…

基于LabVIEW的USRP信道测量开发

随着无线通信技术的不断发展,基于软件无线电的设备(如USRP)在信道测量、无线通信测试等领域扮演着重要角色。通过LabVIEW与USRP的结合,开发者可以实现信号生成、接收及信道估计等功能。尽管LabVIEW提供了丰富的信号处理工具和图形…

CUDA从入门到精通(六)——CUDA编程模型(二)

1. 核函数类型限定符 CUDA 核函数的常用函数类型限定符及其相关信息的表格&#xff1a; 限定符执行端调用方式备注__global__设备端&#xff08;GPU&#xff09;从主机代码使用 <<<...>>> 调用核函数用于声明核函数&#xff0c;在 GPU 上执行。只能从主机代…

Linux快速入门-兼期末快速复习使用

Linux快速入门-兼期末快速复习使用 一小时快速入门linux快速一&#xff1a;Linux操作系统概述1. Linux概述1.1 定义与特点1.2 起源与发展1.3 Linux结构1.4 版本类别1.5 应用和发展方向 2. 安装与启动2.1 Windows下VMware安装Linux2.2 安装Ubuntu 快速二&#xff1a;linux的桌面…

怎么样保持mysql和redis数据一致性

保持 MySQL 和 Redis 数据的一致性是一个常见的挑战,因为 MySQL 是传统的关系型数据库,而 Redis 是内存数据库,通常用于缓存和高性能存储。这两者的数据更新方式不同,特别是当 Redis 用作缓存时,可能会存在缓存和数据库之间的数据不一致问题。为了保持数据一致性,通常可以…

sqlserver新建用户并分配对视图的只读权限

1、--创建了一个数据库角色&#xff0c;名称为:[seeview] exec sp_addrole seeview 2、--指定可查看的视图 GRANT SELECT ON view_getInventoryInfo TO seeview --GRANT SELECT ON view_getInventoryInfo2 TO seeview 3、--添加只允许访问指定视图的用户: exec sp_addlogin ‘登…