PyTorch广告点击率预测(CTR)利用深度学习提升广告效果

server/2025/1/24 1:14:14/

目录

      • 广告点击率预测问题
      • 数据集结构
      • 广告点击率预测模型的构建
        • 1. 数据集准备
        • 2. 构建数据加载器
        • 3. 构建深度学习模型
        • 4. 训练与评估
      • 总结

广告点击率预测(CTR,Click-Through Rate Prediction)是在线广告领域中的重要任务,它帮助广告平台根据用户的兴趣预测广告的点击概率,从而提高广告投放的效果和广告商的收益。随着深度学习的快速发展,传统的广告点击率预测方法已逐渐被基于神经网络的模型所取代,深度学习在此领域的应用带来了显著的提升。

本文将通过实现一个简单的深度学习广告点击率预测模型,介绍如何利用PyTorch构建一个广告点击率预测系统。

广告点击率预测问题

广告点击率预测问题可以描述为:给定一组广告和用户的特征,预测用户点击该广告的概率。这类任务通常是一个二分类问题——用户点击广告与否,标签为1或0。

在广告点击率预测中,输入特征通常包括用户的历史行为、广告的特征(如广告类型、广告主题、展示位置等)以及用户的环境特征(如时间、设备等)。模型的任务是从这些特征中学习到有效的信息,并做出准确的预测。

数据集结构

为了实现广告点击率预测,我们假设数据集的结构如下:

用户ID广告ID时间戳用户年龄用户性别广告类型展示位置点击标签
110011609459200250视频首页1
210021609459260301图片侧边栏0
310031609459320220视频首页1
  • 用户ID:表示用户的唯一标识符。
  • 广告ID:表示广告的唯一标识符。
  • 时间戳:表示广告展示的时间。
  • 用户年龄:表示用户的年龄。
  • 用户性别:表示用户的性别,0为女性,1为男性。
  • 广告类型:表示广告的类型(如视频广告、图片广告等)。
  • 展示位置:表示广告展示的页面位置(如首页、侧边栏等)。
  • 点击标签:表示用户是否点击广告,1表示点击,0表示未点击。

在实际应用中,数据集会非常庞大,并且包含多种类型的特征。为了让模型能够处理这些特征,我们通常需要将分类特征(如性别、广告类型等)进行数值化或独热编码。

广告点击率预测模型的构建

1. 数据集准备

首先,我们需要一个包含广告和用户特征的数据集。这里我们假设数据集中包含多个特征列,最后一列为标签(点击与否)。我们将使用 pandas 来加载数据,利用 train_test_split 将数据分为训练集和测试集。

python">import pandas as pd
from sklearn.model_selection import train_test_split# 加载数据
def load_data(file_path):df = pd.read_csv(file_path)features = df.iloc[:, :-1].values  # 所有特征labels = df.iloc[:, -1].values     # 最后一列标签return features, labels
2. 构建数据加载器

我们使用PyTorch的 Dataset 类来构建自定义数据集,并利用 DataLoader 来批量加载数据。这样可以更高效地进行模型训练。

python">from torch.utils.data import Dataset, DataLoaderclass CTRDataset(Dataset):def __init__(self, features, labels):self.features = torch.tensor(features, dtype=torch.float32)self.labels = torch.tensor(labels, dtype=torch.float32)def __len__(self):return len(self.features)def __getitem__(self, idx):return self.features[idx], self.labels[idx]
3. 构建深度学习模型

在本例中,我们使用一个简单的多层感知机(MLP)模型。该模型由三个全连接层组成,通过ReLU激活函数进行非线性变换,最终输出一个介于0和1之间的概率值。

python">import torch.nn as nnclass CTRModel(nn.Module):def __init__(self, input_dim):super(CTRModel, self).__init__()self.fc1 = nn.Linear(input_dim, 128)  # 第一层self.fc2 = nn.Linear(128, 64)         # 第二层self.fc3 = nn.Linear(64, 1)           # 输出层self.sigmoid = nn.Sigmoid()           # 输出概率def forward(self, x):x = torch.relu(self.fc1(x))  # 激活函数 ReLUx = torch.relu(self.fc2(x))  # 激活函数 ReLUx = self.fc3(x)              # 输出层return self.sigmoid(x)       # 预测点击率概率
4. 训练与评估

我们使用二元交叉熵损失函数(BCELoss)和Adam优化器来训练模型。在每个epoch结束后,我们评估模型在测试集上的准确度。

python">import torch.optim as optim# 定义训练过程
def train(csv_file, num_epochs=10, lr=0.001):features, labels = load_data(csv_file)x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)# 创建数据加载器train_dataset = CTRDataset(x_train, y_train)test_dataset = CTRDataset(x_test, y_test)train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)# 初始化模型、损失函数和优化器input_dim = features.shape[1]model = CTRModel(input_dim)criterion = nn.BCELoss()  # 二元交叉熵损失函数optimizer = optim.Adam(model.parameters(), lr)# 训练过程model.train()for epoch in range(num_epochs):running_loss = 0.0for inputs, labels in train_loader:optimizer.zero_grad()outputs = model(inputs).squeeze(1)loss = criterion(outputs, labels)loss.backward()optimizer.step()running_loss += loss.item()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader):.4f}')# 训练完成后,评估模型evaluate(model, test_loader)# 评估过程
def evaluate(model, val_loader):model.eval()  # 设置为评估模式correct = 0total = 0with torch.no_grad():for inputs, labels in val_loader:outputs = model(inputs).squeeze(1)predicted = (outputs >= 0.5).float()  # 将输出转化为0或1total += labels.size(0)correct += (predicted == labels).sum().item()accuracy = correct / totalprint(f'Accuracy: {accuracy:.4f}')

总结

通过这个简单的深度学习模型,我们实现了一个广告点击率预测系统。利用PyTorch,我们可以非常方便地构建神经网络模型,训练并进行评估。通过不断优化模型架构和特征工程,我们有可能进一步提升广告点击率的预测准确度。

随着广告行业的不断发展,点击率预测的需求将会越来越大,借助深度学习的强大能力,我们可以不断优化广告投放策略,达到更加精确的预测结果。希望本文的内容能为你搭建广告点击率预测系统提供帮助。


http://www.ppmy.cn/server/160899.html

相关文章

Flask之SQL复杂查询

filter_by() 和 filter() 的最主要的区别&#xff1a; 模块语法><&#xff08;大于和小于&#xff09;查询and_和or_查询filter_by()直接用属性名&#xff0c;比较用不支持不支持filter()用类名.属性名&#xff0c;比较用支持支持 filter_by() 只接受键值对参数&#x…

0164__【GNU】gcc -O编译选项 -Og -O0 -O1 -O2 -O3 -Os

【GNU】gcc -O编译选项 -Og -O0 -O1 -O2 -O3 -Os_gcc -o0-CSDN博客

Sklearn 中的线性回归模型

线性回归的数学模型 假设单变量回归模型&#xff1a; h θ ( x ) θ T x θ 0 θ 1 x 1 h_\theta(x) \theta^T x \theta_0 \theta_1 x_1 hθ​(x)θTxθ0​θ1​x1​ 这里的 θ 0 \theta_0 θ0​ 就是偏置&#xff0c;而 θ 1 \theta_1 θ1​ 就是权重&#xff0c;而…

Java如何向http/https接口发出请求

用Java发送web请求所用到的包都在java.net下&#xff0c;在具体使用时可以用如下代码&#xff0c;你可以把它封装成一个工具类 import javax.net.ssl.*; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.Outpu…

国内外算法比赛推荐

引言 在计算机科学领域&#xff0c;算法比赛是提升编程技能、检验学习成果的绝佳途径。对于 C 语言的爱好者来说&#xff0c;选择一个高质量且对 C 支持良好的算法比赛至关重要。今天&#xff0c;将从国内外两个维度为大家推荐这类比赛。 国际知名算法比赛 ACM 国际大…

记录关于postgresql中使用jsonb导致字符串的乱码问题

事情的起因是这样的&#xff0c;之前完成了jsonb的类型转化器配置&#xff0c;在本地也可以正常运行了&#xff0c;结果上了服务器就出现乱码了。 本地线上 明明代码都一样&#xff0c;偏偏 请求获得到的tags不一样 是不是数据库编码问题 这个问题非常好判断&#xff0c;在…

【漫话机器学习系列】057.误报率(Flase Positive Rate, FPR)

误报率&#xff08;False Positive Rate, FPR&#xff09; 定义 误报率&#xff08;False Positive Rate&#xff0c;FPR&#xff09;是衡量分类模型错误预测的一项指标&#xff0c;表示 负例被错误预测为正例的比例。在分类问题中&#xff0c;FPR主要用于评估模型在区分负例…

【MySQL】存储引擎有哪些?区别是什么?

频率难度60%⭐⭐⭐⭐ 这个问题其实难度并不是很大&#xff0c;只是涉及到的相关知识比较繁杂&#xff0c;比如事务、锁机制等等&#xff0c;都和存储引擎有关系。有时还会根据场景选择不同的存储引擎。 下面笔者将会根据几个部分尽可能地讲清楚 MySQL 中的存储引擎&#xff0…