Django-ORM-select_related

server/2025/3/15 22:33:42/

Django-ORM-select_related

  • 作用
  • 使用场景
  • 示例
    • 无 select_related 的查询
    • 有 select_related 的查询
  • 如何理解 "只发起一次查询,包含所有相关作者信息"
    • 1. select_related 的工作原理
    • 2. 具体示例解析
    • 3. 为什么只发起一次查询
  • 数据库中的books量巨大,使用`select_related`导致服务崩掉,如何解决
    • 程序层面优化
      • 1. 优化 select_related 的使用
      • 2. 限制查询字段
      • 3. 分页(Pagination)
        • 使用 Django 内置的分页器
        • 使用基于游标的分页(Cursor-based Pagination)
      • 4. 批量处理(Batch Processing)
      • 5. 使用 iterator
      • 6. 使用 prefetch_related 结合 select_related
      • 7. 数据库索引优化
      • 8. 缓存机制
      • 9. 异步处理
    • 数据库层面优化

作用

select_related 主要用于优化一对一(OneToOneField)外键(ForeignKey) 关系中的查询。
它通过SQL的JOIN操作,在单个查询中获取相关对象的数据,从而减少数据库查询次数。

使用场景

• 当你需要访问外键或一对一关系的相关对象时。
• 适用于深度较浅的关系(通常一层或两层)。

示例

假设有以下模型:

python">from django.db import modelsclass Author(models.Model):name = models.CharField(max_length=100)class Book(models.Model):title = models.CharField(max_length=100)author = models.ForeignKey(Author, on_delete=models.CASCADE)

无 select_related 的查询

python">books = Book.objects.all()
for book in books:print(book.author.name)  # 每次循环都会发起一次数据库查询

上述代码会对每个 book 对象的 author 执行一次额外的查询,导致“N+1查询问题”。

有 select_related 的查询

python">books = Book.objects.select_related('author').all()
for book in books:print(book.author.name)  # 只发起一次查询,包含所有相关作者信息

通过 select_related,Django 在单个查询中使用JOIN语句同时获取 Book 和对应的 Author 数据,避免了多次查询。

当然,理解 select_related 如何实现“只发起一次查询,包含所有相关作者信息”对于掌握Django的查询优化至关重要。让我们深入探讨这一过程,包括Django如何构建SQL查询、执行查询以及处理结果。


如何理解 “只发起一次查询,包含所有相关作者信息”

1. select_related 的工作原理

select_related 通过SQL JOIN 操作将主查询和相关模型的查询合并为一个单一的数据库查询。这意味着,当你调用 select_related 时,Django会在后台构造一个包含JOIN的SQL语句,一次性从数据库中获取所有需要的数据。

2. 具体示例解析

当你执行 Book.objects.select_related('author').all() 时,Django会生成一个包含JOIN的SQL查询。

SELECT book.id, book.title, book.author_id, author.id, author.name
FROM book
INNER JOIN author ON book.author_id = author.id;

这个查询通过 INNER JOINbook 表和 author 表连接起来,一次性获取所有书籍及其对应的作者信息。
Django将上述SQL语句发送到数据库执行。数据库处理JOIN操作并返回一个包含所有书籍和作者信息的结果集。

Django的ORM会将查询结果映射到相应的Python对象中。具体来说:

• 每个 Book 实例都会包含其相关联的 Author 实例。
• 这些 Author 实例已经被预先加载,不需要额外的数据库查询。

因此,当你迭代 books 并访问 book.author.name 时,Django已经拥有了所有必要的数据,直接从内存中获取 author.name,而不会发起新的数据库查询。

3. 为什么只发起一次查询

关键在于 select_related 使用了JOIN操作,将多个表的数据合并到一个结果集中。这意味着:

单一查询:只需要执行一次SQL查询,就可以获取所有相关的数据。
减少开销:避免了“N+1查询问题”,即避免了对每个 Book 对象都执行一次额外的查询来获取其 Author


数据库中的books量巨大,使用select_related导致服务崩掉,如何解决

程序层面优化

拿时间换空间:

  • 通过加一些条件只在必要的时候使用 select_related
  • 只查询必要字段
  • 分页
  • 分批
  • 迭代器
  • 缓存
  • 异步

1. 优化 select_related 的使用

如果某些关联数据不需要,可以避免使用 select_related,或者在必要时才使用。

python"># 只在需要时使用 select_related
books = Book.objects.all()
for book in books:if some_condition(book):author = book.author  # 触发单独的查询print(author.name)

或者分情况使用 select_related

python">books = Book.objects.filter(some_field=some_value).select_related('author')
for book in books:print(book.author.name)

2. 限制查询字段

只选择需要的字段,减少每次查询的数据量。

python">books = Book.objects.select_related('author').only('title', 'author__name')
for book in books:print(book.author.name)

或者使用 valuesvalues_list

python">books = Book.objects.select_related('author').values('title', 'author__name')
for book in books:print(book['author__name'])

3. 分页(Pagination)

将查询结果分批加载,每次只处理一部分数据,避免一次性加载所有记录。

使用 Django 内置的分页器
python">from django.core.paginator import Paginatorbooks = Book.objects.select_related('author').all()paginator = Paginator(books, 100)  # 每页100条记录page_number = 1
while True:page = paginator.get_page(page_number)if not page:breakfor book in page:print(book.author.name)page_number += 1
使用基于游标的分页(Cursor-based Pagination)

对于大数据量且需要高效分页的场景,基于游标的分页更为适用。

python">from django.db import connectionbooks = Book.objects.select_related('author').order_by('id')  # 确保有排序字段batch_size = 1000
offset = 0while True:batch = books[offset:offset + batch_size]if not batch:breakfor book in batch:print(book.author.name)offset += batch_size

注意:对于非常大的数据集,建议使用基于游标的分页库,如 django-elasticsearch-dsl 或其他支持高效分页的工具。

4. 批量处理(Batch Processing)

将数据分成较小的批次进行处理,避免一次性加载所有数据。

python">from django.db import transactionbatch_size = 1000
books = Book.objects.select_related('author').all()for i in range(0, books.count(), batch_size):batch = books[i:i + batch_size]with transaction.atomic():  # 根据需要使用事务for book in batch:print(book.author.name)

5. 使用 iterator

iterator 方法可以逐批从数据库中获取数据,减少内存消耗。

python">books = Book.objects.select_related('author').all().iterator()for book in books:print(book.author.name)

注意:使用 iterator 后,无法再次遍历查询集,且缓存机制会有所不同。

6. 使用 prefetch_related 结合 select_related

在某些复杂查询中,可以结合使用 select_relatedprefetch_related 来优化性能。

python">books = Book.objects.select_related('author').prefetch_related('other_related_field')
for book in books:print(book.author.name)

但对于大数据量,通常建议优先考虑分页或批量处理。

7. 数据库索引优化

确保在 Book 表的 author_id 字段上有索引,以加快 JOIN 操作的速度。

python">class Book(models.Model):title = models.CharField(max_length=100)author = models.ForeignKey(Author, on_delete=models.CASCADE, db_index=True)  # 确保有索引

8. 缓存机制

对于不经常变化的数据,可以使用缓存来减少数据库查询次数。

python">from django.core.cache import cachedef get_books():books = cache.get('all_books')if not books:books = list(Book.objects.select_related('author').all().iterator())cache.set('all_books', books, timeout=60*15)  # 缓存15分钟for book in books:print(book.author.name)

注意:缓存大数据量可能会占用大量内存,需谨慎使用。

9. 异步处理

将耗时的处理任务放到异步队列中执行,如 Celery,避免阻塞主线程。

python"># tasks.py
from celery import shared_task
from .models import Book@shared_task
def process_books():books = Book.objects.select_related('author').all().iterator()for book in books:print(book.author.name)# 在视图中调用
process_books.delay()

数据库层面优化

10. 数据库层面的优化

https://blog.csdn.net/2303_78378466/article/details/145123310

分表分库:将 books 表拆分成多个子表或数据库,减少单个查询的压力。
读写分离:将读操作和写操作分离到不同的数据库实例,提升查询性能。
使用更高效的数据库:如 PostgreSQL 在处理复杂查询时性能更优,可以考虑切换数据库

Django-ORM-select_related

  • 作用
  • 使用场景
  • 示例
    • 无 select_related 的查询
    • 有 select_related 的查询
  • 如何理解 "只发起一次查询,包含所有相关作者信息"
    • 1. select_related 的工作原理
    • 2. 具体示例解析
    • 3. 为什么只发起一次查询
  • 数据库中的books量巨大,使用`select_related`导致服务崩掉,如何解决
    • 程序层面优化
      • 1. 优化 select_related 的使用
      • 2. 限制查询字段
      • 3. 分页(Pagination)
        • 使用 Django 内置的分页器
        • 使用基于游标的分页(Cursor-based Pagination)
      • 4. 批量处理(Batch Processing)
      • 5. 使用 iterator
      • 6. 使用 prefetch_related 结合 select_related
      • 7. 数据库索引优化
      • 8. 缓存机制
      • 9. 异步处理
    • 数据库层面优化


http://www.ppmy.cn/server/175271.html

相关文章

SpringMVC(三)响应处理

目录 响应数据类型: 一、自动 JSON 响应 1 实现解析 二、文件下载 1 核心实现 2 优化与问题 响应数据类型: 一、自动 JSON 响应 1 实现解析 RestController 作用 类注解,自动将方法返回值序列化为 JSON(无需 ResponseBody …

C#控制台应用程序学习——3.11

一、整型数字计算 如果我们想执行以下程序:程序提示用户输入一个数字并输出 num 20 的结果,我们的思维应该是这样的: using System;public class Class1 {public static void Main(string[] args){Console.WriteLine("Enter the first…

002-告别乱码-libiconv-C++开源库108杰

本课文包含三个视频! 为什么中文版Windows是编程出现乱码的高发地带?怎么用 libiconv 把国标编码的汉字转换成宇宙统一码?怎么简化 libiconv 那些充满坑的 纯C 函数API? 1. 安装 libiconv 通常,你在 MSYS2 中安装过 G…

Linux各种命令大全

Linux课程笔记 目录结构 /:根目录,唯一顶级目录路径示例:/home/itheima/a.txt 表示根目录下的home/itheima文件夹内的a.txt 基础命令 ls:列出文件 ls [选项] [目录] # 选项: # -l 列表形式显示 # -h 人性化显示文…

mysql学习-常用sql语句

1、安装mysql参考网上链接,进入mysql数据库 mysql -u root -p 2、数据库操作 2.1、创建数据库 create database 数据库名 default character set utf8; 2.2、显示所有数据库 show databases; 2.3、选择数据库 use elementInfo; 2.4、删除数据库 drop database…

图论part4|827. 最大人工岛、127. 单词接龙、463. 岛屿的周长

827. 最大人工岛 🔗:827. 最大人工岛 - 力扣(LeetCode)827. 最大人工岛 - 给你一个大小为 n x n 二进制矩阵 grid 。最多 只能将一格 0 变成 1 。返回执行此操作后,grid 中最大的岛屿面积是多少?岛屿 由一…

基于图像比对的跨平台UI一致性校验工具开发全流程指南——Android/iOS/Web三端自动化测试实战

一、需求背景与方案概述 1.1 为什么需要跨平台UI校验? 在移动互联网时代,同一产品需覆盖Android、iOS和Web三端。由于不同平台的开发框架(如Android的Material Design与iOS的Cupertino风格)及渲染引擎差异,UI界面易出…

​​vue-router编程式导航,params传参拿不到

vue-router在4.14版本就废弃这种传参方式了 原因:​​这种传参本来就不是官方推荐的,比如页面刷新会引起参数丢失​ 官方解释 官方解释翻译后的截图: 解决(官方推荐了很多种解决方式,下面列举出快捷高效的修改方式&a…