数据可视化准备：动态识别echarts的横纵坐标数据字段

前言

继上一篇文章自动选择图表类型：基于数据特征智能决策分析了如何根据sql和数据结果判断应该自动使用哪种图表类型，本文继续将图表的x轴和y轴横纵坐标识别出来，基本一个二维数据类普通图表就可以直接输出为echarts参数了。

在数据可视化领域，正确识别哪些字段应该作为X轴（通常代表分类或时间序列数据）和Y轴（通常代表度量或数值数据）是确保图表正确表达信息的关键步骤。本来可以使用LLM根据SQL和数据直接输出echarts 前端渲染参数（以gpt3.5为例，准确率可达95%以上），但生成过程既消耗算力又需要大量耗时等待，因此找到替换方案是必须的。本文将探讨如何实现毫秒级自动化完成这一过程，以提高数据分析的效率和准确性。

正文

自动识别适当的X和Y轴可以极大地简化数据可视化的工作流程，特别是在数据集频繁更新或变化时。自动化这一过程有助于减少人为错误，加快从数据到洞察的转换速度。
动态识别字段的方法

自动识别最适合作为X轴和Y轴的字段涉及几个关键步骤：

数据类型分析
时间或文本数据：通常适合作为X轴，因为它们表示分类或时间序列。
数值数据：通常适合作为Y轴，用于展示大小、值或计数。
字段名称识别
通过分析字段名称中的关键词来推测其用途：
X轴候选：包含“日期”、“月份”、“时间”、“年”、“day”、“month”、“year”等关键词的字段。
Y轴候选：包含“数量”、“值”、“金额”、“总数”、“count”、“value”、“amount”等关键词的字段。
SQL查询结构分析
分析SQL查询本身提供的信息：
GROUP BY 和 ORDER BY 子句：通常指示哪些字段用作分类或排序，这些字段是X轴的好候选。
SELECT 子句中的别名：有助于直接在图表中使用更直观的标签。

结合以上方法，我们可以编写一个Python函数来自动决定哪些字段最适合作为X轴和Y轴：

import redef detect_axes_fields(results):if not results or not isinstance(results, list):return None, Nonesample = results[0]text_fields = []numeric_fields = []x_axis_candidates = []y_axis_candidates = []for field, value in sample.items():if isinstance(value, int) or isinstance(value, float):numeric_fields.append(field)else:text_fields.append(field)# 判断字段是否适合作为X轴或Y轴if re.search(r"(日期|月份|时间|年|day|month|year|date|time)", field, re.IGNORECASE):x_axis_candidates.append(field)if re.search(r"(数量|值|金额|总数|count|value|amount|total)", field, re.IGNORECASE):y_axis_candidates.append(field)# 选择最适合的字段x_field = x_axis_candidates[0] if x_axis_candidates else text_fields[0]y_field = y_axis_candidates[0] if y_axis_candidates else numeric_fields[0]return x_field, y_field