SQL语句执行顺序深度解析 - 《SQL查询实战》 - 严富坤的知识库专栏(yanfukun.com)

标准SELECT语句的逻辑执行顺序
各阶段详细解析及注意事项
执行顺序的实际应用
- 示例场景分析
- 常见陷阱与误区
性能优化角度的考虑
总结

SQL语句的逻辑执行顺序与我们书写的顺序有很大不同，这对于编写高效SQL和排查问题至关重要。下面我将详细剖析标准SELECT查询的执行顺序及每个环节的注意事项。

标准SELECT语句的逻辑执行顺序

SELECT [DISTINCT] <select_list>
FROM <table_source>
[WHERE <where_condition>]
[GROUP BY <group_by_list>]
[HAVING <having_condition>]
[ORDER BY <order_by_list>]
[LIMIT <limit_number>]

实际的逻辑执行顺序为：

FROM - 确定数据源
JOIN - 连接多个数据源
WHERE - 行级过滤
GROUP BY - 分组
HAVING - 组级过滤
SELECT - 选择和计算字段
DISTINCT - 去除重复行
ORDER BY - 排序
LIMIT/OFFSET - 分页限制

各阶段详细解析及注意事项

1. FROM子句（数据源确定）

在这一阶段，数据库会确定所有参与查询的表，并生成一个虚拟表作为后续操作的输入。

注意事项：

表的选择直接影响查询性能，应避免不必要的表参与
大表JOIN小表时，应考虑表的访问顺序（某些优化器会自动调整）
临时表和视图会在此阶段展开
派生表（子查询）会在此阶段执行并物化

执行细节：

FROM table1, table2

会产生一个笛卡尔积，行数为table1行数×table2行数，应谨慎使用，通常需配合WHERE条件限制。

2. JOIN子句（表连接）

处理各种连接操作：INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN等。

注意事项：

JOIN的顺序会影响性能，尤其是大表JOIN时
连接条件（ON子句）的设计至关重要，应尽量使用索引列
LEFT JOIN后不适合在右表字段上使用WHERE筛选，会将LEFT JOIN变相转换为INNER JOIN
多表JOIN时注意表的关联路径，避免无效路径

执行细节：

FROM table1 LEFT JOIN table2 ON table1.id = table2.t1_id

保留table1所有行，table2匹配不到时填充NULL。

3. WHERE子句（行级过滤）

对前阶段的结果集进行行级筛选，不符合条件的行被过滤掉。

注意事项：

WHERE子句是行级过滤，在GROUP BY之前执行
条件评估顺序：执行器会尝试优化条件评估顺序，但编写时应将高筛选性条件放前面
NULL值处理：需注意NULL与任何值比较都返回NULL，应使用IS NULL/IS NOT NULL
避免在WHERE中使用列函数，会导致无法使用索引
避免隐式类型转换，会影响索引使用

执行细节：

WHERE customer_id = 100 AND order_date > '2023-01-01'

先筛选customer_id，再筛选日期（若customer_id有索引）。

4. GROUP BY子句（分组）

根据指定的列对结果集进行分组，为聚合函数准备数据。

注意事项：

GROUP BY会对数据进行排序和分组，是较耗资源的操作
MySQL中GROUP BY隐含排序，其他数据库不一定
只有GROUP BY列和聚合函数可以出现在SELECT列表中
非聚合列出现在SELECT会导致随机返回组内某值（MySQL5.7之前）或报错（其他数据库）
分组列最好有索引，提高GROUP BY性能

执行细节：

GROUP BY department_id, job_title

先按department_id分组，同一department_id下再按job_title分组。

5. HAVING子句（组级过滤）

对GROUP BY生成的组进行筛选，不符合条件的组被过滤。

注意事项：

HAVING在GROUP BY之后执行，是组级过滤
HAVING通常包含聚合函数，而WHERE不能使用聚合函数
能用WHERE做的过滤尽量不用HAVING，WHERE过滤早，效率高
HAVING一般与GROUP BY联用，单独使用时整个表视为一组
HAVING性能通常弱于WHERE，因为它过滤的是已聚合的结果

执行细节：

HAVING COUNT(*) > 5

仅保留记录数超过5的组。

6. SELECT子句（投影和计算）

确定最终结果集应包含哪些列，执行表达式计算。

注意事项：

SELECT是第六步执行，前面的WHERE、GROUP BY不能直接引用SELECT中的别名
聚合函数（SUM, COUNT等）在此阶段计算
计算列和表达式在此阶段求值
SELECT *很方便但会影响性能，特别是大表或需要网络传输
通配符会导致表结构变化时查询结果变化，影响应用稳定性

执行细节：

SELECT employee_id, first_name || ' ' || last_name AS full_name

会为每行计算连接后的全名。

7. DISTINCT子句（去重）

移除结果集中的重复行。

注意事项：

DISTINCT作用于SELECT的所有列，而非单个列
DISTINCT是资源密集型操作，需谨慎使用
如果已知没有重复行，不要使用DISTINCT
大数据集上使用DISTINCT可能导致性能问题
COUNT(DISTINCT column)是特殊优化，比SELECT DISTINCT后COUNT效率高

执行细节：

SELECT DISTINCT department_id, job_title

按两列组合值去重，非单独对department_id去重。

8. ORDER BY子句（排序）

根据指定列对结果集进行排序。

注意事项：

ORDER BY是唯一能保证结果集顺序的方式，不指定则顺序不确定
排序列最好有索引，否则会进行文件排序（filesort）
ORDER BY可以使用SELECT列表中未包含的列（除非使用了DISTINCT）
ORDER BY可以使用SELECT中定义的别名
多列排序按指定顺序依次排序
默认ASC升序，可显式指定DESC降序

执行细节：

ORDER BY hire_date DESC, salary ASC

先按入职日期降序，相同日期再按薪资升序。

9. LIMIT/OFFSET子句（分页）

限制返回的行数和起始位置。

注意事项：

LIMIT是最后执行的操作，前面的结果集已完全生成
大偏移量的LIMIT效率低，例如LIMIT 10000, 10会处理10010行
建议使用WHERE子句限定范围后再LIMIT，如用主键WHERE id > last_id LIMIT 10
不同数据库分页语法可能不同（SQL Server: TOP/OFFSET-FETCH；Oracle: ROWNUM/ROW_NUMBER）
分页查询应结合索引使用，减少回表操作

执行细节：

LIMIT 10 OFFSET 20

等价于LIMIT 20, 10，返回第21-30行数据。

执行顺序的实际应用

示例场景分析

考虑如下SQL:

SELECT 
    department_name, 
    AVG(salary) AS avg_salary
FROM 
    employees e
JOIN 
    departments d ON e.department_id = d.department_id
WHERE 
    hire_date > '2020-01-01'
GROUP BY 
    department_name
HAVING 
    AVG(salary) > 5000
ORDER BY 
    avg_salary DESC
LIMIT 5;

实际执行顺序：

确定employees和departments表
基于department_id连接两表
筛选入职日期大于2020-01-01的行
按department_name分组
计算每组平均薪资，过滤掉平均薪资不超过5000的组
计算最终结果集包含department_name和avg_salary
按avg_salary降序排序
返回前5条记录

常见陷阱与误区

WHERE vs HAVING混用
- 错误：HAVING hire_date > '2020-01-01'
- 正确：WHERE hire_date > '2020-01-01'
SELECT别名在WHERE中使用
- 错误：SELECT salary*12 AS annual_salary WHERE annual_salary > 60000
- 正确：SELECT salary*12 AS annual_salary WHERE salary*12 > 60000
GROUP BY后SELECT非聚合列
- 错误：SELECT employee_name, department_id, AVG(salary) FROM employees GROUP BY department_id
- 正确：SELECT department_id, AVG(salary) FROM employees GROUP BY department_id
ORDER BY应用聚合函数但不在SELECT列表
- 某些数据库允许：SELECT department_id FROM employees GROUP BY department_id ORDER BY AVG(salary)
- 某些数据库禁止此用法，需要：SELECT department_id, AVG(salary) AS avg_sal FROM employees GROUP BY department_id ORDER BY avg_sal

性能优化角度的考虑

基于执行顺序的优化策略：

尽早过滤数据
- 在FROM/JOIN阶段使用适当子查询
- 充分利用WHERE减少后续处理的数据量
减少中间结果集大小
- 选择合适的JOIN策略
- 避免产生大量临时数据
避免不必要的操作
- 不要GROUP BY后又不使用聚合函数
- 避免不必要的DISTINCT操作
- 避免ORDER BY不需要的列
利用索引优化执行顺序
- WHERE、JOIN、ORDER BY、GROUP BY使用索引列
- 合理设计复合索引顺序与SQL结构匹配
利用执行顺序调整SQL
- 将复杂查询拆分为多个简单查询
- 使用CTE（公共表表达式）提高可读性和性能

总结

理解SQL执行顺序不仅有助于编写正确的SQL语句，更能帮助发现性能瓶颈，优化查询效率。SQL的声明式特性和实际执行逻辑的差异，是SQL既强大又复杂的原因之一。掌握这种执行机制，将使您能够编写更高效、更精确的SQL查询。