数据库基础

主键、索引、外键

1、什么是主键

主键是一列，其值可以唯一标识表中的每一行数据，每个表只能有一个主键，而且主键的值不能重复，也不能包含NULL值，通常用来保证数据的唯一性和用于在表中查找特定的行。

2、主键、外键、索引的区别

定义：

主键：唯一标识一条记录，不允许重复，不允许为空外键：外键是一个表中的字段，其值是另一个表的主键，用于建立两个表之间的关系。

索引：没有重复值，但可以有一个空值，用于快速查询到数据。

作用：

主键：用于唯一标识表中每一行的字段

外键：主要用于和其它表建立联系索引：为了提高查询排序的速度

区别：

外键是一个表中的字段，它与另一个表的主键形成关联，用于建立表之间的关系。

主键和外键通常都与索引有关，但索引不一定是主键或外键。

一条SQL查询语句是如何执行的？

简要回答

连接阶段：由服务器端的连接器组件负责，在客户端与 MySQL 服务器之间建立连接，并验证用户权限。
查询缓存（仅限 MySQL 8.0 前）：检查是否命中缓存，若有完全相同且有效的查询结果可以直接返回。
解析与预处理：解析 SQL 语法，检查语法是否正确，并生成抽象语法树，然后，预处理器进行一些语义检查，验证表和字段是否存在。
优化器：基于统计信息和成本模型，考虑多种执行方案，并选择最优执行计划（如索引选择、JOIN 顺序）。
执行器：根据选择的执行计划，调用存储引擎接口，并按执行计划读取数据并处理（排序、聚合等）。
存储引擎（如 InnoDB）：负责从磁盘或内存读取数据，返回给执行器。
返回结果：执行器进行必要的处理（如过滤、排序）后，将结果集返回客户端，可能分批次传输。

详细回答

连接阶段：
- 当我们在客户端（如命令行工具、应用程序）输入并执行一条 SQL 查询时，首先需要与数据库服务器建立一个网络连接。
- 这个过程包括 TCP/IP 协议的三次握手，以及数据库层面的认证，比如验证用户名和密码。
- 连接成功后，服务器会为这个连接分配一个独立的线程来处理后续的请求。
查询缓存（MySQL 8.0 前）：
- 服务器接收到 SQL 语句后，会先检查查询缓存。这是一个位于内存中的区域，存储了之前执行过的查询语句及其结果。
- 如果当前查询与缓存中的某个查询完全一致（包括 SQL 语句本身、连接的数据库、客户端的协议版本等），并且缓存仍然有效（比如涉及的表没有被修改），那么服务器会直接从缓存中返回结果，无需执行后续的解析、优化和执行过程。
- 需要注意的是，在 MySQL 8.0 及更高版本中，查询缓存功能已经被移除。 这是因为在并发写入场景下，查询缓存的维护成本很高，容易成为性能瓶颈。因此，在现代数据库系统中，通常不再依赖查询缓存进行优化。
解析与预处理：
- 如果查询缓存未命中，服务器会将 SQL 查询语句发送给解析器。解析器会对 SQL 语句进行词法分析（将语句分解成一个个词法单元，如关键字、标识符、操作符等）和 语法分析（根据 SQL 语法规则检查语句是否合法，生成一个抽象语法树 AST）。
- 如果语法有错误，解析器会直接返回错误信息。如果语法没问题，预处理器根据抽象语法树，进一步检查 SQL 语句的合法性，例如，检查表名、字段名是否存在，是否有权限执行该查询等，它还会进行一些语义上的检查和转换。
优化器：
- 优化器的目标是找到执行查询的最优执行计划。它会考虑多种可能的执行方式，并评估它们的成本（如 I/O 次数、CPU 消耗等）。
- 优化器会利用统计信息（如表的大小、索引的选择性等）来做出决策。
- 常见的优化策略包括： ① 选择合适的索引。 ② 决定表的连接顺序。 ③ 选择合适的连接算法（如嵌套循环连接、哈希连接、合并排序连接）。 ④ 改写查询语句，使其更高效。
- 最终，优化器会生成一个最优的执行计划（Execution Plan），它描述了如何执行查询的步骤。
执行器：
- 执行器根据优化器生成的执行计划，调用存储引擎的接口来执行查询。
- 执行器会按照执行计划的步骤，从存储引擎获取数据，进行过滤、排序、连接等操作。例如，如果执行计划指示使用某个索引进行查找，执行器就会调用存储引擎的索引查找接口。
- 执行器会逐步处理数据，并将结果返回给客户端。
存储引擎（以 InnoDB 为例）：
- 存储引擎是数据库系统中负责数据存储和检索的核心组件。不同的存储引擎有不同的特点和优势（如 InnoDB、MyISAM 等）。
- 执行器通过存储引擎的 API 来访问和操作数据文件。
- 存储引擎负责数据的读取、写入、更新、删除以及事务管理、锁机制等。
返回结果：
- 执行器将最终的查询结果返回给客户端。
- 客户端应用程序接收到结果后，可以进行进一步的处理和展示。

知识拓展

MySQL执行一条SQL查询语句的流程示意图（以MySQL8.0为例），如下所示：
面试官可能的追问1—为什么 MySQL 8.0 移除了查询缓存？
- 答：缓存失效频繁（表更新即失效），维护成本高且命中率低。现代优化器能生成更高效执行计划，且应用层缓存（如 Redis）更灵活。
面试官可能的追问2—优化器如何决定使用某个索引？
- 答：基于索引的选择性（唯一性）、统计信息（基数）和查询条件。可通过 EXPLAIN 查看 possible_keys 和 key 字段。
面试官可能的追问3—如何分析一条慢 SQL 的执行瓶颈？
- 答： ① 使用 EXPLAIN 查看执行计划（索引使用、扫描行数）。 ② 开启慢查询日志（slow_query_log）捕获耗时操作。 ③ 检查锁竞争（SHOW ENGINE INNODB STATUS）。

解释一下SQL中的JOIN操作？

简要回答

SQL中的JOIN操作用于将来自两个或多个表的数据根据某些条件结合在一起。常见的JOIN类型有：

INNER JOIN：返回两个表中匹配的记录。
LEFT JOIN（或LEFT OUTER JOIN）：返回左表所有记录以及右表中匹配的记录，右表没有匹配的则用NULL填充。
RIGHT JOIN（或RIGHT OUTER JOIN）：返回右表所有记录以及左表中匹配的记录，左表没有匹配的则用NULL填充。
FULL JOIN（或FULL OUTER JOIN）：返回左表和右表中所有记录，匹配的部分显示实际数据，未匹配的部分显示NULL。
CROSS JOIN：返回两个表的笛卡尔积，即每一行与另一表的每一行进行组合。

解释一下数据库的三大范式？

简要回答

数据库的三大范式（1NF、2NF、3NF）是为了减少数据冗余和避免异常操作而设计的规范。它们分别是：

第一范式（1NF）：要求数据表中的每个字段只能包含原子值。
第二范式（2NF）：要求满足 1NF，并且所有非主属性完全依赖于主键。
第三范式（3NF）：要求满足 2NF，并且每个非主属性直接依赖于主键，而不通过其他非主属性间接依赖。

详细回答

1. 第一范式（1NF）

定义：数据库表中的每列必须是原子性的，即每个字段的值不可再分。
要求：
- 每个字段的数据都是不可再分的基本数据项（如字符串、整数等）。
- 表格的每个字段都应该包含一个单一的值（不允许出现集合、数组等复杂数据类型）。
例子：
- 如果一个表格有一个字段“电话号码”，这个字段中不能存储多个电话号码（如1234567890, 9876543210），而应该将其拆分为多个字段或多行。 不符合 1NF 的例子： |用户ID|用户名|电话号码| |:-:|:-:|:-:| |1|张三|1234567890, 9876543210| |2|李四|1122334455| 符合 1NF 的例子： |用户ID|用户名|电话号码| |:-:|:-:|:-:| |1|张三|1234567890| |1|张三|9876543210| |2|李四|1122334455|

2. 第二范式（2NF）

定义：数据库表满足 1NF，并且所有非主属性完全依赖于主键。也就是说，消除部分依赖。
要求：
- 表格的所有非主键列必须完全依赖于主键，而不是依赖于主键的一部分。
- 对于复合主键（即主键由多个字段组成的情况），如果某些非主属性只依赖于主键的部分字段，则违反了 2NF。
例子：假设有一个表格存储学生和课程的成绩，其中表格的主键是（学生ID，课程ID），如果学生的姓名也出现在表格中，那么姓名只依赖于学生ID，而不依赖于课程ID，这就是部分依赖，违反了 2NF。不符合 2NF 的例子：学生ID课程ID姓名成绩1101张三901102张三802101李四852103李四88这里，“姓名”字段仅依赖于学生ID，而与课程ID无关，因此“姓名”是部分依赖。符合 2NF 的例子（拆分为两个表）：
- 学生表：学生ID姓名1张三2李四
- 成绩表：学生ID课程ID成绩110190110280210185210388

3. 第三范式（3NF）

定义：数据库表满足 2NF，并且所有非主属性不依赖于其他非主属性（即消除传递依赖）。
要求：
- 表格中的非主属性不应该依赖于其他非主属性，而应直接依赖于主键。
- 如果存在某个非主属性A依赖于另一个非主属性B，并且B依赖于主键，那么B不应出现在同一个表中。
例子：假设有一个表格存储员工的ID、部门ID、部门名称、员工姓名和工资。如果部门名称依赖于部门ID，那么它是间接依赖于员工ID（主键），违反了 3NF。不符合 3NF 的例子：员工ID员工姓名部门ID部门名称工资1张三101人力资源部50002李四102技术部60003王五101人力资源部5500这里，部门名称依赖于部门ID，而部门ID又依赖于员工ID，因此存在传递依赖，违反了 3NF。符合 3NF 的例子（拆分为三个表）：
- 员工表：员工ID员工姓名部门ID工资1张三10150002李四10260003王五1015500
- 部门表：部门ID部门名称101人力资源部102技术部