最近在做一个学业规划小程序，涉及到的后端数据量有些大，这里谈一下数据库优化方面的内容

原始数据量以及SQL优化

首先需要存储所有的大学、大学下的学院，学院下的专业。大学的数据量为几百条，学院则为一万条左右，专业十几万条数据。

于是就有了一个查询语句：

SELECT *
FROM university u 
JOIN college "c" ON u.id = c.university_id
JOIN major m on m.college_id = c.id

很显然，想要数据库查询的速度变快，给ON条件相关列加上索引是必要的，因此在college和major的university_id和college_id上添加了BTree索引

但是查询结果如下：

效率并不高。

原因是使用了select * 导致了数据传输量的增加，且优化器为了返回大量数据可能进行的是全表扫描而非索引扫描，因此查询速度很慢。至于查询慢的原因后续再说明。

优化的方式很简单，指定查询列就行。于是得到了下面的sql

SELECT u.id as university_id, u.name as university_name, 
       c.id as college_id, c.name as college_name,
       m.id as major_id, m.name as major_name
FROM university u 
JOIN college "c" ON u.id = c.university_id
JOIN major m on m.college_id = c.id

但是这个sql的查询效率依旧不理想

考虑到实际的分页查询一匹数据最多查询100条左右，这里模拟一下分页查询的条件

SELECT u.id as university_id, u.name as university_name, 
       c.id as college_id, c.name as college_name,
       m.id as major_id, m.name as major_name
FROM university u 
JOIN college "c" ON u.id = c.university_id
JOIN major m on m.college_id = c.id
limit 1000 offset 20000

这个查询效率就非常迅速了