來自:秋日芒草
連結:https://my.oschina.net/qrmc/blog/1822373
要知道為什麼使用索引,要知道如何去使用好索引,使自己的查詢達到最優效能,需要先瞭解索引的資料結構和磁碟的存取原理
參考部落格:MySQL索引背後的資料結構及演演算法原理
如上這篇部落格寫的挺好,我就不再造輪子了,對如上部落格,我總結如下幾個重要的要點:
1、不使用順序查詢,因為順序查詢比較慢,透過特定資料結構的特點來提升查詢速度,這種資料結構就是可以理解成索引。
2、索引一般以檔案形式儲存在磁碟上,索引檢索需要磁碟I/O操作,為了儘量減少磁碟I/O。磁碟往往不是嚴格按需讀取,而是每次都會預讀,而且主存和磁碟以頁為單位交換資料,所以在讀取的資料不在主存中時,會從磁碟中讀取一批資料(頁)到主存中。
3、不管在哪種程式最佳化上,要想快速挺高效能,直接將常用的、少變更的資料直接讀取到記憶體中,使用的時候就直接在記憶體上讀取,而不去磁碟上讀取,減少I/O操作,這樣就能使程式快上10倍以上。但由於記憶體容量的限制,也不可能將所有的資料都放記憶體中。
MySQL索引分類
-
普通索引:最基本的索引,沒有任何限制。
-
唯一索引:與”普通索引”類似,不同的就是:索引列的值必須唯一,但允許有空值。
-
主鍵索引:它是一種特殊的唯一索引,不允許有空值。
-
全文索引:僅可用於 MyISAM 表,針對較大的資料,生成全文索引很耗時好空間。
-
組合索引:為了更多的提高mysql效率可建立組合索引,遵循”最左字首“原則。
改寫索引(Covering Indexes)
就是直接走的索引,直接在記憶體中就拿到值,不需要查詢資料庫。
如分頁就要走改寫索引,因為效能比較高。
聚簇索引(Clustered Indexes),主鍵就是聚集索引
聚簇索引保證關鍵字的值相近的元組儲存的物理位置也相同(所以字串型別不宜建
立聚簇索引,特別是隨機字串,會使得系統進行大量的移動操作),且一個表只能
有一個聚簇索引。因為由儲存引擎實現索引,所以,並不是所有的引擎都支援聚簇索
引。目前,只有solidDB和InnoDB支援。
非聚簇索引
二級索引葉子節點儲存的不是指行的物理位置的指標,而是行的主鍵值。這意味著通
過二級索引查詢行。
InnoDB對主鍵建立聚簇索引。如果你不指定主鍵,InnoDB會用一個具有唯一且非空值的索引來代替。如果不存在這樣的索引,InnoDB會定義一個隱藏的主鍵,然後對其建立聚簇索引。一般來說,DBMS都會以聚簇索引的形式來儲存實際的資料,它是
其它二級索引的基礎。
最佳化要註意的一些事(重點)
1、索引其實就是一種歸類方式,當某一個欄位屬性都不能歸類,建立索引後是沒什麼效果的,或歸類就二種(0和1),且各自都資料對半分,建立索引後的效果也不怎麼強。
2、主鍵的索引是不一樣的,要區別理解。
3、當時間儲存為時間戳儲存的可以建立字首索引。
4、在什麼是欄位上建立索引,需要根據查詢條件而定,不要一上來就建立索引,浪費記憶體還有可能用不到。
5、大欄位(blob)不要建立索引,查詢也不會走索引。
6、常用建立索引的地方:
1)主鍵的聚集索引
2)外來鍵索引
3)類別隻有0和1就不要建索引了,沒有意義,對效能沒有提升,還影響寫入效能
4)用模糊其實是可以走字首索引
7、唯一索引一定要小心使用,它帶有唯一約束,由於前期需求不明等情況下,可能造成我們對於唯一列的誤判。
8、由於我們建立索引並想讓索引能達到最高效能,這個時候我們應當充分考慮該列是否適合建立索引,可以根據列的區分度來判斷,區分度太低的情況下可以不考慮建立索引,區分度越高效率越高。
SELECT COUNT(DISTINCT 列_xx)/COUNT(*) FROM 表
9、寫入比較頻繁的時候,不能開啟MySQL的查詢快取,因為在每一次寫入的時候不光要寫入磁碟還的更新快取中的資料。
10. 建索引的目的:
1)加快查詢速度,使用索引後查詢有跡可循。
2)減少I/O操作,透過索引的路徑來檢索資料,不是在磁碟中隨機檢索。
3)消除磁碟排序,索引是排序的,走完索引就排序完成。
11、其實建索引的原理就是將磁碟I/O操作的最小化,不在磁碟中排序,而是在記憶體中排好序,透過排序的規則去指定磁碟讀取就行,也不需要在磁碟上隨機讀取。
12、由於磁碟整理磁碟碎片,所有有的時候我們也可以透過建立聚集索引來減少這一類的問題。
13、當一個表中有100萬資料,而經常用到的資料只有40萬或40萬以下,是不用考慮建立索引的,沒什麼效能提升。
14、什麼時候不適合建立索引:
1)頻繁更新的欄位不適合建立索引
2)where條件中用不到的欄位不適合建立索引,都用不到建立索引沒有意義還浪費空間
3)表資料可以確定比較少的不需要建索引
4)資料重覆且釋出比較均勻的的欄位不適合建索引(唯一性太差的欄位不適合建立索引),例如性別,真假值
5)參與列計算的列不適合建索引,如:
select * from table where amount+100>1000,-- 這樣是不走索引的,可以改造為:select * from table where amount>1000-100。
15、使用count統計資料量的時候建議使用count(*)而不是count(列),因為count(*)MySQL是做了最佳化的。
16。二次SQL查詢區別不大的時候,不能按照二次執行的時間來判斷最佳化結果,沒準第一次查詢後又儲存快取資料,導致第二次查詢速度比第二次快,很多時候我們看到的都是假象。
17、什麼時候開MySQL的查詢快取,交易系統(寫多、讀少)、SQL最佳化測試,建議關閉查詢快取,論壇文章類系統(寫少、讀多),建議開啟查詢快取。
18、Explain 執行計劃只能解釋SELECT操作。
19、查詢最佳化可以考慮讓查詢走索引,走索引能提升查詢速度,索引改寫是最快的,如下就是讓分頁走改寫索引提高查詢速度。
Select * from fentrust e
Inner join (select fid from fentrust limit 4100000, 10) a on a.fid = e.fid
20、子查詢比join快,雖然規律不絕對,但對大表多數有效
21、複雜SQL陳述句最佳化的思路:
1)首先考慮在一個表中能不能取到有關的資訊,儘量少關聯表
2)關聯條件爭取都走主鍵或外來鍵查詢條件,能走到對應的索引
3)爭取在滿足業務上走小集合資料查詢
4)INNER JOIN 和子查詢哪個更快,場景不一致速度也不同
22、where條件多條件一定要按照小結果集排大結果集前面
23、儘量避免大事務操作,提高系統併發能力,有時無法避免,改用定時器延遲處理。
24、什麼情況不走索引:
SELECT ` famount ` FROM ` fentrust ` WHERE ` famount `+10=30;-- 不會使用索引,因為所有索引列參與了計算
SELECT `famount` FROM `fentrust` WHERE LEFT(`fcreateTime`,4) <1990; -- 不會使用索引,因為使用了函式運算,原理與上面相同
SELECT * FROM ` fuser` WHERE `floginname` LIKE‘138%' -- 走索引
SELECT * FROM ` fuser ` WHERE ` floginname ` LIKE "%7488%" -- 不走索引 -- 正則運算式不使用索引,這應該很好理解,所以為什麼在SQL中很難看到regexp關鍵字的原因 -- 字串與數字比較不使用索引;
EXPLAIN SELECT * FROM `a` WHERE `a`=1 -- 不走索引
select * from fuser where floginname='xxx' or femail='xx' or fstatus=1 --如果條件中有or,即使其中有條件帶索引也不會使用。換言之,就是要求使用的所有欄位,都必須建立索引, 我們建議大家儘量避免使用or 關鍵字
25、如果MySQL估計使用全表掃描要比使用索引快,則不使用索引。
26、使用UNION ALL 替換OR多條件查詢並集。
27、在大資料表刪除也是一個問題,避免刪除過程資料庫奔潰,可以考慮分配刪除,一次刪1000條,刪完後等一會繼續刪除
delete from logs where log_date <= ’2012-11-01’ limit 1000
28、大資料表最佳化:
1)建立彙總表
2)建立流水錶
3)分庫分表
29、建立彙總表,首先不用考慮分庫分表,使用定時器定時去彙總。
30、分表,可以按水平或垂直切分。垂直分表其實就是將經常使用的資料和很少使用的資料進行垂直的切分,切分到不同的庫,提高單庫的資料容量,如:前3個月之前的交易記錄就可以放另一個庫中。
31、建立流水錶,資料冗餘,有這個表記錄流水變更就不用去寫複雜SQL計算流水。
32、分庫,多資料庫相同庫結構,分發處理併發能力,但同時帶來了資料同步問題,也可以使用分庫做主備分離
32、SQL最佳化順序:
1)儘量少作計算。
2)儘量少 join。
3)儘量少排序。
4)儘量避免 select *。
5)儘量用 join 代替子查詢。
6)儘量少 or。
7)儘量用 union all 代替 union。
8)儘量早過濾。
9)避免型別轉換。
10)優先最佳化高併發的 SQL,而不是執行頻率低某些“大”SQL。
11)從全域性出發最佳化,而不是片面調整。
12)盡可能對每一條執行在資料庫中的SQL進行 Explain。
33. 如下是30條大資料表最佳化要點:
1)對查詢進行最佳化,應儘量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。
2)應儘量避免在 where 子句中對欄位進行 null 值判斷,否則將導致引擎放棄使用索引而進行全表掃描,如:select id from t where num is null可以在num上設定預設值0,確保表中num列沒有null值,然後這樣查詢:select id from t where num=0
3)應儘量避免在 where 子句中使用!=或<>運運算元,否則引擎將放棄使用索引而進行全表掃描。
4)應儘量避免在 where 子句中使用or 來連線條件,否則將導致引擎放棄使用索引而進行全表掃描,如:select id from t where num=10 or num=20可以這樣查詢:select id from t where num=10 union all select id from t where num=20
5)in 和 not in 也要慎用,否則會導致全表掃描,如:select id from t where num in(1,2,3) 對於連續的數值,能用 between 就不要用 in 了:select id from t where num between 1 and 3
6)下麵的查詢也將導致全表掃描:select id from t where name like ‘李%’若要提高效率,可以考慮全文檢索。
7)如果在 where 子句中使用引數,也會導致全表掃描。因為SQL只有在執行時才會解析區域性變數,但最佳化程式不能將訪問計劃的選擇推遲到執行時;它必須在編譯時進行選擇。然 而,如果在編譯時建立訪問計劃,變數的值還是未知的,因而無法作為索引選擇的輸入項。如下麵陳述句將進行全表掃描:select id from t where num=@num可以改為強制查詢使用索引:select id from t with(index(索引名)) where num=@num
8)應儘量避免在 where 子句中對欄位進行運算式操作,這將導致引擎放棄使用索引而進行全表掃描。如:select id from t where num/2=100應改為:select id from t where num=100*2
9)應儘量避免在where子句中對欄位進行函式操作,這將導致引擎放棄使用索引而進行全表掃描。如:select id from t where substring(name,1,3)=’abc’ ,name以abc開頭的id 應改為: select id from t where name like ‘abc%’
10)不要在 where 子句中的“=”左邊進行函式、算術運算或其他運算式運算,否則系統將可能無法正確使用索引。
11)在使用索引欄位作為條件時,如果該索引是複合索引,那麼必須使用到該索引中的第一個欄位作為條件時才能保證系統使用該索引,否則該索引將不會被使用,並且應盡可能的讓欄位順序與索引順序相一致。
12)不要寫一些沒有意義的查詢,如需要生成一個空表結構:select col1,col2 into #t from t where 1=0 這類程式碼不會傳回任何結果集,但是會消耗系統資源的,應改成這樣: create table #t(…)
13)很多時候用 exists 代替 in 是一個好的選擇:select num from a where num in(select num from b) 用下麵的陳述句替換: select num from a where exists(select 1 from b where num=a.num)
14)並不是所有索引對查詢都有效,SQL是根據表中資料來進行查詢最佳化的,當索引列有大量資料重覆時,SQL查詢可能不會去利用索引,如一表中有欄位sex,male、female幾乎各一半,那麼即使在sex上建了索引也對查詢效率起不了作用。
15)索引並不是越多越好,索引固然可 以提高相應的 select 的效率,但同時也降低了 insert 及 update 的效率,因為 insert 或 update 時有可能會重建索引,所以怎樣建索引需要慎重考慮,視具體情況而定。一個表的索引數最好不要超過6個,若太多則應考慮一些不常使用到的列上建的索引是否有 必要。
16)應盡可能的避免更新 clustered 索引資料列,因為 clustered 索引資料列的順序就是表記錄的物理儲存順序,一旦該列值改變將導致整個表記錄的順序的調整,會耗費相當大的資源。若應用系統需要頻繁更新 clustered 索引資料列,那麼需要考慮是否應將該索引建為 clustered 索引。
17)儘量使用數字型欄位,若只含數值資訊的欄位儘量不要設計為字元型,這會降低查詢和連線的效能,並會增加儲存開銷。這是因為引擎在處理查詢和連線時會逐個比較字串中每一個字元,而對於數字型而言只需要比較一次就夠了。
18)盡可能的使用 varchar/nvarchar 代替 char/nchar ,因為首先變長欄位儲存空間小,可以節省儲存空間,其次對於查詢來說,在一個相對較小的欄位內搜尋效率顯然要高些。
19)任何地方都不要使用 select * from t ,用具體的欄位串列代替“*”,不要傳回用不到的任何欄位。
20)儘量使用表變數來代替臨時表。如果表變數包含大量資料,請註意索引非常有限(只有主鍵索引)。
21)避免頻繁建立和刪除臨時表,以減少系統表資源的消耗。
22)臨時表並不是不可使用,適當地使用它們可以使某些例程更有效,例如,當需要重覆取用大型表或常用表中的某個資料集時。但是,對於一次性事件,最好使用匯出表。
23)在新建臨時表時,如果一次性插入資料量很大,那麼可以使用 select into 代替 create table,避免造成大量 log ,以提高速度;如果資料量不大,為了緩和系統表的資源,應先create table,然後insert。
24)如果使用到了臨時表,在儲存過程的最後務必將所有的臨時表顯式刪除,先 truncate table ,然後 drop table ,這樣可以避免系統表的較長時間鎖定。
25)儘量避免使用遊標,因為遊標的效率較差,如果遊標操作的資料超過1萬行,那麼就應該考慮改寫。
26)使用基於遊標的方法或臨時表方法之前,應先尋找基於集的解決方案來解決問題,基於集的方法通常更有效。
27)與臨時表一樣,遊標並不是不可使 用。對小型資料集使用 FAST_FORWARD 遊標通常要優於其他逐行處理方法,尤其是在必須取用幾個表才能獲得所需的資料時。在結果集中包括“合計”的例程通常要比使用遊標執行的速度快。如果開發時 間允許,基於遊標的方法和基於集的方法都可以嘗試一下,看哪一種方法的效果更好。
28)在所有的儲存過程和觸發器的開始處設定 SET NOCOUNT ON ,在結束時設定 SET NOCOUNT OFF 。無需在執行儲存過程和觸發器的每個陳述句後向客戶端傳送DONE_IN_PROC 訊息。
29)儘量避免大事務操作,提高系統併發能力。
30)儘量避免向客戶端傳回大資料量,若資料量過大,應該考慮相應需求是否合理。
●編號342,輸入編號直達本文
●輸入m獲取文章目錄
Web開發
更多推薦《18個技術類公眾微信》
涵蓋:程式人生、演演算法與資料結構、駭客技術與網路安全、大資料技術、前端開發、Java、Python、Web開發、安卓開發、iOS開發、C/C++、.NET、Linux、資料庫、運維等。