mysql - 如何在數據庫里優化 漢明距離 查詢?
問題描述
項目里需要一個搜索相似圖片的功能,百度了一些dhash的算法,生成了16個長度的hash值,在mysql里這樣查詢:
SELECT pk, hash, BIT_COUNT( CONV(hash, 16, 10) ^ CONV(’4c8e3366c275650f’, 16, 10) ) as hamming_distance FROM image_hashes HAVING hamming_distance < 4 ORDER BY hamming_distance ASC;
經測試,15W條數據,搜索需要很長時間。第二次速度會快些,有啥辦法可以優化?
問題解答
回答1:謝邀。
抱歉地說,這個我也沒有做過,只是之前聽說過漢明距離。15w數據,不是很多,但是用了mysql的函數,沒辦法創建索引。。。
大概搜了一下,有相同的問題。可以參考mysql 圖片漢明距離計算, 近40w的異或計算, 如何破
Hamming distance on binary strings in SQL
你可以試試mysql的內存表 MySQL內存表的特性與使用介紹
回答2:不好意思,沒有“漢明距離”的相關經驗。
如果只是15W數據的話,可以把數據加載到內存里緩存起來,然后在程序里運算,畢竟SQL并不擅長做這種事情。
僅從你的SQL來說,的確沒有太大的優化空間,能想到的就只有以下幾點:
hash列用char代替varchar
舍棄ORDER BY hamming_distance ASC,改為由程序排序
建議把DDL語句和EXPLAIN結果也發上來一并分析,不過最大的性能卡口應該是BIT_COUNT(CONV(hash, 16, 10) ^ CONV(’4c8e3366c275650f’, 16, 10)) as hamming_distance,其實相當于全表掃描了。
相關文章:
1. windows誤人子弟啊2. php傳對應的id值為什么傳不了啊有木有大神會的看我下方截圖3. 如何用筆記本上的apache做微信開發的服務器4. python - linux 下用wsgifunc 運行web.py該如何修改代碼5. 關于mysql聯合查詢一對多的顯示結果問題6. 實現bing搜索工具urlAPI提交7. 冒昧問一下,我這php代碼哪里出錯了???8. mysql優化 - MySQL如何為配置表建立索引?9. MySQL主鍵沖突時的更新操作和替換操作在功能上有什么差別(如圖)10. 數據庫 - Mysql的存儲過程真的是個坑!求助下面的存儲過程哪里錯啦,實在是找不到哪里的問題了。
