使用delete_by_query的时候发现了一个问题,就是删除效率太低。删除210000的数据量的时候大概要用50多秒的时间,而这才是我工程中一个小时的数据量。删除一天的数据量就要20多分钟,这样的效率是没办法接受的。
然后寻找调优策略,发现es的官方API中是有一下两个参数:
1.scroll_size
这个参数是执行删除的时候,每次每个线程会查询的数据量,然后进行删除。
默认是100,就是说每个线程每次都会查询出100条数据然后再删除。
2.slices
这个就相当于开启的线程数,同时会有多少个线程执行查询然后删除程序。
默认是1,就是同时只会有一个线程进行查询删除操作。
解决策略:
要在请求url的后面加上这两个参数就可以了。比如这样:
原:
url = EsHttpUrl+"/"+names[i]+"/_delete_by_query";
现:
url = EsHttpUrl+"/"+names[i]+"/_delete_by_query?scroll_size=3000&slices=5";
加上之后会返回给具体每个线程处理数据的情况。

可以看到,效率已经提升了好几倍了,但是具体对于我的工程来说最优的方案我还在测试,所以没办法给出具体的数据,不过这个大哥的博客里面提到了几种方案可以参考一下:ElasticSearch-delete_by_query大数据量删除时,导致SocketTimeout的问题
在使用Elasticsearch的delete_by_query功能时遇到删除效率低的问题,针对21万条数据处理时间过长,通过调整scroll_size和slices参数显著提高了处理速度。原操作耗时50秒,优化后效率提升数倍。
&spm=1001.2101.3001.5002&articleId=108060358&d=1&t=3&u=46bfdc5a3e884ba38018eeee6883ff65)
1293

被折叠的 条评论
为什么被折叠?



