在MongoDB中,如果有数据需要进行插入操作,一种简单的方法是将每条数据逐条插入,在python的pymongo中便是遍历我们的数据,然后,对每一条数据insert_one(doc),这种方法比较简单,同时也非常地灵活,但是,对于大批量的数据而言,效率较低。
而另一种方法是,将需要插入的数据整合到一个列表中,然后将这个列表整体地批量插入到数据中,这样对于大批量的数据而言,效率要高很多。
下面是对于所有数据整体批量插入、逐条数据插入与将数据分成多片进行插入的性能测试。
测试代码如下:
# -*- coding: utf-8 -*-
import time
from pymongo import MongoClient
# 这里将测试的数据库的地址替换为了*
source_db = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_13_1']
target_db_1 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_1']
target_db_2 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_2']
target_db_3 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_3']
# 这里limit中即为测试所用的数据量的大小
cursor = source_db.find().limit(10000)
print(cursor.count(True))
tweet_count = 0
doc_list = []
for doc in cursor:
doc = dict(doc)
doc.pop('_id')
doc_list.append(doc)
start_time = time.time()
target_db_1.insert_many(documents=doc_list)
print("批量插入:\t")
print(time.time() - start_time)
start_time = time.time()
for doc in doc_list:
target_db_2.insert_one(doc)
print("逐条插入:\t")
print(time.time() - start_time)
start_time = time.time()
start_index = 0
while start_index < len(doc_list):
target_db_3.insert_many(doc_list[start_index: start_index + 1000])
start_index += 1000
print("分批插入:\t")
print(time.time() - start_time)
这里的测试环境中,数据库位于同一内网中,但并不在一个局域网下,连接的带宽为100Mbps,同时每条数据大小大约为及Kb到几十Kb。
当数据量为10000次时,多次测试的结果如下:
第一次测试
10000
批量插入:
4.807947158813477
逐条插入:
37.37146472930908
分批插入:
4.637062072753906
第二次测试
10000
批量插入:
3.58172869682312
逐条插入:
42.235028982162476
分批插入:
4.915353536605835
第三次测试
10000
批量插入:
2.094788074493408
逐条插入:
24.227844715118408
分批插入:
1.7485744953155518
当将数据量增加到500000后:
第一次测试:
500000
批量插入:
123.143695831
逐条插入:
1982.03912687
分批插入:
124.674865961
第二次测试:
500000
批量插入:
88.7963249683
逐条插入:
1168.17153597
分批插入:
85.0394408703
经过多次测试,可以看到,批量插入总是比逐条插入的性能高许多。而在批量插入中,将所有数据整体插入,与分批(1000)条插入,性能并不会差距很大,可以视情况使用。
本文探讨了在MongoDB中,批量插入与逐条插入数据的两种方式。通过Python的pymongo库进行测试,结果显示批量插入在处理大量数据时效率显著高于逐条插入。在100Mbps带宽环境下,即使数据量达到500000,批量插入仍然保持高效。整体批量插入与分批(1000条)插入的性能差异不大,可根据实际情况选择使用。

1万+

被折叠的 条评论
为什么被折叠?



