MongoDB中的批量插入的使用方法及与逐条插入的性能比较

本文探讨了在MongoDB中,批量插入与逐条插入数据的两种方式。通过Python的pymongo库进行测试,结果显示批量插入在处理大量数据时效率显著高于逐条插入。在100Mbps带宽环境下,即使数据量达到500000,批量插入仍然保持高效。整体批量插入与分批(1000条)插入的性能差异不大,可根据实际情况选择使用。

在MongoDB中,如果有数据需要进行插入操作,一种简单的方法是将每条数据逐条插入,在python的pymongo中便是遍历我们的数据,然后,对每一条数据insert_one(doc),这种方法比较简单,同时也非常地灵活,但是,对于大批量的数据而言,效率较低。

而另一种方法是,将需要插入的数据整合到一个列表中,然后将这个列表整体地批量插入到数据中,这样对于大批量的数据而言,效率要高很多。

下面是对于所有数据整体批量插入、逐条数据插入与将数据分成多片进行插入的性能测试。

测试代码如下:

# -*- coding: utf-8 -*-
import time
from pymongo import MongoClient

# 这里将测试的数据库的地址替换为了*
source_db = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_13_1']
target_db_1 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_1']
target_db_2 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_2']
target_db_3 = MongoClient('mongodb://admin:admin@*.*.*.*:*')['test_db']['test_1_14_3']

# 这里limit中即为测试所用的数据量的大小
cursor = source_db.find().limit(10000)
print(cursor.count(True))

tweet_count = 0

doc_list = []

for doc in cursor:
    doc = dict(doc)
    doc.pop('_id')
    doc_list.append(doc)

start_time = time.time()
target_db_1.insert_many(documents=doc_list)
print("批量插入:\t")
print(time.time() - start_time)

start_time = time.time()
for doc in doc_list:
    target_db_2.insert_one(doc)
print("逐条插入:\t")
print(time.time() - start_time)

start_time = time.time()
start_index = 0
while start_index < len(doc_list):
    target_db_3.insert_many(doc_list[start_index: start_index + 1000])
    start_index += 1000
print("分批插入:\t")
print(time.time() - start_time)

这里的测试环境中,数据库位于同一内网中,但并不在一个局域网下,连接的带宽为100Mbps,同时每条数据大小大约为及Kb到几十Kb。

当数据量为10000次时,多次测试的结果如下:
第一次测试

10000
批量插入:
4.807947158813477
逐条插入:
37.37146472930908
分批插入:
4.637062072753906

第二次测试

10000
批量插入:
3.58172869682312
逐条插入:
42.235028982162476
分批插入:
4.915353536605835

第三次测试

10000
批量插入:
2.094788074493408
逐条插入:
24.227844715118408
分批插入:
1.7485744953155518

当将数据量增加到500000后:
第一次测试:

500000
批量插入:	
123.143695831
逐条插入:	
1982.03912687
分批插入:	
124.674865961

第二次测试:

500000
批量插入:	
88.7963249683
逐条插入:	
1168.17153597
分批插入:	
85.0394408703

经过多次测试,可以看到,批量插入总是比逐条插入的性能高许多。而在批量插入中,将所有数据整体插入,与分批(1000)条插入,性能并不会差距很大,可以视情况使用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值