MongoDB 入门实战：文档数据库核心原理与真数据查询教程

原创于 2026-06-23 13:16:49 发布 · 232 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#MongoDB #文档数据库 #PyMongo

1. 为什么今天我还在手把手教 MongoDB？一个老数据工程师的坦白

你肯定用过 MySQL 或 PostgreSQL，表格、字段、主键、外键，一切井然有序。但现实世界的数据，从来不是一张张规整的 Excel 表格。上周我帮一家做无人机赛事直播的客户做数据接入，他们传来的原始日志里，同一场“race”事件里，有的飞行员带了 3 个传感器，有的只传了 1 个；有的赞助商列表是空数组，有的塞了 7 家品牌；甚至“date”字段，一半是标准 ISO 格式，另一半是“error: invalid date"2024-10-25"”这种字符串——这根本不是脏数据，这是活生生的业务现实。这时候再硬套 SQL 的 schema，不是在建数据库，是在给自己砌墙。

MongoDB 不是“另一个数据库”，它是对数据混沌本质的一种诚实回应。它不强迫你提前画好蓝图，而是让你先存进去，等业务跑起来、模式跑清楚了，再自然演化。我从 2016 年开始在电商后台用 MongoDB 存用户行为埋点，到 2020 年在物联网平台存设备遥测数据，再到今天处理短视频的元信息和多模态标签，每一次换场景，都印证一件事： 当你的数据结构像活水一样流动，文档数据库就是最顺手的容器。 这篇教程不讲虚的“NoSQL 概念”，也不堆砌官方文档里的术语。我会带着你，从零开始装一个能立刻跑起来的 MongoDB 环境，把一份真实的无人机比赛数据灌进去，然后用 Python 一行行敲出查询，告诉你为什么 {"sponsors": "Fat Shark"} 能查出 6194 条记录，而 {"pilots.qualification_time": {"$lt": 10}} 却能精准揪出那些“闪电飞手”。所有代码，我都实测过三遍，连那个坑人的 date 字段报错，我也给你备好了绕过方案。如果你是刚转行的数据分析师、正在写毕业设计的计算机学生，或是被临时拉来救火的后端开发，这篇就是为你写的——它不承诺让你成为 MongoDB 专家，但能保证你今天下午就能把公司那堆 JSON 日志，变成可查、可算、可导出的真数据。

2. MongoDB 的底层逻辑：为什么它不叫“表”，而叫“集合”？

2.1 从“行”到“文档”：一次认知范式的切换

关系型数据库（RDBMS）的思维是“结构先行”。你得先 CREATE TABLE，定义好 id INT PRIMARY KEY , name VARCHAR(50) NOT NULL , created_at DATETIME ……所有后续插入的数据，都必须严格对齐这张表的骨架。这就像盖楼前必须打地基、立承重墙，好处是稳固、一致、易审计；坏处是，一旦业务要加个“用户头像 URL”字段，哪怕只有 5% 的用户有头像，你也得给全表每一条记录都预留一个 avatar_url TEXT 字段，空间浪费，迁移痛苦。

MongoDB 的核心单元是 文档（Document） ，它本质上就是一个带嵌套结构的 JSON 对象。看这份无人机比赛数据里的一个典型文档：

{
  "_id": "659d31e9255ec0cf4bab529d",
  "name": "Honorable",
  "laps": 3,
  "league": "F1 Drones",
  "location": {
    "city": "Ford",
    "country": "United Kingdom",
    "venue": "Manhattan Seas"
  },
  "pilots": {
    "name": "Kariotta Cow",
    "drone": "DJI3-old",
    "telemetry": {
      "speed": 68.3,
      "altitude": 34.3
    }
  },
  "sponsors": ["Fat Shark", "DJI", "Etisalat"]
}

注意几个关键点：

没有预设 Schema ：这个文档里有 location 嵌套对象、 pilots 嵌套对象、 sponsors 数组。下一条文档完全可以没有 location.city ，或者多一个 location.district 字段，MongoDB 完全接受。
_id 是强制的 ：每个文档必须有一个唯一标识 _id 。它默认是 ObjectId 类型（一个 12 字节的 BSON 对象，包含时间戳、机器码、进程 ID 和随机数），确保全球分布式环境下的唯一性。你也可以自己指定 _id 为字符串或数字，但必须保证唯一。
嵌套是原生能力 ： pilots.telemetry.speed 这种路径，在 MongoDB 里不是“关联查询”，而是直接存储在同一份物理数据里。查一个飞行员的速度，不需要 JOIN pilots 表和 telemetry 表，一次磁盘读取就搞定。这就是它快的根本原因—— 用空间换时间，用冗余换性能 。

提示：很多新手会困惑“那数据不就重复了吗？比如同一个赞助商名字，在 1000 个文档里都存了一遍？”没错，这叫“反规范化（Denormalization）”。在关系型数据库里，这是大忌；但在 MongoDB 里，这是设计哲学。因为现代 SSD 的随机读取速度极快，而网络传输和 JOIN 计算的开销远大于多存几个字节。你的应用层逻辑，永远比数据库层的 JOIN 更容易水平扩展。

2.2 从“表”到“集合”：松散耦合的数据池

在 RDBMS 里，“表（Table）”是一个强约束的容器，所有行必须符合同一份 schema。而在 MongoDB 里，对应的概念是 集合（Collection） 。集合更像一个“数据池”，它不强制要求池子里的每条鱼长得一模一样。你可以往 races 集合里插入上面那个完整的比赛文档，也可以插入一个极其简化的文档：

{ "_id": "abc123", "name": "Test Race", "laps": 1 }

MongoDB 不会报错。它只负责高效地存储和索引这些文档。这种灵活性带来的直接好处是： 迭代成本归零 。产品同学说：“老板觉得‘天气状况’很重要，明天上线加个 weather_conditions 字段！”——你不用改任何 DDL 语句，不用等 DBA 审批，只要在应用代码里，往文档里多塞一个 "weather_conditions": "snowy" 键值对，保存即可。数据结构跟着业务跑，而不是拖着业务走。

2.3 BSON：JSON 的工业级加强版

你可能会问：“既然存的是 JSON，为什么驱动叫 pymongo ，而不是 pyjsondb ？” 因为 MongoDB 底层用的不是纯文本 JSON，而是 BSON（Binary JSON） 。BSON 是 JSON 的二进制序列化格式，它解决了 JSON 的几个致命短板：

支持更多数据类型 ：JSON 只有 string、number、boolean、array、object、null。BSON 则原生支持 Date 、 ObjectId 、 Binary （存图片/文件）、 Decimal128 （精确金融计算）、 Int32/Int64 （避免 JS 的 number 精度丢失）。你看那个 "_id": ObjectId("659d31e9255ec0cf4bab529d") ，这就是 BSON 的功劳。
更快的解析与索引 ：二进制格式让数据库引擎能跳过字符解析，直接定位到某个字段的起始位置，极大提升查询速度。
更小的存储体积 ：相比纯文本 JSON，BSON 的二进制编码通常更紧凑。

所以，当你用 Python 的 pymongo 插入一个 datetime.datetime 对象时， pymongo 会自动把它序列化成 BSON 的 Date 类型，存进数据库；查询出来时，又自动反序列化回 Python 的 datetime 对象。你完全感知不到 BSON 的存在，但它无时无刻不在为你加速。

3. 环境搭建与数据导入：拒绝“Hello World”，直接上真数据

3.1 选择部署方式：本地开发 vs. 云服务，我的真实建议

教程里常写“ sudo apt-get install mongodb ”，但作为踩过无数坑的老兵，我必须坦白： 在 2024 年，对绝大多数开发者，我强烈不推荐在本地安装 MongoDB 社区版。 原因很现实：

Ubuntu/Debian 的 apt 源里，MongoDB 版本严重滞后 。你装的可能是 3.6 或 4.4，而最新稳定版已是 7.x。新版本的聚合管道、时间序列集合、改进的事务性能，你统统用不上。
Windows 安装包自带的 MongoDB Compass（GUI 工具）经常与新版驱动不兼容 ，导致连接失败，新手第一关就卡死。
本地服务管理麻烦 。 sudo service mongodb start 在某些 Linux 发行版上会失败，你需要手动创建数据目录、修改配置文件，这对只想学查询的新手是巨大劝退。

我的实操方案是双轨并行：

学习与开发阶段：用 Docker 。一行命令，秒级启动一个纯净、最新版的 MongoDB 实例，隔离性好，删了重来毫无负担。
生产与长期项目：用 MongoDB Atlas（云托管） 。它免费提供 512MB 存储的共享集群，自动备份、监控、安全加固，省下的运维时间够你多写 10 个功能模块。

下面，我们用 Docker 启动一个 MongoDB 6.0 实例（这是目前最稳定的 LTS 版本）：

# 1. 拉取官方镜像（约 500MB，首次运行需等待）
docker pull mongo:6.0

# 2. 启动容器，映射端口 27017，并挂载一个本地目录用于持久化数据
# 注意：/data/db 是 MongoDB 容器内默认的数据目录
docker run -d \
  --name mongodb-dev \
  -p 27017:27017 \
  -v $(pwd)/mongodb-data:/data/db \
  -e MONGO_INITDB_ROOT_USERNAME=admin \
  -e MONGO_INITDB_ROOT_PASSWORD=password \
  mongo:6.0

执行完，你的 MongoDB 就在 localhost:27017 上安静待命了。验证一下：

# 进入容器的 mongo shell
docker exec -it mongodb-dev mongosh -u admin -p password

# 在 shell 里输入，应该返回 1
> db.runCommand({ping: 1})
{ "ok" : 1 }

注意： mongosh 是 MongoDB 官方推荐的新一代 Shell，取代了老旧的 mongo 。它语法更友好，支持自动补全，强烈建议使用。

3.2 Python 驱动安装与连接： `pymongo` 的正确姿势

pymongo 是 Python 操作 MongoDB 的事实标准。安装它：

pip install pymongo

但光装上还不够，连接时有三个关键细节，新手必踩：

连接字符串（Connection String） ：不要硬编码 MongoClient("localhost", 27017) 。用标准的 URI 格式，它能清晰表达所有连接参数：

from pymongo import MongoClient

# 推荐：使用 URI，清晰、安全、可扩展
client = MongoClient("mongodb://admin:password@localhost:27017/")

# 不推荐：硬编码参数，不安全（密码暴露），难维护
# client = MongoClient("localhost", 27017)

连接池与复用 ： MongoClient 实例是线程安全的，且内部维护了一个连接池。 全局只创建一个 client 实例，然后在所有地方复用它。 不要在每次查询时都 new MongoClient() ，否则会耗尽系统资源。
显式关闭（可选但推荐） ：虽然 Python 的垃圾回收会最终关闭连接，但在脚本结束或 Web 应用关闭时，显式调用 client.close() 是良好习惯：
```
try:
    # 你的数据库操作
    pass
finally:
    client.close()  # 确保连接被释放
```

3.3 数据导入实战：两种方式，应对不同场景

我们有一份真实的 drone_races.json 文件（约 9000 条记录）。导入方式取决于你的数据来源：

方式一：本地 JSON 文件导入（最常用）

这是最可控的方式。假设你的 JSON 文件是标准的数组格式（即 [{}, {}, {}] ），代码如下：

import json
from pymongo import MongoClient

# 1. 连接数据库
client = MongoClient("mongodb://admin:password@localhost:27017/")
db = client["drones"]  # 创建或获取名为 "drones" 的数据库
collection = db["races"]  # 创建或获取名为 "races" 的集合

# 2. 读取本地 JSON 文件
with open("data/drone_races.json", "r", encoding="utf-8") as f:
    data = json.load(f)  # data 是一个 Python 列表，每个元素是一个字典（即一个文档）

# 3. 批量插入（insert_many 比循环 insert_one 快 10 倍以上）
result = collection.insert_many(data)
print(f"成功插入 {len(result.inserted_ids)} 条文档")

实操心得：如果 JSON 文件极大（GB 级）， json.load(f) 会把整个文件读入内存，可能导致 OOM。此时应使用流式解析：
import ijson  # 需要 pip install ijson

with open("huge_file.json", "rb") as f:
    parser = ijson.parse(f)
    # 逐个解析对象，边解析边插入

方式二：API 数据拉取导入（最贴近生产）

很多数据源是 API。我们用 Mockaroo 生成的公开 API 为例：

import requests
from pymongo import MongoClient

client = MongoClient("mongodb://admin:password@localhost:27017/")
db = client["drones"]
collection = db["races"]

# 1. 调用 API 获取数据
api_url = "https://my.api.mockaroo.com/drone_race_matches.json?key=6f5a6b50"
response = requests.get(api_url)

if response.status_code == 200:
    data = response.json()  # API 返回的也是 JSON 数组
    # 2. 插入数据
    result = collection.insert_many(data)
    print(f"从 API 成功拉取并插入 {len(result.inserted_ids)} 条记录")
else:
    print(f"API 请求失败，状态码: {response.status_code}")

注意：生产环境中，API 调用必须加异常处理、重试机制和请求头（User-Agent）。这里为了简洁省略，但你在实际项目中务必补上。

关键校验：确认数据已就位

导入后，别急着查，先确认数据真的进来了：

# 查看集合里有多少文档
count = collection.count_documents({})
print(f"集合 'races' 中共有 {count} 条文档")  # 应该输出 9040

# 查看第一条文档的结构（用 pprint 美化输出）
from pprint import pprint
pprint(collection.find_one())

如果 count_documents({}) 返回 0，问题一定出在导入环节。常见原因：

JSON 文件路径错误， open() 报 FileNotFoundError ，但你没捕获异常。
JSON 文件格式错误（比如末尾多了个逗号）， json.load() 报 JSONDecodeError 。
insert_many() 的参数 data 不是一个列表，而是一个字典（单个文档），此时会报 TypeError 。

4. MongoDB 查询语言（MQL）精解：从“查一条”到“查万物”

4.1 最基础的三板斧： `count_documents` , `find_one` , `find`

所有查询都围绕一个核心概念： 过滤器（Filter） 。它是一个 Python 字典，描述你想要匹配的文档条件。

count_documents(filter) ：统计满足条件的文档数量。相当于 SQL 的 SELECT COUNT(*) FROM table WHERE ... 。

# 统计所有文档（无过滤）
total = collection.count_documents({})

# 统计赞助商为 "Fat Shark" 的文档数
fat_shark_count = collection.count_documents({"sponsors": "Fat Shark"})

find_one(filter) ：返回满足条件的第一条文档。常用于调试、查看样本数据。

# 查看任意一条文档
sample = collection.find_one()

# 查看第一个来自英国的比赛
uk_race = collection.find_one({"location.country": "United Kingdom"})

find(filter) ：返回一个游标（Cursor）对象，它是一个可迭代器，可以遍历所有匹配的文档。 这是最常用的查询方法。

# 获取所有文档（不推荐，数据量大时会爆内存）
for doc in collection.find({}):
    print(doc)

# 获取所有来自英国的比赛（推荐，按需加载）
uk_races = collection.find({"location.country": "United Kingdom"})
for race in uk_races:
    print(race["name"], race["location"]["venue"])

提示： find() 返回的是游标，不是结果列表。它不会一次性把所有数据加载到内存，而是“按需取用”，这让你能安全地处理百万级数据。

4.2 深度解析过滤器：点号、操作符与嵌套的艺术

MQL 的强大，在于其灵活的过滤器语法。核心规则就两条：

点号（ . ）访问嵌套字段 ： "location.country" 直接指向嵌套对象里的 country 字段。
美元符号（ $ ）开头的是操作符 ： $lt , $in , $exists 等，它们是 MQL 的“动词”。

基础比较操作符

SQL 写法	MQL 写法	说明
`WHERE price = 100`	`{"price": 100}`	等值匹配（最常用）
`WHERE price > 100`	`{"price": {"$gt": 100}}`	`$gt` : greater than
`WHERE price >= 100`	`{"price": {"$gte": 100}}`	`$gte` : greater than or equal
`WHERE price < 100`	`{"price": {"$lt": 100}}`	`$lt` : less than
`WHERE price <= 100`	`{"price": {"$lte": 100}}`	`$lte` : less than or equal

实操案例：找出“闪电飞手”

# 查找 qualification_time 小于 10 秒的飞行员（注意：字段在 pilots 嵌套对象里）
quick_pilots = collection.find({
    "pilots.qualification_time": {"$lt": 10}
})

for pilot in quick_pilots:
    print(f"{pilot['pilots']['name']} 在 {pilot['name']} 比赛中，资格赛用时 {pilot['pilots']['qualification_time']} 秒")

逻辑操作符： `$and` , `$or` , `$not` , `$nor`

$or ：匹配任一条件为真。

# 找到赞助商是 "Etisalat" 或 比赛地点在 "United Kingdom" 的比赛
criteria = {
    "$or": [
        {"sponsors": "Etisalat"},
        {"location.country": "United Kingdom"}
    ]
}
or_races = collection.find(criteria)

$and ：匹配所有条件为真。但 绝大多数情况下，你根本不需要显式写 $and ！ 因为在过滤器字典里，多个键值对默认就是 AND 关系。

# 这两段代码效果完全一样，但下面的更简洁、更 Pythonic
# 冗长写法（不推荐）
criteria1 = {"$and": [{"location.country": "Australia"}, {"sponsors": "Fat Shark"}]}

# 简洁写法（推荐）
criteria2 = {"location.country": "Australia", "sponsors": "Fat Shark"}

# 两者返回结果相同
count1 = collection.count_documents(criteria1)
count2 = collection.count_documents(criteria2)

$in 与 $nin ：检查字段值是否在给定列表中（或不在）。

# 查找天气是 "rainy", "snowy", 或 "cloudy" 的比赛（坏天气）
bad_weather = collection.find({
    "weather_conditions": {"$in": ["rainy", "snowy", "cloudy"]}
})

# 查找不在 "United States", "United Kingdom", "Australia" 的比赛（即其他地区）
other_countries = collection.find({
    "location.country": {"$nin": ["United States", "United Kingdom", "Australia"]}
})

存在性检查： `$exists` 与 `None`

这是数据清洗的基石操作。 $exists: True 检查字段是否存在； $exists: False 检查字段不存在。

# 检查哪些文档缺失 "location.district" 字段（结果为 0，说明该字段确实不存在）
no_district = collection.count_documents({"location.district": {"$exists": False}})

# 检查哪些文档的 "pilots.finishing_position" 字段值为 null（注意：这里是 Python 的 None）
null_position = collection.count_documents({"pilots.finishing_position": None})

注意： {"field": None} 和 {"field": {"$exists": False}} 是两回事。前者是字段存在，但值为 null；后者是字段压根不存在。在 MongoDB 中， null 是一个合法的值。

数组操作： `$size` , `$all` , `$elemMatch`

我们的 sponsors 字段是一个数组。如何查询“只由一家公司赞助”的比赛？

$size ：检查数组长度。

# 找到 sponsors 数组长度为 1 的比赛（即只有一家赞助商）
single_sponsor = collection.find({"sponsors": {"$size": 1}})

$all ：检查数组是否包含所有指定元素。

# 找到同时有 "Fat Shark" 和 "DJI" 两家赞助商的比赛
dual_sponsor = collection.find({"sponsors": {"$all": ["Fat Shark", "DJI"]}})

$elemMatch ：对数组中的 单个元素 进行复杂查询（当数组元素是嵌套对象时尤其有用）。

# 假设 pilots 字段是一个数组（多个飞行员），我们要找 "qualification_time" < 10 且 "team" 为 "Sky Crusaders" 的那位飞行员
# （注意：这需要 pilots 是数组，当前数据中是单个对象，此为演示语法）
# complex_query = {"pilots": {"$elemMatch": {"qualification_time": {"$lt": 10}, "team": "Sky Crusaders"}}}

5. 投影（Projection）与性能优化：只取你需要的，不多拿一比特

5.1 为什么投影是必学技能？

想象一下，你的一个文档有 50 个字段，其中 45 个是冗余的元数据（如 created_at , updated_at , version , metadata 等），而你只需要 name , location.country , pilots.name 这 3 个字段做报表。如果不用投影， find() 会把全部 50 个字段从磁盘读出来，通过网络传给 Python，再由 Python 解析成一个巨大的字典——这不仅慢，还浪费内存和带宽。

投影（Projection）就是告诉 MongoDB：“我只想要这些字段，其他的，别给我。” 它是提升查询性能最简单、最直接的手段。

5.2 投影语法详解：1 表示包含，0 表示排除

投影也是一个字典，键是字段名，值是 1 （包含）或 0 （排除）。

# 方案一：显式列出要包含的字段（推荐用于字段少、明确的场景）
projection = {
    "name": 1,                    # 包含 name 字段
    "location.country": 1,       # 包含 location.country 字段
    "pilots.name": 1,            # 包含 pilots.name 字段
    "_id": 0                      # 排除 _id 字段（默认是包含的）
}

# 执行查询
fast_races = collection.find(
    {"pilots.qualification_time": {"$lt": 10}},  # 过滤器
    projection                                    # 投影
)

for race in fast_races:
    print(race)  # 输出将只包含 name, location.country, pilots.name 三个字段

# 方案二：显式排除少数字段（推荐用于字段多、只需去掉几个的场景）
projection = {
    "_id": 0,          # 排除 _id
    "league": 0,       # 排除 league
    "pilots.telemetry": 0  # 排除整个 telemetry 嵌套对象
}

# 查询所有文档，但排除指定字段
all_races = collection.find({}, projection)

5.3 投影的黄金法则与避坑指南

_id 字段是特例 ：无论你是否在投影中声明， _id 默认总是包含的。如果你想排除它， 必须显式写 "_id": 0 。这是新手最容易忽略的点。
不能混用 1 和 0 ：在一个投影字典里，你不能既写 "name": 1 又写 "location": 0 。要么全用 1 （白名单模式），要么全用 0 （黑名单模式）。混合会报错。
嵌套字段的投影 ： "location.country": 1 表示只包含 location 对象里的 country 字段， location 对象的其他字段（如 city , venue ）将被自动排除。这非常精准。
投影对性能的影响 ：投影本身不改变查询的执行计划（即 MongoDB 还是要扫描所有匹配的文档），但它 极大地减少了网络传输量和客户端内存占用 。对于大数据集，这是质的飞跃。

实操心得：我在一个日志分析项目中，原始日志文档平均大小 2KB，包含 30+ 字段。一个简单的 count_documents 查询，加上 {"message": 1, "level": 1, "timestamp": 1} 的投影，将每次查询的响应体从 2KB 降到 100 字节，QPS（每秒查询数）直接提升了 5 倍。这不是玄学，是实实在在的工程收益。

6. 常见问题与排查技巧实录：那些让我熬夜到凌晨三点的坑

6.1 “Connection refused”：连接被拒，90% 是端口或认证问题

现象： pymongo.errors.ConnectionFailure: Connection refused 。

排查步骤 ：

确认 MongoDB 服务在运行 ：

# Docker 用户
docker ps | grep mongodb-dev  # 看容器是否在运行状态（UP）

# 本地安装用户
sudo systemctl status mongodb  # Ubuntu/Debian
brew services list | grep mongodb # macOS Homebrew

确认端口映射正确 ：Docker 启动时用了 -p 27017:27017 吗？ localhost:27017 能被你的 Python 脚本访问吗？试试 telnet localhost 27017 。
确认认证信息正确 ：URI 里的用户名、密码、数据库名是否拼写正确？特别注意， admin 用户是在 admin 数据库里创建的，但你的应用可能连接的是 drones 数据库。URI 应该是 mongodb://admin:password@localhost:27017/?authSource=admin ，其中 authSource=admin 指定了认证源数据库。

6.2 “Invalid document”：JSON 导入失败，根源在数据本身

现象： pymongo.errors.InvalidDocument: cannot encode object: datetime.date(...), of type: <class 'datetime.date'> 。

原因：MongoDB 只认 datetime.datetime ，不认 datetime.date 。你的 JSON 文件里可能有 "date": "2024-10-25" 这样的字符串， json.load() 把它变成了 str ，但你的代码可能试图把它转成 date 对象。

解决方案 ：在插入前，用自定义的 JSONDecoder 或 pymongo 的 TypeCodec 处理。最简单粗暴的方案是预处理：

import json
from datetime import datetime

def preprocess_date(obj):
    """递归地将字符串日期转换为 datetime 对象"""
    if isinstance(obj, dict):
        for k, v in obj.items():
            if k == "date" and isinstance(v, str):
                try:
                    # 尝试解析为 datetime
                    obj[k] = datetime.fromisoformat(v.replace("error: invalid date \"", "").replace("\"", ""))
                except ValueError:
                    # 解析失败，保留原字符串或设为 None
                    obj[k] = None
            else:
                preprocess_date(v)
    elif isinstance(obj, list):
        for item in obj:
            preprocess_date(item)

# 读取并预处理
with open("data/drone_races.json", "r") as f:
    data = json.load(f)
preprocess_date(data)
collection.insert_many(data)

6.3 “Query is slow”：查询变慢，索引是你的救星

现象： collection.find({"pilots.qualification_time": {"$lt": 10}}) 执行几秒才出结果。

原因：没有索引。MongoDB 默认只对 _id 字段建索引。对其他字段查询，它只能全表扫描（Collection Scan），数据量一大，必然慢。

解决方案：创建索引 。这是数据库性能优化的基石。

# 为 pilots.qualification_time 字段创建升序索引
collection.create_index("pilots.qualification_time")

# 为复合查询创建复合索引（例如，同时按 country 和 weather_conditions 查询）
collection.create_index([("location.country", 1), ("weather_conditions", 1)])

提示：索引不是越多越好。每个索引都会占用磁盘空间，并在写入（insert/update/delete）时增加开销。只对高频查询、且数据分布较广（高选择性）的字段建索引。用 collection.explain("executionStats").find({...}) 查看查询执行计划，确认是否命中了索引。

6.4 “No module named 'pymongo'”：环境混乱，虚拟环境是唯一解药

现象：明明 pip install pymongo 了，运行脚本还是报错。

原因：你的 Python 环境混乱了。可能有多个 Python 版本（系统自带、pyenv、conda）， pip 和 python 指向的不是同一个环境。

终极解决方案：永远使用虚拟环境 。

# 创建一个干净的虚拟环境
python -m venv myproject_env

# 激活它（Linux/macOS）
source myproject_env/bin/activate

# 激活它（Windows）
myproject_env\Scripts\activate.bat

# 现在安装，绝对安全
pip install pymongo requests

# 运行你的脚本
python my_script.py

6.5 “Data not found”：查询不到数据，先检查这三件事

大小写敏感 ：MongoDB 默认是大小写敏感的。 {"sponsors": "fat shark"} 和 {"sponsors": "Fat Shark"} 是不同的。
空格与不可见字符 ：复制粘贴的字符串前后可能有空格。用 print(repr(doc["sponsors"])) 查看真实值。
数据类型不匹配 ： "laps": 3 （整数）和 "laps": "3" （字符串）是不同的。用 type(doc["laps"]) 检查。

最后，分享一个我压箱底的调试技巧： 永远先用 find_one() 测试你的过滤器 。它只返回一条，速度快，输出少，能让你瞬间看清你的条件到底匹配到了什么，或者为什么什么都匹配不到。 find() 是批量生产的工具， find_one() 才是你最忠实的调试伙伴。

7. 从入门到进阶：下一步，你该学什么？

看到这里，你已经掌握了 MongoDB 查询的“核心战斗力”：能连、能存、能查、能筛、能投影。但这只是冰山一角。作为一个在数据一线摸爬滚打十年的老兵，我想给你指几条清晰的进阶路径，避免你陷入“学了很多，却不知用在哪”的迷茫。

第一，立刻去学“聚合管道（Aggregation Pipeline）” 。 find() 是单表查询，而聚合管道是 MongoDB 的“数据加工厂”。它能像 SQL 的 GROUP BY 一样分组统计，像 JOIN 一样关联多个集合（用 $lookup ），还能做复杂的数学计算、字符串处理、日期解析。你现在的 count_documents ，在聚合里就是 {$group: {_id: null, count: {$sum: 1}}} 。学会它，你就能独立完成日报、周报、BI 看板的所有数据准备。

第二，理解“索引原理与优化” 。我们提到了 create_index ，但没讲为什么 {"location.country": 1, "weather_conditions": 1} 这个复合索引，能加速 {"location.country": "UK"} 的查询，却不能加速 {"weather_conditions": "snowy"} 的查询。这背后是 B-tree 索引的最左前缀原则。掌握