使用通义视觉理解大模型API进行图片分析

原创

已于 2025-09-23 22:14:23 修改 · 1.9k 阅读

标签

#LLM #视觉理解 #python #通义千问

于 2025-09-15 11:16:16 首次发布

使用通义视觉理解大模型API进行图片分析

1 阿里云百炼平台

阿里云百炼平台https://bailian.aliyun.com/是一个全链路大模型服务与应用开发平台，不论是开发者还是业务人员，都能深入参与大模型应用的设计和构建。您可以通过简单的界面操作，短时间内开发出一款大模型应用，或在几小时内训练出一个专属模型，从而将更多精力专注于应用创新。

阿里云百炼平台提供多种大模型，具体可以访问官网查看。

请添加图片描述

视觉理解大模型

请添加图片描述

2 初始设置

若要调用大模型API，需要获取API Key、配置本地开发环境、调用API。

注册

注册账号：如果没有阿里云账号，您需要先注册阿里云账号。
开通阿里云百炼：使用阿里云主账号前往阿里云百炼控制台，如果页面顶部显示以下消息，您需要开通阿里云百炼的模型服务，以获得免费额度。如果未显示该消息，则表示您已经开通。
获取API Key：前往API-KEY页面，单击创建我的API-KEY**，即可通过API KEY**调用大模型。

配置API Key到环境变量

建议您把API Key配置到环境变量，从而避免在代码里显式地配置API Key，降低泄漏风险。

例如，在linux系统中，执行以下命令来将环境变量设置追加到~/.bashrc 文件中：

echo "export DASHSCOPE_API_KEY='YOUR_DASHSCOPE_API_KEY'" >> ~/.bashrc
source ~/.bashrc
echo $DASHSCOPE_API_KEY

调用API

API支持多种语言调用，包括Python、Node.js、Java、curl、Go、PHP、C#。

3 视觉理解大模型

通义千问VL模型可以根据您传入的图片和提示词来进行回答。

应用场景

**图像问答：**描述图像中的内容或者对其进行分类打标，如识别人物、地点、花鸟鱼虫等。
**数学题目解答：**解答图像中的数学问题，适用于中小学、大学以及成人教育阶段。
**视频理解：**分析视频内容，如对具体事件进行定位并获取时间戳，或生成关键时间段的摘要。
**物体定位：**定位图像中的物体，返回外边界矩形框的左上角、右下角坐标或者中心点坐标。
**文档解析：**将图像类的文档（如扫描件/图片PDF）解析为 QwenVL HTML格式，该格式不仅能精准识别文本，还能获取图像、表格等元素的位置信息。
**文字识别与信息抽取：**识别图像中的文字、公式，或者抽取票据、证件、表单中的信息，支持格式化输出文本；可识别的语言有中文、英语、日语、韩语、阿拉伯语、越南语、法语、德语、意大利语、西班牙语和俄语。

API调用

阿里云百炼支持通过API调用大模型，涵盖OpenAI兼容接口、DashScope SDK等接入方式，支持在线图像和本地文件上传方式。

在线图像

例如使用Python调用OpenAI兼容接口：

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-vl-max-latest", # 此处以qwen-vl-max-latest为例，可按需更换模型名称。模型列表：https://help.aliyun.com/zh/model-studio/models
    messages=[
        {
   
   
            "role": "system",
            "content": [{
   
   "type": "text", "text": "You are a helpful assistant."}],
        },
        {
   
   
            "role": "user",
            "content": [
                {
   
   
                    "type": "image_url",
                    "image_url": {
   
   
                        "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241022/emyrja/dog_and_girl.jpeg"
                    },
                },
                {
   
   "type": "text", "text": <

最低0.47元/天解锁文章