使用通义视觉理解大模型API进行图片分析

使用通义视觉理解大模型API进行图片分析

1 阿里云百炼平台

阿里云百炼平台https://bailian.aliyun.com/是一个全链路大模型服务与应用开发平台,不论是开发者还是业务人员,都能深入参与大模型应用的设计和构建。您可以通过简单的界面操作,短时间内开发出一款大模型应用,或在几小时内训练出一个专属模型,从而将更多精力专注于应用创新。

阿里云百炼平台提供多种大模型,具体可以访问官网查看。

请添加图片描述

视觉理解大模型

请添加图片描述

2 初始设置

若要调用大模型API,需要获取API Key、配置本地开发环境、调用API。

注册

  1. 注册账号:如果没有阿里云账号,您需要先注册阿里云账号。
  2. 开通阿里云百炼:使用阿里云主账号前往阿里云百炼控制台,如果页面顶部显示以下消息,您需要开通阿里云百炼的模型服务,以获得免费额度。如果未显示该消息,则表示您已经开通。
  3. 获取API Key:前往API-KEY页面,单击创建我的API-KEY**,即可通过API KEY**调用大模型。

配置API Key到环境变量

建议您把API Key配置到环境变量,从而避免在代码里显式地配置API Key,降低泄漏风险。

例如,在linux系统中,执行以下命令来将环境变量设置追加到~/.bashrc 文件中:

echo "export DASHSCOPE_API_KEY='YOUR_DASHSCOPE_API_KEY'" >> ~/.bashrc
source ~/.bashrc
echo $DASHSCOPE_API_KEY

调用API

API支持多种语言调用,包括Python、Node.js、Java、curl、Go、PHP、C#。

3 视觉理解大模型

通义千问VL模型可以根据您传入的图片和提示词来进行回答。

应用场景

  • **图像问答:**描述图像中的内容或者对其进行分类打标,如识别人物、地点、花鸟鱼虫等。
  • **数学题目解答:**解答图像中的数学问题,适用于中小学、大学以及成人教育阶段。
  • **视频理解:**分析视频内容,如对具体事件进行定位并获取时间戳,或生成关键时间段的摘要。
  • **物体定位:**定位图像中的物体,返回外边界矩形框的左上角、右下角坐标或者中心点坐标。
  • **文档解析:**将图像类的文档(如扫描件/图片PDF)解析为 QwenVL HTML格式,该格式不仅能精准识别文本,还能获取图像、表格等元素的位置信息。
  • **文字识别与信息抽取:**识别图像中的文字、公式,或者抽取票据、证件、表单中的信息,支持格式化输出文本;可识别的语言有中文、英语、日语、韩语、阿拉伯语、越南语、法语、德语、意大利语、西班牙语和俄语。

API调用

阿里云百炼支持通过API调用大模型,涵盖OpenAI兼容接口、DashScope SDK等接入方式,支持在线图像和本地文件上传方式。

在线图像

例如使用Python调用OpenAI兼容接口:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-vl-max-latest", # 此处以qwen-vl-max-latest为例,可按需更换模型名称。模型列表:https://help.aliyun.com/zh/model-studio/models
    messages=[
        {
   
   
            "role": "system",
            "content": [{
   
   "type": "text", "text": "You are a helpful assistant."}],
        },
        {
   
   
            "role": "user",
            "content": [
                {
   
   
                    "type": "image_url",
                    "image_url": {
   
   
                        "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241022/emyrja/dog_and_girl.jpeg"
                    },
                },
                {
   
   "type": "text", "text": <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值