import requestsfrom PIL import Image
image_url = "https://cdn.pixabay.com/photo/2018/01/29/14/13/italy-3116211_960_720.jpg"image = Image.open(requests.get(image_url, stream=True).raw)image

最后让我们用图像查询 LLaVA 模型，并提示要求描述图片。提示格式如下

“USER: \n\nASSISTANT:”

prompt = "USER: \nDescribe this picture\nASSISTANT:"
outputs = pipe(image, prompt=prompt, generate_kwargs={"max_new_tokens": 200})print(outputs[0]['generated_text'])

它将返回以下答案：

用户：请描述一下这张图片
助理：图片上有一个巨大的、空荡荡的圆形剧场，背景是令人惊叹的海洋景色。圆形剧场周围是郁郁葱葱的绿色山坡，远处可以看到雄伟的山峰。景色宁静而美丽，阳光照耀着大地。

LLaVA 聊天机器人

我们最终创建一个依赖于 LLaVA 模型的简单聊天机器人。我们将使用Gradio 库，它提供了一种快速、简单的方法来创建机器学习 Web 界面。

该界面的核心由一行图像上传器（一个 Gradio Image 对象）和一个聊天界面（一个 Gradio ChatInterface对象）组成。

import gradio as gr
with gr.Blocks() as demo:
    with gr.Row():      image = gr.Image(type='pil', interactive=True)
      gr.ChatInterface(          update_conversation, additional_inputs=[image]      )

聊天界面连接到一个函数update_conversation，该函数负责保存对话历史记录，并在用户发送消息时调用 LLaVA 模型进行响应。

def update_conversation(new_message, history, image):
    if image is None:        return "Please upload an image first using the widget on the left"
    conversation_starting_from_image = [[user, assistant] for [user, assistant] in history if not assistant.startswith('Please')]
    prompt = "USER: \n"
    for i in range(len(history)):        prompt+=history[i][0]+'ASSISTANT: '+history[i][1]+"USER: "
    prompt = prompt+new_message+'ASSISTANT: '
    outputs = pipe(image, prompt=prompt, generate_kwargs={"max_new_tokens": 200, "do_sample" : True, "temperature" : 0.7})[0]['generated_text']
    return outputs[len(prompt)-6:]

调用launch方法启动界面。

demo.launch(debug=True)

几秒钟后，将出现聊天机器人 Web 界面：

恭喜，您的 LLaVA 聊天机器人现在已经启动，并成功运行！

LLaVA：GPT-4V(ision) 的新开源替代品

在线使用 LLaVA

如果你还没有尝试过它，使用 LLaVA 最简单的方法是访问其作者提供的Web 界面。

下面的屏幕截图说明了其界面的运行方式，用户根据冰箱内容的图片询问要做什么饭菜。可以使用左侧的小部件加载图像，其聊天界面允许用户以文本形式提出问题并获得答案。

如何本地运行 LLaVA

LLaVA 还可以使用Ollama（https://ollama.ai/）或 Mozilla ' llamafile ' （https://github.com/Mozilla-Ocho/llamafile）安装在本地计算机上。

在围绕 Ollama 项目开发的工具和界面中，一个值得注意的举措是Ollama-WebUI（如下所示），它再现了 OpenAI ChatGPT 用户界面的外观和感觉。

LLaVA 主要功能简介

LLaVA 由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员设计，最近在 NeurIPS 2023 上进行了展示。该项目的代码和技术规范可以在其Github 存储库上访问。该存储库地址如下：

训练流程

LLaVA 的训练过程由两个相对简单的阶段组成。

第一阶段目标在调整投影模块W，并且视觉编码器和LLM的权重保持冻结。使用来自CC3M 概念字幕数据集的大约 600k 图像/字幕对的子集来执行训练，并且可以在该存储库的HuggingFace 上找到。

整个训练大约需要一天时间，使用 8 个 A100 GPU。

使用 LLaVA 编程：如何开始

下面是以 4 位加载 LLaVA 1.5 的 7B 变体的代码片段：

LLaVA 聊天机器人

我们最终创建一个依赖于 LLaVA 模型的简单聊天机器人。我们将使用Gradio 库，它提供了一种快速、简单的方法来创建机器学习 Web 界面。

相关参考链接：

评论

万能的大雄

最新文章

Microsoft 发布历史上最早的 86-...

Warp的开源新篇章：开启开放智能...

美五角大楼CTO：Mythos的介入使...

PHP 9.0 将更换到 BSD 许可证

正值劳动节，中国出台新规：禁止...

IBM 的人工智能编码伙伴“Bob”发...

谷歌2026年搜索查询量创历史新高

GitHub COO 谈GitHub可用性：AI...

Coreutils 9.11 发布 - 增强了基...

Oracle计划用一座2.45吉瓦的燃料...

我要赞赏作者

分享到微信