比ollama性能强大更全面的Xinference模型平台的详细安装步骤
liuian 2025-03-29 19:27 15 浏览
Xinference 是一个性能强大且功能全面的平台,旨在让您轻松运行和管理各种大型语言模型(LLMs)、嵌入模型(embedding models)和多模态模型(multimodal models)。它具有以下特点:
- 多模型支持: 支持各种开源 LLMs(如 LLaMA、Falcon、ChatGLM 等)、嵌入模型和多模态模型。
- 分布式部署: 可以在单机、多机甚至集群上部署,实现高可用性和可扩展性。
- 易于使用: 提供了简单的命令行界面(CLI)和 Web UI,方便您管理和使用模型。
- 内置优化: 包含了多种模型推理优化技术,如 GGML、GPTQ 等,提高推理速度。
- 兼容 OpenAI API: 提供了与 OpenAI API 兼容的接口,方便您将现有应用迁移到 Xinference。
部署步骤
- 安装 Python 环境 (建议使用 conda)
- 由于 Xinference 是 Python 项目,您需要先安装 Python 环境。强烈建议使用 conda 来管理 Python 环境,避免潜在的依赖冲突。
- 安装 Miniconda 或 Anaconda:
- Miniconda: https://docs.conda.io/en/latest/miniconda.html
- Anaconda: https://www.anaconda.com/products/distribution
- 下载对应 macOS (Apple Silicon) 的安装包,按照提示安装。安装完成后,打开终端,输入 conda --version,如果能看到版本号,则表示安装成功。
- 创建 conda 环境:
- conda create -n xinference python=3.10 # 建议使用 Python 3.10 conda activate xinference
- content_copydownload
- Use code with caution.Bash
- 安装 Xinference
- 有两种安装方式:
- 方式一:使用 pip 安装 (推荐)
- pip install "xinference[all]" # 安装所有依赖,包括 Web UI 和各种加速库
- content_copydownload
- Use code with caution.Bash
- 如果网络不好, 使用国内源
- pip install "xinference[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple
- content_copydownload
- Use code with caution.Bash
- 方式二:从源码安装 (适合开发者)
- git clone https://github.com/xorbitsai/inference.git cd inference pip install -e ".[all]"
- content_copydownload
- Use code with caution.Bash
- 如果网络不好, 使用国内源
- pip install -e ".[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple
- content_copydownload
- Use code with caution.Bash
- 启动 Xinference 服务
- 本地单机模式启动:
- xinference-local
- content_copydownload
- Use code with caution.Bash
- 这将启动一个本地 Xinference 服务,监听默认端口 9997。您可以通过浏览器访问 http://localhost:9997 来查看 Web UI。
- 部署和使用模型
- Xinference Web UI 提供了图形化界面,方便您部署和管理模型。您也可以使用命令行工具。
- Web UI 方式:
- 打开浏览器,访问 http://localhost:9997。
- 点击 "Launch Model" 按钮。
- 选择您想要部署的模型(例如,chatglm3-6b)。
- 填写模型相关参数(例如,模型路径、量化方式等)。如果模型不在本地, xinference将自动下载模型。
- 点击 "Launch" 按钮,等待模型加载完成。
- 模型加载完成后,您可以在 "Chat with Model" 页面与模型进行交互。
- 命令行方式:
- 启动一个模型:
以chatglm3-6b为例, 内置支持的模型不需要指定模型路径 - xinference launch --model-name chatglm3 --model-format pytorch --model-size-in-billions 6
- content_copydownload
- Use code with caution.Bash
- 如果需要指定模型路径
- xinference launch --model-name chatglm3 --model-format pytorch --model-size-in-billions 6 --model-path /path/to/your/chatglm3-6b
- content_copydownload
- Use code with caution.Bash
- 查看已启动的模型:
- xinference list
- content_copydownload
- Use code with caution.Bash
- 与模型交互(使用 curl 或 Python):
获取模型的endpoint和model_uid - $ xinference list +--------------------------------------+-----------------------------------------------------------------------+------------+ | model_uid | endpoint | model_name | +--------------------------------------+-----------------------------------------------------------------------+------------+ | 82e9895b6e474cb9b39987c47ab27439 | http://localhost:9997/v1/models/82e9895b6e474cb9b39987c47ab27439 | chatglm3 | +--------------------------------------+-----------------------------------------------------------------------+------------+
- content_copydownload
- Use code with caution.Bash
- 使用 curl:
- curl -X POST \ -H "Content-Type: application/json" \ -d '{ "prompt": "你好", "model": "chatglm3" }' \ http://localhost:9997/v1/chat/completions
- content_copydownload
- Use code with caution.Bash
- 使用 Python (OpenAI 客户端):
- from openai import OpenAI client = OpenAI( base_url="http://localhost:9997/v1", # 替换为您的 Xinference endpoint api_key="EMPTY", # Xinference 不需要 API key ) completion = client.chat.completions.create( model="82e9895b6e474cb9b39987c47ab27439", # 替换为您的 model_uid messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你好!"} ] ) print(completion.choices[0].message)
- content_copydownload
- Use code with caution.Python
注意事项
- 模型下载: 首次部署模型时,Xinference 会自动下载模型文件。请确保您的网络连接良好,并有足够的存储空间。
- 硬件要求: 运行 LLMs 对硬件有一定的要求,特别是 GPU 内存。如果您的 GPU 内存不足,可以尝试使用量化后的模型(如 GPTQ 格式)或较小的模型。
- 模型路径: 命令行启动模型时,如果模型不在 xinference 的内置模型列表中,您需要指定 --model-path 为您的本地模型路径。
- 端口冲突: 如果默认端口 9997 被占用,您可以使用 --host 和 --port 参数指定其他主机和端口。
进阶使用
- 分布式部署: Xinference 支持分布式部署,可以参考官方文档了解更多信息:https://inference.readthedocs.io/en/latest/guides/distributed_deployment.html
- 自定义模型: 您可以部署自己训练的模型,具体方法请参考官方文档:https://inference.readthedocs.io/en/latest/guides/register_custom_model.html
- 模型加速: Xinference 支持多种模型加速技术,如 GGML、GPTQ 等,可以根据您的硬件和模型选择合适的加速方式。
希望这个详细的教程能帮助您在电脑上成功部署 Xinference!如果您在部署过程中遇到任何问题,欢迎随时提问。
相关推荐
- 面试问了解Linux内存管理吗?10张图给你安排的明明白白!
-
来源:https://www.cnblogs.com/NanoDragon/p/12736887.html今天来带大家研究一下Linux内存管理。对于精通CURD的业务同学,内存管理好像离我们很远...
- Linux Kernel 6.12震撼发布:实时性能飙升,开启全新计算时代!
-
概述LinusTorvalds在邮件列表中宣布推出LinuxKernel6.12,该版本带来了多项重要的更新和功能增强。更新亮点PREEMPT_RT支持主要内容:LinuxKernel...
- linux Grub2功能、常见配置及使用方式
-
Grub2(GrandUnifiedBootloaderversion2)是一款功能强大的引导加载程序,提供了以下功能和常见配置:多操作系统支持:Grub2可以加载和引导多个操作系统,包括不同...
- Linux内核必备知识点-platform总线详解
-
platform总线是学习linux驱动必须要掌握的一个知识点。本文参考已发布:Linux3.14内核一、概念嵌入式系统中有很多的物理总线:I2c、SPI、USB、uart、PCIE、APB、AHB...
- linux kernel内核的头文件获取、安装等方法
-
交叉编译时经常会用到这些头文件。下载合适版本的linux地址:https://mirrors.aliyun.com/linux-kernel/https://mirrors.edge.kernel.o...
- 600个常用 Linux 命令,收藏备用!
-
本文为Linux命令大全,从A到Z都有总结,建议大家收藏以便查用,或者查漏补缺!A命令描述access用于检查调用程序是否可以访问指定的文件,用于检查文件是否存在accton用于打开或关闭记帐进程或...
- Linux 中 `/proc/cpuinfo`文件中最常见的标志
-
/proc/cpuinfo是一个虚拟文件系统,在Linux系统中提供有关CPU(中央处理器)的信息。通过读取该文件,您可以获取有关处理器的详细信息,如型号、频率、核心数、缓存大小等。本文将介绍...
- 600个Linux命令大全,从A到Z,2023年收藏大吉!
-
本文为Linux命令大全(有PDF),从A到Z都有总结,建议大家收藏以便查用,或者查漏补缺!A命令描述access用于检查调用程序是否可以访问指定的文件,用于检查文件是否存在accton用于打开或关闭...
- Linux下如何查看硬件信息?
-
我们在Linux下进行开发时,有时也需要知道当前的硬件信息,比如:CPU几核?使用情况?内存大小及使用情况?USB设备是否被识别?等等类似此类问题。下面良许介绍一些常用的硬件查看命令。lshwls...
- 从PXE到GRUB到VHD文件启动
-
今天玩点花活儿,之前的文章再探从VHD文件中启动Windows及Grub双启动VHD文件+TinyCoreLinux中研了一下GRUB和VHD文件的关联应用,那么结合PXE又会是怎么样的呢?...
- bootra1n教学:Windows用户用U盘Linux实现checkra1n越狱方法
-
checkra1n越狱工具在前几天推出Linux版本,相信对于Windows用户可能也看得很模糊,甚至要切割硬碟到安装Linux系统太过于繁杂,这篇要来教大家最简易最快速利用U盘Linux...
- 不了解NUMA,就看不懂Linux内核
-
哈喽,我是子牙,一个很卷的硬核男人深入研究计算机底层、Windows内核、Linux内核、Hotspot源码……聚焦做那些大家想学没地方学的课程。为了保证课程质量及教学效果,一年磨一剑,三年先后做了这...
- Linus Torvalds接受微软Hyper-V升级 下一代Linux启动会更快
-
虽然Windows的粉丝和Linux的粉丝经常喜欢进行激烈的键盘大战,但操作系统的制造商们自己也了解彼此的优缺点。毫无疑问,微软也明白这一点,事实上,它甚至鼓励用户尝试Linux,尽管是使用...
- deepin使用笔记——开机卡LOGO,无法正常关机的解决办法
-
第一次使用deepin操作系统,很容易遇到几种情况:1,开机卡LOGO,无法进入系统。2,开机可以进入系统,但是进入系统后桌面环境无法正常打开,一直卡着什么都不能用。3,开机后看似一切正常,但关机的时...
- 如何检查Linux系统硬件信息?从CPU到显卡,一网打尽!
-
你可能会问:“我为什么要关心硬件信息?”答案很简单:硬件是Linux系统的根基,了解它可以帮你解决很多实际问题。比如:性能调优:知道CPU核心数和内存大小,才能更好地调整程序运行参数。故障排查:系统卡...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
python使用fitz模块提取pdf中的图片
-
《人人译客》如何规划你的移动电商网站(2)
-
Jupyterhub安装教程 jupyter怎么安装包
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- uniapp textarea (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- react-admin (33)
- vscode切换git分支 (35)
- vscode美化代码 (33)
- python bytes转16进制 (35)