高哲技术博客 高哲技术博客
首页
编程
爬虫
运维
硬件
收藏
归档
关于

嘉美伯爵

前途光明,无需畏惧
首页
编程
爬虫
运维
硬件
收藏
归档
关于
  • 架构

  • 思想

  • 语言

  • 设计模式

  • 微服务

  • 数据分析

  • 人工智能

    • 基础

    • 部署

    • 大模型

    • 传统模型

    • 调研

    • 落地

      • 模型落地、模型评估、模型部署基建方案
      • 大模型部署方案
      • 大模型商品导购员落地方案
      • 大模型量化部署方案
        • llama.cpp转换
        • vLLM 转换
        • 接口方案
      • 本地知识库部署方案
      • 大模型商品推荐方案
      • 模型落地过程中如何进行评估测试
      • 模型编排工具对比
      • 大模型开源项目思路借鉴
    • 评估

  • 区块链

  • 数据结构

  • 技术调研

  • 性能优化

  • 生产问题

  • 编程
  • 人工智能
  • 落地
fovegage
2023-09-05
目录

大模型量化部署方案

# 基于 cpu 进行模型推理
https://github.com/abetlen/llama-cpp-python/

# 需要生成ggml格式的bin文件,进行量化

# 两种量化方案
gptq vs ggml

# 量化
https://blog.csdn.net/god_zzZ/article/details/130328307
1
2
3
4
5
6
7
8
9
10

# llama.cpp转换

# colab转换
https://colab.research.google.com/drive/1FnFkyKhrnS7s-2lDDeous-AutdI_SkAd?usp=sharing#scrollTo=gw2xpYC0RcQC

# python bind
https://github.com/abetlen/llama-cpp-python/
https://github.com/ggerganov/llama.cpp


https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/
1
2
3
4
5
6
7
8
9

# vLLM 转换

vLLM:https://github.com/vllm-project/vllm
https://www.atyun.com/56675.html
1
2

# 接口方案

# 支持openai接口 (https://chat.lmsys.org/)
https://github.com/lm-sys/FastChat
1
2
上次更新: 2023-09-07 23:06:40
大模型商品导购员落地方案
本地知识库部署方案

← 大模型商品导购员落地方案 本地知识库部署方案→

最近更新
01
token embed和postion embed
06-10
02
k8s pod日志排查问题
10-24
03
golang内部私服建设方案
10-21
更多文章>
Theme by Vdoing | Copyright © 2018-2025 嘉美伯爵 | 鲁ICP备20001560号-4
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式