高哲技术博客 高哲技术博客
首页
编程
爬虫
运维
硬件
收藏
归档
关于

嘉美伯爵

前途光明,无需畏惧
首页
编程
爬虫
运维
硬件
收藏
归档
关于
  • 架构

  • 思想

  • 语言

  • 设计模式

  • 微服务

  • 数据分析

  • 人工智能

    • 基础

      • GPT家族常用术语汇总
      • 机器学习常用术语
      • jupyter使用整理归纳
      • colab使用教程
      • 单机多卡分布式训练
        • 机器学习踩坑汇总
        • llm大语言模型概念篇
        • 关于huggingface transformers的学习和汇总
        • 中文NLP整理及汇总
      • 部署

      • 大模型

      • 传统模型

      • 调研

      • 落地

      • 评估

    • 区块链

    • 数据结构

    • 技术调研

    • 性能优化

    • 生产问题

    • 编程
    • 人工智能
    • 基础
    fovegage
    2023-06-08
    目录

    单机多卡分布式训练

    # 机器选择

    
    # batch_size = 128   需要 40G显存
    # https://buy.cloud.tencent.com/price/gpu
    128 per-GPU * 8 GPU
    
    
    2023-04-26,02:59:47 | INFO | Rank 0 | Global Steps: 1940/3000 | Train Epoch: 2 [9400/10000 (94%)] | Loss: 0.002717 | Image2Text Acc: 100.00 | Text2Image Acc: 100.00 | Data Time: 0.075s | Batch Time: 0.242s | LR: 0.000015 | logit_scale: 4.592 | Global Batch Size: 10
    
    1
    2
    3
    4
    5
    6
    7

    # 资源利用

    ## 合理使用资源
    1.  将训练过后的模型日志和其他重要的文件保存到谷歌云盘,而不是本地的实例空间
    2.  运行的代码必须支持“断点续传”能力,简单来说就是必须定义类似checkpoint功能的函数;假设我们一共需要训练40个epochs,在第30个epoch掉线了之后模型能够从第30个epoch开始训练而不是从头再来 
    3.  仅在模型训练时开启GPU模式,在构建模型或其他非必要情况下使用None模式 
    4.  在网络稳定的情况下开始训练,每隔一段时间查看一下训练的情况 
    5.  注册多个免费的谷歌账号交替使用
    
    1
    2
    3
    4
    5
    6

    # 文档

    # # PyTorch 单机多卡分布式训练
    https://blog.csdn.net/weixin_38842821/article/details/119361194
    
    1
    2
    #ml
    上次更新: 2023-09-07 23:06:40
    colab使用教程
    机器学习踩坑汇总

    ← colab使用教程 机器学习踩坑汇总→

    最近更新
    01
    token embed和postion embed
    06-10
    02
    k8s pod日志排查问题
    10-24
    03
    golang内部私服建设方案
    10-21
    更多文章>
    Theme by Vdoing | Copyright © 2018-2025 嘉美伯爵 | 鲁ICP备20001560号-4
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式