加载模型时出现 OSError: Unable to load weights from pytorch checkpoint file 报错的解决

  • 报错信息
  • 原因查明
  • 网传解决措施
  • 好消息
  • 我的解决措施

报错信息

  • 查了下,在网上还是个比较常见的报错
    一般为加载某模型时突然报错

原因查明

  • 一般为下载某个 XXX_model.bin 的时候下载报错了
    而下载源可以看到为 HuggingFace

网传解决措施

  • 首先得看看你是下载哪个模型报错了。像我这里有一个中间模型,所以不知道是哪个低层模型下载报错了。
    打开 ~/.cache/huggingface/hub,这里 ~ 表示本机用户名
    若有多个模型,你可以看一下修改日期是今天的为哪个

    这里发现,是模型 potsawee--t5-large-generation-squad-QuestionAnswer
    HuggingFace 上搜索相应模型,自行下载,比如我这里即为 网址

    该文件下载到刚刚那个缓存文件夹中对应的放那些files的文件夹。
  • 做法二:删除该缓存文件夹中所有东西,再运行一遍代码。

好消息

  • 虽然貌似没有报错,但是加载 selfcheck_mqag 模型的时候内存完全吃完了,卡到死机也没跑完初始化,可能是没问题了只是太吃内存了
    对于一般的小模型该报错可能可以直接解决了。

我的解决措施

  • 既然本机实在是跑不了,大不了不跑本机,去 Colab 上跑
    见我的博客,关于Colab的简单应用

  • 首先代码放进去,然后先跑个 install 包命令

  • 然后再运行代码

  • 发现对于所有的文件,包括 bin 文件都成功安装。
    初始化成功,且不吃本机资源, n i c enicenice

  • yy:MQAG 也太 tm 吃资源了