GithubHelp home page GithubHelp logo

ziwang-com / agm Goto Github PK

View Code? Open in Web Editor NEW
23.0 2.0 4.0 2.12 MB

AGM阿格姆:AI基因图谱模型,从token-weight权重微粒角度,探索AI模型,GPT\LLM大模型的内在运作机制。

Home Page: http://www.m-f.vip

agi gpt llm model token weight genemap agm lora gene tensor llama2

agm's Introduction

AGM阿格姆:AI权重粒子模型

AI Token Weight Particle Model 基于token权重关系的AI权重粒子图谱模型

AGM阿格姆项目,全称是:AI Token Weight Particle Model,基于AI模型token权重关系,内部微结构图谱模型。 AGM阿格姆项目,原名:AI Gene Model, AI基因权重图谱模型,类似AI生信领域的DNA基因图谱。 为避免与AI医疗项目混乱,更名为:AI权重粒子模型。

AGM阿格姆,目标,未来和意义是:成为下一代AI模型标准指定的参与者。

项目网址:https://github.com/ziwang-com/AGM

如果你在寻找一个伟大的项目,AGM就是。

AI Token Weighted Particle Model An AI Weighted Particle Graph Model Based on Token Weight Relationships

The AGM Agum project, also known as the AI Token Weight Particle Model, is based on the AI model token weight relationship and internal microstructure graph model. AGM Agam Project, formerly known as AI Gene Model, is an AI gene weight map model similar to the DNA gene map in the field of AI bioinformatics. To avoid confusion with AI healthcare projects, it has been renamed as AI Weighted Particle Model.

AGM Agum's goal, future, and significance are to become a designated participant in the next generation AI model standard.

Project website: https://github.com/ziwang-com/AGM

If you are looking for a great project, AGM is.

吉祥物:阿格姆。

阿格姆,不象其他开源项目,特别是llm项目,都是温驯的乖宝宝。 阿格姆,是AI领域、GPT、LLM领域,《站在门口的野蛮人》。

阿格姆,是天生的斗士,天生的颠覆者。

阿格姆,也是包容天下的好奇宝宝。

阿格姆,虽然还是初生牛犊。 但已经显示其旺盛的生命力,以及颠覆一切的决心。

amgm001k300

ps,AMGM阿格姆也是“天命之子”Son of Destiny。

我们输入:a cute mascot for AI Token Weight Particle Model

SD2.1自动生成数张图片,其中最耀眼的就是这张。

背景

AGM阿格姆:AI权重粒子模型,是行业基于首个基于token-weight权重,从微观角度,系统研究GPT、llm大模型,内在运作机制的项目。

AGM阿格姆,并非zero-lora零训练算法升级版,而是一个全新的进化版独立项目,而且更加完整、庞大、系统。

传统AI模型机理研究,以及AI知识图谱,都是偏外部和数据,偏宏观。

GPT、llm模型,是AI领域最前沿的课题,也是人类科技最前沿的课题。

而这些最前沿的课题,居然都在采用最原始的GPU暴力运算,这本身就是一个自我矛盾、值得深入研究的的课题。

多年前,我们曾经提出过:logNET基于逻辑的AI神经网络模型,并且有成功的工程案例,运算效率,比目前最先进的AI神经网络模型,还要高1万倍以上。

无独有偶,近年,深度学习教父Geoffrey Hinton,提出的“胶囊理论”,也是类似观点。

近日,我们提出的zero-lora零训练算法模型,以及近期热门论文《TOT思维树》,都可以:

在无需额外训练的前提下,可以大幅度提高llm模型的准确度、效率。

参见: https://github.com/ziwang-com/zero-lora

https://github.com/ziwang-com/AMGM/issues

zero-lora零参数算法,可以视为AGM阿格姆的一个工程项目,或者demo案例。

AGM阿格姆,是一套全新的、完整、系统的AI理论、工程体系。

本质上,所有的AI模型,无论是全参数训练,还是lora优化调参,都是为了计算相关参数的weight权重。

wt001

lora-w16fp_20230604084233 lora-weight 权重 本质上就是fp16浮点小数

战略意义

GPT、llm等大语言模型,以及各种AI模型,基于归一化token微粒层面的研究。

理论上,使人类首次可以:基于单个token,从微观层面,从llm模型内部,系统绘制出AI模型的内部架构图,相当于AI生信领域的DNA基因图谱。

AGM阿格姆:AI基因图谱模型,对于AI模型,神经网络而言,具有重大的战略意义:

  • 首次使人类首次可以,基于单个token,从微观层面,从AI模型内部,绘制出完整的AI模型内部微架构图谱。
  • 为AI模型,神经网络“黑箱”理论,提供破解之路。
  • 为AI前沿:“一致性”瓶颈课题,提供更多研究素材,我们团队已有成功的参考案例。
  • 消除算力黑洞,新一代logNET基于逻辑的AI模型,理论上,效率比目前基于全参数训练,lora调参优化,这类暴力运算方案,效率要高1万倍以上。
  • 为AGI项目商业化,奠定理论和工程基础。

技术路线

zw团队结合自身资源,和在AI医学、AI字库、AGI项目的工程经验,初步技术路线如下:

  • 完善AGM阿格姆理论体系,探讨token的归一化架构体系。(进行中)
  • 完成基于token的归一化架构体系软件和理论建设。
  • 基于归一化token,完成llm模型的微粒度知识基因图谱。
  • 基于AGM阿格姆:AI权重粒子模型: ** 完成各种主流同构、异构llm模型的跨领域研究。 ** 完成多模态AI模型的跨领域研究。
  • 基于AGM阿格姆:AI权重粒子模型: ** 融合团队logNet逻辑神经网络理论,建立新一代类似AI生信的AI模型,llm大模型研究体系。 ** 建立系统的、微观层面,AI模型的精密研究体系,类似基于DNA基因图谱的现代精密医学体系:AI制药、基因靶标研究等。

以上技术路线,基于团队以往工程案例经验,大部分属于行业首创,100%自主知识产权。

具体实施路线,需根据项目研发实际进展,进行不断优化、调整。

团队技术优势

  • 行业首个提出完整的:AGM阿格姆工程技术路线图,并初步完成AGM阿格姆项目,理论架构体系。
  • 行业首家提出zero-lora算法模型,作为AGM阿格姆项目的工程入口。
  • 多个zero-lora项目成功案例。目前 zw-Vicuna-13B系列模型,已经迭代升级三代,在多种llm底座测试,均获得成功。
  • 在AGI、“归一化”前沿课题领域,部分理论和工程项目,处于全球行业领先水平。
  • AGM阿格姆项目细分领域:MetaFont元字库AI模型、《汉字粒子基因图谱》,均已完成
  • 团队具有30年AI一线工程经验,大量成功案例,优化经验和软件模块,可以低成本迁移。
  • 团队原创:logNET基于逻辑的AI神经网络模型,已有成功工程案例,运算效率,比目前最先进的AI神经网络模型,还要高1万倍以上。

联系合作

AGM阿格姆:AI权重粒子模型,无论是工程项目,还有相关的理论体系,有大量的工作,需要大家补充完善。

想刷高分paper,以及在GPT时代,寻找市场机会的llm创业团队,尽管放马过来。

项目网址:https://github.com/ziwang-com/AGM

有兴趣的团队和个人,请提供相关文字资料:团队核心成员简介,研究课题,合作方向,以及相关PPT资料。

联系方式:微信:zwpython,或扫描二维码。QQ:357811718(zw字王) 联系信息注明:AMGM阿格姆合作。

【智王AI资源库】

智王mini-AGI开源项目以及相关模块库,均在【智王AI资源库】提供免费下载。

百度网盘提取码:hiks

https://pan.baidu.com/s/1EH19ablXVLYQP1f-IaPS-Q?pwd=hiks

如有更改,最新下载地址请参见:

QQ群文件:655402626(GPT+千人QQ大群)

更多细节,参见公众号。欢迎加入:QQ群,微信群。

zw-GPT三合一+群二维码v2

zwagi- (4)

agm's People

Contributors

ziwang-com avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

agm's Issues

权重的反向乘积量化 (RPQ) 以减少静态内存使用。

https://github.com/a-kore/RPQ-pytorch

RPQ-pytorch
权重的反向乘积量化 (RPQ) 以减少静态内存使用。
乘积量化是一种降低向量相似性搜索内存要求的方法。它通过将向量分块为子向量来减少内存占用,每个子向量被压缩到一组代码本中,每个代码本有 256 个代码。这允许我们拥有一组代码,这些代码可以用 uint8 索引而不是完整的向量表示来表示。

如果我们反转这个过程,我们可以从包含子向量和一组随机 uint8 索引的更小的代码本中动态生成更大的向量集,而不必持久地保存一组更大的向量。这可以在前向传递期间用于实时扩展/编译权重,以便对输入执行操作。

这将为模型创建一个状态,其中权重处于“休眠”状态,并在使用前扩展到其活动状态。这与梯度检查点(和推理,类似)等方法配合得很好,我们可以再次解压缩权重而不是存储它们。换句话说,权重是动态计算图的一部分,可以在需要时忘记/解压缩。

但是,这不是免费的,索引继承自一组共享代码本,因此权重越大,生成的向量共享子向量的可能性就越大。这可以通过增加码本的数量来防止,但需要更多的测试来确定每个实现所需的最小码本数量应该是多少。

例如,在“用法”部分中,我们定义了一个 RPQOPT 模型(带 RPQ 权重的 OPT 变体),其中码本的数量设置为磁头的数量。这是随意选择的,但效果很好,因为 必须能被 整除。hidden_dimnum_codebooks

拥有一组纠缠向量的影响是未知的,需要使用标准基准进行严格的测试才能进行比较。直观地说,根据最终权重结构的使用方式,这将产生不同的结果。对于矢量量化模块,纠缠代码以避免“死代码”问题并提高码本利用率可能是有利的。

image

使神经网络对各种图像损坏具有鲁棒性的简单方法

https://github.com/bethgelab/game-of-noise
一种使神经网络对各种图像损坏具有鲁棒性的简单方法
该存储库包含论文的训练模型权重、训练和评估代码 一种使神经网络对各种图像损坏具有鲁棒性的简单方法,作者:Evgenia Rusak*、Lukas Schott*、Roland Zimmermann*、Julian Bitterwolf、Oliver Bringmann、Matthias Bethge & Wieland Brendel。

我们表明,一种非常简单的方法 - 高斯噪声的数据增强 - 足以超越最先进的方法,以提高对常见腐败的鲁棒性。更进一步,我们学习每像素分布,以使用一个简单的生成神经网络(我们称之为噪声发生器)从对抗性中采样噪声。联合训练噪声发生器和分类器进一步提高了鲁棒性。

image

现代自指权重矩阵

https://github.com/IDSIA/modern-srwm

现代自指权重矩阵
这是包含该论文代码的官方存储库:

一个学会自我修改的现代自我参照权重矩阵(ICML 2022 和 NeurIPS 2021 Deep RL 研讨会)

该论文的早期/较短版本(仅包含 RL 部分)在 NeurIPS 2021 Deep RL 研讨会上发表。相应的版本可在Openreview上找到。

该存储库还包含论文的代码:通过引导加速神经自我改进(ICLR 2023 研讨会)。本文的示例脚本可以在supervised_learning/scripts/bootstrapping下找到。

坚固的权重特征

https://github.com/VITA-Group/Robust_Weight_Signatures

坚固的权重特征
License: MIT

论文的正式实现 稳健的权重签名:像修补砝码一样容易获得鲁棒性? [ICML2023]。

蔡瑞思, 张振宇, 王章阳

抽象
给定一个经过训练的鲁棒模型能够适应一种或多种类型的分布偏移(例如,自然图像损坏),如何将这种“鲁棒性”编码到模型权重中,以及它有多容易被解开和/或“零镜头”转移到其他一些模型?本文凭经验提出了一个令人惊讶的简单答案:线性 - 通过简单的模型权重算术!我们首先得出几个关键观察结果:(i)假设我们在干净的数据集及其损坏的版本上训练相同的模型架构,两个结果模型之间的比较显示它们的权重在浅层中大多不同;(ii)预测后的权重差异,我们称之为“稳健权重签名”(RWS),似乎是歧视性的,表明了不同的腐败类型;(iii) 也许最引人注目的是,对于相同的损坏类型,通过一个模型架构获得的 RWS 高度一致,并且可以在不同的数据集之间转移。

基于这些 RWS 观察结果,我们提出了一个简约的模型鲁棒性“修补”框架,该框架携带一个在干净数据上训练的模型及其预提取的 RWS。通过这种方式,为模型注入一定的鲁棒性减少到直接将相应的 RWS 添加到其权重中。我们通过实验验证了我们提出的框架非常(1)轻量级。由于 RWS 专注于最浅的几层,并且我们进一步证明它们可以无痛地量化,因此存储 RWS 比存储全重副本紧凑多达 13 倍;(2)原位可调。RWS 可以根据需要追加,稍后取下以恢复完整的干净模型。我们进一步演示了可以线性重新缩放 RWS 以控制修补的鲁棒性强度;(3)可组合。可以同时添加多个 RWS,以一次修补更全面的稳健性;(4)可转让。即使不断调整或更新干净的模型主干,RWS 由于其出色的跨数据集可转移性,仍然是有效的补丁。

image

类激活映射 (CAM)

https://github.com/Meeeee6623/Class-Activation-Mapping
类激活映射
类激活映射 (CAM) 是深度学习中使用的一种技术,用于可视化图像中对特定预测最重要的特征。换句话说,它使我们能够了解图像的哪些部分与特定分类最相关。

该项目演示了使用在 ImageNet 数据集上训练并传输到 Fruit 360 数据集的 ResNet 50 模型的 CAM。ResNet 50 模型是一个卷积神经网络 (CNN),已在大型图像数据集上进行预训练,可用于将图像分类为 1000 个不同类别之一。在这个项目中,ResNet 50模型已经在Fruit 360数据集上进行了微调,该数据集包含不同类型水果的图像。通过将CAM应用于ResNet 50模型,我们可以可视化输入图像中对每个水果分类最重要的特定区域。

为了生成类激活图,我们首先将 ResNet 50 模型应用于输入图像以获得类预测。然后,我们计算类预测相对于模型最终卷积层中特征图的梯度。最后,我们对特征图进行上采样,并对输入图像应用加权和,其中权重由梯度决定。生成的类激活图突出显示了输入图像中对类预测最重要的区域。

image

生成模型中激活图的解释

https://github.com/pandaypr/Interpretation-of-Activation-Maps-in-Generative-Models

生成模型中激活图的解释
最近在基于CNN的架构上的可解释人工智能和计算机视觉领域的工作提高了深度学习模型的可解释性,并有助于可视化模型的预言。像CAM,Grad-CAM和引导Grad-CAM这样的方法已经证明了局部视觉注意力在分类和分类应用中的实用性。然而,对生成模型的研究并不多。在我们的工作中,我们在CelebA-HQ数据集上训练的VAE和CVAE模型上实现了Grad-CAM技术,并计算了神经注意力图。该项目的目的是构建能够生成可控人脸的生成模型并构建人脸的语义分割,然后通过应用可解释的人工智能技术(如Grad-CAM)并分析改变模型架构、损失函数、潜在空间大小的影响,研究提高可解释性的方法。此外,我们通过修改潜在节点变量来研究模型的潜在空间信息。

WeightWatcher 权重观察者

https://github.com/CalculatedContent/WeightWatcher
WeightWatcher (WW) 是一种开源诊断工具,用于分析深度神经网络 (DNN),无需访问训练甚至测试数据。它基于对深度学习为什么有效的理论研究,基于我们的重尾自正则化理论(HT-SR)。它使用随机矩阵理论(RMT),统计力学和强相关系统的想法。

它可用于:

分析预先训练/训练的pyTorch,Keras,DNN模型(Conv2D和Dense layers)
监视模型和模型层,以查看它们是否过度训练或过度参数化
预测不同模型的测试精度,无论有没有训练数据
在压缩或微调预训练模型时检测潜在问题
层警告标签:过度训练;训练不足

多重曝光组合权重图

https://github.com/kbmajeed/exposure_fusion

曝光融合
介绍
曝光融合是一种从一组多重曝光图像中创建具有最佳细节的单个图像的技术。正如Tom Mertens等人所开发的那样,所提出的算法计算了相关的质量度量;对比度、饱和度和曝光良好。然后将这些测量组合在一起以创建一个权重图,用于将每个多重曝光图像混合到具有最佳曝光的单个图像中。

描述
正如Tom Mertens[1]所开发的那样,曝光融合算法计算相关的图像质量测量;对比度、饱和度和曝光良好。然后将这些测量组合在一起以创建一个权重图,用于将每个多重曝光图像混合到具有最佳曝光的单个图像中。在摄影过程中寻找最佳曝光设置时,对曝光融合的需求增加。由于这需要掌握曝光三角形,这很困难,需要权衡,并且对于某些场景完全不切实际,因此已经开发了诸如高动态测距(HDR)和曝光融合之类的技术来获得理想的最终图像。然而,与HDR不同的是,曝光融合不需要计算相机响应曲线或色调映射。

image

image

image

创建大型语言模型 (LLM) 的过程

https://github.com/alexandreganz/BART-Fine-Tuning-Reddit-Questions

推荐系统-IMDB
该存储库详细解释了创建大型语言模型 (LLM) 的过程以及如何使用最先进的过程执行其验证。由于涉及的参数数量众多,该模型使用丹麦技术大学的高性能计算进行训练。

image

用例
用例摘要:

该项目的目标是使用检索生成器管道生成复杂问题的长格式答案。检索器基于 BM25,发生器是双向自回归变压器 (BART)。这些模型在subreddits AskScience,AskHistorians和Eli5上进行了微调。BART-eli5 在 Eli5 subreddit 上表现最好,并且还为专门的 subreddit 提供了相关答案。强调了深度学习在长篇问答中的潜力。项目期间使用的代码可在 Github 上找到。
客观陈述:

了解如何优化已在训练中的模型 (BART)。
评估所提供答案的质量。
了解处理响应请求所涉及的体系结构。
挑战:

庞大的数据库(来自三个不同数据库的500,000多个问题以及维基百科的全部内容)。
三个子Reddits之间的问题和答案之间缺乏标准化,使得标准化处理变得困难。
答案和问题有偏差的可能性,导致最终用户的结果不积极。
方法/分析技术:

胭脂指标(1、2 和 L)
TF-IDF
用于开放域问答的密集段落检索
F1 比分
整体
文本屏蔽
预期成果:

一种经过调整的模型,可从涉及一般知识、科学或历史的问题中生成答案。

加权线性系综

https://github.com/ReneFabricius/weighted_ensembles
加权线性系综
加权线性集成是一种基于类对成对概率和成对耦合的加权组合的多类分类集成算法。它能够组合可变数量的多类概率分类器,在同一组类中产生概率分类。这种集成方法采用多个可训练的线性分类器模型来组合来自不同集成成分的成对概率,因此需要训练。

算法说明
加权线性集成训练和预测阶段可以用下图描述。

image

增强型LM-权重混合器

https://github.com/Digitous/Enhanced-LM-Mixer

增强型LM混合器
这是一个基于LostRuin工作的修改语言模型权重和合并脚本。增强功能包括将运行模型所需的文件副本迁移到新模型文件夹,以及增强的控制台输出。需要 GUI 环境,因为 tkinter 将弹出对话框,提示输入第一个模型、第二个模型和新模型所需的文件夹。其他参数可以直接在 python 脚本中修改,因为它具有友好的注释来指导混合参数中的任何所需差异。默认值为 50/50 合并、在 fp32 中操作和在 fp16 中输出模型。

感谢 LostRuin 最初的权重和合并脚本:https://github.com/LostRuins

权重阿戈斯蒂克神经网络

https://github.com/mehrdadzakershahrak/Weight-Agnostic-Neural-Network

权重阿戈斯蒂克神经网络
概述
该项目包括两个类的实现,DRL(深度强化学习)和WAN(与权重无关的神经网络),以及三个主要功能:drl,WAN和TPJ。

DRL 类 DRL 是一门用于深度强化学习的课程。它使用 PyTorch 创建神经网络,并包括各种用于探索、记住状态转换以及根据内存缓冲区中的转换更新网络权重的方法。

WAN 类 WAN 代表 与重量无关的神经网络。它使用共享权重值进行初始化。网络的体系结构在构造函数中定义,具有一定数量的隐藏节点、输入节点和输出节点。它还包括最初设置为零的权重向量和偏差。该类包含用于设置权重、调整权重、应用各种激活函数以及计算给定输入的输出的方法。

主要功能
drl 函数 drl 函数使用 DRL 对象来模拟超过 1000 个纪元的环境(在本例中为“CartPole”环境)。

wan 函数 wan 函数使用共享权重值为 -1.5 的 WAN 对象模拟“CartPoleSwingUpEnv”环境。它迭代超过 20 个纪元,在第 10 个纪元之后,它会调整 WAN 中的权重。

tpj 函数 tpj 函数当前是一个占位符。评论表明,该函数旨在为神经网络实现某种进化算法,包括初始化种群、评估和排名网络以及从性能最佳的网络创建新网络的步骤。此功能尚未实现。

在 NLP 模型中可视化注意力

https://github.com/jessevig/bertviz

在 NLP 模型中可视化注意力
快速浏览入门Colab 教程论文
BertViz是一个交互式工具,用于在BERT,GPT2或T5等Transformer语言模型中可视化注意力。它可以通过支持大多数Huggingface模型的简单Python API在Jupyter或Colab笔记本中运行。BertViz扩展了Llion JonesTensor2Tensor可视化工具,提供了多个视图,每个视图都为注意力机制提供了一个独特的视角。

image

基于MR多孔空间因子的加权MRI合成

https://github.com/QiuSH12/Weighted-syn

基于MR多孔空间因子的加权MRI合成
该存储库包含论文的源代码(深度学习部分):使用深度学习从MR多任务空间因子直接合成多对比脑MR图像。https://doi.org/10.1002/mrm.29715

在这项工作中,开发了一种深度学习方法,从MR多任务空间因子合成大脑中的传统对比加权图像。

MR多任务处理是一种具有代表性的方法,能够在单次扫描中获取多参数图(例如,T1,T2,T1rho等),具有在短时间内提供多样化信息的巨大潜力。使用所提出的深度学习方法,可以从单个MR多任务扫描中获得定量参数图和多对比度加权图像,而无需额外的加权MRI采集时间成本。

image

聚类和分类无监督 ML 算法 - 激活图的可视化

https://github.com/SteliosTsop/WHA_Clustering_Classification_Visualization

聚类和分类无监督 ML 算法 - 激活图的可视化
该存储库介绍了为开源出版物开发的计算机算法:“分形研究中的无监督机器学习:评估和解释”

该存储库的主要目标是提供无监督 ML 数据管道,以便根据钨成分对 WHA 样品的 SEM 断裂图像进行聚类和分类。此外,为了解释这些算法的功能并更好地了解实现算法有效性的内部操作,开发了另一种算法,该算法根据它们在数据管道上的重要性可视化最后一个卷积层的激活图。

用于评估所引入算法性能的数据集由尺寸为448 x 448的810张SEM断裂图像组成。扫描5个不同WHA伟华样品的断裂表面后获得SEM图像,钨成分为:90wt%,92wt%,95wt%,97wt%和99wt%。

整个WHA伟华数据集和相应的活化图发布在材料数据设施(MDF)中,DOI:https://doi.org/10.18126/aph0-olbz

聚类和分类算法的源代码建立在Andrew Kitaharaneu_vgg16发布的代码之上。

image

image

image

加权深度监督

https://github.com/resemin/WeightedDeepSupervision

加权深度监督
这是医学人工智能修订版的原型代码

我们计划在进一步修改后重新上传代码

代码由。

gen_texture.py:从图像生成纹理贴图
gen_groundtruth.py:从纹理和伪GT生成地面实况贴图
gen_wwm.py:根据地面事实生成加权皱纹图
train_wrinkle_wds.py:使用加权深度监督训练皱纹分割模型
train_retinal_agnet.py:使用加权深度监督训练视网膜血管分割模型
train_retinal_agnet_aspp.py:使用加权深度监督和ASPP训练视网膜血管分割模型
inference_wrinkle.py:从人脸图像推断皱纹
inference_retinal_vessel.py:从视网膜图像推断血管

用于持续学习的正则化自适应权重修正(RAWM)

https://github.com/Cecile-hi/Regularized-Adaptive-Weight-Modification

罗姆
我们很高兴地宣布,我们的论文题为“你还记得吗?克服假音频检测的灾难性遗忘“已被第 40 届机器学习国际会议 (ICML 2023) 接受。
用于持续学习的正则化自适应权重修正(RAWM)方法的官方项目

介绍
我们提出了一种持续学习算法来克服灾难性遗忘,称为正则化自适应权重修正(RAWM)。当在特定任务(如假音频检测)上微调神经网络时,我们的方法会根据真实话语和虚假话语的比例自适应地计算权重修改的方向。自适应修改方向确保网络能够有效地检测新数据集上的假音频,同时保留其对旧模型的知识,从而减轻灾难性遗忘。此外,从完全不同的声学条件下收集的真实音频可能会扭曲其特征分布,因此我们引入了正则化约束,以迫使网络在这方面记住旧的分布。我们的方法可以很容易地推广到相关领域,比如图像识别。

image

混合精度训练权重

https://github.com/suvojit-0x55aa/mixed-precision-pytorch

混合精度训练
在 PyTorch 中
在半精度的 FP16 中进行训练会导致在支持半精度操作的 nVidia 卡中进行训练速度稍快。此外,模型权重的内存要求几乎减半,因为我们使用 16 位格式而不是 32 位格式来存储权重。

尽管半精度训练有其自身的警告。半精度训练中遇到的问题是:

重量更新不精确
渐变下溢
减少溢出

权重归一化

https://github.com/openai/weightnorm
权重归一化
此存储库包含权重规范化的示例代码,如以下文章中所述:

权重归一化:加速深度神经网络训练的简单重新参数化,作者:Tim Salimans和Diederik P. Kingma。

文件夹 'lasagne' 包含使用 Theano 的 Lasagne 包的代码。该代码用于运行论文中的CIFAR-10实验。
文件夹“tensorflow”包含一个 nn.py 文件,其中包含从我们的PixelCNN++存储库复制的直接实现。
文件夹“keras”包含用于 Keras 包的示例代码。

权重迁移

https://github.com/hassony2/kinetics_i3d_pytorch

从 Tensorflow 转移到 PyTorch 的 I3D 模型
此存储库包含几个脚本,这些脚本允许从论文 Quo Vadis, Action Recognition?Joao Carreira和Andrew Zisserman给PyTorch的新模型和动力学数据集。

原始的(和官方的!)张量流代码可以在这里找到。

转移的核心是剧本i3d_tf_to_pt.py

启动它以生成从 ImageNet 膨胀初始化预训练的 rgb 检查点权重。python i3d_tf_to_pt.py --rgb

要生成流量权重,请使用 。python i3d_tf_to_pt.py --flow

您还可以通过同时使用两个标志在一次运行中生成两者。python i3d_tf_to_pt.py --rgb --flow

请注意,主版本需要 PyTorch 0.3,因为它依赖于此最新版本中包含的最近添加的 ConstantPad3d。

如果您想使用 pytorch 0.2,请查看分支 pytorch-02,其中包含一个简化的模型,所有侧面都有均匀的填充(以及相应的 pytorch 重量检查点)。不同之处在于,在张量流中填充的“SAME”选项允许它不均匀地填充维度的两侧,这种效果在主分支上重现。

这个更简单的模型在演示示例中生成的分数更接近原始张量流模型,并且速度也更快一些。

演示

具有特征选择 (WPFS) 的权重预测器网络

https://github.com/andreimargeloiu/WPFS

具有特征选择 (WPFS) 的权重预测器网络
Arxiv-Paper Video presentation Poster License: MIT Python 3.7+

论文的官方代码 具有小样本表格生物医学数据特征选择的权重预测器网络在 AAAI 人工智能会议上接受 2023

作者:Andrei MargeloiuNikola SimidjievskiPietro LioMateja Jamnik

博士:WPFS 是一个通用框架,用于通过减少可学习参数的数量和执行全局特征选择,从高维和小样本数据中学习神经网络。除了预测变量网络之外,WPFS 还组合了两个小型辅助网络:输出第一层权重矩阵的权重预测器网络,以及用作正则化附加机制的特征选择网络。

image

轻量级的韩语模型

https://github.com/BM-K/KoMiniLM
科米尼LM
当前的语言模型通常由数亿个参数组成,由于延迟和容量限制,这给实际应用程序中的微调和在线服务带来了挑战。在这个项目中,我们发布了一个轻量级的韩语模型,以解决现有语言模型的上述缺点。

随机权重平均法 (SWA)

https://github.com/timgaripov/swa
随机权重平均法 (SWA)
此存储库包含论文中针对 DNN 的随机权重平均 (SWA) 训练方法的 PyTorch 实现

平均权重可带来更宽的最优值和更好的泛化

作者:帕维尔·伊兹麦洛夫、德米特里·波多普里欣、帖木儿·加里波夫、德米特里·维特罗夫和安德鲁·戈登·威尔逊。

注意:截至 2020 年 8 月,SWA 现在是 PyTorch 库中的核心优化器,任何拥有 PyTorch 的人都可以立即使用,而无需外部存储库,就像 SGD 或 Adam 一样。请参阅这篇介绍原生 PyTorch 实现的博客文章和示例。

介绍
SWA 是一种简单的 DNN 训练方法,可用作 SGD 的直接替代品,具有改进的泛化、更快的收敛速度,并且基本上没有开销。SWA的关键**是使用修改后的学习率时间表对SGD产生的多个样本进行平均。我们使用恒定或周期性学习率计划,使 SGD 探索权重空间中与高性能网络对应的点集。我们观察到SWA比SGD收敛得更优值,可提供更高的测试精度。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.