日报&周刊合集 | 生产力工具与行业应用大全 |点赞关注评论拜托啦!
AI生成图片著作权侵权第一案判了!这个案件与你我都有关
原告李某使用AI生成涉案图片后发布于小红书平台;被告刘某在百家好发文配图时使用了原告该AI生成的图片,并截掉了署名水印。原告起诉要求被告道歉并进行经济赔偿。
这个案件被称为「AI生成图片相关领域著作权第一案」,自3月份以来一直备受关注。「AI生成的图片是否受到著作权法的保护」这个问题,其实与我们息息相关,比如如何规范创作和引用行为避免侵权等。
近日,北京互联网法院作出一审判决,认为涉案人工智能生成图片 (AI绘画图片) 具备「独创性」要件,体现了人的独创性智力投入,应当被认定为作品,受到著作权法保护等。
北互的这份判决书中,详细说明了使用AI生成的图片具备智力成果、独创性等要件,应当被认定为作品和美术作品,受到著作权法保护,确定被告就被诉侵权行为向原告赔偿经济损失 500 元,并在平台创作账号向原告道歉以消除影响 ⋙ 阅读完整判决书
阿里首届「通义千问AI挑战赛」开赛!参赛者畅玩通义开源模型家族
12月1日,阿里云和 NVIDIA 英伟达联合主办的首届「通义千问AI挑战赛」开赛啦!参赛者报名参赛就可以免费畅玩通义开源模型家族 (包括刚刚发布的 720 亿参数模型 Qwen-72B)。
本次比赛分为「Agent Builder创意挑战赛道」和「Code Qwen能力算法赛道」两大赛道,为参赛者们提供了价值 50 万元的免费云上算力和丰厚奖金。
https://tianchi.aliyun.com/competition/entrance/532168
Agent Builder 创意挑战赛道鼓励开发者基于通义千问大模型和魔搭社区的 Agent-Builder 框架开发新一代AI应用,促进大模型在各行各业的落地应用。12月1日启动报名,12月1日-12月20日线上提交作品,12月26日进行复赛 (线上答辩)。
https://tianchi.aliyun.com/competition/entrance/532169
Code Qwen 能力算法赛道聚焦通义千问大模型的微调训练,希望通过高质量的数据探索开源模型的代码能力上限。12月1日启动报名,12月5日-12月18日进行初赛,12月20日-12月28日进行复赛 ⋙ 了解更多
LLM Visualization:大语言模型的运行原理的3D可视化
https://bbycroft.net/llm
开发者 Brendan Bycroft 在社交媒体X发布了「大模型工作原理3D可视化项目 – LLM Visualization」。如图所示,页面展示了 GPT-2(smal)、nano-gpt、GPT-2(XL)、GPT-3 大模型的架构,并以 nano-gpt 为例展示了运行单个标记推理的所有步骤。
左侧结构图展示了完整的推理过程,只需要点击 <
和 >
按钮,就可以查看上一步或下一步。左侧结构图的对应步骤会凸出显示,右侧也将展示模型对应位置和完成的工作:
Embedding
Layer Norm
Self Attention
Projection
MLP (multi-layer perceptron)
Transformer
Softmax
Output
而缩放右侧演示屏幕就可以看到,拥有 85,584 个参数的 nano-gpt 只是一个小点,与 174,591,676,416 参数量的 GPT-3 模型完全不可同日而语,更别说更大参数量的 GPT-4 等模型了。这也让我们更直观地感受到,为什么说「大模型是大力出奇迹」。
让算法「动起来」:可以动态演示算法原理的交互网站
https://algorithm-visualizer.org
https://github.com/algorithm-visualizer/algorithms
Algorithm Visualizer 是一个交互式的在线平台,将多种算法的原理和运行步骤进行了可视化展示。只需要选中算法并点击右上角「play」按钮,就可以看到算法的运行过程,深度探索比理解各种算法。
网站支持 C++、Java、JavaScript 等多种编程语言,并且覆盖了8大类共63种算法。简单整理如下,感兴趣可以在浏览器中打开页面并进行探索:
Backtracking (回溯算法)
Branch and Bound (分支定界算法)
Brute Force (暴力算法)
Divide and Conquer (分治算法)
Dynamic Programming (动态规划算法)
Greedy (贪心算法)
Simple Recursive (简单递归算法)
Uncategorized (未分类算法)
微软首席科学家: GPT-4 + Medprompt > GPT-4 + fine-tuning
微软官方博客发布了首席科学家 Eric Horvitz 的一项最新研究:在相同的基准上,利用提示词工程就能让 GPT-4 的性能明显优于专门针对医疗领域进行微调的领先模型,并且结论具有泛化性。
Medprompt 是一个多组件、组合使用的提示策略,可以高效地激发大型语言模型的专业能力,是一个值得探索的有效途径。
Medprompt 让 GPT-4 在著名的 MedQA 医学考题数据集上首次突破 90% 的准确率,并在全部9个医学挑战题基准测试中都取得了最高的成绩。相比之下,即使进行了大量专业医学数据的微调,先进的 MedPaLM 2 模型在同样的测试中也无法与其相比。
也就是说,综合几种提示策略 (也就是 Medprompt),就能有效地从通用基础模型中唤起特定领域的专业知识,这适用于医学、电气工程、机器学习、哲学、会计、法律等多个领域。
大模型主流应用RAG的介绍:从架构到技术细节
https://luxiangdong.com/2023/09/25/ragone
RAG 最初是为了解决 LLM 各类问题 (幻觉问题、新鲜度问题、数据安全问题等) 而产生的。简单来说,RAG (Retrieval Augmented Generation) 是一种「检索增强生成」技术,它能先对现有数据或文档进行检索,然后再交给大语言模型进行答案的最终生成。
但在应用过程中,企业发现自己要的是一个更好的搜索,根本不关心它是不是大模型。而相比于仅依赖大语言模型生成答案,RAG 能产出更准确可靠的结果,也解决了数据新鲜度等问题。
因此,RAG 成为解决企业需求痛点的更好方案,并快速成为基于大语言模型应用的新宠。它不仅能取代传统的 FAQ 问答系统,还能够成为智能客服、知识库问答、智能写作等很多应用的中间件,应用前景非常广阔。
日报选择了这篇 RAG 入门科普文,介绍了RAG 整体架构、数据处理流程、核心技术等。下图是核心知识点的思维导图,感兴趣可以阅读原文~
AI一年,人间十年:那些已经达成的共识
https://www.xiaoyuzhoufm.com/episode/65698c770500be931c46128e
2022年11月30日是 OpenAI 正式发布 ChatGPT 的日子。过去的一整年,似乎整个世界都在谈论AI。那么折腾了一年之后,到底新一波的AI浪潮带来了什么变化?什么公司?做了什么事情?拿到了什么里程碑?
庄明浩是一位风险投资人,他的这期播客用22分钟的时间,带你回顾过去一年的关键发展节点,共同思考当下的发展状况和困惑,并分享了他个人的一些「暴论」:
00:43 共识中的共识
01:02 四个章节
01:18 有头有脸的公司都在做
01:49 晚点文章 – 久违的一把手工程
02:36 做大模型的大厂们
03:11已经独角兽估值的初创大模型公司
04:25监管
05:15 灵魂提问:还要做大模型吗?
07:05 百度CEO李彦宏的观点
07:27 多次提及过的“ACT 2”
08:23 所有应用都值得用AI重构一遍
09:18 重构的第一责任人是谁?
10:03 美国的AI应用生态
11:03 那些关键词
11:28 卷无可卷的视觉方向
12:30 国内生态呢?
12:58 通过文心创业大赛的获奖项目“管中窥豹”
14:21 苟且之后的远方呢?
16:53 应用层的总结
17:53 三个有意思的说法
21:16 真正的暴论
ShowMeAI知识星球资源编码:R196
按照惯例,他制作并分享了播客内容对应的PPT,日报仅展示一些关键页面。整份PPT要点很多,可以对照着播客边听边看~ enjoy~
ICML 2023: Tutorial on MultiModal Machine Learning
ShowMeAI知识星球资源编码:R197
这是 CMU 两位学者在 ICML 2023 的分享,主题是「Tutorial on MultiModal Machine Learning (多模态机器学习)」,内容是关于多模态机器学习的基础知识和前沿进展。整份报告共120页,包含以下主要内容,感兴趣可以下载完整报告:
- 什么是多模态 (Multimodal)
模态 (Modality):感知或表达的方式
多模态 (Multimodal) 指利用多个模态 (Modalities) 的信息
- 多模态的核心技术挑战 (Challenges)
表示 (Representation)
对齐 (Alignment)
迁移 (Transference)
生成 (Generation)
量化 (Quantification)
推理 (Reasoning)
- 表示 (Representation) 的子挑战
融合 (Fusion):学习联合表示,建模模态间的交互
协调 (Coordination):学习上下文化的表示,通过交互进行协调
裂变 (Fission):学习反映交互和聚类的数据表示
- 对齐 (Alignment) 的子挑战
提出上下文化表示 (Contextualized Representations) 的定义
介绍联合、交叉对齐和利用结构的表示学习方法
- 未来的研究方向 (Future Directions)
高维度 (High-modality):处理更多模态,参数共享
异质性 (Heterogeneity):理论研究模态间的交互
长时序 (Long-term):构建具有组合性的记忆
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!
◉ 点击 日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!