智源大会2023观后感:对AI更有信心,也更担心人类了
北京大学人工智能研究院助理教授杨耀东:大语言模型的安全性对齐进展综述
注:北京大学人工智能研究院助理教授杨耀东做的《大语言模型的安全性对齐》演讲很精彩,首先中文演讲能听懂,其次他用了非常通俗易懂的语言解释了目前大语言模型安全对齐的主要研究进展,提纲挈领,在深度上超过很多讲RLHF进展的内容。
因为不懂详细的技术,只能大概理解原理,记录一些有意思的点:
OpenAI提出的3种Align的方式:
训练AI使用人类反馈
训练AI协助人类评估
训练AI做对齐研究
AI大模型对齐市场仍是蓝海:
现有大模型除GPT以外,几乎都没有成功实现任何意义上的对齐
大模型通用到专用的转变技术,将是大模型发展的下一个制高点
3种对齐安全的方式:
在预训练阶段,通过人工筛选和数据清洗,获取更高质量的数据
在输出阶段使用奖励模型进行 reject sampling,提高输出质量和安全性。或者在上线的产品中,拒绝回应用户的输入。
在微调 (SFT 和 BLHF) 阶段,增加更加多元且无害的用户指令和人类偏好模型进行对齐,包括RBRM、Constitutional Al。
从RLHF到RLAIF:Constitutional AI
[上一篇]2023年什么话题最热?哪些AI岗位在
[下一篇]相对于传统游戏,集成NFT的游戏具
恋爱类游戏一向深受广大玩家的喜爱。这类游戏拥有精美的画面品质,人物角色设计的立绘漂亮美观,形象也十分生动迷人,玩家可以去往不同场景区域进行游玩,小编特意为玩家们梳理了最精彩、最全、最新的恋爱游戏,感兴趣就来试试吧。
联机手机丧尸类游戏一向深受广大玩家的喜爱。这类游戏可以和好友们一同合作暴揍僵尸,获得胜利,这才是真正的快乐王道,小编特意为玩家们梳理了最精彩、最全、最新的联机手机丧尸游戏,感兴趣就来试试吧。
- 币种
- 全球指数(¥)
- 24H涨幅12
-
BTC460449.926062
$65674.420000+0.10% -
ETH18737.865860
$2672.600000+0.19% -
USDT7.012032
$1.000133+0.00% -
USDC7.008997
$0.999700-0.01% -
BNB4208.763330
$600.300000-1.11% -
BUSD7.013203
$1.000300-0.02% -
XRP4.238210
$0.604500+2.70% -
ADA2.776396
$0.396000-2.96% -
SOL1092.259269
$155.790000-1.58% -
DOGE0.854162
$0.121830-1.97% -
DOT33.716380
$4.809000-2.17% -
DAI7.143610
$1.018900-0.02% -
TRX1.081112
$0.154200-0.05% -
SHIB0.000137
$0.000020+1.37% -
AVAX205.775785
$29.350000-1.43% -
WBTC459243.666307
$65502.370000+0.33% -
LEO40.682539
$5.802590-0.35% -
MATIC2.660011
$0.379400-2.75% -
UNI52.744505
$7.523000+1.90% -
FTT9.951555
$1.419400-0.24% -
LTC491.968887
$70.170000+1.64% -
CRO0.607487
$0.086646-0.35% -
LINK87.849083
$12.530000-2.12% -
XLM0.699708
$0.099800+0.58% -
NEAR37.930051
$5.410000-5.01% -
ATOM35.104578
$5.007000-3.58% -
XMR832.217570
$118.700000-1.96% -
ALGO0.992772
$0.141600-3.11% -
ETC142.605774
$20.340000-1.59% -
BCH2457.390550
$350.500000-3.14% -
VET0.182499
$0.026030-2.34% -
FLOW4.297804
$0.613000-3.55% -
ICP68.708780
$9.800000+1.89%