大语言模型安全:构建安全的AI应用

大语言模型安全:构建安全的AI应用

本书以“体系化、实战性、前瞻性”填补空白,既是企业规避数据泄露、法律纠纷的 “安全手册”,更是AI时代把握创新与风险平衡的“战略蓝图”,堪称所有LLM相关从业者的典籍。

弘德价
64.78
79.00
配送至
有货,
  • 不支持七天无理由退货
弘德网图书城
店铺评分

商品评价 0
发货速度 0
售后服务 0
  • 热销商品
  • 热门关注
  • 商品介绍
  • 商品评价
  • 商品编号 001008713

内容简介

    大语言模型(LLM)不仅在塑造人工智能的发展轨迹,还揭开了一个安全挑战新纪元。本书将带你直面这些威胁的核心。作者Steve Wilson是“OWASP大语言模型应用十大安全风险”项目的负责人,他着重阐述了在使用大语言模型开发软件时必须应对的独特特征与漏洞。
这本面向开 发者和安全团队的手册提供了真实场景下的指导和切实可行的策略,助力你应对大语言模型应用相关的问题。无论你是在设计新应用,还是为现有应用增添人工智能功能,本书都是你掌握人工智能下一个前沿领域安全态势的必备资源。
通过阅读本书,你将学到:
·大语言模型为何会带来独特的安全挑战。
·如何应对与使用大语言模型技术相关的风险。
·与大语言模型相关的威胁态势以及必须坚守的关键信任边界。
·部署防御措施以抵御针对主要漏洞的攻击的方法。
·改进软件开发流程以确保构建安全可靠的人工智能应用的途径。

目录

    前言1
第1章 聊天机器人之殇9
1.1 让我们谈谈Tay9
1.2 Tay的光速堕落10
1.3 为什么Tay会失控11
1.4 这是一个棘手的问题13
第2章 OWASP大语言模型应用十大安全风险15
2.1 关于OWASP16
2.2 大语言模型应用十大风险项目17
2.2.1 项目执行17
2.2.2 反响18
2.2.3 成功的关键19
2.3 本书与十大风险榜单20
第3章 架构与信任边界22
3.1 人工智能、神经网络和大语言模型:三者有何区别22
3.2 Transformer革命:起源、影响及其与LLM的关系23
3.2.1 Transformer的起源24
3.2.2 Transformer架构对AI的影响24
3.3 基于大语言模型的应用类型26
3.4 大语言模型应用架构27
3.4.1 信任边界29
3.4.2 模型30
3.4.3 用户交互32
3.4.4 训练数据32
3.4.5 访问实时外部数据源33
3.4.6 访问内部服务35
3.5 结论35
第4章 提示词注入36
4.1 提示词注入攻击案例37
4.1.1 强势诱导37
4.1.2 反向心理学38
4.1.3 误导39
4.1.4 通用和自动化对抗性提示40
4.2 提示词注入的影响40
4.3 直接与间接提示词注入42
4.3.1 直接提示词注入42
4.3.2 间接提示词注入43
4.3.3 关键差异43
4.4 缓解提示词注入风险44
4.4.1 速率限制44
4.4.2 基于规则的输入过滤45
4.4.3 使用专用大语言模型进行过滤46
4.4.4 添加提示结构46
4.4.5 对抗性训练48
4.4.6 悲观信任边界定义49
4.5 结论50
第5章 你的大语言模型是否知道得太多了52
5.1 现实世界中的案例52
5.1.1 Lee Luda案例53
5.1.2 GitHub Copilot和OpenAI的Codex54
5.2 知识获取方法56
5.3 模型训练56
5.3.1 基础模型训练57
5.3.2 基础模型的安全考虑58
5.3.3 模型微调58
5.3.4 训练风险59
5.4 检索增强生成61
5.4.1 直接网络访问62
5.4.2 访问数据库66
5.5 从用户交互中学习71
5.6 结论72
第6章 语言模型会做电子羊的梦吗74
6.1 为什么大语言模型会产生幻觉75
6.2 幻觉的类型76
6.3 实例分析76
6.3.1 虚构的法律先例77
6.3.2 航空公司聊天机器人诉讼案78
6.3.3 无意的人格诋毁79
6.3.4 开源包幻觉现象81
6.4 谁该负责82
6.5 缓解最佳实践83
6.5.1 扩展领域特定知识83
6.5.2 思维链推理:提高准确性的新路径85
6.5.3 反馈循环:用户输入在降低风险中的作用86
6.5.4 明确传达预期用途和局限性88
6.5.5 用户教育:以知识赋能用户89
6.6 结论91
第7章 不要相信任何人92
7.1 零信任解码93
7.2 为什么要如此偏执94
7.3 为大模型实施零信任架构95
7.3.1 警惕过度授权96
7.3.2 确保输出处理的安全性99
7.4 构建输出过滤器102
7.4.1 使用正则表达式查找个人信息102
……


好评度
0%
  • 全部评价
  • 晒图
  • 追评
  • 好评
  • 中评
  • 差评