第01课 Bensz AI办公实用教程

主讲：Bensz Conan
日期：2026-02-07

绪论：从零开始的AI生产力革命

人工智能（Artificial Intelligence，AI）正在重塑工作方式，但大多数人还停留在"听说过"的阶段。本教程将从零开始，带你了解如何用AI真正提升办公效率。

为什么需要这个教程

痛点分析

想用AI但不知道从哪里开始
技术术语太多，看不懂
ChatBot用起来很累，复制粘贴很烦
看别人用AI效率翻倍，自己还在手动搬砖

目标受众

AI入门者：对AI好奇但不知从何开始的普通人
文字工作者：教师、医生、律师、学生、研究人员
效率追求者：希望用AI提升工作质量的职场人士
非技术人员：不想学编程，但希望用自然语言指挥AI

非目标受众

AI专业人士：已经熟练掌握各种AI工具和技术的从业者
算法研究者：希望深入研究神经网络、Transformer等底层原理的技术人员
纯理论学习者：只想了解AI发展历史，不关心实际应用
编程教程寻求者：本课程不教授编程语言，而是教你如何用自然语言指挥AI
对编程完全排斥者：如果你连"尝试新工具"的兴趣都没有，AI很难帮到你

课程概览

模块	内容	价值
AI发展历史	从1940s到2025的演进脉络	建立认知框架
AI办公硬件	Mac vs Windows的选择	工具选型决策
环境部署	Vibe Coding工具链搭建	从零到可用
环境使用	GitHub + VSCode实践	高效工作流
Agent Skills	可复用技能包生态	扩展能力边界
实战系列	7大应用场景深度解析	即学即用

本节课的博客教程

AI发展历史

从感知机到AGI的曙光

时期	阶段名称	关键事件/技术
1940s-1980s	奠基期	感知机、反向传播、卷积神经网络（Convolutional Neural Network，CNN）
1990s-2010s	早期探索	LSTM、ImageNet、AlexNet、Word2Vec、残差网络（ResNet）
2017	转折点	Transformer诞生
2018-2020	生成式预训练变换器（Generative Pre-trained Transformer，GPT）时代	GPT-2、GPT-3、Scaling Laws
2022	ChatGPT时刻	AI走进大众视野
2023-2024	百家争鸣	Claude、Gemini、开源浪潮
2025-2026	智能体时代	Vibe Coding、Agent Skills

奠基期：神经网络的前夜（1940s-1980s）

1943年：Warren McCulloch & Walter Pitts提出人工神经元数学模型，开创"连接主义"研究方向
1957年：Frank Rosenblatt发明感知机算法，第一个可以从数据中学习的神经网络
1969年：Marvin Minsky证明单层感知机无法解决异或（Exclusive OR，XOR）问题，导致第一次AI寒冬
1986年：David Rumelhart、Geoffrey Hinton在Nature发表反向传播论文，解决多层网络训练难题（2024年 Hopfield和Hinton获得诺贝尔物理学奖，肯定神经网络基础工作）

早期探索：从统计模型到神经网络（1990s-2010s）

1997年：Sepp Hochreiter & Jürgen Schmidhuber发明LSTM，通过"门控机制"解决RNN的梯度消失问题（但仍有长距离依赖局限）
2009年：李飞飞（Fei-Fei Li）团队发布ImageNet数据集，包含1400万张标注图像、2.2万个类别
2012年：AlexNet在ImageNet竞赛中以压倒性优势夺冠，深度学习正式复兴
2013年：Tomas Mikolov在Google发布Word2Vec，语义相似的词在向量空间中距离更近（如"国王" - "男人" + "女人" = "女王"）
2015年：何恺明（Kaiming He）等提出残差网络（Residual Network，ResNet），通过"跳跃连接"解决深层网络训练难题，在ImageNet竞赛中夺冠

转折点：Transformer的诞生（2017）

作者：Ashish Vaswani等八位作者（Google Brain）
核心创新：自注意力机制（Self-Attention）
革命性突破：抛弃RNN的循环结构，可以并行处理整个序列
影响：为后来超大模型的训练提供了技术可行性

两个方向分道扬镳

2018年 BERT：双向编码器表示（Bidirectional Encoder Representations from Transformers），擅长理解任务（分类、问答）
2018年 GPT：单向解码器，擅长生成任务（写作、对话）

GPT时代：从理解到生成的跨越（2018-2020）

GPT-2（2019）：参数量15亿，生成能力之强让OpenAI最初拒绝发布完整版本
GPT-3（2020）：参数量1750亿，Scaling Laws揭示模型规模协同增长的可预测性提升
Few-shot Learning：从"死记硬背"到"举一反三"

ChatGPT时刻：AI走进大众视野（2022）

2022年11月30日：OpenAI发布基于GPT-3.5的ChatGPT
产品形态：对话式交互，让每个人都能使用
人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）对齐：通过人类偏好数据让AI更"听话"
GPT-4（2023年3月）：引入图像输入、多模态能力、专业考试表现突出

百家争鸣：Claude、Gemini与开源浪潮（2023-2024）

Claude系列：前OpenAI员工创立，宪法式AI（Constitutional AI），超长上下文窗口（100K-200K token）
Gemini系列：Google出品，原生多模态模型，从底层架构强调多模态信息融合
DeepSeek突破：中国团队推出的MoE（混合专家）架构模型，以极低训练成本达到顶尖性能，推动行业成本革命
开源浪潮：Llama系列（Meta）、Mistral系列（欧洲）、中国力量（文心一言、通义千问、GLM）

智能体时代：从对话到行动（2025-2026）

Vibe Coding兴起：通过与AI对话来描述需求，由AI在真实环境中生成和修改代码、执行任务
MCP协议普及：模型上下文协议（Model Context Protocol，MCP）成为行业标准，让不同工具能被AI统一调用
Agent Skills成熟：可复用技能包生态形成，让AI能力可以模块化组合
角色转变：程序员从"代码编写者"转变为"需求描述者"和"代码审查者"

Vibe Coding：下一代AI范式

ChatBot的局限

上下文窗口限制：即使是最新的Claude Sonnet 4（1M token）也总有边界
任务复杂度瓶颈：ChatBot擅长"对话"，但不擅长"做事"
与工作流的割裂：ChatBot是"孤岛"，需要手动复制结果到编辑器、终端、笔记软件
缺乏状态和记忆：对你的工作环境、项目结构、个人习惯一无所知
无法执行复杂多步任务：只能给你指令，但无法真正执行它们

什么是Vibe Coding？

核心定义：用户不再直接编写每一行代码或手动执行每一个操作，而是通过与AI的对话来描述需求，由AI在真实环境中生成和修改代码、执行任务

"Vibe"的含义：强调"感觉"、"直觉"、"氛围"——让AI理解你的意图，然后帮你实现，像在"指挥AI助手"而不是"写代码"

ChatBot vs Vibe Coding

维度	ChatBot	Vibe Coding
交互焦点	对话	任务执行
工作环境	隔离的网页/App	与开发环境深度集成
任务复杂度	单步或简单多步	复杂多步任务、跨文件操作
状态感知	无	完全感知项目状态
执行能力	仅生成文本	读写文件、执行命令、调用工具

ChatBot是"聊天的工具"，Vibe Coding是"做事的工具"

Vibe Coding里程碑工具

Cursor：AI原生编辑器，基于VS Code fork，Tab键自动补全、Cmd+K快速编辑、多文件编辑
Claude Code：Anthropic官方命令行界面（Command Line Interface，CLI）工具，与项目深度集成、Agent Skills开发体验极佳、全程母语对话
OpenAI Codex：OpenAI的代码生成模型，支持多种编程语言，为GitHub Copilot提供底层能力

Agent Skills：可复用的技能包

核心概念：把AI的能力封装成可复用、可组合的"技能包"

关键优势：可复用性（一个Skill可在多个项目中复用）、可组合性（多个Skills可组合完成复杂任务）、专业性（每个Skill都在某个领域"深耕"）、可维护性（模块化架构让长期维护成为可能）

举例："文献精读"Skill专门读医学论文，提取实验设计、统计方法、主要结论；"代码审查"Skill按照项目规范检查代码质量；"文档生成"Skill自动生成技术文档

Vibe Coding的优势与局限

优势：适合个人开发上手（降低门槛，人人都能开发）、小项目和demo的完美工具（从想法到原型只需几小时）、扩展个人能力边界（站在AI的肩膀上触及更远的地方）、最好的创意工具（即时反馈的体验激发更多创造力）

局限：大型项目的可靠性存疑（AI生成的代码可能缺乏全局架构一致性）、可能加速项目的"腐化"（缺乏严格架构设计、代码审查、测试覆盖）、人类难以维护（AI生成的代码可能很"AI风格"，逻辑复杂难懂）、数据泄露风险（代码、想法、项目结构可能被上传到云端服务器）

后续课程预告

硬件选择：为什么Mac更适合AI办公

核心优势：Unix环境、M系列芯片高效能、原生终端体验、AI工具优先支持macOS

后续课程将详细讲解：Mac vs Windows对比、硬件配置推荐、性价比分析

环境部署：从零到可用

核心内容：VSCode + Git + AI工具链配置

后续课程将详细讲解：软件安装步骤、API密钥配置、环境变量设置、Agent Skills生态

环境使用：GitHub与VSCode实践

核心内容：版本控制基础、高效工作流、插件管理

后续课程将详细讲解：Git常用命令、VSCode高效技巧、项目组织最佳实践

Agent Skills：可复用的技能包生态

核心概念：把AI能力封装成可复用、可组合的"技能包"

后续课程将详细讲解：如何发现Skills、如何使用Skills、如何开发自定义Skills

实战系列：7大应用场景

核心场景：日常学习、开发小应用、通俗写作、严肃写作、PPT制作、数据分析

后续课程将详细讲解：每个场景的完整工作流、最佳实践、常见问题解决

联系方式

博客：https://blognas.hwb0307.com
GitHub：github.com/huangwb8

持续更新

本教程系列将持续更新，涵盖更多实战场景和高级技巧。欢迎关注我的博客获取最新内容！

让我们一起开启AI办公的新时代！