第01课 Bensz AI办公实用教程

    • 主讲:Bensz Conan
    • 日期:2026-02-07

    绪论:从零开始的AI生产力革命

    人工智能(Artificial Intelligence,AI)正在重塑工作方式,但大多数人还停留在"听说过"的阶段。本教程将从零开始,带你了解如何用AI真正提升办公效率。

    目录

    1. 为什么需要这个教程

    2. AI发展历史回顾

    3. Vibe Coding:下一代AI范式

    4. 后续课程预告(硬件选择、环境部署、实战应用)

    为什么需要这个教程

    痛点分析

    • 想用AI但不知道从哪里开始
    • 技术术语太多,看不懂
    • ChatBot用起来很累,复制粘贴很烦
    • 看别人用AI效率翻倍,自己还在手动搬砖

    目标受众

    • AI入门者:对AI好奇但不知从何开始的普通人
    • 文字工作者:教师、医生、律师、学生、研究人员
    • 效率追求者:希望用AI提升工作质量的职场人士
    • 非技术人员:不想学编程,但希望用自然语言指挥AI

    非目标受众

    • AI专业人士:已经熟练掌握各种AI工具和技术的从业者
    • 算法研究者:希望深入研究神经网络、Transformer等底层原理的技术人员
    • 纯理论学习者:只想了解AI发展历史,不关心实际应用
    • 编程教程寻求者:本课程不教授编程语言,而是教你如何用自然语言指挥AI
    • 对编程完全排斥者:如果你连"尝试新工具"的兴趣都没有,AI很难帮到你

    课程概览

    模块内容价值
    AI发展历史从1940s到2025的演进脉络建立认知框架
    AI办公硬件Mac vs Windows的选择工具选型决策
    环境部署Vibe Coding工具链搭建从零到可用
    环境使用GitHub + VSCode实践高效工作流
    Agent Skills可复用技能包生态扩展能力边界
    实战系列7大应用场景深度解析即学即用

    本节课的博客教程

    • AI入门系列 介绍大语言模型 - Bensz
    • AI入门系列 如何使用大语言模型? - Bensz

    AI发展历史

    从感知机到AGI的曙光

    时期阶段名称关键事件/技术
    1940s-1980s奠基期感知机、反向传播、卷积神经网络(Convolutional Neural Network,CNN)
    1990s-2010s早期探索LSTM、ImageNet、AlexNet、Word2Vec、残差网络(ResNet)
    2017转折点Transformer诞生
    2018-2020生成式预训练变换器(Generative Pre-trained Transformer,GPT)时代GPT-2、GPT-3、Scaling Laws
    2022ChatGPT时刻AI走进大众视野
    2023-2024百家争鸣Claude、Gemini、开源浪潮
    2025-2026智能体时代Vibe Coding、Agent Skills

    奠基期:神经网络的前夜(1940s-1980s)

    • 1943年:Warren McCulloch & Walter Pitts提出人工神经元数学模型,开创"连接主义"研究方向
    • 1957年:Frank Rosenblatt发明感知机算法,第一个可以从数据中学习的神经网络
    • 1969年:Marvin Minsky证明单层感知机无法解决异或(Exclusive OR,XOR)问题,导致第一次AI寒冬
    • 1986年:David Rumelhart、Geoffrey Hinton在Nature发表反向传播论文,解决多层网络训练难题(2024年 Hopfield和Hinton获得诺贝尔物理学奖,肯定神经网络基础工作)

    早期探索:从统计模型到神经网络(1990s-2010s)

    • 1997年:Sepp Hochreiter & Jürgen Schmidhuber发明LSTM,通过"门控机制"解决RNN的梯度消失问题(但仍有长距离依赖局限)
    • 2009年:李飞飞(Fei-Fei Li)团队发布ImageNet数据集,包含1400万张标注图像、2.2万个类别
    • 2012年:AlexNet在ImageNet竞赛中以压倒性优势夺冠,深度学习正式复兴
    • 2013年:Tomas Mikolov在Google发布Word2Vec,语义相似的词在向量空间中距离更近(如"国王" - "男人" + "女人" = "女王")
    • 2015年:何恺明(Kaiming He)等提出残差网络(Residual Network,ResNet),通过"跳跃连接"解决深层网络训练难题,在ImageNet竞赛中夺冠

    转折点:Transformer的诞生(2017)

    • 作者:Ashish Vaswani等八位作者(Google Brain)
    • 核心创新:自注意力机制(Self-Attention)
    • 革命性突破:抛弃RNN的循环结构,可以并行处理整个序列
    • 影响:为后来超大模型的训练提供了技术可行性

    两个方向分道扬镳

    • 2018年 BERT:双向编码器表示(Bidirectional Encoder Representations from Transformers),擅长理解任务(分类、问答)
    • 2018年 GPT:单向解码器,擅长生成任务(写作、对话)

    GPT时代:从理解到生成的跨越(2018-2020)

    • GPT-2(2019):参数量15亿,生成能力之强让OpenAI最初拒绝发布完整版本
    • GPT-3(2020):参数量1750亿,Scaling Laws揭示模型规模协同增长的可预测性提升
    • Few-shot Learning:从"死记硬背"到"举一反三"

    ChatGPT时刻:AI走进大众视野(2022)

    • 2022年11月30日:OpenAI发布基于GPT-3.5的ChatGPT
    • 产品形态:对话式交互,让每个人都能使用
    • 人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)对齐:通过人类偏好数据让AI更"听话"
    • GPT-4(2023年3月):引入图像输入、多模态能力、专业考试表现突出

    百家争鸣:Claude、Gemini与开源浪潮(2023-2024)

    • Claude系列:前OpenAI员工创立,宪法式AI(Constitutional AI),超长上下文窗口(100K-200K token)
    • Gemini系列:Google出品,原生多模态模型,从底层架构强调多模态信息融合
    • DeepSeek突破:中国团队推出的MoE(混合专家)架构模型,以极低训练成本达到顶尖性能,推动行业成本革命
    • 开源浪潮:Llama系列(Meta)、Mistral系列(欧洲)、中国力量(文心一言、通义千问、GLM)

    智能体时代:从对话到行动(2025-2026)

    • Vibe Coding兴起:通过与AI对话来描述需求,由AI在真实环境中生成和修改代码、执行任务
    • MCP协议普及:模型上下文协议(Model Context Protocol,MCP)成为行业标准,让不同工具能被AI统一调用
    • Agent Skills成熟:可复用技能包生态形成,让AI能力可以模块化组合
    • 角色转变:程序员从"代码编写者"转变为"需求描述者"和"代码审查者"

    Vibe Coding:下一代AI范式

    ChatBot的局限

    • 上下文窗口限制:即使是最新的Claude Sonnet 4(1M token)也总有边界
    • 任务复杂度瓶颈:ChatBot擅长"对话",但不擅长"做事"
    • 与工作流的割裂:ChatBot是"孤岛",需要手动复制结果到编辑器、终端、笔记软件
    • 缺乏状态和记忆:对你的工作环境、项目结构、个人习惯一无所知
    • 无法执行复杂多步任务:只能给你指令,但无法真正执行它们

    什么是Vibe Coding?

    核心定义:用户不再直接编写每一行代码或手动执行每一个操作,而是通过与AI的对话来描述需求,由AI在真实环境中生成和修改代码、执行任务

    "Vibe"的含义:强调"感觉"、"直觉"、"氛围"——让AI理解你的意图,然后帮你实现,像在"指挥AI助手"而不是"写代码"

    ChatBot vs Vibe Coding

    维度ChatBotVibe Coding
    交互焦点对话任务执行
    工作环境隔离的网页/App与开发环境深度集成
    任务复杂度单步或简单多步复杂多步任务、跨文件操作
    状态感知无完全感知项目状态
    执行能力仅生成文本读写文件、执行命令、调用工具

    ChatBot是"聊天的工具",Vibe Coding是"做事的工具"

    Vibe Coding里程碑工具

    • Cursor:AI原生编辑器,基于VS Code fork,Tab键自动补全、Cmd+K快速编辑、多文件编辑
    • Claude Code:Anthropic官方命令行界面(Command Line Interface,CLI)工具,与项目深度集成、Agent Skills开发体验极佳、全程母语对话
    • OpenAI Codex:OpenAI的代码生成模型,支持多种编程语言,为GitHub Copilot提供底层能力

    Agent Skills:可复用的技能包

    核心概念:把AI的能力封装成可复用、可组合的"技能包"

    关键优势:可复用性(一个Skill可在多个项目中复用)、可组合性(多个Skills可组合完成复杂任务)、专业性(每个Skill都在某个领域"深耕")、可维护性(模块化架构让长期维护成为可能)

    举例:"文献精读"Skill专门读医学论文,提取实验设计、统计方法、主要结论;"代码审查"Skill按照项目规范检查代码质量;"文档生成"Skill自动生成技术文档

    Vibe Coding的优势与局限

    优势:适合个人开发上手(降低门槛,人人都能开发)、小项目和demo的完美工具(从想法到原型只需几小时)、扩展个人能力边界(站在AI的肩膀上触及更远的地方)、最好的创意工具(即时反馈的体验激发更多创造力)

    局限:大型项目的可靠性存疑(AI生成的代码可能缺乏全局架构一致性)、可能加速项目的"腐化"(缺乏严格架构设计、代码审查、测试覆盖)、人类难以维护(AI生成的代码可能很"AI风格",逻辑复杂难懂)、数据泄露风险(代码、想法、项目结构可能被上传到云端服务器)

    后续课程预告

    硬件选择:为什么Mac更适合AI办公

    核心优势:Unix环境、M系列芯片高效能、原生终端体验、AI工具优先支持macOS

    后续课程将详细讲解:Mac vs Windows对比、硬件配置推荐、性价比分析

    环境部署:从零到可用

    核心内容:VSCode + Git + AI工具链配置

    后续课程将详细讲解:软件安装步骤、API密钥配置、环境变量设置、Agent Skills生态

    环境使用:GitHub与VSCode实践

    核心内容:版本控制基础、高效工作流、插件管理

    后续课程将详细讲解:Git常用命令、VSCode高效技巧、项目组织最佳实践

    Agent Skills:可复用的技能包生态

    核心概念:把AI能力封装成可复用、可组合的"技能包"

    后续课程将详细讲解:如何发现Skills、如何使用Skills、如何开发自定义Skills

    实战系列:7大应用场景

    核心场景:日常学习、开发小应用、通俗写作、严肃写作、PPT制作、数据分析

    后续课程将详细讲解:每个场景的完整工作流、最佳实践、常见问题解决

    联系方式

    • 博客:https://blognas.hwb0307.com
    • GitHub:github.com/huangwb8

    持续更新

    本教程系列将持续更新,涵盖更多实战场景和高级技巧。欢迎关注我的博客获取最新内容!

    让我们一起开启AI办公的新时代!

    单位 Logo