随着人工智能的迅猛发展,我们正置身于第四次工业革命的浪潮中。在这个数字化的时代,网络安全成为各行业至关重要的议题。作为网络安全从业人员,不仅需要熟练掌握传统安全领域的知识,更需要深刻理解和运用人工智能,以在风云变幻的网络战场中保护信息资产。人工智能不仅为网络安全提供了创新性的解决方案,同时也成为潜在的攻击目标。防御者需要利用先进的AI技术,如机器学习和深度学习,来检测和应对日益复杂的威胁。同时,保障AI本身的安全性也尤为关键,防范对模型的攻击和滥用。下面梳理了一些专业术语。
1.人工智能(AI)
通俗来讲,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,人工智能是先“人工”后“智能”。人工智能行业有句话:有多少智能,背后就有多少人工。人工智能是新的工业革命,谁掌握了人工智能,谁就掌握了未来。
2.人工智能五大核心技术
主要包括计算机视觉、机器学习、自然语言处理、机器人和语音识别。
3.人工智能三个阶段
总体来说,人工智能分为计算智能、感知智能及认知智能三个阶段。计算智能就是数据运算和统计;感知智能就是视觉、触觉、声音等元素的探测和感知,对元素的识别与分类;认知智能就是对获取信息的理解、推理和决策,具备人类的基本思考认知能力。
4.人工智能三大学派
符号主义学派关注使用符号和规则来表示知识和推理。该学派认为智能是通过符号处理和逻辑推理来实现的。代表性的系统包括专家系统,它使用规则库进行推理。
连接主义学派强调模仿人脑神经网络的工作方式。这种学派使用神经网络和分布式表示进行学习,强调从数据中提取模式和特征。深度学习就是连接主义学派的一部分,特别是基于深度神经网络的方法。
演化主义学派受到达尔文进化论的启发,认为智能是通过演化和遗传机制逐步发展的。遗传算法和进化算法是演化主义学派的代表性方法,它们用于在搜索空间中找到适应于特定任务的解决方案。
5.人工智能的三个核心要素
算法:借鉴人类的思考方式,算法是核心中的核心。是以哲学、数学、生物学、心理学、音乐学、神学、玄学等为基础的思维逻辑和系统顶层认知的智慧结晶。
数据:用于训练的数据,有标注好的数据和未标注的数据。
算力:计算机的处理能力。
没有合适的算法,理论上就不能解决问题;没有大量的数据,就无法训练模型;没有高性能的计算机(算力),训练速度就会非常缓慢。
6.算力需要的XPU
CPU:Central Processing Unit, 中央处理器
GPU:Graphics Processing Unit, 图像处理器
TPU:Tensor Processing Unit, 张量处理器
DPU:Deep learning Processing Unit, 深度学习处理器
NPU:Neural network Processing Unit, 神经网络处理器
BPU:Brain Processing Unit, 大脑处理器
7.数据标注
通过对数据贴标签、做记号、标颜色或划重点等方式,标注出其中目标数据的不同点、相似点或类别,以此达到让机器学习的功能。AI算法需要通过数据训练不断完善,而数据标注是大部分AI算法得以有效运行的关键环节。
8.机器学习(ML)
机器学习是通过机器模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
9.深度学习(DL)
利用深度神经网络来解决特征表达的一种学习过程,类似人类通过大脑层层思考问题,由一个知识综合多个知识/结果进行层层推理思考,最终得出正确/错误的决策或知识去执行。
10.自然语言处理(NLP)
对人类语言的处理,生成结构化可定义的语言数据,比如句型、语法等。
11.自然语言理解(NLU)
计算机能够理解和生成人类语言,和人一样能轻松沟通交流。
12.语音识别(ASR)
将人类的语音中的词汇内容转换为计算机可读的输入。
13.语音合成(TTS)
计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语言输出的技术。
14.计算机视觉(CV)
计算机从图像中识别出物体、场景和活动的能力,类似于人类日常生活中的视觉交互。
15.神经网络(CNN)
神经网络是一种计算模型,灵感来自于人脑的神经系统结构。它由神经元和层级结构组成,每个神经元与其他神经元相连,通过学习权重来处理输入数据。神经网络可以进行监督学习、无监督学习和强化学习,广泛用于机器学习任务。深度神经网络(Deep Neural Networks,DNN)是神经网络的一种变体,具有多个层次和复杂的结构,特别适用于处理大规模、高维度的数据,如图像识别、语音识别和自然语言处理。神经网络在各个领域取得了显著成就,推动了人工智能领域的发展。
16.人工智能、机器学习、深度学习三者之间的关系
机器学习是人工智能的一个实现途径,深度学习是机器学习的一种实现方法。
17.监督学习
监督学习是机器学习中分类方法的一种,将样本数据和预期结果建立关联关系,通过对已知的结果和已知的样本数据进行的不断学习和训练,不断调整优化特征提取方法,提取样本数据的特征值和预期结果形成映射关系。对于新数据,借助样本数据的特征提取方法,提取新数据的特征值,对新的数据进行结果的预测。
18.无监督学习
无监督学习就是不需要对样本数据进行结果标注,数据获取成本低,不需要人工标记数据,主要是分析和发现数据的内在结构,数据本身的自有特征,进行归纳和分类。无监督学习整体上分为聚类和降维两大类。
19.半监督学习
半监督学习是监督学习和无监督学习相互结合的一种学习方法。通过有标签数据辅助训练无标签数据,无标签数据辅助训练出有标签数据,将有标签数据和无标签数据通过两种方法进行不同维度的学习来提升单一方法的效果。
20.迁移学习
迁移学习是一种机器学习的方法,指的是一个预训练的模型被重新用在另一个任务中,起到举一反三的作用,将部分知识或模型应用到其它任务中,它并不是某一类特定的算法,而是一种处理问题的思想。
21.联邦学习
联邦学习是一种分布式机器学习技术,通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据数据隐私保护和数据共享计算的平衡。例如手机输入法在不同终端根据用户本地数据训练模型。
22.强化学习
强化学习是一种机器学习的方法,是一种理解和自动化目标导向学习和决策的计算方法,它强调个体通过与环境的直接交互来学习,而不需要监督或完整的环境模型。类似于在学习过程中,自律性强的学生设定自己的目标和奖励,达成某个阶段目标和奖励,再不断自我提高目标和奖励标准,通过这种强化学习的方式不断提升学习效果。
23.训练集
训练集是用于机器学习模型训练的数据集合,类似于课堂或课后作业。它包含了模型用于学习和调整参数的样本数据,其中每个样本都有对应的输入特征和目标标签。通过在训练集上进行迭代训练,模型能够学到数据中的模式和关系,以适应任务的要求。训练集的质量和多样性对模型的性能至关重要,因为模型的泛化能力取决于其对训练集中不同情境和模式的学习程度。在训练完成后,模型可以用于对新的未见数据进行预测和分类。
24.验证集
验证集是用于评估机器学习模型性能的数据集合,类似于课后小测验。它通常是从原始数据中独立划分出来的,不参与模型的训练过程。验证集用于调整模型的超参数,评估模型在未见过的数据上的泛化能力,以及检测模型是否存在过拟合或欠拟合。通过在训练过程中定期使用验证集进行性能评估,可以更好地调整模型,以提高其在未知数据上的预测准确性。验证集在模型开发和调优过程中扮演重要角色,有助于选择最佳模型和参数配置。
25.测试集
测试集是用于最终评估机器学习模型性能的独立数据集,类似于期中期末考试。与训练集和验证集不同,测试集在整个模型开发和调优过程中都未被用于训练或调整模型。测试集的目的是模拟模型面对实际应用中未见过的新数据时的表现。通过在测试集上进行评估,可以更准确地估计模型的泛化性能,并判断模型是否能够在真实场景中有效地进行预测或分类。测试集评估结果有助于确认模型的可靠性,并提供对模型在实际使用中的期望性能的信心。
26.过拟合
过拟合是指机器学习模型在训练数据上表现良好,但在未见过的测试数据上表现不佳的现象。当模型过于复杂,以至于记住了训练数据中的噪声和细节,而不是学到了数据的通用模式时,就容易发生过拟合。过拟合的模型在新数据上的泛化能力差,因为它过于适应了训练数据的特定特征,而无法推广到其他数据。为防止过拟合,可以采用一些方法,如增加训练数据量、使用正则化技术、降低模型复杂度或采用早停等策略,以确保模型更好地适应整体数据分布而非仅仅记住训练数据的细节。
27.欠拟合
欠拟合是指机器学习模型无法在训练数据上学到足够的信息,导致其在训练和测试数据上都表现不佳的情况。通常发生在模型过于简单或特征提取能力不足的情况下。欠拟合的模型未能捕捉到数据的复杂结构和关系,导致无法有效地进行预测或分类。为克服欠拟合,可以尝试增加模型复杂度、添加更多特征、调整模型架构或使用更复杂的算法,以使模型能够更好地适应训练数据并提高泛化性能。
28.生成对抗网络
生成对抗网络(GAN)是一种深度学习架构,由生成器和判别器组成。生成器负责从随机噪声生成逼真的数据样本,而判别器则试图区分生成的样本和真实数据。两者通过对抗训练相互提升性能,使生成器生成的样本越来越难以与真实数据区分。GAN在图像生成、风格迁移等领域取得了成功,能够生成逼真的图像和内容。然而,训练过程可能面临挑战,如训练不稳定性。GAN的创新在于通过对抗学习实现了高质量的生成,具有广泛的应用潜力。
29.精确度
精确度是用于评估分类模型性能的指标,表示模型正确预测的样本数量占总样本数量的比例。计算方法为正确预测的样本数除以总样本数,得到一个介于0和1之间的值。精确度越高,模型对样本的分类准确性越好。然而,当类别不平衡时,精确度可能不是一个全面的评估指标,因为它不考虑假正例和假负例。在某些情况下,需结合其他指标如召回率、F1分数等来更全面地评估模型性能。
30.召回率
召回率是用于评估分类模型性能的指标,表示模型成功预测为正类别的样本数量占实际正类别样本总数的比例。计算方法为正确预测的正类别样本数除以实际正类别样本总数,得到一个介于0和1之间的值。召回率衡量了模型对正类别样本的覆盖程度,即模型能够识别出多少真正的正例。在一些应用场景中,召回率比精确度更为重要,尤其是在关注遗漏正例的情境中,如医学诊断或欺诈检测。
31.F1值
F1值是综合考虑精确度(Precision)和召回率(Recall)的评估指标,用于评估分类模型性能。F1值是这两者的调和平均,计算方法为2 * (Precision * Recall) / (Precision + Recall)。F1值的范围在0和1之间,取决于精确度和召回率的平衡。它对于解决类别不平衡的问题特别有用,因为它在两者之间取得平衡。当模型需要在精确性和覆盖率之间做出权衡时,F1值提供了一个综合的评估指标,对于评估模型在各个类别上的整体性能更具意义。
32.AIGC
AIGC指利用人工智能技术生成文字、图像、音频、视频等内容的方法。这涵盖了各种生成式人工智能模型,如文本生成模型、图像生成模型(如GAN),语音合成等。AIGC在创造性内容生成、艺术创作、自动化媒体制作等方面具有广泛的应用潜力,为各种领域带来创新和便利。