BERT学习笔记

bert 论文阅读

  • 一、模型结构

    • 是一个多层的双向transformer encoder
    • 注意这里tranformer模型输入的是embedding后的词向量
  • 二、输入编码

    • 可以编码一个单句或一串单句
    • Token Embedding

      • 每个词被表示成一个768维的向量 CLS表示开始符号 SEP表示结束符号

        ![]()

        这里使用WordPiece tokenization的原因是这种表示方法使Bert只需要存储很少的词汇,并且很少遇到未登陆词

    • Segment Embedding

      • 用于区分句子的表示 比如哪些单词属于句子1 那些单词属于句子2

        ![]()

    • Position Embedding

      • 和transformer中的一样 目的在于区分句子中词的位置关系

        I think, therefore I am

        第一个I和第二个I应该有不同的向量表示

      • bert中的最大句子长度是512 所以Position Embedding layer 是一个size为(512,768)的lookup table
      • 不同句子同样的位置,位置编码是一样的
    • 联合表示

      • 很简单 就是将三部分的represention对应的元素相加 形成一个(1, n, 768)的表示
  • 三、预训练任务(目标函数)

    • 论文不使用传统的从左到右或从右到左的语言模型来预训练BERT。相反,使用两个新的无监督预测任务对BERT进行预训练。
    • 任务1: Masked LM 遮蔽语言模型
      • 只计算mark位置的损失
    • 任务2:下一句预测

声明:该文章系转载,转载该文章的目的在于更广泛的传递信息,并不代表本网站赞同其观点,文章内容仅供参考。

本站是一个个人学习和交流平台,网站上部分文章为网站管理员和网友从相关媒体转载而来,并不用于任何商业目的,内容为作者个人观点, 并不代表本网站赞同其观点和对其真实性负责。

我们已经尽可能的对作者和来源进行了通告,但是可能由于能力有限或疏忽,导致作者和来源有误,亦可能您并不期望您的作品在我们的网站上发布。我们为这些问题向您致歉,如果您在我站上发现此类问题,请及时联系我们,我们将根据您的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。