FastText 算法原理及使用方法

文章目录

  • 1. 前言
  • 2. 模型架构
    • 2.1 Hierarchical Softmax
    • 2.2 n-gram 特征
  • 3. 训练及评估
  • 4. 使用
  • 5. 参考


1. 前言

FastText 是一个由 Facebook AI Research 在2016年开源的文本分类器,它的设计旨在保持高分类准确度的同时,显著提升训练和预测的速度。

论文:《Enriching Word Vectors with Subword Information》

github 源码:FastText

常见的文本分类算法:《常用的文本分类算法概览》

2. 模型架构

FastText 的模型架构与 word2vec 中的连续词袋模型(CBOW)相似,但其任务是分类而不是生成词向量。它包括以下组成部分:

(1)输入层:接收文本数据,通常是将文本转化为词序列或者词袋表示。
(2)隐藏层:对输入数据进行变换,通常涉及词向量的查找或计算。
(3)输出层:使用层次 softmax 或其他技术来预测文本所属的类别

如下图:
在这里插入图片描述
其中,上图仅仅表示有1个隐藏层的情况, w 1 , . . . , w n w_1,...,w_n w1,...,wn 表示句子中的每一个词的词嵌入向量。

2.1 Hierarchical Softmax

当目标类别数量很大时,计算线性分类器花费的计算成本高昂。为了提高运行效率,FastText 使用了基于 Huffman 树的层次化 softmax。在训练时,计算复杂度降低到 O(d log2(K)),其中 d 是隐藏层的维度,K 是目标类别的数量。

Hierarchical Softmax 讲解参考这里

2.2 n-gram 特征

词袋模型对词序不变,但考虑词序可以提高性能。FastText 使用 n-gram 作为额外特征来捕获局部词序信息,这样做既高效又能达到与显式使用词序的方法相当的性能。

3. 训练及评估

根据论文内容:
训练:FastText 的训练类似于 word2vec,使用随机梯度下降(SGD)和反向传播,学习率线性衰减。模型异步在多个 CPU 上进行训练。

模型性能:FastText 在多个数据集上的性能与基于深度学习的方法相当,同时在训练和评估上快几个数量级。

效率:FastText 能够在标准多核 CPU 上,在不到十分钟的时间内训练超过十亿个单词,并且在不到一分钟内对五十万个句子进行分类。

实验
在这里插入图片描述

4. 使用

python 安装 fasttext

pip install fasttext

python 训练

def train(train_dataset_path: str, test_dataset_path: str, model_path: str):
    model = fasttext.train_supervised(train_dataset_path)
    model.save_model(model_path)
    print(model.test(test_dataset_path))

train_supervised() 是一个用于训练监督学习模型的函数,通常用于文本分类任务,参数:

    input             # training file path (required)
    lr                # learning rate [0.1]
    dim               # size of word vectors [100]
    ws                # size of the context window [5]
    epoch             # number of epochs [5]
    minCount          # minimal number of word occurences [1]
    minCountLabel     # minimal number of label occurences [1]
    minn              # min length of char ngram [0]
    maxn              # max length of char ngram [0]
    neg               # number of negatives sampled [5]
    wordNgrams        # max length of word ngram [1]
    loss              # loss function {ns, hs, softmax, ova} [softmax]
    bucket            # number of buckets [2000000]
    thread            # number of threads [number of cpus]
    lrUpdateRate      # change the rate of updates for the learning rate [100]
    t                 # sampling threshold [0.0001]
    label             # label prefix ['__label__']
    verbose           # verbose [2]
    pretrainedVectors # pretrained word vectors (.vec file) for supervised learning []

下面介绍主要参数:

  1. input: 输入数据文件的路径或者文件对象。输入文件应该是一个包含训练样本的文本文件,每一行代表一个样本,样本由文本内容和标签组成,二者之间用制表符或空格分隔。

  2. lr (float, optional): 学习率(learning rate),用于控制模型参数更新的步长,默认为 0.1。

  3. epoch (int, optional): 迭代次数,即训练过程中整个训练数据集被遍历的次数,默认为 5。

  4. wordNgrams (int, optional): 用于构建 n-gram 特征的窗口大小,通常用于捕捉词序信息,默认为 1,表示只考虑单个词的特征。

  5. dim (int, optional): 词向量的维度,默认为 100。较高的维度可能会导致更丰富的特征表示,但也会增加模型的复杂度和训练时间。

  6. loss (str, optional): 损失函数,用于优化模型参数。可选值包括 “hs”(hierarchical softmax)和 “ns”(negative sampling),默认为 “softmax”。

  7. thread (int, optional): 用于并行训练的线程数,默认为 12。增加线程数可以加快训练速度,但也会增加计算资源的消耗。

  8. label_prefix (str, optional): 标签的前缀,默认为 __label__。用于标识样本的类别。

  9. pretrained_vectors (str, optional): 预训练的词向量文件的路径,用于初始化模型参数。如果提供了预训练的词向量,则模型会在训练开始时加载这些向量,并根据需要微调。

  10. verbose (int, optional): 控制训练过程中的输出信息的详细程度。默认为 2,表示输出训练进度和性能指标。

训练的数据格式:

__label__0 第一种是在上下文中选定多个词汇作为输入,选定一个单词作为输出
__label__1 将每个词的one-hot编码与哈夫曼编码计算出来。

其中 __label__ 为前缀,可以在参数 label_prefix 修改,0、1是所属的类别。

5. 参考

《Enriching Word Vectors with Subword Information》

欢迎关注本人,我是喜欢搞事的程序猿;一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/603302.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

https证书免费申请

https证书也称SSL证书或是TLS证书,主要是用于网站实现https加密访问。 1、工作原理:HTTPS证书在HTTP协议基础上加入了SSL/TLS协议层,实现数据的加密传输。当用户访问启用HTTPS的网站时,浏览器会与网站服务器建立一个安全连接。这个…

C++:继承-继承权限

在C中,类的权限分为公有、私有和保护三种。这些权限控制了类的成员(数据成员和成员函数)对外部代码的可见性和访问性。 公有(public)权限: 在公有权限下声明的成员可以被类的外部代码直接访问;公…

STM32、GD32驱动PCA9685控制舵机源码分享

一、PCA9685介绍 PCA9685是一种16通道PWM(脉宽调制)控制器芯片,由NXP Semiconductors公司生产。它具有高速I2C总线接口,可以通过I2C总线与微控制器或其他设备进行通信。PCA9685广泛应用于各种需要精确控制多路PWM信号的应用&…

一种利用MPLS实现IPv4网络向IPv6网络过度的技术

前言 6PE(IPv6 Provider Edge)是一种利用MPLS((Multi-Protocol Label Switching),实现IPv4网络向IPv6网络过渡的技术。6PE技术能够使得多个IPv6孤岛网络采用MPLS LSP隧道,跨越IPv4 MPLS骨干网相互进行通信…

碳课堂|如何开展碳排放核算? ISO 14064-2 项目层次要点解读

为提高企业组织碳排放报告信誉度,国际标准化组织(ISO)发布了ISO14064标准,其中《ISO 14064-2 项目层次上对温室气体减排和清除增加的量化、监测和报告的规范及指南》提供了项目策划阶段的原则要求,以及项目实施阶段的量…

VBA中类的解读及应用第十二讲:限制复选选择(上)

《VBA中类的解读及应用》教程【10165646】是我推出的第五套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。 类,是非常抽象的,更具研究的价值。随着我们学习、应用VBA的深入&#xff0…

Mybatis Plus二级缓存 使用@CacheNamespace 失效@CacheNamespace和@CacheNamespaceRef

1、注解 CacheNamespace(flushInterval 100000,eviction LruCache.class,readWrite false,size 1024)2、xml配置 <cache eviction "LRU" flushInterval "100000" readOnly "true" size "1024"/> 二级缓存&#xff0c;配置文…

基础设施即代码——灵活构建具备弹性和可扩展性的基础设施

本书的初衷是帮助大家更好地编写基础设施即代码(Infrastructure as Code&#xff0c;IaC)&#xff0c;并且能够在不影响关键业务系统的情况下&#xff0c;稳定高效地变更基础设施资源。本书重点介绍了个人、团队或公司在基础设施系统中应用的模式与实践&#xff0c;聚焦能够应用…

【C++】——内存管理

&#x1f600;&#x1f600;前言 好久没更新了&#xff0c;五一小长假&#xff0c;有点玩脱了&#xff0c;今天赶紧补一篇博客&#xff0c;回回状态 一 c/c内存分配 下面看下面一段代码 #define _CRT_SECURE_NO_WARNINGS 1 #include<iostream> using namespace std; i…

华为eNSP中型企业局域网网络规划设计(上)

敲半天一个闪退全™给我干没了呜呜呜&#xff0c;eNSP&#xff0c;wcnm&#xff01;wcnm&#xff01;wcnm&#xff01; →b站传送门&#xff0c;感谢大佬← →华为eNSP中型企业局域网网络规划设计&#xff08;下&#xff09;← →拓扑图传送门&#xff0c;可以自己配置着玩←…

抖音小店怎么运营?最全的运营攻略来了?

大家好&#xff0c;我是电商糖果 很多开好店铺的小伙伴&#xff0c;都会遇到一个难题&#xff0c;那就是不会运营店铺。 可能好几个月才出十几单&#xff0c;甚至体验分都没有弄出来。 说实话&#xff0c;这种情况糖果见多了。 糖果做抖音小店也有四年多了&#xff0c;也开…

【全开源】Java淘宝客多商户系统APP源码任务聚合优惠券多商户源码

功能特点&#xff1a; 商户管理&#xff1a;支持多商户入驻&#xff0c;包括商户的注册、审核、信息维护等功能。同时&#xff0c;系统可以对商户进行分类、排序和搜索&#xff0c;方便管理。全行业覆盖√ miui52086商品管理&#xff1a;提供商品发布、编辑、上下架等功能&…

PMP考试没过怎么办?如何补考?(附复核流程)

最近刷小红书&#xff0c;看很多人都在晒PMP通过的成绩截图&#xff0c;一方面为大家开心&#xff0c;终于拿到了期盼已久的PMP&#xff0c;但同时也有宝子发挥失常没通过考试&#xff0c;所以这期针对没考过的宝子们&#xff0c;出一期复盘文章&#xff0c;无论结果如何&#…

QT4-升级到QT5(1)

1.C报错汇总_nafxcwd.lib error lnk2001-CSDN博客1 1.QT3Support QWidget::setShown 改为QWidget::setVisible 2.头文件 #include<QWidget> 3.部分函数替换

印章常见问题如何防?君子签电子印章实现管章、用章、控章一体化

企业公章管理和使用关乎企业经营&#xff0c;近年来&#xff0c;各类印章问题层出不穷&#xff1a;“通过PS、图片章伪造授权、合同等文件”、“冒充公司员工利用假身份、假印章签约”、“管理层私刻印章伪造业务材料”等常见假印章套路&#xff0c;让企业防不胜防&#xff0c;…

内网渗透(二)

预备知识 什么是域&#xff1f; 域是若干台计算机组成的集合&#xff0c;一个电脑也是。域中的电脑是分等级的&#xff0c;分为域控和成员机。 如何安装域&#xff1f; 在服务器管理中添加服务器角色&#xff0c;添加域服务 如何加入域? 首先一定要修改DNS服务器 ip为域…

解密某游戏的数据加密

前言 最近有个兄弟通过我的视频号加我&#xff0c;咨询能否将这个dubo游戏游戏开始前就将数据拿到从而进行押注&#xff0c;于是通过抓包工具测试了下&#xff0c;发现数据有时候是明文&#xff0c;有时候确实密文&#xff0c;大致看了下有这几种加密&#xff1a;Md5aes、Md5&a…

squeeze的用法

squeeze是压缩张量的命令 import torch a torch.randn(1,3) print(a) print(a.shape) 比如说squeeze&#xff08;&#xff1f;&#xff09;括号里是啥 就是在哪个维度上删除维度为1 之后的结果 比如上上面那个里子 a是&#xff08;[[]]&#xff09; 但是在下面那个例子中d…

软胶囊弹性检测:确保药品质量与患者安全的关键步骤

软胶囊弹性检测&#xff1a;确保药品质量与患者安全的关键步骤 在医药领域&#xff0c;软胶囊作为一种常见的药物载体&#xff0c;其质量的优劣直接关系到药物的有效性和患者的安全。软胶囊的弹性作为其质量评估的重要指标之一&#xff0c;不仅影响其储存和运输的稳定性&#x…

社交客户关系管理(SCRM),和传统CRM的区分

一、SCRM是什么 SCRM是社交客户关系管理&#xff08;Social Customer Relationship Management&#xff09;的缩写&#xff0c;是指通过利用社交媒体和社交网络来管理和建立与客户之间的关系。SCRM将传统的客户关系管理&#xff08;CRM&#xff09;与社交媒体的互动和数据整合…
最新文章