搜索
当前位置: 刘伯温www6374con > 动态词频 >

糖果云发布在线词频统计从一篇文章到一个G的文本均可轻松统计

gecimao 发表于 2019-05-31 07:05 | 查看: | 回复:

  前一阵子有一篇热文,小学生用大数据分析苏轼,说的就是清华附小的学生用词频分析方法对苏轼的作品进行了分析,很多网友解嘲说感觉智商遭到了暴击,那么什么是词频分析呢?

  词频分析是对文章中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。

  其实只要有合适的工具谁都可以进行词频分析,下面介绍一个超强的词频分析网站:糖果云网站

  糖果云的总体目标是建设一个分类的知识库与数据库,方便全人类的查阅和检索,提高用户对知识获取的速度,提高了工作效率,和学习的进度,为推动人类知识进步做出贡献。

  下面我们看看糖果网站提供的词频统计功能,下图是糖果云网站对红楼梦做出的词频统计:

  从上图可以看到,红楼梦中哪个人物的篇幅最多?哪个人物曹雪芹更注重?这个统计就一清二楚了,我不是红学专家,这个统计里应该还有很多内容可以解说。

  在红楼梦库中搜索“贾雨村”,可看到贾雨村的词频,以及所有引用贾雨村的文章段落:

  一种是维护一个大词库,文章与词库匹配进行分词,这种方法有个缺点,就是需要不停的加入新词,否则新词统计不到,小学生的分析文章也提到,子由是一个新词,现代汉语没有叫做子由这个词的,那么苏轼的诗词中为什么这么多子由呢?原来子由是苏轼的弟弟!苏轼弟弟苏辙字子由, 苏东波字子瞻。

  另一种叫做统计分词,糖果云采用的技术即为统计分词,可以看到子由是个新词,照样被糖果云统计到。这种技术无需担心新词,新词只要有使用量,就可以被统计出来。

  糖果云的词频统计超级强大,无论是一篇文章还是几个G的文本,均可轻松统计。

  3 把zip文件上传到糖果云(,之后,就可以在糖果云库中查找到该文章及词频统计数据了。

本文链接:http://hem-larm.com/dongtaicipin/545.html
随机为您推荐歌词

联系我们 | 关于我们 | 网友投稿 | 版权声明 | 广告服务 | 站点统计 | 网站地图

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright @ 2012-2013 织梦猫 版权所有  Powered by Dedecms 5.7
渝ICP备10013703号  

回顶部