首页 > 酒店新闻 > 行业动态

AG真人 - 国际官网-AG真人-AG官网|【Matlab机器学习】用Matlab编写的文本分类程序

发布时间:2025-10-17 11:28:22    次浏览

所有推文全部分类请在页面菜单查找为了更方便的阅读特征提取步骤1.卡方检验1.1统计样本集中文档总数(N)。1.2统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。1.3计算每个词的卡方值,公式如下: 1.4将每个词按卡方值从大到小排序,选取前k个词作为特征,k即特征维数。1.5进一步化简,注意如果给定了一个文档集合(例如我们的训练集)和一个类别,则N,M,N-M(即A+C和B+D)对同一类别文档中的所有词来说都是一样的,而我们只关心一堆词对某个类别的开方值的大小顺序,而并不关心具体的值,因此把它们去掉是完全可以的,故实际计算的时候我们都使用2.信息增益2.1统计正负分类的文档数:N1、N2。2.2统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。2.3计算信息熵 2.4计算每个词的信息增益 2.5将每个词按信息增益值从大到小排序,选取前k个词作为特征,k即特征维数。例子10月23日十佳球:亨利快攻隔人扣,九指扣将占两席(篮球)欧冠第三轮全进球:阿扎尔科斯塔60米奔袭(足球)C罗皇马生涯50大经典进球(足球)2013中网女单第三轮:李娜2-0淘汰利斯基集锦 (网球)13韩国站排位赛集锦 (赛车)10月 23日 十佳 球 亨利 快攻 隔 人 扣 九 指 扣 将 占 两 席欧 冠 第三 轮 全 进球 阿扎尔科斯塔 60 米 奔袭C 罗 皇 马 生涯 50 大 经典 进球2013 中 网 女单 第三 轮 李娜 2-0 淘汰 利斯基 集锦13 韩国 站 排位 赛 集锦部分代码展示 文件预览 后台回复【matlab1】获取源码往期精彩阅读链接直接点击,查看往期精彩文章 【HMM系列】之——HMM 指数择时深度研究 【全网首发】——机器学习该如何应用到量化投资系列(一) 【全网首发】机器学习该如何应用到量化投资系列(二) 【Python量化投资】对数周期幂率(LPPL)模型在A股中应用 【量化投资策略探讨】决策树和随机森林 【干货扫荡】公众号干货精华帖整理从创办至今 【Matlab量化投资】GFTD指标程序化实现(附源码) 【量化缠论】系列文章(一) 跟你讲个笑话,我是做私募的…… 【干货】各大券商研究报告! 【重磅干货】Matlab 高频算法交易——从基础到高级算法的完美 实现(源码附送,这货太干了!) 马尔可夫区制转换模型与金融市场周期【附源码】 【多因子系列】之新手必看 | 量化交易七宗罪 【多因子系列之二】where is my alpha 【机器学习】支持向量机的概念与运用初探 七夕没有对象的宽客都在看这篇文章 【Python机器学习】信息熵和在决策树中的运用(附源码) 增强学习与量化投资初探 【Python机器学习】数据预处理——图像压缩与线性代数 【每周书籍干货】国外近期深度学习与机器学习书籍电子版——你知道一本买来好多刀啊! 【Matlab量化投资】根据期货高频数据和期货交易所交易规则以及BS方法判断高频交易方向和多空主力建仓减仓行为(附源码!!!) 【量化投资系列】基于多重分形理论的短趋势择时策略研究 【重!磅!干!货!】互联网金融之量化投资深度文本挖掘——附源码文档 【机器学习资料整理】(学习工具、学习视频、博客和文章推荐、ML相关算法参考、部分机器学习译文) 大数据之微信公众号深度量化研究 听说,置顶关注我们的人都不一般谢谢支持!!!赞赏人赞赏