实例介绍
我只是知识的传播者
团队介绍 团队: cloud Computing 队长:王帅 QQ:916794076(笔岸书塘) 队员:石锋、祝方泽、徐锋、蔡文举 指导教师:徐睿峰 学校:哈尔滨工业大学 实验室:智能计算研究中心HLT研究组 主要研究方向:自然语言处理\信息检索机器学习 校招内推:WWw·myofferbus.com(ofer直通车) 团队战绩 团队: cloudcomputing 队长:王帅 QQ:916794076(笔岸书塘) 队员:石锋、祝方泽、徐锋、蔡文举 指导教师:徐睿峰 学校:哈尔滨工业大学 主要研究方向:自然语言处理\信息检索\机器学习 校招内推:www.myoffer'bus.com(ofer直通车) 里程碑回顾 F值:0.99734 结合信息检索方法的 错误纠正策略 F值:0.99703 加入词组合特征+信息量特征 F值:0.99694 加入字节级N元文法特征 F值:0.99688 改进 online-LR:增加迭代次数, 引入学习速率衰减,引入正则化 F值:0.99673 改进 online-LR:加强错误边界学习,TONE策略 F值:0.99361 词特征+ online-LR 算法介绍 任务 实际任务映射为什么样的数据挖掘任务?监督学习型还是无监督型?二类分 类多类分类?文本分类还是结构化数据的分类?短文本分类or长文本分类? 数据 样本如何定义?什么样的数据作为特征?样本的labe怎么确定?如何 划分训练集、验证集及测试集? 整体 思路 特征 如何从原始数据中提取机器学习模型适用的特征?业务理解和模型的原 理如何有效结合?如何验证特征是否有效?样本特征缺失怎么办? 模型 选择合适的模型;根据具体的仼务优化模型;模型调优;多模型融合 赛题分析 01)短信样本有类别标签, 属于监督学习型 基于短信文本内 任务容,准确地、完 分析 →(02)二类分类:垃圾短信 整地识别出垃圾 (1),正常短信(0) 短信、正常短信 03)非结构化短信文本数据, 属于短文本分类问题 数据 样本定义 条短信标识一条样本,利用带有审核结果标笠的短信数据建立模型, 识别未知标签短信 数据集划分 ·离线学习模型:训练集+验证集+测试集 增量式在线学习模型:训练集+测试集(训练集尽可能大) 训练集越大越好 验证集尽可能逼近测试集 正负样木平衡 ·离线学习模型中正负样本比例控制1:10左右 离线学习模型中常用随机上采样+随机下采样 增量式在线学习模型:加强错误边界学习(TON策略) 数据清洗 切忌过分清洗 短信文本包含中文和英文, 简体和繁体形式,及含特殊字 短信文本统一转简体表述 符等 考虑到短信特定的不规则表 达在很大程度上是识别垃圾短 信一个重要的特征,勿过分清 洗,草率的清洗数据很可能导 号码等脱敏字符串转单字符 致重要信息的丢失 ○模型选择 SV 随机 深林 离线 Adaboost LR 模型 神经 GBDT 网络 垃圾短信随时间推移发生演进,导致固有模型失效 ·需要重新生成模型,而新模型训练需要重新整合数据,资源耗费大 无法及时感知垃圾短信环境的变换,无法实时动态更新模型 【实例截图】
【核心代码】
标签:
小贴士
感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。
- 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
- 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
- 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
- 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。
关于好例子网
本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明
网友评论
我要评论