股吧评论数据采集与测试

数据采集状态

上次采集时间: 2024-01-04 10:30:00

采集状态: 正常

数据源数量: 5

数据清洗规则

当前启用的规则数量: 10

股吧评论数据展示 (模拟数据)

ID 日期 来源 用户 内容 情感 股票代码 操作
1 2024-01-03 15:20:00 东方财富股吧 用户A 今天大盘不错,贵州茅台涨势喜人![赞] 正面 600519
2 2024-01-03 16:00:00 雪球 用户B 垃圾公司,天天跌,管理层都是废物![怒] 负面 601398
3 2024-01-03 17:30:00 同花顺股吧 用户C 这只股票怎么样?求大神指点! 中性 000001
4 2024-01-04 09:00:00 新浪股吧 用户D 强烈推荐,未来可期! 正面 600036
5 2024-01-04 10:00:00 choice股吧 用户E 高位站岗,何时解套? 负面 600000

测试数据展示

数据ID 数据来源 原始数据 清洗规则 预期结果 实际结果 NLP/ML处理 风险指标 人工干预 增效指标 提质指标 案例类型 案例描述 改进建议
7 股吧评论 `"$贵酒(600520)$ 今天又跌麻了,服了,这垃圾公司,管理层都是sb![怒][怒][怒]"` 去除特殊字符、去除URL链接、简繁体转换、情感分析、敏感词过滤、用户ID匿名化、表情符号处理 `“贵酒(600520)今天又跌麻了,服了,这垃圾公司,管理层都是sb!”` `“贵酒(600520)今天又跌麻了,服了,这垃圾公司,管理层都是sb!”` 情感分析:负面,情绪强度:强烈,敏感词:sb 敏感词识别准确率:99% 0.08秒 准确率:98% 正例 验证敏感词过滤、情感分析和表情符号处理的功能。
8 股吧评论 `“贵酒(六零零五二零)这只票,我真是醉了,买了就跌,割了就涨,天台见[流泪][流泪][流泪]”` 去除特殊字符、去除URL链接、简繁体转换、情感分析、股票代码标准化 `“贵酒(600520)这只票,我真是醉了,买了就跌,割了就涨,天台见”` `“贵酒(600520)这只票,我真是醉了,买了就跌,割了就涨,天台见”` 情感分析:负面,情绪强度:较强 情感分析准确率:95% 0.1秒 准确率:96% 正例 验证股票代码标准化和情感分析的功能,以及对复杂情感表达的处理。
9 股吧评论 `“今天大盘不行,贵酒也跟着遭殃,哎,明天估计还要跌,心塞塞的😥😥😥”` 去除特殊字符、去除URL链接、简繁体转换、情感分析、表情符号处理 `“今天大盘不行,贵酒也跟着遭殃,哎,明天估计还要跌,心塞塞的”` `“今天大盘不行,贵酒也跟着遭殃,哎,明天估计还要跌,心塞塞的”` 情感分析:负面,情绪强度:较弱 情感分析准确率:90% 0.07秒 准确率:92% 正例 验证对表情符号的处理和对细微情感的分析。
10 股吧评论 `“贵酒这股票,迟早药丸,庄家太黑了![鄙视][鄙视][鄙视]”` 去除特殊字符、去除URL链接、简繁体转换、情感分析、敏感词过滤、表情符号处理 `“贵酒这股票,迟早药丸,庄家太黑了!”` `“贵酒这股票,迟早药丸,庄家太黑了!”` 情感分析:负面,情绪强度:强烈,敏感词:药丸,庄家太黑 敏感词识别准确率:85% 0.09秒 准确率:88% 正例 验证对网络用语和隐晦表达的处理,以及敏感词过滤的准确性。 可以考虑增加对网络用语的识别和分类,提高敏感词识别的准确率。
11 股吧评论 `“请问一下各位大佬,贵酒现在这个价位还可以入吗?求指点🙏🙏🙏”` 去除特殊字符、去除URL链接、简繁体转换、情感分析 `“请问一下各位大佬,贵酒现在这个价位还可以入吗?求指点”` `“请问一下各位大佬,贵酒现在这个价位还可以入吗?求指点”` 情感分析:中性 情感分析准确率:99% 0.06秒 准确率:100% 正例 验证对疑问句的处理和情感分析的准确性。
12 股吧评论 `“贵酒(600520)最近走势确实不太好,不过长期来看,还是有潜力的,建议大家可以关注一下公司的基本面。”` 去除特殊字符、去除URL链接、简繁体转换、情感分析 `“贵酒(600520)最近走势确实不太好,不过长期来看,还是有潜力的,建议大家可以关注一下公司的基本面。”` `“贵酒(600520)最近走势确实不太好,不过长期来看,还是有潜力的,建议大家可以关注一下公司的基本面。”` 情感分析:中性,倾向于正面 (混合情感) 情感分析准确率:75% 0.11秒 准确率:80% 反例 验证对混合情感的分析,目前模型将其识别为中性,但实际包含一定的正面倾向。 需要优化情感分析模型,提高对混合情感的识别能力。
13 股吧评论 `“内部消息:贵酒要被重组了![色][色][色]”` 去除特殊字符、去除URL链接、简繁体转换、情感分析、敏感词过滤 `“内部消息:贵酒要被重组了!”` `“内部消息:贵酒要被重组了!”` 敏感词识别:低俗内容,风险预警:可能为谣言信息 敏感词识别准确率:90% 0.1秒 准确率:95% 正例 验证对谣言信息的识别和风险预警,并过滤掉低俗内容。 可以考虑增加对谣言信息的验证机制,例如关联新闻报道、官方公告等。
14 股吧评论 `“专家分析:贵酒未来三年业绩将持续增长,目标价看至300元![强][强][强]”` 去除特殊字符、去除URL链接、简繁体转换、情感分析、关键信息提取 `“专家分析:贵酒未来三年业绩将持续增长,目标价看至300元!”` `“专家分析:贵酒未来三年业绩将持续增长,目标价看至300元!”` 情感分析:正面,关键信息提取:目标价300元 关键信息提取准确率:98% 0.12秒 准确率:99% 正例 验证对关键信息的提取,例如目标价、专家观点等。
15 股吧评论 `“推荐一个炒股神器,可以免费领取牛股,点击链接:[URL]”` 去除特殊字符、去除URL链接、简繁体转换、垃圾信息过滤 `“推荐一个炒股神器,可以免费领取牛股”` `“推荐一个炒股神器,可以免费领取牛股”` 风险预警:可能为垃圾信息或诈骗信息 垃圾信息识别准确率:95% 0.07秒 准确率:98% 正例 验证对垃圾信息的过滤和风险预警。

数据监控

新闻数据采集中断监控:

SELECT COUNT(*) FROM financial_news WHERE date = CURDATE();

公告数据采集中断监控:

SELECT COUNT(*) FROM company_announcement WHERE date = CURDATE();

模拟数据清洗流程