以下展示的是用于测试数据清洗流程自动化的实施数据。这些数据模拟了实际场景中可能遇到的各种数据问题,例如缺失值、错误值、不一致性等。通过这些数据,可以验证数据清洗流程的有效性和鲁棒性。
数据ID | 数据来源 | 原始数据 | 清洗规则 | 预期结果 | 实际结果 | NLP/ML处理 | 风险指标 | 人工干预 | 增效指标 | 提质指标 | 案例类型 | 案例描述 | 改进建议 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
7 | 金融新闻 | 😱😱😱突发!茅抬暴跌,速速清仓! | 垃圾信息过滤,情感分析 | 突发!茅台暴跌,速速清仓! | 突发!茅抬暴跌,速速清仓! | 情感分析:负面,强度:高 | 垃圾信息比例:高 | 是 | 0.1秒 | 垃圾信息过滤准确率:80%,情感分析准确率:70%,拼写纠正准确率:0% | 反例 | 验证恶意信息过滤和拼写纠正的能力 | 优化拼写纠正算法,增强对恶意信息的识别能力。 |
8 | 上市公司公告 | 本公司预计未来三年业绩持续增长,利润翻番!(未经审计,未披露风险提示) | 风险提示识别,信息披露合规性检查 | 本公司预计未来三年业绩持续增长,利润翻番!(风险提示:未经审计,存在不确定性) | 本公司预计未来三年业绩持续增长,利润翻番! | 风险评估:高 | 合规性风险:高 | 是 | 2秒 | 风险提示识别准确率:0%,信息披露合规性检查准确率:0% | 反例 | 验证风险提示识别和信息披露合规性检查能力 | 加强对未经审计信息的识别能力,完善风险提示规则库。 |
9 | 社交媒体 | //@财经大V: $贵酒 600520$ 赶紧抄底,明天涨停!(疑似荐股) | 荐股行为识别,用户身份识别 | 财经大V 发布疑似荐股信息:贵酒(600520),明日涨停 | //@财经大V: $贵酒 600520$ 赶紧抄底,明天涨停! | 用户身份:财经大V,荐股行为:是 | 荐股风险:中等 | 是 | 0.5秒 | 用户身份识别准确率:0%,荐股行为识别准确率:0% | 反例 | 验证用户身份识别和荐股行为识别能力 | 优化用户身份识别算法,增强对荐股行为的识别能力,完善风险评估模型。 |
10 | 交易数据 | [{"date": "2024-01-20", "stock_code": "600520", "price": "150.00", "volume": 1000}, {"date": "2024-01-21", "stock_code": "600520", "price": "155.00", "volume": 100000000}] (第二天成交量异常放大) |
异常值检测,关联交易检测 | [{"date": "2024-01-20", "stock_code": "600520", "price": "150.00", "volume": 1000}, {"date": "2024-01-21", "stock_code": "600520", "price": "155.00", "volume": 1000}] |
[{"date": "2024-01-20", "stock_code": "600520", "price": "150.00", "volume": 1000}, {"date": "2024-01-21", "stock_code": "600520", "price": "155.00", "volume": 100000000}] |
异常交易检测:是,关联交易检测:否 | 异常交易风险:高 | 是 | 0.2秒 | 异常值检测准确率:0%,关联交易检测准确率:0% | 反例 | 验证异常值检测和关联交易检测能力 | 优化异常值检测算法,增强对关联交易的识别能力,完善风险评估模型。 |
11 | 研报数据 | (某分析师既持有贵酒股票,又发布了对贵酒的买入评级研报,未披露利益冲突) | 利益冲突识别,评级合理性评估 | (识别出利益冲突,标注风险等级) | (未识别出利益冲突) | 利益冲突:是,评级合理性:低 | 利益冲突风险:高 | 是 | 5秒 | 利益冲突识别准确率:0%,评级合理性评估准确率:0% | 反例 | 验证利益冲突识别和评级合理性评估能力 | 建立更完善的分析师和公司关系数据库,优化利益冲突识别算法,完善风险评估模型。 |
12 | 股吧评论 | 强烈谴责$贵酒 600520$ 的管理层!都是一群酒囊饭袋!(人身攻击) | 垃圾信息过滤,用户身份识别 | 强烈谴责贵酒(600520)的管理层! | 强烈谴责$贵酒 600520$ 的管理层!都是一群酒囊饭袋! | 垃圾信息:是,用户身份:未知 | 垃圾信息比例:高 | 是 | 0.1秒 | 垃圾信息过滤准确率:0%,用户身份识别准确率:0% | 反例 | 验证垃圾信息过滤和用户身份识别能力 | 优化垃圾信息过滤算法,增强对人身攻击信息的识别能力,完善用户身份识别模型。 |