摘要:
我国证券市场自上世纪90年代起逐步形成并不断发展,但是财务造假问题也一直困扰着整个资本市场,上市公司财务数据造假直接或间接地导致投资者的收益受到威胁,动摇并挫伤投资者的信任与信心。财务数据造假预测模型的构建有利于简化投资者的决策过程,有助于投资者识别财务数据造假公司,保障投资者的投资利益。
针对问题一,对于制造业,信息传输、软件和信息技术服务业,批发和零售业,金融业,房地产业,农、林、牧、渔业等行业,本文首先采用Filter过滤法和包装法进行第一轮数据指标选取,然后在第一轮选取的基础上采用GBDT-RFE、XGBoost-RFE、CatBoost-RFE、LightGBM-RFE、Logistic Regressor-RFE五个机器学习方法进行第二轮数据指标选取,最后在五个机器学习方法选取的数据指标基础上采用基于投票打分机制的方法筛选出最终重要性排序前20的数据指标作为各行业与财务数据造假相关的数据指标。通过比较6大行业财务指标之间的异同,发现稀释每股收益在行业中有较强的泛化识别能力,其次是未分配利润。在农、林、牧、渔业中选择的财务指标没有太大的泛化能力,但是选出的高分特征很有代表性。
针对问题二,首先对GBDT、XGBoost、CatBoost、LightGBM、Logistic Regressor五种不同类型的机器学习算法基于准确率、召回率和AUC评价指标和K折交叉验证、网格搜索调参技术进行参数调优和寻找最小阈值。然后基于这五种机器学习算法采用Stacking融合模型进行第一轮筛选,目的是过滤掉最不可能造假的数据样本,接着利用模型融合过程确定的阈值均值作为最佳预测阈值通过五种机器学习算法进行第二轮筛选,目的是筛选出若干最有可能造假的数据样本。最后在第二轮五个机器学习算法筛选的结果上采用投票法,筛选出大于等于三票(至少被三个算法选中)的数据样本作为最终的预测结果,这就是本文构建的基于财务数据造假的融合预测模型。通过本文的融合预测模型得到制造业上市公司第6年财务数据造假情况为:2660个上市公司中,有38个上市公司会发生财务数据造假,造假率为1.4%。
针对问题三,对于信息传输、软件和信息技术服务业,批发和零售业,金融业,房地产业,农、林、牧、渔业5个行业以及建筑业、采矿业、教育业等另外9个行业上市公司第6年财务数据造假的预测,本文采用与制造业相同的融合预测模型进行预测。对于租赁和商务服务业、卫生和社会工作、住宿和餐饮业、居民服务、修理和其他服务业4个行业,因为前五年财务数据不存在造假情况,本文认为这4个行业第6年也不会发生财务数据造假。
本文使用数据挖掘技术,充分利用上市公司历史财务数据,融合多种机器学习算法并且结合投票打分机制构建了基于财务数据造假的融合预测模型,且融合预测模型较为稳定,具有较大的参考价值和现实意义。
关键词:财务数据造假 投票打分机制 网格搜索 Stacking融合模型