欢迎访问新加坡聚知刊出版有限公司官方网站
info@juzhikan.asia
基于分布式架构的工程造价大数据采集与预处理技术的研究
  • ISSN:3029-2727(Online) 3029-2662(Print)
  • DOI:10.69979/3029-2727.25.07.077
  • 出版频率:月刊
  • 语言:中文
  • 收录数据库:ISSN:https://portal.issn.org/ 中国知网:https://scholar.cnki.net/journal/search

基于分布式架构的工程造价大数据采集与预处理技术的研究

蔡堃 黄永安(通讯作者) 孙婉超 邓燕青 许雅思 李志龙(通讯作者)

公诚管理咨询有限公司,广东广州510610

摘要:针对传统工程造价数据采集范围有限、预处理效率低、多源数据融合难等问题,结合工程造价咨询行业数字化转型需求,设计并开发基于分布式架构的工程造价大数据采集与预处理系统。系统采用Hadoop分布式文件系统(HDFS)存储海量工程数据,通过Flume与Kafka构建多源数据实时采集通道,依托Spark框架实现数据清洗、标准化、融合等预处理操作,并创新性引入工程造价领域特征词典优化数据解析精度。经测试验证,系统可支持200+并发数据源接入,单批次100GB工程数据(含图纸、清单、合同等)采集延迟≤5min,预处理准确率达98.7%,较传统集中式系统效率提升3.2倍,有效解决了工程造价数据“采不全、处理慢、用不好”的行业痛点,为后续造价分析、智能清标等应用提供高质量数据支撑。

关键词:分布式架构;大数据采集;数据预处理;Spark;HDFS;工程造价

参考文献

[1]中国建设工程造价管理协会.2024年中国工程造价咨询行业发展报告[R].北京:中国计划出版社,2024.

[2]住房和城乡建设部。建设工程工程量清单计价标准(GB50500-2023)[S].北京:中国建筑工业出版社,2023.

[3]公诚管理咨询有限公司。基于大数据的工程造价分析系统开发研究项目计划书[Z].2024.