C#如何将一个大的XML文件分割成多个小文件
技术百科
畫卷琴夢
发布时间:2026-01-27
浏览: 次 推荐用 XmlReader 流式读取+分块写入,按元素个数(如1000个Item)或大小(如5MB)切分;需手动补全XML声明与根节点、保留命名空间及原始编码;加强异常处理与进度反馈。
直接用 XmlDocument 加载大 XML 文件容易内存溢出,推荐用 XmlReader 流式读取 + 按节点数量或大小分块写入新文件,兼顾性能与可控性。
按元素个数切分(推荐初学者)
适合结构规整的 XML,比如根节点下全是同级的 Item、Record 等子节点。用 XmlReader 逐个读取目标元素,累计达到指定数量(如 1000 个)就写入一个新文件,并重置计数。
- 用 XmlReader.ReadToFollowing("Item") 跳到下一个目标元素,避免解析整个文档树
- 每个小文件需手动补全 XML 声明和根节点(如
和) - 用 XmlWriter 写入时设置 WriteStartDocument() 和 WriteStartElement("Root") 保证格式合法
按文件大小切分(适合严格限制体积)
边读边估算当前块的字节长度(可对元素外层 XML 字符串调用 Encoding.UTF8.GetByteCount()),接近阈值(如 5MB)时结束当前文件,另起一个。注意不能在中间截断单个元素,必须等一个完整元素读完再判断。
- 用 reader.ReadOuterXml() 获取完整元素字符串,再算字节数,比逐字符累加更准
- 为防单个元素超限,建议设最低阈值(如 ≥1MB),并单独记录超大元素日志
- 每次新开文件前清空 StringBuilder 或重置 MemoryStream,避免内存累积
保留原始命名空间和编码
原始 XML 若含 xmlns 或 encoding="GB2312",直接用 XmlWriter 默认设置会丢失。需显式配置:
- 创建 XmlWriter 时传入 new XmlWriterSettings { Encoding = Encoding.GetEncoding("GB2312"), OmitXmlDeclaration = false }
- 遇到 XmlNodeType.Element 且有 reader.NamespaceURI 时,用 WriteStartElement(prefix, localName, ns) 显式写入命名空间
- 根节点的 xmlns 属性可用 WriteAttributeString("xmlns", "http://...") 补回
异常处理与进度反馈
大文件处理时间长,建议加入基础容错和进度提示:
- 在外层 try-catch 包裹 XmlReader 循环,捕获 XmlException 并记录错误位置(reader.LineN
umber)
- 每处理 10000 个元素或 100MB 数据,输出 Console.WriteLine($"已生成 {fileCount} 个文件,当前行号:{reader.LineNumber}")
- 用 File.WriteAllText(tempPath, "") 提前创建空文件,防止写入中途失败导致残留不完整文件
# 清空
# 新开
# win
# http
# 循环
# 编码
# 字节
# stream
# c#
# xml
# 字符串
# console
# 行号
# node
# 命名空间
# try
# catch
# 流式
# 跳到
# 切分
# 新文件
# 不完整
# 可对
# 中途
相关栏目:
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
AI推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
SEO优化<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
技术百科<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
谷歌推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
百度推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
网络营销<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
案例网站<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
精选文章<?muma echo $count; ?>
】
相关推荐
- Go 语言标准库为何不提供泛型 Contains
- 如何在 PHP 单元测试中正确模拟带方法的图像处理
- Python字符串处理进阶_切片方法解析【指导】
- Mac怎么开启“任何来源”_Mac安装未签名应用的
- 如何使用Golang指针与结构体结合_修改结构体内
- Windows怎样关闭桌面弹窗广告_Windows
- Win11怎么设置环境变量_Win11配置Path
- Win11怎么连接投影仪_Win11多显示器投屏设
- Win11怎么关闭右下角弹窗_Win11拦截系统通
- Win11怎么硬盘分区 Win11新建磁盘分区详细
- Windows Defender扫描失败怎么办_安
- 如何使用Golang log记录不同级别日志_Go
- php下载安装后memory_limit怎么设置_
- 如何有效拦截拼接式恶意域名的垃圾信息
- 如何使用Golang读取日志文件_Golang b
- 如何使用Golang实现微服务状态监控_Golan
- Python生成器表达式内存优化_惰性计算说明【指
- Win11怎么快速锁屏_Win11一键锁屏快捷键W
- Python如何创建带属性的XML节点
- 如何在 Pandas 中按元素交集合并两列字符串
- Win11如何卸载OneDrive_Win11卸载
- Mac如何解压zip和rar文件?(推荐免费工具)
- Python并发安全问题_资源竞争说明【指导】
- Win11怎样安装企业微信_Win11安装企业微信
- Win11怎么设置指纹解锁 Win11笔记本录入指
- C++ STL算法库怎么用?C++常用算法函数(s
- PHP cURL GET请求:正确设置认证与自定义
- Python函数缓存机制_lru_cache解析【
- 如何解决Windows时间不准的问题?(自动同步设
- MAC怎么用连续互通相机里的“桌上视角”_MAC在
- 如何使用Golang编写单元测试_创建Test函数
- php怎么下载安装后设置错误日志_phpini l
- 如何使用Golang reflect检查方法数量_
- 如何在Golang中实现邮件发送功能_Golang
- Win11怎么关闭任务栏小组件_Windows11
- 如何在JavaScript中动态拼接PHP的bas
- Win11怎么查看wifi信号强度_检测Windo
- Windows10怎么查看系统激活状态_Windo
- 电脑无法识别U盘怎么办 Windows磁盘管理与驱
- 如何使用Golang理解结构体指针方法接收者_Go
- 如何在Golang中实现文件下载_Golang文件
- Django 测试数据库表缺失与字段未创建问题的完
- Win11怎么关闭自动更新 Win11永久关闭系统
- Win11输入法切换快捷键怎么改_Windows
- 如何使用正则表达式精确匹配最多含一个换行符的 st
- Windows10系统怎么查看显卡驱动_Win10
- PythonWeb前后端整合项目教程_FastAP
- 如何使用Golang模拟请求超时_Golang c
- 如何使用Golang安装API文档生成工具_快速生
- Windows11怎样开启游戏模式_Windows


QQ客服