文档章节

将文本文件的内容存储在DataSet中的方法总结

彭泽0902
 彭泽0902
发布于 2016/11/24 18:47
字数 647
阅读 0
收藏 0
点赞 0
评论 0

    项目中比较多的会对文件进行操作,例如文件的上传下载,文件的压缩和解压等IO操作。在.NET项目中较多的会使用DataSet,DataTable进行数据的缓存。

    项目中对文本文件的操作比较简单,但是如果需要将文本文件的内容写入系统的缓存中,操作起来,会稍微的繁琐一些。现在总结一个较为通用的方法,将文本文件的内容缓存进入DataSet数据集中。

private DataSet _iifSet;

        /// <summary>
        /// 将文本文件转化为DataSet
        /// </summary>
        /// <param name="filePath"></param>
        /// <returns></returns>
        public DataSet Parse(string filePath)
        {

        if (string.IsNullOrEmpty(filePath))
        {
          throw new ArgumentNullException(filePath);
        }

try
            {
                _iifSet = new DataSet();
                var fileText = System.IO.File.ReadAllText(filePath);
                var lines = fileText.Split('\n');
                CreateTables(lines, _iifSet);
                FillSet(lines, _iifSet);
                return _iifSet;
            }
            catch (IOException ex)
            {
                throw new IOException(ex.Message);
            }
            
        }

        /// <summary>
        /// 读取行数组并将其解析为数据集的表
        /// </summary>
        /// <param name="lines">String iif文件中的行数组</param>
        /// <param name="set"></param>
        private void FillSet(IReadOnlyList<string> lines, DataSet set)
        {
            for (var i = 0; i < lines.Count; i++)
            {
                if (IsTableHeader(lines[i]))
                {
                    continue;
                }
                if (lines[i] == "" || lines[i] == "\r" || lines[i] == "\n\r" || lines[i] == "\n")
                {
                    continue;
                }
                if (lines[i].IndexOf(";__IMPORTED__", StringComparison.Ordinal) != -1)
                {
                    continue;
                }
                var line = lines[i];
                while (!IsFullLine(line, set))
                {
                    i++;
                    line += lines[i];
                }
                ParseRecord(line, set);
            }
        }

        /// <summary>
        /// 解析记录
        /// </summary>
        /// <param name="line"></param>
        /// <param name="set"></param>
        private void ParseRecord(string line, DataSet set)
        {
            if (IsTableHeader(line))
            {
                return;
            }
            var tablename = line.Split('\t')[0];
            var parameters = CreateDataRowParams(line, set.Tables[tablename].Columns.Count);
            if (parameters.Length > 0)
                set.Tables[tablename].Rows.Add(parameters);
        }

        private bool IsFullLine(string line, DataSet set)
        {
            if (IsTableHeader(line))
            {
                return true;
            }
            var values = line.Split('\t').Length;
            var tableName = line.Split('\t')[0];
            var columns = set.Tables[tableName].Columns.Count;
            return values >= columns;
        }

        private bool IsTableHeader(string tab)
        {
            return tab.StartsWith("!");
        }


        /// <summary>
        /// 创建datatable
        /// </summary>
        /// <param name="lines"></param>
        /// <param name="set"></param>
        private void CreateTables(IReadOnlyList<string> lines, DataSet set)
        {
            foreach (var t in lines.Where(IsTableHeader))
            {
                set.Tables.Add(CreateTable(t));
            }
        }


        private DataTable CreateTable(string line)
        {
            var values = line.Split('\t');
            values[0] = values[0].Substring(1);
            var dt = new DataTable(values[0]);
            values[0] = null;
            foreach (var name in values)
            {
                if (string.IsNullOrEmpty(name))
                    continue;
                var dc = new DataColumn(name, typeof(string));
                try
                {
                    dt.Columns.Add(dc);
                }
                catch (DuplicateNameException)
                {
                    dc = new DataColumn(name + "_duplicateCol" + dt.Columns.Count);
                    dt.Columns.Add(dc);
                }
            }

            return dt;
        }

        public string GetTableName(string line)
        {
            var values = line.Split('\t');
            if (values[0].StartsWith("!"))
            {
                values[0] = values[0].Substring(1);
            }
            return values[0];
        }

        public readonly static object[] EmptyStringArray = { };

        private object[] CreateDataRowParams(string line, int maxLength)
        {
            var raw = line.Split('\t');
            var length = raw.Length - 1;
            if (length == 0 || maxLength == 0)
                return EmptyStringArray;
            if (length > maxLength)
                length = maxLength;
            var values = new string[length];
            for (var i = 0; i < length; i++)
            {
                values[i] = raw[i + 1];
            }

            if (values[values.Length - 1].EndsWith("\n"))
            {
                values[values.Length - 1] = values[values.Length - 1].Substring(0, values[values.Length - 1].LastIndexOf('\n'));
            }
            else if (values[values.Length - 1].EndsWith("\n\r"))
            {
                values[values.Length - 1] = values[values.Length - 1].Substring(0, values[values.Length - 1].LastIndexOf("\n\r", StringComparison.Ordinal));
            }
            else if (values[values.Length - 1].EndsWith("\r"))
            {
                values[values.Length - 1] = values[values.Length - 1].Substring(0, values[values.Length - 1].LastIndexOf('\r'));
            }

            return values;
        }

        protected virtual void Dispose(bool cleanAll)
        {
            _iifSet?.Dispose();
        }

        public void Dispose()
        {
            Dispose(true);
            GC.SuppressFinalize(this);
        }

     有关dataset的一些常用的操作,基本属性和方法在这里就不做介绍了。

© 著作权归作者所有

共有 人打赏支持
彭泽0902
粉丝 0
博文 44
码字总数 57771
作品 0
武汉
高级程序员
Spark SQL数据源

背景 Spark SQL是Spark的一个模块,用于结构化数据的处理。 使用Spark SQL的方式有2种,可以通过SQL或者Dataset API,这两种使用方式在本文都会涉及。 其中,通过SQL接口使用的方法具体又可分...

金珑 ⋅ 2017/10/28 ⋅ 0

厚积薄发,丰富的公用类库积累,助你高效进行系统开发(4)----CSV、Excel、INI文件、独立存储等文件相关

1、CSV文件和DataTable对象转换辅助类 CSVHelper 实现效果 1)本辅助类主要是用来方便实现CSV文件和DataTable对象的相互转换。 2)逗号分隔型取值格式(英文全称为Comma Separated Values,简...

长平狐 ⋅ 2012/08/22 ⋅ 0

厚积薄发,丰富的公用类库积累,助你高效进行系统开发(4)----CSV、Excel、INI文件、独立存储等文件相关

1、CSV文件和DataTable对象转换辅助类 CSVHelper 实现效果 1)本辅助类主要是用来方便实现CSV文件和DataTable对象的相互转换。 2)逗号分隔型取值格式(英文全称为Comma Separated Values,简...

长平狐 ⋅ 2012/06/11 ⋅ 0

[大数据之Spark]——Actions算子操作入门实例

Actions reduce(func) Aggregate the elements of the dataset using a function func (which takes two arguments and returns one). The function should be commutative and associative ......

青夜之衫 ⋅ 2017/12/04 ⋅ 0

ado.net技术总结

1、ado.net技术概述 ado.net是一组允许.net开发人员使用标准的,结构化的,甚至无连接的方式与数据交互的技术。使用ado.net技术可以使用一致的访问方式操作多种数据源,包括数据库、xml、exc...

andrewniu ⋅ 2017/12/01 ⋅ 0

关于ASP.NET导出Excel表格的个人总结归纳

之前一直想研究ASP.NET导出Excel表格来着,但一直没有时间,这几天因为一个项目的需要,所以就钻研了一下。有百度,但网上各各大神的帖子几乎一样,都是二话不说直接给出函数内容的,至于函数...

Everget ⋅ 2013/09/27 ⋅ 56

Spark中的编程模型

Spark中的基本概念 在Spark中,有下面的基本概念。 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor Driver Program:运行Application的main()函数并创建S...

闪电 ⋅ 2016/07/28 ⋅ 0

Word2vector句子相似度计算

word2vector 最近有任务要对句子和文档的相似读进行评估计算,学习了词向量的相关知识,并做了简单的测试。在测试过程中发现网上完整且简单的词向量分析句子相似度的文章比较少,所以打算整理...

zqh_zy ⋅ 2017/07/05 ⋅ 0

【Spark 2.0官方文档】Spark SQL、DataFrames以及Datasets指南

文档说明 本文是基于《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南 这篇文章翻译而来。 原文中关于R语言的部分本文档全都省略。 由于个人水平有限,有些地方难免翻译的不...

JackieYeah ⋅ 2016/09/11 ⋅ 0

XML与DataSet的相互转换类

送给大家一个XML与DataSet的相互转换的类: XmlDatasetConvert 该类提供了四种方法: 1、将xml对象内容字符串转换为DataSet 2、将xml文件转换为DataSet 3、将DataSet转换为xml对象字符串 4、将...

晨曦之光 ⋅ 2012/03/09 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Confluence 6 从其他备份中恢复数据

一般来说,Confluence 数据库可以从 Administration Console 或者 Confluence Setup Wizard 中进行恢复。 如果你在恢复压缩的 XML 备份的时候遇到了问题,你还是可以对整个站点进行恢复的,如...

honeymose ⋅ 22分钟前 ⋅ 0

myeclipse10 快速搭建spring boot开发环境(入门)

1.创建一个maven的web项目 注意上面标红的部分记得选上 2.创建的maven目录结构,有缺失的目录可以自己建立目录补充 补充后 这时候一个maven的web项目创建完成 3.配置pom.xml配置文件 <proje...

小海bug ⋅ 34分钟前 ⋅ 0

nginx.conf

=========================================================================== nginx.conf =========================================================================== user nobody; #......

A__17 ⋅ 37分钟前 ⋅ 0

645. Set Mismatch - LeetCode

Question 645. Set Mismatch Solution 思路: 遍历每个数字,然后将其应该出现的位置上的数字变为其相反数,这样如果我们再变为其相反数之前已经成负数了,说明该数字是重复数,将其将入结果r...

yysue ⋅ 50分钟前 ⋅ 0

Python这么强?红包杀手、消息撤回也可以无视,手机App辅助!

论述 标题也许有点不好理解,其实就是一款利用Python实现的可以监控微信APP内的红包与消息撤回的助手。不得不说,这确实是一款大家钟意的神器。 消息撤回是一件很让人恶心的事,毕竟人都是有...

Python燕大侠 ⋅ 今天 ⋅ 0

压缩打包介绍、gzip压缩工具、bzip2压缩工具、xz压缩工具

压缩打包介绍 压缩的好处不仅能节省磁盘空间而且在传输的时候节省传输时间和网络带宽 windows系统下文件带有 .rar .zip .7z 后缀的就是压缩文件 linux系统下则是 .zip, .gz, .bz2, .xz, ...

黄昏残影 ⋅ 今天 ⋅ 0

观察者模式

1.利用java原生类进行操作 package observer;import java.util.Observable;import java.util.Observer;/** * @author shadow * @Date 2016年8月12日下午7:29:31 * @Fun 观察目标 **/......

Cobbage ⋅ 今天 ⋅ 0

Ubuntu打印服务器配置

参考:https://blog.csdn.net/gsls200808/article/details/50950586 https://blog.csdn.net/jiay2/article/details/80252369 https://wiki.gentoo.org/wiki/HPLIP 由于媳妇儿要大量打印资料,......

大熊猫 ⋅ 今天 ⋅ 0

面试的角度诠释Java工程师(二)

原文出处: locality 续言: 相信每一位简书的作者,都会有我这样的思考:怎么写好一篇文章?或者怎么写好一篇技术类的文章?我就先说说我的感悟吧,写文章其实和写程序是一样的。为什么我会...

颖伙虫 ⋅ 今天 ⋅ 0

github中SSH的Key

https://help.github.com/articles/connecting-to-github-with-ssh/ https://help.github.com/articles/testing-your-ssh-connection/ https://help.github.com/articles/adding-a-new-ssh-k......

whoisliang ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部