c# - 尝试在 linux 中运行 spark 作业来解析第六列上的大量制表符分隔数据和索引。获取权限被拒绝

标签 c# pyspark indexing amazon-emr

static void Main(string[] args)
{
    DataTable datatable = new DataTable();
    StreamReader streamreader = new StreamReader(@"/data/1/projects/data1.txt");
    char[] delimiter = new char[] { '\t' };
    string[] columnheaders = streamreader.ReadLine().Split(delimiter);
    foreach (string columnheader in columnheaders)
    {
        datatable.Columns.Add(columnheader); // I've added the column headers here.
    }

    while (streamreader.Peek() > 0)
    {
        DataRow datarow = datatable.NewRow();
        datarow.ItemArray = streamreader.ReadLine().Split(delimiter);
        datatable.Rows.Add(datarow);
    }

    foreach (DataRow row in datatable.Rows)
    {
        Console.WriteLine(""----Row No: " + datatable.Rows.IndexOf(row) + "----"");

        foreach (DataColumn column in datatable.Columns)
        {
            //check what columns you need
            if (column.ColumnName == "Column6") 
            {
                Console.Write(column.ColumnName);
                Console.Write(" ");
                Console.WriteLine(row[column]);
            }
        }
    }
    Console.ReadLine();
}

在/data/1/projects/data1.txt 获取权限被拒绝该索引也将基于第六列的行索引到 Parquet 文件中。抱歉 Linux 和 aws 的新手

期望输出文件由第六列索引更改了 data1.txt 的文件位置和目录大部分时间花在 EMR 集群上

在加载到 EMR 集群之前，我首先使用 VSCODE 终端在我的桌面上执行

最佳答案

尝试以管理员身份运行 VS 或确保您对该文件具有正确的权限: