c# - 尝试在 linux 中运行 spark 作业来解析第六列上的大量制表符分隔数据和索引。获取权限被拒绝

标签 c# pyspark indexing amazon-emr

static void Main(string[] args)
{
    DataTable datatable = new DataTable();
    StreamReader streamreader = new StreamReader(@"/data/1/projects/data1.txt");
    char[] delimiter = new char[] { '\t' };
    string[] columnheaders = streamreader.ReadLine().Split(delimiter);
    foreach (string columnheader in columnheaders)
    {
        datatable.Columns.Add(columnheader); // I've added the column headers here.
    }

    while (streamreader.Peek() > 0)
    {
        DataRow datarow = datatable.NewRow();
        datarow.ItemArray = streamreader.ReadLine().Split(delimiter);
        datatable.Rows.Add(datarow);
    }

    foreach (DataRow row in datatable.Rows)
    {
        Console.WriteLine(""----Row No: " + datatable.Rows.IndexOf(row) + "----"");

        foreach (DataColumn column in datatable.Columns)
        {
            //check what columns you need
            if (column.ColumnName == "Column6") 
            {
                Console.Write(column.ColumnName);
                Console.Write(" ");
                Console.WriteLine(row[column]);
            }
        }
    }
    Console.ReadLine();
}

在/data/1/projects/data1.txt 获取权限被拒绝 该索引也将基于第六列的行索引到 Parquet 文件中。抱歉 Linux 和 aws 的新手

期望输出文件由第六列索引 更改了 data1.txt 的文件位置和目录 大部分时间花在 EMR 集群上

在加载到 EMR 集群之前,我首先使用 VSCODE 终端在我的桌面上执行

最佳答案

尝试以管理员身份运行 VS 或确保您对该文件具有正确的权限:

sudo chmod -R a+rwx ##folder path##

关于c# - 尝试在 linux 中运行 spark 作业来解析第六列上的大量制表符分隔数据和索引。获取权限被拒绝,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74844461/

相关文章:

c# - 通过转换器转换Json字符串与反序列化

dataframe - 具有特定条件的 Pyspark crossJoin

indexing - <noscript> 会向 Google 爬虫隐藏其余的静态内容吗?

如果在 ON 子句中使用 OR,则 MySQL 不会在 JOIN 中使用可用索引

javascript - JS : can't open links other than first

c# - WinRT/WP8 等效于 System.Globalization.TextInfo.ToTitleCase

c# - 将 C# mdb 解决方案转换为 xml?

pyspark - 如何在pyspark中的groupBy之后获得每个计数的总数百分比?

python - Pyspark - 无法在 hadoop 二进制路径中找到 winutils 二进制文件

mysql - 什么是复合索引以及如何正确使用它?