Android- 从 PDF 中获取文本

标签 android pdf

我想从 SD 卡中的 PDF 文件中读取文本。我们如何从存储在 SD 卡中的 PDF 文件中获取文本?

我试过:

public class MainActivity extends ActionBarActivity implements TextToSpeech.OnInitListener {

    private TextToSpeech tts;
    private String line = null;

    @Override
    public void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);

        tts = new TextToSpeech(getApplicationContext(), this);

        final TextView text1 = (TextView) findViewById(R.id.textView1);

        findViewById(R.id.button1).setOnClickListener(new OnClickListener() {

            private String[] arr;

            @Override
            public void onClick(View v) {
                File sdcard = Environment.getExternalStorageDirectory();

                // Get the text file

                File file = new File(sdcard, "test.pdf");

                // ob.pathh
                // Read text from file

                StringBuilder text = new StringBuilder();
                try {
                    BufferedReader br = new BufferedReader(new                            FileReader(file));

                    // int i=0;
                    List<String> lines = new ArrayList<String>();

                    while ((line = br.readLine()) != null) {
                        lines.add(line);
                        // arr[i]=line;
                        // i++;
                        text.append(line);
                        text.append('\n');
                    }
                    for (String string : lines) {
                        tts.speak(string, TextToSpeech.SUCCESS, null);
                    }
                    arr = lines.toArray(new String[lines.size()]);
                    System.out.println(arr.length);
                    text1.setText(text);

                } catch (Exception e) {
                    e.printStackTrace();
                }

            }
        });

    }

    @Override
    public void onInit(int status) {
        if (status == TextToSpeech.SUCCESS) {
            int result = tts.setLanguage(Locale.US);
            if (result == TextToSpeech.LANG_MISSING_DATA || result == TextToSpeech.LANG_NOT_SUPPORTED) {
                Log.e("TTS", "This Language is not supported");
            } else {
                // speakOut();
            }

        } else {
            Log.e("TTS", "Initilization Failed!");
        }
    }

}

注意:如果文件是文本文件 (test.txt) 则工作正常,但不适用于 pdf (test.pdf)

但是这里的文本不是从 PDF 中获取的,而是像字节码一样。我怎样才能做到这一点?

提前致谢。

最佳答案

我已经找到了 iText 的解决方案。

Gradle ,

compile 'com.itextpdf:itextg:5.5.10'

Java,

  try {
            String parsedText="";
            PdfReader reader = new PdfReader(yourPdfPath);
            int n = reader.getNumberOfPages();
            for (int i = 0; i <n ; i++) {
                parsedText   = parsedText+PdfTextExtractor.getTextFromPage(reader, i+1).trim()+"\n"; //Extracting the content from the different pages
            }
            System.out.println(parsedText);
            reader.close();
        } catch (Exception e) {
            System.out.println(e);
        }

关于Android- 从 PDF 中获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29763405/

相关文章:

android - 如何知道操作栏中的 SearchView 何时关闭?

java - 谷歌网址缩短不起作用

android - 使用 Appium 与 Uiautomator 的优势

c# - 如何使用 iTextSharp 确定 PDF 文件类型

java - itext html 到 pdf 多种字体

android - Android 应用程序是否能够通过 USB 与桌面应用程序通信?

android - Espresso 2.2.1 异常 :app:transformClassesWithDexForDebugAndroidTest

java - 转换为 PDF 时 iText XMLWorker 表异常

php - 打开 PDF 时出现“图像数据不足”消息

c# - ReportViewer.PrintDialog() 在打印到 Adob​​e PDF 时抛出异常