php - 如何使用 PHP 分解孟加拉语文本以将所有内容保存到数据库?

标签 php mysql string split explode

我有一个充满内容的文件 (.txt),其中包含孟加拉语和阿拉伯语,我想拆分(分解)该文件的内容,然后将其插入数据库。

我之前对英语和波斯语这样做过,但我不知道为什么 PHP 不认识孟加拉语。

该文件的一些文本:

১। গৃহ যুদ্ধের সময় উষ্ট্র শাবকের মতো হয়ে যেয়ো, যার পিঠ এমন শক্ত নয় যাতে চড়া যায় অথবা বাট এমন নয় যা দোহন করা যায়।

1- قَالَ (عليه‏السلام) : كُنْ فِي الْفِتْنَةِ كَابْنِ اللَّبُونِ لَا ظَهْرٌ فَيُرْكَبَ وَ لَا ضَرْعٌ فَيُحْلَبَ

২। যে লোভে অভ্যস্ত হয়ে পড়ে সে নিজেকে অবমূল্যায়ন করে, যে নিজের অভাব অনটনের কথা প্রকাশ করে সে নিজকে অবমানিত করে, আর যার জিহবা আত্মাকে পরাভূত করে তার আত্মা দুষিত হয়ে পড়ে।

2- وَ قَالَ (عليه‏السلام) : أَزْرَى بِنَفْسِهِ مَنِ اسْتَشْعَرَ الطَّمَعَ.وَ رَضِيَ بِالذُّلِّ مَنْ كَشَفَ عَنْ ضُرِّهِ. وَ هَانَتْ عَلَيْهِ نَفْسُهُ مَنْ أَمَّرَ عَلَيْهَا لِسَانَهُ.

৩। কৃপণতা লজ্জা এবং কাপুরুষতা ত্রুটি। আর দারিদ্র একজন বুদ্ধিমান লোককেও তার নিজের বেলায় যুক্তি প্রদর্শন করতে ব্যর্থ করে এবং দুঃস্থ ব্যক্তি তার নিজের শহরেও আগন্তুকের মত।

3- وَ قَالَ (عليه‏السلام) : الْبُخْلُ عَارٌ وَ الْجُبْنُ مَنْقَصَةٌ وَ الْفَقْرُ يُخْرِسُ الْفَطِنَ عَنْ حُجَّتِهِ وَ الْمُقِلُّ غَرِيبٌ فِي بَلْدَتِهِ

৪। অযোগ্যতা বজ্রাঘাত, ধৈর্য সাহসিকতা, মিতাচার ধন-সম্পদ, আত্মপ্রত্যয় বর্ম এবং সর্বোত্তম সাথি হলো আল্লাহর ইচ্ছায় সমর্পিত হওয়া।

4- وَ قَالَ (عليه‏السلام) : الْعَجْزُ آفَةٌ وَ الصَّبْرُ شَجَاعَةٌ وَ الزُّهْدُ ثَرْوَةٌ وَ الْوَرَعُ جُنَّةٌ وَ نِعْمَ الْقَرِينُ الرِّضَى

৫। জ্ঞান শ্রদ্ধাস্পদ সম্পত্তি, সদাচারণ নতুন পোষাক এবং চিন্তা স্বচ্ছ আয়না।

5- وَ قَالَ (عليه‏السلام):الْعِلْمُ وِرَاثَةٌ كَرِيمَةٌ وَ الْآدَابُ حُلَلٌ مُجَدَّدَةٌ وَ الْفِكْرُ مِرْآةٌ صَافِيَةٌ

৬। জ্ঞানীদের বক্ষ তার গুপ্ত বিষয়ের সিন্দুক, প্রফুল্লতা বন্ধুত্বের বন্ধন এবং কার্যকর ধৈর্য সকল দোষত্রুটির কবর।

6- وَ قَالَ (عليه‏السلام): صَدْرُ الْعَاقِلِ صُنْدُوقُ سِرِّهِ وَ الْبَشَاشَةُ حِبَالَةُ الْمَوَدَّةِ وَ الِاحْتِمَالُ قَبْرُ الْعُيُوبِ‏ئ {وَ رُوِيَ أَنَّهُ قَالَ فِي الْعِبَارَةِ عَنْ هَذَا الْمَعْنَى أَيْضاً الْمَسْأَلَةُ خِبَاءُ الْعُيُوبِ وَ مَنْ رَضِيَ عَنْ نَفْسِهِ كَثُرَ السَّاخِطُ عَلَيْهِ}.

৭। বদান্যতা কার্যকর চিকিৎসা, এ জীবনের আমল পরকালে চোখের সামনে দেখতে পাবে।

7- وَ الصَّدَقَةُ دَوَاءٌ مُنْجِحٌ وَ أَعْمَالُ الْعِبَادِ فِي عَاجِلِهِمْ نُصْبُ أَعْيُنِهِمْ فِي آجَالِهِمْ

৮। মানুষ কী আশ্চর্যজনক যে, সে চর্বি আর এক টুরকা মাংস দ্বারা কথা বলে, একটা হাড় দ্বারা শুনে এবং একটা ছিদ্র দ্বারা শ্বাস-প্রশ্বাস নেয়।

8- وَ قَالَ (عليه‏السلام) :اعْجَبُوا لِهَذَا الْإِنْسَانِ يَنْظُرُ بِشَحْمٍ وَ يَتَكَلَّمُ بِلَحْمٍ وَ يَسْمَعُ بِعَظْمٍ وَ يَتَنَفَّسُ مِنْ خَرْمٍ.

৯। কারো ভাগ্য সুপ্রসন্ন হলে পৃথিবী যখন অনুকূলে আসে তখন অন্যের ভালো কাজের সুকীর্তি তার নামে হয়, আর পৃথিবী প্রতিকূলে গেলে নিজের ভালো কাজের সুনাম থেকে সে বঞ্চিত হয়।

9- وَ قَالَ (عليه‏السلام)إِذَا أَقْبَلَتِ الدُّنْيَا عَلَى أَحَدٍ أَعَارَتْهُ مَحَاسِنَ غَيْرِهِ وَ إِذَا أَدْبَرَتْ عَنْهُ سَلَبَتْهُ مَحَاسِنَ نَفْسِهِ.

১০। মানুষের সাথে দেখা হলে এমন আচরণ করবে যেন তোমার মৃত্যুতে তারা কাঁদে এবং তুমি বেঁচে থাকলে তারা তোমার দীর্ঘায়ূ কামনা করে।

10- وَ قَالَ (عليه‏السلام):خَالِطُوا النَّاسَ مُخَالَطَةً إِنْ مِتُّمْ مَعَهَا بَكَوْا عَلَيْكُمْ وَ إِنْ عِشْتُمْ حَنُّوا إِلَيْكُمْ.

১১। প্রতিপক্ষের ওপর জয়ী হলে তাকে ক্ষমা করো।

11- وَ قَالَ (عليه‏السلام) : إِذَا قَدَرْتَ عَلَى عَدُوِّكَ فَاجْعَلِ الْعَفْوَ عَنْهُ شُكْراً لِلْقُدْرَةِ عَلَيْهِ

我要去pipe character explode (正如您在所有孟加拉语句子末尾看到的那样,有一个|,称之为管道)

当我复制该管道(|)以在 explode 中使用它时,我不知道为什么 php 不知道它,并且不 explode 任何东西!

  $text=file_get_contents("1-40.txt");
  $explode=explode("।",$text);
  print_r($explode);

解决方案是什么?

*注:我不懂孟加拉语和阿拉伯语

最佳答案

也许检查您的文件编码或环境设置。

我刚刚使用了 UTF-8 文件,复制了您的文本,它工作得“很好”。

看看这里。

http://3v4l.org/2doAg

var_dump(explode('।', $text));

用作分隔符的字符名为 devanagari danda 0x964/ - 您可以使用一些在线 unicode 查找工具(如 this one)找到它。

关于php - 如何使用 PHP 分解孟加拉语文本以将所有内容保存到数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30184555/

相关文章:

mysql - 如何启用 MySQL 二进制日志记录?

java - 如何在 jdbc url 中放入和号 (&)?

string - 最长公共(public)回文子序列

php - Laravel:使用正则表达式进行公司验证

php - 获取 "Indirect modification of overloaded property has no effect"通知

javascript函数中的php

javascript - $.post - 从 javascript 到 php 的数组

mysql - 何时在 MySQL Workbench 中使用 BIN 标志?

Python3.3 HTML Client TypeError : 'str' does not support the buffer interface

Java - 最有效的快速检索结构