oracle - Oracle 中计算密集型函数的最快语言

目前我们有相当多的函数(正常 CDF、逆 CDF、Vasicek 和各种派生函数)用 PL/SQL 编写，但是它们非常慢。

我可以通过在工作站上流式传输数据来获得更好的性能，我在工作站上用 C# 编写了代码，然后将结果批量插入回来。然而，这种方法使网络成为瓶颈，如果我可以通过在 Oracle DB 中拥有更快的功能来“把工厂放在木头所在的地方”，那就更好了。

我想看看如何通过用 c(++) 或 Java(或您可能拥有的任何其他替代方案)对其进行编码来加快速度。这里有人有这方面的经验吗？希望你们中的一个人已经尝试了所有方法并且可以解释哪种方法总体上效果最好。

这里的额外复杂情况是 IT 很忙，所以如果我想放弃使用数据库上的某些功能，我需要提供一个可靠的案例。我不会在那个盒子上玩太多，否则我会那样做。

我们正在使用 Oracle Database 11g 企业版 11.2.0.2.0 版 - 64 位生产

提前致谢

格特简

编辑

下面是一个函数的例子，也就是Normal CDF by Cody。

这与 cume_dist 之间的区别在于 cume_dist 查找一组行内的分布。我只需要将概率转换为标准偏差并返回(很多次)，例如 Excel 中的 NORMDIST 和 NORMINV 函数。

    function stdnormal_cdf(u number) return number is
  z number;
  y Number;
  begin
    y:=abs(u);
    if y <= 0.6629126073623883041257915894732959743297 then
      z:=y * y;
      y:=u * ((((1.161110663653770e-002 * z + 3.951404679838207e-001) * z + 2.846603853776254e + 001) * z + 1.887426188426510e + 002) * z + 3.209377589138469e + 003)/((((1.767766952966369e-001 * z + 8.344316438579620) * z + 1.725514762600375e + 002) * z + 1.813893686502485e + 003) * z + .044716608901563e + 003);
      return 0.5  +  y ;
    else
      z:=exp(-y * y/2)/2;
      if y <= 5.65685424949238019520675489683879231428 then
        y:=y/1.41421356237309504880168872420969807857;
        y:=((((((((2.15311535474403846e-8 * y + 5.64188496988670089e-1) * y + 8.88314979438837594) * y + 6.61191906371416295e01) * y + 2.98635138197400131e02) * y + 8.81952221241769090e02) * y + 1.71204761263407058e03) * y + 2.05107837782607147e03) * y + 1.23033935479799725e03)/((((((((1.00000000000000000e00 * y + 1.57449261107098347e01) * y + 1.17693950891312499e02) * y + 5.37181101862009858e02) * y + 1.62138957456669019e03) * y + 3.29079923573345963e03) * y + 4.36261909014324716e03) * y + 3.43936767414372164e03) *  + 1.23033935480374942e03);
        y:=z * y;
      else
        z:=z * 1.41421356237309504880168872420969807857/y;
        y:=2/(y * y);
        y:=y * (((((1.63153871373020978e-2 * y + 3.05326634961232344e-1) * y + 3.60344899949804439e-1) * y + 1.25781726111229246e-1) * y + 1.60837851487422766e-2) * y + 6.58749161529837803e-4)/(((((y + 2.56852019228982242) * y + 1.87295284992346047) * y + 5.27905102951428412e-1) * y + 6.05183413124413191e-2) * y + 2.33520497626869185e-3);
        y:=z * (1/1.77245385102123321827450760252310431421-y);
      end if;

      if u < 0 then 
        return y;
      else 
        return 1-y;
      end if;    
    end if;  
  end;

编辑 2

好的，这是基准测试。具有 100k 行的测试表。 Oracle 和 F# 之间的函数是彼此非常直接的翻译，并给出相同的结果。

查询:

select 
    sum(get_rwa(approach, exposure_class_code, pd_r, lgd_r, ead_r, maturity_r, net_sale, rwf_r)) 
from functest

翻译:12.8 秒
原生:13.2 秒
.Net (F#):0.04 秒。

这将使 .Net 函数比 Oracle 实现快 320 倍(!)，我真的不明白这种差异从何而来。任何高达 3-10 倍的值似乎都是合理的。我真的觉得我在这里遗漏了一些东西。任何人？

在 F# 中，我首先将 100k 行加载到一个列表中。 (看起来很公平，只是总结 Oracle 中的任何其他列花费 0.06 秒，所以在这两种情况下排除数据访问时间似乎是公平的。将数据加载到列表中大约需要 3 秒，所以即使我包括时间它需要打开连接，通过网络执行和流式传输等，然后仍然快 4 倍。)

最佳答案

Oracle 支持 define and call external procedures 的能力.假设您可以将 C/C++/C# 应用程序编译成 DLL/.so 并将该库移动到数据库服务器，然后您可以将 DLL 的函数公开为外部过程，然后从数据库中调用 DLL 的函数。由于一切都在同一台机器上运行，网络不会成为瓶颈。当然，这意味着您的 C/C++/C# 代码将使用服务器的处理资源——这可能是好事，也可能不是好事，具体取决于服务器的 CPU 与工作站的 CPU 相比有多强大，以及服务器的其他功能做。

根据您在 PL/SQL 中编写逻辑的确切方式，您可能还想研究利用 Oracle 的内置分析函数，如 cume_dist对于累积分布(我假设这就是你所说的“正常 CDF”的意思)或编写你自己的分析函数。由于您的代码是计算密集型的，因此您也很有可能从 native compilation 中受益。 .当然，这假设您已经分析了代码并且没有明显的地方/方法来调整 PL/SQL。

关于oracle - Oracle 中计算密集型函数的最快语言，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12095484/

oracle - Oracle 中计算密集型函数的最快语言

上一篇：yahoo-pipes - 在 Yahoo Pipes 中，如何删除一个字段？

下一篇：perl - Perl 如何解析打印 ""。 ($x, $y) ."\n"？