Crash in CGESV

Open discussion for MAGMA library (Matrix Algebra on GPU and Multicore Architectures)

Re: Crash in CGESV

Postby mh1 » Mon Oct 26, 2015 11:00 am

Very good.

Please let me know if/when you make any progress. Until then we will limit to 47000.

-mh1
mh1
 
Posts: 30
Joined: Thu Mar 14, 2013 4:24 pm

Re: Crash in CGESV

Postby mh1 » Fri Mar 24, 2017 2:25 pm

Hello,

We are in the process of upgrading to Intel Compiler 17.2, CUDA 8.0, and MAGMA 2.2. We would like to fix this issue in the process. Any progress on this issue? Has it been fixed?

Thanks,
-mah
mh1
 
Posts: 30
Joined: Thu Mar 14, 2013 4:24 pm

Re: Crash in CGESV

Postby mgates3 » Mon Apr 17, 2017 11:10 am

As far as I can tell, everything works. I ran dgesv and dgetrf up to 60k and 90k, in response to another thread:
viewtopic.php?f=2&t=1518&p=4310#p4310

I'll run some similar tests with cgesv and cgetrf to check that.

-mark
mgates3
 
Posts: 734
Joined: Fri Jan 06, 2012 2:13 pm

Re: Crash in CGESV

Postby mgates3 » Mon Apr 17, 2017 10:29 pm

Tests on cgesv and cgetrf show they work. As I recall, we were never able to reproduce the issue with cgesv, at least not consistently. But a lot has changed now because we pass around queues explicitly, which helped to get rid of sync errors.

Here are results up to 60k for cgesv and up to 90k for cgetrf (the limits that I can test on this machine due to available with the current MAGMA testers). Same setup as in
viewtopic.php?f=2&t=1518&p=4310#p4310

Code: Select all
magma-2.2.0/testing> ./testing_cgesv -n 100 -n 1000 -n 10000:100000:10000 --niter 5 -c2

% MAGMA 2.2.0  compiled for CUDA capability >= 3.5, 64-bit magma_int_t, 64-bit pointer.
% CUDA runtime 7050, driver 7050. OpenMP threads 1. MKL 11.3.3, MKL threads 1.
% device 0: Tesla K40c, 745.0 MHz clock, 11519.6 MiB memory, capability 3.5
% device 1: Tesla K40c, 745.0 MHz clock, 11519.6 MiB memory, capability 3.5
% Mon Apr 17 11:14:05 2017
% Usage: ./testing_cgesv [options] [-h|--help]

% ngpu 1
%   N  NRHS   CPU Gflop/s (sec)   GPU Gflop/s (sec)   ||B - AX|| / N*||A||*||X||
%===============================================================================
  100     1     ---   (  ---  )      0.89 (   0.00)   7.39e-10   ok
  100     1     ---   (  ---  )      1.21 (   0.00)   5.83e-10   ok
  100     1     ---   (  ---  )      1.23 (   0.00)   5.69e-10   ok
  100     1     ---   (  ---  )      1.23 (   0.00)   7.02e-10   ok
  100     1     ---   (  ---  )      1.24 (   0.00)   8.13e-10   ok
 1000     1     ---   (  ---  )    124.37 (   0.02)   3.90e-10   ok
 1000     1     ---   (  ---  )    119.57 (   0.02)   3.20e-10   ok
 1000     1     ---   (  ---  )    124.98 (   0.02)   3.37e-10   ok
 1000     1     ---   (  ---  )    124.05 (   0.02)   3.57e-10   ok
 1000     1     ---   (  ---  )    125.21 (   0.02)   3.00e-10   ok
10000     1     ---   (  ---  )    639.84 (   4.17)   2.40e-10   ok
10000     1     ---   (  ---  )    639.18 (   4.17)   2.71e-10   ok
10000     1     ---   (  ---  )    639.75 (   4.17)   2.71e-10   ok
10000     1     ---   (  ---  )    633.89 (   4.21)   2.68e-10   ok
10000     1     ---   (  ---  )    670.48 (   3.98)   2.39e-10   ok
20000     1     ---   (  ---  )   1343.82 (  15.88)   2.43e-10   ok
20000     1     ---   (  ---  )   1351.21 (  15.79)   2.29e-10   ok
20000     1     ---   (  ---  )   1344.71 (  15.87)   2.71e-10   ok
20000     1     ---   (  ---  )   1332.86 (  16.01)   2.88e-10   ok
20000     1     ---   (  ---  )   1311.31 (  16.27)   2.43e-10   ok
30000     1     ---   (  ---  )   1834.26 (  39.26)   2.47e-10   ok
30000     1     ---   (  ---  )   1809.54 (  39.79)   2.38e-10   ok
30000     1     ---   (  ---  )   1803.34 (  39.93)   2.02e-10   ok
30000     1     ---   (  ---  )   1886.52 (  38.17)   2.88e-10   ok
30000     1     ---   (  ---  )   1958.16 (  36.77)   2.59e-10   ok
40000     1     ---   (  ---  )   1840.82 (  92.72)   2.06e-10   ok
40000     1     ---   (  ---  )   1842.02 (  92.66)   1.76e-10   ok
40000     1     ---   (  ---  )   1841.71 (  92.67)   2.14e-10   ok
40000     1     ---   (  ---  )   1791.63 (  95.26)   2.22e-10   ok
40000     1     ---   (  ---  )   1698.89 ( 100.46)   2.08e-10   ok
50000     1     ---   (  ---  )   1700.14 ( 196.07)   1.98e-10   ok
50000     1     ---   (  ---  )   1773.32 ( 187.98)   2.08e-10   ok
50000     1     ---   (  ---  )   1822.57 ( 182.90)   2.06e-10   ok
50000     1     ---   (  ---  )   1705.22 ( 195.49)   2.01e-10   ok
50000     1     ---   (  ---  )   1813.81 ( 183.78)   1.91e-10   ok
60000     1     ---   (  ---  )   1794.40 ( 321.01)   1.76e-10   ok
60000     1     ---   (  ---  )   1727.77 ( 333.39)   1.87e-10   ok
60000     1     ---   (  ---  )   1812.91 ( 317.73)   2.05e-10   ok
60000     1     ---   (  ---  )   1811.79 ( 317.93)   1.97e-10   ok
60000     1     ---   (  ---  )   1811.04 ( 318.06)   1.75e-10   ok


Code: Select all
bunsen magma-2.2.0/testing> ./testing_cgetrf -n 100 -n 1000 -n 10000:100000:10000 --niter 5 -c2

% MAGMA 2.2.0  compiled for CUDA capability >= 3.5, 64-bit magma_int_t, 64-bit pointer.
% CUDA runtime 7050, driver 7050. OpenMP threads 1. MKL 11.3.3, MKL threads 1.
% device 0: Tesla K40c, 745.0 MHz clock, 11519.6 MiB memory, capability 3.5
% device 1: Tesla K40c, 745.0 MHz clock, 11519.6 MiB memory, capability 3.5
% Mon Apr 17 12:51:50 2017
% Usage: ./testing_cgetrf [options] [-h|--help]

% ngpu 1, version 1
%   M     N   CPU Gflop/s (sec)   GPU Gflop/s (sec)   |Ax-b|/(N*|A|*|x|)
%========================================================================
[code]
  100   100     ---   (  ---  )      0.02 (   0.16)   5.19e-10   ok
  100   100     ---   (  ---  )      2.41 (   0.00)   5.20e-10   ok
  100   100     ---   (  ---  )      2.51 (   0.00)   4.99e-10   ok
  100   100     ---   (  ---  )      2.53 (   0.00)   6.23e-10   ok
  100   100     ---   (  ---  )      2.49 (   0.00)   4.31e-10   ok
 1000  1000     ---   (  ---  )    122.68 (   0.02)   2.65e-10   ok
 1000  1000     ---   (  ---  )    124.13 (   0.02)   2.90e-10   ok
 1000  1000     ---   (  ---  )    124.13 (   0.02)   2.51e-10   ok
 1000  1000     ---   (  ---  )    124.33 (   0.02)   2.62e-10   ok
 1000  1000     ---   (  ---  )    123.73 (   0.02)   2.43e-10   ok
10000 10000     ---   (  ---  )    624.78 (   4.27)   3.62e-10   ok
10000 10000     ---   (  ---  )    619.70 (   4.30)   3.63e-10   ok
10000 10000     ---   (  ---  )    618.51 (   4.31)   3.78e-10   ok
10000 10000     ---   (  ---  )    609.65 (   4.37)   3.67e-10   ok
10000 10000     ---   (  ---  )    615.27 (   4.33)   3.64e-10   ok
20000 20000     ---   (  ---  )   1231.85 (  17.32)   6.98e-10   ok
20000 20000     ---   (  ---  )   1244.12 (  17.15)   6.57e-10   ok
20000 20000     ---   (  ---  )   1238.85 (  17.22)   6.96e-10   ok
20000 20000     ---   (  ---  )   1235.08 (  17.27)   6.72e-10   ok
20000 20000     ---   (  ---  )   1231.51 (  17.32)   6.84e-10   ok
30000 30000     ---   (  ---  )   1674.83 (  42.99)   9.76e-10   ok
30000 30000     ---   (  ---  )   1789.50 (  40.23)   9.92e-10   ok
30000 30000     ---   (  ---  )   1789.70 (  40.23)   9.61e-10   ok
30000 30000     ---   (  ---  )   1789.65 (  40.23)   9.85e-10   ok
30000 30000     ---   (  ---  )   1789.06 (  40.24)   9.78e-10   ok
40000 40000     ---   (  ---  )   1765.62 (  96.66)   1.24e-09   ok
40000 40000     ---   (  ---  )   1765.71 (  96.66)   1.26e-09   ok
40000 40000     ---   (  ---  )   1766.49 (  96.61)   1.30e-09   ok
40000 40000     ---   (  ---  )   1765.85 (  96.65)   1.28e-09   ok
40000 40000     ---   (  ---  )   1766.08 (  96.63)   1.28e-09   ok
50000 50000     ---   (  ---  )   1782.11 ( 187.04)   1.57e-09   ok
50000 50000     ---   (  ---  )   1582.44 ( 210.64)   1.56e-09   ok
50000 50000     ---   (  ---  )   1850.20 ( 180.16)   1.59e-09   ok
50000 50000     ---   (  ---  )   1619.74 ( 205.79)   1.58e-09   ok
50000 50000     ---   (  ---  )   1782.47 ( 187.00)   1.54e-09   ok
60000 60000     ---   (  ---  )   1676.69 ( 343.53)   1.80e-09   ok
60000 60000     ---   (  ---  )   1815.39 ( 317.29)   1.82e-09   ok
60000 60000     ---   (  ---  )   1816.18 ( 317.15)   1.84e-09   ok
60000 60000     ---   (  ---  )   1816.17 ( 317.15)   1.82e-09   ok
60000 60000     ---   (  ---  )   1807.69 ( 318.64)   1.85e-09   ok
70000 70000     ---   (  ---  )   1861.35 ( 491.40)   2.10e-09   ok
70000 70000     ---   (  ---  )   1877.66 ( 487.13)   2.11e-09   ok
70000 70000     ---   (  ---  )   1935.71 ( 472.52)   2.13e-09   ok
70000 70000     ---   (  ---  )   1935.84 ( 472.49)   2.09e-09   ok
70000 70000     ---   (  ---  )   1935.75 ( 472.51)   2.13e-09   ok
80000 80000     ---   (  ---  )   1972.36 ( 692.23)   2.40e-09   ok
80000 80000     ---   (  ---  )   1972.42 ( 692.21)   2.41e-09   ok
80000 80000     ---   (  ---  )   1868.67 ( 730.64)   2.38e-09   ok
80000 80000     ---   (  ---  )   1972.64 ( 692.13)   2.40e-09   ok
80000 80000     ---   (  ---  )   1907.38 ( 715.81)   2.39e-09   ok
90000 90000     ---   (  ---  )   1821.28 (1067.37)   2.64e-09   ok
90000 90000     ---   (  ---  )   1797.23 (1081.66)   2.67e-09   ok
90000 90000     ---   (  ---  )   1860.58 (1044.83)   2.61e-09   ok
90000 90000     ---   (  ---  )   2007.16 ( 968.53)   2.67e-09   ok
90000 90000     ---   (  ---  )   2008.44 ( 967.91)   2.66e-09   ok
Last edited by mgates3 on Mon Aug 07, 2017 8:42 am, edited 1 time in total.
Reason: fix typo
mgates3
 
Posts: 734
Joined: Fri Jan 06, 2012 2:13 pm

Re: Crash in CGESV

Postby michaelmca » Mon Aug 07, 2017 6:02 am

The LP64 compiled version of my application didn't show any problems running.

Michael
michaelmca
 
Posts: 1
Joined: Mon Aug 07, 2017 5:54 am

Previous

Return to User discussion

Who is online

Users browsing this forum: No registered users and 3 guests