[CUDA] RC6 / Serpent / Twofish / AES / MARS

AW: [CUDA] RC6

^^ Danke, ja, die Erklärung hat nochmal sehr geholfen! :daumen:

Zur Parallelisierung, um die ich mich jetzt kümmern muss, habe ich vorerst folgende Fragen:
Code:
__global__ void rc6enc(char* block, rc6_ctx_t *s) {    
      int b = threadIdx.x;     
      rc6_enc(block + 16*b, s); 
}
Die rc6dec natürlich auch so ändern. Um anständige Ergebnisse zu erhalten würde ich so viel Blöcke parallel verarbeiten, dass die Gesamtmenge ca. 100MB besträgt. Heute CPUs und Grafikkarten sind so schnell, dass selbst 100MB zu verschlüsseln kaum eine Sekunde dauert.
1.) Muss ich nicht dazu auch irgendwie den threadIdx.x (wieso heißt das eigentlich "threadIdx", wenn es sich doch um die Indexe der Blöcke handelt?) an die Funktion übergeben? Noch ein int b in die Parameterliste eintragen? Auch in der main?

2.) Wie lasse ich die Blöcke durchlaufen? Könnte ich bei deiner Variante von oben nach der zweiten Zeile in der Funktion noch ein (threadIdx.x)++; anhängen? Bzw. b++; müsste doch nach dem ersten Block dann auch schon reichen?!

3.) Wo genau nehme ich Daten in einer Größe von ~ 100 MB her? Ich dachte, meine Daten wären, was auch immer ich in char block_var[16] = ... reinschreibe?! Aber das können ja nur 15 Zeichen (+ '\0') sein?!

[EDIT]
Habe gerade noch dein Edit gelesen: Bei mir kann ich maximal 15 Zeichen einsetzen. Mit der Nullterminierung sind's dann 16, und das war's. Wenn ich mehr Zeichen einsetze, wie z. B. "mein toller text", kommt ein Error, dass ich nicht 17 Zeichen nehmen könne, um ein 16 Zeichen char Feld zu initialisieren.
 
Zuletzt bearbeitet:
AW: [CUDA] RC6

1) Nein das threadId.x wird von CUDA bereitgestellt und muss nicht übergeben werden. Die Variable heißt schon richtig, da der zweite Paramter in den <<<x, y>>> Klammern die Anzahl der Threads angibt. Es gibt neben Threads aber auch noch Blöcke in CUDA (nicht mit den Blöcken von RC6 zu verwechseln). Blöcke wirst du später auch noch brauchen, da es ein Limit von 512 Threads (oder 256 Threads weiß grade nicht genau und kommt auch auf die Hardware an) pro CUDA Block gibt. Rechnet man also 16 Byte * 512 Threads dann ist man grade mal bei 8KB. Um also irgendwas in der nähe von 100MB zu verarbeiten würde man nicht nur einen Block starten sondern auch noch einige Hundert Blöcke mit jeweils 512 Threads (oder auch weniger Threads pro Block aber dafür mehr Blöcke, muss man dann testen was am schnellsten ist). Um den aktuellen Block zu identifizieren gibts dann auch die automatisch bereitgestellte Variable blockIdx.x.

2) Die Blöcke laufen automatisch durch. Du musst dir vorstellen die rc6enc läuft schon parallel auf der GPU und in jeder Variante hat threadIdx.x einen anderen Wert. Wenn du später auch noch die Blöcke berücksichten willst dann sieht die Berechnung etwa so aus:
int b = blockIdx.x * blockDim.x + threadIdx.x;
Der Name blockDim ist meiner meinung nach etwas verwirrend gewählt aber gibt die Anzahl der Threads pro Block an (also der zweite Parameter bei <<<x, y>>>). Wenn man darüber etwas nachdenkt sollte einem klar werden, dass so alle Werte durchlaufen werden. Die ganzen Variablen haben übrigens mehere Komponenten daher steht immer noch das .x dahinter. Für mehrdimensionale Arrays ist das ganz praktisch aber das brauchen wir hier nicht.

3) Die Größe von 100MB muss natürlich wenigstens auf der GPU reserviert werden. Wenn dich eh nicht interessiert was verschlüsselt wird dann kannst du die block_var[] Variable auf der CPU einfach weglassen und dann nur die block Variable mit der gewünschten Größe reservieren. Statt cudaMemcpy kannst du dann cudaMemset benutzen um alle Bytes auf 0 zu setzen. Ich würde dir raten am Anfang der main() Funktion eine Variable int threads oder so anzulegen, um die Anzahl der Threads feszulegen. Dann kannst du einfach 16*threads Bytes für die block Variable reservieren und das auch als Parameter benutzten. Also rc6enc<<<1,threads>>>(block, s). Dann kannst du einfach mit der Anzahl der Threads spielen und den optimalen Wert für deine GPU finden. Das gleiche dann später auch für die Anzahl der CUDA-Blöcke.

Edit: Wenn du schon mehr als 16 Zeichen in ein char block_var[16] schreiben willst dann musst du natürlich auch das Array größer wählen. Leider kannst du nicht sowas wie char block_var[16*threads] schreiben sondern musst das dynamisch reservieren. Also char* block_var = (char*)malloc(16*threads); Dann funktioniert allerdings das sizeof(block_var) nicht mehr wie gewünscht sondern gibt nur noch die größe des Pointers zurück und nicht die Größe des Speicherbereichs. In dem Code kommt jedenfalls irgendwo sizeof(block_var) vor. Da muss dann auch überall 16*threads stehen.
 
Zuletzt bearbeitet:
AW: [CUDA] RC6

Okay, klingt gar nicht sooo schwer. Ich war auch gerade dabei, mir das mit den Blöcken und Threads noch in einem nVidia CUDA PDF genauer anzuschauen. Ich kann mich aber erst heute Nacht damit beschäftigen. Sobald's was neues gibt, melde ich mich. Schon mal vielen Dank bis hierher! :daumen:
 
AW: [CUDA] RC6

Laut Wikipedia kann CUDA bereits seit Version 2.0 1024 Threads pro Block haben. Meine Rechnung ist daher folgende:

100 MB = 104857600 Byte
1 Thread = 16 Byte
1024 Threads = 16384 Bytes
104857600 / 16384 = 6400 Blocks
--> <<<6400,1024>>>

Den Code habe ich daher jetzt erstmal soweit angepasst:
Code:
#include <cuda_runtime.h>
#include <stdio.h>
#include <stdint.h>
#include <stdlib.h>
#include "RC6.h"

#define P32 0xB7E15163
#define Q32 0x9E3779B9

#define HandleError(x) HandleErrorImpl(x, __FILE__, __LINE__)

__device__ __host__ uint32_t rotl32(uint32_t a, uint8_t n){
        n &= 0x1f;
        return ( (a<<n)| (a>>(32-n)) );
}
__device__ __host__ uint32_t rotr32(uint32_t a, uint8_t n){
        n &= 0x1f;
        return ( (a>>n)| (a<<(32-n)) );
}

uint8_t rc6_init(void* key, uint16_t keylength_b, rc6_ctx_t *s){
        return rc6_initl(key, keylength_b, 20, s);
}


uint8_t rc6_initl(void* key, uint16_t keylength_b, uint8_t rounds, rc6_ctx_t *s){
        uint8_t i,j;
        uint16_t v,p,c;
        uint32_t a,b, l=0;
        if (rounds>125)
                return 2;
        if(!(s->S=(uint32_t*)malloc((2*rounds+4)*sizeof(uint32_t))))
                return 1;

        s->rounds=rounds;

        c = keylength_b/32;
        if (keylength_b%32){
                ++c;
                j=(keylength_b%32)/8;
                if(keylength_b%8)
                        ++j;
                for (i=0; i<j; ++i)
                        ((uint8_t*)&l)[i] = ((uint8_t*)key)[(c-1)*4 + i];
        } else {
                l = ((uint32_t*)key)[c-1];
        }

        s->S[0] = P32;
        for(i=1; i<2*rounds+4; ++i){
                s->S[i] = s->S[i-1] + Q32;
        }

        a=b=j=i=0;
        v = 3 * ((c > 2*rounds+4)?c:(2*rounds+4));
        for(p=1; p<=v; ++p){
                a = s->S[i] = rotl32(s->S[i] + a + b, 3);
                if (j==c-1){
                        b = l = rotl32(l+a+b, a+b);
                } else {
                        b = ((uint32_t*)key)[j] = rotl32(((uint32_t*)key)[j]+a+b, a+b);
                }
                i = (i+1) % (2*rounds+4);
                j = (j+1) % c;
        }
        return 0;
}

void rc6_free(rc6_ctx_t *s){
        free(s->S);
}

#define LG_W 5
#define A (((uint32_t*)block)[0])
#define B (((uint32_t*)block)[1])
#define C (((uint32_t*)block)[2])
#define D (((uint32_t*)block)[3])

__device__ void rc6_enc(void* block, rc6_ctx_t *s) {
    uint8_t i;
    uint32_t t,u,x;

    B += s->S[0];
    D += s->S[1];

    for (i=1; i<=s->rounds; ++i){
        t = rotl32(B * (2*B+1), LG_W);
        u = rotl32(D * (2*D+1), LG_W);
        A = rotl32((A ^ t), u) + s->S[2*i];
        C = rotl32((C ^ u), t) + s->S[2*i+1];
        x = A;
        A = B;
        B = C;
        C = D;
        D = x;
    }
    A += s->S[2*s->rounds+2];
    C += s->S[2*s->rounds+3];
}

__device__ void rc6_dec(void* block, rc6_ctx_t *s) {
    uint8_t i;
    uint32_t t,u,x;

    C -= s->S[2*s->rounds+3];
    A -= s->S[2*s->rounds+2];

    for (i=s->rounds; i>0; --i){
        x=D;
        D=C;
        C=B;
        B=A;
        A=x;
        u = rotl32(D * (2*D+1), LG_W);
        t = rotl32(B * (2*B+1), LG_W);
        C = rotr32(C - s->S[2*i+1], t) ^ u;
        A = rotr32(A - s->S[2*i+0], u) ^ t;
    }
    D -= s->S[1];
    B -= s->S[0];
}

__global__ void rc6enc(char* block, rc6_ctx_t *s) {
    [COLOR=royalblue][B]int b = blockIdx.x*blockDim.x + threadIdx.x;[/B]    rc6_enc(block + 16*b, s);
}

__global__ void rc6dec(char* block, rc6_ctx_t *s) {
    [COLOR=royalblue][B]int b = blockIdx.x*blockDim.x + threadIdx.x;[/B]    rc6_enc(block + 16*b, s);
}

inline void HandleErrorImpl(cudaError error, const char* file, int line) {
    if (error != cudaSuccess) {
        printf("%s: %d %s", file, line, cudaGetErrorString(error));
        exit(1);
    }
}

int main(void) {
    char* key = "meingeheimespasswort";
    [COLOR=royalblue][B]int threads = 1024;
    int blocks = 6400;[/B]    rc6_ctx_t s_var;
    rc6_ctx_t *s;
    rc6_init(key, strlen(key), &s_var);
    [COLOR=royalblue][B]char* block_var = (char*)malloc(16*threads);
    block_var = "Gaaaaaaaaaanz laaaaanger Testring";[/B]
    char* block;
    cudaMalloc(&block, sizeof([COLOR=royalblue][B]16*threads[/B]));
    cudaMemcpy(block, &block_var, sizeof([COLOR=royalblue][B]16*threads[/B]), cudaMemcpyHostToDevice);

    rc6_ctx_t tmp = s_var;
    cudaMalloc(&tmp.S, (2*s_var.rounds+4)*sizeof(uint32_t));
    cudaMemcpy(tmp.S, s_var.S, (2*s_var.rounds+4)*sizeof(uint32_t), cudaMemcpyHostToDevice);

    cudaMalloc(&s, sizeof(tmp));
    cudaMemcpy(s, &tmp, sizeof(tmp), cudaMemcpyHostToDevice);

    cudaEvent_t start, stop;
    HandleError(cudaEventCreate(&start));
    HandleError(cudaEventCreate(&stop));
    HandleError(cudaEventRecord( start, 0 ));

    [COLOR=royalblue][B]rc6enc<<<blocks,threads>>>(block, s);
    rc6dec<<<blocks,threads>>>(block, s);[/B]
    HandleError(cudaEventRecord( stop, 0 ));
    HandleError(cudaEventSynchronize( stop ));
    float elapsedTime;
    HandleError(cudaEventElapsedTime( &elapsedTime, start, stop ));

    printf("time: %.4f ms\n", elapsedTime);

    HandleError(cudaEventDestroy( start ));
    HandleError(cudaEventDestroy( stop ));

    cudaFree(s);
    cudaFree(block);

    return 0;
}
Bei deinem Punkt 3) und dem Edit blicke ich noch nicht so ganz durch. Das muss ich mir jetzt noch durchüberlegen. Speziell das mit dem Reservieren der 100 MB ...

Auf jeden Fall ist die zeitliche Verbesserung jetzt schon beeindruckend:

snapshot21.png

[Edit]
Das mit den 100 MB würde wohl so aussehen:
Code:
cudaMemset( , 0, sizeof(int)*26214400); // = 100 MB (int = 4 Byte)???
Mir fehlt nur der Pointer to device memory. Den muss ich mir noch überlegen. Soweit ich das verstehe, wären dann 100 MB im VRAM reserviert, aber es hängt von der Länge meines beliebig gewählten Text-Strings ab, wie viel davon dann tatsächlich belegt wird?! Der Rest bleibt 0er, es werden aber immer die vollen 100 MB verschlüsselt?!
Am Ende könnte es dann sein, dass z. B. 10 KB Text + jede Menge 0er hintendran (bis eben das Ende der 100 MB erreicht ist) verschlüsselt werden, oder?
 
Zuletzt bearbeitet:
AW: [CUDA] RC6

Wenn du das direkt mit mehreren Blöcken machen willst dann ist diese Berechnung falsch:
Code:
char* block_var = (char*)malloc(16*threads);
Du musst dann natürlich 16*threads*blocks Bytes reservieren. Die Zuweisung
Code:
block_var = "Gaaaaaaaaaanz laaaaanger Testring";
ist auch nicht richtig. Dadurch kopierst du nicht den Text in den grade reservierten Speicher, sondern der block_var Pointer zeigt jetzt auf den Text den du eingegeben hast. Falls du Text kopieren willst bietet sich strcpy an:
Code:
strcpy(block_var, "langer text"); // aufpassen, dass block_var groß genug ist
Da dir die Daten, die verschlüsstelt werden aber eh nicht so wichtig sind kannst du den ganzen krams mit der block_var weglassen und machst nur folgendes:
Code:
char* block;
cudaMalloc(&block, 16*threads*blocks);
cudaMemset(block, 0, 16*threads*blocks);
Statt ein cudaMemcpy aus der block_var setzt du mit cudaMemset einfach den gesamten Speicher auf 0.

Die zeitliche verbesserung ist merkwürdig. Ich vermute fast es gibt wieder irgendwo einen Fehler. Die Zeit sollte bei vielen Threads und Blöcken ja erstmal zunehmen, nur auf die Gesamtdatenmenge bezogen wird es schneller. Ich würde mir dazu 16*threads*blocks/elapsedTime ausgeben lassen. Eventuell das ganze von Byte pro Millisekunde noch in MB pro Sekunde umrechnen. Je mehr MB/s umso besser ist es natürlich.

Laut dieser Liste hier (https://developer.nvidia.com/cuda-gpus) kann deine 9600M GT nur Compute Capability 1.0. Also wird das wohl nichts mit 1024 Threads pro Block. Die volle Zahl an Threads pro Blocks auszunutzen macht meistens eh keinen Sinn, da es je nach Hardware das Optimum bei weniger Threads pro Block und dafür mehr Blöcken liegt. Sobald es dann läuft würde ich also mit der Thread und Blockanzahl etwas rumspielen. Die 100MB sind auch nicht so eng zu sehen aber die Menge an zu verschlüsselten Daten sollte nicht nur bei einigen KB liegen, da dann mehr Zeit fürs Kopieren und Starten der Kernel drauf geht.

Edit: Da hab ich grade auch noch einen Fehler übersehen und einfach mitkopiert. sizeof(16*threads) ist natürlich Quatsch. Das sizeof() muss weg.
 
Zuletzt bearbeitet:
AW: [CUDA] RC6

Also ich habe das jetzt noch gemäß deiner Erklärung geändert, und wenn ich das richtig verstanden habe, werden jetzt 100 MB in lauter 0er ver- und dann wieder entschlüsselt?!

Vorrausgesetzt, der Code und meine "wilde Rechnerei" im printf stimmen, wären wir jetzt auf der 9600M GT bei 27 MB/sec, was ich bei der Hardware für beachtlich halte.

Die Frage ist halt: Was macht die 9600M GT, wenn mehr Threads angegeben sind, als sie pro Block verarbeiten kann? Rechnet die dann automatisch nur mit 512 Threads und ich verliere 50 MB? Das Benchmarksystem sind dann wie gesagt 2x GTX 560 Ti SLI, die mit den 1024 Threads kein Problem haben sollten ...

snapshot22.png

Code:
printf("time: %.f MB/sec\n, ((16*threads*blocks")/1048576)/(elapsedTime*1000));
 
AW: [CUDA] RC6

Wenn du mehr Threads pro Block angibst, wie von der Hardware verarbeitet werden können dann startet der Kernel erst gar nicht. Sollte dann hoffentlich eine Fehlermeldung bei einem der HandleError() geben. Eigentlich müsstest du diesen Wert auch noch mal 2 nehmen, da du ja ver- und danach wieder entschlüsselst. Wären wir bei 52MB/s was durchaus annehmbar klingt. Aber wie gesagt ist es nicht besonders sinnvoll die vollen 1024 Threads zu nutzen auch wenn die GPU das kann. Wenn ich mich nicht irre waren 256 Threads bei einer GTX 570 am schnellsten. Aber du musst dann einfach mal an der Anzahl Threads und Blöcke spielen und gucken was am meisten Datendurchsatz bringt. Anzahl der Threads sollte aber eine Zweierpotenz sein. Anzahl der Blöcke ist frei wählbar.

Edit: Ich weiß grade gar nicht ob dein Code so schon auf mehreren GPUs parallel läuft. In dem System womit ich gearbeitet hab waren 2x GTX 570 aber nicht per SLI verbunden glaube ich. Jedenfalls liefen da die Berechnungen immer nur auf einer GPU, außer man kümmert sich extra darum alle GPUs anzusprechen.
 
Zuletzt bearbeitet:
AW: [CUDA] RC6

Ein Problem gibt's noch: Von 1 - 1024 kann ich jede beliebige 2er Potenz für die Threads wählen, ABER wenn ich bei den Blöcken eine gewisse Anzahl überschreite, kommt wieder dieser failure error, den wir schon mal hatten. Ich weiß nicht, wo genau die Grenze liegt, aber ich habe z. B. mal die Threads auf 512 gesetzt und dafür die Anzahl der Blöcke auf 12800 verdoppelt (um immer noch die 100 MB zu haben) --> Error. :huh:

BTW: Wenn ich das richtig verstanden habe, werden jetzt 100 MB in lauter 0er ver- und dann wieder entschlüsselt?!

[EDIT]
Der Error ist wieder in der synchronize Zeile (168, siehe Screenshot oben). Habe eben 256 Threads in 25600 Blocks (sind ebenfalls 100 MB) ausprobiert und ihn wieder bekommen. Gibt's in CUDA auch Block-Limits für unterschiedliche Grafikkarten?
 
Zuletzt bearbeitet:
AW: [CUDA] RC6

Mh laut CUDA Programming Guide liegt das Limit bei 65535 Blöcken bis es dann mit Compute Capability 3 nochmal angehoben wird. Musst du wohl einfach so viele Blöcke nehmen wie noch geht und dann gucken ob die Zeit noch sinnvoll gemessen wird oder schon zu kurz ist. Wenn die Zeit zu kurz ist dann kannst du den Kernel auch einfach häufiger hintereinander aufrufen. Kommt der Fehler eigentlich sofort oder dauert es kurz? Ich weiß, dass zumindest unter Windows der Grafikkarten Treiber abgeschossen wird wenn ein Kernel Aufruf länger als 3 Sekunden oder so dauert. Eventuell gibts sowas unter Linux auch.
 
AW: [CUDA] RC6

Ich bin hier unter Kubuntu 13.10 unterwegs ... und es dauert immer ziemlich lange (bei sehr hoher Block-Anzahl) bis der Fehler kommt. Eben musste ich den Laptop "gewaltsam" neustarten, weil sich gleich alles aufgehängt hatte. :ugly:
 
AW: [CUDA] RC6

Ja vermutlich wird dann der Kernelaufruf einfach abgebrochen weil er zu lange dauert. Statt die Blockanzahl weiter zu erhöhen dann einfach den Kernel mehrmals nacheinander starten. Das ganze jedenfalls irgendwie so wählen, dass die Messdauer ein paar Sekunden beträgt.
 
AW: [CUDA] RC6

Wahrscheinlich habe ich wieder einen Denkfehler, aber wenn ich z. B. sage: 256 Threads und 6400 Blocks, dann wären das 25 MB. Wenn ich jetzt also rc6enc und rc6dec jeweils 4 Mal hintereinander aufrufe, dann werden doch immer nur die selben 25 MB ver- und entschlüsselt?! Was, wenn ich aber wirklich 100 MB Daten habe? Dann bleiben 75 MB liegen?!

[EDIT]
Nö, geht eh nicht. 256 Threads, 6400 Blocks und 4x enc/dec liefert ebenfalls einen Error: the launch timed out and was terminated

^^ Das einzige, das vernünftig geht, sind 1024 Threads und 6400 Blocks, obwohl meine 9600M GT gar nicht mehr wie 512 Threads schaffen dürfte.
 
AW: [CUDA] RC6 / Serpent

Serpent

Ich denke, RC6 kann man so lassen?! Sobald ich dann das Benchmarksystem habe, kann ich mit den Anzahlen der Threads und Blocks herumprobieren so viel ich will. Auf der 9600M GT läufts eben nur bis <<<6400,1024>>>, was aber für einen ersten Test ja auch gereicht hat.

Heute habe ich mir gleich einen Serpent Code besorgt, den's zufällig sogar schon in CUDA gab, allerdings musste ich da auch noch genug hinzufügen, um den für meine Zwecke anzupassen. Das ist dabei rausgekommen:

Serpent.cu
Code:
// serpent.cpp - written and placed in the public domain by Wei Dai

/* Adapted for TrueCrypt */

#ifdef TC_WINDOWS_BOOT
#pragma optimize ("t", on)
#endif

// GWAT
//#include "Serpent.h"
#ifndef HEADER_Crypto_Serpent
#define HEADER_Crypto_Serpent

//#include "/home/arthur/Desktop/truecrypt-7.1a-source/Common/Tcdefs.h"
/*
Legal Notice: Some portions of the source code contained in this file were
derived from the source code of Encryption for the Masses 2.02a, which is
Copyright (c) 1998-2000 Paul Le Roux and which is governed by the 'License
Agreement for Encryption for the Masses'. Modifications and additions to
the original source code (contained in this file) and all other portions
of this file are Copyright (c) 2003-2010 TrueCrypt Developers Association
and are governed by the TrueCrypt License 3.0 the full text of which is
contained in the file License.txt included in TrueCrypt binary and source
code distribution packages. */

#ifndef TCDEFS_H
#define TCDEFS_H

#define TC_APP_NAME                                                "TrueCrypt"

// Version displayed to user
#define VERSION_STRING                                        "7.1a"

// Version number to compare against driver
#define VERSION_NUM                                                0x071a

// Release date
#define TC_STR_RELEASE_DATE                                "February 7, 2012"
#define TC_RELEASE_DATE_YEAR                        2012
#define TC_RELEASE_DATE_MONTH                        2

#define BYTES_PER_KB 1024LL
#define BYTES_PER_MB 1048576LL
#define BYTES_PER_GB 1073741824LL
#define BYTES_PER_TB 1099511627776LL
#define BYTES_PER_PB 1125899906842624LL

/* GUI/driver errors */

#define WIDE(x) (LPWSTR)L##x

#ifdef _MSC_VER

typedef __int8 int8;
typedef __int16 int16;
typedef __int32 int32;
typedef unsigned __int8 byte;
typedef unsigned __int16 uint16;
typedef unsigned __int32 uint32;

#ifdef TC_NO_COMPILER_INT64
typedef unsigned __int32        TC_LARGEST_COMPILER_UINT;
#else
typedef unsigned __int64        TC_LARGEST_COMPILER_UINT;
typedef __int64 int64;
typedef unsigned __int64 uint64;
#endif

#else // !_MSC_VER

#include <inttypes.h>
#include <limits.h>
[COLOR=royalblue][B]#include <stdio.h>

#define HandleError(x) HandleErrorImpl(x, __FILE__, __LINE__)[/B]
typedef int8_t int8;
typedef int16_t int16;
typedef int32_t int32;
typedef int64_t int64;
typedef uint8_t byte;
typedef uint16_t uint16;
typedef uint32_t uint32;
typedef uint64_t uint64;

#if UCHAR_MAX != 0xffU
#error UCHAR_MAX != 0xff
#endif
#define __int8 char

#if USHRT_MAX != 0xffffU
#error USHRT_MAX != 0xffff
#endif
#define __int16 short

#if UINT_MAX != 0xffffffffU
#error UINT_MAX != 0xffffffff
#endif
#define __int32 int

typedef uint64 TC_LARGEST_COMPILER_UINT;

#define BOOL int
#ifndef FALSE
#define FALSE 0
#define TRUE 1
#endif

#endif // !_MSC_VER

#define TC_INT_TYPES_DEFINED

// Integer types required by Cryptolib
typedef unsigned __int8 uint_8t;
typedef unsigned __int16 uint_16t;
typedef unsigned __int32 uint_32t;
#ifndef TC_NO_COMPILER_INT64
typedef uint64 uint_64t;
#endif

typedef union
{
        struct
        {
                unsigned __int32 LowPart;
                unsigned __int32 HighPart;
        };
#ifndef TC_NO_COMPILER_INT64
        uint64 Value;
#endif

} UINT64_STRUCT;

#ifdef TC_WINDOWS_BOOT

#        ifdef __cplusplus
extern "C"
#        endif
void ThrowFatalException (int line);

#        define TC_THROW_FATAL_EXCEPTION        ThrowFatalException (__LINE__)
#elif defined (TC_WINDOWS_DRIVER)
#        define TC_THROW_FATAL_EXCEPTION KeBugCheckEx (SECURITY_SYSTEM, __LINE__, 0, 0, 'TC')
#else
#        define TC_THROW_FATAL_EXCEPTION        *(char *) 0 = 0
#endif

#ifdef TC_WINDOWS_DRIVER

#include <ntifs.h>
#include <ntddk.h>                /* Standard header file for nt drivers */
#include <ntdddisk.h>                /* Standard I/O control codes */

#define TCalloc(size) ((void *) ExAllocatePoolWithTag( NonPagedPool, size, 'MMCT' ))
#define TCfree(memblock) ExFreePoolWithTag( memblock, 'MMCT' )

#define DEVICE_DRIVER

#ifndef BOOL
typedef int BOOL;
#endif

#ifndef TRUE
#define TRUE 1
#endif

#ifndef FALSE
#define FALSE !TRUE
#endif

#else                                /* !TC_WINDOWS_DRIVER */

#define TCalloc malloc
#define TCfree free

#ifdef _WIN32

#ifndef TC_LOCAL_WIN32_WINNT_OVERRIDE
#        undef _WIN32_WINNT
#        define        _WIN32_WINNT 0x0501        /* Does not apply to the driver */
#endif

#include <windows.h>                /* Windows header */
#include <commctrl.h>                /* The common controls */
#include <process.h>                /* Process control */
#include <winioctl.h>
#include <stdio.h>                /* For sprintf */

#endif                                /* _WIN32 */

#endif                                /* !TC_WINDOWS_DRIVER */

#ifndef TC_TO_STRING
#        define TC_TO_STRING2(n) #n
#        define TC_TO_STRING(n) TC_TO_STRING2(n)
#endif

#ifdef DEVICE_DRIVER
#        if defined (DEBUG) || 0
#                if 1 // DbgPrintEx is not available on Windows 2000
#                        define Dump DbgPrint
#                else
#                        define Dump(...) DbgPrintEx (DPFLTR_IHVDRIVER_ID, DPFLTR_ERROR_LEVEL, __VA_ARGS__)
#                endif
#                define DumpMem(...) DumpMemory (__VA_ARGS__)
#        else
#                define Dump(...)
#                define DumpMem(...)
#        endif
#endif

#if !defined (trace_msg) && !defined (TC_WINDOWS_BOOT)
#        ifdef DEBUG
#                ifdef DEVICE_DRIVER
#                        define trace_msg Dump
#                elif defined (_WIN32)
#                        define trace_msg(...) do { char msg[2048]; _snprintf (msg, sizeof (msg), __VA_ARGS__); OutputDebugString (msg); } while (0)
#                endif
#                define trace_point trace_msg (__FUNCTION__ ":" TC_TO_STRING(__LINE__) "\n")
#        else
#                define trace_msg(...)
#                define trace_point
#        endif
#endif

#ifdef DEVICE_DRIVER
#        define TC_EVENT KEVENT
#        define TC_WAIT_EVENT(EVENT) KeWaitForSingleObject (&EVENT, Executive, KernelMode, FALSE, NULL)
#elif defined (_WIN32)
#        define TC_EVENT HANDLE
#        define TC_WAIT_EVENT(EVENT) WaitForSingleObject (EVENT, INFINITE)
#endif

#ifdef _WIN32
#define burn(mem,size) do { volatile char *burnm = (volatile char *)(mem); int burnc = size; RtlSecureZeroMemory (mem, size); while (burnc--) *burnm++ = 0; } while (0)
#else
#define burn(mem,size) do { volatile char *burnm = (volatile char *)(mem); int burnc = size; while (burnc--) *burnm++ = 0; } while (0)
#endif

// The size of the memory area to wipe is in bytes amd it must be a multiple of 8.
#ifndef TC_NO_COMPILER_INT64
#        define FAST_ERASE64(mem,size) do { volatile uint64 *burnm = (volatile uint64 *)(mem); int burnc = size >> 3; while (burnc--) *burnm++ = 0; } while (0)
#else
#        define FAST_ERASE64(mem,size) do { volatile unsigned __int32 *burnm = (volatile unsigned __int32 *)(mem); int burnc = size >> 2; while (burnc--) *burnm++ = 0; } while (0)
#endif

#ifdef TC_WINDOWS_BOOT
#        ifndef max
#                define max(a,b) (((a) > (b)) ? (a) : (b))
#        endif

#        ifdef __cplusplus
extern "C"
#        endif
void EraseMemory (void *memory, int size);

#        undef burn
#        define burn EraseMemory
#endif

#ifdef MAX_PATH
#define TC_MAX_PATH                MAX_PATH
#else
#define TC_MAX_PATH                260        /* Includes the null terminator */
#endif

#define TC_STR_RELEASED_BY "Released by TrueCrypt Foundation on " TC_STR_RELEASE_DATE

#define MAX_URL_LENGTH        2084 /* Internet Explorer limit. Includes the terminating null character. */

#define TC_HOMEPAGE "http://www.truecrypt.org/"
#define TC_APPLINK "http://www.truecrypt.org/applink?version=" VERSION_STRING
#define TC_APPLINK_SECURE "https://www.truecrypt.org/applink?version=" VERSION_STRING

enum
{
        /* WARNING: ADD ANY NEW CODES AT THE END (DO NOT INSERT THEM BETWEEN EXISTING). DO *NOT* DELETE ANY
        EXISTING CODES! Changing these values or their meanings may cause incompatibility with other versions
        (for example, if a new version of the TrueCrypt installer receives an error code from an installed
        driver whose version is lower, it will report and interpret the error incorrectly). */

        ERR_SUCCESS                                                                = 0,
        ERR_OS_ERROR                                                        = 1,
        ERR_OUTOFMEMORY                                                        = 2,
        ERR_PASSWORD_WRONG                                                = 3,
        ERR_VOL_FORMAT_BAD                                                = 4,
        ERR_DRIVE_NOT_FOUND                                                = 5,
        ERR_FILES_OPEN                                                        = 6,
        ERR_VOL_SIZE_WRONG                                                = 7,
        ERR_COMPRESSION_NOT_SUPPORTED                        = 8,
        ERR_PASSWORD_CHANGE_VOL_TYPE                        = 9,
        ERR_PASSWORD_CHANGE_VOL_VERSION                        = 10,
        ERR_VOL_SEEKING                                                        = 11,
        ERR_VOL_WRITING                                                        = 12,
        ERR_FILES_OPEN_LOCK                                                = 13,
        ERR_VOL_READING                                                        = 14,
        ERR_DRIVER_VERSION                                                = 15,
        ERR_NEW_VERSION_REQUIRED                                = 16,
        ERR_CIPHER_INIT_FAILURE                                        = 17,
        ERR_CIPHER_INIT_WEAK_KEY                                = 18,
        ERR_SELF_TESTS_FAILED                                        = 19,
        ERR_SECTOR_SIZE_INCOMPATIBLE                        = 20,
        ERR_VOL_ALREADY_MOUNTED                                        = 21,
        ERR_NO_FREE_DRIVES                                                = 22,
        ERR_FILE_OPEN_FAILED                                        = 23,
        ERR_VOL_MOUNT_FAILED                                        = 24,
        DEPRECATED_ERR_INVALID_DEVICE                        = 25,
        ERR_ACCESS_DENIED                                                = 26,
        ERR_MODE_INIT_FAILED                                        = 27,
        ERR_DONT_REPORT                                                        = 28,
        ERR_ENCRYPTION_NOT_COMPLETED                        = 29,
        ERR_PARAMETER_INCORRECT                                        = 30,
        ERR_SYS_HIDVOL_HEAD_REENC_MODE_WRONG        = 31,
        ERR_NONSYS_INPLACE_ENC_INCOMPLETE                = 32,
        ERR_USER_ABORT                                                        = 33
};

#endif         // #ifndef TCDEFS_H

#ifdef __cplusplus
extern "C"
{
#endif

void serpent_set_key(const unsigned __int8 userKey[], int keylen, unsigned __int8 *ks);
void serpent_encrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks);
void serpent_decrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks);

#ifdef __cplusplus
}
#endif

#endif // HEADER_Crypto_Serpent
//END GWAT

// GWAT
//#include "/home/arthur/Desktop/truecrypt-7.1a-source/Common/Endian.h"
/*
Legal Notice: Some portions of the source code contained in this file were
derived from the source code of Encryption for the Masses 2.02a, which is
Copyright (c) 1998-2000 Paul Le Roux and which is governed by the 'License
Agreement for Encryption for the Masses'. Modifications and additions to
the original source code (contained in this file) and all other portions
of this file are Copyright (c) 2003-2009 TrueCrypt Developers Association
and are governed by the TrueCrypt License 3.0 the full text of which is
contained in the file License.txt included in TrueCrypt binary and source
code distribution packages. */

#ifndef TC_ENDIAN_H
#define TC_ENDIAN_H

//#include "/home/arthur/Desktop/truecrypt-7.1a-source/Common/Tcdefs.h"

#if defined(__cplusplus)
extern "C"
{
#endif

#ifdef _WIN32

#        ifndef LITTLE_ENDIAN
#                define LITTLE_ENDIAN 1234
#        endif
#        ifndef BYTE_ORDER
#                define BYTE_ORDER LITTLE_ENDIAN
#        endif

#elif !defined(BYTE_ORDER)

#        ifdef TC_MACOSX
#                include <machine/endian.h>
#        elif defined (TC_BSD)
#                include <sys/endian.h>
#        elif defined (TC_SOLARIS)
#                include <sys/types.h>
#                define LITTLE_ENDIAN 1234
#                define BIG_ENDIAN 4321
#                ifdef _BIG_ENDIAN
#                        define BYTE_ORDER BIG_ENDIAN
#                else
#                        define BYTE_ORDER LITTLE_ENDIAN
#                endif
#        else
#                include <endian.h>
#        endif

#        ifndef BYTE_ORDER
#                ifndef __BYTE_ORDER
#                        error Byte order cannot be determined (BYTE_ORDER undefined)
#                endif

#                define BYTE_ORDER __BYTE_ORDER
#        endif

#        ifndef LITTLE_ENDIAN
#                define LITTLE_ENDIAN __LITTLE_ENDIAN
#        endif

#        ifndef BIG_ENDIAN
#                define BIG_ENDIAN __BIG_ENDIAN
#        endif

#endif // !BYTE_ORDER

/* Macros to read and write 16, 32, and 64-bit quantities in a portable manner.
These functions are implemented as macros rather than true functions as
the need to adjust the memory pointers makes them somewhat painful to call
in user code */

#define mputInt64(memPtr,data) \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 56 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 48 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 40 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 32 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 24 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 16 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 8 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( data ) & 0xFF )

#define mputLong(memPtr,data) \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 24 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 16 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 8 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( data ) & 0xFF )

#define mputWord(memPtr,data) \
        *memPtr++ = ( unsigned char ) ( ( ( data ) >> 8 ) & 0xFF ), \
        *memPtr++ = ( unsigned char ) ( ( data ) & 0xFF )

#define mputByte(memPtr,data)        \
        *memPtr++ = ( unsigned char ) data

#define mputBytes(memPtr,data,len) \
        memcpy (memPtr,data,len); \
        memPtr += len;

#define mgetInt64(memPtr)                 \
        ( memPtr += 8, ( ( unsigned __int64 ) memPtr[ -8 ] << 56 ) | ( ( unsigned __int64 ) memPtr[ -7 ] << 48 ) | \
        ( ( unsigned __int64 ) memPtr[ -6 ] << 40 ) | ( ( unsigned __int64 ) memPtr[ -5 ] << 32 ) | \
        ( ( unsigned __int64 ) memPtr[ -4 ] << 24 ) | ( ( unsigned __int64 ) memPtr[ -3 ] << 16 ) | \
         ( ( unsigned __int64 ) memPtr[ -2 ] << 8 ) | ( unsigned __int64 ) memPtr[ -1 ] )

#define mgetLong(memPtr)                 \
        ( memPtr += 4, ( ( unsigned __int32 ) memPtr[ -4 ] << 24 ) | ( ( unsigned __int32 ) memPtr[ -3 ] << 16 ) | \
         ( ( unsigned __int32 ) memPtr[ -2 ] << 8 ) | ( unsigned __int32 ) memPtr[ -1 ] )

#define mgetWord(memPtr)                 \
        ( memPtr += 2, ( unsigned short ) memPtr[ -2 ] << 8 ) | ( ( unsigned short ) memPtr[ -1 ] )

#define mgetByte(memPtr)                \
        ( ( unsigned char ) *memPtr++ )

#if BYTE_ORDER == BIG_ENDIAN
#        define LE16(x) MirrorBytes16(x)
#        define LE32(x) MirrorBytes32(x)
#        define LE64(x) MirrorBytes64(x)
#else
#        define LE16(x) (x)
#        define LE32(x) (x)
#        define LE64(x) (x)
#endif

#if BYTE_ORDER == LITTLE_ENDIAN
#        define BE16(x) MirrorBytes16(x)
#        define BE32(x) MirrorBytes32(x)
#        define BE64(x) MirrorBytes64(x)
#else
#        define BE16(x) (x)
#        define BE32(x) (x)
#        define BE64(x) (x)
#endif

unsigned __int16 MirrorBytes16 (unsigned __int16 x);
unsigned __int32 MirrorBytes32 (unsigned __int32 x);
#ifndef TC_NO_COMPILER_INT64
uint64 MirrorBytes64 (uint64 x);
#endif
void LongReverse ( unsigned __int32 *buffer , unsigned byteCount );

#if defined(__cplusplus)
}
#endif

#endif /* TC_ENDIAN_H */
//END GWAT

#include <memory.h>

// GWAT
#include <cuda.h>
#include <cuda_runtime_api.h>

#if defined(_WIN32) && !defined(_DEBUG)
#include <stdlib.h>
#define rotlFixed _rotl
#define rotrFixed _rotr
#else
#define rotlFixed(x,n) (((x) << (n)) | ((x) >> (32 - (n))))
#define rotrFixed(x,n) (((x) >> (n)) | ((x) << (32 - (n))))
#endif

// linear transformation
#define LT(i,a,b,c,d,e)        {\
        a = rotlFixed(a, 13);        \
        c = rotlFixed(c, 3);         \
        d = rotlFixed(d ^ c ^ (a << 3), 7);         \
        b = rotlFixed(b ^ a ^ c, 1);         \
        a = rotlFixed(a ^ b ^ d, 5);                 \
        c = rotlFixed(c ^ d ^ (b << 7), 22);}

// inverse linear transformation
#define ILT(i,a,b,c,d,e)        {\
        c = rotrFixed(c, 22);        \
        a = rotrFixed(a, 5);         \
        c ^= d ^ (b << 7);        \
        a ^= b ^ d;                 \
        b = rotrFixed(b, 1);         \
        d = rotrFixed(d, 7) ^ c ^ (a << 3);        \
        b ^= a ^ c;                 \
        c = rotrFixed(c, 3);         \
        a = rotrFixed(a, 13);}

// order of output from S-box functions
#define beforeS0(f) f(0,a,b,c,d,e)
#define afterS0(f) f(1,b,e,c,a,d)
#define afterS1(f) f(2,c,b,a,e,d)
#define afterS2(f) f(3,a,e,b,d,c)
#define afterS3(f) f(4,e,b,d,c,a)
#define afterS4(f) f(5,b,a,e,c,d)
#define afterS5(f) f(6,a,c,b,e,d)
#define afterS6(f) f(7,a,c,d,b,e)
#define afterS7(f) f(8,d,e,b,a,c)

// order of output from inverse S-box functions
#define beforeI7(f) f(8,a,b,c,d,e)
#define afterI7(f) f(7,d,a,b,e,c)
#define afterI6(f) f(6,a,b,c,e,d)
#define afterI5(f) f(5,b,d,e,c,a)
#define afterI4(f) f(4,b,c,e,a,d)
#define afterI3(f) f(3,a,b,e,c,d)
#define afterI2(f) f(2,b,d,e,c,a)
#define afterI1(f) f(1,a,b,c,e,d)
#define afterI0(f) f(0,a,d,b,e,c)

// The instruction sequences for the S-box functions
// come from Dag Arne Osvik's paper "Speeding up Serpent".

#define S0(i, r0, r1, r2, r3, r4) \
{ \
r3 ^= r0; \
r4 = r1; \
r1 &= r3; \
r4 ^= r2; \
r1 ^= r0; \
r0 |= r3; \
r0 ^= r4; \
r4 ^= r3; \
r3 ^= r2; \
r2 |= r1; \
r2 ^= r4; \
r4 = ~r4; \
r4 |= r1; \
r1 ^= r3; \
r1 ^= r4; \
r3 |= r0; \
r1 ^= r3; \
r4 ^= r3; \
}

#define I0(i, r0, r1, r2, r3, r4) \
{ \
r2 = ~r2; \
r4 = r1; \
r1 |= r0; \
r4 = ~r4; \
r1 ^= r2; \
r2 |= r4; \
r1 ^= r3; \
r0 ^= r4; \
r2 ^= r0; \
r0 &= r3; \
r4 ^= r0; \
r0 |= r1; \
r0 ^= r2; \
r3 ^= r4; \
r2 ^= r1; \
r3 ^= r0; \
r3 ^= r1; \
r2 &= r3; \
r4 ^= r2; \
}

#define S1(i, r0, r1, r2, r3, r4) \
{ \
r0 = ~r0; \
r2 = ~r2; \
r4 = r0; \
r0 &= r1; \
r2 ^= r0; \
r0 |= r3; \
r3 ^= r2; \
r1 ^= r0; \
r0 ^= r4; \
r4 |= r1; \
r1 ^= r3; \
r2 |= r0; \
r2 &= r4; \
r0 ^= r1; \
r1 &= r2; \
r1 ^= r0; \
r0 &= r2; \
r0 ^= r4; \
}

#define I1(i, r0, r1, r2, r3, r4) \
{ \
r4 = r1; \
r1 ^= r3; \
r3 &= r1; \
r4 ^= r2; \
r3 ^= r0; \
r0 |= r1; \
r2 ^= r3; \
r0 ^= r4; \
r0 |= r2; \
r1 ^= r3; \
r0 ^= r1; \
r1 |= r3; \
r1 ^= r0; \
r4 = ~r4; \
r4 ^= r1; \
r1 |= r0; \
r1 ^= r0; \
r1 |= r4; \
r3 ^= r1; \
}

#define S2(i, r0, r1, r2, r3, r4) \
{ \
r4 = r0; \
r0 &= r2; \
r0 ^= r3; \
r2 ^= r1; \
r2 ^= r0; \
r3 |= r4; \
r3 ^= r1; \
r4 ^= r2; \
r1 = r3; \
r3 |= r4; \
r3 ^= r0; \
r0 &= r1; \
r4 ^= r0; \
r1 ^= r3; \
r1 ^= r4; \
r4 = ~r4; \
}

#define I2(i, r0, r1, r2, r3, r4) \
{ \
r2 ^= r3; \
r3 ^= r0; \
r4 = r3; \
r3 &= r2; \
r3 ^= r1; \
r1 |= r2; \
r1 ^= r4; \
r4 &= r3; \
r2 ^= r3; \
r4 &= r0; \
r4 ^= r2; \
r2 &= r1; \
r2 |= r0; \
r3 = ~r3; \
r2 ^= r3; \
r0 ^= r3; \
r0 &= r1; \
r3 ^= r4; \
r3 ^= r0; \
}

#define S3(i, r0, r1, r2, r3, r4) \
{ \
r4 = r0; \
r0 |= r3; \
r3 ^= r1; \
r1 &= r4; \
r4 ^= r2; \
r2 ^= r3; \
r3 &= r0; \
r4 |= r1; \
r3 ^= r4; \
r0 ^= r1; \
r4 &= r0; \
r1 ^= r3; \
r4 ^= r2; \
r1 |= r0; \
r1 ^= r2; \
r0 ^= r3; \
r2 = r1; \
r1 |= r3; \
r1 ^= r0; \
}

#define I3(i, r0, r1, r2, r3, r4) \
{ \
r4 = r2; \
r2 ^= r1; \
r1 &= r2; \
r1 ^= r0; \
r0 &= r4; \
r4 ^= r3; \
r3 |= r1; \
r3 ^= r2; \
r0 ^= r4; \
r2 ^= r0; \
r0 |= r3; \
r0 ^= r1; \
r4 ^= r2; \
r2 &= r3; \
r1 |= r3; \
r1 ^= r2; \
r4 ^= r0; \
r2 ^= r4; \
}

#define S4(i, r0, r1, r2, r3, r4) \
{ \
r1 ^= r3; \
r3 = ~r3; \
r2 ^= r3; \
r3 ^= r0; \
r4 = r1; \
r1 &= r3; \
r1 ^= r2; \
r4 ^= r3; \
r0 ^= r4; \
r2 &= r4; \
r2 ^= r0; \
r0 &= r1; \
r3 ^= r0; \
r4 |= r1; \
r4 ^= r0; \
r0 |= r3; \
r0 ^= r2; \
r2 &= r3; \
r0 = ~r0; \
r4 ^= r2; \
}

#define I4(i, r0, r1, r2, r3, r4) \
{ \
r4 = r2; \
r2 &= r3; \
r2 ^= r1; \
r1 |= r3; \
r1 &= r0; \
r4 ^= r2; \
r4 ^= r1; \
r1 &= r2; \
r0 = ~r0; \
r3 ^= r4; \
r1 ^= r3; \
r3 &= r0; \
r3 ^= r2; \
r0 ^= r1; \
r2 &= r0; \
r3 ^= r0; \
r2 ^= r4; \
r2 |= r3; \
r3 ^= r0; \
r2 ^= r1; \
}

#define S5(i, r0, r1, r2, r3, r4) \
{ \
r0 ^= r1; \
r1 ^= r3; \
r3 = ~r3; \
r4 = r1; \
r1 &= r0; \
r2 ^= r3; \
r1 ^= r2; \
r2 |= r4; \
r4 ^= r3; \
r3 &= r1; \
r3 ^= r0; \
r4 ^= r1; \
r4 ^= r2; \
r2 ^= r0; \
r0 &= r3; \
r2 = ~r2; \
r0 ^= r4; \
r4 |= r3; \
r2 ^= r4; \
}

#define I5(i, r0, r1, r2, r3, r4) \
{ \
r1 = ~r1; \
r4 = r3; \
r2 ^= r1; \
r3 |= r0; \
r3 ^= r2; \
r2 |= r1; \
r2 &= r0; \
r4 ^= r3; \
r2 ^= r4; \
r4 |= r0; \
r4 ^= r1; \
r1 &= r2; \
r1 ^= r3; \
r4 ^= r2; \
r3 &= r4; \
r4 ^= r1; \
r3 ^= r0; \
r3 ^= r4; \
r4 = ~r4; \
}

#define S6(i, r0, r1, r2, r3, r4) \
{ \
r2 = ~r2; \
r4 = r3; \
r3 &= r0; \
r0 ^= r4; \
r3 ^= r2; \
r2 |= r4; \
r1 ^= r3; \
r2 ^= r0; \
r0 |= r1; \
r2 ^= r1; \
r4 ^= r0; \
r0 |= r3; \
r0 ^= r2; \
r4 ^= r3; \
r4 ^= r0; \
r3 = ~r3; \
r2 &= r4; \
r2 ^= r3; \
}

#define I6(i, r0, r1, r2, r3, r4) \
{ \
r0 ^= r2; \
r4 = r2; \
r2 &= r0; \
r4 ^= r3; \
r2 = ~r2; \
r3 ^= r1; \
r2 ^= r3; \
r4 |= r0; \
r0 ^= r2; \
r3 ^= r4; \
r4 ^= r1; \
r1 &= r3; \
r1 ^= r0; \
r0 ^= r3; \
r0 |= r2; \
r3 ^= r1; \
r4 ^= r0; \
}

#define S7(i, r0, r1, r2, r3, r4) \
{ \
r4 = r2; \
r2 &= r1; \
r2 ^= r3; \
r3 &= r1; \
r4 ^= r2; \
r2 ^= r1; \
r1 ^= r0; \
r0 |= r4; \
r0 ^= r2; \
r3 ^= r1; \
r2 ^= r3; \
r3 &= r0; \
r3 ^= r4; \
r4 ^= r2; \
r2 &= r0; \
r4 = ~r4; \
r2 ^= r4; \
r4 &= r0; \
r1 ^= r3; \
r4 ^= r1; \
}

#define I7(i, r0, r1, r2, r3, r4) \
{ \
r4 = r2; \
r2 ^= r0; \
r0 &= r3; \
r2 = ~r2; \
r4 |= r3; \
r3 ^= r1; \
r1 |= r0; \
r0 ^= r2; \
r2 &= r4; \
r1 ^= r2; \
r2 ^= r0; \
r0 |= r2; \
r3 &= r4; \
r0 ^= r3; \
r4 ^= r1; \
r3 ^= r4; \
r4 |= r0; \
r3 ^= r2; \
r4 ^= r2; \
}

// key xor
#define KX(r, a, b, c, d, e)        {\
        a ^= k[4 * r + 0]; \
        b ^= k[4 * r + 1]; \
        c ^= k[4 * r + 2]; \
        d ^= k[4 * r + 3];}


#ifdef TC_MINIMIZE_CODE_SIZE

static void S0f (unsigned __int32 *r0, unsigned __int32 *r1, unsigned __int32 *r2, unsigned __int32 *r3, unsigned __int32 *r4)
{
        *r3 ^= *r0;
        *r4 = *r1;
        *r1 &= *r3;
        *r4 ^= *r2;
        *r1 ^= *r0;
        *r0 |= *r3;
        *r0 ^= *r4;
        *r4 ^= *r3;
        *r3 ^= *r2;
        *r2 |= *r1;
        *r2 ^= *r4;
        *r4 = ~*r4;
        *r4 |= *r1;
        *r1 ^= *r3;
        *r1 ^= *r4;
        *r3 |= *r0;
        *r1 ^= *r3;
        *r4 ^= *r3;
}

static void S1f (unsigned __int32 *r0, unsigned __int32 *r1, unsigned __int32 *r2, unsigned __int32 *r3, unsigned __int32 *r4)
{
    *r0 = ~*r0;
    *r2 = ~*r2;
    *r4 = *r0;
    *r0 &= *r1;
    *r2 ^= *r0;
    *r0 |= *r3;
    *r3 ^= *r2;
    *r1 ^= *r0;
    *r0 ^= *r4;
    *r4 |= *r1;
    *r1 ^= *r3;
    *r2 |= *r0;
    *r2 &= *r4;
    *r0 ^= *r1;
    *r1 &= *r2;
    *r1 ^= *r0;
    *r0 &= *r2;
    *r0 ^= *r4;
}

static void S2f (unsigned __int32 *r0, unsigned __int32 *r1, unsigned __int32 *r2, unsigned __int32 *r3, unsigned __int32 *r4)
{
        *r4 = *r0;
        *r0 &= *r2;
        *r0 ^= *r3;
        *r2 ^= *r1;
        *r2 ^= *r0;
        *r3 |= *r4;
        *r3 ^= *r1;
        *r4 ^= *r2;
        *r1 = *r3;
        *r3 |= *r4;
        *r3 ^= *r0;
        *r0 &= *r1;
        *r4 ^= *r0;
        *r1 ^= *r3;
        *r1 ^= *r4;
        *r4 = ~*r4;
}

static void S3f (unsigned __int32 *r0, unsigned __int32 *r1, unsigned __int32 *r2, unsigned __int32 *r3, unsigned __int32 *r4)
{
        *r4 = *r0;
        *r0 |= *r3;
        *r3 ^= *r1;
        *r1 &= *r4;
        *r4 ^= *r2;
        *r2 ^= *r3;
        *r3 &= *r0;
        *r4 |= *r1;
        *r3 ^= *r4;
        *r0 ^= *r1;
        *r4 &= *r0;
        *r1 ^= *r3;
        *r4 ^= *r2;
        *r1 |= *r0;
        *r1 ^= *r2;
        *r0 ^= *r3;
        *r2 = *r1;
        *r1 |= *r3;
        *r1 ^= *r0;
}

static void S4f (unsigned __int32 *r0, unsigned __int32 *r1, unsigned __int32 *r2, unsigned __int32 *r3, unsigned __int32 *r4)
{
        *r1 ^= *r3;
        *r3 = ~*r3;
        *r2 ^= *r3;
        *r3 ^= *r0;
        *r4 = *r1;
        *r1 &= *r3;
        *r1 ^= *r2;
        *r4 ^= *r3;
        *r0 ^= *r4;
        *r2 &= *r4;
        *r2 ^= *r0;
        *r0 &= *r1;
        *r3 ^= *r0;
        *r4 |= *r1;
        *r4 ^= *r0;
        *r0 |= *r3;
        *r0 ^= *r2;
        *r2 &= *r3;
        *r0 = ~*r0;
        *r4 ^= *r2;
}

static void S5f (unsigned __int32 *r0, unsigned __int32 *r1, unsigned __int32 *r2, unsigned __int32 *r3, unsigned __int32 *r4)
{
        *r0 ^= *r1;
        *r1 ^= *r3;
        *r3 = ~*r3;
        *r4 = *r1;
        *r1 &= *r0;
        *r2 ^= *r3;
        *r1 ^= *r2;
        *r2 |= *r4;
        *r4 ^= *r3;
        *r3 &= *r1;
        *r3 ^= *r0;
        *r4 ^= *r1;
        *r4 ^= *r2;
        *r2 ^= *r0;
        *r0 &= *r3;
        *r2 = ~*r2;
        *r0 ^= *r4;
        *r4 |= *r3;
        *r2 ^= *r4;
}

static void S6f (unsigned __int32 *r0, unsigned __int32 *r1, unsigned __int32 *r2, unsigned __int32 *r3, unsigned __int32 *r4)
{
        *r2 = ~*r2;
        *r4 = *r3;
        *r3 &= *r0;
        *r0 ^= *r4;
        *r3 ^= *r2;
        *r2 |= *r4;
        *r1 ^= *r3;
        *r2 ^= *r0;
        *r0 |= *r1;
        *r2 ^= *r1;
        *r4 ^= *r0;
        *r0 |= *r3;
        *r0 ^= *r2;
        *r4 ^= *r3;
        *r4 ^= *r0;
        *r3 = ~*r3;
        *r2 &= *r4;
        *r2 ^= *r3;
}

static void S7f (unsigned __int32 *r0, unsigned __int32 *r1, unsigned __int32 *r2, unsigned __int32 *r3, unsigned __int32 *r4)
{
        *r4 = *r2;
        *r2 &= *r1;
        *r2 ^= *r3;
        *r3 &= *r1;
        *r4 ^= *r2;
        *r2 ^= *r1;
        *r1 ^= *r0;
        *r0 |= *r4;
        *r0 ^= *r2;
        *r3 ^= *r1;
        *r2 ^= *r3;
        *r3 &= *r0;
        *r3 ^= *r4;
        *r4 ^= *r2;
        *r2 &= *r0;
        *r4 = ~*r4;
        *r2 ^= *r4;
        *r4 &= *r0;
        *r1 ^= *r3;
        *r4 ^= *r1;
}

static void KXf (const unsigned __int32 *k, unsigned int r, unsigned __int32 *a, unsigned __int32 *b, unsigned __int32 *c, unsigned __int32 *d)
{
        *a ^= k[r];
        *b ^= k[r + 1];
        *c ^= k[r + 2];
        *d ^= k[r + 3];
}

#endif // TC_MINIMIZE_CODE_SIZE

#ifndef TC_MINIMIZE_CODE_SIZE

void serpent_set_key(const unsigned __int8 userKey[], int keylen, unsigned __int8 *ks)
{
        unsigned __int32 a,b,c,d,e;
        unsigned __int32 *k = (unsigned __int32 *)ks;
        unsigned __int32 t;
        int i;

        for (i = 0; i < keylen / (int)sizeof(__int32); i++)
                k[i] = LE32(((unsigned __int32*)userKey)[i]);

        if (keylen < 32)
                k[keylen/4] |= (unsigned __int32)1 << ((keylen%4)*8);

        k += 8;
        t = k[-1];
        for (i = 0; i < 132; ++i)
                k[i] = t = rotlFixed(k[i-8] ^ k[i-5] ^ k[i-3] ^ t ^ 0x9e3779b9 ^ i, 11);
        k -= 20;

#define LK(r, a, b, c, d, e)        {\
        a = k[(8-r)*4 + 0];                \
        b = k[(8-r)*4 + 1];                \
        c = k[(8-r)*4 + 2];                \
        d = k[(8-r)*4 + 3];}

#define SK(r, a, b, c, d, e)        {\
        k[(8-r)*4 + 4] = a;                \
        k[(8-r)*4 + 5] = b;                \
        k[(8-r)*4 + 6] = c;                \
        k[(8-r)*4 + 7] = d;}        \

        for (i=0; i<4; i++)
        {
                afterS2(LK); afterS2(S3); afterS3(SK);
                afterS1(LK); afterS1(S2); afterS2(SK);
                afterS0(LK); afterS0(S1); afterS1(SK);
                beforeS0(LK); beforeS0(S0); afterS0(SK);
                k += 8*4;
                afterS6(LK); afterS6(S7); afterS7(SK);
                afterS5(LK); afterS5(S6); afterS6(SK);
                afterS4(LK); afterS4(S5); afterS5(SK);
                afterS3(LK); afterS3(S4); afterS4(SK);
        }
        afterS2(LK); afterS2(S3); afterS3(SK);
}

#else // TC_MINIMIZE_CODE_SIZE

static void LKf (unsigned __int32 *k, unsigned int r, unsigned __int32 *a, unsigned __int32 *b, unsigned __int32 *c, unsigned __int32 *d)
{
        *a = k[r];
        *b = k[r + 1];
        *c = k[r + 2];
        *d = k[r + 3];
}

static void SKf (unsigned __int32 *k, unsigned int r, unsigned __int32 *a, unsigned __int32 *b, unsigned __int32 *c, unsigned __int32 *d)
{
        k[r + 4] = *a;
        k[r + 5] = *b;
        k[r + 6] = *c;
        k[r + 7] = *d;
}

void serpent_set_key(const unsigned __int8 userKey[], int keylen, unsigned __int8 *ks)
{
        unsigned __int32 a,b,c,d,e;
        unsigned __int32 *k = (unsigned __int32 *)ks;
        unsigned __int32 t;
        int i;

        for (i = 0; i < keylen / (int)sizeof(__int32); i++)
                k[i] = LE32(((unsigned __int32*)userKey)[i]);

        if (keylen < 32)
                k[keylen/4] |= (unsigned __int32)1 << ((keylen%4)*8);

        k += 8;
        t = k[-1];
        for (i = 0; i < 132; ++i)
                k[i] = t = rotlFixed(k[i-8] ^ k[i-5] ^ k[i-3] ^ t ^ 0x9e3779b9 ^ i, 11);
        k -= 20;

        for (i=0; i<4; i++)
        {
                LKf (k, 20, &a, &e, &b, &d); S3f (&a, &e, &b, &d, &c); SKf (k, 16, &e, &b, &d, &c);
                LKf (k, 24, &c, &b, &a, &e); S2f (&c, &b, &a, &e, &d); SKf (k, 20, &a, &e, &b, &d);
                LKf (k, 28, &b, &e, &c, &a); S1f (&b, &e, &c, &a, &d); SKf (k, 24, &c, &b, &a, &e);
                LKf (k, 32, &a, &b, &c, &d); S0f (&a, &b, &c, &d, &e); SKf (k, 28, &b, &e, &c, &a);
                k += 8*4;
                LKf (k, 4, &a, &c, &d, &b); S7f (&a, &c, &d, &b, &e); SKf (k, 0, &d, &e, &b, &a);
                LKf (k, 8, &a, &c, &b, &e); S6f (&a, &c, &b, &e, &d); SKf (k, 4, &a, &c, &d, &b);
                LKf (k, 12, &b, &a, &e, &c); S5f (&b, &a, &e, &c, &d); SKf (k, 8, &a, &c, &b, &e);
                LKf (k, 16, &e, &b, &d, &c); S4f (&e, &b, &d, &c, &a); SKf (k, 12, &b, &a, &e, &c);
        }
        LKf (k, 20, &a, &e, &b, &d); S3f (&a, &e, &b, &d, &c); SKf (k, 16, &e, &b, &d, &c);
}

#endif // TC_MINIMIZE_CODE_SIZE


#ifndef TC_MINIMIZE_CODE_SIZE

[COLOR=royalblue][B]__device__[/B] void serpent_encrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks)
{
        unsigned __int32 a, b, c, d, e;
        unsigned int i=1;
        const unsigned __int32 *k = (unsigned __int32 *)ks + 8;
        unsigned __int32 *in = (unsigned __int32 *) inBlock;
        unsigned __int32 *out = (unsigned __int32 *) outBlock;

    a = LE32(in[0]);
        b = LE32(in[1]);
        c = LE32(in[2]);
        d = LE32(in[3]);

        do
        {
                beforeS0(KX); beforeS0(S0); afterS0(LT);
                afterS0(KX); afterS0(S1); afterS1(LT);
                afterS1(KX); afterS1(S2); afterS2(LT);
                afterS2(KX); afterS2(S3); afterS3(LT);
                afterS3(KX); afterS3(S4); afterS4(LT);
                afterS4(KX); afterS4(S5); afterS5(LT);
                afterS5(KX); afterS5(S6); afterS6(LT);
                afterS6(KX); afterS6(S7);

                if (i == 4)
                        break;

                ++i;
                c = b;
                b = e;
                e = d;
                d = a;
                a = e;
                k += 32;
                beforeS0(LT);
        }
        while (1);

        afterS7(KX);

    out[0] = LE32(d);
        out[1] = LE32(e);
        out[2] = LE32(b);
        out[3] = LE32(a);
}

#else // TC_MINIMIZE_CODE_SIZE

typedef unsigned __int32 uint32;

static void LTf (uint32 *a, uint32 *b, uint32 *c, uint32 *d)
{
        *a = rotlFixed(*a, 13);
        *c = rotlFixed(*c, 3);
        *d = rotlFixed(*d ^ *c ^ (*a << 3), 7);
        *b = rotlFixed(*b ^ *a ^ *c, 1);
        *a = rotlFixed(*a ^ *b ^ *d, 5);
        *c = rotlFixed(*c ^ *d ^ (*b << 7), 22);
}

[COLOR=royalblue][B]__device__[/B] void serpent_encrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks)
{
        unsigned __int32 a, b, c, d, e;
        unsigned int i=1;
        const unsigned __int32 *k = (unsigned __int32 *)ks + 8;
        unsigned __int32 *in = (unsigned __int32 *) inBlock;
        unsigned __int32 *out = (unsigned __int32 *) outBlock;

    a = LE32(in[0]);
        b = LE32(in[1]);
        c = LE32(in[2]);
        d = LE32(in[3]);

        do
        {
                KXf (k, 0, &a, &b, &c, &d); S0f (&a, &b, &c, &d, &e); LTf (&b, &e, &c, &a);
                KXf (k, 4, &b, &e, &c, &a); S1f (&b, &e, &c, &a, &d); LTf (&c, &b, &a, &e);
                KXf (k, 8, &c, &b, &a, &e); S2f (&c, &b, &a, &e, &d); LTf (&a, &e, &b, &d);
                KXf (k, 12, &a, &e, &b, &d); S3f (&a, &e, &b, &d, &c); LTf (&e, &b, &d, &c);
                KXf (k, 16, &e, &b, &d, &c); S4f (&e, &b, &d, &c, &a); LTf (&b, &a, &e, &c);
                KXf (k, 20, &b, &a, &e, &c); S5f (&b, &a, &e, &c, &d); LTf (&a, &c, &b, &e);
                KXf (k, 24, &a, &c, &b, &e); S6f (&a, &c, &b, &e, &d); LTf (&a, &c, &d, &b);
                KXf (k, 28, &a, &c, &d, &b); S7f (&a, &c, &d, &b, &e);

                if (i == 4)
                        break;

                ++i;
                c = b;
                b = e;
                e = d;
                d = a;
                a = e;
                k += 32;
                LTf (&a,&b,&c,&d);
        }
        while (1);

        KXf (k, 32, &d, &e, &b, &a);

    out[0] = LE32(d);
        out[1] = LE32(e);
        out[2] = LE32(b);
        out[3] = LE32(a);
}

#endif // TC_MINIMIZE_CODE_SIZE

#if !defined (TC_MINIMIZE_CODE_SIZE) || defined (TC_WINDOWS_BOOT_SERPENT)

[COLOR=royalblue][B]__device__[/B] void serpent_decrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks)
{
        unsigned __int32 a, b, c, d, e;
        const unsigned __int32 *k = (unsigned __int32 *)ks + 104;
        unsigned int i=4;
        unsigned __int32 *in = (unsigned __int32 *) inBlock;
        unsigned __int32 *out = (unsigned __int32 *) outBlock;

    a = LE32(in[0]);
        b = LE32(in[1]);
        c = LE32(in[2]);
        d = LE32(in[3]);

        beforeI7(KX);
        goto start;

        do
        {
                c = b;
                b = d;
                d = e;
                k -= 32;
                beforeI7(ILT);
start:
                beforeI7(I7); afterI7(KX);
                afterI7(ILT); afterI7(I6); afterI6(KX);
                afterI6(ILT); afterI6(I5); afterI5(KX);
                afterI5(ILT); afterI5(I4); afterI4(KX);
                afterI4(ILT); afterI4(I3); afterI3(KX);
                afterI3(ILT); afterI3(I2); afterI2(KX);
                afterI2(ILT); afterI2(I1); afterI1(KX);
                afterI1(ILT); afterI1(I0); afterI0(KX);
        }
        while (--i != 0);

    out[0] = LE32(a);
        out[1] = LE32(d);
        out[2] = LE32(b);
        out[3] = LE32(e);
}

#else // TC_MINIMIZE_CODE_SIZE && !TC_WINDOWS_BOOT_SERPENT

static void ILTf (uint32 *a, uint32 *b, uint32 *c, uint32 *d)
{
        *c = rotrFixed(*c, 22);
        *a = rotrFixed(*a, 5);
        *c ^= *d ^ (*b << 7);
        *a ^= *b ^ *d;
        *b = rotrFixed(*b, 1);
        *d = rotrFixed(*d, 7) ^ *c ^ (*a << 3);
        *b ^= *a ^ *c;
        *c = rotrFixed(*c, 3);
        *a = rotrFixed(*a, 13);
}

[COLOR=royalblue][B]__device__[/B] void serpent_decrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks)
{
        unsigned __int32 a, b, c, d, e;
        const unsigned __int32 *k = (unsigned __int32 *)ks + 104;
        unsigned int i=4;
        unsigned __int32 *in = (unsigned __int32 *) inBlock;
        unsigned __int32 *out = (unsigned __int32 *) outBlock;

    a = LE32(in[0]);
        b = LE32(in[1]);
        c = LE32(in[2]);
        d = LE32(in[3]);

        KXf (k, 32, &a, &b, &c, &d);
        goto start;

        do
        {
                c = b;
                b = d;
                d = e;
                k -= 32;
                beforeI7(ILT);
start:
                beforeI7(I7); KXf (k, 28, &d, &a, &b, &e);
                ILTf (&d, &a, &b, &e); afterI7(I6); KXf (k, 24, &a, &b, &c, &e);
                ILTf (&a, &b, &c, &e); afterI6(I5); KXf (k, 20, &b, &d, &e, &c);
                ILTf (&b, &d, &e, &c); afterI5(I4); KXf (k, 16, &b, &c, &e, &a);
                ILTf (&b, &c, &e, &a); afterI4(I3); KXf (k, 12, &a, &b, &e, &c);
                ILTf (&a, &b, &e, &c); afterI3(I2); KXf (k, 8, &b, &d, &e, &c);
                ILTf (&b, &d, &e, &c); afterI2(I1); KXf (k, 4, &a, &b, &c, &e);
                ILTf (&a, &b, &c, &e); afterI1(I0); KXf (k, 0, &a, &d, &b, &e);
        }
        while (--i != 0);

    out[0] = LE32(a);
        out[1] = LE32(d);
        out[2] = LE32(b);
        out[3] = LE32(e);
}

#endif // TC_MINIMIZE_CODE_SIZE && !TC_WINDOWS_BOOT_SERPENT

[COLOR=royalblue][B]__global__ void serpent_enc(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks) {
    int b = blockIdx.x*blockDim.x + threadIdx.x;
    serpent_encrypt(inBlock + 16*b, outBlock + 16*b, ks);
}

__global__ void serpent_dec(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks) {
    int b = blockIdx.x*blockDim.x + threadIdx.x;
    serpent_decrypt(inBlock + 16*b, outBlock + 16*b, ks);
}

inline void HandleErrorImpl(cudaError error, const char* file, int line) {
    if (error != cudaSuccess) {
        printf("%s: %d %s", file, line, cudaGetErrorString(error));
        exit(1);
    }
}[/B]
[COLOR=royalblue][B]int main(void) {
    unsigned ks_var;
    int threads = 1024;
    int blocks = 6400;

    unsigned __int8 *inBlock;
    cudaMalloc(&inBlock, 16*threads*blocks);
    cudaMemcpy(inBlock, 0, 16*threads*blocks, cudaMemcpyHostToDevice);

    unsigned __int8 *outBlock;
    cudaMalloc(&outBlock, 16*threads*blocks);
    [COLOR=seagreen]cudaMemcpy(outBlock, 0, 16*threads*blocks, cudaMemcpyHostToDevice);
    unsigned __int8 *ks;
    cudaMalloc(&ks, sizeof(ks_var));
    cudaMemcpy(ks, &ks_var, sizeof(ks_var), cudaMemcpyHostToDevice);

    cudaEvent_t start, stop;
    HandleError(cudaEventCreate(&start));
    HandleError(cudaEventCreate(&stop));
    HandleError(cudaEventRecord( start, 0 ));

    serpent_enc<<<blocks,threads>>>(inBlock, outBlock, ks);
    serpent_dec<<<blocks,threads>>>(inBlock, outBlock, ks);

    HandleError(cudaEventRecord( stop, 0 ));
    HandleError(cudaEventSynchronize( stop ));
    float elapsedTime;
    HandleError(cudaEventElapsedTime( &elapsedTime, start, stop ));

    printf("Performance: %.f MB/sec\n", 2*((16*threads*blocks)/1048576)/(elapsedTime*1000));

    HandleError(cudaEventDestroy( start ));
    HandleError(cudaEventDestroy( stop ));
    
    cudaFree(inBlock);
    cudaFree(outBlock);
    cudaFree(ks);

    return 0;[/B][COLOR=royalblue][B]}[/B]
Serpent.h
Code:
#ifndef HEADER_Crypto_Serpent
#define HEADER_Crypto_Serpent

#include "Tcdefs.h"

#ifdef __cplusplus
extern "C"
{
#endif

void serpent_set_key(const unsigned __int8 userKey[], int keylen, unsigned __int8 *ks);
[COLOR=royalblue][B]__device__[/B] void serpent_encrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks);
[COLOR=royalblue][B]__device__[/B] void serpent_decrypt(const unsigned __int8 *inBlock, unsigned __int8 *outBlock, unsigned __int8 *ks);

#ifdef __cplusplus
}
#endif

#endif // HEADER_Crypto_Serpent
Tcdef.h
Code:
/*
Legal Notice: Some portions of the source code contained in this file were
derived from the source code of Encryption for the Masses 2.02a, which is
Copyright (c) 1998-2000 Paul Le Roux and which is governed by the 'License
Agreement for Encryption for the Masses'. Modifications and additions to
the original source code (contained in this file) and all other portions
of this file are Copyright (c) 2003-2010 TrueCrypt Developers Association
and are governed by the TrueCrypt License 3.0 the full text of which is
contained in the file License.txt included in TrueCrypt binary and source
code distribution packages. */

#ifndef TCDEFS_H
#define TCDEFS_H

#define TC_APP_NAME                                                "TrueCrypt"

// Version displayed to user
#define VERSION_STRING                                        "7.1"

// Version number to compare against driver
#define VERSION_NUM                                                0x0710

// Release date
#define TC_STR_RELEASE_DATE                                "September 1, 2011"
#define TC_RELEASE_DATE_YEAR                        2011
#define TC_RELEASE_DATE_MONTH                        9

#define BYTES_PER_KB 1024LL
#define BYTES_PER_MB 1048576LL
#define BYTES_PER_GB 1073741824LL
#define BYTES_PER_TB 1099511627776LL
#define BYTES_PER_PB 1125899906842624LL

/* GUI/driver errors */

#define WIDE(x) (LPWSTR)L##x

#ifdef _MSC_VER

typedef __int8 int8;
typedef __int16 int16;
typedef __int32 int32;
typedef unsigned __int8 byte;
typedef unsigned __int16 uint16;
typedef unsigned __int32 uint32;

#ifdef TC_NO_COMPILER_INT64
typedef unsigned __int32        TC_LARGEST_COMPILER_UINT;
#else
typedef unsigned __int64        TC_LARGEST_COMPILER_UINT;
typedef __int64 int64;
typedef unsigned __int64 uint64;
#endif

#else // !_MSC_VER

#include <inttypes.h>
#include <limits.h>

typedef int8_t int8;
typedef int16_t int16;
typedef int32_t int32;
typedef int64_t int64;
typedef uint8_t byte;
typedef uint16_t uint16;
typedef uint32_t uint32;
typedef uint64_t uint64;

#if UCHAR_MAX != 0xffU
#error UCHAR_MAX != 0xff
#endif
#define __int8 char

#if USHRT_MAX != 0xffffU
#error USHRT_MAX != 0xffff
#endif
#define __int16 short

#if UINT_MAX != 0xffffffffU
#error UINT_MAX != 0xffffffff
#endif
#define __int32 int

typedef uint64 TC_LARGEST_COMPILER_UINT;

#define BOOL int
#ifndef FALSE
#define FALSE 0
#define TRUE 1
#endif

#endif // !_MSC_VER

#define TC_INT_TYPES_DEFINED

// Integer types required by Cryptolib
typedef unsigned __int8 uint_8t;
typedef unsigned __int16 uint_16t;
typedef unsigned __int32 uint_32t;
#ifndef TC_NO_COMPILER_INT64
typedef uint64 uint_64t;
#endif

typedef union
{
        struct
        {
                unsigned __int32 LowPart;
                unsigned __int32 HighPart;
        };
#ifndef TC_NO_COMPILER_INT64
        uint64 Value;
#endif

} UINT64_STRUCT;

#ifdef TC_WINDOWS_BOOT

#        ifdef __cplusplus
extern "C"
#        endif
void ThrowFatalException (int line);

#        define TC_THROW_FATAL_EXCEPTION        ThrowFatalException (__LINE__)
#elif defined (TC_WINDOWS_DRIVER)
#        define TC_THROW_FATAL_EXCEPTION KeBugCheckEx (SECURITY_SYSTEM, __LINE__, 0, 0, 'TC')
#else
#        define TC_THROW_FATAL_EXCEPTION        *(char *) 0 = 0
#endif

#ifdef TC_WINDOWS_DRIVER

#include <ntifs.h>
#include <ntddk.h>                /* Standard header file for nt drivers */
#include <ntdddisk.h>                /* Standard I/O control codes */

#define TCalloc(size) ((void *) ExAllocatePoolWithTag( NonPagedPool, size, 'MMCT' ))
#define TCfree(memblock) ExFreePoolWithTag( memblock, 'MMCT' )

#define DEVICE_DRIVER

#ifndef BOOL
typedef int BOOL;
#endif

#ifndef TRUE
#define TRUE 1
#endif

#ifndef FALSE
#define FALSE !TRUE
#endif

#else                                /* !TC_WINDOWS_DRIVER */

#define TCalloc malloc
#define TCfree free

#ifdef _WIN32

#ifndef TC_LOCAL_WIN32_WINNT_OVERRIDE
#        undef _WIN32_WINNT
#        define        _WIN32_WINNT 0x0501        /* Does not apply to the driver */
#endif

#include <windows.h>                /* Windows header */
#include <commctrl.h>                /* The common controls */
#include <process.h>                /* Process control */
#include <winioctl.h>
#include <stdio.h>                /* For sprintf */

#endif                                /* _WIN32 */

#endif                                /* !TC_WINDOWS_DRIVER */

#ifndef TC_TO_STRING
#        define TC_TO_STRING2(n) #n
#        define TC_TO_STRING(n) TC_TO_STRING2(n)
#endif

#ifdef DEVICE_DRIVER
#        if defined (DEBUG) || 0
#                if 1 // DbgPrintEx is not available on Windows 2000
#                        define Dump DbgPrint
#                else
#                        define Dump(...) DbgPrintEx (DPFLTR_IHVDRIVER_ID, DPFLTR_ERROR_LEVEL, __VA_ARGS__)
#                endif
#                define DumpMem(...) DumpMemory (__VA_ARGS__)
#        else
#                define Dump(...)
#                define DumpMem(...)
#        endif
#endif

#if !defined (trace_msg) && !defined (TC_WINDOWS_BOOT)
#        ifdef DEBUG
#                ifdef DEVICE_DRIVER
#                        define trace_msg Dump
#                elif defined (_WIN32)
#                        define trace_msg(...) do { char msg[2048]; _snprintf (msg, sizeof (msg), __VA_ARGS__); OutputDebugString (msg); } while (0)
#                endif
#                define trace_point trace_msg (__FUNCTION__ ":" TC_TO_STRING(__LINE__) "\n")
#        else
#                define trace_msg(...)
#                define trace_point
#        endif
#endif

#ifdef DEVICE_DRIVER
#        define TC_EVENT KEVENT
#        define TC_WAIT_EVENT(EVENT) KeWaitForSingleObject (&EVENT, Executive, KernelMode, FALSE, NULL)
#elif defined (_WIN32)
#        define TC_EVENT HANDLE
#        define TC_WAIT_EVENT(EVENT) WaitForSingleObject (EVENT, INFINITE)
#endif

#ifdef _WIN32
#define burn(mem,size) do { volatile char *burnm = (volatile char *)(mem); int burnc = size; RtlSecureZeroMemory (mem, size); while (burnc--) *burnm++ = 0; } while (0)
#else
#define burn(mem,size) do { volatile char *burnm = (volatile char *)(mem); int burnc = size; while (burnc--) *burnm++ = 0; } while (0)
#endif

// The size of the memory area to wipe is in bytes amd it must be a multiple of 8.
#ifndef TC_NO_COMPILER_INT64
#        define FAST_ERASE64(mem,size) do { volatile uint64 *burnm = (volatile uint64 *)(mem); int burnc = size >> 3; while (burnc--) *burnm++ = 0; } while (0)
#else
#        define FAST_ERASE64(mem,size) do { volatile unsigned __int32 *burnm = (volatile unsigned __int32 *)(mem); int burnc = size >> 2; while (burnc--) *burnm++ = 0; } while (0)
#endif

#ifdef TC_WINDOWS_BOOT
#        ifndef max
#                define max(a,b) (((a) > (b)) ? (a) : (b))
#        endif

#        ifdef __cplusplus
extern "C"
#        endif
void EraseMemory (void *memory, int size);

#        undef burn
#        define burn EraseMemory
#endif

#ifdef MAX_PATH
#define TC_MAX_PATH                MAX_PATH
#else
#define TC_MAX_PATH                260        /* Includes the null terminator */
#endif

#define TC_STR_RELEASED_BY "Released by TrueCrypt Foundation on " TC_STR_RELEASE_DATE

#define MAX_URL_LENGTH        2084 /* Internet Explorer limit. Includes the terminating null character. */

#define TC_HOMEPAGE "http://www.truecrypt.org/"
#define TC_APPLINK "http://www.truecrypt.org/applink?version=" VERSION_STRING
#define TC_APPLINK_SECURE "https://www.truecrypt.org/applink?version=" VERSION_STRING

enum
{
        /* WARNING: ADD ANY NEW CODES AT THE END (DO NOT INSERT THEM BETWEEN EXISTING). DO *NOT* DELETE ANY
        EXISTING CODES! Changing these values or their meanings may cause incompatibility with other versions
        (for example, if a new version of the TrueCrypt installer receives an error code from an installed
        driver whose version is lower, it will report and interpret the error incorrectly). */

        ERR_SUCCESS                                                                = 0,
        ERR_OS_ERROR                                                        = 1,
        ERR_OUTOFMEMORY                                                        = 2,
        ERR_PASSWORD_WRONG                                                = 3,
        ERR_VOL_FORMAT_BAD                                                = 4,
        ERR_DRIVE_NOT_FOUND                                                = 5,
        ERR_FILES_OPEN                                                        = 6,
        ERR_VOL_SIZE_WRONG                                                = 7,
        ERR_COMPRESSION_NOT_SUPPORTED                        = 8,
        ERR_PASSWORD_CHANGE_VOL_TYPE                        = 9,
        ERR_PASSWORD_CHANGE_VOL_VERSION                        = 10,
        ERR_VOL_SEEKING                                                        = 11,
        ERR_VOL_WRITING                                                        = 12,
        ERR_FILES_OPEN_LOCK                                                = 13,
        ERR_VOL_READING                                                        = 14,
        ERR_DRIVER_VERSION                                                = 15,
        ERR_NEW_VERSION_REQUIRED                                = 16,
        ERR_CIPHER_INIT_FAILURE                                        = 17,
        ERR_CIPHER_INIT_WEAK_KEY                                = 18,
        ERR_SELF_TESTS_FAILED                                        = 19,
        ERR_SECTOR_SIZE_INCOMPATIBLE                        = 20,
        ERR_VOL_ALREADY_MOUNTED                                        = 21,
        ERR_NO_FREE_DRIVES                                                = 22,
        ERR_FILE_OPEN_FAILED                                        = 23,
        ERR_VOL_MOUNT_FAILED                                        = 24,
        DEPRECATED_ERR_INVALID_DEVICE                        = 25,
        ERR_ACCESS_DENIED                                                = 26,
        ERR_MODE_INIT_FAILED                                        = 27,
        ERR_DONT_REPORT                                                        = 28,
        ERR_ENCRYPTION_NOT_COMPLETED                        = 29,
        ERR_PARAMETER_INCORRECT                                        = 30,
        ERR_SYS_HIDVOL_HEAD_REENC_MODE_WRONG        = 31,
        ERR_NONSYS_INPLACE_ENC_INCOMPLETE                = 32,
        ERR_USER_ABORT                                                        = 33
};

#endif         // #ifndef TCDEFS_H
Läuft auch schon ohne errors und warnings durch, was mich sehr freut, und auch die Performance sieht ganz gut aus:

snapshot25.png

Ich habe zum Serpent-Code vorerst folgende Fragen:

1.) Mich verwirrt der outBlock! Ist schon klar, dass nach der Ver- und Entschlüsselung auch irgendwas rauskommen muss, aber brauche ich in meiner main() die grüne Zeile? Ich weiß ja nicht, was nach dem Verschlüsseln herauskommt. Macht daher m. E. nicht viel Sinn, lauter 0er für den outBlock in den VRAM zu kopieren (die dann ohnehin überschrieben werden müssten?!). Es müsste doch schon reichen, einfach für den outBlock einen 100 MB großen Bereich im VRAM zu allokieren, was ja schon in der cudaMalloc-Zeile über der grünen Zeile passiert?! :huh:

2.) Wie kann ich am besten überprüfen, ob der Code korrekt arbeitet und mir nach dem Ver- und Entschlüsseln wieder 100 MB in 0er zurückliefert (ich reserviere ja für inBlock einen 100 MB großen Bereich im VRAM und fülle den mit 0er)? Ich hab's mal geschafft, outBlock in einer for-Schleife mit printf() ausgeben zu lassen und es kamen tatsächlich 16 Werte raus, allerdings waren das irgendwelche (großen) Zahlen (allerdings 16x das gleiche). Jedenfalls nicht 16 0er.
Ich habe nach weiteren Arbeiten am Code probiert, diese (angepasste) for-Schleife ...
Code:
for (int i=0; i<((16*threads*blocks)/sizeof(unsigned __int8)); i++) {
        printf("%d, ", outBlock[i]);
    }
... ganz am Ende der main() über den cudaFree einzufügen, aber wenn ich den Code dann laufen lasse, werden mir keine Werte ausgegeben. So, als gäb's nur das erste printf() mit der Performance. :huh:
 
Zuletzt bearbeitet:
AW: [CUDA] RC6 / Serpent

1) Die grüne Zeile kannst du dir sparen, da outBlock ja dann eh von der Funktion zum verschlüsseln beschrieben wird. Im übrigen ist dort auch noch ein Fehler, denn der zweite Parameter von cudaMemcpy ist 0 was nicht sein darf. Bei den cudaMalloc und cudaMemcpy auch das HandleError drum packen dann solltest du auch eine Fehlermeldung angezeigt kriegen. Du wolltest dort wohl cudaMemset benutzen um alles auf 0 zu setzen aber das brauchste natürlich nur für den inBlock.

2) Um den Code zu prüfen ist es auf jeden fall mal Sinnvoll zu prüfen ob die Daten nach dem ver- und danach wieder entschlüsseln wieder identisch sind. Am besten wäre es auch noch wenn man die verschlüsselten Daten vergleicht mit dem was man im Internet findet. Zu allen bekannten Verschlüsselungen sollte es irgendwo Daten geben was verschlüsselt rauskommen muss wenn man z.B. nur 0 Bytes mit einem bestimmten Schlüssel verschlüsselt. Das Problem beim Anzeigen deiner Daten ist, dass du versuchst Daten von einem GPU Pointer zu lesen. Dabei wird dein Programm unweigerlich abstürzen. Du musst zuerst einen entsprechend großen Bereich im RAM reserivieren und dann mit cudaMemcpy von der GPU in dem RAM kopieren. Dann kannst du alles mit printf ausgeben. Im übrigen musst du die Reihenfolge der Parameter beim decrypt umdrehen. Nach dem verschlüsseln sind ja deine verschlüsselten Daten im outBlock und wenn du diese wieder entschlüsseln willst dann musst du outBlock als Input nehmen.

Wieso bist du eigentlich der Meinung, der Code wäre schon für CUDA? Wenn der wirklich für CUDA gewesen ist dann hättest du eigentlich nicht noch überall __global__ Keywords oder ähnliches einfügen müssen.

Edit: Woher hast du überhaupt unsigned ks_var? Soll das irgendwie den Schlüssel beschreiben? Wenn ja wo wird das initialisiert? Außerdem sicher, dass es wirklich nur ein unsigned ist und nicht größer? 32 Bit für einen Schlüssel scheinen mir recht klein, da könnte man ja einfach alle möglichen Schlüssel durchprobieren. sizeof(unsigned __int8) ist im übrigen auch recht überflüssig, da __int8 für einen Typ mit 8 Bits also genau einem Byte steht. Das ganze ist also sowieso 1 und kann man sich sparen.
 
Zuletzt bearbeitet:
AW: [CUDA] RC6 / Serpent

Also jetzt sieht's erstmal so aus:
Code:
int main(void) {
    unsigned ks_var;
    int threads = 1024;
    int blocks = 6400;

    unsigned __int8 *inBlock;
    cudaMalloc(&inBlock, 16*threads*blocks);
    cudaMemset(inBlock, 0, 16*threads*blocks);

    unsigned __int8 *outBlock;
    cudaMalloc(&outBlock, 16*threads*blocks);

    unsigned __int8 *ks;
    cudaMalloc(&ks, sizeof(ks_var));
    cudaMemcpy(ks, &ks_var, sizeof(ks_var), cudaMemcpyHostToDevice);

    cudaEvent_t start, stop;
    HandleError(cudaEventCreate(&start));
    HandleError(cudaEventCreate(&stop));
    HandleError(cudaEventRecord( start, 0 ));

    serpent_enc<<<blocks,threads>>>(inBlock, outBlock, ks);
    serpent_dec<<<blocks,threads>>>([COLOR=royalblue][B]outBlock, inBlock[/B], ks);

    HandleError(cudaEventRecord( stop, 0 ));
    HandleError(cudaEventSynchronize( stop ));
    float elapsedTime;
    HandleError(cudaEventElapsedTime( &elapsedTime, start, stop ));

    printf("Performance: %.f MB/sec\n", 2*((16*threads*blocks)/1048576)/(elapsedTime*1000));

    HandleError(cudaEventDestroy( start ));
    HandleError(cudaEventDestroy( stop ));

    [COLOR=royalblue][B]unsigned __int8 *test = (unsigned __int8*)malloc(16*threads*blocks);
    cudaMemcpy(outBlock, &test, sizeof(test), cudaMemcpyDeviceToHost);

    for (int i=0; i<sizeof(test); i++) {
        printf("%d, ", test[i]);
    }[/B]
    [COLOR=royalblue][B]free(test);[/B]
    cudaFree(inBlock);
    cudaFree(outBlock);
    cudaFree(ks);

    return 0;
}
outBlock und inBlock habe ich in decrypt vertauscht. Die Schleife gibt mir jetzt immerhin 8 0er aus, aber das müssten doch VIEL mehr sein bei 100 MB?!

Dass es bereits ein CUDA Code war, habe ich angenommen, da ich mir Serpent als .cu File besorgt habe.

ks müsste der Schlüssel sein. ks_var habe ich dann angelegt weil ich ja noch einen Parameter für cudaMemcpy gebraucht habe. Das ist halt wie in RC6 mit s_var für *s, habe ich mir gedacht. Den Schlüssel muss ich jedenfalls noch in der main initialisieren ...

[Edit]
Schlüsselinitialisierung habe ich gerade so probiert:
char* key = "meingeheimespasswort";
serpent_set_key(key, strlen(key), &ks_var);
^^ argument of type "unsigned int *" is incompatible with parameter of type "unsigned char *" ... --> Eh klar. Muss ich mir wohl für den ersten Parameter noch einen Typcast überlegen?!
 
Zuletzt bearbeitet:
AW: [CUDA] RC6 / Serpent

Hier hast du die Parameter falsch:
Code:
cudaMemcpy(outBlock, &test, sizeof(test), cudaMemcpyDeviceToHost);
Du kopierst jetzt zwar von der GPU zur CPU, aber der erste Parameter ist immer das Ziel und der zweite die Quelle. Also test nach vorne und outBlock nach hinten. Im übrigen muss es auch test ohne & sein weil du die Daten dahin kopieren willst wohin test zeigt und nicht nach test selbst. Sowas wie sizeof(test) Funktioniert mit Pointern nicht richtig. Du musst hier als größe einfach 16*threads*blocks nehmen. In der for loop auch, dann werden auch mehr als 8 Werte angezeigt. Ich sags nochmal: Um ALLE cuda*** Funktionen ein HandleError(). Auch um cudaMalloc, cudaMemcpy und cudaMemset, damit du die Fehlermeldungen mitkriegst wenn nicht genug Speicher reserviert werden konnte oder Parameter falsch sind.

Bei deinem Key initialisieren sollte ks_var auch ein unsigned __int8 sein. Laut Wikipedia gibt es Serpent als Variante mit 128, 192 oder 256 Bit großen Schlüsseln. Welches davon auf deine Implementierung zutrifft musst du mal gucken. Im Zweifallsfall nehm einfach 32 Bytes (für die 256 Bit) für ks_var.
 
AW: [CUDA] RC6 / Serpent

Habe das jetzt noch alles gemacht, allerdings habe ich die for-Schleife auf 16 Werte begrenzt. 16*threads*blocks Werte kann der Laptop nicht mehr vernünftig berechnen/darstellen. Da friert mir vorher das System ein ...

Jedenfalls gibt's scheinbar noch 2 Probleme:

1.) Es kommen irgendwelche Werte am Ende raus, und nicht wieder lauter 0er.

snapshot26.png

2.) In meiner Zeile ...
Code:
serpent_set_key(key, strlen(key), &ks_var)
... kriege ich jetzt den Error argument of type "char *" is incompatible with parameter of type "const unsigned char *"

Hier nochmal die ganze main():
Code:
int main(void) {
    char* key = "meingeheimespasswort";
    unsigned __int8 ks_var;
    int threads = 1024;
    int blocks = 6400;
    serpent_set_key(key, strlen(key), &ks_var);

    unsigned __int8 *inBlock;
    HandleError(cudaMalloc(&inBlock, 16*threads*blocks));
    HandleError(cudaMemset(inBlock, 0, 16*threads*blocks));

    unsigned __int8 *outBlock;
    HandleError(cudaMalloc(&outBlock, 16*threads*blocks));

    unsigned __int8 *ks;
    HandleError(cudaMalloc(&ks, sizeof(ks_var)));
    HandleError(cudaMemcpy(ks, &ks_var, sizeof(ks_var), cudaMemcpyHostToDevice));

    cudaEvent_t start, stop;
    HandleError(cudaEventCreate(&start));
    HandleError(cudaEventCreate(&stop));
    HandleError(cudaEventRecord( start, 0 ));

    serpent_enc<<<blocks,threads>>>(inBlock, outBlock, ks);
    serpent_dec<<<blocks,threads>>>(outBlock, inBlock, ks);

    HandleError(cudaEventRecord( stop, 0 ));
    HandleError(cudaEventSynchronize( stop ));
    float elapsedTime;
    HandleError(cudaEventElapsedTime( &elapsedTime, start, stop ));

    printf("Performance: %.f MB/sec\n", 2*((16*threads*blocks)/1048576)/(elapsedTime*1000));

    HandleError(cudaEventDestroy( start ));
    HandleError(cudaEventDestroy( stop ));

    unsigned __int8 *test = (unsigned __int8*)malloc(16*threads*blocks);
    HandleError(cudaMemcpy(test, outBlock, 16*threads*blocks, cudaMemcpyDeviceToHost));

    for (int i=0; i<16; i++) {
        printf("%d, ", test[i]);
    }

    free(test);

    HandleError(cudaFree(inBlock));
    HandleError(cudaFree(outBlock));
    HandleError(cudaFree(ks));

    return 0;
}
[Edit]
Auf einmal kommen doch lauter 0er raus. Somit bleibt nur Problem 2) ...

[Edit2]
Mit nem Typcast würde ich die Fehlermeldung wegkriegen, aber dafür kommt keine Ausgabe mehr (weder vom einen, noch vom anderen printf()). *seufz*
Code:
serpent_set_key((unsigned char*)key, strlen(key), &ks_var);
 
Zuletzt bearbeitet:
AW: [CUDA] RC6 / Serpent

Kriegst du in deiner Entwicklungsumgebung gar nicht mit wenn das Programm abstürzt? Du hast für ks_var ja auch nur 1 Byte reserviert. Das casten mit (unsigned char*) ist schon in Ordnung, allerdings wird es dann wohl abstürzen weil das Programm versucht mehr als nur ein Byte nach ks_var zu schreiben. Mach ks_var mal zu einem Array mit mindstens 32 Elementen (Also 32 Bytes für maximal 256 Bit Schlüsselgröße).

Das plötzlich lauter 0 rauskommt klingt eher unwahrscheinlich. Du kopierst dir nämlich outBlock in deine test Variable und outBlock sind die verschlüsselten Daten. Nach dem Aufruf von
Code:
serpent_dec<<<blocks,threads>>>(outBlock, inBlock, ks);
sind die unverschlüsselten Daten wieder in inBlock. Also musst du dir auch dieses anzeigen lassen.
 
AW: [CUDA] RC6 / Serpent

Ne, in Nsight Eclipse merke ich hier gar nichts! Der führt jeden Mist beinhart aus, egal wie viele Errors drinnen sind ... und wenn am Ende alles rot ist. :ugly:

^^ Das ist ja das doofe im Vergleich zum Visual Studio. Hier in meiner IDE erkenne ich Fehler nur daran, dass das Programm nicht das macht, was ich mir erwartet hätte ...
---------
Hab's jetzt so:

snapshot27.png

^^ Damit ist zwar der Error weg, aber es stürzt vermutlich immer noch ab, weil ich keine Ausgabe kriege?!
 
AW: [CUDA] RC6 / Serpent

Mh ja kann ich so auch nicht beantworten. Kannst du alle Dateien mal irgendwie als Archiv hochladen, damit ich mir das einfach runterladen und bei mir selbst compilieren kann? Ich werde aber frühstens Morgen drüber gucken.
 
Zurück