B
boss3D
Guest
Hi @ all!
Ich muss für ein Projekt im Studium mehrere Verschlüsselungs-Algorithmen in CUDA benchmarken. Wo ich die Algorithmen hernehme, ist dabei egal.
ATM arbeite ich daran, RC6 nach CUDA zu portieren. Einen C Code habe ich auf github gefunden, und gleich mal eine main Funktion dazugebastelt. Da ich nahezu 0 Erfahrungen mit CUDA habe und mir das jetzt selbst Schritt für Schritt beibringen darf, habe ich für den Anfang erstmal die "Idiotenlösung" gewählt, und einfach versucht, die beiden Haupt-(CPU)-Funktionen in 2 GPU-Funktionen aufzurufen. So sieht das ganze derzeit aus:
^^ Die blau markierten Zeilen sind zur Zeit das Problem. Bei den beiden Funktionen fehlen die Parameter, die ich den CPU-Funktionen übergeben muss, aber ich weiß nicht so recht, wie genau ich die da reinschreiben soll. Und bei der if-Zeile gibt's ein Pointer Problem, das sich mir auch noch nicht so ganz erschließt ...
Für jede Hilfe bin ich dankbar!
Ich muss für ein Projekt im Studium mehrere Verschlüsselungs-Algorithmen in CUDA benchmarken. Wo ich die Algorithmen hernehme, ist dabei egal.
ATM arbeite ich daran, RC6 nach CUDA zu portieren. Einen C Code habe ich auf github gefunden, und gleich mal eine main Funktion dazugebastelt. Da ich nahezu 0 Erfahrungen mit CUDA habe und mir das jetzt selbst Schritt für Schritt beibringen darf, habe ich für den Anfang erstmal die "Idiotenlösung" gewählt, und einfach versucht, die beiden Haupt-(CPU)-Funktionen in 2 GPU-Funktionen aufzurufen. So sieht das ganze derzeit aus:
Code:
#include <cuda_runtime.h>
#include <stdio.h>
#include <stdint.h>
#include <stdlib.h>
#include "RC6.h"
#define P32 0xB7E15163
#define Q32 0x9E3779B9
uint32_t rotl32(uint32_t a, uint8_t n){
n &= 0x1f;
return ( (a<<n)| (a>>(32-n)) );
}
uint32_t rotr32(uint32_t a, uint8_t n){
n &= 0x1f;
return ( (a>>n)| (a<<(32-n)) );
}
uint8_t rc6_init(void* key, uint16_t keylength_b, rc6_ctx_t *s){
return rc6_initl(key, keylength_b, 20, s);
}
uint8_t rc6_initl(void* key, uint16_t keylength_b, uint8_t rounds, rc6_ctx_t *s){
uint8_t i,j;
uint16_t v,p,c;
uint32_t a,b, l=0;
if (rounds>125)
return 2;
[COLOR=blue][B]if(!(s->S=malloc((2*rounds+4)*sizeof(uint32_t))))[/B] return 1;
s->rounds=rounds;
c = keylength_b/32;
if (keylength_b%32){
++c;
j=(keylength_b%32)/8;
if(keylength_b%8)
++j;
for (i=0; i<j; ++i)
((uint8_t*)&l)[i] = ((uint8_t*)key)[(c-1)*4 + i];
} else {
l = ((uint32_t*)key)[c-1];
}
s->S[0] = P32;
for(i=1; i<2*rounds+4; ++i){
s->S[i] = s->S[i-1] + Q32;
}
a=b=j=i=0;
v = 3 * ((c > 2*rounds+4)?c:(2*rounds+4));
for(p=1; p<=v; ++p){
a = s->S[i] = rotl32(s->S[i] + a + b, 3);
if (j==c-1){
b = l = rotl32(l+a+b, a+b);
} else {
b = ((uint32_t*)key)[j] = rotl32(((uint32_t*)key)[j]+a+b, a+b);
}
i = (i+1) % (2*rounds+4);
j = (j+1) % c;
}
return 0;
}
void rc6_free(rc6_ctx_t *s){
free(s->S);
}
#define LG_W 5
#define A (((uint32_t*)block)[0])
#define B (((uint32_t*)block)[1])
#define C (((uint32_t*)block)[2])
#define D (((uint32_t*)block)[3])
void rc6_enc(void* block, rc6_ctx_t *s) {
uint8_t i;
uint32_t t,u,x;
B += s->S[0];
D += s->S[1];
for (i=1; i<=s->rounds; ++i){
t = rotl32(B * (2*B+1), LG_W);
u = rotl32(D * (2*D+1), LG_W);
A = rotl32((A ^ t), u) + s->S[2*i];
C = rotl32((C ^ u), t) + s->S[2*i+1];
x = A;
A = B;
B = C;
C = D;
D = x;
}
A += s->S[2*s->rounds+2];
C += s->S[2*s->rounds+3];
}
void rc6_dec(void* block, rc6_ctx_t *s){
uint8_t i;
uint32_t t,u,x;
C -= s->S[2*s->rounds+3];
A -= s->S[2*s->rounds+2];
for (i=s->rounds; i>0; --i){
x=D;
D=C;
C=B;
B=A;
A=x;
u = rotl32(D * (2*D+1), LG_W);
t = rotl32(B * (2*B+1), LG_W);
C = rotr32(C - s->S[2*i+1], t) ^ u;
A = rotr32(A - s->S[2*i+0], u) ^ t;
}
D -= s->S[1];
B -= s->S[0];
}
[COLOR=blue][B]__global__ void rc6enc() {
rc6_enc();
}
__global__ void rc6dec() {
rc6_enc();
}[/B]
int main(void) {
float elapsedTime=0.0;
cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord( start, 0 );
rc6enc<<<1,1>>>();
rc6dec<<<1,1>>>();
cudaEventRecord( stop, 0 );
cudaEventSynchronize( stop );
cudaEventElapsedTime( &elapsedTime, start, stop );
printf("time: %.4f ms\n", elapsedTime);
return 0;
}
Code:
#pragma once
#ifndef RC6_H_
#define RC6_H_
#include <stdint.h>
typedef struct rc6_ctx_st{
uint8_t rounds; /* specifys the number of rounds; default: 20 */
uint32_t* S; /* the round-keys */
} rc6_ctx_t;
uint8_t rc6_init(void* key, uint16_t keylength_b, rc6_ctx_t *s);
uint8_t rc6_initl(void* key, uint16_t keylength_b, uint8_t rounds, rc6_ctx_t *s);
void rc6_enc(void* block, rc6_ctx_t *s);
void rc6_dec(void* block, rc6_ctx_t *s);
void rc6_free(rc6_ctx_t *s);
#endif /* RC6_H_ */
Für jede Hilfe bin ich dankbar!
Zuletzt bearbeitet: