## Imports
Les packages nécéssaires doivent déja être installé sur la machine fournie mais si ce n'est pas le cas, il faut les installer.
Attention en installant pytorch, il faut choisir la bonne versio en fonction de la version de CUDa supportée par la carte graphique.

In [1]:
import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import cv2
import matplotlib
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import random
import math
import pickle
import random
from PIL import Image
import sys
from glob import glob
from IPython.display import clear_output
from datetime import datetime
from time import time
import json
import os

## Functions utiles
Principalement des fonctions d'imports et d'exports, de transformation d'objects et degénération de données.

In [2]:
#Les fonctions dans ce bloc ne sont pas utilisées par le réseau, mais certaines fonctions d'outils


def tensor_imshow(im_tensor,cannel):
    b,c,h,w=im_tensor.shape
    if c==1:
        plt.imshow(im_tensor.squeeze().detach().numpy())
    else:
        plt.imshow(im_tensor.squeeze().detach().numpy()[cannel,:])

#    Obtenez des données d'entraînement
#    frag,vt=get_training_fragment(frag_size,image)
#    frag est un patch carrée de taille (frag_size*frag_size) a partir du image(Son emplacement est aléatoire)
#    vt est la vérité terrain de la forme Dirac.
def get_training_fragment(frag_size,im):
    """Permet de générer des fragments et leur vérité terrain. 
    Dépréciée au profit d'un entrainement à partir de fragments déjà générés (voir load_training_fragment et le fichier gen_frags)
    """
    h,w,c=im.shape
    n=random.randint(0,int(h/frag_size)-1)
    m=random.randint(0,int(w/frag_size)-1) 
    shape=frag_size/4
    vt_h=math.ceil((h+1)/shape)
    vt_w=math.ceil((w+1)/shape)
    vt=np.zeros([vt_h,vt_w])
    vt_h_po=round((vt_h-1)*(n*frag_size/(h-1)+(n+1)*frag_size/(h-1))/2)
    vt_w_po=round((vt_w-1)*(m*frag_size/(w-1)+(m+1)*frag_size/(w-1))/2)
    vt[vt_h_po,vt_w_po]=1
    vt = np.float32(vt)
    vt=torch.from_numpy(vt.reshape(1,1,vt_h,vt_w))
    
    return im[n*frag_size:(n+1)*frag_size,m*frag_size:(m+1)*frag_size,:],vt

def load_training_fragment(fragment_path,vt_path):
    """Charge un fragment de la  base de test et génère la tableau de la vérité terrain.
    """
    # Load fragment
    frag = cv2.imread(fragment_path)
    
    # Load vt data
    with open(vt_path,'r') as f:
        data_vt_raw = f.readlines()
    data_vt = [int(d.rstrip('\r\n')) for d in data_vt_raw]
    
    #facteur de taille entre la fresque et la vt/carte de correlation.
    # Si l'entrainement se fait sur des fragments 32x32, la carte de correlation
    # finale sera de taille 126x126 (si initialement à 1000x1000). Le facteur de 
    # division est alors 8.
    # Si par contre l'entrainement se fait sur des fragments de 16x16, il y aura
    # une étape de division (maxpooling) en moins donc la taille de la carte finale
    # sera 256x256 et la division sera donc 4
    div = 4 
    
    # Construct vt
    vt = np.zeros((int(data_vt[0]/div)+1,int(data_vt[1]/div)+1))
    vt[int(round(data_vt[2]/div,0)),int(round(data_vt[3]/div,0))] = 1
    vt = np.float32(vt)
    vt = torch.from_numpy(vt.reshape(1,1,int(data_vt[0]/div)+1,int(data_vt[1]/div)+1))
    
    return(frag,vt)

def img2tensor(im):
    """Conversion d'une image en tenseur pytorch.
    Pour rappel: Tensor.shape=[Batch,Channel,Height,Width]"""
    im=np.array(im,dtype="float32")
    tensor_cv = torch.from_numpy(np.transpose(im, (2, 0, 1)))
    im_tensor=tensor_cv.unsqueeze(0)
    return im_tensor


def show_coordonnee(position_pred):
    """Trouve les coordonnées du maximum dans la carte de correlation."""
    map_corre=position_pred.squeeze().detach().cpu().numpy()
    h,w=map_corre.shape
    max_value=map_corre.max()
    coordonnee=np.where(map_corre==max_value)
    return coordonnee[0].mean(),coordonnee[1].mean()

def test_fragment32_32(frag,seuillage):
    """Vérifie que le fragment ne contient pas trop de pixels noir (fond)."""
    a=frag[:,:,0]+frag[:,:,1]+frag[:,:,2]
    mask = (a == 0)
    arr_new = a[mask]
    if arr_new.size/a.size<=(1-seuillage):
        return True
    else:
        return False
    
def save_net(file_path,net):
    """Sauvegarde le modèle à l'aide de Pickle (fichier binaire)."""
    pkl_file = open(file_path, 'wb')
    pickle.dump(net,pkl_file)
    pkl_file.close()
def load_net(file_path):
    """Charge le modèle sauvegardé à l'aide de Pickle."""
    pkl_file = open(file_path, 'rb')
    net= pickle.load(pkl_file)
    pkl_file.close()
    return net

## Paramètres du réseau
Ces fonctions permettent de décrire et d'initialiser le réseau et ses couches

In [3]:
 def ini():
    """Créer un poids de type DeepMatching comme valeur initiale de Conv1 (non obligatoire)"""
    kernel=torch.zeros([8,3,3,3])
    array_0=np.array([[1,2,1],[0,0,0],[-1,-2,-1]],dtype='float32')
    array_1=np.array([[2,1,0],[1,0,-1],[0,-1,-2]],dtype='float32')
    array_2=np.array([[1,0,-1],[2,0,-2],[1,0,-1]],dtype='float32')
    array_3=np.array([[0,-1,-2],[1,0,-1],[2,1,0]],dtype='float32')
    array_4=np.array([[-1,-2,-1],[0,0,0],[1,2,1]],dtype='float32')
    array_5=np.array([[-2,-1,0],[-1,0,1],[0,1,2]],dtype='float32')
    array_6=np.array([[-1,0,1],[-2,0,2],[-1,0,1]],dtype='float32')
    array_7=np.array([[0,1,2],[-1,0,1],[-2,-1,0]],dtype='float32')
    for i in range(3):
        kernel[0,i,:]=torch.from_numpy(array_0)
        kernel[1,i,:]=torch.from_numpy(array_1)
        kernel[2,i,:]=torch.from_numpy(array_2)
        kernel[3,i,:]=torch.from_numpy(array_3)
        kernel[4,i,:]=torch.from_numpy(array_4)
        kernel[5,i,:]=torch.from_numpy(array_5)
        kernel[6,i,:]=torch.from_numpy(array_6)
        kernel[7,i,:]=torch.from_numpy(array_7)
    return torch.nn.Parameter(kernel,requires_grad=True) 


def kernel_add_ini(n,m):
    """Calculer le poids initial de la couche convolutive add
    n, m signifie qu'il y a n * m sous-patches dans le patch d'entrée
    Par exemple, le patch d'entrée est 16 * 16, pour les patchs 4 * 4 de la première couche, n = 4, m = 4
    pour les patchs 8 * 8 de la deuxième couche, n = 2, m = 2"""
    input_canal=int(n*m)
    output_canal=int(n/2)*int(m/2)
    for i in range(int(n/2)):
        for j in range(int(m/2)):
            kernel_add=np.zeros([1,input_canal],dtype='float32')
            kernel_add[0,i*2*m+j*2]=1
            kernel_add[0,i*2*m+j*2+1]=1
            kernel_add[0,(i*2+1)*m+j*2]=1
            kernel_add[0,(i*2+1)*m+j*2+1]=1
            if i==0 and j==0:
                add=torch.from_numpy(kernel_add.reshape(1,input_canal,1,1))
            else:
                add_=torch.from_numpy(kernel_add.reshape(1,input_canal,1,1))
                add=torch.cat((add,add_),0)
    return torch.nn.Parameter(add,requires_grad=False) 


def kernel_shift_ini(n,m):
    """Calculer le poids initial de la couche convolutive shift
    shift+add Peut réaliser l'étape de l'agrégation
    Voir ci-dessus pour les paramètres n et m. 
    Pour des étapes plus détaillées, veuillez consulter le rapport de stage de Boyang"""
    input_canal=int(n*m)
    output_canal=int(n*m)
    
    kernel_shift=torch.zeros([output_canal,input_canal,3,3])
    
    array_0=np.array([[1,0,0],[0,0,0],[0,0,0]],dtype='float32')
    array_1=np.array([[0,0,1],[0,0,0],[0,0,0]],dtype='float32')
    array_2=np.array([[0,0,0],[0,0,0],[1,0,0]],dtype='float32')
    array_3=np.array([[0,0,0],[0,0,0],[0,0,1]],dtype='float32')
    
    kernel_shift_0=torch.from_numpy(array_0)
    kernel_shift_1=torch.from_numpy(array_1)
    kernel_shift_2=torch.from_numpy(array_2)
    kernel_shift_3=torch.from_numpy(array_3)
    
    
    for i in range(n):
        for j in range(m):
            if i==0 and j==0:
                kernel_shift[0,0,:]=kernel_shift_0
            else:
                if i%2==0 and j%2==0:
                    kernel_shift[i*m+j,i*m+j,:]=kernel_shift_0
                if i%2==0 and j%2==1:
                    kernel_shift[i*m+j,i*m+j,:]=kernel_shift_1
                if i%2==1 and j%2==0:
                    kernel_shift[i*m+j,i*m+j,:]=kernel_shift_2
                if i%2==1 and j%2==1:
                    kernel_shift[i*m+j,i*m+j,:]=kernel_shift_3
                    
    return torch.nn.Parameter(kernel_shift,requires_grad=False) 

#   Trouvez le petit patch(4 * 4) dans la n ème ligne et la m ème colonne du patch d'entrée
#   Ceci est utilisé pour calculer la convolution et obtenir la carte de corrélation
def get_patch(fragment,psize,n,m):
    return fragment[:,:,n*psize:(n+1)*psize,m*psize:(m+1)*psize]
###################################################################################################################
class Net(nn.Module):
    def __init__(self,frag_size,psize):
        super(Net, self).__init__()
       
        h_fr=frag_size
        w_fr=frag_size
        
        n=int(h_fr/psize) #    n*m patches dans le patch d'entrée
        m=int(w_fr/psize)
        
        # Le nombre de couches du descripteur (self.conv1) peut être changé
        self.conv1 = nn.Conv2d(3,8,kernel_size=3,stride=1,padding=1)
        #    Si vous souhaitez initialiser Conv1 avec les poids de DeepMatch, exécutez la ligne suivante
        #self.conv1.weight=ini()
        self.Relu = nn.ReLU(inplace=True)
        self.maxpooling=nn.MaxPool2d(3,stride=2, padding=1)
        
        self.shift1=nn.Conv2d(n*m,n*m,kernel_size=3,stride=1,padding=1)
        self.shift1.weight=kernel_shift_ini(n,m)
        self.add1 = nn.Conv2d(n*m,int(n/2)*int(m/2),kernel_size=1,stride=1,padding=0)
        self.add1.weight=kernel_add_ini(n,m)
        
        n=int(n/2)
        m=int(m/2)
        if n>=2 and m>=2:#   Si n=m=1 Notre réseau n'a plus besoin de plus de couches pour agréger les cartes de corrélation
            self.shift2=nn.Conv2d(n*m,n*m,kernel_size=3,stride=1,padding=1)
            self.shift2.weight=kernel_shift_ini(n,m)
            self.add2 = nn.Conv2d(n*m,int(n/2)*int(m/2),kernel_size=1,stride=1,padding=0)
            self.add2.weight=kernel_add_ini(n,m)
        
        n=int(n/2)
        m=int(m/2)
        if n>=2 and m>=2:
            self.shift3=nn.Conv2d(n*m,n*m,kernel_size=3,stride=1,padding=1)
            self.shift3.weight=kernel_shift_ini(n,m)
            self.add3 = nn.Conv2d(n*m,int(n/2)*int(m/2),kernel_size=1,stride=1,padding=0)
            self.add3.weight=kernel_add_ini(n,m)
              
    def get_descripteur(self,img,using_cuda):
        #   Utilisez Conv1 pour calculer le descripteur,
        descripteur_img=self.Relu(self.conv1(img))
        b,c,h,w=descripteur_img.shape
        couche_constante=0.5*torch.ones([1,1,h,w])
        if using_cuda:
            couche_constante=couche_constante.cuda()
        #    Ajouter une couche constante pour éviter la division par 0 lors de la normalisation
        descripteur_img=torch.cat((descripteur_img,couche_constante),1)
        #    la normalisation
        descripteur_img_norm=descripteur_img/torch.norm(descripteur_img,dim=1)
        return descripteur_img_norm
    
    def forward(self,img,frag,using_cuda):
        psize=4
        #   Utilisez Conv1 pour calculer le descripteur,
        descripteur_input1=self.get_descripteur(img,using_cuda)
        descripteur_input2=self.get_descripteur(frag,using_cuda)
        
        b,c,h,w=frag.shape
        n=int(h/psize)
        m=int(w/psize)
        
        #######################################
        #    Calculer la carte de corrélation par convolution pour les n*m patchs plus petit.
        for i in range(n):
            for j in range(m):
                if i==0 and j==0:
                    map_corre=F.conv2d(descripteur_input1,get_patch(descripteur_input2,psize,i,j),padding=2)
                else:
                    a=F.conv2d(descripteur_input1,get_patch(descripteur_input2,psize,i,j),padding=2)
                    map_corre=torch.cat((map_corre,a),1)
        ########################################
        #    Étape de polymérisation (agrégation)
        map_corre=self.maxpooling(map_corre)
        map_corre=self.shift1(map_corre)
        map_corre=self.add1(map_corre)
        
        #########################################
        #    Répétez l'étape d'agrégation jusqu'à obtenir le graphique de corrélation du patch d'entrée
        n=int(n/2)
        m=int(m/2)
        if n>=2 and m>=2:
            map_corre=self.maxpooling(map_corre)
            map_corre=self.shift2(map_corre)
            map_corre=self.add2(map_corre)

        n=int(n/2)
        m=int(m/2)
        if n>=2 and m>=2:
            map_corre=self.maxpooling(map_corre)
            map_corre=self.shift3(map_corre)
            map_corre=self.add3(map_corre)
            
            
        
        
        b,c,h,w=map_corre.shape
        #   Normalisation de la division par maximum
        map_corre=map_corre/(map_corre.max())
        #   Normalisation SoftMax
        #map_corre=(F.softmax(map_corre.reshape(1,1,h*w,1),dim=2)).reshape(b,c,h,w)
        return map_corre

In [None]:
if __name__=='__main__':
    
    
    # Variable des données
    base_dir                 = './training_data_shift_color_16/'
    fresque_filename         = base_dir+'fresque{}.ppm'
    fresque_filename_wild    = base_dir+'fresque*.ppm'
    fragment_filename        = base_dir+'fragments/fresque{}/frag_dev_{:05}.ppm'
    fragments_filename_wild  = base_dir+'fragments/fresque{}/frag_dev_*.ppm'
    vt_filename              = base_dir+'fragments/fresque{}/vt/frag_dev_{:05}_vt.txt'
    save_dir                 = './trained_net/'
    
    # Pour continuer l'entrainement à partir d'une modèle deja entrainé, donner 
    # un chemin de fichier à récuperer. 
    # Sinon laisser None
    net_filename             = None
    # Plus petite taille de patch (à priori laisser 4)
    psize=4
    
    # Utiliser la carte graphique (attention à la version de pytorch)
    # Pour verifier si la carte graphique est utilisable, executer:
    # import torch
    # torch.cuda.is_available()
    # Dans un terminal python3
    using_cuda=True
    
    # Chargement du premier fragment pour obtenir la taille d'entrainement
    dummy_frag = cv2.imread(fragment_filename.format(0,0))
    frag_size = dummy_frag.shape[0]
    del dummy_frag
    
    # Si continuation d'entrainement, charger le modèle et spécifier les epochs.
    # Attention, le modèle chargé doit être de la même architecture que le modèle
    # décrit dans les fonctions précédentes.
    if net_filename:
        net = load_net(net_filename)
        epochs = [4,10]
        expe_id = int(net_filename.split("_")[-1])
    else:
        net=Net(frag_size,psize)
        expe_id = 120
        epochs = [0,10]
    
    # Sauvegarder le modèle à la fin de l'apprentissage ou pas
    save = True
    
    if using_cuda:
        net=net.cuda()
    
    #    Choisissez l'optimiseur et la fonction de coût
    optimizer = torch.optim.Adam(net.parameters())
    #loss_func = torch.nn.MSELoss()
    loss_func = torch.nn.SmoothL1Loss(size_average=None, reduce=None, reduction='mean', beta=20.0)
    
    #    Dans le processus d'apprentissage du réseau,le changement d'erreur est placé dans loss_value=[] 
    loss_value=[]
    
    # Detection des fresques
    fresques_paths = glob(fresque_filename_wild) 
    N_fresque = len(fresques_paths)
    
    time_old = time()
    
    for epoch in range(epochs[0],epochs[1]):
        # Iteration sur les fresques trouvées
        for fresque_id,fresque_path in enumerate(fresques_paths):
            # Charge la fresque
            fresque=cv2.imread(fresque_path)
            h,w,c=fresque.shape
            fresque_tensor=img2tensor(fresque)

            # Si GPU, conversion de la fresque
            if using_cuda:
                fresque_tensor=fresque_tensor.cuda()

            # Recherche des fragments d'entrainement
            fragments_paths = glob(fragments_filename_wild.format(fresque_id))
            random.shuffle(fragments_paths)
            fragments_paths = fragments_paths[:1500]
            N_fragments = len(fragments_paths)
            # Itérer sur les fragments trouvés
            for fragment_id,fragment_path in enumerate(fragments_paths):
                clear_output(wait=True)
                print("Epoch {}, Fresque {}, fragment {}/{} ({:.3}%)".format(epoch,fresque_id,fragment_id,N_fragments,(fragment_id/N_fragments)*100))
                print("Temps par fragment: {:.3}".format(time()-time_old))
                time_old = time()

                # Chargement du fragment et de la vt
                frag,vt=load_training_fragment(fragment_path,vt_filename.format(fresque_id,fragment_id))

                # si GPU, conversion des objects
                frag_tensor=img2tensor(frag)
                if using_cuda:
                    vt=vt.cuda()
                    frag_tensor=frag_tensor.cuda()

                frag_pred=net.forward(fresque_tensor,frag_tensor,using_cuda)
                
                #    Utilisez la fonction de coût pour calculer l'erreur
                err_=loss_func(vt,frag_pred)
                optimizer.zero_grad()
                err_.backward(retain_graph=True)
                optimizer.step()
                print(err_.tolist())

                loss_value.append(err_.tolist())

                del frag_tensor,frag_pred,err_,vt
                torch.cuda.empty_cache()

        # Sauvegarder le réseau
        if save:
            net_filename    = save_dir + "net_trainned_SLLShift_E{}_{}_{:04}".format(epoch,datetime.now().strftime("%m-%d_%H-%M"),expe_id)
            save_net(net_filename,net)
            
            with open(save_dir + "loss_values_SLLShift_E{}_{}_{}".format(epoch,datetime.now().strftime("%m-%d_%H-%M"),expe_id),'w') as f:
                f.write(json.dumps(loss_value))
    
            print("Net sauvegardés dans {}".format(net_filename))

Epoch 2, Fresque 0, fragment 117/1500 (7.8%)
Temps par fragment: 0.76
