Genome Assembly (2KV)

Motivation and course outline

Sequencing DNA has become one of the major tools in Biology. There are literally dozens or hundreds of applications, besides the classical genome assembly task. The algorithmic complexity and the demand on computing resources is overwhelming.

In this lecture, you get a deeper insight into the genome assembly algorithms and you will get familiar with preparing reads (from the sequencing machine) and using existing software to assemble genomes, as well as doing differential expression analysis by using sequencing (RNA-seq). This is achieved by a combination of theory input and "demos" by me and small projects for you as homework.

Part one - Workflows:

I will present “close-to-real” workflows for quality control (using two different software products), for genome assembly (de novo and by using a reference sequence), for SNP calling (matching reads against a refgen) and for differential expression analysis using RNA-seq. Having a good understanding of the principles of genome assembly (e.g. the corresponding chapter of GT) will help a lot.

Part two - Theory input:

I will present a few more details on the algorithmic background of assembly. For example, how to do error correction, or the specifics of single cell sequencing, or integration of reads in EULER-SR etc.
This means that the chapter on assembly algorithms in GT ("Genomics and Transcriptomics") is a prerequisite to GA.

Part three - Projects:

The projects will be done in the form of homework. I will be available at JKU during most of the dates to answer questions etc., plus of course anytime via email.
Projects should be done in groups of two. You will form the groups as you like. If you want to do it alone, contact me.

Currently, the projects are not yet fully defined. But you can assume that they will be around the following three themes:

Project A (Experiments with DBG)

You will write a few R pgms that crudely simulate sequencing (create reads from a given genome, including errors) and produce a DBG and an Overlap graph from those reads. Play around with parameters, visualize the DBG using Cytoscape.

Project B (Genome assembly)

You will be given a data set containing reads from a full genome sequencing project of a small organism.
Your task is to assemble the genome in a few variants and to compare the results. Assembly will be done up to the level of contigs only, there will be no mate pairs. Focus is on discussion of the results.

Project C (RNA-seq, differential expression)

You will be given two sets of data sets containing reads from RNA-seq from several samples.
Your task is to find out about all the genes that can be considered as differentially expressed between the two groups.

Exam

There will be an exam covering the lecture part.
Grading will be based on the sum of points from the exam and from the exercises. The weight for those two will be around 50:50.

Technical requirements

You will need access to a Linux installation to do the projects. The genomes used will be small, so Linux on a notebook or PC will be enough. Upon request, you can also use the Linux machine of the BI Institute.
A knowledge of R is required. At least one of the projects will have to be done in R.

Summary of pre-requisites

Very good understanding of the GT chapters on sequencing, on assembly algorithms and on RNA-seq
Fluency in R
Basic knowledge of Unix/Linux

More details ...

... during the first lecture.

Name	Zweck	Ablauf	Anbieter
CookieConsent	Speichert Ihre Einstellungen zur Verwendung von Cookies auf dieser Website.	1 Jahr	JKU
se_mode	Cookie für Einstellungen der Site Search	1 Jahr	JKU

Name	Zweck	Ablauf	Anbieter
_gcl_au	Wird verwendet, um zwischen User und Userverhalten zu unterscheiden.	3 Monate	Google
_ga	Wird verwendet, um Benutzer zu unterscheiden.	2 Jahre	Google
_gid	Wird verwendet, um Benutzer zu unterscheiden und die Nutzung der Website zu analysieren. Es werden anonyme Daten zur Anzahl von Besuchern, die besuchten Seiten und die Quelle des Zugriffes erfasst.	1 Tag	Google
_gat_UA-112203476-1	Wird zum Drosseln der Anfragerate bei Google Analytics für Websites mit hohen Nutzerzahlen verwendet.	1 Minute	Google
_pk_id	Wird verwendet, um einige Details über den Benutzer zu speichern wie z.B. die eindeutige Besucher-ID.	13 Monate	JKU
_pk_ses	Kurzlebiges Cookie, welches verwendet wird, um Daten für den Besuch vorübergehend zu speichern.	30 Minuten	JKU
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	JKU

Name	Zweck	Ablauf	Anbieter
_gcl_au	Wird verwendet, um zwischen User und Userverhalten zu unterscheiden.	3 Monate	Google
_ga	Wird verwendet, um Benutzer zu unterscheiden.	2 Jahre	Google
_gid	Wird verwendet, um Benutzer zu unterscheiden und die Nutzung der Website zu analysieren. Es werden anonyme Daten zur Anzahl von Besuchern, die besuchten Seiten und die Quelle des Zugriffes erfasst.	1 Tag	Google
_gac_UA-112203476-1	Enthält Kampagneninformationen und dient der Messung des Kampagnenerfolges von Google AdWords Kampagnen.	90 Tage	Google
test_cookie	Wird testweise gesetzt, um zu prüfen, ob der Browser das Setzen von Cookies erlaubt. Enthält keine Identifikationsmerkmale.	15 Minuten	Google
IDE	Enthält eine zufallsgenerierte User-ID. Anhand dieser ID kann Google den User über verschiedene Websites domainübergreifend wiedererkennen und personalisierte Werbung ausspielen.	1 Jahr	Google
_gcl_aw	Dieses Cookie wird gesetzt, wenn ein User über einen Klick auf eine Google Werbeanzeige auf die Website gelangt. Es enthält Informationen darüber, welche Werbeanzeige geklickt wurde, sodass erzielte Erfolge wie z.B. Bestellungen oder Kontaktanfragen der Anzeige zugewiesen werden können.	3 Monate	Google
AMCV_xx	Enthält eine zufallsgenerierte User-ID. Anhand dieser ID kann die Adobe Marketing Cloud den User über verschiedene Websites domainübergreifend wiedererkennen und personalisierte Werbung ausspielen.	3 Jahre	LinkedIn
bcookie	Enthält eine ID des Browsers.	2 Jahre	LinkedIn
bscookie	Enthält eine ID des Browsers bei einer sicheren Verbindung.	2 Jahre	LinkedIn
lang	Wird verwendet, um die Spracheinstellung des Besuchers zu speichern.	Session	LinkedIn
lidc	Wird verwendet, um Benutzer zu unterscheiden und die Nutzung der Website zu analysieren. Es werden anonyme Daten zur Anzahl von Besuchern, die besuchten Seiten und die Quelle des Zugriffes erfasst.	1 Tag	LinkedIn
lissc	Wird für die Analyse der Nutzung von eingebetteten Dienstleistungen verwendet.	1 Jahr	LinkedIn
UserMatchHistory	Enthält Kampagneninformationen und dient der Messung des Kampagnenerfolges.	30 Tage	LinkedIn
fr	Enthält Kampagneninformationen und dient der Messung des Kampagnenerfolges.	90 Tage	Facebook
fbp	Wird von Facebook genutzt, um eine Reihe von Werbeprodukten anzuzeigen, zum Beispiel Echtzeitangebote dritter Werbetreibender.	90 Tage	Facebook
sc_at	Wird verwendet, um Benutzer über mehrere Domains hinweg zu unterscheiden.	1 Jahr	Snap
sc-country	Dieses Cookie unterscheidet das Land des Benutzers.	1 Tag	Snap
uid	Dieses Cookie enthält eine zufallsgenerierte User-ID und wird für das Ausspielen und die Echtzeitermittlung der Preise für Anzeigen für differenzierte Zielgruppen verwendet.	60 Tage	Adform
C	Identifiziert und speichert ob Nutzer Cookies akzeptieren. Wert 1: Cookies sind erlaubt, Wert 3: Cookies sind nicht erlaubt.	30 Tage	Adform