Monday, 30 March 2015

Om vikten av att lära... även för maskiner!

Ny vecka och nya tag!

Idag har jag en spännande presentation på jobbet om maskininlärning!

Jag har ju skrivit tidigare om vikten av att lära sig saker, och det stämmer även för maskiner! Maskininlärning är ett fascinerande koncept som från början kommer från forskningen inom artificiell intelligens.  Men idag är det en forskningsgren helt i sin egen rätt som är fantastiskt användbart i många olika områden. Att lära en robot att gå, att hitta mönster i aktiemarknaden eller att försöka förutspå vilken film du gillar bäst baserat på din Netflix-lista, är alla roliga exempel.

På det medicinska institutet där jag jobbar används maskininlärning mest till att analysera stora databaser. Nu för tiden kan man nämligen få en utskrift av varenda del av DNAt i en människa utan större problem, och för en relativt billig penning. Men det inte många kanske tänker på är att det verkliga problemet, när det gäller frågor om biologi och medicin, kvarstår: Vilka av alla dessa gener i DNA är det som leder till vilka karaktärsdrag?

Eller som man säger på biologiska: Vilken genotyp leder till vilken fenotyp?

Det är som om du var inspirerad av maten på den senaste Nobelmiddagen, och bestämde dig för att föröka laga den goda förrätten. Men det visar sig att kocken är hobby-narcissist och inte vill att du ska kopiera hens mästerverk! Så för att djävlas så skickar hen ett gigantiskt recept. Inte bara receptet på förrätten finns där, utan andra recept, på ungefär 50 000 rätter. Och inte nog med att alla ingredienser är huller om buller, kockdjäveln har även blandat in massor med ingredienser som inte ska användas. Bara ca 10% av receptet har de rätta ingredienserna för hela nobelmiddagen, och eftersom du är ute efter bara förrätten så ligger du extra illa till!

Så om du är ute efter att se vilken gen, eller grupp av gener, som leder till att du till exempel är längre än genomsnittet, eller kanske har högre risk för att få bröstcancer, så är alltså det stora gen-receptet ungefär som värdens största höstack. Och nålen du letar efter är ingen nål alls - Den är ett specifikt strå hö.

Då kan det passa sig att ta in en dator, preppad med en matematisk formel som kan lära sig att se vissa mönster. Formeln kan till exempel lära sig att, om den letar igenom en stor databas där många människor är längre än genomsnittet, och den ser att en speciell gen har en viss form i det gigantiska gen-recept som är DNA, så sparar den genast den genen. Den lär sig sedan att leta efter den specifika genen och kan sen avgöra om det finns ett verkligt samband mellan den och en människas kroppslängd. En sådan jämförelse skulle en människa inte klara av under sin livstid, men en dator fixar den på mycket kort tid.

Coolt jöh!!


Men, den klassiska regeln gäller ju så klart; GIGO - Garbage in, Garbage out. Så biologer och kemister, som undertecknad, måste vara med i vartenda steg av programmeringen av maskininlärningsformeln och se till att resultaten faktiskt betyder någonting. Kanske hittar just din dator ett förrättsrecept som innehåller löjrom, saltlakrits och vaniljglass?

Är du bra på mat så kan du nog dra slutsatsen att något gått fel, och försöka lösa problemet...


No comments:

Post a Comment