πρότυπο ψηφιακής κωδικοποίησης ήχου From Wikipedia, the free encyclopedia
Το MPEG-1 Audio Layer 3 (3ο Επίπεδο Ήχου [του προτύπου] MPEG-1), γνωστό και ως ΜΡ3 (προφέρεται εμ-πι-θρι), είναι ένα δημοφιλές πρότυπο ψηφιακής κωδικοποίησης ήχου, το οποίο βασίζεται στην αποτελεσματική συμπίεση αρχείων μέσω ενός αλγορίθμου σχεδιασμένου να μειώνει δραστικά το πλήθος των ψηφιακών δεδομένων που απαιτούνται για την αποθήκευση και ορθή αναπαραγωγή του ήχου, ο οποίος ωστόσο συνεχίζει να ακούγεται σαν πιστή αναπαραγωγή του αρχικού ασυμπίεστου περιεχομένου από τους περισσότερους ακροατές. Εφευρέθηκε από μία ομάδα Γερμανών μηχανικών του Ιδρύματος Fraunhofer, εργαζομένων στα πλαίσια του προγράμματος EUREKA 147 DAB το οποίο έκανε έρευνα επάνω στο ψηφιακό ραδιόφωνο, και τυποποιήθηκε με βάση το πρότυπο ISO/IEC το 1991.
Το λήμμα δεν περιέχει πηγές ή αυτές που περιέχει δεν επαρκούν. |
Το ΜΡ3 είναι ένας τύπος ψηφιακού συμπιεσμένου αρχείου ήχου. Παρέχει τη δυνατότητα αναπαράστασης ήχου κωδικοποιημένου με μορφή Pulse Code Modulation (PCM) (διαμόρφωση με βάση κωδικούς παλμών), δεσμεύοντας όμως πολύ λιγότερο χώρο (για δεδομένα) σε σχέση με τις άμεσες μεθόδους. Αυτό γίνεται χρησιμοποιώντας ψυχοακουστικά μοντέλα για να απορρίψει τμήματα ή περιοχές του ηχητικού φάσματος που δεν ακούει το ανθρώπινο αυτί και καταγράφοντας την υπόλοιπη πληροφορία με αποτελεσματικό τρόπο. Παρόμοιες μέθοδοι χρησιμοποιούνται από το JPEG, ένα πρότυπο συμπίεσης εικόνων με απώλειες οπτικών λεπτομερειών μη αντιληπτών από το ανθρώπινο μάτι.
Το «2ο Επίπεδο Ήχου [του προτύπου] MPEG-1» (MP2) άρχισε ως σχέδιο DAB (Digital Audio Broadcast) το οποίο διηύθυνε ο Egon Meier-Engelen του γερμανικού κέντρου αεροδιαστημικής. Το σχέδιο χρηματοδοτούσε η Ευρωπαϊκή Ένωση ως μέρος του ερευνητικού προγράμματος EUREKA, γνωστού και ως EU-147. Το πρόγραμμα αυτό διήρκεσε από το 1987 έως και το 1994.
Το 1991 υπήρχαν δύο διαθέσιμες προτάσεις: Το Musicam (γνωστό και ως «2ο Επίπεδο») και το ASPEC (Adaptive Spectral Perceptual Entropy Coding). Η μέθοδος Musicam, όπως είχε προταθεί από την ολλανδική εταιρεία Phillips, τη γαλλική εταιρεία τηλεπικοινωνιών CCETT, και το Γερμανικό Ινστιτούτο Τηλεπικοινωνιών επιλέχθηκε εξαιτίας της απλότητας, της ικανοποιητικής αντιμετώπισης σφαλμάτων και των χαμηλών απαιτήσεων υπολογιστικής ισχύος για την κωδικοποίηση συμπιεσμένου ήχου υψηλής ποιότητας. Η μορφοποίηση Musicam, η οποία βασιζόταν στην κωδικοποίηση υποσυχνοτήτων του ήχου, ήταν το κλειδί στην προτυποποίηση της συμπίεσης MPEG Audio (όσον αφορά τον καθορισμό των ρυθμών δειγματοληψίας, του αριθμού δειγμάτων ανά πλαίσιο, τη δομή των πλαισίων και των κεφαλίδων κλπ). Η τεχνολογία και οι ιδέες ενσωματώθηκαν πλήρως στον ορισμό του προτύπου ISO MPEG Audio Layer I (πρώτου επιπέδου), στο Επίπεδο II (το MP2) και, πιο πολύ, στο Επίπεδο III (το MP3). Υπό την εποπτεία του καθηγητή Mussman (Πανεπιστήμιο του Ανόβερο) η επεξεργασία του προτύπου έγινε με ευθύνη του Leon van de Kerkhof (Επίπεδο I) και του Gerhard Stoll (Επίπεδο II).
Μία ομάδα εργασίας αποτελούμενη από τους Leon Van de Kerkhof (Ολλανδία), Gerhard Stoll (Γερμανία), Leonardo Chiariglione (Ιταλία), Yves-François Dehery (Γαλλία) και Karlheinz Brandenburg (Γερμανία), χρησιμοποιώντας ιδέες από το Musicam και το ASPEC και προσθέτοντας ορισμένες δικές τους, δημιούργησε το ΜΡ3, το οποίο σχεδιάστηκε για να επιτυγχάνει ποιότητα ήχου στα 128 Kbit/δευτερόλεπτο όμοια με του ΜΡ2 στα 192 Kbit/δευτ., μειώνοντας δηλαδή τον όγκο των δεδομένων που απαιτούνταν με σταθερή την ποιότητα ήχου.
Όλοι οι αλγόριθμοι εγκρίθηκαν το 1991 και οριστικοποιήθηκαν το 1992 ως μέρος του προτύπου MPEG-1, του πρώτου της σειράς προτύπων της ομάδας MPEG από το οποίο προέκυψε το διεθνές πρότυπο ISO/IEC 11172-3, που δημοσιεύθηκε το 1993. Περαιτέρω εργασία πάνω στο MPEG Audio ολοκληρώθηκε το 1994 ως μέρος της δεύτερης σειράς προτύπων MPEG, με το MPEG-2, πιο επίσημα γνωστό και ως διεθνές πρότυπο ISO/IEC 13818-3, να δημοσιεύεται για πρώτη φορά το 1995.
Η αποδοτικότητα της συμπίεσης των κωδικοποιητών συχνά ορίζεται με βάση τον ρυθμό αποθήκευσης / ανάγνωσης bit ανά δευτερόλεπτο, επειδή η συμπίεση εξαρτάται από το πλήθος των bit και τη συχνότητα δειγματοληψίας του προς συμπίεση σήματος. Παρόλα αυτά, συχνά δημοσιεύονται ρυθμοί συμπίεσης που χρησιμοποιούν τις παραμέτρους της δειγματοληψίας του CD ως μέτρο αναφοράς (44,1 KHz, 2 κανάλια και 16 bit ανά κανάλι, ή 2x16 bit). Μερικές φορές χρησιμοποιούνται οι παράμετροι των ρυθμών δειγματοληψίας της ψηφιακής κασέτας (DAT, Digital Audio Tape), δηλαδή 48 Khz & 2x16 bit. Οι ρυθμοί συμπίεσης με αυτές τις παραμέτρους είναι υψηλότεροι, γεγονός που αποδεικνύει τον προβληματικό όρο «ρυθμός συμπίεσης» για τους απωλεστικούς κωδικοποιητές. Δηλαδή, ενώ χρησιμοποιούμε έναν αλγόριθμο για να μειώσουμε το μέγεθος ενός αρχείου ήχου «συμπιέζοντας» τα δεδομένα, τελικά δημιουργούμε ένα μεγαλύτερο αρχείο χρησιμοποιώντας τις παραμέτρους αυτές.
Ο Karlheinz Brandenburg χρησιμοποίησε το κομμάτι «Tom's Diner» από ένα μουσικό άλμπουμ της Σούζαν Βέγκα για να αξιολογήσει τον αλγόριθμο συμπίεσης του MP3. Το τραγούδι αυτό επιλέχθηκε εξαιτίας της απλότητας και της απαλής μουσικής που έχει, κάνοντας πιο εύκολη την ανίχνευση ατελειών της συμπίεσης κατά την αναπαραγωγή. Κάποιοι, αστειευόμενοι, αναφέρουν τη Σούζαν Βέγκα ως «μητέρα του MP3». Επίσης χρησιμοποιήθηκαν από επαγγελματίες μηχανικούς ήχου κάποια σημαντικά ηχητικά αποσπάσματα (παραγόμενα με μουσικά όργανα όπως τρίγωνο, ακορντεόν, μεταλλόφωνο...) από το CD αναφοράς EBU V3/SQAM, προκειμένου να αξιολογηθεί η υποκειμενική ποιότητα των προτύπων ήχου του MPEG.
Μία υλοποίηση ενός λογισμικού αναφοράς γραμμένου στη γλώσσα προγραμματισμού C γνωστό και ως ISO 11172-5, αναπτύχθηκε από τα μέλη της επιτροπής του ISO MPEG Audio ώστε να δημιουργηθούν αρχεία συμβατά με τα πρότυπα MPEG Audio (επιπέδου 1, 2, και 3). Αυτό το πρόγραμμα κατάφερε να παρουσιάσει σε μερικά λειτουργικά συστήματα την πρώτη αποκωδικοποίηση συμπιεσμένου ήχου σε πραγματικό χρόνο (αυτό σημαίνει πως το λογισμικό έκανε ανάγνωση του συμπιεσμένου αρχείου, και ταυτόχρονα αποσυμπίεση και αναπαραγωγή του). Παλαιότερα είχαν γίνει μόνο δοκιμές όπου πρώτα αποσυμπιεζόταν ολόκληρο το αρχείο και στη συνέχεια να αναπαραγόταν. Στην πραγματικότητα όμως το λογισμικό αυτό εξομοίωνε τον τρόπο λειτουργίας του υλικού (δηλαδή των μικροτσίπ) το οποίο θα εκτελούσε αυτή την εργασία. Άλλες υλοποιήσεις αποκωδικοποίησης πραγματικού χρόνου από τους κωδικοποιητές του MPEG Audio ήταν διαθέσιμοι για χρήση στην ψηφιακή εκπομπή σήματος για καταναλωτές με ανάλογους δέκτες.
Αργότερα, τον Ιούλιο του 1994, η ομάδα Fraunhofer κυκλοφόρησε το πρώτο λογισμικό που κωδικοποιούσε MP3 το οποίο ονομάστηκε l3enc. Η επέκταση αρχείου .mp3 επιλέχθηκε από την ομάδα Fraunhofer στις 14 Ιουλίου του 1995 (νωρίτερα τα αρχεία είχαν επέκταση .bit). Με το πρώτο λογισμικό που μπορούσε να αναπαράγει ΜΡ3, το Winplay 3 το οποίο κυκλοφόρησε στις 9 Σεπτεμβρίου του 1995, πολλοί χρήστες είχαν τη δυνατότητα να κωδικοποιούν και να αναπαράγουν αρχεία με ήχο τύπου MP3 στους υπολογιστές τους. Εξ αιτίας των σχετικά μικρών σκληρών δίσκων (περίπου 500 MB - 1 GB) που ήταν διαθέσιμοι εκείνη την εποχή στους προσωπικούς υπολογιστές, η τεχνολογία αυτή ήταν απαραίτητη για να αποθηκευθούν κομμάτια μουσικής με φυσικό ήχο και φωνή σε έναν υπολογιστή (σε αντίθεση με αρχεία τύπου tracker και midi, τα οποία αναπαρήγαγαν μουσικά κομμάτια χρησιμοποιώντας μόνο αποθηκευμένα δείγματα ήχου από μουσικά όργανα).
Τον Οκτώβριο του 1993, αρχεία τύπου MP2 εμφανίστηκαν στο Διαδίκτυο και συχνά αναπαράγονταν με χρήση του Xing MPEG Audio Player και, αργότερα, με ένα πρόγραμμα για Unix που είχε δημιουργήσει ο Tobias Banding και ονομαζόταν MAPlay, το οποίο κυκλοφόρησε για πρώτη φορά στις 22 Φεβρουαρίου του 1994 (το MAPlay μεταφέρθηκε και σε έκδοση για το λειτουργικό σύστημα Windows).
Αρχικά το μόνο πρόγραμμα κωδικοποίησης MP2 ήταν το Xing Encoder, μαζί με το πρόγραμμα CDDA2WAV, που επεξεργάζεται μουσικά CD και μετατρέπει τα κομμάτια τους σε ασυμπίεστα αρχεία τύπου WAV. Η ιστοσελίδα IUMA (Internet Underground Music Archive, Διαδικτυακό Αρχεία Αντεργκράουντ Μουσικής) γενικά αναγνωρίζεται ως η έναρξη της μουσικής «επανάστασης» στο Internet. Η IUMA ήταν η πρώτη μουσική ιστοσελίδα υψηλής πιστότητας και φιλοξενούσε χιλιάδες εγκεκριμένα μουσικά κομμάτια πριν το MP3 ή ο Παγκόσμιος Ιστός γίνουν δημοφιλή.
Από το πρώτο ήμισυ του 1995 έως και τα τέλη της δεκαετίας του 1990, αρχεία MP3 άρχισαν να κυκλοφορούν ευρέως στο Διαδίκτυο. Η επιτυχία του MP3 οφειλόταν κυρίως στην επιτυχία εταιριών λογισμικού και των προγραμμάτων τους όπως το Winamp της Nullsoft (που κυκλοφόρησε το 1997), το mpg123 και το Napster (που κυκλοφόρησε το 1999). Από κοινού αυτά τα προγράμματα έκαναν για τον απλό χρήστη πολύ εύκολη τη διαδικασία της αναπαραγωγής, δημιουργίας, διανομής και συλλογής αρχείων mp3.
Αντιπαραθέσεις που είχαν να κάνουν με την ελεύθερη διαδικτυακή ανταλλαγή αρχείων ΜΡ3 μέσω ομότιμων δικτύων (peer-to-peer) είναι συνηθισμένες μετά το 2000, κυρίως επειδή η υψηλή συμπίεση που επιτυγχάνεται επιτρέπει τη διανομή και ανταλλαγή αρχείων που σε άλλη περίπτωση θα ήταν πολύ μεγάλα και ογκώδη (σε αποθηκευτικό χώρο που απαιτούν ως δεδομένα) για να διαμοιραστούν εύκολα. Κάποιες μεγάλες δισκογραφικές εταιρείες αντέδρασαν υποβάλλοντας μηνύσεις εναντίον της εταιρείας Napster, λόγω της μεγάλης διάδοσης των MP3 μέσω του Διαδικτύου, για να προστατεύσουν τα πνευματικά τους δικαιώματα (δείτε επίσης και τον όρο πνευματική ιδιοκτησία).
Οι διαδικτυακές εμπορικές υπηρεσίες πώλησης μουσικής (όπως το on-line κατάστημα της Apple ονόματι iTunes) συνήθως προτιμούν άλλους τύπους αρχείων οι οποίοι υποστηρίζουν το πρότυπο DRM (Digital Rights Management), για να ελέγξουν και να περιορίσουν τη χρήση της ψηφιακής μουσικής. Η χρήση των τύπων αρχείων που υποστηρίζουν το DRM είναι μία προσπάθεια να αποτραπεί η παραβίαση υλικού το οποίου τα δικαιώματα είναι προστατευμένα, αλλά υπάρχουν διάφοροι μέθοδοι για την υπέρβαση των περισσότερων μεθόδων προστασίας. Τέτοιες μέθοδοι είναι παράνομες σε πολλές χώρες. Μερικές, όμως, διαδικτυακές υπηρεσίες πώλησης μουσικής (όπως το eMusic και το DJTunes.com) χρησιμοποιούν τον τύπο MP3, κυρίως λόγω της ευρύτατης συμβατότητας με φορητά συστήματα αναπαραγωγής μουσικής (τα λεγόμενα MP3 player).
Το πρότυπο MPEG-1 δεν συμπεριλαμβάνει ακριβείς προδιαγραφές για έναν κωδικοποιητή MP3. Από την άλλη μεριά, ο αλγόριθμος και η μορφή του αρχείου ορίζονται ικανοποιητικά. Όσοι υλοποιούν το πρότυπο θεωρείται ότι θα επινοήσουν δικούς τους αλγόριθμους, ικανούς να αφαιρέσουν τμήματα της πληροφορίας στο αρχικό ηχητικό κομμάτι. Ως αποτέλεσμα, υπάρχουν πολλοί διαφορετικοί κωδικοποιητές MP3, ο καθένας από τους οποίους δημιουργεί αρχεία διαφορετικής ποιότητας. Συγκριτικές δοκιμές είναι ευρέως διαθέσιμες, ώστε να είναι εύκολο για έναν πιθανό χρήστη ενός κωδικοποιητή να αναζητήσει την καλύτερη επιλογή. Ένας κωδικοποιητής που έχει δυνατότητα να δημιουργεί αρχεία σε υψηλότερα bit rates (βλ. παρακάτω) (όπως ο LAME, που είναι ευρέως διαδεδομένος για την κωδικοποίηση σε υψηλά bit rates) δεν είναι απαραίτητα τόσο καλός στην κωδικοποίηση με χαμηλότερους ρυθμούς bit rate.
Η αποκωδικοποίηση από την άλλη μεριά, είναι ένα προσεκτικά σχεδιασμένο πρότυπο. Οι περισσότεροι αποκωδικοποιητές είναι "σύμμορφοι με τη ροή των bits" (bitstream compliant), που σημαίνει ότι το αποσυμπιεσμένο αποτέλεσμα που παράγουν από κάποιο αρχείο MP3 θα είναι το ίδιο (μέσα σε ένα ανεκτό βαθμό στρογγυλοποίησης) όπως το αποτέλεσμα που ορίζεται μαθηματικά από το έγγραφο του προτύπου ISO/IEC . Το αρχείο MP3 έχει μία σταθερή μορφή που αποτελείται από 384, 576 ή 1152 δείγματα (ανάλογα με την έκδοση και το επίπεδο του MPEG) και όλα τα "πλαίσια", έχουν σχετική πληροφορία στην κεφαλίδα (32 bit) και την υπόλοιπη πληροφορία (9, 17, ή 32 bytes, ανάλογα με την έκδοση του MPEG και αν είναι στερεοφωνικός ή μονοφωνικός ο ήχος). Η πληροφορία της κεφαλίδας και του υπόλοιπου μέρους βοηθά τον αποκωδικοποιητή να αποκωδικοποιήσει σωστά τα δεδομένα. Για αυτό τον λόγο οι αποκωδικοποιητές συγκρίνονται συνήθως με βάση την υπολογιστική τους απόδοση (δηλαδή πόση μνήμη και χρόνο από τον επεξεργαστή ενός υπολογιστή απαιτούν για τη διαδικασία της αποκωδικοποίησης).
Ο ρυθμός bit (bit rate) είναι κυμαινόμενος για τα αρχεία MP3. Ο γενικός κανόνας είναι ότι όσο μεγαλύτερο ρυθμό Bit έχει ένα αρχείο τόσο περισσότερη πληροφορία περιλαμβάνεται από τον αρχικό ήχο, και έτσι είναι ποιοτικότερο το αποτέλεσμα κατά την αναπαραγωγή. Στις πρώτες μέρες της κωδικοποίησης των MP3 χρησιμοποιούνταν σταθερός ρυθμός bit για όλο το αρχείο. Οι διαθέσιμοι ρυθμοί Bit για το MPEG-1 επιπέδου 3 είναι 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 και 320 kbit/s, και οι διαθέσιμες συχνότητες δειγματοληψίας είναι 32, 44.1 και 48 Khz. Η πιο συνηθισμένη είναι αυτή των 44.1Khz (και κατά σύμπτωση είναι ίδια με αυτή του CD), ενώ τα 128Kbit έχει γίνει ο συνηθισμένος ρυθμός bit για ένα "αρκετά καλό" αποτέλεσμα. Αν και τα 192Kbit άρχισαν να γίνονται όλο και πιο δημοφιλή στα δίκτυα ανταλλαγής αρχείων (peer-to-peer), κυρίως λόγω της μεγαλύτερης διαθεσιμότητας σε ευρυζωνικές ταχύτητες Ίντερνετ. Το MPEG-2 και το ανεπίσημο MPEG-2.5 συμπεριλαμβάνουν πρόσθετους ρυθμούς bit 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/δευτ και προσφέρουν και χαμηλότερες συχνότητες δειγματοληψίας (8, 11.025, 12, 16, 22.05 και 24 kHz)
Επίσης είναι δυνατό να χρησιμοποιηθούν κυμαινόμενοι ρυθμοί bit (Variable bit rates ή VBR). Τα αρχεία MP3 χωρίζονται σε "πλαίσια", κάθε ένα από τα οποία έχει το δικό του ρυθμό bit, και έτσι είναι δυνατό να αλλαχθεί δυναμικά ο ρυθμός καθώς το αρχείο κωδικοποιείται. Αυτή η τεχνική κάνει δυνατή τη χρήση περισσότερων bit για κομμάτια του ήχου με υψηλότερη δυναμική (περισσότερη κίνηση στον ήχο), και λιγότερα bit σε σημεία με μικρότερη δυναμική, βελτιώνοντας περισσότερο την ποιότητα και μειώνοντας τον χώρο που απαιτείται για την αποθήκευσή τους. Για παράδειγμα, ένα μέρος που αποτελείται από καθαρούς τόνους μπορεί να κωδικοποιηθεί στα 48Kbit/δευτ, καταλαμβάνοντας λιγότερο χώρο χωρίς κάποια εμφανή διαφορά, ενώ ένα μέρος που παίζεται από μια πλήρη συμφωνική ορχήστρα κωδικοποιείται στα 224Kbit/δευτ για να το αναπαραστήσει με μεγαλύτερη πιστότητα. Αν και αρχικά δεν γινόταν αυτό, πολλοί κωδικοποιητές χρησιμοποιούν αυτή την τεχνική σε μεγαλύτερο ή μικρότερο βαθμό.
Ρυθμοί bit εκτός του τύπου μέχρι και 640Kbit/δευτ μπορούν να επιτευχθούν με τον κωδικοποιητή LAME (χρησιμοποιώντας την επιλογή freeformat, δηλαδή, ελεύθερη μορφοποίηση) αλλά λιγότερα προγράμματα αναπαραγωγής μπορούν να παίξουν αυτά τα αρχεία. Ο Gabriel Bouvigne, ένας βασικός προγραμματιστής στην ανάπτυξη του LAME, παρείχε την παρακάτω πληροφορία σχετικά με το freeformat.
Το freeformat είναι συμβατό με το πρότυπο MP3. Οι αποκωδικοποιητές απαιτείται να μπορούν αν αποκωδικοποιήσουν μέχρι και τα 320Kb/δευτ, αλλά η αποκωδικοποίηση υψηλότερων ρυθμών bit δεν είναι απαραίτητη. Πρακτικά, αυτό σημαίνει ότι λίγοι αποκωδικοποιητές υποστηρίζουν παραπάνω από 320Kbit/δευτ.[νεκρός σύνδεσμος]
Επειδή το MP3 είναι μορφή αρχείου απωλεστικής συμπίεσης, είναι δυνατόν να παρέχει έναν αριθμό από διαφορετικές επιλογές για τους ρυθμούς bit που χρησιμοποιεί, δηλαδή τον αριθμό των bit κωδικοποιημένης πληροφορίας τα οποία αναπαριστούν κάθε δευτερόλεπτο ήχου. Τυπικά, οι ρυθμοί αυτοί είναι μεταξύ των 128 και 320 kbit/δευτ. Αντίθετα ο ασυμπίεστος ήχος όπως αποθηκεύεται σε έναν ψηφιακό δίσκο (CD) έχει ρυθμό bit 1411.2 kb/ δευτ. (16bit ανα δείγμα Χ 44100 δείγματα το δευτερόλεπτο Χ 2 κανάλια)
Αρχεία MP3 τα οποία κωδικοποιήθηκαν με μικρότερο ρυθμό bit σε γενικές γραμμές θα αναπαράγουν τον ήχο σε χαμηλότερη ποιότητα. Με πολύ χαμηλό ρυθμό bit, "Προϊόντα συμπίεσης" (δηλ. ήχοι που δεν υπήρχαν στον αρχικό ήχο) μπορεί να ακούγονται στην αναπαραγωγή. Ένα καλό παράδειγμα των προϊόντων συμπίεσης είναι τα χειροκροτήματα: είναι δύσκολο να συμπιεσθούν γιατί είναι εντελώς τυχαία και έχουν οξείς ήχους. Για αυτό τα προϊόντα συμπίεσης μπορεί να ακουστούν σαν κουδουνίσματα ή ηχώ που προηγείται του κανονικού ήχου.
Η ποιότητα επίσης έχει εξαρτάται και από την ποιότητα του προγράμματος κωδικοποίησης και τη δυσκολία της μετατροπής του σήματος μου κωδικοποιείται (συμπιέζεται). Επειδή το πρότυπο του MP3 δίνει αρκετή ελευθερία στου αλγόριθμους κωδικοποίησης, διαφορετικοί κωδικοποιητές μπορεί να αποφέρουν διαφορετικές ποιότητες, ακόμα και έχοντας παρόμοιους ρυθμούς bit. Για παράδειγμα, σε μία δημόσια δοκιμή ακρόασης τον Ιούλιο του 2003 που έγινε σε δύο κωδικοποιητές στα 128Kbps ο ένας πέτυχε 3,66 βαθμούς σε κλίμακα 1 έως 5 ενώ ο άλλος μόλις 2,22.
Η ποιότητα είναι άμεσα συσχετιζόμενη με την επιλογή κωδικοποιητή και των παραμέτρων του. Ενώ με τους παλαιότερους κωδικοποιητές στα 128kbps η ποιότητα ήταν ανάμεσα στο ενοχλητικό και το ανεκτό, οι πιο καινούργιοι καταφέρουν να παρέχουν καλύτερη ποιότητα σε αυτούς τους ρυθμούς Bit , στατιστικά όχι με μεγάλες διαφορές από την ποιότητα που προσφέρει το AAC (τον διάδοχο του MP3 από τεχνικής απόψεως). Το 1998 όμως το MP3 στα 128Kbps παρείχε ποιότητα ανάλογη του AAC στα 96Kbps και του MP2 στα 192Kbps .
Το όριο στο οποίο το MP3 ακούγεται χωρίς να ξεχωρίζει από τον αρχικό ήχο, μπορεί να εκτιμηθεί περίπου στα 128Kbps χρησιμοποιώντας καλούς κωδικοποιητές σε ένα τυπικό κομμάτι μουσικής. Αυτό αποδεικνύεται από την καλή του απόδοση στην παραπάνω δοκιμή, αλλά πιθανώς κάποια συγκεκριμένα πιο "δύσκολα" κομμάτια να απαιτούν 192Kbps ή και περισσότερα. Όπως και με όλες τις μορφές απωλεστικής συμπίεσης, κάποια δείγματα δεν είναι δυνατόν να κωδικοποιηθούν ώστε να μην γίνονται αντιληπτά από όλους τους χρήστες. Μια εναλλακτική απεικόνιση της κωδικοποίησης είναι η χρήση του VBR (κυμαινόμενου ρυθμού bit). Αυτό στοχεύει σε μια σταθερή ποιότητα ήχου και μεταβάλει ανάλογα τον ρυθμό Bit. Οι χρήστες που γνωρίζουν ότι κάποια συγκεκριμένη "ρύθμιση ποιότητας" είναι "διαφανής" για τα αυτιά τους (δηλαδή δεν μπορούν να ξεχωρίσουν τη διαφορά μεταξύ αρχικού ήχου και MP3) μπορούν να χρησιμοποιούν αυτή τη ρύθμιση σε όλα τα κομμάτια της μουσικής τους και δεν υπάρχει λόγος να ανησυχούν ότι χρειάζεται να κάνουν δοκιμές σε κάθε κομμάτι για να επιλέξουν τις κατάλληλες ρυθμίσεις. Σε χαμηλότερους ρυθμούς Bit η ποιότητα του MP3 πέφτει απότομα και είναι μακράν πίσω από την απόδοση της ποιότητας του AAC στα 32Kbps όπως φάνηκε σε μία ακουστική δοκιμή (06/2004)
Η αντίληψη της ποιότητας ενός κωδικοποιημένου ήχου μπορεί να επηρεαστεί από το περιβάλλον της ακρόασης (θόρυβος στο περιβάλλον), την προσοχή του ακροατή, και την εκπαίδευσή του (να έχει δηλαδή "ευαίσθητο αυτί" ώστε να κατανοεί τις διαφορές).
Ένα αρχείο MP3 αποτελείται από πολλαπλά πλαίσια (frames) τα οποία αποτελούν την κεφαλίδα του αρχείου και τα δεδομένα. Αυτή η αλληλουχία από πλαίσια ονομάζεται στοιχειώδης ροή (elementary stream). Τα πλαίσια είναι αυτόνομα στοιχεία. Κάποιος θα μπορούσε να αφαιρέσει κάποια πλαίσια από το αρχείο και ένα πρόγραμμα αναπαραγωγής MP3 θα μπορούσε να το "παίξει". Τα δεδομένα του MP3 είναι το πραγματικό ωφέλιμο μέρος. Στο διάγραμμα φαίνεται ότι η κεφαλίδα του MP3 αποτελείται από μία "λέξη" συγχρονισμού η οποία χρησιμοποιείται για να προσδιορίσει την έναρξη ενός έγκυρου πλαισίου. Ακολουθεί ένα bit που επισημαίνει ότι αυτό είναι το πρότυπο MPEG και άλλα δύο Bit που επισημαίνουν ότι χρησιμοποιείται το επίπεδο 3, δηλαδή το MPEG-1 επιπέδου 3 ή πιο απλά MP3. Μετά από αυτό οι τιμές θα διαφοροποιούνται ανάλογα με το αρχείο MP3. Το πρότυπο ISO/IEC 11172-3 ορίζει το εύρος των τιμών για κάθε ενότητα της κεφαλίδας μαζί με την προδιαγραφή της κεφαλίδας. Τα περισσότερα αρχεία MP3 σήμερα περιέχουν μεταδεδομένα (metadata) τύπου ID3 που προηγούνται ή ακολουθούν τα πλαίσια του MP3. Αυτό φαίνεται και στο διάγραμμα.
Υπάρχουν διάφοροι περιορισμοί οι οποίοι στους οποίους υπόκειται το αρχείο MP3 και δεν μπορούν να ξεπεραστούν από κανέναν κωδικοποιητή. Νεότερα πρότυπα κωδικοποίησης όπως το Vorbis και το AAC δεν έχουν πια αυτούς τους περιορισμούς. Με τεχνικούς όρους, το MP3 περιορίζεται με τους παρακάτω τρόπους:
Παρόλα αυτά, ένας καλά ρυθμισμένος κωδικοποιητής μπορεί να αποδώσει ανταγωνιστικά ακόμα και με αυτούς τους περιορισμούς
Μία ετικέτα μέσα σε ένα συμπιεσμένο αρχείο ήχου, είναι μια ενότητα του αρχείου που περιέχει μεταδεδομένα (metadata) όπως ο τίτλος, ο καλλιτέχνης, το άλμπουμ, ο αριθμός του τραγουδιού και άλλες πληροφορίες που σχετίζονται με το τραγούδι. Μέχρι το 2006, οι πιο διαδεδομένοι τύποι μορφών ετικετών είναι οι ID3v1 και ID3v2, και πρόσφατα παρουσιάστηκε το APEv2. Το APEv2 αρχικά είχε αναπτυχθεί για το αρχείο τύπου MPC (δείτε και τα χαρακτηριστικά του APEv2). Η ετικέτα APEv2 μπορεί να συνυπάρχει μαζί με τις ετικέτες ID3 στο ίδιο αρχείο, αλλά μπορεί επίσης να χρησιμοποιηθεί και αυτόνομα. Η δυνατότητα επεξεργασίας των ετικετών στα αρχεία MP3 είναι συχνά ενσωματωμένη στα προγράμματα αναπαραγωγής και επεξεργασίας MP3, αλλά υπάρχουν και προγράμματα ειδικά για την επεξεργασία των ετικετών, με περισσότερες δυνατότητες, όπως η μαζική αλλαγή ετικετών σε πολλά αρχεία, ή η αντιγραφή μέρος του ονόματος ενός αρχείου σε κάποια ετικέτα και αντίστροφα.
Επειδή η ψηφιακοί δίσκοι (CD) και άλλες πηγές ηχογραφούνται και παράγονται σε διαφορετικές εντάσεις ήχου, είναι χρήσιμο να αποθηκεύεται η πληροφορία της έντασης του ήχου ενός αρχείου στην ετικέτα ώστε κατά τη διάρκεια της αναπαραγωγής, η ένταση του ήχου να μπορεί να ρυθμίζεται δυναμικά.
Έχουν προταθεί μερικά πρότυπα για την κωδικοποίηση της αύξησης του ήχου ενός MP3. Η ιδέα είναι να εξομαλυνθεί η μέση ένταση ενός αρχείου ήχου (όχι οι απότομες αλλαγές της), έτσι ώστε η ένταση να μην αλλάζει μεταξύ των συνεχόμενων κομματιών. Αυτό δεν πρέπει να συγχέεται με τη δυναμική συμπίεση ορίων (DRC, dynamic range compression) η οποία είναι μία μορφή εξομάλυνσης ήχου που χρησιμοποιείται κατά τη διάρκεια παραγωγής μουσικής.
Η πιο δημοφιλής και διαδεδομένη λύση για την αποθήκευση της αύξησης του ήχου κατά την αναπαραγωγή είναι απλά γνωστή ως "Replay Gain" (αύξηση ήχου στην αναπαραγωγή). Συνήθως, η μέση ένταση και η πληροφορία αύξησης ή μείωσης της για το κομμάτι του ήχου αποθηκεύεται στην ετικέτα που περιέχει τα μεταδεδομένα (metadata tag)
Κάποιος χρήστης μπορεί κατεβάσει λογισμικό από το ίντερνετ για να κάνει αλλαγές του είδους.
Ένας μεγάλος αριθμός οργανισμών διεκδίκησε την ιδιοκτησία των ευρεσιτεχνιών που απαιτούνται για την υλοποίηση του προτύπου MP3 (κωδικοποίηση ή/και αποκωδικοποίηση). Αυτές οι διεκδικήσεις οδήγησαν στη λήψη ενός αριθμού νομικών μέτρων και νομικών απειλών από διάφορες πηγές, έχοντας ως αποτέλεσμα την αβεβαιότητα σχετικά με το τι είναι απαραίτητο για να παραχθούν προϊόντα που υποστηρίζουν το MP3 και να είναι νόμιμα, σε χώρες που επιτρέπουν τις ευρεσιτεχνίες λογισμικού.
Οι διάφορες ευρεσιτεχνίες, που διεκδικούνται από τους (πολλούς) κατόχους τους, έχουν και διαφορετικές ημερομηνίες λήξης, οι οποίες βρίσκονται ανάμεσα στο 2007 και το 2017 στις ΗΠΑ. Όμως, οι ευρεσιτεχνίες στις ΗΠΑ μπορούν να διαρκέσουν μέχρι 20 χρόνια, και οι προδιαγραφές του MP3 παρουσιάστηκαν το 1991, οπότε αν τα δικαστήρια των ΗΠΑ εφάρμοζαν το νόμο, καμία ευρεσιτεχνία δεν θα μπορούσε να υφίσταται για το MP3 πέρα από το 2011. Στις ΗΠΑ οποιαδήποτε ευρεσιτεχνία διεκδικεί την κάλυψη των βασικών χαρακτηριστικών του MP3 μετά το 2012 θα πρέπει (σύμφωνα με το νόμο) να απορριφθεί ως μη ισχύουσα ευρεσιτεχνία, εξ αιτίας του ότι ήδη έχουν εκδοθεί οι προδιαγραφές περισσότερο από ένα χρόνο από την κατάθεση της ευρεσιτεχνίας. Αν έχει εκδοθεί ακόμα νωρίτερα (όπως για παράδειγμα σε δημόσια προσχέδια), η τελευταία ημερομηνία θα είναι ακόμα νωρίτερα. Παρόλα αυτά, είναι ασαφές αν τα δικαστήρια των ΗΠΑ θα το επιβάλουν αυτό. Παρόμοια είναι η κατάσταση και σε άλλες χώρες που επιτρέπουν ευρεσιτεχνίες λογισμικού.
Η εταιρεία Thomson Consumer Electronics διεκδικεί την αδειοδότηση των ευρεσιτεχνιών του MPEG-1/2 Επιπέδου 3 σε πολλές χώρες, συμπεριλαμβανομένων και των ΗΠΑ, Ιαπωνίας, Καναδά και των χωρών της Ευρωπαϊκής ένωσης. Η Thompson επιβάλλει ενεργά αυτές τις ευρεσιτεχνίες. Λόγω των διαφορετικών πρακτικών στις χώρες της Ευρώπης, όταν κατοχυρώνουν ευρεσιτεχνίες για εφευρέσεις που υλοποιούνται με υπολογιστές με βάση την Ευρωπαϊκή σύμβαση ευρεσιτεχνιών, είναι ασαφές αν τα Εθνικά δικαστήρια μπορούν να υπεραμυνθούν αυτών των ευρεσιτεχνιών.
Για πρόσφατες πληροφορίες σχετικά με το ίδρυμα Fraunhofer και τις ευρεσιτεχνίες της Thomson όπως και για τους όρους αδειοδότησης και τα τέλη χρήσης, δείτε την ιστοσελίδα τους mp3licensing.com. Η άδειες για το MP3 απέφεραν έσοδα €100 εκ. για τo Ινστιτούτο Fraunhofer το 2005.
Τον Σεπτέμβριο του 1998 το Ίδρυμα Fraunhofer έστειλε μία επιστολή σε αρκετούς παραγωγούς λογισμικού για MP3 δηλώνοντας ότι απαιτείτο άδεια για τη "διανομή ή/και πώληση κωδικοποιητών ή αποκωδικοποιητών". Η επιστολή ανέφερε ότι "μη αδειοδοτημένα προϊόντα παραβιάζουν τα δικαιώματα των ευρεσιτεχνιών του Ιδρύματος και της Thomson. Για την παραγωγή, πώληση ή/και διανομή προϊόντων που χρησιμοποιούν το πρότυπο MPEG Επίπεδο-3, απαιτείται να αποκτήσετε άδεια για τη χρήση αυτών των ευρεσιτεχνιών από εμάς". Αρχειοθετήθηκε 2014-08-19 στο Wayback Machine.
Τα θέματα αυτά σχετικά με τις ευρεσιτεχνίες καθυστέρησαν αρκετά την ανάπτυξη ελεύθερου λογισμικού (χωρίς άδεια για χρήση δηλαδή) και εστίασαν περισσότερο το ενδιαφέρον για τη δημιουργία και την προώθηση ως πιο δημοφιλή εναλλακτικών μορφών αρχείων και κωδικοποίησης όπως το WMA και το Ogg Vorbis.
Η Microsoft, δημιουργός των λειτουργικών συστημάτων Windows, επέλεξε να αποχωριστεί από το MP3 και να δημιουργήσει τη δική της, "ιδιωτική" μορφή Windows Media, για να αποφύγει θέματα αδειοδότησης που είχαν σχέση με τις ευρεσιτεχνίες. Μέχρι να λήξουν οι προθεσμίες των ευρεσιτεχνιών, προγράμματα κωδικοποίησης και αναπαραγωγής δημιουργούν θέματα παραβίασης δικαιωμάτων σε όσες χώρες αναγνωρίζονται αυτές οι ευρεσιτεχνίες.
Παρ' όλους τους περιορισμούς λόγω ευρεσιτεχνιών, η ύπαρξη της μορφής MP3 συνεχίζεται. Οι λόγοι για τους οποίους το MP3 είναι τόσο δημοφιλές φαίνεται να είναι οι εξής:
Επιπρόσθετα, οι κάτοχοι των ευρεσιτεχνιών αρνήθηκαν να ζητήσουν δικαιώματα από αποκωδικοποιητές ανοιχτού κώδικα, επιτρέποντας έτσι να αναπτυχθούν πολλοί αποκωδικοποιητές [MP3]. [εκκρεμεί παραπομπή]. Εκτός αυτού, ενώ έγιναν προσπάθειες να αποθαρρυνθούν όσοι διένειμαν κωδικοποιητές, η Thomson δήλωσε ότι όσα άτομα χρησιμοποιούν δωρεάν κωδικοποιητές δεν απαιτείται να πληρώσουν δικαιώματα. Έτσι, ενώ τα θέματα των δικαιωμάτων υφίσταντο για τις εταιρείες που προσπαθούσαν να χρησιμοποιήσουν το MP3, δεν επηρέασαν επί της ουσίας τους χρήστες, επιτρέποντας στη μορφή αυτή να γίνει δημοφιλέστερη.
Η εταιρεία Sisvel S.p.A και η θυγατρική της στις Η.Π.Α. Audio MPEG, Inc. είχαν μηνύσει παλαιότερα την Thomson για παραβίαση ευρεσιτεχνιών σχετικών με την τεχνολογία του MP3 , αλλά αυτές οι διαφορές επιλύθηκαν τον Νοέμβριο του 2005, οπότε η Sisvel έδωσε άδεια στην Thomson για τις ευρεσιτεχνίες της. Επίσης, η Motorola πρόσφατα υπέγραψε συμφωνία με την Audio MPEG για τη αδειοδότηση των σχετικών με το MP3 ευρεσιτεχνιών.
Το Σεπτέμβριο του 2006 Γερμανοί αξιωματούχοι κατάσχεσαν συσκευές MP3 από το περίπτερο της Sandisk στην Έκθεση "IFA Show" στο Βερολίνο, αφού μία Ιταλική εταιρεία ευρεσιτεχνιών πέτυχε την εφαρμογή ασφαλιστικών μέτρων εκ μέρους της Sisvel και εναντίον της Sandisk σε μία διαμάχη σχετικά με την αδειοδότηση των δικαιωμάτων. Τα ασφαλιστικά μέτρα ακυρώθηκαν αργότερα από δικαστή του Βερολίνου , αλλά η ακύρωση αυτή ανακλήθηκε την ίδια μέρα από έναν άλλο δικαστή του ίδιου δικαστηρίου, "δημιουργώντας μία βεντέτα τύπου άγριας δύσης στις ευρεσιτεχνίες στη Γερμανία" όπως ανέφερε ο σχολιαστής
Στις 16 Φεβρουαρίου του 2007, η εταιρεία Texas MP3 Technologies μήνυσε την Apple, τη Samsung Electronics και τη Sandisk για παραβίαση ευρεσιτεχνιών σχετικά με τις φορητές συσκευές αναπαραγωγής MP3. Η μήνυση κατατέθηκε στο Marshall του Τέξας. Αυτή η περιοχή είναι συνηθισμένη για τις μηνύσεις που γίνονται σχετικά με θέματα καταπάτησης ευρεσιτεχνιών, γιατί οι δίκες γίνονται πολύ γρήγορα και οι ένορκοι συχνά παίρνουν το μέρος του ενάγοντα.
Η Texas MP3 Technologies υποστήριξε παραβίαση της ευρεσιτεχνίας των Η.Π.Α με αριθμό 7065417, που κατοχυρώθηκε τον Ιούνιο του 2006 στην εταιρεία κατασκευής μικροτσίπ πολυμέσων SigmaTel και κάλυπτε "ένα φορητό σύστημα αναπαραγωγής ήχου MPEG και μία μέθοδο για την αναπαραγωγή δεδομένων ήχου συμπιεσμένου με τη μέθοδο MPEG" [1]
Η Alcatel-Lucent διεκδικεί, επίσης, την ιδιοκτησία αρκετών ευρεσιτεχνιών σχετικών με το MP3 και την κωδικοποίηση/αποκωδικοποίηση του. Τον Νοέμβριο του 2006, (πριν από τη συγχώνευση των 2 εταιρειών), η Alcatel κατέθεσε αγωγή εναντίον της Microsoft ισχυριζόμενη παραβίαση επτά ευρεσιτεχνιών της. Στις 23 Φεβρουαρίου του 2007 ένα δικαστήριο του Σαν Ντιέγκο υπεραμύνθηκε της αγωγής και επιδίκασε στην Alcatel-Lucent αποζημίωση - ρεκόρ των 1.52 δισ. δολλαρίων για ζημίες που υπέστη η εταιρεία.[2] Η Microsoft δήλωσε ότι θα ασκήσει έφεση κατά της απόφασης, υποστηρίζοντας ότι η απόφαση του ομοσπονδιακού δικαστηρίου είναι "αστήρικτη, βασιζόμενη στον Νόμο και στην πραγματικότητα" καθώς η Microsoft είχε ήδη πληρώσει 16 εκ. δολλάρια για την άδεια των δικαιωμάτων από το ίδρυμα Fraunhofer IIS το οποίο, υποστηρίζει, είναι ο αναγνωρισμένος αδειοδότης που αναγνωρίζει η βιομηχανία. [3]. Μία βδομάδα αργότερα, ο δικαστής της περιφέρειας των Η.Π.Α. Rudi Brewster αποφάσισε ότι όσα υποστήριζε η Alcatel-Lucent's σχετικά με MP3 δεν ισχύουν. Η Alcatel-Lucent σχεδιάζει να ασκήσει έφεση. [4].
Εν συντομία, επειδή η Thomson το Ίδρυμα Fraunhofer, η Sisvel (καθώς και η θυγατρική της στις ΗΠΑ Audio MPEG), η Texas MP3 Technologies και η Alcatel-Lucent διεκδικούν τον νομικό έλεγχο όλων των σχετικών με το MP3 ευρεσιτεχνιών, η νομική υπόσταση του MP3 και των σχετικών ευρεσιτεχνιών είναι ασαφής σε όσες χώρες επιτρέπουν τις ευρεσιτεχνίες λογισμικού.
Υπάρχουν διάφοροι άλλοι κωδικοποιητές (codecs) είτε απωλεστικής είτε μη απωλεστικής συμπίεσης. Μεταξύ αυτών τα mp3PRO, AAC & MP2 είναι όλα μέλη της ίδιας οικογένειας τεχνολογίας σαν του MP3 και πάνω κάτω βασίζονται στα ίδια ψυχοακουστικά μοντέλα. Το ίδρυμα Fraunhofer κατέχει πολλές από τις βασικές ευρεσιτεχνίες πάνω στις οποίες βασίζονται αυτοί οι κωδικοποιητές, ενώ άλλοι είναι ιδιοκτησία των Dolby Labs, Sony, Thomson Consumer Electronics, και AT&T.
Το 2005 σε μία ακουστική δοκιμή, η οποία συνέκρινε την απόδοση του κωδικοποιητή MP3 LAME με πιο νέες μορφές συμπίεσης ήχου στα 128Kbit/δευτ., παρατηρήθηκε ότι δεν υπήρχε εμφανής στατιστική διαφορά μεταξύ των LAME, [Ogg Vorbis], αρκετών κωδικοποιητών AAC και του WMA. Όμως, σε μία δοκιμή στα 32Kbit/δευτ., φάνηκε οτι το MP3 ήταν εμφανώς χειρότερο από τις πιο νέες μορφές συμπίεσης ήχου σε χαμηλότερους ρυθμούς bit.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.